一种声纹识别方法及系统
- 国知局
- 2024-06-21 11:47:18
本发明涉及声音识别,具体涉及一种声纹识别方法及系统。
背景技术:
1、在当今数字化时代,生物识别技术不断演进,为身份验证和安全性提供了新的前景。声音是一种极富个性化的生物特征,每个人都有独特的发音方式、音调、语速和口音。这种独特性为声纹识别提供了一种便捷、非侵入性的身份验证方式,可以应用于各种领域,如手机解锁、云服务访问、电话客服等。
2、然而,声音的独特性并不仅仅来源于说话者自身,环境因素也可以在声音中留下痕迹。例如,办公室谈话声、街道鸣笛声、喧闹声等都会对声纹识别产生影响。然而,传统的声纹识别方法通常只关注说话者的声音特征,而忽略了环境因素可能对声音产生的影响,导致对噪声场景中的声纹识别准确性较低的问题。
3、因此,亟需提供一种声纹识别方法及系统,用于解决上述技术问题。
技术实现思路
1、有鉴于此,有必要提供一种声纹识别方法及系统,用以解决现有技术中存在的对噪声场景中的声纹识别准确性较低的技术问题。
2、一方面,本发明提供了一种声纹识别方法,包括:
3、获取包括环境声音的待识别语音,并基于最小均方自适应滤波器对所述待识别语音进行降噪处理,获得降噪语音;
4、基于小波倒谱熵算法对所述降噪语音进行特征提取,获得特征向量;
5、将所述特征向量输入至训练完备的声纹识别模型中进行识别,获得识别结果;
6、其中,所述声纹识别模型包括第一时延神经网络层、选择核心特征提取层、第二时延神经网络层、带有多头注意力的时序池化层、线性变换层以及损失函数层。
7、在一些可能的实现方式中,所述待识别语音包括多帧待识别语音帧;则所述基于最小均方自适应滤波器对所述待识别语音进行降噪处理,获得降噪语音,包括:
8、获取第一帧待识别语音帧以及所述第一帧待识别语音帧对应的参考语音帧;
9、获取所述最小均方自适应滤波器的初始滤波器系数,并基于所述初始滤波器系数确定所述第一帧待识别语音帧的估计语音帧;
10、基于所述参考语音帧和所述估计语音帧对所述初始滤波器系数进行调整,获得调整滤波器系数,并基于所述调整滤波器系数确定除所述第一帧待识别语音帧之外的其他帧待识别语音帧对应的关联滤波器系数;
11、基于所述调整滤波器系数对所述第一帧待识别语音帧进行降噪处理,并基于所述关联滤波器系数对其他帧待识别语音帧进行降噪处理,获得所述降噪语音。
12、在一些可能的实现方式中,所述基于小波倒谱熵算法对所述降噪语音进行特征提取,获得特征向量,包括:
13、基于预设步长对所述降噪语音进行分段,获得多个降噪语音片段;
14、对各所述降噪语音片段进行小波变换,获得所述降噪语音片段的频率谱;
15、确定所述频率谱的倒谱,并将所述倒谱的对数值作为幅度谱;
16、将所述幅度谱进行傅里叶逆变换,获得小波倒谱系数;
17、将所述小波倒谱系数进行非归一化香农熵处理,获得熵系数,并将所述多个降噪语音片段的所述熵系数进行拼接,获得所述特征向量。
18、在一些可能的实现方式中,所述特征向量为:
19、
20、
21、
22、
23、式中,为特征向量;为第k个降噪语音片段的小波倒谱系数;n为降噪语音片段的总个数;第k个降噪语音片段的熵系数;为绝对值运算符;为傅里叶逆变换表示符;为幅度谱;为频率谱。
24、在一些可能的实现方式中,所述将所述特征向量输入至训练完备的声纹识别模型中进行识别,获得识别结果,包括:
25、基于所述第一时延神经网络层对所述特征向量进行局部特征提取,获得第一特征;
26、基于所述选择核心特征提取层对所述第一特征进行多通道变换和加权处理,获得第二特征;
27、基于所述第二时延神经网络层对所述第一特征和所述第二特征进行多特征拼接,获得拼接特征;
28、基于所述带有多头注意力的时序池化层对所述拼接特征进行特征提取,获得第三特征;
29、基于所述线性变换层对所述第三特征进行线性变化,获得目标特征;
30、基于所述损失函数层对所述目标特征进行分类,获得所述识别结果。
31、在一些可能的实现方式中,所述第一时延神经网络层包括第一一维卷积层、第一激活函数层和第一批量归一化层;所述基于所述第一时延神经网络层对所述特征向量进行局部特征提取,获得第一特征,包括:
32、基于所述第一一维卷积层对所述特征向量进行局部特征提取,获得初始特征;
33、基于所述第一激活函数层对所述初始特征进行非线性变换,获得非线性特征;
34、基于所述第一批量归一化层对所述非线性特征进行归一化处理,获得所述第一特征。
35、在一些可能的实现方式中,所述选择核心特征提取层包括第二一维卷积层、多尺度特征提取层、第三一维卷积层以及选择核心单元;所述基于所述选择核心特征提取层对所述第一特征进行多通道变换和加权处理,获得第二特征,包括:
36、基于所述第二一维卷积层对所述第一特征进行通道变换,获得第一通道特征、第二通道特征、第三通道特征和第四通道特征;
37、基于所述多尺度特征提取层将所述第二通道特征进行卷积操作,获得第二卷积特征,将所述第二卷积特征与所述第三通道特征进行叠加,获得第一叠加特征,将所述第一叠加特征进行卷积操作,获得第三卷积特征,将所述第三卷积特征与所述第四通道特征进行叠加,获得第二叠加特征,并将所述第二叠加特征进行卷积操作,获得第四卷积特征;
38、基于所述第三一维卷积层对所述第一通道特征、所述第二卷积特征、所述第三卷积特征以及所述第四卷积特征进行融合,获得融合特征;
39、基于所述选择核心单元对所述融合特征进行自适应加权处理,获得所述第二特征。
40、在一些可能的实现方式中,所述带有多头注意力的时序池化层包括四个注意力单元,则所述基于所述带有多头注意力的时序池化层对所述拼接特征进行特征提取,获得第三特征,包括:
41、确定各所述注意力单元的注意力权重;
42、将所述拼接特征进行划分为与所述四个注意力单元对应的四个拼接子特征;
43、基于所述注意力权重对所述四个拼接子特征进行加权处理,获得所述第三特征。
44、在一些可能的实现方式中,所述损失函数层的损失函数为:
45、
46、
47、式中,为损失函数的损失值;n为样本总数;s为特征尺度参数;m为角裕度参数;为第i个声音样本与第i个声音样本的识别结果的夹角值;为第i个声音样本与第i个声音样本的类别标签的夹角值;为第j个声音样本的第k个中心点的特征向量;k为第j个声音样本的中心点总数量;为第i个人的平均特征向量。
48、另一方面,本发明还提供了一种声纹识别系统,包括:
49、语音降噪单元,用于获取包括环境声音的待识别语音,并基于最小均方自适应滤波器对所述待识别语音进行降噪处理,获得降噪语音;
50、特征向量获取单元,用于基于小波倒谱熵算法对所述降噪语音进行特征提取,获得特征向量;
51、识别单元,用于将所述特征向量输入至训练完备的声纹识别模型中进行识别,获得识别结果;
52、其中,所述声纹识别模型包括第一时延神经网络层、选择核心特征提取层、第二时延神经网络层、带有多头注意力的时序池化层、线性变换层以及损失函数层。
53、采用上述实现方式的有益效果是:本发明提供的声纹识别方法,通过基于最小均方自适应滤波器对待识别语音进行降噪处理,可滤除环境中的大部分噪音,实现了即使待识别语音中包括大量环境噪声,也可对待识别语音进行准确识别的技术效果。进一步地,本发明通过设置声纹识别模型包括选择核心特征提取层,可自适应调节不同大小的感受野,从而增强特征的表示能力,有助于提取更丰富、更准确的特征信息,提高了声纹识别模型对带有环境声音的待识别语音的识别准确性,并且,通过设置带有多头注意力的时序池化层,可增强对重要特征的关注并抑制对不重要特征的影响,从而提高了声纹识别模型的表现力和准确性,进而进一步提高了声纹识别模型对带有环境声音的待识别语音的识别准确性。
本文地址:https://www.jishuxx.com/zhuanli/20240618/23568.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。
下一篇
返回列表