技术新讯 > 乐器声学设备的制造及制作,分析技术 > 声纹识别方法、装置、电子设备及存储介质与流程  >  正文

声纹识别方法、装置、电子设备及存储介质与流程

  • 国知局
  • 2024-06-21 11:31:31

本技术涉及计算机的,具体而言,涉及一种声纹识别方法、装置、电子设备及存储介质。

背景技术:

1、vad(voice activity detection,语音活动检测)与声纹识别方案一般通过级联训练好的vad模型及训练好的声纹识别模型来解决。具体的,现有技术首先对输入的原始语音信号做滤波、去均值等预处理,再计算预处理后的语音信号的mfcc(mel-scalefrequency cepstral coefficients,梅尔频率倒谱系数)、stft(short-time fouriertransform,短时傅里叶变换)等特征,将mfcc、stft等特征输入至预训练好的vad模型得到每帧语音信号的标签,接着基于标记为人声的语音信号提取声纹识别模型所需的特征,如i-vector/d-vector/x-vector等特征,最后将i-vector/d-vector/x-vector等特征输入声纹识别模型进行身份匹配识别,得到最终结果。但提取mfcc、stft等特征,以及提取i-vector/d-vector/x-vector等特征需要耗费较多的计算资源。

技术实现思路

1、本技术提供一种声纹识别方法、装置、电子设备及存储介质,以解决现有技术中,提取特征需要耗费较多计算资源的问题。

2、第一方面,本技术提供一种声纹识别方法,包括:获取待检测音频信号;提取所述待检测音频信号的stft特征;将所述stft特征输入预先训练好的vad模型中,得到表征所述待检测音频信号为人声的概率值;当所述概率值大于预设阈值的情况下,基于所述概率值、所述概率值对应的stft特征以及预先训练好的声纹识别模型,得到表征声音对象的输出结果。

3、本技术实施例中,仅需要对待检测音频信号提取一次特征,声纹识别模型的输入数据由vad模型输出的概率值和stft特征融合得到。相较于现有技术中需要分别提取两次特征的方式,本方案能减少提取特征的次数。

4、结合上述第一方面提供的技术方案,在一些可能的实施方式中,所述待检测音频信号有n个,n为正整数;相应的,提取所述待检测音频信号的stft特征,包括:针对每个所述待检测音频信号,提取该待检测音频信号的stft特征;相应的,将所述stft特征输入预先训练好的vad模型中,得到表征所述待检测音频信号为人声的概率值,包括:将每个所述待检测音频信号的stft特征,分别输入所述预先训练好的vad模型中,得到每个所述待检测音频信号对应的概率值;相应的,当所述概率值大于预设阈值的情况下,基于所述概率值、所述概率值对应的stft特征以及预先训练好的声纹识别模型,得到表征声音对象的输出结果,包括:针对每个所述待检测音频信号对应的概率值,当该概率值大于预设概率阈值的情况下,记录该概率值及该概率值对应的stft特征;当记录的概率值的数量达到h的情况下,将记录的h个所述概率值和h个所述stft特征融合,得到目标特征;其中,h为正整数;将所述目标特征输入预先训练好的声纹识别模型,得到表征声音对象的输出结果。

5、本技术实施例中,通过将h个概率值和h个stft特征融合得到目标特征,由于目标特征中包含的stft特征更多,使得目标特征更能体现发声对象的特点。且将h个概率值和h个stft特征融合,使得声纹识别模型的检测过程能充分考虑vad模型的检测结果。从而使得声纹识别模型基于该目标特征识别得到的结果更加准确,提高最终得到的输出结果的准确性。

6、结合上述第一方面提供的技术方案,在一些可能的实施方式中,将所述h个概率值和h个stft特征融合,得到目标特征,包括:将所述h个stft特征拼接为第一初始特征,其中,所述第一初始特征为h×w的矩阵,w为所述stft特征的长度;将每个概率值扩展为1×w的矩阵,其中,该1×w矩阵中的每个元素的值均为该矩阵对应的概率值;将所述h个概率值各自对应的1×w的矩阵拼接为的第二初始特征,所述第二初始特征为h×w的矩阵;将所述第一初始特征和所述第二初始特征融合,得到目标特征。

7、本技术实施例中,通过将h个概率值扩展为与第一初始特征的维度相同的第二初始特征,从而便于第一初始特征和第二初始特征融合,提高第一初始特征和第二初始特征的融合度。

8、结合上述第一方面提供的技术方案,在一些可能的实施方式中,将所述第一初始特征和所述第二初始特征融合,得到目标特征,包括:将所述第一初始特征与所述第二初始特征进行拼接,得到所述目标特征。

9、结合上述第一方面提供的技术方案,在一些可能的实施方式中,将所述第一初始特征和所述第二初始特征融合,得到目标特征,包括:将所述第一初始特征与所述第二初始特征进行相乘处理,得到所述目标特征。

10、结合上述第一方面提供的技术方案,在一些可能的实施方式中,所述vad模型和所述声纹识别模型通过以下步骤训练得到:获取训练样本集,其中,所述训练样本集包括多个样本音频数据,每个所述样本音频数据标记有表征是否为人声以及声音对象的标签;提取所述样本音频数据的stft特征,得到的第一训练特征;将所述第一训练特征输入初始vad模型中,得到表征所述待检测音频信号为人声的概率值;基于所述样本音频数据的标签和所述概率值,得到所述初始vad模型的第一损失值;将所述概率值扩展为的初始第二训练特征,其中,所述初始第二训练特征的维度与所述第一训练特征相同,所述初始第二训练特征中的每个元素的值均为所述初始第二训练特征对应的概率值;将所述初始第二训练特征和所述第一训练特征融合,得到第二训练特征;将所述第二训练特征输入初始声纹识别模型中,得到表征声音对象的训练输出结果;基于所述样本音频数据的标签和所述训练输出结果,得到所述初始声纹识别模型的第二损失值;基于所述第一损失值和所述第二损失值,得到目标损失值;基于所述目标损失值对所述初始vad模型和所述初始声纹识别模型的参数进行更新;重复上述训练过程,直至满足目标条件,得到训练好的所述vad模型和所述声纹识别模型。

11、本技术实施例中,通过将第一损失值和第二损失值融合得到目标损失值进而利用目标损失值对初始vad模型和初始声纹识别模型的参数进行更新,从而实现初始vad模型和初始声纹识别模型的联合训练,保证vad模型和声纹识别模型的特征空间一致,从而提高vad模型和声纹识别模型的识别准确率。

12、结合上述第一方面提供的技术方案,在一些可能的实施方式中,基于所述第一损失值和所述第二损失值,得到目标损失值,包括:基于预设的权重值、所述第一损失值和所述第二损失值进行加权求和处理,得到所述目标损失值。

13、第二方面,本技术提供一种声纹识别装置,包括:获取模块、处理模块,获取模块用于获取待检测音频信号;处理模块用于提取所述待检测音频信号的stft特征所述处理模块还用于将所述stft特征输入预先训练好的vad模型中,得到表征所述待检测音频信号为人声的概率值;所述处理模块还用于当所述概率值大于预设阈值的情况下,基于所述概率值、所述概率值对应的stft特征以及预先训练好的声纹识别模型,得到表征声音对象的输出结果。

14、第三方面,本技术提供一种电子设备,包括:存储器和处理器,所述存储器和所述处理器连接;所述存储器,用于存储程序;所述处理器,用于调用存储于所述存储器中的程序,以执行上述第一方面和/或结合上述第一方面任一可能的实施方式所述的方法。

15、第四方面,本技术提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被计算机运行时,执行上述第一方面和/或结合上述第一方面任一可能的实施方式所述的方法。

本文地址:https://www.jishuxx.com/zhuanli/20240618/22045.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。