技术新讯 > 乐器声学设备的制造及制作,分析技术 > 一种声纹模型生成方法、系统、电子设备和存储介质与流程  >  正文

一种声纹模型生成方法、系统、电子设备和存储介质与流程

  • 国知局
  • 2024-06-21 11:47:36

本发明涉及一种模型生成方法、系统、电子设备和存储介质,尤其涉及一种声纹模型生成方法、系统、电子设备和存储介质。

背景技术:

1、在当今人工智能高速发展的形势下,随着人们对车辆性能和安全要求的不断提高,汽车控制越来越人性化、智能化。语音控制作为新兴技术手段逐渐受到追捧,语音交互目前主要被应用于手机、智能家居、可穿戴设备和汽车中。其中,车载语音作为新车的标配,正在从固有对话模式向更加富有个性化和情感化的语音交互方向转变。

2、在车载语音系统中,声纹识别技术可应用在其中,通过声音可以快速完成车主身份认证。目前,声纹识别技术主要包括4个步骤,(1)说话人语音信号的预处理和特征提取;(2)模型参数的训练和说话人模型的建立;(3)测试语音与说话人模型的匹配计算;(4)识别与判决策略,进行说话人辨认或者确认。

3、在声纹识别领域,获取的说话人语音质量严重地影响了声纹特征,导致对声纹识别的识别率结果影响巨大。另一方面,驾驶人的注册语音和识别时的语音质量的差异,也会影响最终的识别结果。包括注册和识别时驾驶人所在的环境变化,语速语调变化等都会影响识别结果。例如驾驶人选择在安静场景下进行声纹注册,此时获取到的音频信噪比较高,但在非常嘈杂,噪声较大的场景下进行识别确认,此时获取的音频信噪比偏低。驾驶人注册和识别的场景状态差异大,导致声纹识别的通过率变低。尤其在车内空间狭小情况下,噪声问题尤为突出,首先是车辆上存在很多非平稳噪声。所谓非平稳,即是难以预测的。在汽车的环境下,除了可预测的噪音,包括来自于发动机、车辆在路面上行驶产生的噪音,这些很容易在实验中进行模拟并进行剔除。但更多的各种意外状况下出现的噪声:路过一家大声放着音乐的cd店、旁边的卡车突然按了下喇叭,车内孩子的突然哭喊声等不可控的意外噪声都是影响声纹识别通过率的重要因素。因此如何提高车载系统种的声纹识别性能和抗干扰能力,提高说话人模型的鲁棒性,是亟需解决的技术问题。

技术实现思路

1、本发明的目的在于提供一种声纹模型生成方法、系统、电子设备和存储介质,首先要解决的技术问题是将当前语音进行对应的场景范围进行划分,根据划分语音后对应的场景范围不同进行不同的音频处理,通过特征提取得到对应不同的特征向量,进而得到注册声纹模型,解决现有技术存在的缺憾。

2、本发明提供了下述方案:

3、一种声纹模型生成方法,包括:

4、获取当前语音中的有效语音,根据信噪比对当前语音进行划分,获得划分后语音对应的场景范围;

5、根据划分语音后对应的场景范围不同,对原音频数据进行增强处理、降噪处理或变速处理;

6、对经过处理后的音频数据和原语音进行特征提取,得到对应不同的特征向量;

7、重复上述步骤,直到得到注册声纹模型。

8、进一步的,所述获取当前语音中的有效语音,进一步包括:获取注册音频,对所述注册音频进行vad端点检测,获取当前语音中的有效语音。

9、进一步的,所述根据划分语音后对应的场景范围不同,对原音频数据进行增强处理、降噪处理或变速处理,具体为:

10、如果划分后语音对应的场景范围为安静,则基于ivector算法对原音频数据进行增强处理,获得增强处理后的音频数据,对增强处理后的音频数据和原音频数据进行特征提取,并进行权重分配和求和运算,得到第一ivector向量。

11、进一步的,所述根据划分语音后对应的场景范围不同,对原音频数据进行增强处理、降噪处理或变速处理,具体为:

12、如果划分后语音对应的场景范围为噪声,则对当前语音进行降噪处理,基于ivector算法对降噪处理后的音频数据和原语音进行特征提取,并进行权重分配和求和运算,得到第二ivector向量;

13、进一步的,如果划分后语音对应的场景范围为一般,则对当前语音进行变速增强处理,得到变速后的音频数据,将原音频数据和变速后的音频数据进行特征提取,并进行权重分配和求和运算,得到第三ivector向量。

14、进一步的,对所述注册音频进行vad端点检测,获得有效语音,进一步包括:

15、如果检测到语音流的中无效语音,则删除无效语音,保留有效语音;

16、计算信噪比,根据信噪比将当前语音划分到其对应的场景范围,所述场景范围包括安静、一般和噪声。

17、进一步的,所述无效语音包括静音或非人声。

18、一种声纹模型生成系统,包括:

19、语音场景范围划分模块,获取当前语音中的有效语音,根据信噪比对当前语音进行划分,获得划分后语音对应的场景范围;

20、音频数据处理模块,根据划分语音后对应的场景范围不同,对原音频数据进行增强处理、降噪处理或变速处理;

21、特征向量生成模块,对经过处理后的音频数据和原语音进行特征提取,得到对应不同的特征向量;

22、声纹模型生成系统重复上述模块,直到得到注册声纹模型。

23、一种电子设备,其特征在于,包括:处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;所述存储器中存储有计算机程序,当所述计算机程序被所述处理器执行时,使得所述处理器执行所述方法的步骤。

24、一种计算机可读存储介质,其特征在于,其存储有可由电子设备执行的计算机程序,当所述计算机程序在所述电子设备上运行时,使得所述电子设备执行所述方法的步骤。

25、本发明与现有技术相比具有以下的优点:

26、本发明通过区分不同场景,进行不同的数据增强后,再提取表征说话人声纹的特征向量,能够有效提高说话人模型的鲁棒性。在说话人注册和识别场景差异较大时,能通过信号的增强提高对说话人身份的识别度,具有良好识别性能和抗噪能力。

27、本发明针对目前车载系统中声纹识别算法存在生成的说话人模型鲁棒性差、注册和识别时场景差异大而导致识别率低的问题,提出了一种用于车载系统中驾驶人识别的声纹模型生成方法。主要关键技术点包括以下内容:首先进行驾驶人声纹模型注册,获取说话人的单次注册语音。注册音频通过vad端点检测,保留有效语音段,然后计算分段信噪比segsnr。根据segsnr将音频区分成不同场景状态,即安静、一般和噪声。基于不同场景状态进行不同的数据增强处理。

28、在安静场景下,对获取的语音加入车内自然噪声,车外模拟噪声,加混响和变速的数据增强处理;在噪声场景下,对获取的语音进行维纳滤波降噪和变速的数据增强处理;一般场景下则只进行变速处理。然后对数据增强后的音频和原音频通过训练好的ivector提取器分别提取其对应的ivector向量,最后对各音频对应的ivector分配不同权重,加权求和得到当前音频的ivector向量。

29、通过区分不同场景,采取不同的数据增强方法后,再提取表征说话人声纹的特征向量,能够有效提高说话人模型的鲁棒性。在说话人注册和识别场景差异较大时,能通过信号的增强提高对驾驶人身份的识别度,具有良好识别性能和抗噪能力。

本文地址:https://www.jishuxx.com/zhuanli/20240618/23593.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。