一种车载声纹唤醒方法、装置、电子设备及存储介质与流程
- 国知局
- 2024-06-21 11:47:25
本发明实施例涉及语音处理,尤其涉及一种车载声纹唤醒方法、装置、电子设备及存储介质。
背景技术:
1、目前的声纹唤醒的解决方案大多是将这个任务分解为两个单独的任务:声纹识别和语音唤醒任务。对每一个任务单独构建网络,单独训练,得到单独的模型,最后将各自模型的结果进行联合完成任务需求。
2、但是声纹的提取需要足够多的音频信息,多是大于3s的音频数据,声纹唤醒场景下由于唤醒词的长度短,因此往往音频的长度只有1s左右,达不到单独声纹提取网络的要求,造成声纹唤醒整体的性能低下;另外,在车载这个特定的场景下,语音环境复杂,包含多种噪声,常规的数据集无法覆盖此场景,会造成训练得到的网络在实际应用中达不到很好的性能
技术实现思路
1、本发明实施例提供一种车载声纹唤醒方法、装置、电子设备及存储介质,以将声纹提取和语音唤醒两个任务在网络和算法的层面联合,使声纹唤醒模型具有唯一的结果,提高模型的准确率。
2、第一方面,本发明实施例提供了一种车载声纹唤醒方法,包括:
3、构建声纹唤醒数据集以及声纹唤醒网络;所述声纹唤醒网络是由声纹识别网络与语音唤醒网络进行拟合得到的;
4、获取车载场景下的车载噪声数据,并将具备模拟能力的车载噪声数据添加至声纹唤醒数据集中,对声纹唤醒数据集进行车载噪声增强;
5、采用车载噪声增强后的声纹唤醒数据集对声纹唤醒网络进行训练得到目标声纹唤醒网络,并采用所述目标声纹唤醒网络对车载声纹进行唤醒。
6、第二方面,本发明实施例还提供了一种车载声纹唤醒装置,包括:
7、信息构建模块,用于构建声纹唤醒数据集以及声纹唤醒网络;所述声纹唤醒网络是由声纹识别网络与语音唤醒网络进行拟合得到的;
8、车载噪声增强模块,用于获取车载场景下的车载噪声数据,并将具备模拟能力的车载噪声数据添加至声纹唤醒数据集中,对声纹唤醒数据集进行车载噪声增强;
9、车载声纹唤醒模块,用于采用车载噪声增强后的声纹唤醒数据集对声纹唤醒网络进行训练得到目标声纹唤醒网络,并采用所述目标声纹唤醒网络对车载声纹进行唤醒。
10、第三方面,本发明实施例还提供了一种电子设备,该电子设备包括:
11、一个或多个处理器;
12、存储装置,用于存储一个或多个程序;
13、当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本发明任意实施例所述的车载声纹唤醒方法。
14、第四方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现本发明任意实施例所述的车载声纹唤醒方法。
15、本发明实施例提供了一种车载声纹唤醒方法、装置、电子设备和存储介质,通过构建声纹唤醒数据集以及声纹唤醒网络;所述声纹唤醒网络是由声纹识别网络与语音唤醒网络进行拟合得到的;获取车载场景下的车载噪声数据,并将具备模拟能力的车载噪声数据添加至声纹唤醒数据集中,对声纹唤醒数据集进行车载噪声增强;采用车载噪声增强后的声纹唤醒数据集对声纹唤醒网络进行训练得到目标声纹唤醒网络,并采用所述目标声纹唤醒网络对车载声纹进行唤醒。采用本发明实施例的技术方案,将声纹识别网络和语音唤醒网络在算法的层面进行组合,构建一个可以进行同时联合训练的声纹唤醒网络,声纹唤醒网络的输出结果即为声纹唤醒的最终结果,减少因短语句降低声纹提取网络性能的影响;针对车载场景下噪声复杂的语音环境影响,设计了一种针对车载场景下的车载噪声增强方法,在声纹唤醒网络训练时能够学习到对于噪声的鲁棒性,提高声纹唤醒网络模型的性能。
技术特征:1.一种车载声纹唤醒方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述声纹唤醒数据集包括若干个音频数据,每个音频数据由短语句构成且每个音频数据的文本信息一致。
3.根据权利要求1所述的方法,其特征在于,所述构建声纹唤醒网络,包括:
4.根据权利要求1所述的方法,其特征在于,所述获取车载场景下的车载噪声数据,并将具备模拟能力的车载噪声数据添加至声纹唤醒数据集中,对声纹唤醒数据集进行车载噪声增强,包括:
5.根据权利要求1所述的方法,其特征在于,所述采用车载噪声增强后的声纹唤醒数据集对声纹唤醒网络进行训练得到目标声纹唤醒网络,包括:
6.根据权利要求1所述的方法,其特征在于,所述采用所述目标声纹唤醒网络对车载声纹进行唤醒,包括:
7.根据权利要求6所述的方法,其特征在于,所述将所述音频信号与声纹数据进行匹配,确定目标声纹数据,包括:
8.一种车载声纹唤醒装置,其特征在于,所述装置包括:
9.一种电子设备,其特征在于,包括:
10.一种包含计算机可执行指令的存储介质,其特征在于,所述计算机可执行指令在由计算机处理器执行时用于执行如权利要求1-7中任一所述的车载声纹唤醒方法。
技术总结本发明实施例公开了一种车载声纹唤醒方法、装置、电子设备及存储介质。该方法包括:构建声纹唤醒数据集以及声纹唤醒网络;所述声纹唤醒网络是由声纹识别网络与语音唤醒网络进行拟合得到的;获取车载场景下的车载噪声数据,并将具备模拟能力的车载噪声数据添加至声纹唤醒数据集中,对声纹唤醒数据集进行车载噪声增强;采用车载噪声增强后的声纹唤醒数据集对声纹唤醒网络进行训练得到目标声纹唤醒网络,并采用所述目标声纹唤醒网络对车载声纹进行唤醒。采用本方案,将声纹识别网络和语音唤醒网络在算法层面进行融合,构建一个声纹唤醒网络,减少因短语句降低声纹提取网络性能的影响;针对车载场景对车载噪声进行增强,以提高模型的鲁棒性。技术研发人员:王紫烟,何金鑫,徐海强,孙宇嘉,张毅,梁小明受保护的技术使用者:中国第一汽车股份有限公司技术研发日:技术公布日:2024/4/29本文地址:https://www.jishuxx.com/zhuanli/20240618/23580.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。
下一篇
返回列表