技术新讯 > 乐器声学设备的制造及制作,分析技术 > 唤醒词音频的生成方法、装置、设备、介质及程序产品与流程 > 正文

唤醒词音频的生成方法、装置、设备、介质及程序产品与流程

国知局
2024-10-09 14:47:31

本申请涉及车辆，特别涉及一种唤醒词音频的生成方法、装置、设备、介质及程序产品。

背景技术：

1、当前在智能车辆交互系统中，语音唤醒功能是实现人机对话的关键环节之一。用户通过特定的唤醒词激活车载语音助手，从而下达指令、查询信息或控制车辆功能。然而，传统唤醒词识别系统面临一个普遍问题，即在多样化的真实使用场景下，尤其是存在背景噪音、不同口音、语速变化或个体声纹差异时，唤醒词的识别准确率往往不尽人意。这种不稳定性可能导致用户体验下降，影响智能驾驶辅助功能的可用性和安全性。

2、行业内普遍采用的一种策略是通过广泛采集不同性别、年龄、口音和声纹特征的真人语音样本，以此来训练和优化唤醒词识别模型。

3、然而采用真人声纹录制会浪费大量的人力和时间，并且由于每个人的声纹特征不同，无法采集到多种类型的声纹，且采用真人声纹录制的样本量较小，效率较低。

技术实现思路

1、本申请提供一种唤醒词音频的生成方法、装置、设备、介质及程序产品，以解决相关技术中采用真人声纹录制唤醒词，效率较低等问题。

2、本申请第一方面实施例提供一种唤醒词音频的生成方法，包括以下步骤：获取在目标环境下的录音音频；提取录音音频中的至少一个真人声纹，并对至少一个真人声纹进行深度学习，得到与至少一个真人声纹对应的声纹特征；基于声纹特征进行建模得到至少一种声纹模型，并利用至少一种声纹模型生成至少一种声纹的唤醒词音频。

3、可选地，声纹特征包括：频谱、倒频谱、共振峰、基音、反射系数、方言、韵律中的至少一种。

4、可选地，在提取录音音频中的至少一个真人声纹之前，包括：对录音音频进行降噪处理，并对降噪处理后的录音音频进行语音增强，得到处理后的录音音频。

5、可选地，深度学习包括卷积神经网络、循环神经网络、长短时记忆网络、深度信念网络中的至少一种；唤醒词音频的格式包括mp3、wav和aac中的至少一种。

6、可选地，基于声纹特征进行建模得到至少一种声纹模型，包括：对声纹特征进行降维；基于降维后的声纹特征进行建模得到至少一种声纹模型，其中，建模方法包括高斯混合模型、支持向量机、深度神经网络中的至少一种。

7、可选地，在利用至少一种声纹模型生成至少一种声纹的唤醒词音频之后，还包括：利用至少一种声纹的唤醒词音频唤醒目标设备，并检测目标设备的唤醒率；若唤醒率低于预设值，则重新生成不同声纹的唤醒词音频。

8、本申请第二方面实施例提供一种唤醒词音频的生成装置，包括：获取模块，用于获取在目标环境下的录音音频；提取模块，用于提取录音音频中的至少一个真人声纹，并对至少一个真人声纹进行深度学习，得到与至少一个真人声纹对应的声纹特征；生成模块，用于基于声纹特征进行建模得到至少一种声纹模型，并利用至少一种声纹模型生成至少一种声纹的唤醒词音频。

9、可选地，声纹特征包括：频谱、倒频谱、共振峰、基音、反射系数、方言、韵律中的至少一种。

10、可选地，还包括：处理模块，用于在提取录音音频中的至少一个真人声纹之前，对录音音频进行降噪处理，并对降噪处理后的录音音频进行语音增强，得到处理后的录音音频。

11、可选地，深度学习包括卷积神经网络、循环神经网络、长短时记忆网络、深度信念网络中的至少一种；唤醒词音频的格式包括mp3、wav和aac中的至少一种。

12、可选地，生成模块进一步用于：对声纹特征进行降维；基于降维后的声纹特征进行建模得到至少一种声纹模型，其中，建模方法包括高斯混合模型、支持向量机、深度神经网络中的至少一种。

13、可选地，还包括：检测模块，用于在利用至少一种声纹模型生成至少一种声纹的唤醒词音频之后，利用至少一种声纹的唤醒词音频唤醒目标设备，并检测目标设备的唤醒率；若唤醒率低于预设值，则重新生成不同声纹的唤醒词音频。

14、本申请第三方面实施例提供一种电子设备，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行程序，以执行如上述实施例的唤醒词音频的生成方法。

15、本申请第四方面实施例提供一种计算机可读存储介质，其上存储有计算机程序或指令，计算机程序或指令被处理器执行时，以执行如上述实施例的唤醒词音频的生成方法。

16、本申请第五方面实施例提供一种计算机程序产品，包括计算机程序或指令，计算机程序或指令被执行时，以实现如上述实施例的唤醒词音频的生成方法。

17、由此，本申请至少具有如下有益效果：

18、本申请实施例可以通过获取目标环境下的录音音频，提取录音音频中的声纹特征，并对声纹特征进行建模得到不同声纹类型的声纹模型，利用不同的声纹模型生成不同的唤醒词音频，替代了用大量真人录制的过程，既节省时间，提高效率成本，又更加便捷的获取不同声纹。由此，解决了相关技术中采用真人声纹录制唤醒词，效率较低等技术问题。

19、本申请附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本申请的实践了解到。

技术特征：

1.一种唤醒词音频的生成方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的唤醒词音频的生成方法，其特征在于，所述声纹特征包括：频谱、倒频谱、共振峰、基音、反射系数、方言、韵律中的至少一种。

3.根据权利要求1所述的唤醒词音频的生成方法，其特征在于，在提取所述录音音频中的至少一个真人声纹之前，包括：

4.根据权利要求1所述的唤醒词音频的生成方法，其特征在于，所述深度学习包括卷积神经网络、循环神经网络、长短时记忆网络、深度信念网络中的至少一种；所述唤醒词音频的格式包括mp3、wav和aac中的至少一种。

5.根据权利要求1所述的唤醒词音频的生成方法，其特征在于，所述基于所述声纹特征进行建模得到至少一种声纹模型，包括：

6.根据权利要求1所述的唤醒词音频的生成方法，其特征在于，在利用所述至少一种声纹模型生成所述至少一种声纹的唤醒词音频之后，还包括：

7.一种唤醒词音频的生成装置，其特征在于，包括：

8.一种电子设备，其特征在于，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序，以实现如权利要求1-6任一项所述的唤醒词音频的生成方法。

9.一种计算机可读存储介质，其上存储有计算机程序或指令，其特征在于，所述计算机程序或指令被处理器执行时，以用于实现如权利要求1-6任一项所述的唤醒词音频的生成方法。

10.一种计算机程序产品，包括计算机程序或指令，其特征在于，所述计算机程序或指令被执行时，以实现如权利要求1-6任一项所述的唤醒词音频的生成方法。

技术总结本申请涉及车辆技术领域，特别涉及一种唤醒词音频的生成方法、装置、设备、介质及程序产品，其中，方法包括：获取在目标环境下的录音音频；提取录音音频中的至少一个真人声纹，并对至少一个真人声纹进行深度学习，得到与至少一个真人声纹对应的声纹特征；基于声纹特征进行建模得到至少一种声纹模型，并利用至少一种声纹模型生成至少一种声纹的唤醒词音频。由此，解决了相关技术中采用真人声纹录制唤醒词，效率较低等问题。技术研发人员：曹晔,宋静受保护的技术使用者：芜湖雄狮汽车科技有限公司技术研发日：技术公布日：2024/9/29