技术新讯 > 乐器声学设备的制造及制作,分析技术 > 一种训练语音唤醒模型的方法、装置和可读存储介质与流程 > 正文

一种训练语音唤醒模型的方法、装置和可读存储介质与流程

国知局
2024-06-21 11:52:41

本发明涉及语音识别，尤其涉及一种训练语音唤醒模型的方法、装置和可读存储介质。

背景技术：

1、随着人工智能的发展，越来越多的电子设备开始支持语音交互功能。语音唤醒作为语音交互的开关，在其中占据着重要的组成部分。

2、目前的语音唤醒模型根据实现原理主要可以分为两类，一类基于语音识别原理，另一类基于语音分类原理。基于语音识别原理的语音唤醒模型是一种序列预测模型，需要配合复杂的解码机制，对部署硬件的算力要求较高。而基于语音分类原理的语音唤醒模型是一种分类模型，虽然实现简单且对部署硬件的算力要求不高，但是语音唤醒模型训练完成后，唤醒词将固定不变，如果需要更改唤醒词，则需要重新训练语音唤醒模型。

技术实现思路

1、本发明实施例提供一种训练语音唤醒模型的方法、装置和可读存储介质，可以在低算力要求的基础上，使得语音唤醒模型具有自定义唤醒词能力，当需要更改唤醒词时，无需重新训练语音唤醒模型。

2、第一方面，本发明实施例公开了一种训练语音唤醒模型的方法，所述方法包括：

3、构建语音唤醒模型，所述语音唤醒模型包括语音编码器、文本编码器和分类器；

4、获取当前一轮的训练样本对和所述训练样本对的相关性标签，所述训练样本对包括语音样本和文本样本；

5、将所述语音样本输入所述语音编码器进行编码，得到第一语音编码结果，以及将所述文本样本输入所述文本编码器进行编码，得到第一文本编码结果；

6、将所述第一语音编码结果和所述第一文本编码结果输入所述分类器进行相关性预测，得到第一预测结果；

7、根据所述第一预测结果和所述相关性标签，计算模型损失值；

8、根据所述模型损失值调整所述语音唤醒模型的模型参数，并进入下一轮的迭代训练，在到达迭代停止条件时得到训练完成的语音唤醒模型。

9、第二方面，本发明实施例公开了一种语音唤醒方法，应用于电子设备，所述电子设备部署有训练完成的语音唤醒模型，所述语音唤醒模型包括语音编码器、文本编码器和分类器；所述语音唤醒模型根据前述任一所述的训练语音唤醒模型的方法训练得到，所述方法包括：

10、确定目标唤醒词对应的目标文本；

11、利用所述文本编码器对所述目标文本进行编码，得到第二文本编码结果，并保存所述第二文本编码结果；

12、接收待识别语音，并将所述待识别语音输入所述语音编码器进行编码，得到第二语音编码结果；

13、将所述第二语音编码结果和已保存的所述第二文本编码结果输入所述分类器进行相关性预测，得到第二预测结果；

14、根据所述第二预测结果确定是否唤醒所述电子设备。

15、第三方面，本发明实施例公开了一种训练语音唤醒模型的装置，所述装置包括：

16、模型构建模块，用于构建语音唤醒模型，所述语音唤醒模型包括语音编码器、文本编码器和分类器；

17、数据获取模块，用于获取当前一轮的训练样本对和所述训练样本对的相关性标签，所述训练样本对包括语音样本和文本样本；

18、数据编码模块，用于将所述语音样本输入所述语音编码器进行编码，得到第一语音编码结果，以及将所述文本样本输入所述文本编码器进行编码，得到第一文本编码结果；

19、第一预测模块，用于将所述第一语音编码结果和所述第一文本编码结果输入所述分类器进行相关性预测，得到第一预测结果；

20、损失计算模块，用于根据所述第一预测结果和所述相关性标签，计算模型损失值；

21、迭代训练模块，用于根据所述模型损失值调整所述语音唤醒模型的模型参数，并进入下一轮的迭代训练，在到达迭代停止条件时得到训练完成的语音唤醒模型。

22、第四方面，本发明实施例公开了一种语音唤醒装置，应用于电子设备，所述电子设备部署有训练完成的语音唤醒模型，所述语音唤醒模型包括语音编码器、文本编码器和分类器；所述语音唤醒模型根据前述任一所述的训练语音唤醒模型的方法训练得到，所述装置包括：

23、目标文本确定模块，用于确定目标唤醒词对应的目标文本；

24、目标文本编码模块，用于利用所述文本编码器对所述目标文本进行编码，得到第二文本编码结果，并保存所述第二文本编码结果；

25、语音编码模块，用于接收待识别语音，并将所述待识别语音输入所述语音编码器进行编码，得到第二语音编码结果；

26、第二预测模块，用于将所述第二语音编码结果和已保存的所述第二文本编码结果输入所述分类器进行相关性预测，得到第二预测结果；

27、结果判断模块，用于根据所述第二预测结果确定是否唤醒所述电子设备。

28、第五方面，本发明实施例公开了一种机器可读介质，其上存储有指令，当所述指令由装置的一个或多个处理器执行时，使得装置执行如前述一个或多个所述的训练语音唤醒模型的方法，或者，使得装置执行如前述一个或多个所述的语音唤醒方法。

29、本发明实施例包括以下优点：

30、本发明实施例利用深度学习自编码的技术，在语音分类的结构上引入文本编码，使得训练完成的语音唤醒模型中的分类器具有判断语音编码器和文本编码器的编码向量是否相匹配的功能。因此，本发明实施例训练得到的语音唤醒模型，语音编码器和文本编码器的输入可以随意改动，而不需要重新训练模型，从而在语音分类结构上实现自定义唤醒词能力。当需要改变唤醒词时，只需改变文本编码器的输入即可。此外，本发明实施例的语音唤醒模型基于语音分类原理，相对于基于语音识别原理的训练方法，本发明实施例不需要预测音素概率序列，使用语音唤醒模型时可以无需cpu介入，对部署硬件的算力要求较低。

技术特征：

1.一种训练语音唤醒模型的方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

3.根据权利要求2所述的方法，其特征在于，所述语音解码器和所述文本解码器为自回归解码器。

4.根据权利要求1所述的方法，其特征在于，所述方法还包括：

5.根据权利要求1所述的方法，其特征在于，所述相关性标签根据所述训练样本对中的语音样本与文本样本之间的匹配度确定，若所述匹配度满足第一条件，则所述相关性标签为相关；若所述匹配度满足第二条件，则所述相关性标签为不相关。

6.一种语音唤醒方法，其特征在于，应用于电子设备，所述电子设备部署有训练完成的语音唤醒模型，所述语音唤醒模型包括语音编码器、文本编码器和分类器；所述语音唤醒模型根据权利要求1至5中任一所述的训练语音唤醒模型的方法训练得到，所述方法包括：

7.根据权利要求6所述的方法，其特征在于，所述电子设备包括网络处理器，所述语音编码器和所述分类器部署在所述电子设备的网络处理器中。

8.根据权利要求6所述的方法，其特征在于，所述文本编码器部署在所述电子设备中或者部署在远端服务器中。

9.根据权利要求6所述的方法，其特征在于，所述方法还包括：

10.一种训练语音唤醒模型的装置，其特征在于，所述装置包括：

11.一种语音唤醒装置，其特征在于，应用于电子设备，所述电子设备部署有训练完成的语音唤醒模型，所述语音唤醒模型包括语音编码器、文本编码器和分类器；所述语音唤醒模型根据权利要求1至5中任一所述的训练语音唤醒模型的方法训练得到，所述装置包括：

12.一种机器可读存储介质，其上存储有指令，当所述指令由装置的一个或多个处理器执行时，使得装置执行如权利要求1至5中任一所述的训练语音唤醒模型的方法，或者执行如权利要求6至9中任一所述的语音唤醒方法。

技术总结本发明实施例提供了一种训练语音唤醒模型的方法、装置和可读存储介质。该方法包括：构建语音唤醒模型，其中包括语音编码器、文本编码器和分类器；获取当前一轮的训练样本对和训练样本对的相关性标签，训练样本对包括语音样本和文本样本；将语音样本输入语音编码器，得到第一语音编码结果，将文本样本输入文本编码器，得到第一文本编码结果；将第一语音编码结果和第一文本编码结果输入分类器，得到第一预测结果；根据第一预测结果和相关性标签，计算模型损失值；根据模型损失值调整模型参数，进入下一轮的迭代训练。本发明实施例可以在低算力要求的基础上，使得语音唤醒模型具有自定义唤醒词能力，若需要更改唤醒词，无需重新训练语音唤醒模型。技术研发人员：钟雨崎,艾国,杨作兴受保护的技术使用者：深圳比特微电子科技有限公司技术研发日：技术公布日：2024/5/19