技术新讯 > 乐器声学设备的制造及制作,分析技术 > 语音识别模型的训练方法、装置、电子设备及存储介质与流程 > 正文

语音识别模型的训练方法、装置、电子设备及存储介质与流程

国知局
2024-06-21 11:26:09

本申请涉及语音识别，尤其涉及一种语音识别模型的训练方法、装置、电子设备及存储介质。

背景技术：

1、随着电子技术的发展，文本相关的声纹识别的应用越来越普遍。文本相关的声纹识别指的是：既需要对说话人的声纹信息进行识别，还需要对该说话人的说话内容进行确认，以判断该说话人是否说的是预先指定的内容。

2、通常情况下，文本相关的声纹识别可以利用携带有标签的数据集训练所得到的语音识别模型进行语音分类而实现。然而，简单的分类可能会导致语音识别模型在训练过程中学习到很多噪声信息，进而影响该语音识别模型对说话人的说话内容识别准确度。

技术实现思路

1、本申请实施例提供了一种语音识别模型的训练方法、装置、电子设备及存储介质，以在文本相关的声纹识别的应用场景中提高语音识别模型的识别准确性。

2、第一方面，本申请实施例提供了一种语音识别模型的训练方法，包括：

3、获取语音样本；所述语音样本包括第一类型语音；所述第一类型语音用于表示对应的文本为预设文本的语音数据；

4、将所述语音样本输入待训练的语音识别模型进行训练，得到训练后的语音识别模型；所述训练后的语音识别模型用于对待处理语音进行识别，得到所述待处理语音的语音识别结果，所述待处理语音的语音识别结果用于确定所述待处理语音是否由预设注册用户发出，以及所述待处理语音对应的文本是否包括所述预设文本；

5、其中，所述待训练的语音识别模型包括特征提取模块、编码模块、融合模块以及识别模块；

6、所述特征提取模块用于根据所述语音样本进行特征提取处理，得到所述语音样本对应的声纹特征信息；

7、所述编码模块用于根据所述声纹特征信息进行编码处理，得到所述声纹特征信息对应的文本向量；

8、所述融合模块用于根据所述声纹特征信息和所述文本向量进行融合处理，得到融合特征信息；

9、所述识别模块用于根据所述融合特征信息进行识别处理，得到所述融合特征信息对应的语音识别结果。

10、第二方面，本申请实施例提供了一种声音唤醒方法，包括：

11、获取唤醒语音；

12、将所述唤醒语音输入语音识别模型进行识别处理，得到所述唤醒语音的语音识别结果；所述语音识别模型通过第一方面所述的语音识别模型的训练方法训练得到；

13、在所述语音识别结果用于表示所述唤醒语音由预设注册用户发出，以及所述唤醒语音对应的文本包括预设文本的情况下，确定所述唤醒语音的声音唤醒结果为唤醒通过。

14、第三方面，本申请实施例提供了一种语音识别模型的训练装置，所述装置包括：

15、第一获取单元，用于获取语音样本；所述语音样本包括第一类型语音；所述第一类型语音用于表示对应的文本为预设文本的语音数据；

16、训练单元，用于将所述语音样本输入待训练的语音识别模型进行训练，得到训练后的语音识别模型；所述训练后的语音识别模型用于对待处理语音进行识别，得到所述待处理语音的语音识别结果，所述待处理语音的语音识别结果用于确定所述待处理语音是否由预设注册用户发出，以及所述待处理语音对应的文本是否包括所述预设文本；

17、其中，所述待训练的语音识别模型包括特征提取模块、编码模块、融合模块以及识别模块；

18、所述特征提取模块用于根据所述语音样本进行特征提取处理，得到所述语音样本对应的声纹特征信息；

19、所述编码模块用于根据所述声纹特征信息进行编码处理，得到所述声纹特征信息对应的文本向量；

20、所述融合模块用于根据所述声纹特征信息和所述文本向量进行融合处理，得到融合特征信息；

21、所述识别模块用于根据所述融合特征信息进行识别处理，得到所述融合特征信息对应的语音识别结果。

22、第四方面，本申请实施例提供了一种声音唤醒装置，所述装置包括：

23、第二获取单元，用于获取唤醒语音；

24、识别单元，用于将所述唤醒语音输入语音识别模型进行识别处理，得到所述唤醒语音的语音识别结果；所述语音识别模型通过第一方面所述的语音识别模型的训练方法训练得到；

25、确定单元，用于在所述语音识别结果用于表示所述唤醒语音由预设注册用户发出，以及所述唤醒语音对应的文本包括预设文本的情况下，确定所述唤醒语音的声音唤醒结果为唤醒通过。

26、第五方面，本申请实施例提供了一种电子设备，包括：处理器；以及，被配置为存储计算机可执行指令的存储器，所述计算机可执行指令在被执行时使所述处理器执行如第一方面所述的语音识别模型的训练方法，或者，如第二方面所述的声音唤醒方法。

27、第四方面，本申请实施例提供了一种计算机可读存储介质，用于存储计算机可执行指令，所述计算机可执行指令在被处理器执行时实现如第一方面所述的语音识别模型的训练方法，或者，如第二方面所述的声音唤醒方法。

28、可以看出，在本申请实施例中，一方面，参与训练的每个语音样本均包括第一类型语音，该第一类型语音是一个语音数据，该语音数据对应的文本为预设文本，使得训练后的语音识别模型在基于文本的声纹识别场景中能够针对预设文本进行更准确地识别；另一方面，通过特征提取模块根据语音样本进行特征提取处理，得到声纹特征信息，通过编码模块根据声纹特征信息进行编码处理，得到文本向量，通过融合模块根据声纹特征信息和文本向量进行融合处理，得到融合特征信息，使得用于进行语音识别的融合特征信息由可以反应语音样本的语义信息的文本向量和可以反映语音样本的声纹特征的声纹特征信息构成，进而，利用该融合特征信息进行语音识别，能够使语音识别模型在训练过程中更好地兼顾语义信息和声纹特征的学习，提高训练后的语音识别模型在文本相关的声纹识别场景下的语音识别效果。

技术特征：

1.一种语音识别模型的训练方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，在模型训练过程中，语音识别模型的参数是基于损失函数值更新的，所述损失函数值是基于所述文本向量、所述融合特征信息以及预先配置的损失权重值确定的。

3.根据权利要求2所述的方法，其特征在于，所述损失函数值是基于第一函数值、第二函数值以及所述损失权重值确定的，所述第一函数值是基于所述文本向量和预设文本标签确定的，所述第二函数值是基于所述特征融合信息和预设特征标签确定的。

4.根据权利要求1所述的方法，其特征在于，所述根据所述融合特征信息进行识别处理，得到所述融合特征信息对应的语音识别结果的具体实现方式有：

5.根据权利要求1所述的方法，其特征在于，所述根据所述语音样本进行特征提取处理，得到所述语音样本对应的声纹特征信息的具体实现方式有：

6.根据权利要求5所述的方法，其特征在于，所述声纹特征信息包括帧级别的第一声纹特征向量；所述根据所述声纹特征信息和所述文本向量进行融合处理，得到融合特征信息的具体实现方式有：

7.根据权利要求4所述的方法，其特征在于，所述参考特征信息通过如下方式生成：

8.一种声音唤醒方法，其特征在于，包括：

9.根据权利要求8所述的方法，其特征在于，还包括：

10.一种语音识别模型的训练装置，其特征在于，所述装置包括：

11.一种声音唤醒装置，其特征在于，包括：

12.一种电子设备，其特征在于，所述设备包括：

13.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质用于存储计算机可执行指令，所述计算机可执行指令在被处理器执行时实现如权利要求1-7任一项所述的语音识别模型的训练方法，或者，如权利要求8-9任一项所述的声音唤醒方法。

技术总结本公开实施例提供了语音识别模型的训练方法、装置、电子设备以及存储介质，该方法包括：获取语音样本并输入待训练的语音识别模型进行训练；训练后模型输出的语音识别结果用于确定待处理语音是否由预设注册用户发出及待处理语音对应的文本是否包括预设文本；待训练的语音识别模型包括特征提取模块、编码模块、融合模块以及识别模块；特征提取模块用于根据语音样本进行特征提取处理，得到声纹特征信息；编码模块用于根据声纹特征信息进行编码处理，得到文本向量；融合模块用于根据声纹特征信息和文本向量进行融合处理，得到融合特征信息；识别模块用于根据融合特征信息进行识别处理，得到语音识别结果。以此，能够提高模型的识别准确性。技术研发人员：孟庆林,蒋宁,吴海英,陆全,夏粉,刘敏受保护的技术使用者：马上消费金融股份有限公司技术研发日：技术公布日：2024/2/6