技术新讯 > 乐器声学设备的制造及制作,分析技术 > 语音识别模型的训练方法、语音识别方法、装置和设备与流程 > 正文

语音识别模型的训练方法、语音识别方法、装置和设备与流程

国知局
2024-06-21 10:38:26

本发明涉及语音处理，尤其涉及一种语音识别模型的训练方法、语音识别方法、装置和设备。

背景技术：

1、语音识别技术在金融和政务行业等有着十分广泛的应用，如智能质检、语音机器人和语音导航等等，可以极大简化人们日常生活工作中的交流方式和信息输入难度。

2、目前，通常是将待识别语音输入至训练好的语音识别模型中进行语音识别。但是，现有的语音识别模型，无法适应不同的应用场景，造成语音识别模型的适应性较差。

技术实现思路

1、本发明提供一种语音识别模型的训练方法、语音识别方法、装置和设备，用以解决现有技术中语音识别模型的适应性较差的缺陷，实现提高语音识别模型的适应性的目的。

2、本发明提供一种语音识别模型的训练方法，包括：

3、获取电子设备中处理器的目标类型；

4、确定所述目标类型对应的目标初始声学模型，所述目标初始声学模型的模型结构和所述目标类型匹配；

5、基于目标语料对所述目标初始声学模型进行训练，得到声学模型；

6、基于所述声学模型，确定语音识别模型。

7、根据本发明提供的一种语音识别模型的训练方法，所述基于目标语料对所述目标初始声学模型进行训练，得到声学模型，包括：

8、对所述目标语料进行数据增强，得到增强后的目标语料；

9、提取所述增强后的目标语料中音频语料的特征信息；

10、将所述增强后的目标语料中的文本语料和对应的所述特征信息输入所述目标初始声学模型，对所述目标初始声学模型的模型参数进行调整，得到所述声学模型。

11、根据本发明提供的一种语音识别模型的训练方法，所述目标语料包括所述特定领域的语料和通用领域的语料；

12、所述基于所述声学模型，确定语音识别模型，包括：

13、接收用户输入的选择指令，所述选择指令包括目标融合类型；

14、响应于所述选择指令，基于所述目标融合类型和所述特定领域的语料中各第一序列片段的概率，更新所述通用领域的语料中各第二序列片段的概率，得到更新概率后的各所述第二序列片段；

15、对更新概率后的各所述第二序列片段进行序列化，得到语言模型；

16、基于所述声学模型和所述语言模型，确定所述语音识别模型。

17、根据本发明提供的一种语音识别模型的训练方法，所述对更新概率后的各所述第二序列片段进行序列化，得到语言模型，包括：

18、基于所述目标融合类型和所述特定领域的各第三序列片段的概率，更新所述通用领域的各第四序列片段的概率，得到更新概率后的各所述第四序列片段；所述第三序列片段的句式和所述第一序列片段的句式不同；

19、对各更新概率后的各所述第四序列片段和所述更新概率后的各所述第二序列片段进行序列化，得到所述语言模型。

20、根据本发明提供的一种语音识别模型的训练方法，所述基于目标语料对所述目标初始声学模型进行训练，得到声学模型，包括：

21、确定所述目标语料中文本语料的目标标注格式；

22、调用所述目标标注格式对应的目标脚本；

23、通过所述目标脚本，基于目标语料对所述目标初始声学模型进行训练，得到所述声学模型。

24、本发明还提供一种语音识别方法，包括：

25、在获取到待识别语音的情况下，获取电子设备中处理器的目标类型；

26、确定所述目标类型对应的语音识别模型，所述语音识别模型中声学模型的模型结构和所述目标类型匹配；

27、将所述待识别语音输入所述语音识别模型，得到所述语音识别模型输出的语音识别结果，所述语音识别模型为基于如上任一种方式所述的语音识别模型的训练方法训练得到的。

28、本发明还提供一种语音识别模型的训练装置，包括：

29、获取模块，用于获取电子设备中处理器的目标类型；

30、确定模块，用于确定所述目标类型对应的目标初始声学模型，所述目标初始声学模型的模型结构和所述目标类型匹配；

31、训练模块，用于基于目标语料对所述目标初始声学模型进行训练，得到声学模型；

32、所述确定模块，还用于基于所述声学模型，确定语音识别模型。

33、本发明还提供一种语音识别装置，包括：

34、获取模块，用于在获取到待识别语音的情况下，获取电子设备中处理器的目标类型；

35、确定模块，用于确定所述目标类型对应的语音识别模型，所述语音识别模型中声学模型的模型结构和所述目标类型匹配；

36、输入模块，用于将所述待识别语音输入所述语音识别模型，得到所述语音识别模型输出的语音识别结果，所述语音识别模型为基于如上任一种方式中所述的语音识别模型的训练方法训练得到的。

37、本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述语音识别模型的训练方法，或者执行所述程序时实现如上述任一种所述语音识别方法。

38、本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述语音识别模型的训练方法，或者实现如上述任一种所述语音识别方法。

39、本发明还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述语音识别模型的训练方法，或者实现如上述任一种所述语音识别方法。

40、本发明提供的语音识别模型的训练方法、语音识别方法、装置和设备，通过获取电子设备中处理器的目标类型，并确定目标类型对应的目标初始声学模型，该目标初始声学模型的模型结构和目标类型匹配，基于目标语料对目标初始声学模型进行训练，得到声学模型后，基于该声学模型，确定语音识别模型。由于可以基于处理器的目标类型选择相匹配的声学模型的模型结构，并确定该模型结构对应的目标初始声学模型，使得训练出的声学模型可以与当前电子设备中的处理器相匹配，从而使得最终得到的语音识别模型可以应用于不同的场景中，提高了语音识别模型的适应性。

技术特征：

1.一种语音识别模型的训练方法，其特征在于，包括：

2.根据权利要求1所述的语音识别模型的训练方法，其特征在于，所述基于目标语料对所述目标初始声学模型进行训练，得到声学模型，包括：

3.根据权利要求1所述的语音识别模型的训练方法，其特征在于，所述目标语料包括所述特定领域的语料和通用领域的语料；

4.根据权利要求3所述的语音识别模型的训练方法，其特征在于，所述对更新概率后的各所述第二序列片段进行序列化，得到语言模型，包括：

5.根据权利要求1-4任一项所述的语音识别模型的训练方法，其特征在于，所述基于目标语料对所述目标初始声学模型进行训练，得到声学模型，包括：

6.一种语音识别方法，其特征在于，包括：

7.一种语音识别模型的训练装置，其特征在于，包括：

8.一种语音识别装置，其特征在于，包括：

9.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至5任一项所述语音识别模型的训练方法，或者执行所述程序时实现如权利要求6所述语音识别方法。

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至5任一项所述语音识别模型的训练方法，或者，实现如权利要求6所述语音识别方法。

技术总结本发明提供一种语音识别模型的训练方法、语音识别方法、装置和设备，该训练方法包括：获取电子设备中处理器的目标类型；确定所述目标类型对应的目标初始声学模型，所述目标初始声学模型的模型结构和所述目标类型匹配；基于目标语料对所述目标初始声学模型进行训练，得到声学模型；基于所述声学模型，确定语音识别模型。本发明可以提高语音识别模型的适应性。技术研发人员：李国利,赵乾,刘思坤,何春江受保护的技术使用者：科大讯飞股份有限公司技术研发日：技术公布日：2024/1/15