技术新讯 > 乐器声学设备的制造及制作,分析技术 > 语音处理相关方法、装置、设备及存储介质与流程 > 正文

语音处理相关方法、装置、设备及存储介质与流程

国知局
2024-06-21 11:40:56

本技术涉及语音处理，更具体地说，涉及一种语音处理相关方法、装置、设备及存储介质。

背景技术：

1、自动语音识别(automatic speech recognition，asr)是一种将语音转换为对应文本的语音处理技术，在语音输入法、字幕生成等场景中有广泛的应用。目前，虽然语音识别任务在很多场景中的识别准确率已经达到了95％以上，但仍然会出现异常识别结果，这导致了用户在使用附加语音识别的产品时会感觉产品质量不可靠，损害了用户的体验感。因此，有必要进一步提高语音识别任务的准确性。

技术实现思路

1、有鉴于此，本技术提供了一种语音处理相关方法、装置、设备及存储介质，以提高语音识别任务的准确性。

2、为了实现上述目的，现提出的方案如下：

3、一种语音识别任务训练方法，包括：

4、通过预训练的语音识别模型对语音样本进行识别处理，得到语音识别结果；

5、通过训练好的翻译模型对目标信息进行翻译处理，得到翻译结果；所述目标信息包括：所述预训练的语音识别模型对所述语音样本进行识别处理过程中的目标特征以及所述语音识别结果中的至少一项；

6、以所述语音识别结果趋近于所述语音样本的文本标签，所述翻译结果趋近于以所述文本标签作为源语言文本的目标语言文本为目标，对所述预训练的语音识别模型的参数进行更新。

7、上述方法，可选的，所述目标特征包括所述预训练的语音识别模型对所述语音样本进行识别处理过程中的隐层特征，以及所述预训练的语音识别模型对所述语音样本进行识别处理过程中的输出层特征中的至少一项；所述输出层特征用于所述预训练的语音识别模型计算归一化的输出概率。

8、上述方法，可选的，通过所述训练好的翻译模型对所述隐层特征进行翻译处理，包括：

9、将所述隐层特征映射为目标维度的特征向量；

10、对所述目标维度的特征向量进行仿射变换，得到目标嵌入特征；

11、将所述目标嵌入特征输入所述训练好的翻译模型的编码网络，得到所述训练好的翻译模型对所述目标嵌入特征进行翻译处理而输出的翻译结果。

12、上述方法，可选的，通过所述训练好的翻译模型对所述输出层特征进行翻译处理，包括：

13、对所述输出层特征进行基于采样的归一化处理，得到归一化处理结果；

14、对所述归一化处理结果进行嵌入特征提取，得到初始嵌入特征；

15、将所述初始嵌入特征映射为目标维度的特征向量；

16、对所述目标维度的特征向量进行仿射变换，得到目标嵌入特征；

17、将所述目标嵌入特征输入所述训练好的翻译模型的编码网络，得到所述训练好的翻译模型对所述目标嵌入特征进行翻译处理而输出的翻译结果。

18、上述方法，可选的，通过所述训练好的翻译模型对所述隐层特征和所述输出层特征进行翻译处理，包括：

19、将所述隐层特征映射为目标维度的第一特征向量；

20、对所述输出层特征进行基于采样的归一化处理，得到归一化处理结果；对所述归一化处理结果进行嵌入特征提取，得到初始嵌入特征；将所述初始嵌入特征映射为目标维度的第二特征向量；

21、将所述第一特征向量和所述第二特征向量融合为目标嵌入特征；

22、将所述目标嵌入特征输入所述训练好的翻译模型的编码网络，得到所述训练好的翻译模型对所述目标嵌入特征进行翻译处理而输出的翻译结果。

23、上述方法，可选的，所述目标信息为所述目标特征；所述以所述语音识别结果趋近于所述语音样本的文本标签，所述翻译结果趋近于以所述文本标签作为源语言文本的目标语言文本为目标，对所述预训练的语音识别模型的参数进行更新，包括：

24、计算所述语音识别结果与所述文本标签的第一差异，以及所述翻译结果与所述目标语言文本的第二差异；

25、以所述第一差异和所述第二差异的加权和越来越小为目标，对所述预训练的语音识别模型的参数进行更新。

26、上述方法，可选的，通过训练好的翻译模型对所述语音识别结果进行翻译处理，包括：

27、将所述语音识别结果输入所述训练好的翻译模型的嵌入层，得到所述训练好的翻译模型对所述语音识别结果进行翻译处理而输出的翻译结果。

28、上述方法，可选的，所述目标信息为所述语音识别结果；所述以所述语音识别结果趋近于所述语音样本的文本标签，所述翻译结果趋近于以所述文本标签作为源语言文本的目标语言文本为目标，对所述预训练的语音识别模型的参数进行更新，包括：

29、计算所述语音识别结果与所述文本标签的第一差异，以及所述翻译结果与所述目标语言文本的第二差异；

30、对所述第二差异进行归一化处理，得到归一化差异；

31、以所述第一差异与所述归一化差异的乘积越来越小为目标，对所述预训练的语音识别模型的参数进行更新。

32、上述方法，可选的，通过训练好的翻译模型对所述目标特征和所述语音识别结果进行翻译处理，包括：

33、通过所述训练好的翻译模型对所述目标特征和所述语音识别结果分别进行翻译处理，得到所述目标特征对应的第一翻译结果，以及所述语音识别结果对应的第二翻译结果；

34、所述以所述语音识别结果趋近于所述语音样本的文本标签，所述翻译结果趋近于以所述文本标签作为源语言文本的目标语言文本为目标，对所述预训练的语音识别模型的参数进行更新，包括：

35、计算所述语音识别结果与所述文本标签的第一差异，所述第一翻译结果与所述目标语言文本的第二差异，以及所述第二翻译结果与所述目标语言文本的第三差异；

36、对所述第三差异进行归一化处理，得到归一化差异；

37、将所述第一差异与所述归一化差异的乘积，与所述第二差异加权求和，得到综合差异；

38、以所述综合差异越来越小为目标，对所述预训练的语音识别模型的参数进行更新。

39、一种语音识别方法，包括：

40、将待识别语音输入语音识别模型，得到所述语音识别模型输出的语音识别结果；

41、所述语音识别模型通过如上任一项所述的语音识别任务训练方法训练得到。

42、一种语音识别任务训练装置，包括：

43、识别模块，用于通过预训练的语音识别模型对语音样本进行识别处理，得到语音识别结果；

44、翻译模块，用于通过训练好的翻译模型对目标信息进行翻译处理，得到翻译结果；所述目标信息包括：所述预训练的语音识别模型对所述语音样本进行识别处理过程中的目标特征以及所述语音识别结果中的至少一项；

45、更新模块，用于以所述语音识别结果趋近于所述语音样本的文本标签，所述翻译结果趋近于以所述文本标签作为源语言文本的目标语言文本为目标，对所述预训练的语音识别模型的参数进行更新。

46、一种语音识别装置，包括：

47、输入模块，用于将待识别语音输入语音识别模型，得到所述语音识别模型输出的语音识别结果；

48、所述语音识别模型通过如上任一项所述的语音识别任务训练方法训练得到。

49、一种语音识别任务训练设备，包括：存储器和处理器；

50、所述存储器，用于存储程序；

51、所述处理器，用于执行所述程序，实现如上任一项所述的语音识别任务训练方法的各个步骤。

52、一种语音识别设备，包括存储器和处理器；

53、所述存储器，用于存储程序；

54、所述处理器，用于执行所述程序，实现如上所述的语音识别方法的各个步骤。

55、一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时，实现如上任一项所述的语音识别任务训练方法的各个步骤，和/或，实现如上所述的语音识别方法的各个步骤。

56、从上述的技术方案可以看出，本技术实施例提供的语音处理相关方法、装置、设备及存储介质，对语音识别模型进行预训练，获得预训练的语音识别模型后，基于训练好的翻译模型对预训练的语音识别模型做指导训练，在训练过程中，除了通过预训练的语音识别模型对语音样本进行识别处理外，还通过训练好的翻译模型对预训练的语音识别模型对语音样本进行识别处理过程中的目标特征以及语音识别结果中的至少一项进行翻译处理，得到翻译结果，以语音识别结果趋近于语音样本的文本标签，翻译结果趋近于以文本标签作为源语言文本的目标语言文本为目标，对预训练的语音识别模型的参数进行更新。基于本技术训练得到的语音识别模型，提升了语音识别模型的语音识别结果的语义准确性，语音识别结果的可懂度高，提升了用户主观体验。