技术新讯 > 乐器声学设备的制造及制作,分析技术 > 语音识别模型的训练、语音识别方法、装置、设备及介质与流程 > 正文

语音识别模型的训练、语音识别方法、装置、设备及介质与流程

国知局
2024-06-21 11:37:01

本发明涉及语音识别，尤其涉及一种语音识别模型的训练、语音识别方法、装置、设备及介质。

背景技术：

1、对于现有的基于encoder-decoder的端到端多语种语音识别系统，其主要问题是模型参数量和计算量巨大。对于基于语音预训练的多语种语音识别系统，如xlsr(cross-lingual speech representation from pretrained wav2vec 2.0)、mms(massivelymultilingual speech)等，通常利用原始的音频直接作为神经网络的输入，并采用计算密集的卷积神经网络进行特征提取，预训练编码器整体的单次计算量在几十g以上。而对于只利用有监督数据的多语种识别系统，如whisper，参数量达到了15亿。其中自回归的解码器占据了超过8亿的参数量，极大地降低了推理效率，且对实现流式识别造成了较大的阻碍。这些问题对快速构建一个多语种语音识别系统，并将其落地到本地识别应用中，为用户提供一个高效的体检，带来了巨大的挑战。

2、基于语音预训练的多语种模型，如xlsr、mms等，只是将通用的预训练技术wav2vec2.0应用于多语种模型的训练，没有考虑多语种场景的特点并针对涉及训练策略。在多语种联合建模中，由于不同语种之间发音风格的巨大差异，共享网络通常难以同时优化各种语言。虽然低资源语种受益于与相似语种的联合训练，但高资源语种在联合训练中往往受到迁移学习的负面影响，从而导致较差的效果。随着模型扩展到更多语种或更多训练数据，这种性能劣化会变得更加显著，这阻碍了预训练模型在下游多语种任务上的应用。

技术实现思路

1、本发明提供一种语音识别模型的训练、语音识别方法、装置、设备及介质，用以解决现有技术中基于语音预训练的多语种模型，只是将通用的预训练技术wav2vec2.0应用于多语种模型的训练，没有考虑多语种场景的特点并针对涉及训练策略的缺陷。

2、本发明提供一种语音识别模型的训练方法，包括：

3、获取初始编码器；

4、基于不同语种下语音的语种共享表征和/或语种特定表征，对所述初始编码器进行预训练，得到预训练编码器；

5、基于所述预训练编码器，构建预训练识别模型；

6、对所述预训练识别模型进行有监督微调，得到语音识别模型。

7、根据本发明提供的一种语音识别模型的训练方法，所述基于不同语种下语音的语种共享表征和/或语种特定表征，对所述初始编码器进行预训练，包括以下至少一种：

8、联合语种判别器，以及所述初始编码器中用于提取所述语种共享表征的共享层，对所述初始编码器进行语种对抗预训练；

9、将不同语种的语种嵌入向量作为所述初始编码器中提取的所述语种特定表征，对所述初始编码器进行结合语种嵌入向量的预训练；

10、基于所述初始编码器中为不同语种下语音的语种共享表征和/或语种特定表征设置的自适应权重，对所述初始编码器进行语种自适应预训练。

11、根据本发明提供的一种语音识别模型的训练方法，所述联合语种判别器，以及所述初始编码器中用于提取所述语种共享表征的共享层，对所述初始编码器进行语种对抗预训练，包括：

12、获取样本语音特征，以及所述样本语音特征对应的语种标签；

13、将所述样本语音特征输入至所述初始编码器中的共享层，得到所述共享层输出的预测语种共享表征；

14、将所述预测语种共享表征输入至所述语种判别器中，得到所述语种判别器输出的语种识别结果；

15、基于所述语种识别结果和所述语种标签之间的差异，确定语种判别损失，并基于所述语种判别损失对所述初始编码器进行语种对抗预训练。

16、根据本发明提供的一种语音识别模型的训练方法，所述基于所述语种判别损失对所述初始编码器进行语种对抗预训练，包括：

17、基于所述语种判别损失对设置有梯度反转层的初始编码器进行语种对抗预训练。

18、根据本发明提供的一种语音识别模型的训练方法，所述将不同语种的语种嵌入向量作为所述初始编码器中提取的所述语种特定表征，对所述初始编码器进行结合语种嵌入向量的预训练，包括：

19、基于不同语种的语种嵌入向量之间的差异，确定语种嵌入向量损失；

20、基于所述语种嵌入向量损失，对所述初始编码器进行结合语种嵌入向量的预训练。

21、根据本发明提供的一种语音识别模型的训练方法，所述基于所述初始编码器中为不同语种下语音的语种共享表征和/或语种特定表征设置的自适应权重，对所述初始编码器进行语种自适应预训练，包括：

22、对所述初始编码器中为不同语种下语音的语种共享表征和/或语种特定表征设置的自适应权重进行因子分解；

23、基于因子分解后的自适应权重，对所述初始编码器进行语种自适应预训练。

24、根据本发明提供的一种语音识别模型的训练方法，所述基于所述预训练编码器，构建预训练识别模型，包括：

25、确定预训练解码器；

26、基于所述预训练编码器和所述预训练解码器，构建所述预训练识别模型。

27、根据本发明提供的一种语音识别模型的训练方法，所述确定预训练解码器，包括：

28、获取初始解码器和大型语言模型；

29、基于所述初始解码器，对样本文本的文本特征进行解码，得到所述文本特征的第一后验概率；

30、基于所述大型语言模型，对所述文本特征进行解码，得到所述文本特征的第二后验概率；

31、基于所述第一后验概率和所述第二后验概率，以及所述第一后验概率和所述样本文本的文本标签，对所述初始解码器进行参数迭代，得到所述预训练解码器。

32、根据本发明提供的一种语音识别模型的训练方法，所述样本文本是在初始文本的开头加入语种标签得到的。

33、本发明还提供一种语音识别方法，包括：

34、获取待识别语音；

35、基于语音识别模型，对所述待识别语音进行语音识别；

36、所述语音识别模型是基于上述语音识别模型的训练方法执行得到的。

37、本发明还提供一种语音识别模型的训练装置，包括：

38、获取单元，用于获取初始编码器；

39、预训练单元，用于基于不同语种下语音的语种共享表征和/或语种特定表征，对所述初始编码器进行预训练，得到预训练编码器；

40、构建单元，用于基于所述预训练编码器，构建预训练识别模型；

41、有监督微调单元，用于对所述预训练识别模型进行有监督微调，得到语音识别模型。

42、本发明还提供一种语音识别装置，包括：

43、获取待识别语音单元，用于获取待识别语音；

44、语音识别单元，用于基于语音识别模型，对所述待识别语音进行语音识别；

45、所述语音识别模型是基于上述语音识别模型的训练方法执行得到的。

46、本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述语音识别模型的训练方法，或实现所述语音识别方法。

47、本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述语音识别模型的训练方法，或实现所述语音识别方法。

48、本发明还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述语音识别模型的训练方法，或实现所述语音识别方法。

49、本发明提供的语音识别模型的训练、语音识别方法、装置、设备及介质，获取初始编码器，基于不同语种下语音的语种共享表征和/或语种特定表征，对初始编码器进行预训练，得到预训练编码器，再基于预训练编码器，构建预训练识别模型，最后，对预训练识别模型进行有监督微调，得到语音识别模型。基于不同语种下语音的语种共享表征和/或语种特定表征，对初始编码器进行预训练，得到预训练编码器，可以抑制语种间串扰问题，从而可以指导初始编码器学习更易于适应不同语种的语音表征，在不显著增加模型参数量和计算量的情况下，既能提升低资源语种识别性能，又能保持高资源语种性能相较于单语模型不降，从而在不显著增加模型参数量和计算量的情况下，提供一个高效、准确的多语种语音识别模型。