技术新讯 > 乐器声学设备的制造及制作,分析技术 > 一种语音识别模型训练方法、装置、设备及存储介质与流程 > 正文

一种语音识别模型训练方法、装置、设备及存储介质与流程

国知局
2024-06-21 11:51:14

本技术涉及语音识别，尤其涉及一种语音识别模型训练方法、装置、设备及存储介质。

背景技术：

1、随着科技的不断发展，语音识别技术日趋完善，使得智能语音交互被广泛应用于各个领域。

2、近年来，为了提高语音识别技术的准确率，语音识别模型渐渐从混合架构切换到端到端架构。然而，端到端架构的语音识别模型为了提高了识别的准确率，需要引入海量训练数据进行模型的训练，在进行语音识别时，该模型推理过程中的计算量也会随着增大，导致所带来的能耗、延迟和所需的资源也越多。

3、因此，在保证语音识别模型识别的准确率时，如何降低该语音识别模型的计算量，是目前亟需解决的问题。

技术实现思路

1、本技术提供了一种语音识别模型训练方法、装置、设备及存储介质，用以保证语音识别模型识别的准确率，以及降低语音识别模型的计算量。

2、第一方面，提供一种语音识别模型训练方法，包括：

3、对获取到的原始训练语音进行预处理，得到处理后的训练语音，以及将获取到的原始训练文本进行编码，得到编码后的目标文本序列；

4、将所述训练语音输入到语音识别模型中的声学模型编码器进行特征提取，得到语音嵌入特征，以及将所述原始训练文本输入到所述语音识别模型中的语言模型编码器进行特征提取，得到文本嵌入特征；

5、将所述训练语音、所述语音嵌入特征、所述文本嵌入特征分别输入到所述语音识别模型中各自的解码器，解码得到各自的文本序列，并根据各文本序列和所述目标文本序列，确定各解码器各自的损失函数；

6、当各损失函数中至少一个损失函数满足损失函数要求时，得到目标语音识别模型。

7、本技术实施例中，通过对原始训练语音进行预处理，可使后续的训练效果更好，将原始训练文本进行不同程度的编码，以减少后续模型训练的计算量；将训练语音输入到声学模型编码器，以及将原始训练文本输入到语言模型编码器，分别进行更细粒度的特征表达，可在训练过程中，提升语音识别模型识别的准确率；进一步地，结合多个解码器，利用损失函数对语音识别模型可进行不同程度的优化，提高了语音识别模型的整体性能，满足用户不同要求。

8、在一些实施例中，所述将所述训练语音、所述语音嵌入特征、所述文本嵌入特征分别输入到所述语音识别模型中各自的解码器，解码得到各自的文本序列，并根据各文本序列和所述目标文本序列，确定各解码器各自的损失函数，包括：

9、将所述训练语音输入到ctc解码器中进行解码，得到第一文本序列，并根据所述训练语音到所述第一文本序列的所有路径的概率值，确定所述ctc解码器的损失函数；

10、将所述语音嵌入特征输入到注意力机制解码器进行解码，得到第二文本序列，并根据所述第二文本序列和所述目标文本序列，确定所述注意力机制解码器的损失函数；

11、将所述文本嵌入特征输入到语言模型解码器进行解码，得到第三文本序列，并根据所述第三文本序列和所述目标文本序列，确定所述语言模型解码器的损失函数。

12、在一些实施例中，所述方法，还包括：

13、当获取到待识别的目标语音时，将所述目标语音输入到所述目标语音识别模型的ctc解码器中进行解码，确定所述目标语音的第一目标文本序列，并将所述目标语音输入到所述目标语音识别模型的声学模型编码器中进行特征提取，得到目标语音嵌入特征；

14、将所述目标语音嵌入特征输入到所述目标语音识别模型的注意力机制解码器中进行解码，得到第二目标文本序列；

15、将所述目标语音的历史预测文本输入到所述目标语音识别模型的语言模型编码器中进行特征提取，得到目标文本嵌入特征；

16、将所述目标文本嵌入特征输入到所述目标语音识别模型的语言模型解码器中解码，得到第三目标文本序列；

17、根据所述第一目标文本序列、所述第二目标文本序列、所述第三目标文本序列，确定所述目标语音的目标文本。

18、在一些实施例中，所述将所述目标语音输入到所述目标语音识别模型的声学模型编码器中进行特征提取，得到目标语音嵌入特征，包括：

19、将所述目标语音按照设定的语音分帧规则进行拆分，并将拆分后的m帧语音输入到所述目标语音识别模型的声学模型编码器中进行特征提取，输出得到所述m帧语音的语音嵌入特征；

20、所述将所述目标语音嵌入特征输入到所述目标语音识别模型的注意力机制解码器中进行解码，得到第二目标文本序列，包括：

21、从所述m帧语音中起始帧语音开始，计算下一帧语音与上一帧语音之间的相似度，直至到所述m帧语音中的最后一帧语音；

22、根据各相似度，确定所述m帧语音中小于相似度阈值的p帧关键语音，并将所述p帧关键语音对应的语音嵌入特征输入到训练后的注意力机制解码器中进行解码，得到所述第二目标文本序列。

23、在一些实施例中，所述声学模型编码器包括依次连接的卷积层、第一线性层以及至少一个编码层；所述将所述训练语音到语音识别模型中的声学模型编码器进行特征提取，得到语音嵌入特征，包括：

24、将所述训练语音输入到所述卷积层中进行降采样，得到降采样后的训练语音；

25、将所述降采样后的训练语音输入到所述第一线性层进行线性变换，得到线性变换后的训练语音；

26、将所述线性变换后的训练语音输入到所述至少一个编码层，得到所述语音嵌入特征。

27、在一些实施例中，所述语言模型编码器包括n个卷积组和第二线性层；其中，一个卷积组中包括依次连接的归一化层、卷积层、激活函数，所述n为大于0的整数；所述将所述原始训练文本输入到所述语音识别模型中的语言模型编码器进行特征提取，得到文本嵌入特征，包括：

28、将所述原始训练文本输入到所述n个卷积组进行特征提取，分别得到所述原始训练文本的n个文本特征信息；

29、将所述n个文本特征信息进行累加，并将累加后的文本特征信息输入到所述第二线性层，得到所述文本嵌入特征。

30、在一些实施例中，所述将获取到的原始训练文本进行编码，得到编码后的目标文本序列，包括：

31、对所述原始训练文本中各原始文本分别进行正则化处理，得到处理后的原始文本；

32、响应于从多个编码规则中选择的目标编码规则，将所述处理后的各原始文本按照所述目标编码规则进行编码，得到编码后的目标文本序列；

33、其中，所述多个编码规则至少包括字符级别编码规则、至少一个字节对级别编码规则，每个字节对级别编码规则对应不同等级的字符合并。

34、第二方面，提供一种语音识别模型训练装置，包括：

35、处理模块，用于对获取到的原始训练语音进行预处理，得到处理后的训练语音，以及将获取到的原始训练文本进行编码，得到编码后的目标文本序列；

36、训练模块，用于将所述训练语音输入到语音识别模型中的声学模型编码器进行特征提取，得到语音嵌入特征，以及将所述原始训练文本输入到所述语音识别模型中的语言模型编码器进行特征提取，得到文本嵌入特征；以及，用于将所述训练语音、所述语音嵌入特征、所述文本嵌入特征分别输入到所述语音识别模型中各自的解码器，解码得到各自的文本序列，并根据各文本序列和所述目标文本序列，确定各解码器各自的损失函数，当各损失函数中至少一个损失函数满足损失函数要求时，得到目标语音识别模型。

37、第三方面，提供一种电子设备，包括：

38、存储器，用于存放计算机程序；处理器，用于执行所述存储器上所存放的计算机程序时，实现第一方面中任一项所述的方法步骤。

39、第四方面，提供一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现第一方面中任一项所述的方法步骤。

40、上述第二方面至第四方面中的各个方面以及各个方面可能达到的技术效果请参照上述针对第一方面或第一方面中的各种可能方案可以达到的技术效果说明，这里不再重复赘述。