技术新讯 > 乐器声学设备的制造及制作,分析技术 > 语音识别方法、装置、电子设备、存储介质及产品与流程 > 正文

语音识别方法、装置、电子设备、存储介质及产品与流程

国知局
2024-10-21 14:41:51

本申请涉及语音识别，尤其涉及一种语音识别方法、装置、电子设备、存储介质及产品。

背景技术：

1、语音识别(voice recognition或speech recognition)是指让机器通过识别和理解过程，将人类的声音信号转化为文字或指令的技术。现有的语音识别技术多采用端到端的方式进行建模，构建出端到端的语音识别模型，用于对语音进行识别。

2、在深度神经网络领域，扩充模型参数是提升模型性能的一个有效手段，但是，一般端到端的模型中，所有的音频都会经过相同的神经网络进行计算，并且，需要对扩充了模型参数后的语音识别模型从零开始训练，因此在扩充模型参数的同时，训练成本和计算成本也会相应增加。然而在许多场景中，对训练和计算成本有一定限制，从而影响模型的性能。

技术实现思路

1、基于上述需求，本申请提出一种语音识别方法、装置、电子设备、存储介质及产品，能够在对训练和计算成本有一定限制的情况下，保证语音识别模型的性能。

2、为实现上述目的，本申请提出如下技术方案：

3、根据本申请实施例的第一方面，提供了一种语音识别方法，包括：

4、对待识别音频帧的音频帧特征进行编码，得到所述待识别音频帧的初始编码特征；

5、通过语音识别模型的基于混合多专家编码器的编码网络层，对所述待识别音频帧的初始编码特征进行编码，得到所述待识别音频帧的目标编码特征；其中，所述语音识别模型的参数是通过复用语音识别基模型的参数并进行训练后确定的，所述语音识别基模型的编码网络层包括单个编码器；

6、基于所述待识别音频帧的目标编码特征，确定所述待识别音频帧对应的识别文本。

7、可选的，所述语音识别模型的构建过程，包括：

8、将语音识别基模型的编码网络层替换为基于混合多专家编码器的编码网络层，所述基于混合多专家编码器的编码网络层包括门控网络以及多个专家编码器；

9、基于所述语音识别基模型的参数，对所述语音识别模型的参数进行设置；

10、基于预先采集的样本音频，对所述语音识别模型进行语音识别训练，得到训练后的语音识别模型。

11、可选的，基于所述语音识别基模型的参数，对所述语音识别模型的参数进行设置，包括：

12、对所述语音识别模型的所有参数进行初始化，得到初始化后的参数；

13、将所述语音识别模型中参数标识与所述语音识别基模型的参数标识相同的参数，更改为所述语音识别基模型的参数；

14、将所述语音识别模型中各个专家编码器的参数均更改为所述语音识别基模型中的编码网络层的参数。

15、可选的，基于预先采集的样本音频，对所述语音识别模型进行语音识别训练，得到训练后的语音识别模型，包括：

16、将所述样本音频中的样本音频帧输入到所述语音识别模型中，得到所述样本音频帧对应的预测文本；

17、基于所述样本音频帧对应的真实文本和预测文本之间的差异损失，以及，预先设置的专家编码器平衡损失，对所述语音识别模型进行模型参数调整；

18、其中，所述专家编码器平衡损失是基于选择专家编码器的概率和样本音频中通过专家编码器处理的样本音频帧数量比例确定的。

19、可选的，对待识别音频帧的音频帧特征进行编码，得到所述待识别音频帧的初始编码特征，通过语音识别模型的基于混合多专家编码器的编码网络层，对所述待识别音频帧的初始编码特征进行编码，得到所述待识别音频帧的目标编码特征，基于所述待识别音频帧的目标编码特征，确定所述待识别音频帧对应的识别文本，包括：

20、将待识别语音帧输入语音识别模型，以使所述语音识别模型对待识别音频帧的音频帧特征进行编码，得到所述待识别音频帧的初始编码特征，基于混合多专家编码器的编码网络层，对所述待识别音频帧的初始编码特征进行编码，得到所述待识别音频帧的目标编码特征，基于所述待识别音频帧的目标编码特征，确定所述待识别音频帧对应的识别文本。

21、可选的，基于混合多专家编码器的编码网络层，包括：门控网络、多个专家编码器和特征融合层；

22、通过语音识别模型的基于混合多专家编码器的编码网络层，对所述待识别音频帧的初始编码特征进行编码，得到所述待识别音频帧的目标编码特征，包括：

23、由所述门控网络基于所述待识别音频帧的初始编码特征，确定各个专家编码器的选取概率，并基于各个专家编码器的选取概率，选取至少一个专家编码器；

24、通过选取的所述专家编码器对所述待识别音频帧的初始编码特征进行编码，得到中间编码特征；

25、由所述特征融合层基于选取的所述专家编码器输出的中间编码特征，确定所述待识别音频帧的目标编码特征。

26、根据本申请实施例的第二方面，提供了一种语音识别装置，包括：

27、第一编码模块，用于对待识别音频帧的音频帧特征进行编码，得到所述待识别音频帧的初始编码特征；

28、第二编码模块，用于通过语音识别模型的基于混合多专家编码器的编码网络层，对所述待识别音频帧的初始编码特征进行编码，得到所述待识别音频帧的目标编码特征；其中，所述语音识别模型的参数是通过复用语音识别基模型的参数并进行训练后确定的，所述语音识别基模型的编码网络层包括单个编码器；

29、文本确定模块，用于基于所述待识别音频帧的目标编码特征，确定所述待识别音频帧对应的识别文本。

30、根据本申请实施例的第三方面，提供了一种电子设备，包括：存储器和处理器；

31、所述存储器与所述处理器连接，用于存储程序；

32、所述处理器，用于通过运行所述存储器中的程序，实现上述语音识别方法。

33、根据本申请实施例的第四方面，提供了一种存储介质，所述存储介质上存储有计算机程序，所述计算机程序被处理器执行时，实现上述语音识别方法。

34、根据本申请实施例的第五方面，提供了一种计算机程序产品，包括计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器实现上述语音识别方法。

35、本申请提出的语音识别方法，对待识别音频帧的音频帧特征进行编码，得到待识别音频帧的初始编码特征；通过语音识别模型的基于混合多专家编码器的编码网络层，对待识别音频帧的初始编码特征进行编码，得到待识别音频帧的目标编码特征；其中，语音识别模型的参数是通过复用语音识别基模型的参数并进行训练后确定的，语音识别基模型的编码网络层包括单个编码器；基于待识别音频帧的目标编码特征，确定待识别音频帧对应的识别文本。采用本申请的技术方案，语音识别模型的参数复用了语音识别基模型的参数，从而继承了语音识别基模型的语音识别能力，无需再对语音识别模型从零开始训练，从而能够减少训练成本和计算成本，因此，在对训练和计算成本有一定限制的情况下，也能保证语音识别模型的性能。

技术特征：

1.一种语音识别方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述语音识别模型的构建过程，包括：

3.根据权利要求2所述的方法，其特征在于，基于所述语音识别基模型的参数，对所述语音识别模型的参数进行设置，包括：

4.根据权利要求2所述的方法，其特征在于，基于预先采集的样本音频，对所述语音识别模型进行语音识别训练，得到训练后的语音识别模型，包括：

5.根据权利要求1所述的方法，其特征在于，对待识别音频帧的音频帧特征进行编码，得到所述待识别音频帧的初始编码特征，通过语音识别模型的基于混合多专家编码器的编码网络层，对所述待识别音频帧的初始编码特征进行编码，得到所述待识别音频帧的目标编码特征，基于所述待识别音频帧的目标编码特征，确定所述待识别音频帧对应的识别文本，包括：

6.根据权利要求1所述的方法，其特征在于，基于混合多专家编码器的编码网络层，包括：门控网络、多个专家编码器和特征融合层；

7.一种语音识别装置，其特征在于，包括：

8.一种电子设备，其特征在于，包括：存储器和处理器；

9.一种存储介质，其特征在于，所述存储介质上存储有计算机程序，所述计算机程序被处理器执行时，实现如权利要求1至6中任意一项所述的语音识别方法。

10.一种计算机程序产品，其特征在于，包括计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器实现如权利要求1至6中任意一项所述的语音识别方法。

技术总结本申请提出一种语音识别方法、装置、电子设备、存储介质及产品，该方法对待识别音频帧的音频帧特征进行编码，得到待识别音频帧的初始编码特征；通过语音识别模型的基于混合多专家编码器的编码网络层，对待识别音频帧的初始编码特征进行编码，得到待识别音频帧的目标编码特征；语音识别模型的参数是通过复用语音识别基模型的参数并进行训练后确定的，语音识别基模型的编码网络层包括单个编码器；基于待识别音频帧的目标编码特征，确定待识别音频帧对应的识别文本。本方案，语音识别模型的参数复用了语音识别基模型的参数，继承了语音识别基模型的语音识别能力，能减少训练和计算成本，在对训练和计算成本有限制时，能保证语音识别模型的性能。技术研发人员：刘博豪,吴重亮,张钟泽,吴明辉受保护的技术使用者：西安讯飞超脑信息科技有限公司技术研发日：技术公布日：2024/10/17