技术新讯 > 乐器声学设备的制造及制作,分析技术 > 语音识别方法、装置、电子设备和存储介质与流程 > 正文

语音识别方法、装置、电子设备和存储介质与流程

国知局
2024-06-21 11:36:39

本发明涉及计算机，尤其涉及一种语音识别方法、装置、电子设备和存储介质。

背景技术：

1、近年来，端到端语音识别模型在语音识别领域引起了广泛的关注。端到端语音识别模型通过单一的神经网络来取代传统的声学模型、发音模型和语言模型的组合，从而显著简化了语音识别系统的构建和维护。

2、然而，端到端语音识别模型的语音信息提取能力较弱，导致基于端到端语音识别模型输出的文本在语义层面上的表现欠佳。

技术实现思路

1、本发明提供一种语音识别方法、装置、电子设备和存储介质，用以解决现有技术中端到端语音识别模型的信息提取能力弱的缺陷。

2、本发明提供一种语音识别方法，包括：

3、获取待识别语音；

4、基于语音识别模型，对所述待识别语音进行语音识别；

5、所述语音识别模型是联合基于语音的音素识别任务和/或基于音素的文本生成任务，以及语音识别任务训练得到的。

6、根据本发明提供的一种语音识别方法，所述语音识别模型的训练步骤包括：

7、基于样本语音和所述样本语音的转写文本，训练所述语音识别模型，所述语音识别模型包括级联的音频编码器、共享编码器和解码器；

8、以及，

9、基于所述样本语音和所述样本语音的音素序列，训练所述音频编码器和所述共享编码器，和/或，基于样本文本和所述样本文本的音素序列，训练所述共享编码器和所述解码器。

10、根据本发明提供的一种语音识别方法，所述基于所述样本语音和所述样本语音的音素序列，训练所述音频编码器和所述共享编码器，包括：

11、基于所述音频编码器，对所述样本语音进行音频编码，得到音频编码特征；

12、基于所述共享编码器，对所述音频编码特征进行特征抽取，得到高维音频特征；

13、确定与所述高维音频特征对应的预测音素序列，基于所述预测音素序列和所述样本语音的音素序列，对所述音频编码器和所述共享编码器进行参数迭代。

14、根据本发明提供的一种语音识别方法，所述基于所述预测音素序列和所述样本语音的音素序列，对所述音频编码器和所述共享编码器进行参数迭代，包括：

15、确定所述样本语音的音素序列的音素编码特征；

16、基于所述共享编码器，对所述音素编码特征进行特征抽取，得到高维音素特征；

17、基于所述预测音素序列和所述样本语音的音素序列，以及所述高维音频特征和所述高维音素特征，对所述音频编码器和所述共享编码器进行参数迭代。

18、根据本发明提供的一种语音识别方法，所述基于所述共享编码器，对所述音素编码特征进行特征抽取，得到高维音素特征，包括：

19、预测所述音素序列中各音素的持续时长；

20、基于所述共享编码器，对所述音素编码特征和所述音素序列中各音素的持续时长进行特征抽取，得到所述高维音素特征。

21、根据本发明提供的一种语音识别方法，所述样本语音的转写文本中携带有语言符号，和/或，所述样本文本中携带有语言符号。

22、根据本发明提供的一种语音识别方法，所述样本语音的转写文本中还携带有个性化标识，和/或，所述样本文本中还携带有个性化标识，所述个性化标识表征所述语言符号的设置类型。

23、本发明还提供一种语音识别装置，包括：

24、获取单元，用于获取待识别语音；

25、识别单元，用于基于语音识别模型，对所述待识别语音进行语音识别；

26、所述语音识别模型是联合基于语音的音素识别任务和/或基于音素的文本生成任务，以及语音识别任务训练得到的。

27、本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述语音识别方法。

28、本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述语音识别方法。

29、本发明还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述语音识别方法。

30、本发明提供的语音识别方法、装置、电子设备和存储介质，联合基于语音的音素识别任务和/或基于音素的文本生成任务，以及语音识别任务训练语音识别模型，以增强语音识别模型对于语音信息的提取能力，使得基于由此训练得到的语音识别模型，能够获取到在语义层面上表现更优的语音识别文本，从而提高语音识别的可靠性和准确性。

技术特征：

1.一种语音识别方法，其特征在于，包括：

2.根据权利要求1所述的语音识别方法，其特征在于，所述语音识别模型的训练步骤包括：

3.根据权利要求2所述的语音识别方法，其特征在于，所述基于所述样本语音和所述样本语音的音素序列，训练所述音频编码器和所述共享编码器，包括：

4.根据权利要求3所述的语音识别方法，其特征在于，所述基于所述预测音素序列和所述样本语音的音素序列，对所述音频编码器和所述共享编码器进行参数迭代，包括：

5.根据权利要求4所述的语音识别方法，其特征在于，所述基于所述共享编码器，对所述音素编码特征进行特征抽取，得到高维音素特征，包括：

6.根据权利要求2至5中任一项所述的语音识别方法，其特征在于，所述样本语音的转写文本中携带有语言符号，和/或，所述样本文本中携带有语言符号。

7.根据权利要求6所述的语音识别方法，其特征在于，所述样本语音的转写文本中还携带有个性化标识，和/或，所述样本文本中还携带有个性化标识，所述个性化标识表征所述语言符号的设置类型。

8.一种语音识别装置，其特征在于，包括：

9.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至7任一项所述语音识别方法。

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述语音识别方法。

技术总结本发明提供一种语音识别方法、装置、电子设备和存储介质，其中方法包括：获取待识别语音；基于语音识别模型，对所述待识别语音进行语音识别；所述语音识别模型是联合基于语音的音素识别任务和/或基于音素的文本生成任务，以及语音识别任务训练得到的。本发明提供的方法、装置、电子设备和存储介质，联合基于语音的音素识别任务和/或基于音素的文本生成任务，以及语音识别任务训练语音识别模型，以增强语音识别模型对于语音信息的提取能力，使得基于由此训练得到的语音识别模型，能够获取到在语义层面上表现更优的语音识别文本，从而提高语音识别的可靠性和准确性。技术研发人员：尤祖寰,许丽,刘丹,熊世富,万根顺,高建清受保护的技术使用者：科大讯飞股份有限公司技术研发日：技术公布日：2024/3/17