技术新讯 > 乐器声学设备的制造及制作,分析技术 > 语音识别方法、装置、电子设备和存储介质与流程 > 正文

语音识别方法、装置、电子设备和存储介质与流程

国知局
2024-06-21 11:39:58

本发明涉及音频处理，尤其涉及一种语音识别方法、装置、电子设备和存储介质。

背景技术：

1、语音识别系统功能为帮助说话人将语音转换为文本。具体来说，说话人的语音以数据形式送入语音识别系统，经过一些前置处理如降噪、分句，以及提取声学特征等等操作得到语音识别系统的输入。经过语音识别模型后返回识别的文本内容并输出。当前自动语音识别技术(asr)可以分为传统的基于统计的方法以及基于神经网络的端到端语音识别。

2、但是，在实际应用中存在同一句话，也有可能某一小段声音变小或者环境嘈杂导致其相对其他片段更难听清具体的含义，而现有的语音识别模型通常是对整个待识别语音数据进行无差别的语音识别。由此，现有的语音识别模型的识别效果并不理想。

技术实现思路

1、本发明提供一种语音识别方法、装置、电子设备和存储介质，用以解决现有技术中针对包含识别难度较高的待识别语音的语音识别效果不佳的缺陷。

2、本发明提供一种语音识别方法，包括：

3、获取待识别语音；

4、确定所述待识别语音中各语音帧所属音素的预测难易程度，基于与所述预测难易程度对应的特征提取方式，提取所述各语音帧的语音特征；

5、基于所述各语音帧的语音特征，确定所述待识别语音的识别结果。

6、根据本发明提供的一种语音识别方法，所述确定所述待识别语音中各语音帧所属音素的预测难易程度，包括：

7、基于上一轮次提取到的所述各语音帧的语音特征，对所述各语音帧进行音素预测，得到当前轮次下各语音帧所属音素的概率；

8、基于所述当前轮次下各语音帧所属音素的概率，确定当前轮次下所述各语音帧所属音素的预测难易程度。

9、根据本发明提供的一种语音识别方法，所述基于所述当前轮次下各语音帧所属音素的概率，确定当前轮次下所述各语音帧所属音素的预测难易程度，包括：

10、基于所述当前轮次下各语音帧所属音素的概率，以及所述当前轮次下的概率阈值，确定当前轮次下所述各语音帧所属音素的预测难易程度。

11、根据本发明提供的一种语音识别方法，所述当前轮次下的概率阈值大于等于上一轮次下的概率阈值。

12、根据本发明提供的一种语音识别方法，所述基于与所述预测难易程度对应的特征提取方式，提取所述各语音帧的语音特征，包括：

13、基于与所述预测难易程度对应的特征提取方式，提取所述各语音帧的语音特征，得到所述各语音帧的区分性语音特征；

14、基于通用特征提取方式，提取所述各语音帧的语音特征，得到所述各语音帧的通用语音特征；

15、基于所述各语音帧的区分性语音特征和通用语音特征，确定所述各语音帧的语音特征。

16、根据本发明提供的一种语音识别方法，所述基于与所述预测难易程度对应的特征提取方式，提取所述各语音帧的语音特征，包括：

17、基于与所述预测难易程度对应的特征提取网络，提取所述各语音帧的语音特征；

18、所述特征提取网络的网络规模与所述预测难易程度关联。

19、根据本发明提供的一种语音识别方法，所述基于所述各语音帧的语音特征，确定所述待识别语音的识别结果，包括：

20、确定所述待识别语音中各语音帧所属的语种，基于与所述语种对应的特征提取方式，提取所述各语音帧在所属语种下的语音特征；

21、基于所述各语音帧的语音特征，以及所述各语音帧在所属语种下的语音特征，确定所述待识别语音的识别结果。

22、本发明还提供一种语音识别装置，包括：

23、获取单元，获取待识别语音；

24、区分单元，确定所述待识别语音中各语音帧所属音素的预测难易程度，基于与所述预测难易程度对应的特征提取方式，提取所述各语音帧的语音特征；

25、识别单元，基于所述各语音帧的语音特征，确定所述待识别语音的识别结果。

26、本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述语音识别方法。

27、本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述语音识别方法。

28、本发明还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述语音识别方法。

29、本发明提供的语音识别方法、装置、电子设备和存储介质，通过确定待识别语音中各语音帧所属音素的预测难易程度，基于与预测难易程度对应的特征提取方式，提取各语音帧的语音特征，以得到待识别语音的识别结果，实现了难易渐进式语音识别，提升了针对较困难语音片段的语音识别效果。

技术特征：

1.一种语音识别方法，其特征在于，包括：

2.根据权利要求1所述的语音识别方法，其特征在于，所述确定所述待识别语音中各语音帧所属音素的预测难易程度，包括：

3.根据权利要求2所述的语音识别方法，其特征在于，所述基于所述当前轮次下各语音帧所属音素的概率，确定当前轮次下所述各语音帧所属音素的预测难易程度，包括：

4.根据权利要求3所述的语音识别方法，其特征在于，所述当前轮次下的概率阈值大于等于上一轮次下的概率阈值。

5.根据权利要求1所述的语音识别方法，其特征在于，所述基于与所述预测难易程度对应的特征提取方式，提取所述各语音帧的语音特征，包括：

6.根据权利要求1至5中任一项所述的语音识别方法，其特征在于，所述基于与所述预测难易程度对应的特征提取方式，提取所述各语音帧的语音特征，包括：

7.根据权利要求1至5中任一项所述的语音识别方法，其特征在于，所述基于所述各语音帧的语音特征，确定所述待识别语音的识别结果，包括：

8.一种语音识别装置，其特征在于，包括：

9.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至7任一项所述语音识别方法。

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述语音识别方法。

技术总结本发明提供一种语音识别方法、装置、电子设备和存储介质，其中方法包括：获取待识别语音；确定所述待识别语音中各语音帧所属音素的预测难易程度，基于与所述预测难易程度对应的特征提取方式，提取所述各语音帧的语音特征；基于所述各语音帧的语音特征，确定所述待识别语音的识别结果。本发明提供的方法、装置、电子设备和存储介质，通过确定待识别语音中各语音帧所属音素的预测难易程度，基于与预测难易程度对应的特征提取方式，提取各语音帧的语音特征，以得到待识别语音的识别结果，实现了难易渐进式语音识别，提升了针对较困难语音片段的语音识别效果。技术研发人员：任继刚,万根顺,王孟之,高建清,刘聪受保护的技术使用者：科大讯飞股份有限公司技术研发日：技术公布日：2024/3/27