技术新讯 > 乐器声学设备的制造及制作,分析技术 > 语音识别方法及装置、存储介质、电子设备与流程  >  正文

语音识别方法及装置、存储介质、电子设备与流程

  • 国知局
  • 2024-06-21 10:44:10

本申请涉及语音识别领域,具体而言,涉及一种语音识别方法及装置、存储介质、电子设备。

背景技术:

1、语音识别技术是一种将人类语音转换为文本的技术,可分为流式和非流式语音识别。其涉及到数字信号处理、机器学习、深度学习、语言学、声学等多个领域的知识,是一门综合性的技术。

2、非流式语音识别是指将整段语音作为一个完整的输入进行识别。在开始识别之前,需要等待所有的语音输入都传输完毕,然后进行识别处理。这种方式适用于离线场景或者对实时性要求不高的应用。非流式语音识别的优点是可以在整个语音输入完成后进行全局优化和上下文理解,有利于提高识别准确率。

3、流式语音识别是指在实时接收和处理语音输入的过程中进行识别。它允许在用户还在说话的同时进行识别,实现边说边识别的功能。这种方式适用于实时交互式应用。流式语音识别的优点是具有较低的延迟,可以实时地提供部分识别结果,从而支持实时反馈和交互。但流式语音识别易受到噪声的影响,识别率低,并且输出结果容易出现不完整。

4、针对相关技术中,流式语音识别易受到噪声的影响,识别率低,并且输出结果容易出现不完整的问题,尚未提出有效的解决方案。

技术实现思路

1、本申请实施例提供了一种语音识别方法及装置、存储介质、电子设备,以至少解决流式语音识别易受到噪声的影响,识别率低,并且输出结果容易出现不完整的问题。

2、根据本申请实施例的一个实施例,提供了一种语音识别方法,包括:通过语音识别模块对待识别音频数据进行语音识别,得到参考识别结果;通过后处理模块从所述参考识别结果中确定满足预设条件的目标词汇,其中,所述预设条件包括:所述目标词汇位于预设词汇集合中;将所述目标词汇确定为所述待识别音频数据的语音识别结果。

3、可选地,通过后处理模块从所述参考识别结果中确定满足预设条件的目标词汇,包括:重复执行以下步骤,直至确定从所述参考识别结果中确定满足预设条件的目标词汇:在确定所述参考识别结果中的当前识别词汇的词属性为目标属性、且缓存池中不存在词汇的情况下,将所述当前识别词汇缓存至所述后处理模块的缓存池中,并将所述参考识别结果中所述当前识别词汇的下一个识别词汇确定为当前识别词汇;在确定所述参考识别结果中的当前识别词汇的词属性与所述缓存池中的词汇的词属性相同的情况下,将所述缓存池中的词汇替换为所述当前识别词汇,并将所述参考识别结果中所述当前识别词汇的下一个识别词汇确定为当前识别词汇;在确定所述参考识别结果中的当前识别词汇的词属性与所述缓存池中的词汇的词属性相匹配的情况下,将所述当前识别词汇与所述缓存池中的词汇进行组合,得到组合词汇,并在所述组合词汇位于所述预设词汇集合中的情况下,将所述组合词汇确定为所述目标词汇;在所述组合词汇不位于所述预设词汇集合中的情况下,将所述参考识别结果中所述当前识别词汇的下一个识别词汇确定为当前识别词汇。

4、可选地,通过后处理模块从所述参考识别结果中确定满足预设条件的目标词汇,包括:在所述参考识别结果中存在参考词汇、且所述参考词汇的出现次数大于第一阈值的情况下,确定所述参考词汇在所述参考识别结果中的起始位置和结束位置,其中,所述参考词汇位于所述位于预设词汇集合中;获取所述待识别音频数据中所述起始位置和所述结束位置之间的音频数据的音素序列,并根据所述音素序列确定对应的语音帧的声学分;在所述声学分大于第二阈值的情况下,将所述参考词汇确定为所述目标词汇。

5、可选地,获取所述待识别音频数据中所述起始位置和所述结束位置之间的音频数据的音素序列,并根据所述音素序列确定对应的语音帧的声学分,包括:调用所述语音识别模块中的目标声学模型,获取所述待识别音频数据中所述起始位置和所述结束位置之间的音频数据的音素序列;通过所述目标声学模型根据所述音素序列确定对应的语音帧的声学分。

6、可选地,通过语音识别模块对待识别音频数据进行语音识别,包括:使用数据处理模块对所述待识别音频数据进行数据处理,得到所述待识别音频数据的音频特征数据,其中,所述数据处理包括以下至少之一:分帧、加窗、预加重、增加随机扰动;将所述音频特征数据输入至所述语音识别模块,以通过语音识别模块对待识别音频数据进行语音识别。

7、可选地,通过语音识别模块对待识别音频数据进行语音识别之前,所述方法还包括:获取通用声学模型,并使用所述预设词汇集合对应的音频数据和所述音频数据的标注数据对所述通用声学模型进行微调处理,得到目标声学模型;以及根据所述预设词汇集合训练得到语言模型;根据所述目标声学模型和所述语言模型的识别算法,确定解码图,其中,所述解码图中具有音素和词汇之间的转移路径,其中,所述语音识别模块中具有所述目标声学模型和所述解码图。

8、可选地,通过语音识别模块对待识别音频数据进行语音识别,得到参考识别结果,包括:通过所述语音识别模块中的目标声学模型对所述待识别音频数据进行识别处理,得到音素分布概率;通过所述语音识别模块中的解码器,根据所述音素分布概率和所述语音识别模块中存储的解码图,确定所述参考识别结果,其中,所述解码图中具有音素和词汇之间的转移路径。

9、根据本申请的另一个实施例,提供了一种语音识别装置,包括:识别模块,用于通过语音识别模块对待识别音频数据进行语音识别,得到参考识别结果;第一确定模块,用于通过后处理模块从所述参考识别结果中确定满足预设条件的目标词汇,其中,所述预设条件包括:所述目标词汇位于预设词汇集合中;第二确定模块,用于将所述目标词汇确定为所述待识别音频数据的语音识别结果。

10、根据本申请的又一个实施例,还提供了一种计算机可读的存储介质,所述计算机可读的存储介质包括存储的程序,其中,所述程序运行时执行上述任一项方法实施例中的步骤。

11、根据本申请的又一个实施例,还提供了一种电子装置,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为通过所述计算机程序执行上述任一项方法实施例中的步骤。

12、通过本申请,在通过语音识别模块对待识别音频数据进行语音识别,得到参考识别结果后,通过后处理模块从所述参考识别结果中确定满足预设条件的目标词汇,其中,预设条件包括:目标词汇位于预设词汇集合中,将所述目标词汇确定为所述待识别音频数据的语音识别结果。由于使用了后处理模块对语音识别模块输出的识别结果进行了筛选处理,进而解决了流式语音识别易受到噪声的影响,识别率低,并且输出结果容易出现不完整的问题,进而达到了提高语音识别的精确性的效果。

技术特征:

1.一种语音识别方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,通过后处理模块从所述参考识别结果中确定满足预设条件的目标词汇,包括:

3.根据权利要求1所述的方法,其特征在于,通过后处理模块从所述参考识别结果中确定满足预设条件的目标词汇,包括:

4.根据权利要求3所述的方法,其特征在于,获取所述待识别音频数据中所述起始位置和所述结束位置之间的音频数据的音素序列,并根据所述音素序列确定对应的语音帧的声学分,包括:

5.根据权利要求1所述的方法,其特征在于,通过语音识别模块对待识别音频数据进行语音识别,包括:

6.根据权利要求1所述的方法,其特征在于,通过语音识别模块对待识别音频数据进行语音识别之前,所述方法还包括:

7.根据权利要求1所述的方法,其特征在于,通过语音识别模块对待识别音频数据进行语音识别,得到参考识别结果,包括:

8.一种语音识别装置,其特征在于,包括:

9.一种计算机可读的存储介质,其特征在于,所述计算机可读的存储介质包括存储的程序,其中,所述程序运行时执行上述权利要求1至7任一项中的步骤。

10.一种电子装置,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为通过所述计算机程序执行所述权利要求1至7任一项中的步骤。

技术总结本申请公开了一种语音识别方法及装置、存储介质、电子设备,其中,该方法包括:通过语音识别模块对待识别音频数据进行语音识别,得到参考识别结果;通过后处理模块从所述参考识别结果中确定满足预设条件的目标词汇,其中,所述预设条件包括:所述目标词汇位于预设词汇集合中;将所述目标词汇确定为所述待识别音频数据的语音识别结果。通过上述步骤,解决了流式语音识别易受到噪声的影响,识别率低,并且输出结果容易出现不完整的问题。技术研发人员:李若愚,方瑞东,吴人杰,林聚财,黄惠祥,史巍,殷俊受保护的技术使用者:浙江大华技术股份有限公司技术研发日:技术公布日:2024/2/1

本文地址:https://www.jishuxx.com/zhuanli/20240618/21424.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。