一种语音识别纠正方法、装置、设备和存储介质与流程
- 国知局
- 2024-06-21 11:51:14
本申请涉及语音识别,特别是涉及一种语音识别纠正方法、装置、设备和存储介质。
背景技术:
1、近年来,深度神经网络的广泛应用使得自动语音识别(auto speechrecognition,简称asr)技术取得了巨大的进展。
2、然而,asr系统在识别过程中常常受到多种因素的影响,如复杂口音、方言、远讲、信道、噪声和混响环境等,造成识别结果中出现各种错误内容,现有的语音识别纠正方式存在纠正准确率偏低的问题。
3、因此,如何提高语音识别的纠正准确率,成为亟待解决的问题。
技术实现思路
1、本申请主要解决的技术问题是提供一种语音识别纠正方法、装置、设备和存储介质,能够提升语音识别的纠正准确率。
2、为了解决上述技术问题,本申请第一方面提供了一种语音识别纠正方法,语音识别纠正方法包括:基于待识别语音进行识别,得到若干候选识别文本;基于若干候选识别文本,预测得到各个候选识别文本分别与待识别语音实际表达之间的差异度;基于各个候选识别文本分别对应的差异度,选择候选识别文本作为第一识别文本;基于第一识别文本进行解码,得到待识别语音的目标识别文本。
3、为了解决上述技术问题,本申请第二方面提供了一种语音识别纠正装置,语音识别纠正装置包括识别模块、预测模块、选择模块和解码模块;识别模块用于基于待识别语音进行识别,得到若干候选识别文本;预测模块用于基于若干候选识别文本,预测得到各个候选识别文本分别与待识别语音实际表达之间的差异度;选择模块用于基于各个候选识别文本分别对应的差异度,选择候选识别文本作为第一识别文本;解码模块用于基于第一识别文本进行解码,得到待识别语音的目标识别文本。
4、为了解决上述技术问题,本申请第三方面提供了一种电子设备,相互耦接的存储器和处理器,处理器用于执行存储器中存储的程序指令,以实现上述第一方面中的语音识别纠正方法。
5、为了解决上述技术问题,本申请第四方面提供了一种计算机可读存储介质,其上存储有程序指令,程序指令被处理器执行时实现上述第一方面中的语音识别纠正方法。
6、上述方案,基于待识别语音进行识别,得到若干候选识别文本,再基于若干候选识别文本,预测得到各个候选识别文本分别与待识别语音实际表达之间的差异度,并基于各个候选识别文本分别对应的差异度,选择候选识别文本作为第一识别文本,以及基于第一识别文本进行解码,得到待识别语音的目标识别文本。因此,通过预测各个候选识别文本分别对应的差异度,能够在解码之前以待识别语音实际表达为参考对若干候选识别文本中进行筛选,再基于筛选后的第一识别文本进行解码得到目标识别文本,相较于直接对若干候选文本进行解码,能够提升语音识别的纠正准确率。
技术特征:1.一种语音识别纠正方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述基于所述第一识别文本进行解码,得到所述待识别语音的目标识别文本之前,所述方法还包括:
3.根据权利要求1或2所述的方法,其特征在于,所述方法还包括:
4.根据权利要求1或2所述的方法,其特征在于,在所述基于所述若干候选识别文本,预测得到各个所述候选识别文本分别与所述待识别语音实际表达之间的差异度之前,所述方法还包括:
5.根据权利要求1或2所述的方法,其特征在于,所述目标识别文本由语音识别纠正模型对所述候选识别文本纠正得到,所述语音识别纠正模型至少基于第一目标文本、由所述第一目标文本所生成的若干样本相似文本进行预训练。
6.根据权利要求5所述的方法,其特征在于,所述语音识别纠正模型的训练步骤包括:
7.根据权利要求6所述的方法,其特征在于,在所述基于所述第一相似文本进行解码,得到第一纠正文本之前,所述方法还包括:
8.根据权利要求6所述的方法,其特征在于,所述基于所述第一目标文本与所述第一纠正文本之间的差异,得到第二损失,包括:
9.根据权利要求5所述的方法,其特征在于,所述若干样本相似文本的生成步骤包括:
10.根据权利要求5所述的方法,其特征在于,所述语音识别纠正模型在所述预训练收敛之后还基于样本语音以及所述样本语音的若干样本识别文本进行参数微调,且所述样本语音还标注有第二目标文本。
11.根据权利要求10所述的方法,其特征在于,所述语音识别纠正模型的参数微调步骤包括:
12.一种语音识别纠正装置,其特征在于,包括:
13.一种电子设备,其特征在于,包括相互耦接的存储器和处理器,所述处理器用于执行所述存储器中存储的程序指令,以实现权利要求1至11任一项所述的语音识别纠正方法。
14.一种计算机可读存储介质,其上存储有程序指令,其特征在于,所述程序指令被处理器执行时实现权利要求1至11任一项所述的语音识别纠正方法。
技术总结本申请公开了一种语音识别纠正方法、装置、设备和存储介质,其中,语音识别纠正方法包括:基于待识别语音进行识别,得到若干候选识别文本;基于若干候选识别文本,预测得到各个候选识别文本分别与待识别语音实际表达之间的差异度;基于各个候选识别文本分别对应的差异度,选择候选识别文本作为第一识别文本;基于第一识别文本进行解码,得到待识别语音的目标识别文本。上述方案,能够提升语音识别的纠正准确率。技术研发人员:桑宏报,方磊,杨军,周振昆,宣璇,夏翔,方四安,柳林受保护的技术使用者:合肥讯飞数码科技有限公司技术研发日:技术公布日:2024/5/12本文地址:https://www.jishuxx.com/zhuanli/20240618/23993.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。
下一篇
返回列表