语音识别方法、装置、设备和存储介质与流程
- 国知局
- 2024-06-21 11:43:40
本发明涉及语音识别,尤其涉及一种语音识别方法、装置、设备和存储介质。
背景技术:
1、随着科技的不断发展,语音交互作为一种能够“解放双手”同时又十分便捷的信息沟通方式,受到了业界的持续关注,在语音交互的过程中,语音识别的准确度对语音交互质量起着决定性作用。
2、现有技术中,通常会通过两个解码模型进行语音解码,例如通过将有限状态接收器(finite state acceptor,fsa)网络和加权有限状态转移器(weighted finite statetransducer,wfst)进行并联,分别通过这两个解码模型对待识别语音进行解码后,将这两个解码模型输出的声学模型得分进行比较,从而确定最终的语音识别结果。目前,为了提高特定场景中语音识别的效果,会在fsa网络中添加该特定场景下的热词,通常这些热词具备固定格式。在进行特定场景中的语音识别时,用户采用固定格式说出热词的概率较高,因此,为了提升fsa网络的解码效果,通常在进行声学模型得分比较时,会对fsa的声学模型得分进行激励,并采用激励后的声学得分和wfst的声学模型得分进行比较。
3、然而,上述方式中,由于会对fsa的声学模型得分进行激励,因此,会存在即使fsa的语音识别结果有误,但依然会输出fsa对应的语音识别结果的现象,导致语音识别结果的准确度不高。
技术实现思路
1、本发明提供一种语音识别方法、装置、设备和存储介质,用以解决现有技术中语音识别结果准确度不高的缺陷,实现提高语音识别结果准确度的目的。
2、本发明提供一种语音识别方法,包括:
3、将待识别语音中各音频帧对应的声学模型得分分别输入第一解码模型和第二解码模型,得到所述第一解码模型输出的第一最优路径中各音频帧对应的第一目标声学模型得分和第二解码模型输出的第二最优路径中各音频帧对应的第二目标声学模型得分;所述第二解码模型为基于包含样本热词的样本语音训练得到的;
4、针对各所述音频帧,确定所述音频帧对应的第一目标声学模型得分和所述音频帧对应的第二目标声学模型得分之间的差异值;
5、在所述差异值小于目标预设值的情况下,将所述音频帧对应的第一目标声学模型得分和所述音频帧对应的第二目标声学模型得分进行比较,并将比较结果中最大声学模型得分对应的解码模型确定为目标解码模型;
6、将所述目标解码模型的语音识别结果确定为所述待识别语音对应的语音识别结果。
7、根据本发明提供的一种语音识别方法,所述将所述音频帧对应的第一目标声学模型得分和所述音频帧对应的对应的第一目标声学模型得分进行比较,包括:
8、在确定所述待识别语音中包含热词的情况下,确定所述热词在所述待识别语音中的占比;
9、基于所述占比,确定激励系数,所述激励系数和所述占比呈正相关;
10、基于所述激励系数对所述音频帧对应的第二目标声学模型得分进行激励,得到激励得分;
11、将所述音频帧对应的第一目标声学模型得分和所述激励得分进行比较,得到所述比较结果。
12、根据本发明提供的一种语音识别方法,所述方法还包括:
13、在所述差异值大于或等于目标预设值的情况下,将所述第一解码模型的识别结果确定为所述待识别语音对应的语音识别结果。
14、根据本发明提供的一种语音识别方法,所述方法还包括:
15、确定所述第二解码模型的语音识别结果的目标长度;
16、基于长度范围和预设值的对应关系,确定所述目标长度所属目标长度范围对应的所述目标预设值。
17、根据本发明提供的一种语音识别方法,所述方法还包括:
18、获取接收所述待识别语音的目标应用程序;
19、基于所述目标应用程序的类型,确定所述待识别语音对应的目标场景;
20、在所述目标场景与所述样本语音对应的场景相同的情况下,增大所述目标预设值。
21、根据本发明提供的一种语音识别方法,所述确定所述音频帧对应的第一目标声学模型得分和所述音频帧对应的第二目标声学模型得分之间的差异值,包括:
22、在所述音频帧对应的第一目标声学模型得分大于得分阈值的情况下,确定所述音频帧对应的第一目标声学模型得分和所述音频帧对应的第二目标声学模型得分之间的差异值。
23、根据本发明提供的一种语音识别方法,所述方法还包括:
24、在所述音频帧对应的第一目标声学模型得分小于或等于所述得分阈值的情况下,丢弃所述第一解码模型的识别结果和所述第二解码模型的识别结果。
25、本发明还提供一种语音识别装置,包括:
26、输入模块,用于将待识别语音中各音频帧对应的声学模型得分分别输入第一解码模型和第二解码模型,得到所述第一解码模型输出的第一最优路径中各音频帧对应的第一目标声学模型得分和第二解码模型输出的第二最优路径中各音频帧对应的第二目标声学模型得分;所述第二解码模型为基于包含样本热词的样本语音训练得到的;
27、确定模块,用于针对各所述音频帧,确定所述音频帧对应的第一目标声学模型得分和所述音频帧对应的第二目标声学模型得分之间的差异值;
28、比较模块,用于在所述差异值小于目标预设值的情况下,将所述音频帧对应的第一目标声学模型得分和所述音频帧对应的第二目标声学模型得分进行比较;
29、所述确定模块,还用于将比较结果中最大声学模型得分对应的解码模型确定为目标解码模型;
30、所述确定模块,还用于将所述目标解码模型的语音识别结果确定为所述待识别语音对应的语音识别结果。
31、本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述语音识别方法。
32、本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述语音识别方法。
33、本发明还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述语音识别方法。
34、本发明提供的语音识别方法、装置、设备和存储介质,通过将待识别语音中各音频帧对应的声学模型得分分别输入第一解码模型和第二解码模型,得到第一解码模型输出的第一最优路径中各音频帧对应的第一目标声学模型得分和第二解码模型输出的第二最优路径中各音频帧对应的第二目标声学模型得分,其中,第二解码模型为基于包含样本热词的样本语音训练得到的,针对各音频帧,确定音频帧对应的第一目标声学模型得分和音频帧对应的第二目标声学模型得分之间的差异值,在差异值小于目标预设值的情况下,将所述音频帧对应的第一目标声学模型得分和所述音频帧对应的第二目标声学模型得分进行比较,并将比较结果中最大声学模型得分对应的解码模型确定为目标解码模型,从而将目标解码模型的语音识别结果确定为待识别语音对应的语音识别结果。由于对于每帧音频帧,先确定该音频帧对应的第一目标声学模型得分和音频帧对应的第二目标声学模型得分之间的差异值是否小于目标预设值,在小于目标预设值时,说明第一解码模型和第二解码模型的语音识别结果差异性不是很大,由此就可以排除第二解码模型解码错误的情况,此时,在将两个得分进行比较,以确定最终的语音识别结果,由此可以提高语音识别结果的准确性。
本文地址:https://www.jishuxx.com/zhuanli/20240618/23158.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。
下一篇
返回列表