技术新讯 > 乐器声学设备的制造及制作,分析技术 > 语音识别方法、装置、电子设备及存储介质与流程  >  正文

语音识别方法、装置、电子设备及存储介质与流程

  • 国知局
  • 2024-06-21 11:48:27

本申请涉及机器学习,尤其涉及一种语音识别方法、装置、电子设备及存储介质。

背景技术:

1、随着电子技术的发展,语音识别的应用越来越广泛。在涉及开启打断的外呼场景中,语音识别模型会一直实时接收用户端的声音信号并实时判断是否需要打断,该情况下,对通过语音识别模型进行解码的实时性提出了更高的要求。

2、通过重打分的方式解码,可以取得准确性较高的解码结果,但该解码方式需要等待输入语音识别模型的语音流编码结束之后再统一进行解码和重打分,若上一批语音流还没有解码完成又收到了新的语音流,可能导致出现线程冲突,引发bug,从而降低了外呼场景下的用户体验。

技术实现思路

1、本申请实施例提供了一种语音识别方法、装置、电子设备及存储介质,以兼顾语音识别的实时性和准确性。

2、第一方面,本申请实施例提供了一种语音识别方法,包括:

3、获取待识别的目标语音数据;

4、对所述目标语音数据进行编码处理,得到所述目标语音数据的语义特征信息;

5、按照预设解码搜索方式对所述语义特征信息进行解码搜索处理,得到所述语义特征信息的连接时序分类结果;所述连接时序分类结果包括候选文本序列以及所述候选文本序列中第一字符的声学预测打分值;

6、在所述候选文本序列的字符数量大于预设字符数量阈值的情况下,将所述连接时序分类结果输入第一解码模型进行所述声学预测打分值和语言预测打分值的融合处理,得到所述目标语音数据的语音识别结果;所述语言预测打分值根据所述声学预测打分值转换得到;

7、在所述候选文本序列的字符数量小于等于所述预设字符数量阈值的情况下,将所述连接时序分类结果输入第二解码模型进行所述声学预测打分值的重打分处理,得到所述目标语音数据的语音识别结果。

8、第二方面,本申请实施例提供了一种语音识别装置,包括:

9、获取单元,用于获取待识别的目标语音数据;

10、编码单元,用于对所述目标语音数据进行编码处理,得到所述目标语音数据的语义特征信息;

11、解码搜索单元,用于按照预设解码搜索方式对所述语义特征信息进行解码搜索处理,得到所述语义特征信息的连接时序分类结果;所述连接时序分类结果包括候选文本序列以及所述候选文本序列中第一字符的声学预测打分值;

12、融合单元,用于在所述候选文本序列的字符数量大于预设字符数量阈值的情况下,将所述连接时序分类结果输入第一解码模型进行所述声学预测打分值和语言预测打分值的融合处理,得到所述目标语音数据的语音识别结果;所述语言预测打分值根据所述声学预测打分值转换得到;

13、重打分单元,用于在所述候选文本序列的字符数量小于等于所述预设字符数量阈值的情况下,将所述连接时序分类结果输入第二解码模型进行所述声学预测打分值的重打分处理,得到所述目标语音数据的语音识别结果。

14、第三方面,本申请实施例提供了一种电子设备,包括:处理器;以及,被配置为存储计算机可执行指令的存储器,所述计算机可执行指令在被执行时使所述处理器执行如第一方面所述的语音识别方法。

15、第四方面,本申请实施例提供了一种计算机可读存储介质,用于存储计算机可执行指令,所述计算机可执行指令在被处理器执行时实现如第一方面所述的语音识别方法。

16、可以看出,在本申请实施例中,首先,获取待识别的目标语音数据;其次,对目标语音数据进行编码处理,得到目标语音数据的语义特征信息;接着,按照预设解码搜索方式对语义特征信息进行解码搜索处理,得到语义特征信息的连接时序分类结果;连接时序分类结果包括候选文本序列以及候选文本序列中第一字符的声学预测打分值;在候选文本序列的字符数量大于预设字符数量阈值的情况下,将连接时序分类结果输入第一解码模型进行声学预测打分值和语言预测打分值的融合处理,得到目标语音数据的语音识别结果;语言预测打分值根据声学预测打分值转换得到;在候选文本序列的字符数量小于等于预设字符数量阈值的情况下,将连接时序分类结果输入第二解码模型进行声学预测打分值的重打分处理,得到目标语音数据的语音识别结果。以此,通过对语义特征信息解码搜索可以快速得到连接时序分类结果,该连接时序分类结果可以视为一个准确性较低的初始识别结果,该初始识别结果需要通过其他解码方式进一步解码,另外,该初始识别结果的字符数量通常是准确的,可供参考如何选择解码方式,在字符数量较多的情况下,采用准确性相对较高但解码速度慢的重打分方式解码可能难以满足业务的实时性需求,通过将连接时序分类结果输入第一解码模型进行声学预测打分值和语言预测打分值的融合处理得到语音识别结果,与重打分方式相比,解码速度更快,进而可以提高语音识别的实时性,在字符数量较少的情况下,通过将连接时序分类结果输入第二解码模型进行声学预测打分值的重打分处理得到语音识别结果,即采用重打分方式解码,可以满足业务的实时性需求,进而在语音识别保证实时性的前提下得到更高的准确性,综上,通过上述语音识别方法,可以在接收到任意长度的目标语音数据时兼顾语音识别的实时性和准确性。

技术特征:

1.一种语音识别方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述将所述连接时序分类结果输入第一解码模型进行所述声学预测打分值和语言预测打分值的融合处理,得到所述目标语音数据的语音识别结果,包括:

3.根据权利要求2所述的方法,其特征在于,所述根据所述第一目标打分值,确定所述目标语音数据的语音识别结果,包括:

4.根据权利要求1所述的方法,其特征在于,所述将所述连接时序分类结果输入第二解码模型进行所述声学预测打分值的重打分处理,得到所述目标语音数据的语音识别结果,包括:

5.根据权利要求1所述的方法,其特征在于,所述对所述目标语音数据进行编码处理,得到所述目标语音数据的语义特征信息,包括:

6.根据权利要求1所述的方法,其特征在于,所述获取待识别的目标语音数据,包括:

7.根据权利要求6所述的方法,其特征在于,所述方法还包括:

8.一种语音识别装置,其特征在于,包括:

9.一种电子设备,其特征在于,所述设备包括:

10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质用于存储计算机可执行指令,所述计算机可执行指令在被处理器执行时实现如权利要求1-7任一项所述的语音识别方法。

技术总结本公开实施例提供了语音识别方法、装置、电子设备以及存储介质,该方法包括:获取目标语音数据并进行编码处理,得到语义特征信息;按照预设解码搜索方式对语义特征信息进行解码搜索处理,得到连接时序分类结果;在候选文本序列的字符数量大于预设字符数量阈值的情况下,将连接时序分类结果输入第一解码模型进行声学预测打分值和语言预测打分值的融合处理,得到语音识别结果;语言预测打分值根据声学预测打分值转换得到;在候选文本序列的字符数量小于等于预设字符数量阈值的情况下,将连接时序分类结果输入第二解码模型进行声学预测打分值的重打分处理,得到语音识别结果。以此,能够在语音识别时兼顾实时性和准确性。技术研发人员:孟庆林,蒋宁,吴海英,陆全,夏粉,刘敏受保护的技术使用者:马上消费金融股份有限公司技术研发日:技术公布日:2024/5/6

本文地址:https://www.jishuxx.com/zhuanli/20240618/23679.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。