技术新讯 > 乐器声学设备的制造及制作,分析技术 > 语音识别方法、装置及电子设备与流程  >  正文

语音识别方法、装置及电子设备与流程

  • 国知局
  • 2024-06-21 11:55:27

本申请主要涉及人工智能应用领域,更具体地说是涉及一种语音识别方法、装置及电子设备。

背景技术:

1、近年来,随着端到端模型在自动语音识别(automatic speech recognition,asr)系统中的应用发展,提出了神经网络转录器(即神经传感器,neural transducer,nt)这一种端到端的语音识别模型,实现音频数据实时识别,得到相应转录文本数据,以满足语音识别需求。

2、然而,nt这种语音识别模型的应用领域具有较大局限性,在与其训练语料不同领域的应用场景(即目标领域)中的识别性能下降,降低了语音识别效率和可靠性。

技术实现思路

1、为了接近上述技术问题,本申请提供了以下技术方案:

2、一方面,本申请提出了一种语音识别方法,所述方法包括:

3、获得待识别音频数据,以及针对所述待识别音频数据的参考文本数据;

4、基于编码器获得所述待识别音频数据的音频特征,基于解码器获得所述参考文本数据的参考文本特征,并基于语言模型获得所述参考文本数据的预测词汇特征;其中,所述语言模型用于预测预设词汇表中不同词汇属于所述参考文本数据的下一文本数据的概率,所述预测词汇特征与所述音频特征和所述参考文本特征的特征维度相同;

5、基于所述音频特征和所述参考文本特征,获得针对所述待识别音频数据的空白字符特征,并基于所述音频特征和所述预测词汇特征,获得针对所述待识别音频数据的实词特征;

6、基于所述空白字符特征和所述实词特征,获得与所述待识别音频数据对应的转录文本数据。

7、可选的,所述基于语言模型获得所述参考文本数据的预测词汇特征,包括:

8、将所述参考文本数据输入语言模型,得到词汇概率分布;

9、基于所述词汇概率分布,获得预测词汇特征。

10、可选的,所述基于所述音频特征和所述预测词汇特征,获得针对所述待识别音频数据的实词特征,包括:

11、基于音频特征和所述预测词汇特征,获得音频词汇特征;

12、基于所述音频词汇特征和所述词汇概率分布,获得针对所述待识别音频数据的实词特征。

13、可选的,所述基于所述音频特征和所述参考文本特征,获得针对所述待识别音频数据的空白字符特征,并基于所述音频特征和所述预测词汇特征,获得针对所述待识别音频数据的实词特征,包括:

14、基于预设特征融合方式,将所述音频特征与所述参考文本特征进行特征融合,得到第一融合特征,并将所述音频特征与所述预测词汇特征进行特征融合,得到第二融合特征;

15、基于所述预设特征融合方式,将所述第二融合特征与所述词汇概率分布进行特征融合,获得针对所述待识别音频数据的实词特征;并基于所述第一融合特征,获得针对所述待识别音频数据的空白字符特征。

16、可选的,所述获得待识别音频数据,以及针对所述待识别音频数据的参考文本数据,包括:

17、获得当前帧待识别音频数据,以及与上一帧待识别音频数据对应的上一帧转录文本数据;

18、将所述上一帧转录文本数据确定为针对当前帧待识别音频数据的参考文本数据。

19、可选的,如果获得的待识别音频数据是待识别音频信号的第一帧待识别音频数据,针对所述第一帧待识别音频数据的参考文本数据为空白数据,所述第一帧待识别音频数据对应的转录文本数据的获取过程包括:

20、基于所述编码器,获得所述第一帧待识别音频数据的音频特征;

21、基于所述音频特征,获得与所述第一帧待识别音频数据对应的转录文本数据。

22、可选的,所述语音识别方法还包括:

23、获得目标域的调试文本数据;

24、将所述调试文本数据输入所述语言模型,得到针对所述调试文本数据的下一调试文本数据的预测概率分布;

25、基于所述预测概率分布,获得针对所述下一调试文本数据的预测损失;

26、通过最小化所述预测损失,调试所述语言模型,以通过调试后的所述语言模型以及所述编码器和所述解码器,获得来自所述目标域的待识别音频数据对应的转录文本数据。

27、可选的,所述基于所述词汇概率分布,获得预测词汇特征,包括:

28、基于所述音频特征和所述参考文本特征具有的特征维度,对所述词汇概率分布进行特征转换处理,得到具有所述特征维度的预测词汇特征。

29、另一方面,本申请还提出了一种语音识别装置,所述装置包括:

30、数据获得模块,用于获得待识别音频数据,以及针对所述待识别音频数据的参考文本数据;

31、数据处理模块,用于基于编码器获得所述待识别音频数据的音频特征,基于解码器获得所述参考文本数据的参考文本特征,并基于语言模型获得所述参考文本数据的预测词汇特征;其中,所述语言模型用于预测预设词汇表中不同词汇属于所述参考文本数据的下一文本数据的概率,所述预测词汇特征与所述音频特征和所述参考文本特征的特征维度相同;

32、空白字符特征获得模块,用于基于所述音频特征和所述参考文本特征,获得针对所述待识别音频数据的空白字符特征;

33、实词特征获得模块,用于基于所述音频特征和所述预测词汇特征,获得针对所述待识别音频数据的实词特征;

34、转录文本数据获得模块,用于基于所述空白字符特征和所述实词特征,获得与所述待识别音频数据对应的转录文本数据。

35、又一方面,本申请还提出了一种电子设备,所述电子设备包括:

36、数据连接端口,用于接收待识别音频信号,所述待识别音频信号包含至少一帧待识别音频数据;

37、处理器,用于执行多个计算机指令,实现以下步骤:

38、获得所述待识别音频数据,以及针对所述待识别音频数据的参考文本数据;

39、基于编码器获得所述待识别音频数据的音频特征,基于解码器获得所述参考文本数据的参考文本特征,并基于语言模型获得所述参考文本数据的预测词汇特征;其中,所述语言模型用于预测预设词汇表中不同词汇属于所述参考文本数据的下一文本数据的概率,所述预测词汇特征与所述音频特征和所述参考文本特征的特征维度相同;

40、基于所述音频特征和所述参考文本特征,获得针对所述待识别音频数据的空白字符特征,并基于所述音频特征和所述预测词汇特征,获得针对所述待识别音频数据的实词特征;

41、基于所述空白字符特征和所述实词特征,获得与所述待识别音频数据对应的转录文本数据。

技术特征:

1.一种语音识别方法,所述语音识别方法包括:

2.根据权利要求1所述的语音识别方法,所述基于语言模型获得所述参考文本数据的预测词汇特征,包括:

3.根据权利要求2所述的语音识别方法,所述基于所述音频特征和所述预测词汇特征,获得针对所述待识别音频数据的实词特征,包括:

4.根据权利要求2所述的语音识别方法,所述基于所述音频特征和所述参考文本特征,获得针对所述待识别音频数据的空白字符特征,并基于所述音频特征和所述预测词汇特征,获得针对所述待识别音频数据的实词特征,包括:

5.根据权利要求1-4任一项所述的语音识别方法,所述获得待识别音频数据,以及针对所述待识别音频数据的参考文本数据,包括:

6.根据权利要求5所述的语音识别方法,如果获得的待识别音频数据是待识别音频信号的第一帧待识别音频数据,针对所述第一帧待识别音频数据的参考文本数据为空白数据,所述第一帧待识别音频数据对应的转录文本数据的获取过程包括:

7.根据权利要求1-4任一项所述的语音识别方法,所述语音识别方法还包括:

8.根据权利要求2所述的语音识别方法,所述基于所述词汇概率分布,获得预测词汇特征,包括:

9.一种语音识别装置,所述语音识别装置包括:

10.一种电子设备,所述电子设备包括:

技术总结本申请提出了一种语音识别方法、装置及电子设备,获得待识别音频数据及其参考文本数据后,基于编码器获得待识别音频数据的音频特征,基于解码器获得参考文本数据的参考文本特征,并基于语言模型获得参考文本数据的预测词汇特征,由于该预测词汇特征与音频特征和参考文本特征的特征维度相同,能够基于音频特征和参考文本特征,获得针对待识别音频数据的空白字符特征,并基于音频特征和预测词汇特征,获得针对待识别音频数据的实词特征,从而基于空白字符特征和实词特征,精准获得与待识别音频数据对应的转录文本数据。技术研发人员:陈谐,刘浚哲,王一桐受保护的技术使用者:联想(北京)有限公司技术研发日:技术公布日:2024/6/2

本文地址:https://www.jishuxx.com/zhuanli/20240618/24490.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。