技术新讯 > 乐器声学设备的制造及制作,分析技术 > 语音识别方法、装置、电子设备及存储介质与流程  >  正文

语音识别方法、装置、电子设备及存储介质与流程

  • 国知局
  • 2024-06-21 11:51:32

本发明涉及语音识别,具体涉及语音识别方法、装置、电子设备及存储介质。

背景技术:

1、自动语音识别(automatic speech recognition,asr)是一种将语音序列转换为对应文本序列的技术,在语音输入法、字幕生成等场景中有广泛的应用。为了支持流式解码,通常需要将输入特征向量序列分成若干个数据块,每个数据块内包含至少一帧特征向量。现有的语音识别方法在解码时,一般是针对当前特征向量进行处理,使得编码结果仅依赖于当前特征向量,从而导致语音识别的准确性较低。

技术实现思路

1、有鉴于此,本发明实施例提供了一种语音识别方法、装置、电子设备及存储介质,以解决语音识别的准确性较低的问题。

2、根据第一方面,本发明实施例提供了一种语音识别方法,包括:

3、获取当前待处理数据帧以及所述当前待处理数据帧的上下文待处理数据帧,所述上下文待处理数据帧包括所述当前待处理数据帧之前的上文待处理数据帧以及所述当前待处理数据帧之后的下文待处理数据帧;

4、基于所述上下文待处理数据帧对所述当前待处理数据帧进行增加感受野的预处理,得到所述当前待处理数据帧的预处理结果;

5、根据所述预处理结果进行编码以及编码后的解码处理,确定语音识别结果。

6、本发明实施例提供的语音识别方法,在编码之前先利用上下文待处理数据帧对当前待处理数据帧进行增加感受野的预处理,使得所得到的预处理结果既能够感知上文待处理数据帧的信息,又能够感知下文待处理数据帧的信息,从而能够增加编码器在历史时刻以及未来时刻的感受野,提高了语音识别结果的准确性。

7、在一些实施方式中,所述基于所述上下文待处理数据帧对所述当前待处理数据帧进行增加感受野的预处理,得到所述当前待处理数据帧的预处理结果,包括:

8、将所述当前待处理数据帧与所述上下文待处理数据帧进行合并处理,得到所述当前待处理数据帧的预处理结果。

9、本发明实施例提供的语音识别方法,将当前待处理数据帧与上下文待处理数据帧进行合并处理,所得到的预处理结果中包括历史和未来的信息,且合并的处理方式较简单,易于实现,减少了预处理的数据处理量,提高了处理效率。

10、在一些实施方式中,基于所述上下文待处理数据帧对所述当前待处理数据帧进行增加感受野的预处理,得到所述当前待处理数据帧的预处理结果,包括:

11、将所述当前待处理数据帧以及所述上下文待处理数据帧输入时延神经网络中,得到所述预处理结果,所述时延神经网络包括至少一层时延网络层。

12、本发明实施例提供的语音识别方法,由于时延神经网络有能力表达语音特征在时间上的关系,因此,利用该时延神经网络进行预处理能够保证预处理结果的准确性。

13、在一些实施方式中,所述根据所述预处理结果进行编码以及编码后的解码处理,确定语音识别结果,包括:

14、将所述预处理结果分别输入编码器,得到第一编码结果;

15、将所述第一编码结果与所述预处理结果进行合并,得到第二编码结果;

16、基于所述第二编码结果进行解码处理,确定所述语音识别结果。

17、本发明实施例提供的语音识别方法,将预处理结果分别输入编码器的输入端与输出端,能够加速编码器与解码器的训练过程。

18、在一些实施方式中,所述将所述预处理结果分别输入编码器,得到第一编码结果,包括:

19、将所述预处理结果输入所述编码器,以利用所述编码器的卷积单元以及自注意力单元进行处理,确定所述第一编码结果。

20、本发明实施例提供的语音识别方法,在编码处理时,将注意力机制的全局建模能力和卷积单元的局部建模能力结合起来,提高了第一编码结果的准确性,从而保证了语音识别的准确性。

21、在一些实施方式中,所述获取当前待处理数据帧以及所述当前待处理数据帧的上下文待处理数据帧,包括:

22、获取当前待处理语音帧以及所述当前待处理语音帧的上下文待处理语音帧,所述上下文待处理语音帧包括所述当前待处理语音帧的上文待处理语音帧以及所述下文待处理语音帧;

23、对所述待处理语音帧以及所述上下文待处理语音帧进行降采样处理,得到所述当前待处理数据帧以及所述当前待处理数据帧的上下文待处理数据帧。

24、本发明实施例提供的语音识别方法,在编码之前进行降采样处理以保证声学特征与语音特征的对齐,提高了语音识别的准确性。

25、在一些实施方式中,所述增加感受野的预处理的是基于时延神经网络实现的,所述解码是基于conformer编码器实现的,所述时延神经网络的输出分别与conformer编码器的输入以及输出连接。

26、本发明实施例提供的语音识别方法,结合conformer编码器和时延神经网络进行语音识别,增加模型在未来时刻的感受野,增强模型的表达能力。

27、根据第二方面,本发明实施例提供了一种语音识别装置,包括:

28、获取模块,用于获取当前待处理数据帧以及所述当前待处理数据帧的上下文待处理数据帧;

29、预处理模块,用于基于所述上下文待处理数据帧对所述当前待处理数据帧进行增加感受野的预处理,得到所述当前待处理数据帧的预处理结果;

30、编解码处理,用于根据所述预处理结果进行编码以及编码后的解码处理,确定语音识别结果。

31、根据第三方面,本发明实施例提供了一种电子设备,包括:存储器和处理器,所述存储器和所述处理器之间互相通信连接,所述存储器中存储有计算机指令,所述处理器通过执行所述计算机指令,从而执行第一方面或者第一方面的任意一种实施方式中所述的语音识别方法。

32、根据第四方面,本发明实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储计算机指令,所述计算机指令用于使所述计算机执行第一方面或者第一方面的任意一种实施方式中所述的语音识别方法。

33、需要说明的是,本发明实施例提供的语音识别装置、电子设备及计算机可读存储介质的相应有益效果,请参见上文语音识别方法的对应有益效果的描述,在此不再赘述。

技术特征:

1.一种语音识别方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述基于所述上下文待处理数据帧对所述当前待处理数据帧进行增加感受野的预处理,得到所述当前待处理数据帧的预处理结果,包括:

3.根据权利要求2所述的方法,其特征在于,基于所述上下文待处理数据帧对所述当前待处理数据帧进行增加感受野的预处理,得到所述当前待处理数据帧的预处理结果,包括:

4.根据权利要求1所述的方法,其特征在于,所述根据所述预处理结果进行编码以及编码后的解码处理,确定语音识别结果,包括:

5.根据权利要求4所述的方法,其特征在于,所述将所述预处理结果分别输入编码器,得到第一编码结果,包括:

6.根据权利要求1所述的方法,其特征在于,所述获取当前待处理数据帧以及所述当前待处理数据帧的上下文待处理数据帧,包括:

7.根据权利要求1-6中任一项所述的方法,其特征在于,所述增加感受野的预处理的是基于时延神经网络实现的,所述编码是基于conformer编码器实现的,所述时延神经网络的输出分别与conformer编码器的输入以及输出连接。

8.一种语音识别装置,其特征在于,包括:

9.一种电子设备,其特征在于,包括:

10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使计算机执行权利要求1-7中任一项所述的语音识别方法。

技术总结本发明涉及语音识别领域,具体涉及语音识别方法、装置、电子设备及存储介质,该方法包括获取当前待处理数据帧以及所述当前待处理数据帧的上下文待处理数据帧,上下文待处理数据帧包括当前待处理数据帧之前的上文待处理数据帧以及当前待处理数据帧之后的下文待处理数据帧;基于上下文待处理数据帧对当前待处理数据帧进行增加感受野的预处理,得到当前待处理数据帧的预处理结果;根据预处理结果进行编码以及编码后的解码处理,确定语音识别结果。在编码之前先利用上下文待处理数据帧对当前待处理数据帧进行增加感受野的预处理,使得所得到的预处理结果既能够感知上文待处理数据帧的信息,又能够感知下文待处理数据帧的信息。技术研发人员:班志华受保护的技术使用者:广州视源电子科技股份有限公司技术研发日:技术公布日:2024/5/12

本文地址:https://www.jishuxx.com/zhuanli/20240618/24034.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。