技术新讯 > 乐器声学设备的制造及制作,分析技术 > 音频识别方法、音频识别装置、车辆、计算机设备和介质与流程  >  正文

音频识别方法、音频识别装置、车辆、计算机设备和介质与流程

  • 国知局
  • 2024-06-21 10:42:35

本申请涉及语音识别,更具体而言,涉及一种音频识别方法、音频识别装置、车辆、计算机设备、和非易失性计算机可读存储介质。

背景技术:

1、目前,车辆的语音识别一般采用基于注意力机制(attention)的端到端声学模型方案。基于注意力机制(attention)的端到端声学模型方案可以更准确地将输入的语音信号映射到输出的文字标记中。

2、但是,当车辆在离线状态下时,由于芯片算力限制,基于注意力机制(attention)的端到端声学模型无法获取到运行时需要的算力和足够的存储空间,从而导致车辆在离线状态下,语音识别的交互处理速度、准确性较低等,影响用户体验。

技术实现思路

1、本申请实施方式提供一种音频识别方法、音频识别装置、车辆、计算机设备、和非易失性计算机可读存储介质。通过延迟纠错模型对待识别音频进行延迟纠错,基于延迟纠错的结果,解码出准确率较高的识别结果,不仅有效地节省算力和存储空间,还能保证对音频的识别的准确率。

2、本申请的音频识别方法包括对待识别音频进行编码,以生成发音概率矩阵;通过预设的延迟纠错模型,对所述发音概率矩阵进行纠错,以得到对应的字结果和输出概率矩阵;对所述字结果和所述输出概率矩阵进行发音映射,以得到映射概率矩阵,并根据所述映射概率矩阵和所述发音概率矩阵,生成目标概率矩阵;将所述目标概率矩阵输入到语音解码图进行解码,以得到识别结果。

3、在某些实施方式中,所述对待识别音频进行编码,以生成发音概率矩阵,包括:对所述待识别音频进行编码,以通过预先训练好的声学模型的第一输出层输出对应帧的第一概率矩阵,及通过所述声学模型的第二输出层输出对应帧的第二概率矩阵;其中,所述第一输出层和所述第二输出层相互独立,所述第一输出层的损失函数为ctc损失函数,所述第二输出层的损失函数为ce损失函数;根据所述第一概率矩阵的第一尖峰路径和所述第二概率矩阵的第二尖峰路径,将对应帧数位置的第一概率矩阵与第二概率矩阵进行拼接,以生成所述发音概率矩阵。

4、在某些实施方式中,所述根据所述第一概率矩阵的第一尖峰路径和所述第二概率矩阵的第二尖峰路径,将对应帧数位置的第一概率矩阵与第二概率矩阵进行拼接,以生成所述发音概率矩阵,包括:将所述第一尖峰路径与第二尖峰路径进行对齐,确定具有相同标签的尖峰作为拼接起点;根据所述拼接起点,确定第一尖峰路径中用于拼接的第一尖峰和第二尖峰路径中用于拼接的预设帧数的第二尖峰;将所述第一尖峰对应的帧数位置的第一概率矩阵与所述第二尖峰对应的帧数位置的第二概率矩阵进行拼接,获得所述发音概率矩阵。

5、在某些实施方式中,所述延迟纠错模型与预设的声学模型相互独立,并根据预设的无监督的注音文本数据训练得到。

6、在某些实施方式中,所述对所述字结果和所述输出概率矩阵进行发音映射,以得到映射概率矩阵,并根据所述映射概率矩阵和所述发音概率矩阵,生成目标概率矩阵,包括:将对应同一个音的字的概率相加以作为对应的音的概率,以得到所述映射概率矩阵;将所述映射概率矩阵和所述发音概率矩阵中,对应同一个音的概率矩阵累加后取均值,以生成所述目标概率矩阵。

7、在某些实施方式中,还包括:接收车辆内的用户发出的语音请求,以生成所述待识别音频;或者接收与所述车辆关联的终端接收的语音请求,以生成所述待识别音频。

8、本申请实施方式的音频识别装置包括编码模块、纠错模块、映射模块和解码模块,编码模块用于对待识别音频进行编码,以生成发音概率矩阵;纠错模块用于通过预设的延迟纠错模型,对所述发音概率矩阵进行纠错,以得到对应的字结果和输出概率矩阵;映射模块用于对所述字结果和所述输出概率矩阵进行发音映射,以得到映射概率矩阵,并根据所述映射概率矩阵和所述发音概率矩阵,生成目标概率矩阵;解码模块用于对所述目标概率矩阵输入到语音解码图进行解码,以得到识别结果。

9、本申请实施方式的车辆包括处理器、存储器;及计算机程序,其中,所述计算机程序被存储在所述存储器中,并且被所述处理器执行,所述计算机程序包括用于执行上述任一实施方式所述的音频识别方法的指令。

10、本申请实施方式的计算机设备包括处理器、存储器;及计算机程序,其中,所述计算机程序被存储在所述存储器中,并且被所述处理器执行,所述计算机程序包括用于执行上述任一实施方式所述的音频识别方法的指令。

11、本申请实施方式的非易失性计算机可读存储介质,包括计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行上述任一实施方式所述的音频识别方法。

12、本申请实施方式的音频识别方法、音频识别装置、车辆、计算机设备、和非易失性计算机可读存储介质,通过对获取的待识别音频进行编码,以生成发音概率矩阵,再通过预设的延迟纠错模型,对发音概率矩阵进行纠错,得到对应的字结果和输出概率矩阵,通过延迟纠错模型具备的纠错能力,对发音概率矩阵进行纠错,从而获取到准确的字结果,保证音频识别的准确性,且延迟纠错模型不需要基于目前的attention模块,因此可以有效地节省算力,节省存储空间。

13、然后通过对字结果和输出概率矩阵进行发音映射,以得到映射概率矩阵,并根据映射概率矩阵和发音概率矩阵,生成目标概率矩阵,由于字结果和输出概率矩阵经过纠错,具备更高的准确性,根据映射概率矩阵和发音概率矩阵,生成目标概率矩阵可以进一步提高音频识别的准确率,获取到更为准确的音的概率分布关系,最后通过将目标概率矩阵输入到语音解码图进行解码,从而提高识别结果的准确率。

14、本申请的实施方式的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本申请的实施方式的实践了解到。

技术特征:

1.一种音频识别方法,其特征在于,包括:

2.根据权利要求1所述的音频识别方法,其特征在于,所述对待识别音频进行编码,以生成发音概率矩阵,包括:

3.根据权利要求2所述的音频识别方法,其特征在于,所述根据所述第一概率矩阵的第一尖峰路径和所述第二概率矩阵的第二尖峰路径,将对应帧数位置的第一概率矩阵与第二概率矩阵进行拼接,以生成所述发音概率矩阵,包括:

4.根据权利要求1所述的音频识别方法,其特征在于,所述延迟纠错模型与预设的声学模型相互独立,并根据预设的无监督的注音文本数据训练得到。

5.根据权利要求1所述的音频识别方法,其特征在于,所述对所述字结果和所述输出概率矩阵进行发音映射,以得到映射概率矩阵,并根据所述映射概率矩阵和所述发音概率矩阵,生成目标概率矩阵,包括:

6. 根据权利要求1所述的音频识别方法,其特征在于,还包括:

7.一种音频识别装置,其特征在于,包括:

8. 一种车辆,其特征在于,包括:

9. 一种计算机设备,其特征在于,包括:

10.一种包含计算机程序的非易失性计算机可读存储介质,其特征在于,所述计算机程序被处理器执行时,使得所述处理器执行权利要求1至6任意一项所述音频识别方法。

技术总结本申请公开一种音频识别方法、音频识别装置、车辆、计算机设备和介质。方法包括:对待识别音频进行编码,以生成发音概率矩阵;通过预设的延迟纠错模型,对发音概率矩阵进行纠错,以得到对应的字结果和输出概率矩阵;对字结果和输出概率矩阵进行发音映射,以得到映射概率矩阵,并根据映射概率矩阵和发音概率矩阵,生成目标概率矩阵;对目标概率矩阵输入到语音解码图进行解码,以得到识别结果。通过延迟纠错模型具备的纠错能力,对发音概率矩阵进行纠错,从而获取到准确的字结果,提高音频识别的准确性,且延迟纠错模型可以有效地节省算力,节省存储空间等。技术研发人员:张辽,余骁捷受保护的技术使用者:广州小鹏汽车科技有限公司技术研发日:技术公布日:2024/2/1

本文地址:https://www.jishuxx.com/zhuanli/20240618/21373.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。