一种音频识别方法、音频识别装置、车辆和计算机设备与流程
- 国知局
- 2024-06-21 11:26:16
本申请涉及语音识别,更具体而言,涉及一种音频识别方法、音频识别装置、车辆和计算机设备。
背景技术:
1、在车载语音系统的识别与交互的过程中,由于车辆的离线端存储有限、芯片的算力提升及数据处理技术的进步等,大部分厂商的车载语音系统采用了以少量算力换大量内存的神经网络语言模型(neural network language model,nnlm)与端到端模型相结合的方案。
2、但是,nnlm模型的训练周期较长,模型维护困难。
技术实现思路
1、本申请实施方式提供一种音频识别方法、音频识别装置、车辆、计算机设备、和非易失性计算机可读存储介质。通过预设的句式纠错模型和预设的槽位纠错模型,对待识别音频编码后的生成的音素概率矩阵进行不同的处理,分别生成第一识别结果和第二识别结果,降低模型的训练时长和模型存储的空间占用量,并且在需要维护时仅需对句式纠错模型或槽位纠错模型进行对应维护,有效提高车载的语音识别系统的维护效率。
2、本申请的音频识别方法包括对待识别音频进行编码,以生成音素概率矩阵;根据预设的句式纠错模型,对所述音素概率矩阵进行处理,以生成第一发音概率矩阵,所述发音概率矩阵包括文本特征和槽位特征;在所述槽位特征的权重不是所述发音概率矩阵的最大权重的情况下,对所述第一发音概率矩阵进行解码,以生成第一识别结果;在所述槽位特征的权重为所述发音概率矩阵的最大权重的情况下,根据预设的槽位纠错模型对所述音素概率矩阵进行处理,以生成第二发音概率矩阵;对所述第二发音概率矩阵解码,以生成第二识别结果。
3、在某些实施方式中,所述句式纠错模型中,softmax函数的输出维数为预设维数,所述预设维数通过统计预设的多个句式中不同的汉字的数量得到。
4、在某些实施方式中,还包括:在生成所述第一识别结果的情况下,依次在显示屏显示所述第一识别结果的各个识别文本。
5、在某些实施方式中,所述依次在显示屏显示所述第一识别结果的各个识别文本,包括:获取所述第一识别结果的每个识别文本的平均识别时间;根据所述平均识别时间和预设延迟权重确定所述第一识别结果中的各个识别文本的上屏延迟,其中,所述第一识别结果中,前n个识别文本的预设延迟权重递增,第n个识别文本之后的识别文本的预设延迟权重与第n个识别文本的预设延迟权重相同;根据各个识别文本的所述上屏延迟,依次在所述显示屏显示所述第一识别结果的各个识别文本。
6、在某些实施方式中,还包括:在生成所述第二识别结果的情况下,根据所述第二识别结果中的各个识别文本的解码时间,依次在显示屏显示所述第二识别结果的各个识别文本。
7、在某些实施方式中,还包括:在所述第一识别结果与预设响应句式匹配的情况下,输入所述第一识别结果到预设的自然语言理解模型进行前向推理;在生成所述第二识别结果的情况下,输入所述第二识别结果到所述自然语言理解模型,并基于所述前向推理的结果进行后续推理;根据推理结果,控制所述车辆执行对应的操作。
8、在某些实施方式中,还包括:判断所述第一识别结果匹配的预设响应句式是否存在对应的模型缓存;若是,则根据所述模型缓存获取所述前向推理的结果;若否,则输入所述第一识别结果到预设的自然语言理解模型进行前向推理。
9、本申请实施方式的音频识别装置包括编码模块、生成模块、第一解码模块、处理模块和第二解码模块。编码模块,用于对待识别音频进行编码,以生成音素概率矩阵;生成模块,用于根据预设的句式纠错模型,对所述音素概率矩阵进行处理,以生成第一发音概率矩阵,所述发音概率矩阵包括文本特征和槽位特征;第一解码模块,用于在所述槽位特征的权重不是所述发音概率矩阵的最大权重的情况下,对所述第一发音概率矩阵进行解码,以生成第一识别结果;处理模块,用于在所述槽位特征的权重为所述发音概率矩阵的最大权重的情况下,根据预设的槽位纠错模型对所述音素概率矩阵进行处理,以生成第二发音概率矩阵;第二解码模块,用于对所述第二发音概率矩阵解码,以生成第二识别结果。
10、本申请实施方式的车辆包括处理器、存储器;及计算机程序,其中,所述计算机程序被存储在所述存储器中,并且被所述处理器执行,所述计算机程序包括用于执行上述任一实施方式所述的音频识别方法的指令。
11、本申请实施方式的计算机设备包括处理器、存储器;及计算机程序,其中,所述计算机程序被存储在所述存储器中,并且被所述处理器执行,所述计算机程序包括用于执行上述任一实施方式所述的音频识别方法的指令。
12、本申请实施方式的非易失性计算机可读存储介质,包括计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行上述任一实施方式所述的音频识别方法。
13、本申请实施方式的音频识别方法、音频识别装置、车辆、计算机设备、和非易失性计算机可读存储介质,通过对待识别音频进行编码,以生成音素概率矩阵;再根据预设的句式纠错模型,对音素概率矩阵进行处理,即进行句式分割,以生成第一发音概率矩阵,发音概率矩阵包括文本特征和槽位特征,使得可以确定待识别音频中的语义和需要填充的槽位信息;再在槽位特征的权重不是第一发音概率矩阵的最大权重的情况下,对第一发音概率矩阵进行解码,以生成第一识别结果,以对待识别音频中的文本特征进行准确地识别,从而提高第一识别结果的识别质量;然后在槽位特征的权重为发音概率矩阵的最大权重的情况下,根据预设的槽位纠错模型对音素概率矩阵进行处理,以生成第二发音概率矩阵,槽位纠错模型可以对音素概率矩阵进行更深入和确切的槽位的识别处理;最后对第二发音概率矩阵解码,以生成第二识别结果,通过分别生成第一识别结果和第二识别结果,以在车载的语音识别系统中对待识别语音进行对应的文本特征和槽位特征的识别和解码处理,从而提高车载的语音识别系统的响应速度和效率。
14、并且,对比目前的延迟纠错模型,在训练时需要进行长时间和较大数据量的计算,可以通过对句式纠错模型和槽位纠错模型分别进行训练,可以有效降低训练时长和存储的空间占用量;此外,在需要添加新的表达、新的槽位以进行识别时,可以仅下线和训练对应的需要添加或更新的句式纠错模型和槽位纠错模型,从而提高车载的语音识别系统的维护效率。
15、本申请的实施方式的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本申请的实施方式的实践了解到。
技术特征:1.一种音频识别方法,其特征在于,包括:
2.根据权利要求1所述的音频识别方法,其特征在于,所述句式纠错模型中,softmax函数的输出维数为预设维数,所述预设维数通过统计预设的多个句式中不同的汉字的数量得到。
3.根据权利要求1所述的音频识别方法,其特征在于,还包括:
4.根据权利要求3所述的音频识别方法,其特征在于,所述依次在显示屏显示所述第一识别结果的各个识别文本,包括:
5.根据权利要求1所述的音频识别方法,其特征在于,还包括:
6.根据权利要求1所述的音频识别方法,其特征在于,还包括:
7.根据权利要求6所述的音频识别方法,其特征在于,还包括:
8.一种音频识别装置,其特征在于,包括:
9. 一种车辆,其特征在于,包括:
10. 一种计算机设备,其特征在于,包括:
技术总结本申请公开一种音频识别方法、音频识别装置、车辆和计算机设备。方法包括对待识别音频进行编码,以生成音素概率矩阵;根据预设的句式纠错模型,对音素概率矩阵进行处理,以生成第一发音概率矩阵,发音概率矩阵包括文本特征和槽位特征;在槽位特征的权重不是发音概率矩阵的最大权重的情况下,对第一发音概率矩阵进行解码,以生成第一识别结果;在槽位特征的权重为发音概率矩阵的最大权重的情况下,根据预设的槽位纠错模型对音素概率矩阵进行处理,以生成第二发音概率矩阵;对第二发音概率矩阵解码,以生成第二识别结果,提高车载的语音识别系统的响应速度、效率和维护效率,降低训练时长和存储的空间占用量。技术研发人员:张辽,余骁捷受保护的技术使用者:广州小鹏汽车科技有限公司技术研发日:技术公布日:2024/2/6本文地址:https://www.jishuxx.com/zhuanli/20240618/21522.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。
下一篇
返回列表