语音识别方法以及语音识别模型训练方法与流程
- 国知局
- 2024-06-21 11:32:24
本说明书实施例涉及计算机,特别涉及一种语音识别方法。
背景技术:
1、随着计算机技术的发展,端到端的语音识别在很多场景中都取得了较好的识别效果。但在复杂的线上会议或线上课程场景中,对于语音中一些人名、地名、技术名词、实体名词等关键词的识别容易出现较多的错误,而这些关键词往往对于用户来说是十分重要的。
2、目前,通常利用大量的文本信息提高语音识别模型对于关键词的识别性能,然而,仅增加文本信息的数量仍然不能很好地提升识别性能,导致语音识别模型的识别性能依旧较差,因此,亟需一种高性能的语音识别方案。
技术实现思路
1、有鉴于此,本说明书实施例提供了一种语音识别方法。本说明书一个或者多个实施例同时涉及一种语音识别模型训练方法,一种语音识别装置,一种语音识别模型训练装置,一种计算设备,一种计算机可读存储介质以及一种计算机程序,以解决现有技术中存在的技术缺陷。
2、根据本说明书实施例的第一方面,提供了一种语音识别方法,包括:
3、获取目标语音数据和目标语音数据对应的关联文本数据;
4、调用语音识别模型的语音编码单元,对目标语音数据编码得到初始语音特征,并调用语音识别模型的文本编码单元,对关联文本数据编码得到初始文本特征,其中,语音识别模型基于语音识别损失和关键词预测损失训练得到;
5、调用语音识别模型的第一融合单元,将初始文本特征融合至初始语音特征,获得目标语音特征;
6、调用语音识别模型的解码单元,对目标语音特征解码得到目标语音数据的语音识别结果。
7、根据本说明书实施例的第二方面,提供了一种语音识别模型训练方法,应用于云侧设备,包括:
8、获取多个样本语音数据和各样本语音数据对应的样本关联文本数据,其中,样本语音数据携带样本文本标签,样本文本标签包括样本识别标签和样本关键词标签;
9、调用语音识别模型的语音编码单元,对样本语音数据编码得到样本语音特征,并调用语音识别模型的文本编码单元,对样本关联文本数据编码得到样本文本特征;
10、调用语音识别模型的第一融合单元,将样本文本特征融合至样本语音特征,获得样本融合语音特征,并调用第二融合单元,将样本语音特征融合至样本文本特征,获得样本融合文本特征;
11、根据样本融合语音特征和样本融合文本特征,确定样本语音数据对应的预测识别结果和预测关键词;
12、根据样本识别标签、样本关键词标签、预测识别结果和预测关键词调整语音识别模型的模型参数,获得训练完成的语音识别模型。
13、根据本说明书实施例的第三方面,提供了一种语音识别装置,包括:
14、第一获取模块,被配置为获取目标语音数据和目标语音数据对应的关联文本数据;
15、第一编码模块,被配置为调用语音识别模型的语音编码单元,对目标语音数据编码得到初始语音特征,并调用语音识别模型的文本编码单元,对关联文本数据编码得到初始文本特征,其中,语音识别模型基于语音识别损失和关键词预测损失训练得到;
16、第一融合模块,被配置为调用语音识别模型的第一融合单元,将初始文本特征融合至初始语音特征,获得目标语音特征;
17、解码模块,被配置为调用语音识别模型的解码单元,对目标语音特征解码得到目标语音数据的语音识别结果。
18、根据本说明书实施例的第四方面,提供了一种语音识别模型训练装置,应用于云侧设备,包括:
19、第二获取模块,被配置为获取多个样本语音数据和各样本语音数据对应的样本关联文本数据,其中,样本语音数据携带样本文本标签,样本文本标签包括样本识别标签和样本关键词标签;
20、第二编码模块,被配置为调用语音识别模型的语音编码单元,对样本语音数据编码得到样本语音特征,并调用语音识别模型的文本编码单元,对样本关联文本数据编码得到样本文本特征;
21、第二融合模块,被配置为调用语音识别模型的第一融合单元,将样本文本特征融合至样本语音特征,获得样本融合语音特征,并调用第二融合单元,将样本语音特征融合至样本文本特征,获得样本融合文本特征;
22、确定模块,被配置为根据样本融合语音特征和样本融合文本特征,确定样本语音数据对应的预测识别结果和预测关键词;
23、调整模块,被配置为根据样本识别标签、样本关键词标签、预测识别结果和预测关键词调整语音识别模型的模型参数,获得训练完成的语音识别模型。
24、根据本说明书实施例的第五方面,提供了一种计算设备,包括:
25、存储器和处理器;
26、所述存储器用于存储计算机可执行指令,所述处理器用于执行所述计算机可执行指令,该计算机可执行指令被处理器执行时实现上述第一方面或者第二方面所提供方法的步骤。
27、根据本说明书实施例的第六方面,提供了一种计算机可读存储介质,其存储有计算机可执行指令,该指令被处理器执行时实现上述第一方面或者第二方面所提供方法的步骤。
28、根据本说明书实施例的第七方面,提供了一种计算机程序,其中,当所述计算机程序在计算机中执行时,令计算机执行上述第一方面或者第二方面所提供方法的步骤。
29、本说明书一个实施例提供的语音识别方法,获取目标语音数据和目标语音数据对应的关联文本数据;调用语音识别模型的语音编码单元,对目标语音数据编码得到初始语音特征,并调用语音识别模型的文本编码单元,对关联文本数据编码得到初始文本特征,其中,语音识别模型基于语音识别损失和关键词预测损失训练得到;调用语音识别模型的第一融合单元,将初始文本特征融合至初始语音特征,获得目标语音特征;调用语音识别模型的解码单元,对目标语音特征解码得到目标语音数据的语音识别结果。由于语音识别模型是基于语音识别损失和关键词预测损失训练得到的,因此语音识别模型具有较高的关键词识别能力,并且,目标语音特征是将初始文本特征融合至初始语音特征得到的,因此,目标语音特征中融入了丰富的上下文文本信息,提高了语音识别性能。
技术特征:1.一种语音识别方法,包括:
2.根据权利要求1所述的方法,所述调用所述语音识别模型的第一融合单元,将所述初始文本特征融合至所述初始语音特征,获得目标语音特征,包括:
3.根据权利要求1所述的方法,所述调用所述语音识别模型的解码单元,对所述目标语音特征解码得到所述目标语音数据的语音识别结果之前,还包括:
4.根据权利要求1所述的方法,所述调用语音识别模型的语音编码单元,对所述目标语音数据编码得到初始语音特征之前,还包括:
5.根据权利要求4所述的方法,所述将所述多个样本语音数据和所述样本关联文本数据输入语音识别模型中,获得各样本语音数据对应的预测识别结果和预测关键词之前,还包括:
6.根据权利要求5所述的方法,所述对所述样本关联文本数据进行关键词提取,获得样本关联关键词之后,还包括:
7.根据权利要求5所述的方法,所述对所述样本关联文本数据进行关键词提取,获得样本关联关键词之后,还包括:
8.根据权利要求4所述的方法,所述将所述多个样本语音数据和所述样本关联文本数据输入语音识别模型中,获得各样本语音数据对应的预测识别结果和预测关键词,包括:
9.根据权利要求8所述的方法,所述调用所述第一融合单元,将所述第一样本文本特征融合至所述第一样本语音特征,获得第一融合语音特征,包括:
10.根据权利要求8所述的方法,所述语音识别模型还包括关键词预测单元;
11.根据权利要求10所述的方法,所述关键词预测单元包括自注意力层、前馈层、卷积层和输出层;
12.一种语音识别模型训练方法,应用于云侧设备,包括:
13.一种计算设备,包括:
14.一种计算机可读存储介质,其存储有计算机可执行指令,该计算机可执行指令被处理器执行时实现权利要求1至11任意一项或者权利要求12所述方法的步骤。
技术总结本说明书实施例提供语音识别方法以及语音识别模型训练方法,其中所述语音识别方法包括:获取目标语音数据和目标语音数据对应的关联文本数据;调用语音识别模型的语音编码单元,对目标语音数据编码得到初始语音特征,并调用语音识别模型的文本编码单元,对关联文本数据编码得到初始文本特征,其中,语音识别模型基于语音识别损失和关键词预测损失训练得到;调用语音识别模型的第一融合单元,将初始文本特征融合至初始语音特征,获得目标语音特征;调用语音识别模型的解码单元,对目标语音特征解码得到目标语音数据的语音识别结果。由于语音识别模型具有较高的关键词识别能力,并且目标语音特征中融入了丰富的上下文文本信息,提高了语音识别性能。技术研发人员:俞帆,王浩旭,张仕良受保护的技术使用者:杭州阿里云飞天信息技术有限公司技术研发日:技术公布日:2024/3/4本文地址:https://www.jishuxx.com/zhuanli/20240618/22099.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。
下一篇
返回列表