语音识别方法、模型训练方法、装置、设备及存储介质与流程
- 国知局
- 2024-06-21 11:38:38
本申请涉及人工智能,更具体地说,涉及一种语音识别方法、模型训练方法、装置、设备及存储介质。
背景技术:
1、语音识别技术是一种将语音信号转换成文本的技术。当前语音识别系统的准确性和效率虽然得到了显著提高,但是,由于语音信号的复杂性和多样性,语音识别的准确率仍有待进一步提高。
技术实现思路
1、有鉴于此,本申请提供了一种语音识别方法、模型训练方法、装置、设备及存储介质,以提高语音识别的准确率。
2、为了实现上述目的,现提出的方案如下:
3、一种语音识别方法,包括:
4、对语音数据进行编码,得到所述语音数据的编码特征;
5、对所述编码特征进行解码,得到解码特征;所述解码特征用于确定所述语音数据的语音识别结果和语法分类结果;
6、对所述解码特征进行处理,得到所述语音识别结果。
7、上述方法,可选的,对语音数据进行编码,对所述编码特征进行解码,对所述解码特征进行处理的过程通过语音识别模型实现;
8、所述语音识别模型通过对语音识别任务与语法分类任务联合训练得到;所述语音识别任务通过所述语音识别模型实现。
9、上述方法,可选的,对所述语音识别任务和所述语法分类任务联合训练的过程包括:
10、通过所述语音识别模型对语音样本进行编码,得到所述语音样本的编码特征,对所述语音样本的编码特征进行解码,得到所述语音样本的解码特征,对所述语音样本的解码特征进行处理,得到所述语音样本的语音识别结果;
11、通过语法分类网络至少对所述语音样本的解码特征进行处理,得到所述语音样本的语法分类结果;
12、以所述语音样本的语音识别结果趋近于所述语音样本的语音识别标签,所述语法分类结果趋近于所述语音样本的语法标签为目标,对所述语音识别模型的参数和所述语法分类网络的参数进行更新。
13、上述方法,可选的,所述通过语法分类网络至少对所述语音样本的解码特征进行处理,包括:
14、通过嵌入模型将所述语音样本的语音识别结果映射为嵌入特征;
15、将所述嵌入特征与所述语音样本的解码特征融合,得到融合特征;
16、将所述融合特征输入预训练的语法分类网络,得到所述预训练的语法分类网络输出的所述语音样本的语法分类结果。
17、上述方法,可选的,所述以所述语音样本的语音识别结果趋近于所述语音样本的语音识别标签,所述语法分类结果趋近于所述语音样本的语法标签为目标,对所述语音识别模型的参数和所述预训练的语法分类网络的参数进行更新,包括:
18、以所述语音样本的语音识别结果趋近于所述语音样本的语音识别标签,所述语法分类结果趋近于所述语音样本的语法标签为目标,对所述语音识别模型的参数、所述预训练的语法分类网络的参数和所述嵌入模型的参数进行更新。
19、上述方法,可选的,所述通过语法分类网络至少对所述语音样本的解码特征进行处理,包括:
20、通过所述语法分类网络的线性处理模块对所述语音样本的解码特征进行线性处理,得到所述语音样本的解码特征的线性处理结果;
21、通过所述语法分类网络的分类模块对所述线性处理结果进行分类处理,得到所述语法分类网络输出的所述语音样本的语法分类结果。
22、上述方法,可选的,通过所述语法分类网络的线性处理模块对所述语音样本的解码特征进行线性处理,通过所述语法分类网络的分类模块对所述线性处理结果进行分类处理的过程,包括:
23、通过第一线性处理模块对所述语音样本的解码特征进行第一线性处理,得到第一线性处理结果;通过第一分类模块对所述第一线性处理结果进行第一分类处理,得到所述语音样本的词性分类结果;
24、和/或,
25、通过第二线性处理模块对所述语音样本的解码特征进行第二线性处理,得到第二线性处理结果;通过第二分类模块对所述第二线性处理结果进行第二分类处理,得到所述语音样本的依存句法分类结果。
26、一种语音识别模型训练方法,包括:
27、通过所述语音识别模型对语音样本进行编码,得到所述语音样本的编码特征,对所述语音样本的编码特征进行解码,得到所述语音样本的解码特征,对所述语音样本的解码特征进行处理,得到所述语音样本的语音识别结果;
28、通过语法分类网络至少对所述语音样本的解码特征进行处理,得到所述语音样本的语法分类结果;
29、以所述语音样本的语音识别结果趋近于所述语音样本的语音识别标签,所述语法分类结果趋近于所述语音样本的语法标签为目标,对所述语音识别模型的参数和所述语法分类网络的参数进行更新。
30、一种语音识别装置,包括:
31、编码模块,用于对语音数据进行编码,得到所述语音数据的编码特征;
32、解码模块,用于对所述编码特征进行解码,得到解码特征;所述解码特征用于确定所述语音数据的语音识别结果和语法分类结果;
33、处理模块,用于对所述解码特征进行处理,得到所述语音识别结果。
34、一种语音识别模型训练装置,包括:
35、识别模块,用于通过所述语音识别模型对语音样本进行编码,得到所述语音样本的编码特征,对所述语音样本的编码特征进行解码,得到所述语音样本的解码特征,对所述语音样本的解码特征进行处理,得到所述语音样本的语音识别结果;
36、分类模块,用于通过语法分类网络至少对所述语音样本的解码特征进行处理,得到所述语音样本的语法分类结果;
37、更新模块,用于以所述语音样本的语音识别结果趋近于所述语音样本的语音识别标签,所述语法分类结果趋近于所述语音样本的语法标签为目标,对所述语音识别模型的参数和所述语法分类网络的参数进行更新。
38、一种语音处理设备,包括存储器和处理器;
39、所述存储器,用于存储程序;
40、所述处理器,用于执行所述程序,实现如上任一项所述的语音识别方法,和/或,如上所述的语音识别模型训练方法的各个步骤。
41、一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,实现如上任一项所述的语音识别方法,和/或,如上所述的语音识别模型训练方法的各个步骤。
42、从上述的技术方案可以看出,本申请实施例提供的语音识别方法、模型训练方法、装置、设备及存储介质,对语音数据进行编码,得到语音数据的编码特征,对编码特征进行解码,得到解码特征;该解码特征用于确定语音数据的语音识别结果和语法分类结果,对解码特征进行处理,得到语音识别结果。本申请对解码特征进行解码得到的解码特征既可以用于语音识别,也可以用于语法分类,也就是说,本申请对语音数据进行编码的过程,以及对解码特征进解码的过程考虑了语法知识,从而提高了语音识别结果的准确性。
技术特征:1.一种语音识别方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,对语音数据进行编码,对所述编码特征进行解码,对所述解码特征进行处理的过程通过语音识别模型实现;
3.根据权利要求2所述的方法,其特征在于,对所述语音识别任务和所述语法分类任务联合训练的过程包括:
4.根据权利要求3所述的方法,其特征在于,所述通过语法分类网络至少对所述语音样本的解码特征进行处理,包括:
5.根据权利要求4所述的方法,其特征在于,所述以所述语音样本的语音识别结果趋近于所述语音样本的语音识别标签,所述语法分类结果趋近于所述语音样本的语法标签为目标,对所述语音识别模型的参数和所述预训练的语法分类网络的参数进行更新,包括:
6.根据权利要求3所述的方法,其特征在于,所述通过语法分类网络至少对所述语音样本的解码特征进行处理,包括:
7.根据权利要求6所述的方法,其特征在于,通过所述语法分类网络的线性处理模块对所述语音样本的解码特征进行线性处理,通过所述语法分类网络的分类模块对所述线性处理结果进行分类处理的过程,包括:
8.一种语音识别模型训练方法,其特征在于,包括:
9.一种语音识别装置,其特征在于,包括:
10.一种语音识别模型训练装置,其特征在于,包括:
11.一种语音处理设备,其特征在于,包括存储器和处理器;
12.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,实现如权利要求1-7中任一项所述的语音识别方法,和/或,如权利要求8所述的语音识别模型训练方法的各个步骤。
技术总结本申请实施例公开了一种语音识别方法、模型训练方法、装置、设备及存储介质,对语音数据进行编码,得到语音数据的编码特征,对编码特征进行解码,得到解码特征;该解码特征用于确定语音数据的语音识别结果和语法分类结果,对解码特征进行处理,得到语音识别结果。本申请对解码特征进行解码得到的解码特征既可以用于语音识别,也可以用于语法分类,也就是说,本申请对语音数据进行编码的过程,以及对解码特征进解码的过程考虑了语法知识,从而提高了语音识别结果的准确性。技术研发人员:茆廷志,万根顺,高建清,潘嘉,刘聪,奚昌凤,王庆然受保护的技术使用者:科大讯飞股份有限公司技术研发日:技术公布日:2024/3/24本文地址:https://www.jishuxx.com/zhuanli/20240618/22633.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。