中英混合语音识别系统训练方法、装置、设备及介质与流程
- 国知局
- 2024-06-21 11:27:41
本发明涉及语音识别,特别涉及中英混合语音识别系统训练方法、装置、设备及介质。
背景技术:
1、中英混合现象是指在说话过程中切换语言,主要包括句间转换和句内转换两种类型。这种现象给语音识别技术带来了巨大挑战。导致中英混合现象语音识别效果差主要有以下几个方面的原因:一、中英混杂数据比较缺乏,从而导致模型无法完成训练得到鲁棒性较强的中英混杂模型;二、由于中文与英文在发音上具有相似性,在中文上下文语音环境中,容易造成英文单词的漏识别与错误识别;为了解决当前端到端中英混合识别模型中中英混杂数据获取困难,特定领域的中英混数据获取困难等问题,现有技术1中,通过可定制的中英混语音识别模型结构,如图1所示:即在传统端到端模型结构基础上,对中英混合识别中的定制英文单词与目标文本进行编码,联合声学编码特征进行解码操作,但是只谈到对英文单词进行高维编码,进行定制优化,在实际中英混杂问题中,由于英文嵌入在中文的上下文语境中,现有技术1没有充分利用上下文的中文语境信息,会导致识别歧义,准确率较低等问题;而现有技术2中,在原有语音识别系统基础上,对解码器模块进行改造,引入声学编码特征,构建融合多模态语义不变性的语音识别解码模块,对语音识别系统的输出文本进行文本增强,模型结构如图2所示。但是实现过程中以语音特征提取得到的fbank(filter bank,滤波器组)特征作为多模态中的语音特征,这种特征无法完全表现语音系统中的语种特性,不具备语种上的区分度。现有技术3中,在原有端到端语音识别模型结构的基础上,引入一套基于生成对抗网络的中英混合文本生成模块,如图3所示。但是现有技术3将生成对抗网络引入语音识别系统,进行联合优化,这不仅增加了整个模型系统的复杂度,而且也增加了系统的训练难度,生成对抗网络在训练过程中比较难收敛;现有技术4中,提出利用单语中文数据,对中文数据进行分词与词性分析,将部分中文词汇翻译得到对应的英文,从而完成中英混杂文本句子的构建,但是完成根据文本语料进行生成,没有考虑语音表达的口语化以及流利化等特点,造成生成的文本不符合实际的语音表达习惯,从而对中英混杂语音识别的效果提升往往不明显。
2、综上,如何实现降低中英混合语音识别系统对于中英混合数据的依赖性,提升中英混合语音识别系统的准确率是本领域有待解决的技术问题。
技术实现思路
1、有鉴于此,本发明的目的在于提供中英混合语音识别系统训练方法、装置、设备及介质,能够降低中英混合语音识别系统对于中英混合数据的依赖性,提升中英混合语音识别系统的准确率。其具体方案如下:
2、第一方面,本技术公开了一种中英混合语音识别系统训练方法,包括:
3、获取中英文混合的训练集语料;其中所述训练集语料包含语音训练集和与所述语音训练集对应的文本训练集;
4、利用预设文本翻译词典的中文词汇与翻译得到的英文词汇之间的对应关系对所述文本训练集进行编码处理,以得到编码后文本训练集;
5、利用所述编码后文本训练集以及基于所述文本训练集中的文本句子类型对应的句子级别提示学习模板对初始中英混合语音识别模型进行迭代训练,以得到目标中英混合语音识别模型;
6、将与所述语音训练集中各语音训练数据的语音特征输入至所述目标中英文混合语音识别模型,以便进行解码推理,以获取中英混合语音识别系统。
7、可选的,所述获取中英文混合的训练集语料,包括:
8、获取包含中文语料、英文语料、中英混合语料的文本训练集;
9、对所述文本训练集中的英文文本的小写形式的英文字母正则化处理以转换成大写形式的英文字母;
10、对所述文本训练集中的阿拉伯数字正则化处理以转换为中文汉字;
11、对所述文本训练集中的标点符号进行删除处理;
12、将正则化处理后的文本训练集作为目标文本训练集。
13、可选的,所述获取中英文混合的训练集语料之后,还包括:
14、对所述目标文本训练集中的语料进行拆分处理,以得到基于拆分后的中文汉字构建的建模单元词典;
15、基于拆分后的英文单词按照字节对的编码方式进行编码,以得到编码后的英文子词;
16、根据所述建模单元词典、所述编码后的英文子词及机器学习符号构建用于对所述文本训练集进行编码的目标建模单元模型。
17、可选的,所述利用预设文本翻译词典的中文词汇与翻译得到的英文词汇之间的对应关系对所述文本训练集进行编码处理,以得到编码后文本训练集之前,还包括:
18、对所述文本训练集进行分词处理,以得到相应的文本词汇;对所述文本词汇进行中英文转换的翻译处理,以得到中文词汇与翻译得到的英文词汇之间的对应关系,并基于所述对应关系构建文本翻译词典。
19、可选的,所述利用所述编码后文本训练集以及基于所述文本训练集中的文本句子类型对应的句子级别提示学习模板对初始中英混合语音识别模型进行迭代训练,以得到目标中英混合语音识别模型之前,还包括:
20、选择基于注意力机制的语音模型作为初始中英文混合语音识别模型,对所述初始中英文混合语音识别模型设置包含编码层参数和解码层参数的模型结构参数和模型训练参数。
21、可选的,所述利用所述编码后文本训练集以及基于所述文本训练集中的文本句子类型对应的句子级别提示学习模板对初始中英混合语音识别模型进行迭代训练之前,还包括:
22、当所述编码后文本训练集中的编码文本为英文文本,则在所述编码文本前增加起始序列标志位以构建第一句子级别提示学习模板;
23、当所述编码后文本训练集中的编码文本为中文文本,则按照第一概率值并基于预设文本翻译词典的对应关系将所述中文文本中随机选择的中文词汇翻译为英文词汇,以得到第一提示学习文本序列编码;并在所述第一提示学习文本序列编码前增加所述起始序列标志位以构建第二句子级别提示学习模板;
24、当所述编码后文本训练集中的编码文本为中文文本,则按照第二概率值并基于预设文本翻译词典的对应关系将所述中文文本中的中文词汇翻译为对应的英文词汇,以得到第一提示学习词序列编码,并在所述第一提示学习词序列编码前增加所述起始序列标志位以构建第一词级别提示学习模板;
25、当所述编码后文本训练集中的编码文本为中英混合文本,则按照第三概率值并基于预设文本翻译词典的对应关系将所述中英混合文本中的英文词汇翻译为中文词汇,以得到第二提示学习文本序列编码;并在所述第二提示学习文本序列编码前增加所述起始序列标志位以构建第三句子级别提示学习模板;
26、当所述编码后文本训练集中的编码文本为中英混合文本,则按照第四概率值并基于预设文本翻译词典的对应关系将所述中英混合文本中的英文词汇翻译为对应的中文词汇,以得到第二提示学习词序列编码,并在所述第二提示学习词序列编码前增加所述起始序列标志位以构建第二词级别提示学习模板;
27、基于所述第一句子级别提示学习模板、所述第二句子级别提示学习模板、所述第三句子级别提示学习模板、所述第一词级别提示学习模板、所述第二词级别提示学习模板构建不同文本句子类型的句子级别提示学习模板。
28、可选的,所述将与所述语音训练集中各语音训练数据的语音特征输入至所述目标中英文混合语音识别模型,以便进行解码推理,以获取中英混合语音识别系统,包括:
29、将所述语音训练集中各语音训练数据输入至所述目标中英文混合语音识别模型的声学编码层,以便所述声学编码层对所述语音训练数据进行特征提取,得到目标维度的语音特征;
30、将与所述各语音训练数据对应的文本训练数据输入至所述目标建模单元模型,以便所述目标建模单元模型输出针对所述文本训练数据的候选文本编码结果;
31、将所述候选文本编码结果和所述语音特征输入至所述目标中英文混合语音识别模型的声学解码层,以便通过所述声学解码层的评分函数以及所述语音特征对所述候选文本编码结果进行重新打分,以实现解码推理,获取中英混合语音识别系统。
32、第二方面,本技术公开了一种中英混合语音识别系统训练装置,包括:
33、数据获取模块,用于获取中英文混合的训练集语料;其中所述训练集语料包含语音训练集和与所述语音训练集对应的文本训练集;
34、文本编码模块,用于利用预设文本翻译词典的中文词汇与翻译得到的英文词汇之间的对应关系对所述文本训练集进行编码处理,以得到编码后文本训练集;
35、模型训练模块,用于利用所述编码后文本训练集以及基于所述文本训练集中的文本句子类型对应的句子级别提示学习模板对初始中英混合语音识别模型进行迭代训练,以得到目标中英混合语音识别模型;
36、系统生成模块,用于将与所述语音训练集中各语音训练数据的语音特征输入至所述目标中英文混合语音识别模型,以便进行解码推理,以获取中英混合语音识别系统。
37、第三方面,本技术公开了一种电子设备,包括:
38、存储器,用于保存计算机程序;
39、处理器,用于执行所述计算机程序,以实现前述公开的中英混合语音识别系统训练方法的步骤。
40、第四方面,本技术公开了一种计算机可读存储介质,用于存储计算机程序;其中,所述计算机程序被处理器执行时实现前述公开的中英混合语音识别系统训练方法的步骤。
41、由此可见,本技术公开了一种中英混合语音识别系统训练方法,包括:获取中英文混合的训练集语料;其中所述训练集语料包含语音训练集和与所述语音训练集对应的文本训练集;利用预设文本翻译词典的中文词汇与翻译得到的英文词汇之间的对应关系对所述文本训练集进行编码处理,以得到编码后文本训练集;利用所述编码后文本训练集以及基于所述文本训练集中的文本句子类型对应的句子级别提示学习模板对初始中英混合语音识别模型进行迭代训练,以得到目标中英混合语音识别模型;将与所述语音训练集中各语音训练数据的语音特征输入至所述目标中英文混合语音识别模型,以便进行解码推理,以获取中英混合语音识别系统。可见,通过对文本训练集转换为词编码进行优化,且同时考虑多方面的文本编码训练,结合语音语境上下文信息以及文本翻译信息,在训练过程中进行模型效果优化,使得模型对于中英混杂句子中对英文句子的预测更加准确。
本文地址:https://www.jishuxx.com/zhuanli/20240618/21661.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。
下一篇
返回列表