一种端到端联结主义时间分类语音识别优化方法及系统与流程
- 国知局
- 2024-06-21 11:32:28
本发明涉及语音识别,特别涉及一种端到端联结主义时间分类语音识别优化方法及系统。
背景技术:
1、随着移动互联网时代的到来,人们每天会接触到海量的不同种类的音频数据。如何在这些音频数据中获取感兴趣的信息成为了目前的研究热点。语音识别技术成为了利用海量音频数据的有效方式,其将语音转换为文本,方便了下游任务对于语音内容的处理和理解。
2、实际的语音识别系统需要同时具备精准的识别能力和快速的解码速度。端到端联结主义时间分类语音识别模型因其简单的构造以及非自回归结构而带来的解码速度快的优势,被广泛地研究。最近,随着自监督预训练技术的发展,端到端联结主义时间分类语音识别模型的识别精度得到了极大的提升,然而由于其自身基于条件独立性假设,端到端联结主义时间分类语音识别模型无法建模输出字符之间的上下文关系,因此其性能还是存在明显上限。
3、一种简单有效的方法是使用外部语言模型辅助端到端联结主义时间分类语音识别模型进行解码,在一边解码的时候调节模型预测的后验概率从而打破条件独立性假设。然而,由于外部语言模型自身是自回归结构的,因此导致整个系统在解码时,实际已经是自回归结构的解码策略,因此端到端联结主义时间分类语音识别模型作为非自回归模型自身解码速度快的优势已经失去了。另一种方法则是将端到端联结主义时间分类语音识别模型融入一个更大的非自回归模型中,代表工作为mask-ctc,这种模型将端到端联结主义时间分类语音识别模型的输出预测作为初步预测,之后使用后续的transformer机构利用双向的上下文信息优化初步预测,从而进一步提升是被精度,打破条件独立性假设,同时保持非自回归模型自身解码速度快的优势。然而,这是以极大地增大模型参数量为代价的。
4、因此,对端到端联结主义时间分类语音识别模型进行优化时,要保留其作为非自回归模型的解码速度快的优势,同时增加的模型参数要尽量小。
技术实现思路
1、本申请的目的在于解决现有技术存在的缺陷。
2、本申请提供了一种端到端联结主义时间分类语音识别优化方法及系统,对端到端联结主义时间分类语音识别模型进行了优化,保留了其作为非自回归模型的解码速度快的优势,同时没有增加的模型参数。
3、第一方面,本申请提供了一种端到端联结主义时间分类语音识别优化方法,所述语音识别优化方法,包括:确定输入语音和对应的目标文本;将所述输入语音输入编码器,得到所述输入语音的语音表征;将所述语音表征输入分类器,得到所述语音表征的预测文本,所述分类器为端到端联结主义时间分类器;基于所述预测文本和所述对应的目标文本,计算联结主义时间分类损失函数;将所述对应的目标文本输入预训练语言模型,得到文本表征;将所述语音表征输入模态转换机制,得到转化后的语音表征,所述转化后的语音表征的长度与所述对应的目标文本的长度一致;基于所述文本表征和所述转化后的语音表征,计算余弦损失函数;对所述联结主义时间分类损失函数和所述余弦损失函数进行加权相加,得到优化目标训练模型,所述优化目标训练模型,用于对语音识别系统进行优化。
4、在一个可行的实施例中,所述将所述对应的目标文本输入预训练语言模型,得到文本表征,包括:使用预训练语言模型的分词器,将对应的目标文本的每个字符转换为对应的序列标号,将所述对应的序列标号输入预训练语言模型的词嵌入层以及编码器,提取到文本表征。
5、在一个可行的实施例中,所述将所述语音表征输入模态转换机制,得到转化后的语音表征,包括:将所述对应的目标文本的长度输入多头点乘注意力机制;将所述语音表征输入多头点乘注意力机制,得到转化后的语音表征,所述转化后的语音表征的长度与所述对应的目标文本的长度一致。
6、在一个可行的实施例中,所述基于所述文本表征和所述转化后的语音表征,计算基于余弦的损失函数,包括:计算所述文本表征和转化后的语音表征之间的余弦值;将数值“1”减去得到的余弦值得到余弦损失函数。
7、第二方面,本申请提供了一种端到端联结主义时间分类语音识别优化系统,用于实施所述语音识别优化方法,所述语音识别优化系统,包括:编码器模块,用于从输入语音中提取语音表征;分类器模块,用于基于语音表征得到预测文本;预训练语言模型模块,用于从目标文本中提取文本表征;模态转换机制模块,用于改变提取到的语音表征的长度;损失函数计算模块,用于损失函数的相关计算,所述损失函数包括联结主义时间分类损失函数、余弦损失函数。
8、在一个可行的实施例中,所述编码器模块,包括:双向长短时记忆(bi-directional long short-term memory,bi-lstm)网络,或基于自注意力机制的transformer。
9、在一个可行的实施例中,所述分类器模块的分类器,包括:端到端联结主义时间分类器所述编码器模块。
10、在一个可行的实施例中,所述预训练语言模型模块,包括:bert预训练语言模型。
11、第三方面,本申请提供了一种电子设备,所述电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行所述语音识别优化方法。
12、第四方面,本申请提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其特征在于,所述计算机指令用于使所述计算机执行所述语音识别优化方法。
13、本申请提供了一种端到端联结主义时间分类语音识别优化方法及系统。本申请将联结主义时间分类损失函数和基于余弦的损失函数加权相加,得到优化目标训练模型,所述优化目标训练模型将预训练语言模型的非自回归结构和上下文关心的特点知识迁移至端到端联结主义时间分类器,可以缓解其条件独立性假设,从而提升识别性能。本申请保留了端到端联结主义时间分类器作为非自回归模型的解码速度快的优势,同时并没有引入额外的参数。
技术特征:1.一种端到端联结主义时间分类语音识别优化方法,其特征在于,所述语音识别优化方法,包括:
2.根据权利要求1所述的语音识别优化方法,其特征在于,所述将所述对应的目标文本输入预训练语言模型,得到文本表征,包括:
3.根据权利要求1所述的语音识别优化方法,其特征在于,所述将所述语音表征输入模态转换机制,得到转化后的语音表征,包括:
4.根据权利要求1所述的语音识别优化方法,其特征在于,所述基于所述文本表征和所述转化后的语音表征,计算基于余弦的损失函数,包括:
5.一种端到端联结主义时间分类语音识别优化系统,用于实施如权利要求1所述的语音识别优化方法,其特征在于,所述语音识别优化系统,包括:
6.根据权利要求5所述的语音识别优化系统,其特征在于,所述编码器模块,包括:双向长短时记忆(bi-directionallong short-term memory,bi-lstm)网络,或基于自注意力机制的transformer。
7.根据权利要求5所述的语音识别优化系统,其特征在于,所述分类器模块的分类器,包括:端到端联结主义时间分类器所述编码器模块。
8.根据权利要求5所述的语音识别优化系统,其特征在于,所述预训练语言模型模块,包括:bert预训练语言模型。
9.一种电子设备,其特征在于,所述电子设备,包括:
10.一种存储有计算机指令的非瞬时计算机可读存储介质,其特征在于,所述计算机指令用于使所述计算机执行权利要求1-4中任一项所述的语音识别优化方法。
技术总结本申请提供了一种端到端联结主义时间分类语音识别优化方法及系统。所述语音识别优化方法包括:基于预测文本和所述目标文本,计算联结主义时间分类损失函数;基于文本表征和转化后的语音表征,计算余弦损失函数;对联结主义时间分类损失函数和余弦损失函数进行加权相加,得到优化目标训练模型。本申请将联结主义时间分类损失函数和基于余弦的损失函数加权相加,得到优化目标训练模型。所述优化目标训练模型将预训练语言模型的非自回归结构和上下文关心的特点知识迁移至端到端联结主义时间分类器,可以缓解其条件独立性假设,从而提升识别性能。技术研发人员:杨荣霞,赵永国,李站,杨凯,杜美华,钱林钧受保护的技术使用者:南方电网大数据服务有限公司技术研发日:技术公布日:2024/3/4本文地址:https://www.jishuxx.com/zhuanli/20240618/22106.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。
下一篇
返回列表