技术新讯 > 乐器声学设备的制造及制作,分析技术 > 一种端到端双语混合语音识别训练方法及系统  >  正文

一种端到端双语混合语音识别训练方法及系统

  • 国知局
  • 2024-06-21 11:54:36

本发明属于语音识别领域,具体涉及一种端到端双语混合语音识别训练方法及系统。

背景技术:

1、语音是人机交互中重要的组成部分。语音识别(asr)、语音合成(tts)和自然语言处理(nlp)结合起来可以实现完整的人机交互闭环。其中,语音识别作为机器感知的第一环节,起到了尤为重要的作用。语音识别是一项多领域知识交叉的技术,其涵盖了心理学、语言学、信号处理等多个学科的内容。在过去的几十年里,语音识别技术已经渗透到我们生活的方方面面。技术方面也有了很大进步,从传统的隐马尔可夫(hmm)系统,到hmm和神经网络混合系统,最后到纯深度神经网络系统,识别准确率稳步提升。

2、混合语言现象常常出现在能够流利使用多种语言的群体中。然而现有的大多数最先进的语音识别系统几乎都专注于单语种语音识别,即它们一次只能处理一种语言,这样的系统无法识别双语混合的语音。随着语音技术开始渗透到人类生活的方方面面,混合语言的现象受到越来越多的关注。但是在双语混合语音识别场景下,嵌入语受主体语影响形成的非母语口音现象严重、不同语言音素构成之间的差异给混合声学建模带来巨大困难、带标注的混合语音训练数据极其稀缺。而且传统语音识别框架基于单一语种基础建模单元,这种技术架构对指定语种的语言学知识依赖较大,难以扩展到双语语音识别。因此,开发用于双语混合语音的自动语音识别系统尤为重要。

3、在目前的语音识别系统中常常用到端到端语音识别模型,根据不同的模型架构和优化准则,端到端语音识别模型可以分为基于循环神经网络传感器(rnn-t)的端到端语音识别模型、基于连接时序分类(ctc)的端到端语音识别模型、基于注意力机制(attention)架构的端到端语音识别模型和基于transformer的架构的端到端语音识别模型。

4、第一个方案,在语音识别系统中采用基于循环神经网络传感器(rnn-t)的端到端语音识别模型,可以利用循环神经网络自然地处理上下文信息,但是该模型对长时记忆的处理会有一定的弱点,无法更好地编码长时信息。

5、第二个方案,在语音识别系统中采用transformer架构的端到端语音识别模型,基于transformer的架构可以在每一时刻都可以看到输入端到输出端的全局信息,克服了第一个方案无法更好地编码长时信息的问题,在多个场景下取得了更好的效果。

6、第三个方案,在语音识别系统中采用包括基于连接时序分类(ctc)和自注意力机制(attention)的多任务学习框架的端到端语音识别模型,对输入特征序列与输出建模单元序列间的映射关系进行直接建模,节省了声学建模过程对帧级别对齐信息的依赖,极大地简化语音识别系统构建的复杂性。这个方案还可以将声学建模和语言建模过程进行统一,在没有发音字典的情况下也可以实现语音识别系统的构建。由于这种多任务学习框架的端到端语音识别模型发挥了基于连接时序分类(ctc)和自注意力机制(attention)两种语音识别框架的优点,可以基于序列的优化准则进行端到端建模,在许多场景下取得了较好的效果。

7、上述第一至第三方案提出的基于端到端的语音识别系统相比于基于隐马尔可夫模型(hmm)的语音识别系统,可以节省对专家知识的需求,从而更加快速便捷地构建语音识别系统。然而,由于端到端语音识别系统相较于传统hmm语音识别系统需要更多的训练数据量,而双语混合语音数据数量较少,因此这些端到端语音识别系统目前在双语混合场景下识别错误率仍然较高。

技术实现思路

1、本发明的目的在于克服目前语音识别系统中针对双语混合领域的建模能力不足的缺陷,通过使用多语言语音数据预训练的方法,利用丰富资源多语言语音数据来提升在双语混合领域上的语音识别性能。

2、为了实现上述目的,本发明提出了一种端到端双语混合语音识别训练方法,所述训练方法包括:

3、使用未经训练的神经网络模型,利用多语言语音数据经过自监督训练,得到第一预训练模型;

4、使用第一预训练模型,利用多语言语音有标注数据经过有监督训练,得到第二预训练模型;

5、使用第二预训练模型,利用多语言语音无标注数据经过半监督训练,得到第三预训练模型;

6、基于第三预训练模型,利用双语语音数据经过有监督训练,得到最终端到端双语混合语音识别系统。

7、作为上述训练方法的一种改进,所述自监督训练是基于对比预测编码的声学预训练方法,包括基于自回归的预测编码技术或基于掩码的对比预测编码技术。

8、作为上述训练方法的一种改进,所述有监督训练是基于ctc损失的方法。

9、作为上述训练方法的一种改进,所述半监督训练是基于伪标签的方法,包括离线伪标签方法、在线伪标签方法或解耦自适应伪标签方法。

10、作为上述训练方法的一种改进,所述未经训练的神经网络模型、所述第一预训练模型、所述第二预训练模型和所述第三预训练模型都由特征提取模块和线性预测层构成;

11、特征提取模块提取的语音特征输入线性预测层;

12、线性预测层的输出是对比预测编码的结果和每个时间步的字符概率分布。

13、本发明还提供一种端到端双语混合语音识别系统,基于上述任一训练方法生成,所述系统包括:

14、特征提取模块,用于提取原始音频的特征,输出到编码器模块;

15、编码器模块,用于计算输入帧的特征变换,将声学特征序列映射成相应的隐含声学序列,输出到注意力机制模块;

16、注意力机制模块,用于生成输入序列与输出序列的对齐信息,通过对语句级别输入序列进行加权计算生成上下文内容向量,输出到解码器模块;

17、语种信息动态检测模块,输入为原始音频,用于生成当前时间步的语音特征判断为对应语种的概率值,输出到解码器模块;和

18、解码器模块,用于根据解码器的历史状态信息、上下文内容向量信息、解码器的历史输出信息以及当前时间步语种信息,迭代地输出当前时间步的字符概率分布。

19、作为上述系统的一种改进,所述编码器模块和所述解码器模块都采用双向长短时记忆神经网络。

20、作为上述系统的一种改进,所述注意力机制模块计算注意力权重向量,并把所述注意力权重向量和所述编码器的输出进行逐元素相乘,结果作为所述注意力机制模块的输出。

21、作为上述系统的一种改进,所述注意力机制模块包含线性层、卷积层和softmax层;

22、在计算所述注意力权重向量时,所述线性层的输入是编码器当前时间步的输出,经过线性层处理的注意力机制上一时间步的注意力权重向量,以及解码器上一时间步的隐含信息向量;所述softmax层的输入是线性层的输出;所述softmax层的输出是注意力机制当前时间步的注意力权重向量。

23、作为上述系统的一种改进,所述语种信息动态检测模块的实现过程包括:

24、实时时域选取,联合适当的多帧语音作为当前时间步的语种分类,得到当前时间步的语种判别;

25、特征固定维度规整,将任意长度的特征帧数据规整成一个固定维度特征;

26、神经网络语种分类,采用深度神经网络作为语种分类器,输出当前时间步的语音特征判断为对应语种的概率值。

27、作为上述系统的一种改进,所述实时时域选取时,采用基于注意力的实时动态时域选取方法;

28、所述基于注意力的实时动态时域选取方法,通过注意力机制,得到语音选取窗,使用语音选取窗进行实时动态时域选取。

29、与现有技术相比,本发明的优势在于:

30、1、本发明的训练方法相较于现有语音识别方法,在双语混合识别场景下,有很大的性能提升;

31、2、由于该方法使用丰富的多语言语音数据进行预训练,同时采用创新的训练组合方式,该方法在双语混合语音识别场景下,识别准确率更高。

本文地址:https://www.jishuxx.com/zhuanli/20240618/24417.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。