技术新讯 > 乐器声学设备的制造及制作,分析技术 > 一种基于语言知识融合的高效低资源语音识别方法与流程  >  正文

一种基于语言知识融合的高效低资源语音识别方法与流程

  • 国知局
  • 2024-06-21 11:27:16

本发明涉及低资源语音识别领域,尤其涉及一种基于语言知识融合的高效低资源语音识别方法。

背景技术:

1、低资源语言语音识别(low-resource language speech recognition,llsr)是语音领域的一项重要任务。此任务的一般解决方案是在目标低资源语言上微调自监督语音模型(self-supervised speech model,ssm)。由于ssm参数量较大,使得传统的微调方法参数效率低下,基于适配器的微调方法可有效缓解这个问题。目前基于适配器的方法参数效率较高,但是其性能勉强与传统微调方法持平。受到人类学习过程的启发,一些研究探索了llsr的两阶段语言知识融合策略,旨在利用丰富的源语言知识来辅助低资源语言的学习。其实验结果表明这类方法可以提高低资源语言的语音识别正确率。然而,这类方法存在两个痛点问题:

2、1、参数效率较低。目前基于语言知识融合的方法需要更多的适配器模块,使其参数效率相比于原始的适配器方法大幅度降低;同时部分方法的适配器融合模块由注意力机制组成,使得可训练参数量进一步增加。

3、2、性能提升有限。目前基于语言知识融合的方法在第二阶段训练中通常会冻结住适配器且只训练适配器融合模块,即适配器模块没有在目标低资源语言上进行学习,这使得其输出的特征存在不正确的可能性,进而导致性能提升幅度较小。

4、综上,目前基于语言知识融合的方法不能同时兼顾较高的参数效率以及较好的性能。因此,研究轻量化的适配器微调机制同时优化适配器特征提取方式对于此类方法至关重要。

技术实现思路

1、本发明的目的在于针对当前语言知识融合方法不能同时兼顾较高参数效率以及较好性能的问题,提供一种基于语言知识融合的高效低资源语音识别方法。通过轻量化适配器模块进一步提高参数效率,利用两阶段训练策略以及细粒度适配器融合模块进一步提升低资源语音识别准确率。本发明所述的一种基于语言知识融合的高效低资源语音识别方法,包括以下几个部分:

2、1、所述轻量化适配器模块利用权重共享策略,使得适配器在ssm的每一层中实现二次复用。

3、在1中,所述权重共享策略包括:第一次适配器在多头注意力机制模块后被使用,第二次适配器在第二个线性层后被复用,进而降低可训练参数量。

4、2、所述两阶段训练策略包括:第一阶段在源语言上训练适配器;第二阶段使用第一阶段训练得到的适配器作为初始化参数,利用细粒度适配器融合模块实现多个适配器的自适应帧级融合。

5、在2中,所述第一阶段包括:给定n个源语言,在ssm的每一层中初始化n个轻量化适配器,使用基于connectionist temporal classification(ctc)的损失函数进行模型训练。

6、在2中,所述第二阶段包括:在ssm的每一层中,在目标低资源语言上重新训练第一阶段训练得到的n个适配器,细粒度适配器融合模块为每个适配器的输出产生帧级权重,使用ctc损失函数进行模型训练,以实现低资源语音特征的精细化提取。

7、3、所述细粒度适配器融合模块包含细粒度权重生成以及适配器融合两个部分。

8、在3中,所述细粒度权重由策略网络生成,策略网络由一个线性层和一个softmax层组成。策略网络的输出与适配器的输出按元素相乘以实现与适配器输出的融合,进而得到细粒度适配器融合模块的最终输出结果。

9、与现有技术相比,本发明的有益效果为:

10、1、本发明不仅能够有效地提高模型的参数效率,还能具备较高的识别准确率;

11、2、本发明不仅能显著地降低训练时的显存占用,还能有效减少训练所用的时间;

12、3、本发明可以迁移到任何语音预训练模型上,具备可移植性好,灵活程度高的优势。

技术特征:

1.一种基于语言知识融合的高效低资源语音识别方法,其特征在于,在语音自监督模型的每一层中插入一个轻量化适配器模块,利用轻量化适配器模块实现参数高效型的微调,通过两阶段训练策略进行语言知识提取与融合,基于细粒度适配器融合模块学习不同适配器的帧级权重。

2.按照权利要求1所述轻量化适配器模块,其特征在于,所述轻量化适配器模块利用权重共享策略,使适配器在语音自监督模型的每一层中实现二次复用;第一次适配器在多头注意力机制模块后被使用,第二次适配器在第二个线性层后被复用,进而降低可训练参数量。

3.按照权利要求1所述两阶段训练策略,其特征在于,第一阶段在源语言上训练适配器;第二阶段使用第一阶段训练得到的适配器作为初始化参数,利用细粒度适配器融合模块实现多个适配器的自适应帧级融合。

4.按照权利要求1所述细粒度适配器融合模块,其特征在于,该模块由一个策略网络组成,策略网络包含一个线性层和一个softmax层。

技术总结本发明实施例提供了一种基于语言知识融合的高效低资源语音识别方法,属于低资源语音识别领域,其特征在于:(1)利用权重共享实现适配器轻量化微调;(2)利用两阶段训练策略实现源语言的知识提取与融合;(3)通过细粒度适配器融合模块实现多个适配器的精细化特征联合表达。其中的方法具体包括:创建源语言以及低资源语言数据集;搭建第一阶段训练网络,基于轻量化适配器完成源语言的训练,实现源语言知识提取;搭建第二阶段训练网络,基于轻量化适配器,利用细粒度适配器融合模块进行精细化知识融合。本发明实施例可以提高低资源语言的识别准确率,同时可以保证微调时具备较高的参数效率。技术研发人员:胡青,张燕,张现磊,韩宗昱,于喜龙,杨义鑫受保护的技术使用者:胡青技术研发日:技术公布日:2024/2/8

本文地址:https://www.jishuxx.com/zhuanli/20240618/21623.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。