技术新讯 > 乐器声学设备的制造及制作,分析技术 > 基于多头注意力机制和时延神经网络的语音识别方法  >  正文

基于多头注意力机制和时延神经网络的语音识别方法

  • 国知局
  • 2024-06-21 11:33:06

本发明属于语音识别,涉及基于多头注意力机制和时延神经网络的语音识别方法。

背景技术:

1、如今的商用车载语音识别系统大多使用传统模型进行有监督训练,这种有监督的训练方式需要大量的人工标注数据集。这种训练方式对于特定方言,特别是人工标注语料库资源十分匮乏的小语种来说是十分不友好的。因此需要有一种只依赖少量标记数据就可以完成自主学习的技术来帮助实现小语种语音识别。基于多头注意力机制和时延神经网络的低资源语音识别技术可以利用声音文件内部的音频信息学习语音模型。本发明能利用数据内部的结构来生成监督信息,而依赖人工标记数据,并使用该监督信息来学习有关数据的模型。该技术的优势在于在保证深度学习模型识别精度的情况下,极大减少标记数据所需的人力和时间,使得低资源语音识别应用方案落地更加高效和便捷。

技术实现思路

1、有鉴于此,本发明的目的在于提供一种基于多头注意力机制和时延神经网络的语音识别方法。

2、为达到上述目的,本发明提供如下技术方案:

3、基于多头注意力机制和时延神经网络的语音识别方法,该方法包括以下步骤:

4、数据处理;首先将时间步长为t的音频数据x=x1,x2...,xt输入到数据增强模块得到增强音频数据公式中的a表示增强augment;接着将增强音频数据输入到卷积-因子式时延网络中得到潜在语音表征z=z1,z2...,zt,将潜在语音表征输入分别输入到transformer和量化模块中得到上下文表示特征向量c=c1,c2...,ct和量化表示特征向量q=q1,q2...,qt;其中量化表示只是用来训练的特征向量,在微调部分中不会涉及,声学特征提取框架输入到微调数据流中的特征向量只有上下文表示特征向量;最后把上下文表示特征向量输入全连接层中完成束搜索得到语句序列w=w1,w2...,wt;

5、两部分训练模型;

6、第一部分训练模型是低资源语音声学特征提取框架,由基于specaugmen的数据增强模块、基于卷积-因子式时延网络音频编码器和基于对比学习的上下文信息捕获网络三部分组成,该框架使用大量未标注音频数据进行训练;

7、第二部分训练模型是微调模型,该模型通过训练好的声学特征提取框架对输入低资源音频进行特征提取得到上下文表征,利用全连接映射网络将上下文表征投影到任务词汇表中3363个字符类别中,最终实现低资源语音识别。

8、可选的,所述微调模型具体为:

9、1)基于specaugment的数据增强

10、基于对时间扭曲方法研究思路的借鉴,提出了局部速度扰动语音数据增强方法;

11、该方法的步骤一共分为四步:帧率选择、音频增强范围确定、音频增强位置确定以及线性插值增强;

12、帧率选择依靠服从[a,b]的均匀分布进行帧率改变,在非正式的听力测试中,人们能够识别帧率加倍或减半的语音;公式(1)展示帧率选择有关的概率分布;

13、

14、针对上述公式,其中uniform[a,b]表示从a到b的均匀分布,s1和s2分别表示帧率的下限和上限;

15、音频增强规模以及位置的确定也是服从与帧率选择类似的概率分布,确定话语增强范围与话语增强位置的过程都是采用均匀分布随机确定的;通过这两个过程确定所需增强的范围为[p,p+n],两者分别如公式(2)和公式(3)所示;

16、n~uniform[0,n]                     (2)

17、p~uniform[0,l-n]                   (3)

18、其中n是增强范围,p是增强位置;n是时域最大范围参数值;由于增强位置不应超过话语的末尾l,通过从话语的末尾减去增强范围n来设置增强范围的起始位置;

19、线性插值利用音频帧率变化来实现语音速度变化;在改变帧率过程中,使用当前帧值来计算替代帧值;

20、公式(4)和公式(5)展示线性插值数据增强中的帧率变化过程;

21、a=s×n                          (4)

22、

23、其中,t0是当前帧位置,tk是替换帧位置;在得到替换帧值的位置tk后,将替换帧值放入与tk相关的特征v中得到;最后,特征向量v[t]的现有特征帧被特征向量v[tk]的替换帧所取代;此外,每一帧特征相互独立,即如果特征向量v的个数为l,则特征{v1,v2,…,vl}相互独立;

24、2)基于卷积-因子式时延网络音频编码器

25、潜在语音表示特征编码器由三个部分组成:时间卷积层、tdnn-f、层归一化;其中时间卷积层由一维卷积和高斯误差线性单元激活函数级联组成;原始音频数据经过包含gelu的多层时间卷积生成局部语音表示特征,利用ln模块将局部语音表示特征归一化,最后通过tdnn-f网络保留更多语音表征量化前后时间步长之间的依赖生成潜在语音表示;

26、3)基于对比学习的上下文信息捕获网络

27、特征编码器输出的潜在语音表示被馈送到基于transformer架构的上下文信息模块,该模块使用利用掩码lm训练深度双向语音表示和下一句预测这两个无监督任务实现预训练;

28、其中一个无监督任务是利用掩码lm训练深度双向语音表示;掩码lm是一种通过随机屏蔽一定百分比的输入标记生成掩码标记,然后预测这些掩码标记,实现训练深度双向表示的方法;通常情况下采用双向条件会允许每个令牌之间间接“看到自己”从而导致训练过拟合,但采用掩码lm可以很好的避免这个问题;在该任务中,对应掩码标记的隐藏向量被送入输出softmax进行预测,与标准语言模型类似;每个序列随机屏蔽15%的wordpiece标记,并只预测掩码词而不是重建整个输入,这种方法与去噪自动编码器有所不同;

29、训练数据生成器会随机选择15%的标记位置进行预测,然后以80%的概率用[mask]标记替换,以10%的概率用随机令牌替换,以10%的概率保留原有令牌;然后,使用交叉熵损失来训练ti以预测原始标记;

30、第二个无监督任务是下一句预测;利用单语语料库简单生成二值化下一句预测任务,通过二值化下一句预测任务的预训练训练一个理解句子关系的模型。

31、本发明的有益效果在于:

32、针对已有低资源语音识别模型单一,长序列上下文依赖捕获能力差、局部特征提取能力不足的问题。本发明将通过对比学习、时延神经网络等方法提高自监督低资源语音识别模型特征提取能力。

33、针对目标域标注数据稀缺的情景,传统的低资源语音识别模型由于训练数据和测试数据的不匹配的影响,通常难以在高维潜在空间中找到更加理想的片段语音到字元的维特比对齐,最终导致了模型的健壮性不理想。本研究拟定通过数据增强的方法对未标注数据进行理想分布拓展,降低了未标注数据的概念偏移量,加强了未标注数据的可靠性。

34、本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。

本文地址:https://www.jishuxx.com/zhuanli/20240618/22191.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。