技术新讯 > 乐器声学设备的制造及制作,分析技术 > 一种用于语音识别的线性复杂度模型架构 > 正文

一种用于语音识别的线性复杂度模型架构

国知局
2025-01-10 13:27:32

本发明涉及语音识别，具体为一种用于语音识别的线性复杂度模型架构。

背景技术：

1、近年来，大量研究集中在对conformer的结构改进，旨在进一步降低计算开销并提升识别性能。例如，branchformer（peng et al.，2022）通过引入并行分支对不同范围的上下文特征进行建模，其中一个分支采用卷积门控多层感知机（cgmlp）捕获局部上下文特征，另一个分支利用自注意机制捕捉长程特征依赖关系，branchformer结构如图1所示，

2、但是该结构存在两个问题：第一，局部特征和全局特征完全分离的方式是主流模式，但这种进行局部特征和全局特征独立提取再拼接融合的方式，并没有解决全局特征和局部特征实时都在相互影响的问题，因此本文在提取局部特征和全局特征的同时，适当的在局部特征和全局特征提取处理时进行了提前融合，来解决全局特征和局部特征实时相互影响的问题。

3、第二，注意力计算复杂度高，对硬件设备依赖严重。mlp mixer（tolstikhin etal., 2021）通过固定大小的mlp在时间维度上进行令牌混合，在多个任务上展示了与多头自注意机制（mhsa）相媲美的性能（choe et al., 2022）。但是，鉴于语音任务通常涉及可变长度的序列，mlp mixer在语音任务中的应用受限，导致其性能表现不佳。

技术实现思路

1、本部分的目的在于概述本发明的实施方式的一些方面以及简要介绍一些较佳实施方式。在本部分以及本申请的说明书摘要和发明名称中可能会做些简化或省略以避免使本部分、说明书摘要和发明名称的目的模糊，而这种简化或省略不能用于限制本发明的范围。

2、因此，本发明的目的是提供一种用于语音识别的线性复杂度模型架构，在提取局部特征和全局特征的同时，适当的在局部特征和全局特征提取处理时进行了提前融合，来解决全局特征和局部特征实时相互影响的问题。

3、为解决上述技术问题，根据本发明的一个方面，本发明提供了如下技术方案：

4、一种用于语音识别的线性复杂度模型架构，其包括：amlp分支和卷积分支；

5、所述amlp分支使用mlp替代注意力机制，并在mlp基础上添加注意力平均池化层，在保持线性复杂度的同时，确保注意力权重均匀分布，并获取全面的全局特征；

6、所述卷积分支利用卷积空间门控单元捕获增强的局部特征关系，并通过与amlp分支交互信息的通道，将局部特征与全局特征进行混合，为全局特征补充局部特征。

7、作为本发明所述的一种用于语音识别的线性复杂度模型架构的一种优选方案，其中，还包括前馈神经网络模块，所述前馈神经网络模块位于模型架构的两端。

8、作为本发明所述的一种用于语音识别的线性复杂度模型架构的一种优选方案，其中，所述amlp分支对输入信息进行全局上下文建模，具体步骤如下：

9、利用两个mlp，针对第一个时间的特征维度从输入本身动态生成w1、w2，以此类推，直到第t个时长的特征维度，所有维度的特征权重描述方式如公式：

10、；

11、其中，k∈1，2；

12、对输入序列x中的每个时间步长xt应用多层感知机mlpk(xt)生成各自时间段的权重，得到所有时间步长下的特征权重，然后将这些权重堆叠成一个可变高度的权重矩阵wk，从而适用于可变长序列；

13、在获取权重的同时，计算复杂度与输入序列的时间长度t呈线性关系，通过如下公式输出：

14、；

15、其中，是非线性的；

16、上述公式中，权重矩阵mlp2对每个时间步长应用局部变换，生成局部贡献，然后与对应时间步的输入序列做内积，将这些局部贡献的结果通过全局求和得到整体表示，再通过非线性变换得到全局投影矩阵，每个局部变换的结果mlp1（xt）通过全局投影矩阵进行投影，整合为最终的输出矩阵。

17、作为本发明所述的一种用于语音识别的线性复杂度模型架构的一种优选方案，其中，所述amlp分支具有amlp模块，amlp模块包括超混合网络和加性注意力，超混合网络用于动态获取全局信息；加性注意力对超混合网络获取的全局信息进一步凝练，最后将结果输入到下一层的hyper mixer模块；

18、amlp模块利用多层感知机构成的hypermixer提取全局信息，再通过加性注意力对输出矩阵进行加权平均，得到具有全局上下文信息的向量，进一步对线性计算处理的注意力结果利用softmax进行归一化，得到注意力权重，公式如下：

19、；

20、其中，是可训练的权重向量，是缩放因子，全局上下文信息向量计算公式如下：

21、。

22、作为本发明所述的一种用于语音识别的线性复杂度模型架构的一种优选方案，其中，所述卷积分支执行如下步骤：

23、对特征序列进行非线性变换；

24、然后，将其送入关键模块线性门控csgu中，接着，将特征序列沿隐藏层维度切割为相等的两个特征序列，对进行层归一化，并使用深度卷积获取强局部特征；

25、最后，将进行逐元素乘积，得到最终的局部特征矩阵：

26、。

27、作为本发明所述的一种用于语音识别的线性复杂度模型架构的一种优选方案，其中，所述卷积分支在卷积空间门控单元的基础上，添加全局和局部特征混合的卷积空间门控特征混合单元，用来混合来自卷积的局部上下文信息与amlp分支的全局上下文信息；

28、所述卷积分支线性计算如下：首先将强局部特征矩阵与全局特征矩阵amlp(x)进行拼接，得到保留了两种完整信息的新特征矩阵，然后，将其送入门控线性单元，并与逐元素乘积，得到的特征矩阵和未与全局特征混合的矩阵进行残差连接，具体公式表示如下：

29、；

30、；

31、；

32、其中，与是相同的。

33、与现有技术相比，本发明具有的独创效果是：本发明提出的hmbformer架构，是一种具有线性时间复杂度的新型架构，旨在消除语音识别中对自注意机制的依赖，降低计算复杂度。hmbformer架构使用多个线性组件对全局上下文信息进行补充，可以高效且充分的利用全局和局部特征信息，从而实现较好的语音识别性能。

技术特征：

1.一种用于语音识别的线性复杂度模型架构，其特征在于，包括：amlp分支和卷积分支；

2.根据权利要求1所述的一种用于语音识别的线性复杂度模型架构，其特征在于，还包括前馈神经网络模块，所述前馈神经网络模块位于模型架构的两端。

3.根据权利要求1所述的一种用于语音识别的线性复杂度模型架构，其特征在于，所述amlp分支对输入信息进行全局上下文建模，具体步骤如下：

4.根据权利要求1所述的一种用于语音识别的线性复杂度模型架构，其特征在于，所述amlp分支具有amlp模块，amlp模块包括超混合网络和加性注意力，超混合网络用于动态获取全局信息；加性注意力对超混合网络获取的全局信息进一步凝练，最后将结果输入到下一层的hyper mixer模块；

5.根据权利要求1所述的一种用于语音识别的线性复杂度模型架构，其特征在于，所述卷积分支执行如下步骤：

6.根据权利要求1所述的一种用于语音识别的线性复杂度模型架构，其特征在于，所述卷积分支在卷积空间门控单元的基础上，添加全局和局部特征混合的卷积空间门控特征混合单元，用来混合来自卷积的局部上下文信息与amlp分支的全局上下文信息；

技术总结本发明公开介绍了语音识别技术领域中一种用于语音识别的线性复杂度模型架构，所述AMLP分支使用MLP替代注意力机制，并在MLP基础上添加注意力平均池化层，在保持线性复杂度的同时，确保注意力权重均匀分布，并获取全面的全局特征，所述卷积分支利用卷积空间门控单元捕获增强的局部特征关系，并通过与AMLP分支交互信息的通道，将局部特征与全局特征进行混合，为全局特征补充局部特征，本发明在提取局部特征和全局特征的同时，适当的在局部特征和全局特征提取处理时进行了提前融合，来解决全局特征和局部特征实时相互影响的问题。技术研发人员：刘葳,田志野,许春生,孙一鸣,陈纯毅受保护的技术使用者：长春理工大学技术研发日：技术公布日：2025/1/6