技术新讯 > 乐器声学设备的制造及制作,分析技术 > 一种基于分层无注意力模型的语音信号处理系统及方法 > 正文

一种基于分层无注意力模型的语音信号处理系统及方法

国知局
2024-06-21 11:46:47

本发明涉及语音信号，尤其涉及一种基于分层无注意力模型的语音信号处理系统及方法。

背景技术：

1、当前的语音分析方法大多建立在深度学习框架的基础之上，利用transformer体系结构的强大序列建模能力对语音信号进行处理。现有技术中transformer的自注意力机制会随着语音序列长度的增加使得计算和存储的复杂度呈二次方增长，导致计算复杂度和模型大小显著增大、系统运行速度变慢响应时间延长。因此，不能有效针对长时间的语音信号进行处理。并且，为了应对计算和存储复杂度的增加，需要更高性能的硬件设备，这限制了其在实时应用和资源受限环境下的部署能力。因此，设计一个在保证检测性能的前提下能够满足计算和存储更加高效的语音信号处理方法，以实现在各类移动设备上进行实时语音分析具有重大的实际应用意义。

技术实现思路

1、本发明要解决的技术问题就在于：针对现有技术存在的技术问题，本发明提供一种计算复杂度低、结构简单的基于分层无注意力模型的语音信号处理系统及方法，以实现对语音信号的高效、准确识别以及在特定场景下的实际应用。

2、为解决上述技术问题，本发明提出的技术方案为：

3、一种基于分层无注意力模型的语音信号处理系统，包括：

4、语音预处理嵌入模块，用于获取用户的语音信息，并提取所述用户语音信息的特征向量；

5、分层无注意力模块，包括多个无注意力层级，每个层级结构包括多个afformer单元，所述afformer单元包括令牌混合器和通道混合器，所述令牌混合器包括多个并行的深度可分离卷积分支，所述深度可分离卷积分支用于处理接收到的所述特征向量，并将各深度可分离卷积分支的处理结果与所述特征向量进行叠加，信息输出；所述通道混合器包括并行的非线性门控分支和目标信息线性分支，所述非线性门控分支和目标信息线性分支用于分别处理接收到的所述令牌信息，并根据两分支的处理结果得到最优的门控信号特征值，根据所述门控信号特征值得到待筛选目标信息。

6、进一步的，所述语音预处理嵌入模块后连接有投影模块，所述投影模块用于获取所述特征向量的低维表示。

7、进一步的，所述分层无注意力模块还包括合并单元，所述合并单元位于所述afformer单元上游，用于接收所述投影模块的输出结果，并采用指定的降采样率对所述投影模块的输出结果进行下采样处理，以获得多粒度聚合的语音特征。

8、进一步的，所述令牌混合器包括并行的7×1深度可分离卷积分支和1×1深度可分离卷积分支，用于接收将所述多粒度聚合的语音特，并对所述多粒度聚合的语音特征进行卷积处理，以分别获得各分支的卷积处理结果，并将所述各分支的卷积结果与所述多粒度聚合的语音特征进行叠加，以获得令牌信息。

9、进一步的，所述获得令牌信息的计算公式为：

10、；

11、其中，和分别表示令牌混合器的输入和输出，ln表示层归一化，表示一维卷积7×1深度可分离卷积分支，表示一维卷积1×1深度可分离卷积分支。

12、进一步的，所述通道混合器的非线性门控分支包括线性变换单元和gelu非线性激活单元，所述线性变换单元将输入的所述令牌信息进行线性变换处理后，将处理结果输入所述gelu非线性激活单元以获得门控信号特征值。

13、进一步的，将所述非线性门控分支获得的门控信号特征值与所述线性分支获得的待筛选目标信息进行逐元素相乘，以获得最优的门控信号特征值。

14、进一步的，所述获得最优的门控信号特征值的计算公式为：

15、；

16、其中，w1、w2分别表示非线性门控分支、线性分支的权重，、分别表示通道混合器的输入和输出，gelu表示高斯误差线性单元激活函数，ln表示层归一化。

17、一种用于基于分层无注意力模型的语音信号处理系统的检测方法，包括以下步骤：

18、步骤1.获取用户的语音信息，并提取所述用户语音信息的特征向量；

19、步骤2. 所述特征向量同时输入所述分层无注意力模块中令牌混合器的各个深度可分离卷积分支进行卷积处理，并将各深度可分离卷积分支的处理结果与所述特征向量进行叠加，以获得令牌信息输出；并将所述令牌信息输入所述通道混合器并行的非线性门控分支和目标信息线性分支进行处理，并根据两分支的处理结果得到最优的门控信号特征值，根据所述门控信号特征值得到待筛选目标信息。

20、进一步的，步骤2中，

21、所述得到最优的门控信号特征值的方法包括：

22、步骤201. 所述非线性门控分支获取所述令牌信息，对所述令牌信息进行线性处理，并将处理结果输入gelu非线性激活单元以获得门控信号；

23、步骤202.所述目标线性分支获取所述令牌信息，对所述令牌信息进行线性处理以获得待筛选目标信息；

24、步骤203.将所述门控信号与所述待筛选目标信息进行逐元素乘法处理，以获得最优的门控信号特征。

25、与现有技术相比，本发明的优点在于：

26、1、本发明通过分层无注意力模块中的深度可分离卷积分离空间卷积和逐点卷积，能够有效的降低计算复杂度，通过将小型的可分离卷积核连接局部输入，以实现对细粒度局部特征的捕捉。另外，通过残差连接有效缓解梯度消失问题，增强多路径子网络特征的加性聚合效应。通过将可分离卷积单元与残差连接的结合，使得系统在实现参数与计算量最小化的同时，增大网络感知范围实现全局语义信息的有效集成。并通过非线性门控单元实现了自动的语义过滤与选择，能够有效抑制不相关信息，相较于现有技术中的标准全连接更符合语音分析的需求。

27、2、本发明进一步构建两条分支的通道混合器，一条分支执行线性变换后接gelu非线性激活，其输出充当门控信号；另一条分支仅做线性变换，其输出为待筛选的目标信息。然后将两条分支的输出做逐元素乘法，来实现门控作用。两条分支采用了不同的线性变换矩阵，使门控信号可以针对性地处理每个目标通道。门控信号与目标表示一同学习，以实现更佳的门控效果。

技术特征：

1.一种基于分层无注意力模型的语音信号处理系统，其特征在于，包括：

2.根据权利要求1所述的基于分层无注意力模型的语音信号处理系统，其特征在于，所述语音预处理嵌入模块后设有投影模块，所述投影模块用于获取所述特征向量的低维表示。

3.根据权利要求1所述的基于分层无注意力模型的语音信号处理系统，其特征在于，所述分层无注意力模块还包括合并单元，所述合并单元位于所述afformer单元上游，用于接收所述投影模块的输出结果，并采用指定的降采样率对所述投影模块的输出结果进行下采样处理，以获得多粒度聚合的语音特征。

4.根据权利要求1所述的基于分层无注意力模型的语音信号处理系统，其特征在于，所述令牌混合器包括并行的7×1深度可分离卷积分支和1×1深度可分离卷积分支，用于接收所述多粒度聚合的语音特征，并对所述多粒度聚合的语音特征进行卷积处理，以分别获得各分支的卷积处理结果，将所述各分支的卷积处理结果与所述多粒度聚合的语音特征进行叠加，以获得令牌信息。

5.根据权利要求4所述的基于分层无注意力模型的语音信号处理系统，其特征在于，所述获得令牌信息的计算公式为：

6.根据权利要求1所述的基于分层无注意力模型的语音信号处理系统，其特征在于，所述通道混合器的非线性门控分支包括线性变换单元和gelu非线性激活单元，所述线性变换单元将输入的所述令牌信息进行线性变换处理后，将处理结果输入所述gelu非线性激活单元以获得门控信号特征值。

7.根据权利要求6所述的基于分层无注意力模型的语音信号处理系统，其特征在于，将所述非线性门控分支获得的门控信号特征值与所述线性分支获得的待筛选目标信息进行逐元素相乘，以获得最优的门控信号特征值。

8.根据权利要7所述的基于分层无注意力模型的语音信号处理系统，其特征在于，所述获得最优的门控信号特征值的计算公式为：

9.一种用于权利要求1~8任意一项所述的基于分层无注意力模型的语音信号处理系统的检测方法，其特征在于，包括以下步骤：

10.根据权利要求9所述的基于分层无注意力模型的语音信号处理系统的检测方法，其特征在于，步骤2中，所述得到最优的门控信号特征值的方法包括：

技术总结本发明提供一种基于分层无注意力模型的语音信号处理系统及方法，该系统包括：语音预处理嵌入模块，用于获取用户的语音信息，并提取用户语音信息的特征向量；分层无注意力模块，包括多个无注意力层级，每个层级结构包括多个AFFormer单元，AFFormer单元包括令牌混合器和通道混合器，令牌混合器包括多个并行的深度可分离卷积分支，用于处理接收到的所述特征向量，以获得令牌信息输出；通道混合器包括并行的非线性门控分支和线性分支用于分别处理接收到的所述令牌信息，并根据两分支的处理结果得到最优的门控信号特征值，根据门控信号特征值得到待筛选目标信息。本发明能够高效、准确识别待筛选语音特征。技术研发人员：张子兴,董忠仁,徐尉翔受保护的技术使用者：湖南大学技术研发日：技术公布日：2024/4/24