技术新讯 > 乐器声学设备的制造及制作,分析技术 > 基于多帧融合的抗噪语音识别方法、系统、设备及介质与流程 > 正文

基于多帧融合的抗噪语音识别方法、系统、设备及介质与流程

国知局
2024-06-21 11:39:19

本申请涉及抗噪语音识别，尤其涉及一种基于多帧融合的抗噪语音识别方法、系统、设备及介质。

背景技术：

1、语音识别是人机交互领域中重要的研究方向，它使计算机可以理解和转录人类语音输入。随着深度学习算法与并行计算设备的发展，语音识别技术也取得了巨大的进展，并在许多方向中得到广泛应用，如语音助手、车机交互系统和智能客服等。

2、为了解决噪声这个问题，已经提出了以下多种抗噪声技术：多模态融合技术：这种技术通过结合多种模态的信息，比如，融合音频信号和唇语特征进行联合训练，在噪声条件下提高识别准确率。噪声抑制技术：在语音信号处理阶段，通过噪声抑制技术减小噪声对语音信号的影响，从而提高语音识别的准确率。语音增强技术：在语音信号传输过程中，通过语音增强技术对语音信号进行处理，可以提高语音信号的信噪比，从而提高语音识别的准确率。常见的语音增强方法包括动态范围压缩、谐波增强等。

3、但是，在远场、多噪音源环境下，由于远场环境下，说话人声源距离变远，收音空间变大导致可能的噪音源增多，传统抗噪技术在面对多噪音源时无法有效的处理；另外，现有的抗噪声技术需要复杂的传统前端建模步骤，处理过程繁琐。

技术实现思路

1、针对现有技术的上述不足，本申请提供一种基于多帧融合的抗噪语音识别方法、系统、设备及介质，以解决现有的抗噪技术在面对多噪音源时无法有效的处理，且现有的抗噪声技术需要复杂的传统前端建模步骤，处理过程繁琐的问题。

2、第一方面，本申请提供了一种基于多帧融合的抗噪语音识别方法，方法包括：获取进行识别的音频时域信号，进而获得音频时域信号对应的语谱图；基于梅尔频率理论对语谱图重新采样，以获得梅尔频谱矩阵；对梅尔频谱矩阵进行倒谱均值方差归一化处理，以获得音频特征矩阵；利用预设帧级跨通道注意力机制，计算音频特征矩阵对应的编码矩阵；将编码矩阵依次输入多头自注意力机制和前馈神经网络模型，以获得融合编码矩阵；将融合编码矩阵，输入预设卷积核通道数的多层卷积模型，以获得输出数据；将输出数据输入decode网络结构的解码器，以获得输出数据对应的文本结果。

3、进一步地，在将融合编码矩阵，输入预设卷积核通道数的多层卷积模型之前，方法还包括：通过后端管理界面，获取预设卷积核通道数的多层卷积模型。

4、进一步地，编码矩阵为c*t*d的矩阵；c为编码矩阵的阵列麦克风中c个麦克风输出的c个音频数据，t为编码矩阵的梅尔频率的采样点数，d为编码矩阵在预设时间段内音频分帧后帧数目；利用预设帧级跨通道注意力机制，计算音频特征矩阵对应的编码矩阵，具体包括：通过n个预设帧级跨通道注意力机制：、、、，计算编码矩阵h，h=[,,..]；其中，且i的取值范围为[1-n]，x为编码矩阵，x=[,,..]；=[,,..]，且是除第j通道外的通道在时间维度的矩阵均值计算获得，j的取值范围为[1,c]；和分别是第个预设帧级跨通道注意力机制的权值和偏差参数，包括、、，包括、、，表示矩阵转置；表示矩阵空间的维度范围。

5、进一步地，获得音频时域信号对应的语谱图，具体包括：基于预设长度，对音频时域信号进行分帧；对每一帧的音频时域信号进行加窗处理，进而进行离散傅里叶变换，以获得音频时域信号对应的语谱图。

6、第二方面，本申请提供了一种基于多帧融合的抗噪语音识别系统，系统包括：音频特征矩阵获得模块，用于获取进行识别的音频时域信号，进而获得音频时域信号对应的语谱图；基于梅尔频率理论对语谱图重新采样，以获得梅尔频谱矩阵；对梅尔频谱矩阵进行倒谱均值方差归一化处理，以获得音频特征矩阵；融合编码矩阵获得模块，用于利用预设帧级跨通道注意力机制，计算音频特征矩阵对应的编码矩阵；将编码矩阵依次输入多头自注意力机制和前馈神经网络模型，以获得融合编码矩阵；文本结果获得模块，用于将融合编码矩阵，输入预设卷积核通道数的多层卷积模型，以获得输出数据；将输出数据输入decode网络结构的解码器，以获得输出数据对应的文本结果。

7、进一步地，文本结果获得模块包括获取单元，用于通过后端管理界面，获取预设卷积核通道数的多层卷积模型。

8、进一步地，编码矩阵为c*t*d的矩阵；c为编码矩阵的阵列麦克风中c个麦克风输出的c个音频数据，t为编码矩阵的梅尔频率的采样点数，d为编码矩阵在预设时间段内音频分帧后帧数目；融合编码矩阵获得模块包括计算单元，用于通过n个预设帧级跨通道注意力机制：、、、，计算编码矩阵h，h=[,,..]；其中，且i的取值范围为[1-n]，x为编码矩阵，x=[,,..]；=[,,..]，且是除第j通道外的通道在时间维度的矩阵均值计算获得，j的取值范围为[1,c]；和分别是第个预设帧级跨通道注意力机制的权值和偏差参数，包括、、，包括、、，表示矩阵转置；表示矩阵空间的维度范围。

9、进一步地，音频特征矩阵获得模块包括语谱图获得单元，用于基于预设长度，对音频时域信号进行分帧；对每一帧的音频时域信号进行加窗处理，进而进行离散傅里叶变换，以获得音频时域信号对应的语谱图。

10、第三方面，本申请提供了一种基于多帧融合的抗噪语音识别设备，设备包括：处理器；以及存储器，其上存储有可执行代码，当可执行代码被执行时，使得处理器执行如上述任一项的一种基于多帧融合的抗噪语音识别方法。

11、第四方面，本申请提供了一种非易失性计算机存储介质，其上存储有计算机指令，计算机指令在被执行时实现如上述任一项的一种基于多帧融合的抗噪语音识别方法。

12、本领域技术人员能够理解的是，本申请至少具有如下有益效果：

13、本发明提供了一种基于多帧融合的抗噪语音识别方法、系统、设备及介质，取消了复杂的传统前端建模步骤，将波束形成、声学建模统一到端到端网络结构（预设帧级跨通道注意力机制-多头自注意力机制-前馈神经网络模型）中进行完全联合，融合了阵列麦克风获取的数据（融合编码矩阵），从而更好地抑制噪声以提高语音识别的准确性。

技术特征：

1.一种基于多帧融合的抗噪语音识别方法，其特征在于，所述方法包括：

2.根据权利要求1所述的基于多帧融合的抗噪语音识别方法，其特征在于，在将融合编码矩阵，输入预设卷积核通道数的多层卷积模型之前，所述方法还包括：

3.根据权利要求1所述的基于多帧融合的抗噪语音识别方法，其特征在于，编码矩阵为c*t*d的矩阵；c为编码矩阵的阵列麦克风中c个麦克风输出的c个音频数据，t为编码矩阵的梅尔频率的采样点数，d为编码矩阵在预设时间段内音频分帧后帧数目；

4.根据权利要求1所述的基于多帧融合的抗噪语音识别方法，其特征在于，获得音频时域信号对应的语谱图，具体包括：

5.一种基于多帧融合的抗噪语音识别系统，其特征在于，所述系统包括：

6.根据权利要求5所述的基于多帧融合的抗噪语音识别系统，其特征在于，文本结果获得模块包括获取单元，

7.根据权利要求5所述的基于多帧融合的抗噪语音识别系统，其特征在于，

8.根据权利要求5所述的基于多帧融合的抗噪语音识别系统，其特征在于，音频特征矩阵获得模块包括语谱图获得单元，

9.一种基于多帧融合的抗噪语音识别设备，其特征在于，所述设备包括：

10.一种非易失性计算机存储介质，其特征在于，其上存储有计算机指令，所述计算机指令在被执行时实现如权利要求1-4任一项所述的一种基于多帧融合的抗噪语音识别方法。

技术总结本申请公开了一种基于多帧融合的抗噪语音识别方法、系统、设备及介质，主要涉及抗噪语音识别技术领域，用以解决现有的抗噪技术在面对多噪音源时无法有效的处理，且现有的抗噪声技术需要复杂的传统前端建模步骤，处理过程繁琐的问题。包括：获取进行识别的音频时域信号，进而获得音频特征矩阵；计算音频特征矩阵对应的编码矩阵；将编码矩阵依次输入多头自注意力机制和前馈神经网络模型，以获得融合编码矩阵；将融合编码矩阵，输入预设卷积核通道数的多层卷积模型，以获得输出数据；将输出数据输入decode网络结构的解码器，以获得输出数据对应的文本结果。技术研发人员：卢腾,崔兆伟,李晓勐,程杰,胡威,高明,李清波,夏昂,魏家辉,林冰洁,刘安,张哲宁,刘孟奇,王子萌,石进受保护的技术使用者：国家电网有限公司信息通信分公司技术研发日：技术公布日：2024/3/27