技术新讯 > 乐器声学设备的制造及制作,分析技术 > 一种针对音频信息的文字及声纹识别方法、系统及应用与流程 > 正文

一种针对音频信息的文字及声纹识别方法、系统及应用与流程

国知局
2024-06-21 11:44:51

本公开涉及自动语音识别相关，具体地说，是涉及一种针对音频信息的文字及声纹识别方法、系统及应用。

背景技术：

1、本部分的陈述仅仅是提供了与本公开相关的背景技术信息，并不必然构成在先技术。

2、生产调度业务的自动化或智能化，是企业数字化发展的一个重要趋势。在电网系统中，针对音频调度信息的文字识别技术及声纹身份识别技术是自动语音识别技术(automatic speech recognition,asr)的重要应用场景，其任务目标是对输入语音信息完成文字解码识别以及人员身份识别，在实施调度过程中，确保指令的可靠性及安全性至关重要；然而，发明人在研究中发现，电网工作场景中电磁及环境噪声等干扰因素对模型的语音处理能力会产生较大影响，目前的识别模型识别准确度低，影响了调度信息的正确传播，进而影响电网系统的运行的安全性。

技术实现思路

1、本公开为了解决上述问题，提出了一种针对音频信息的文字及声纹识别方法、系统及应用，以conformer为骨干架构，对conformer进行改进，能够有效处理噪声，并实现了端到端的声纹身份识别；同时实现了基于音频信息的语音识别与说话人的身份识别，能够在实施调度过程中，确保调度指令的可靠性及安全性。

2、为了实现上述目的，本公开采用如下技术方案：

3、一个或多个实施例提供了一种针对音频信息的文字及声纹识别方法，包括如下步骤：

4、将获取的待处理音频信号，进行预处理；

5、将预处理后的音频信号输入至改进后的conformer编码器进行编码；

6、改进后的conformer编码器采用octave卷积子模块，octave卷积子模块对音频信号转换后的频谱特征图进行八度卷积下采样操作，得到编码特征；

7、将编码后的特征图进行解码，得到文字识别信息；

8、将编码后的特征图采用分类鉴别器进行声纹身份识别处理后，得到身份信息。

9、一个或多个实施例提供了一种针对音频信息的文字及声纹识别系统，包括：

10、预处理模块：被配置为用于将获取的待处理音频信号，进行预处理；

11、编码器：被配置为用于将预处理后的音频信号输入至改进后的conformer编码器进行编码；

12、改进后的conformer编码器采用octave卷积子模块，octave卷积子模块对音频信号转换后的频谱特征图进行八度卷积下采样操作，得到编码特征；

13、解码器：被配置为将编码后的特征图进行解码，得到文字识别信息；

14、声纹身份识别模块：被配置为将编码后的特征图采用分类鉴别器进行声纹身份识别处理后，得到身份信息。

15、一个或多个实施例提供了上述的一种针对音频信息的文字及声纹识别系统在电网调度系统的应用。

16、一种电子设备，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成上述的一种针对音频信息的文字及声纹识别方法中的步骤。

17、与现有技术相比，本公开的有益效果为：

18、本公开中，改进后的编码器利用八度卷积来改进conformer的语音编码功能，八度卷积的高、低频分支处理模式，能够克服电网调度场中干扰噪声的消极影响。同时设置了分类鉴别器可直接对接conformer的音频编码输出，实现了音文转换和身份识别的双功能集成，具备端到端的双功能集成优势。

19、本公开的优点以及附加方面的优点将在下面的具体实施例中进行详细说明。

技术特征：

1.一种针对音频信息的文字及声纹识别方法，其特征在于，包括如下步骤：

2.如权利要求1所述的一种针对音频信息的文字及声纹识别方法，其特征在于：在原conformer编码器模型中，卷积子采样层通过两个步长为2的2d卷积实现了频谱特征图的四倍下采样；将原conformer编码器模型的卷积子采样层的第二个2d卷积层替换为八度卷积结构，得到改进的conformer编码器。

3.如权利要求1所述的一种针对音频信息的文字及声纹识别方法，其特征在于，八度卷积下采样操作，包括如下步骤：

4.如权利要求1所述的一种针对音频信息的文字及声纹识别方法，其特征在于：分类鉴别器包括前端特征提取网络和特征维度对齐模块；

5.如权利要求1所述的一种针对音频信息的文字及声纹识别方法，其特征在于：基于分类鉴别器进行声纹身份识别的方法，包括如下步骤：

6.如权利要求1所述的一种针对音频信息的文字及声纹识别方法，其特征在于：还包括构建文字及声纹识别模型，包括包含预处理模块、编码器，编码器后端并联连接有分类鉴别器与解码器；

7.如权利要求6所述的一种针对音频信息的文字及声纹识别方法，其特征在于：文字及声纹识别模型训练过程中的损失包括语音识别损失以及声纹识别损失；

8.一种针对音频信息的文字及声纹识别系统，其特征在于，包括：

9.权利要求8所述的一种针对音频信息的文字及声纹识别系统在电网调度系统的应用。

10.一种电子设备，其特征在于，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成权利要求1-7任一项所述的一种针对音频信息的文字及声纹识别方法中的步骤。

技术总结本公开涉及自动语音识别技术领域，提出了一种针对音频信息的文字及声纹识别方法、系统及应用，包括如下步骤：将获取的待处理音频信号，进行预处理；将预处理后的音频信号输入至改进后的Conformer编码器进行编码，对音频信号转换后的频谱特征图进行八度卷积下采样操作，得到编码特征；将编码后的特征图进行解码，得到文字识别信息；将编码后的特征图采用分类鉴别器进行声纹身份识别处理后，得到身份信息。以Conformer为骨干架构进行改进，能够有效处理噪声，同时实现了基于音频信息的语音识别与身份识别，能够在实施调度过程中，确保调度指令的可靠性及安全性，并实现了端到端的声纹身份识别。技术研发人员：翟洪婷,张庆锐,张延童,翟启,孙丽丽,卞若晨,权玮虹,王敏,孟祥鹿,毛恒,李青受保护的技术使用者：国网山东省电力公司信息通信公司技术研发日：技术公布日：2024/4/17