技术新讯 > 乐器声学设备的制造及制作,分析技术 > 声纹识别方法及系统与流程 > 正文

声纹识别方法及系统与流程

国知局
2024-06-21 11:28:04

本发明涉及计算机，尤其涉及一种声纹识别方法及系统。

背景技术：

1、声纹识别技术是一种非接触式身份验证技术，通过获取说话人语音数据将其转换为特定的特征信息，并且与数据库预先存储的每个人对应的身份信息进行比对，从而判别出对应人员的身份。根据具体任务，可分为语义相关和语义无关的声纹识别。传统方法有模板匹配、高斯混合模型以及联合因子法等。而比较先进的方法是通过深度学习实现端到端的声纹特征提取，如d-vector、x-vector等。

2、基于传统方法在声纹特征建模上存在很大的局限性，所提取的声纹特征在鲁棒性、准确率上有极大的不足，其模型结构也比较负复杂。因此，目前主流的声纹识别方法通常是基于深度学习，通过收集大规模数据集进行训练从而获得端到端的声纹识别模型。然而，语音数据的不足以及神经网络不够完善等问题都可能使得训练出的模型的准确率降低。当前采用的神经网络架构不够完善，存在一定的不足，无法提取出稳定的声纹特征，声纹识别的准确率低。

技术实现思路

1、本发明提供一种声纹识别方法及系统，用以解决现有技术中声纹识别准确率低的技术问题。

2、第一方面，本发明提供一种声纹识别方法，包括：

3、从输入音频数据中提取音频特征序列；

4、通过声纹特征提取网络的帧级处理网络对所述音频特征序列进行特征变换，得到帧级信息；

5、通过声纹特征提取网络的段级处理网络对所述帧级信息进行建模长序列之间的相关性，得到段级信息；

6、将所述段级信息与数据库中存储的段级信息进行相似度匹配，识别所述输入音频数据对应的说话人的身份。

7、在一些实施例中，通过声纹特征提取网络的帧级处理网络对所述音频特征序列进行特征变换，得到帧级信息，包括：

8、通过所述帧级处理网络的卷积块在不同的核下处理所述音频特征序列中的时间和频率数据，获得高级特征；

9、通过所述帧级处理网络的残差网络将通道分块处理，逐渐融合高级特征数据，得到帧级信息。

10、在一些实施例中，通过声纹特征提取网络的段级处理网络对所述帧级信息进行建模长序列之间的相关性，得到段级信息，包括：

11、通过所述段级处理网络的序列建模模块分别对不同深度的帧级信息进行建模长序列之间的相关性，得到相关信息；

12、通过所述段级处理网络的卷积块将不同层级上的相关信息进行融合，得到融合信息；

13、通过所述段级处理网络的注意力池化块将融合信息转换为段级信息。

14、在一些实施例中，还包括：

15、确定声纹数据集；

16、对声纹数据集中的数据进行增强处理；

17、利用增强后的声纹数据集对声纹特征提取网络进行训练。

18、在一些实施例中，对声纹数据集中的数据进行增强处理，包括：

19、对声纹数据集中的数据进行以下处理中的一种或多种：

20、加噪；

21、加混响；

22、变音强；

23、变语速。

24、在一些实施例中，从输入音频数据中提取音频特征序列，包括：

25、对输入音频数据进行预加重、分帧、加窗、短时傅里叶变化和梅尔尺度变换，得到音频特征序列。

26、第二方面，本发明还提供一种包括特征提取模块、声纹特征提取网络和匹配模块；

27、声纹特征提取网络包括帧级处理网络和段级处理网络；

28、所述特征提取模块用于从输入音频数据中提取音频特征序列；

29、所述帧级处理网络用于对所述音频特征序列进行特征变换，得到帧级信息；

30、所述段级处理网络用于对所述帧级信息进行建模长序列之间的相关性，得到段级信息；

31、所述匹配模块用于将所述段级信息与数据库中存储的段级信息进行相似度匹配，识别所述输入音频数据对应的说话人的身份。

32、在一些实施例中，所述帧级处理网络由卷积和残差网络块堆叠而成，所述卷积块用于在不同的核下处理所述音频特征序列中的时间和频率数据，获得高级特征；

33、所述残差网络块用于将通道分块处理，逐渐融合高级特征数据，得到帧级信息。

34、在一些实施例中，所述段级处理网络由序列建模模块、卷积块和注意力池化块组成；

35、所述序列建模模块用于分别对不同深度的帧级信息进行建模长序列之间的相关性，得到相关信息；

36、所述卷积块用于将不同层级上的相关信息进行融合，得到融合信息；

37、所述注意力池化块用于将融合信息转换为段级信息。

38、在一些实施例中，所述序列建模模块为transformer结构或者为双向lstm网络结构。

39、本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述声纹识别方法。

40、本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述声纹识别方法。

41、本发明还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述声纹识别方法。

42、本发明提供的声纹识别方法及系统，通过构建的声纹特征提取网络的段级处理网络对帧级信息进行建模长序列之间的相关性，能够提取出稳定的声纹特征，提高了声纹识别的准确性。

技术特征：

1.一种声纹识别方法，其特征在于，包括：

2.根据权利要求1所述的声纹识别方法，其特征在于，通过声纹特征提取网络的帧级处理网络对所述音频特征序列进行特征变换，得到帧级信息，包括：

3.根据权利要求1所述的声纹识别方法，其特征在于，通过声纹特征提取网络的段级处理网络对所述帧级信息进行建模长序列之间的相关性，得到段级信息，包括：

4.根据权利要求1所述的声纹识别方法，其特征在于，还包括：

5.根据权利要求4所述的声纹识别方法，其特征在于，对声纹数据集中的数据进行增强处理，包括：

6.根据权利要求1所述的声纹识别方法，其特征在于，从输入音频数据中提取音频特征序列，包括：

7.一种声纹识别系统，其特征在于，包括特征提取模块、声纹特征提取网络和匹配模块；

8.根据权利要求7所述的声纹识别系统，其特征在于，所述帧级处理网络由卷积和残差网络块堆叠而成，所述卷积块用于在不同的核下处理所述音频特征序列中的时间和频率数据，获得高级特征；

9.根据权利要求7所述的声纹识别系统，其特征在于，所述段级处理网络由序列建模模块、卷积块和注意力池化块组成；

10.根据权利要求9所述的声纹识别系统，其特征在于，所述序列建模模块为transformer结构或者为双向lstm网络结构。

技术总结本发明提供一种声纹识别方法及系统，所述方法包括：从输入音频数据中提取音频特征序列；通过声纹特征提取网络的帧级处理网络对所述音频特征序列进行特征变换，得到帧级信息；通过声纹特征提取网络的段级处理网络对所述帧级信息进行建模长序列之间的相关性，得到段级信息；将所述段级信息与数据库中存储的段级信息进行相似度匹配，识别所述输入音频数据对应的说话人的身份。本发明提供的声纹识别方法及系统，通过构建的声纹特征提取网络的段级处理网络对帧级信息进行建模长序列之间的相关性，能够提取出稳定的声纹特征，提高了声纹识别的准确性。技术研发人员：邸荻,冯云鹏,贾晓磊,张成林,卓越受保护的技术使用者：中国人民解放军32398部队技术研发日：技术公布日：2024/2/19