技术新讯 > 乐器声学设备的制造及制作,分析技术 > 一种基于自适应类边界间隔的说话人识别方法、系统及存储介质 > 正文

一种基于自适应类边界间隔的说话人识别方法、系统及存储介质

国知局
2024-06-21 11:44:54

本发明涉及说话人识别，具体而言，涉及一种基于自适应类边界间隔的说话人识别方法、系统及存储介质。

背景技术：

1、语音是富含人类身份信息的重要载体之一，利用语音进行身份识别的技术就叫做说话人识别，也被称为声纹识别，属于生物认证技术的一种，是一项根据语音波形中反映说话人生理和行为特征的语音参数，自动识别说话人身份的技术。说话人识别在个性化人机交互、军事斗争、信息安全及多媒体娱乐领域都有着广阔的应用前景。例如，通过说话人声纹自动判别出访客身份，从而提供个性化、贴身化服务。尽管声纹识别的研究已有半个世纪之久，但现有的声纹识别模型仍存在许多困难，还远远达不到社会对其实用化的要求。随着深度学习的广泛应用，主流的说话人识别模型通常建立在深度学习神经网络上，模型学习到的说话人特征的好坏在识别任务上起到重要作用。

2、从根本上讲，说话人特征越具有类内紧凑性、类间可区分性，则说话人特征越可分，传统的softmax缺乏使模型能够学习到更具类内紧凑性、类间可区分性的说话人特征这一能力，因此研究者求助于基于类边界间隔的方法，用角度距离或者余铉距离来替代了传统softmax方法中的内积，同时对其增加边界间隔，进而提升了特征的类内紧凑性、类间可分性。

3、但是，现有的基于类边界间隔的说话人识别方法存在一些问题，它们假设不同说话人之间不存在差异性，调整类边界间隔的方式是固定且一致的，这种不合理的假设导致系统无法区分差异性较小的说话人，制约了说话人识别系统的性能。

技术实现思路

1、本发明要解决的技术问题是：

2、现方法假设不同说话人之间不存在差异性，调整类边界间隔的方式是固定且一致的，导致无法区分差异性较小的说话人。

3、本发明为解决上述技术问题所采用的技术方案：

4、本发明本发明提供了一种基于自适应类边界间隔的说话人识别方法，所述方法包括如下步骤：

5、步骤1、获取说话人音频数据集，将说话人音频数据添加标签；

6、步骤2、对音频数据进行预处理，对预处理的音频数据中提取fbank特征作为声学特征；

7、步骤3、构建基于深度学习的说话人识别模型，将说话人音频样本分为正确分类和错误分类，以样本属于某个说话人的概率为先验信息，自适应地调整类边界间隔，构建损失函数对所述说话人识别模型进行训练；

8、步骤4、将待测说话人音频数据输入训练后的说话人识别模型，判断是否为同一个人的音频数据。

9、进一步地，步骤2中所述的对音频数据进行预处理，包括：预加重、分帧和加窗处理。

10、进一步地，步骤2中所述的从预处理的音频数据中提取fbank特征作为声学特征，包括如下步骤：

11、步骤21、对预处理的每帧音频进行快速傅里叶变换fft得到频谱，并对频谱取模得到每帧音频的功率谱；

12、步骤22、使用一系列梅尔滤波器组对步骤21得到的功率谱进行频率转换处理，得到梅尔频率，并对所得梅尔频率进行取对数操作得到fbank特征，以fbank特征作为音频数据的声学特征。

13、进一步地，步骤3中所述损失函数为交叉损失函数acbs-softmax，其构建方法为：

14、步骤31、采用指示函数和将说话人特征分为正确分类和错误分类：

15、

16、

17、式中，说话人特征xn表示音频样本n的fbank的声学特征输入到模型中得到深度特征，j表示xn说话人所属类别，k表示其他说话人类别，k≠j，和分别表示xn与说话人类别j和k的余弦相似度，xn能够被正确分类为真正说话人j时，即时，相比于真正说话人j，xn被错误分类为说话人k时，即时，

18、步骤32、根据指示函数以分类正确的说话人特征属于真正说话人的概率为先验信息，自适应调整正确说话人与其他说话人之间类边界间隔：

19、

20、

21、式中，s,u为超参数，为一个重加权函数，能够以特征xn分类到真正说话人j的概率为先验信息，自适应扩大真正说话人与其他说话人之间的类边界间隔；

22、步骤33、根据指示函数以错误分类的说话人特征分类到错误说话人的概率为先验信息，自适应调整错误说话人与其他说话人之间类边界间隔：

23、

24、

25、式中，s,t为超参数，为一个重加权函数，能够以特征xn错误分类到说话人k的概率为先验信息，自适应调整说话人k与其他说话人的类边界间隔；

26、步骤34、构建交叉损失函数acbs-softmax为：

27、

28、其中，n为音频样本总数。

29、进一步地，步骤3中所述构建基于深度学习网络的说话人识别模型，具体为构建基于ecapa-tdnn的说话人识别模型。

30、进一步地，所述基于ecapa-tdnn的说话人识别模型包括：

31、第一层为卷积层；

32、第二层到四层为se-res2block模块；

33、第五层将第二层到第四层的输出concat到一起；

34、第六层为卷积层；

35、第七层为统计池化层；

36、第八层为全连接层。

37、一基于自适应类边界间隔的说话人识别系统，该系统具有与上述技术方案任一项技术方案的步骤对应的程序模块，运行时执行上述的基于自适应类边界间隔的说话人识别方法中的步骤。

38、一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序配置为由处理器调用时实现上述技术方案中任一项所述的基于自适应类边界间隔的说话人识别方法中的步骤。

39、相较于现有技术，本发明的有益效果是：

40、本发明一种基于自适应类边界间隔的说话人识别方法、系统及存储介质，基于自适应类边界间隔的说话人识别方法将说话人音频样本分为分类正确和错误分类两类，以音频样本属于某个说话人的概率为先验信息，自适应地去调整类边界间隔，致力于让分类正确的特征之间更紧凑，分类错误的特征更向分类正确的特征靠拢，进而提升特征的类内紧凑性以及类间可分性，增强模型对不同差异性的说话人的识别能力，相较于传统的基于类边界间隔的说话人识别方法，本发明方法在识别效果上更准确。

技术特征：

1.一种基于自适应类边界间隔的说话人识别方法，其特征在于：所述方法包括如下步骤：

2.根据权利要求1所述的基于自适应类边界间隔的说话人识别方法，其特征在于，步骤2中所述的对音频数据进行预处理，包括：预加重、分帧和加窗处理。

3.根据权利要求1所述的基于自适应类边界间隔的说话人识别方法，其特征在于，步骤2中所述的从预处理的音频数据中提取fbank特征作为声学特征，包括如下步骤：

4.根据权利要求1所述的基于自适应类边界间隔的说话人识别方法，其特征在于，步骤3中所述损失函数为交叉损失函数acbs-softmax，其构建方法为：

5.根据权利要求1所述的基于自适应类边界间隔的说话人识别方法，其特征在于，步骤3中所述构建基于深度学习网络的说话人识别模型，具体为构建基于ecapa-tdnn的说话人识别模型。

6.根据权利要求5所述的基于自适应类边界间隔的说话人识别方法，其特征在于，所述基于ecapa-tdnn的说话人识别模型包括：

7.一基于自适应类边界间隔的说话人识别系统，其特征在于，该系统具有与上述权利要求1～6任一项权利要求的步骤对应的程序模块，运行时执行上述的基于自适应类边界间隔的说话人识别方法中的步骤。

8.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序配置为由处理器调用时实现权利要求1～6中任一项所述的基于自适应类边界间隔的说话人识别方法中的步骤。

技术总结本发明一种基于自适应类边界间隔的说话人识别方法、系统及存储介质，涉及说话人识别技术领域，为解决现方法假设不同说话人之间不存在差异性，调整类边界间隔的方式是固定且一致的，导致无法区分差异性较小的说话人的问题。包括：步骤1、获取说话人音频数据集，将添加音频数据添加标签；步骤2、对音频数据进行预处理，对预处理的音频数据中提取FBank特征作为声学特征；步骤3、构建基于深度学习的说话人识别模型，将说话人音频样本分为正确分类和错误分类，以样本属于某个说话人的概率为先验信息，自适应地调整类边界间隔，构建损失函数对模型进行训练；步骤4、将待测说话人音频数据输入训练后的说话人识别模型，判断是否为同一个人的音频数据。技术研发人员：罗辉,赵昊洋受保护的技术使用者：东北林业大学技术研发日：技术公布日：2024/4/17