技术新讯 > 乐器声学设备的制造及制作,分析技术 > 一种基于神经网络的声纹识别方法及装置与流程 > 正文

一种基于神经网络的声纹识别方法及装置与流程

国知局
2024-06-21 10:41:06

本发明涉及声纹识别，并且更具体地，涉及一种基于神经网络的声纹识别方法及装置。

背景技术：

1、声纹识别是一种利用个体声音特征进行身份验证或识别的技术，近年来得到了广泛的研究和应用。随着智能语音助手、智能家居、移动支付、安全验证等多种应用场景的迅猛发展，声纹识别技术的准确性和可靠性变得尤为重要。

2、然而，在实际应用中，现有的声纹识别技术面临多个挑战。现有技术仍存在以下问题难以解决：

3、数据质量和分辨率问题：传统的数据采集方法可能未能确保足够的信息量和分辨率，从而影响识别的准确性。

4、预处理不足：现有的数据预处理技术可能不够先进，未能有效地消除噪声或者进行适当的数据归一化，会影响模型的性能和泛化能力。

5、数据多样性和量不足：传统的数据扩充手段可能过于简单，没有考虑到声纹数据的时间依赖性，导致模型在面对不同环境和噪声条件时的泛化能力不足。

6、局限的特征提取能力：传统的卷积神经网络(cnn)虽然在声纹识别上有不错的表现，但在处理多尺度特征和引入注意力机制等方面可能存在不足。

7、分类器性能和效率问题：现有的分类器可能没有充分利用高级优化技术如量子优化，因而在计算效率和准确度上有所限制。

8、缺乏不确定性评估：传统模型通常只给出一个最可能的分类结果，而没有评估模型对这一结果的不确定性，这在安全性和可靠性方面是一个不足。

技术实现思路

1、针对现有技术的不足，本发明提供一种基于神经网络的声纹识别方法及装置。

2、根据本发明的一个方面，提供了一种基于神经网络的声纹识别方法，包括：

3、采集待识别声纹信号并进行预处理；

4、对预处理之后的待识别声纹信号进行特征提取，确定待识别声纹信号的声纹特征；

5、将声纹特征输入至预先训练的神经网络分类器模型中，输出待识别声纹信号的所有可能的类别标签集合，其中分类器模型采用基于量子优化的自组织映射；

6、根据预先构建的贝叶斯优化概率模型遍历可能的类别标签集合，获取待识别声纹信号的最优类别标签。

7、可选地，分类器模型训练过程如下：

8、采集麦克风设备的声纹信号数据集；

9、利用梅尔频率倒谱系数特征提取方法对声纹信号数据集进行特征提取，确定梅尔频率倒谱系数集；

10、采用最大最小归一化和时间域噪声滤波器组合方法对声纹信号数据集进行预处理；

11、基于回声状态的生成对抗网络算法对预处理之后的声纹信号数据集进行数据扩充，生成扩充声纹信号数据集；

12、采用多尺度的卷积神经网络对扩充声纹信号数据集进行特征提取，确定声纹信号数据集的声纹特征集；

13、将梅尔频率倒谱系数集组成梅尔频率倒谱系数矩阵，并与声纹特征集进行融合，确定声纹融合特征集；

14、将声纹融合特征集输入至基于量子优化的自组织映射分类器进行训练，得到分类器模型。

15、可选地，麦克风设备为以下的任意一种动态麦克风、电容麦克风以及阵列麦克风。

16、可选地，利用梅尔频率倒谱系数特征提取方法对声纹信号数据集进行特征提取，确定梅尔频率倒谱系数集，包括：

17、分别对声纹信号数据集的声纹信号进行傅里叶变换，得到频谱特征集；

18、将频谱特征集映射到梅尔尺度上，获得梅尔域特征集；

19、对梅尔域特征集进行离散余弦变换，得到梅尔频率倒谱系数集。

20、可选地，最大最小归一化方法公式为：

21、

22、式中，x′是归一化后的数据，min(x)和max(x)分别是原始数据x的最小和最大值。

23、可选地，时间域噪声滤波器公式为：

24、

25、式中，x′是归一化后的数据，α是一个介于0和1之间的权重参数，n是局部窗口大小，wi是窗口内各点的权重，且满足

26、可选地，生成对抗网络算法包括生成器gesn和鉴别器d，其中生成器gesn由原有生成器和回声状态网络组成。

27、可选地，贝叶斯优化模型为：

28、

29、式中，y为所有可能的类别标签集合，μ(x,y)和σ2(x,y)分别是均值和方差，x为待识别声纹信号，y为y中的类别。

30、可选地，还包括：对最优类别标签进行不确定性度量，确定最优标签的不确定度，其中不确定度量的公式为：

31、u(x,y*)＝σ2(x,y*)

32、式中，x为待识别声纹信号，y*为最优类别标签，σ2为方差。

33、根据本发明的另一个方面，提供了一种基于神经网络的声纹识别装置，包括：

34、采集模块，用于采集待识别声纹信号并进行预处理；

35、特征提取模块，用于对预处理之后的待识别声纹信号进行特征提取，确定待识别声纹信号的声纹特征；

36、输出模块，用于将声纹特征输入至预先训练的神经网络分类器模型中，输出待识别声纹信号的所有可能的类别标签集合，其中分类器模型采用基于量子优化的自组织映射；

37、获取模块，用于根据预先构建的贝叶斯优化概率模型遍历可能的类别标签集合，获取待识别声纹信号的最优类别标签。

38、根据本发明的又一个方面，提供了一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序用于执行本发明上述任一方面所述的方法。

39、根据本发明的又一个方面，提供了一种电子设备，所述电子设备包括：处理器；用于存储所述处理器可执行指令的存储器；所述处理器，用于从所述存储器中读取所述可执行指令，并执行所述指令以实现本发明上述任一方面所述的方法。

40、从而，本发明提出了一种基于神经网络的声纹识别方法。在分类器设计上，采用了基于量子优化的自组织映射(som)以提高准确度和计算效率，引入了基于贝叶斯优化的不确定性评估，提供更为可靠的分类结果。

技术特征：

1.一种基于神经网络的声纹识别方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，分类器模型训练过程如下：

3.根据权利要求2所述的方法，其特征在于，所述麦克风设备为以下所述的任意一种动态麦克风、电容麦克风以及阵列麦克风。

4.根据权利要求1所述的方法，其特征在于，利用梅尔频率倒谱系数特征提取方法对所述声纹信号数据集进行特征提取，确定梅尔频率倒谱系数集，包括：

5.根据权利要求2所述的方法，其特征在于，所述最大最小归一化方法公式为：

6.根据权利要求2所述的方法，其特征在于，所述时间域噪声滤波器公式为：

7.根据权利要求2所述的方法，其特征在于，所述生成对抗网络算法包括生成器gesn和鉴别器d，其中所述生成器gesn由原有生成器和回声状态网络组成。

8.根据权利要求1所述的方法，其特征在于，所述贝叶斯优化模型为：

9.根据权利要求1所述的方法，其特征在于，还包括：对所述最优类别标签进行不确定性度量，确定所述最优标签的不确定度，其中所述不确定度量的公式为：

10.一种基于神经网络的声纹识别装置，其特征在于，包括：

技术总结本发明公开了一种基于神经网络的声纹识别方法及装置。其中，方法包括：采集待识别声纹信号并进行预处理；对预处理之后的待识别声纹信号进行特征提取，确定待识别声纹信号的声纹特征；将声纹特征输入至预先训练的神经网络分类器模型中，输出待识别声纹信号的所有可能的类别标签集合，其中分类器模型采用基于量子优化的自组织映射；根据预先构建的贝叶斯优化概率模型遍历可能的类别标签集合，获取待识别声纹信号的最优类别标签。技术研发人员：胡光强,许敏,张军受保护的技术使用者：华迪计算机集团有限公司技术研发日：技术公布日：2024/1/25