技术新讯 > 乐器声学设备的制造及制作,分析技术 > 一种用于深度学习说话人验证的分数域特征提取方法、设备及介质  >  正文

一种用于深度学习说话人验证的分数域特征提取方法、设备及介质

  • 国知局
  • 2025-01-10 13:21:12

本发明属于声纹识别,特别涉及一种用于深度学习说话人验证的分数域特征提取方法、设备及介质。

背景技术:

1、说话人验证属于声纹识别领域范畴,即给定两个音频,判定它们是否为同一个人所说。传统的说话人验证系统主要依赖于从语音信号中提取特征来表示说话人的身份信息。常用的特征提取方法包括滤波器组特征(fbank)和梅尔频率倒谱系数(mfcc)。fbank特征通过模拟人耳的听觉特性,使用一组滤波器来分析语音信号的频谱能量分布。mfcc则在fbank的基础上进行了进一步的处理,通过离散余弦变换(dct)来降低特征之间的相关性。这些方法虽然在实践中证明了其有效性,但仍然存在一些局限性,如难以充分捕捉语音信号中的细微差异和动态特征。

2、近年来,深度学习技术在语音处理领域取得了显著进展。卷积神经网络(cnn)和时延神经网络(tdnn)等模型被广泛应用于说话人验证任务中。cnn通过其局部连接和权值共享的特性,能够有效地学习语音信号的时频结构。tdnn则通过考虑输入特征的时间依赖关系,更好地捕捉语音的动态特征。这些深度学习模型在一定程度上提高了系统的性能,但仍然面临着如何更有效地提取和利用语音信号中的丰富信息的挑战。

技术实现思路

1、本发明的目的在于提供一种用于深度学习说话人验证的分数域特征提取方法,能够利用多阶次的分数阶窗函数提供比传统特征更灵活和全面的信息,在时频平面上提供更丰富的信号表示,将这种分数域特征与现有的深度学习模型结合有潜力揭示传统方法难以捕捉的语音信号微妙特征。

2、为达到上述目的,本发明采用的技术方案是:

3、一种用于深度学习说话人验证的分数域特征提取方法,包括以下步骤:

4、s1、对语音信号进行预加重增强高频部分;

5、具体的,选0.97的预加重系数进行如下预加重:

6、x(t)=x0(t)-0.97*x0(t-1)

7、其中为x0(t)原始语音信号,x(t)为预加重后语音信号;

8、s2、对选定窗函数分别使用提取自分数阶傅里叶变换的n个不同阶数的调制因子获取分数阶窗函数;

9、具体的,所述分数阶傅里叶变换表示为:

10、

11、核函数kp(t,u)可表示为

12、

13、其中时频面的旋转角度

14、对核函数公式做变换,并使用窗函数w(t)加窗,得到

15、

16、所述分数阶窗函数由原窗函数与调制因子结合得到,表示为:

17、

18、具体的,w(t)为汉明(hamming)窗表示为:

19、

20、窗函数长度n=400;

21、阶数分别为p1=1,p2=0.8,p3=0.6,p4=0.4,p5=0.2;

22、s3、对每一语音信号分别使用5个不同阶数的分数阶窗函数获取功率谱频谱图;

23、对所得功率谱频谱图,提取m维滤波器组(fbank)特征;

24、所述5个分数阶窗函数的阶数为p1=1,p2=0.8,p3=0.6,p4=0.4,p5=0.2;

25、具体的,提取功率谱频谱图步骤包括以下步骤:

26、分帧:将输入语音信号分割为有重叠的片段,片段长度与窗函数长度一致;

27、加窗:每帧语音信号分别使用5个不同阶次的分数阶窗函数加窗;

28、执行快速傅里叶变换,对每一帧进行快速傅里叶变换,将时域信号转换为频域;计算功率谱;取快速傅里叶变换结果的模的平方,然后除以信号长度进行归一化;

29、生成频谱图:将每一帧的频谱按时间顺序排列,形成二维的频谱图;

30、所述提取功率谱密度表示为:

31、

32、每一语音信号分别使用5个不同阶次的分数阶窗函数加窗;

33、s4、对功率谱频谱图,使用m维梅尔滤波器组并取对数提取滤波器组(fbank)特征;

34、具体的,每个功率谱频谱图提取一个m维fbank特征,即建立语音信号个数×n个m维fbank特征;

35、所述fbank特征表示为:

36、

37、其中hl[k]为80维梅尔滤波器组,l=1,2,...,80表示梅尔滤波器序号索引,m=1,2,...,t表示时间维的索引,r为帧移,∈为极小的正数,用于避免取对数时出现零或负值

38、根据每一语音信号的n个功率谱频谱图提取fbank特征,包括以下步骤:

39、对所述功率谱频谱图应用梅尔滤波器组hl[k];这些滤波器在梅尔频率尺度上均匀分布的,模拟了人耳对不同频率的敏感度;l=1,2,...,l表示梅尔滤波器序号索引;

40、s5、对n个fbank特征分别加权,并用softmax激活函数限制权重总和不变;

41、具体的,所述对n个fbank特征分别加权,并用softmax激活函数限制权重总和不变,包括以下步骤:

42、对每组特征进行零均值化处理;即对每组特征减去其均值,使得特征的均值为0,特征的分布中心对齐到零点;

43、初始化权重参数;为n个fbank特征分别初始化原始权重参数;

44、共初始化5个原始权重参数w1,w2,w3,w4,w5,初始值均设为1.0;

45、使用softmax激活函数限制权重:将原始权重参数堆叠成一个向量后,使用softmax函数对该向量进行归一化,并乘以原始权重数量,确保权重总和恒定;乘以5以确保权重总和恒定为5;所述softmax函数表示为:

46、

47、s6、对n个加权fbank特征,按阶次从高到低在时间维上串联拼接为一个多窗分数阶fbank特征,使用该特征输入深度学习模型进行训练;

48、具体的,所述对n个加权fbank特征,按阶次从高到低在时间维上串联拼接为一个多窗分数阶fbank特征,表示为:

49、c[l,m]=5·softmax[w1·f1[l,m];w2·f2[l,m];w3·f3[l,m];w4·f4[l,m];w5·f5[l,m]]

50、具体的,使用该多窗分数阶fbank特征输入深度学习模型进行训练包括以下步骤:

51、选定模型:选定tdnn模型和ecapa-tdnn模型分别搭配传统fbank特征和所述多窗分数阶fbank特征进行训练;

52、设定训练超参数:输入语音信号片段长度为200ms,最大训练轮数(epoch)为max_epoch=100,批次大小为batch_size=64;采用adam优化器,权重衰减为weight_decay=1e-4,学习率衰减策略为预热余弦退火;

53、选定训练集数据:选取voxceleb1语音数据集作为训练集;

54、输入特征进行训练:设置一个布尔型标志freeze_weights,初始值为false,用于控制权重是否可更新,并初始化一个固定权重向量fixed_weights:根据当前训练epoch决定是否更新权重,如果当前轮次小于或等于预设阈值10,则允许更新权重,否则,冻结权重更新:将计算得到的权重值更新到fixed_weights中,当权重被冻结时,直接使用fixed_weights作为当前权重:在训练初期允许权重自由调整,而在训练后期固定权重。

55、本发明利用n个不同阶数的分数阶窗函数引入分数阶信息,能够提取多角度的时频域特征,并利用可学习参数权重自适应的确定不同段特征的重要性,能够便捷的与更有效的进行说话人验证。

本文地址:https://www.jishuxx.com/zhuanli/20250110/352592.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。