基于数据集难度的说话人嵌入层模型训练方法、介质和设备与流程
- 国知局
- 2024-06-21 10:41:29
本发明涉及到智能语音识别,具体涉及到一种基于数据集难度的说话人嵌入层模型训练方法、介质和设备。
背景技术:
1、说话人识别是一种生物识别技术,与指纹识别、面部识别等方法相比,具有非接触的特性,在实际应用中有独特的优势。
2、平凡发音是指在口语对话中时常出现的、受说话人主观控制较弱的发音,它们基本不含有任何语义内容,但却蕴含着丰富的说话人信息,比如人们的咳嗽声、笑声、打电话常用的“喂”声、表示肯定的“嗯”声,以及清嗓子的声音等,适合用于特定场景下的说话人识别任务,比如在司法鉴定时,无法获得完整语句的情况等。尽管平凡发音能够体现一些说话人声道的物理特性,但由于其发音时间短,以及语音内容少等特性,因此使用普通语音构建的说话人识别系统,在实际部署时输入平凡发音会导致识别率降低。
3、常用的解决方法为同时使用语音和平凡发音数据集训练说话人识别模型,但由于语音数据的长度及数量远多于平凡发音,因此说话人识别模型将偏向于语音,对平凡发音的识别效果依然有限。
技术实现思路
1、本发明的目的是针对现有技术存在的问题,提供一种基于数据集难度的说话人嵌入层模型训练方法、介质和设备,提高平凡发音的识别效果和准确率。
2、为实现上述目的,本发明采用的技术方案是:
3、一种基于数据集难度的说话人嵌入层模型训练方法,包括:
4、利用基于数据集难度的损失函数进行训练,获得对语音和平凡发音识别准确率高的训练后说话人嵌入层模型,也就是完成训练的说话人嵌入层模型;
5、采集说话人的注册音频并进行频谱特征提取,所述注册音频的频谱通过所述训练后说话人嵌入层模型,获得注册说话人嵌入层;
6、获得实时音频数据,确认其是否为注册说话人的音频。
7、本说话人嵌入层模型训练方法是利用基于数据集难度的损失函数进行训练的,每次训练后均能够更新语音和平凡发音数据集参与训练的权重,有利于提升说话人嵌入层模型在语音和平凡发音数据集上的准确率,这样在说话人识别系统中,利用完成训练的说话人嵌入层模型,实际部署时输入平凡发音识别率会增高,可以在一些特殊场合更好的获得说话人完整语句的情况。
8、完成训练的说话人嵌入层模型获取方式如下:
9、准备至少两个训练数据集,所述训练数据集中的每项数据均包括音频频谱和说话人标签,且多个所述训练数据集的说话人一致,至少一个训练数据集只包含语音频谱,至少一个训练数据集只包含平凡发音频谱;
10、构建说话人识别网络,包括说话人嵌入层模型与说话人分类层;
11、前向传播计算基于数据集难度的损失函数,反向传播更新说话人识别网络参数,直至(说话人嵌入层)模型收敛,获得完成训练的所述训练后说话人嵌入层模型。
12、该方式通过准备多个训练数据集来训练任务,每个训练任务包括至少两个说话人,每个说话人包括至少两句音频,每句音频分别建立说话人标签和对应的音频频谱特征,并构建说话人识别网络,在向前传播和向后传播过程中持续更新说话人识别网络参数,对于模型而言,新的输入对应的输出结果与真实标签的误差逐步稳定,让模型训练充分且稳定。
13、在一些实施方式中,说话人数目应超过1000人,说话人性别比例均衡,且无静音段音频。在训练数据集中对说话人数目和性别进行限定,能够避免数据不均衡,减少对稳定性的影响,音频无静音段的设置能够避免静音对训练模型和识别带来的不利影响。
14、在一些实施方式中,所述说话人嵌入层模型选为resnet34,所述说话人分类层使用全连接层实现,它的输入层节点数与说话人嵌入层模型的输出节点数保持一致,输出层为训练集的说话人数。
15、resnet34的输入层是一个普通的卷积层,它包括64个卷积核,每个卷积核的大小为7×7,步长为2,填充为3,这有利于提取一些低级特征。每个残差块由两个卷积层和一个跨层连接组成,其中,第一个卷积层的卷积核大小为3×3,步长为1,填充为1;第二个卷积层的卷积核大小也为3×3,步长为1,填充为1;跨层连接的作用是将前面的层的输出直接加到后面的层的输入中,这样就能够保留前面层的信息,并将其传递到后面的层。在全局平均池化层之后,加入了一个全连接层。resnet34后跟说话人分类层,该说话人分类层如上描述。
16、进一步的,所述损失函数如下:
17、
18、式中,
19、
20、
21、其中,wd是根据数据集难度获得的权重,初始值为1,每次训练一轮后,计算数据集d每个批次的平均准确率acc(d),更新权重wd,数据集d的准确率越高,后续训练的权重wd越小,在每轮训练后更新语音和平凡发音数据集参与训练的权重,保证模型向识别准确率低的数据集着重更新;n为每个批次的样本数;lce为交叉熵损失函数,对批次中数据集d的第i个样本,其真实标签为c;为对批次中数据集d的第i个样本的频谱经过说话人识别网络后,再经过softmax层获得的对真实标签c的后验概率;lkl为kl散度(kullback-leiblerdivergence,相对熵),权重为α,可选为0.01;对除去说话人c的其他说话人类别j,期望其后验概率稳定在相当于为损失函数l引入正则化项,在训练过程中引导模型输出的后验概率在非目标说话人上均匀分布,能够提高模型的稳健性。
22、进一步的,获得所述实时音频数据,并进行频谱特征提取;
23、频谱特征输入音频活动检测器,检测音频中是否有语音或平凡发音;
24、当实时音频不是语音或平凡发音时,系统将继续获取实时音频并提取频谱特征;当实时音频是语音或平凡发音时,将频谱特征输入到所述训练后说话人嵌入层模型,获得实时音频的说话人嵌入层;
25、所述实时音频的说话人嵌入层与注册说话人的说话人嵌入层进行余弦相似度计算,判断是否为同一说话人。基于余弦相似度确定所述实时音频的说话人与所述注册人的说话人匹配情况,判断是否要再次执行识别步骤。
26、进一步的,检测音频中是否有语音或平凡发音的检测算法选为基于短时能量和短时平均过零率的双门限端点检测方法。
27、进一步的,余弦相似度超过设定阈值时,认为实时音频对应说话人与注册说话人是同一说话人,否则不是,判断结束后从获得所述实时音频数据并进行频谱特征提取重新执行判断步骤。
28、本发明提供的一种介质,为计算机可读存储介质,所述计算机可读存储介质包括存储的程序,在所述程序被处理器执行时实现如上所述的基于数据集难度的说话人嵌入层模型训练方法。
29、本发明提供的一种设备,为电子设备,所述电子设备包括至少一个处理器、以及与所述处理器连接的至少一个存储器;其中,所述处理器用于调用所述存储器中的程序指令,执行如上所述的基于数据集难度的说话人嵌入层模型训练方法。
30、与现有的说话人识别系统技术相比,本发明的有益效果是:使用基于数据集难度的损失函数获得的说话人识别系统可同时对普通语音和平凡发音准确率高。这得益于使用基于数据集难度的损失函数更新说话人识别网络,主要是说话人嵌入层模型的参数,在每轮训练后更新语音和平凡发音数据集参与训练的权重,保证模型向识别准确率低的数据集着重更新,提高模型在语音和平凡发音数据集上的准确率;且增加kl散度作为正则项,在训练过程中引导模型输出的后验概率在非目标说话人上均匀分布,提高模型的稳健。
本文地址:https://www.jishuxx.com/zhuanli/20240618/21234.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。
下一篇
返回列表