语音和声纹识别模型训练方法、语音处理方法及相关装置与流程
- 国知局
- 2024-06-21 11:54:25
本申请涉及图像处理领域,特别是涉及一种语音和声纹识别模型训练方法、语音处理方法及相关装置。
背景技术:
1、目前,语音模型的训练大多是专注于帧级语义特征的学习,或者,专注于句子级声纹特征的学习,都是单个模型的训练,无法实现两者结合。
技术实现思路
1、本申请主要解决的技术问题是提供一种语音和声纹识别模型训练方法、语音处理方法及相关装置,能够实现语音识别与声纹识别的解耦。
2、为解决上述技术问题,本申请采用的一个技术方案是:提供语音和声纹识别模型的训练方法,该方法包括:利用无监督样本语音对语音识别分支中的语音编码器和声纹识别分支中的声纹编码器进行自监督预训练,其中,在预训练的过程中,语音编码器是结合声纹编码器提取的声纹特征进行编码的,声纹编码器是结合语音编码器提取的语义特征进行编码的;利用经预训练的语音编码器构建语音识别模型,以及利用经预训练的声纹编码器构建声纹识别模型;利用第一有监督样本语音对语音识别模型进行训练,以及利用第二有监督样本语音对声纹识别模型进行训练。
3、为解决上述技术问题,本申请采用的另一个技术方案是:提供一种语音处理方法,该方法包括:获取待处理语音;利用语音处理模型对待处理语音进行处理,得到处理结果,其中,语音处理模型为语音识别模型或者声纹识别模型,语音识别模型或者声纹识别模型是利用上述的方法训练得到的。
4、为解决上述技术问题,本申请采用的另一个技术方案是:提供一种语音和声纹识别模型的训练装置,该装置包括第一训练模块、构建模块和第二训练模块;第一训练模块用于利用无监督样本语音对语音识别分支中的语音编码器和声纹识别分支中的声纹编码器进行自监督预训练,其中,在预训练的过程中,语音编码器是结合声纹编码器提取的声纹特征进行编码的,声纹编码器是结合语音编码器提取的语义特征进行编码的;构建模块用于利用经预训练的语音编码器构建语音识别模型,以及利用经预训练的声纹编码器构建声纹识别模型;第二训练模块用于利用第一有监督样本语音对语音识别模型进行训练,以及利用第二有监督样本语音对声纹识别模型进行训练。
5、为解决上述技术问题,本申请采用的另一个技术方案是:提供一种语音处理装置,该装置包括获取模块和处理模块;获取模块用于获取待处理语音;处理模块用于利用语音处理模型对待处理语音进行处理,得到处理结果,其中,语音处理模型为语音识别模型或者声纹识别模型,语音识别模型或者声纹识别模型是利用上述方法训练得到的。
6、为解决上述技术问题,本申请采用的另一个技术方案是:提供一种电子设备,该电子设备包括存储器和处理器,存储器存储有程序指令,处理器用于执行程序指令以实现上述的方法。
7、为解决上述技术问题,本申请采用的另一个技术方案是:提供一种计算机可读存储介质,该程序指令能够被执行以实现上述的方法。
8、上述技术方案,语音识别分支中的语音编码器和声纹识别分支中的声纹编码器进行自监督预训练后,语音识别分支可以提取到与说话人无关的语义特征,而不会提取到与说话人相关的声纹特征,声纹识别分支可以提取到与说话人有关的声纹特征,而不会提取到与说话人无关的语义特征;一方面,实现了语义特征和声纹特征的解耦,另一方面,语义识别分支提取到了能够助于语音识别的与说话人无关的语义特征,能够提高语音识别的准确性,而声纹识别分支提取到了能够助于声纹识别的与说话人有关的声纹特征,能够提高声纹识别的准确性。
9、进一步地,经预训练的语音编码器构建的语音识别模型,能够准确提取出与说话人无关的语义特征,后续基于语义特征能够准确进行语音识别,而经预训练的声纹编码器构建的声纹识别模型,能够准确提取出与说话人相关的声纹特征,后续基于声纹特征能够准确地进行声纹识别。
技术特征:1.一种语音和声纹识别模型的训练方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,利用无监督样本语音对语音识别分支中的语音编码器进行自监督预训练,包括:
3.根据权利要求2所述的方法,其特征在于,所述语音编码器包括语义特征提取模块,所述语义特征提取模块包含顺序连接的若干语义特征提取块,至少一个所述语义特征提取块作为第一目标提取块,各所述第一目标提取块通过一语义融合单元连接下一所述语义特征提取块;
4.根据权利要求3所述的方法,其特征在于,所述声纹识别分支包括教师分支和学生分支,所述教师分支包括教师声纹编码器,所述学生分支包括学生声纹编码器,所述目标语音片段划分为第一语音子片段和第二语音子片段,所述相应声纹特征为相应教师声纹特征和相应学生声纹特征的融合结果,所述相应教师声纹特征为所述教师声纹编码器的相应声纹特征提取块针对第一语音子片段输出的声纹特征,所述相应学生声纹特征为所述学生声纹编码器的相应声纹特征提取块针对第二语音子片段输出的声纹特征;
5.根据权利要求3所述的方法,其特征在于,所述语音编码器还包括第一感知模块,首个所述语义特征提取块的输入特征是所述输入片段特征;所述利用所述语音编码器基于所述初始片段特征和所述声纹编码器针对所述目标语音片段的声纹特征进行编码,得到目标语义特征,还包括:
6.根据权利要求2所述的方法,其特征在于,所述目标语音片段的伪标签是对所述目标语音片段进行特征聚类得到的参考类别,所述预测结果为基于所述目标语义特征预测得到的预测类别。
7.根据权利要求6所述的方法,其特征在于,所述初始片段特征是由所述目标语音片段中的各语音帧的第一帧特征组成;在所述利用所述预测结果和所述目标语音片段的伪标签之间的差异,调整所述语音识别分支的参数之前,还包括:
8.根据权利要求1所述的方法,其特征在于,所述声纹识别分支包括教师分支和学生分支,所述教师分支包括教师声纹编码器,所述学生分支包括学生声纹编码器,所述目标语音片段划分为第一语音子片段和第二语音子片段;
9.根据权利要求8所述的方法,其特征在于,所述教师声纹编码器和学生声纹编码器均包括声纹特征提取模块,所述声纹特征提取模块包含顺序连接的若干声纹特征提取块,至少一个所述声纹特征提取块作为第二目标提取块,各所述第二目标提取块通过一声纹融合单元连接下一所述声纹特征提取块;
10.根据权利要求9所述的方法,其特征在于,所述对所述第二当前提取块对应的教师声纹特征以及相应语义特征进行融合,得到所述第二当前提取块的融合特征,包括:
11.根据权利要求9所述的方法,其特征在于,所述声纹特征提取模块的网络视野在预设视野范围内;
12.根据权利要求8所述的方法,其特征在于,所述利用所述目标教师声纹特征和所述目标学生声纹特征,调整所述声纹识别分支的参数,包括:
13.根据权利要求12所述的方法,其特征在于,在所述利用所述目标学生声纹特征与预设数量个负样本声纹特征之间的特征距离,得到第二损失之前,还包括:
14.一种语音处理方法,其特征在于,包括:
15.一种语音和声纹识别模型的训练装置,其特征在于,所述装置包括:
16.一种语音处理装置,其特征在于,所述装置包括:
17.一种电子设备,其特征在于,所述电子设备包括存储器和处理器,所述存储器存储有程序指令,所述处理器用于执行所述程序指令以实现如权利要求1-14任一项所述的方法。
18.一种计算机可读存储介质,所述计算机可读存储介质用于执行程序指令,所述程序指令能够被执行以实现如权利要求1-14任一项所述的方法。
技术总结本申请公开了一种语音和声纹识别模型训练方法、语音处理方法及相关装置,该方法包括:利用无监督样本语音对语音识别分支中的语音编码器和声纹识别分支中的声纹编码器进行自监督预训练;利用经预训练的语音编码器构建语音识别模型,以及利用经预训练的声纹编码器构建声纹识别模型;利用第一有监督样本语音对语音识别模型进行训练,以及利用第二有监督样本语音对声纹识别模型进行训练。通过上述方式,能够实现语音识别与声纹识别的解耦。技术研发人员:吴航,潘嘉,高建清,刘聪受保护的技术使用者:科大讯飞股份有限公司技术研发日:技术公布日:2024/5/29本文地址:https://www.jishuxx.com/zhuanli/20240618/24395.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。
下一篇
返回列表