一种语音评测方法、装置、电子设备及存储介质与流程
- 国知局
- 2024-06-21 11:28:32
本申请涉及语音评测,尤其涉及一种语音评测方法、装置、电子设备及存储介质。
背景技术:
1、随着语音评测技术的快速发展和广泛使用,人们对语音进行评测逐渐成为计算机技术应用的主流。现有的语音评测模型,是依赖于音素识别的结果与参考音素序列进行对齐操作,以对错误的音素进行检测和纠正,但由于在训练样本中音素出错的情况一般较低,现有的语音评测模型在训练过程总是会偏向于参考音素序列而忽略音频本身提供的信息,导致语音评测模型出现过拟合问题。现有的语音评测过程严重依赖对齐操作的结果且语音评测的精度较低,因此更希望能够防止语音评测模型出现过拟合问题并提高语音评测的精度。
2、因此,如何智能地对语音进行评测,以防止语音评测模型出现过拟合问题并提高语音评测的精度是一直追求的目标。
技术实现思路
1、本申请实施例提供了一种语音评测方法、装置、电子设备及存储介质。
2、根据本申请的第一方面,提供了一种语音评测方法,该方法包括:获取第一语音数据集,所述第一语音数据集包括第一音素序列和第一音频;基于所述第一音素序列,确定第二语音数据集,所述第二语音数据集包括第二音素序列和第二音频;基于所述第一语音数据集和所述第二语音数据集,确定样本数据集;基于所述样本数据集,训练预设的语音评测模型,得到第一评测模型,所述语音评测模型至少包括发音评测网络和音素评测网络;将待测语音样本输入所述第一评测模型,并将所述第一评测模型的输出作为语音评测结果。
3、根据本申请一实施方式,所述基于所述第一音素序列,确定第二语音数据集包括:确定所述第一音素序列的修改位置;基于所述修改位置,对所述第一音素序列中的音素进行修改,得到所述第二音素序列;获取预设的语音模板;基于所述预设的语音模板,对所述第二音素序列进行语音合成,得到所述第二音频。
4、根据本申请一实施方式,所述基于所述第一语音数据集和所述第二语音数据集,确定样本数据集,包括:将所述第一音素序列与所述第一音频组合,得到第一样本对;将所述第一音素序列与所述第二音频组合,得到第二样本对;将所述第二音素序列与所述第一音频组合,得到第三样本对;将所述第二音素序列与所述第二音频组合,得到第四样本对;构建所述样本数据集,并将所述第一样本对、第二样本对、第三样本对和第四样本对存储至所述样本数据集。
5、根据本申请一实施方式,所述基于所述样本数据集,训练预设的语音评测模型,得到第一评测模型,包括:将所述样本数据集中的任一样本对确定为训练样本对;基于所述音素评测网络的声学编码器,对所述训练样本对的音频进行特征提取,得到训练音频特征;基于所述发音评测网络的语言编码器,对所述训练样本对的音素序列进行特征提取,得到训练音素特征;基于所述训练音素特征和所述训练音频特征,对所述预设的语音评测模型进行联合训练,得到所述第一评测模型。
6、根据本申请一实施方式,所述基于所述训练音素特征和所述训练音频特征,对所述预设的语音评测模型进行联合训练,得到所述第一评测模型,包括:基于所述音素评测网络的音素解码器,对所述训练音素特征和所述训练音频特征进行第一特征识别,得到音素识别结果;所述音素解码器包括注意力层;基于所述发音评测网络的音频解码器,对所述训练音素特征和所述训练音频特征进行第二特征识别,得到发音评测结果;所述音频解码器包括所述注意力层;基于所述音素识别结果,确定所述音素评测网络对应的第一损失函数;基于所述发音评测结果,确定所述发音评测网络对应的第二损失函数;响应于所述第一损失函数和所述第二损失函数收敛,将所述语音评测模型确定为所述第一评测模型。
7、根据本申请一实施方式,所述基于所述音素评测网络的音素解码器,对所述训练音素特征和所述训练音频特征进行第一特征识别,得到音素识别结果包括:基于所述音素解码器和所述训练音频特征,确定所述训练音频特征对应的识别音素特征;基于所述识别音素特征和所述训练音素特征,确定所述音素识别结果。
8、根据本申请一实施方式,所述基于所述发音评测网络的音频解码器,对所述训练音素特征和所述训练音频特征进行第二特征识别,得到发音评测结果包括:基于所述音频解码器和所述训练音素特征,确定所述训练音素特征对应的识别音频特征;基于所述识别音频特征和所述训练音频特征,确定所述发音评测结果。
9、根据本申请的第二方面,提供了一种语音评测装置,该语音评测装置包括:获取模块,用于获取第一语音数据集,所述第一语音数据集包括第一音素序列和第一音频;确定模块,用于基于所述第一音素序列,确定第二语音数据集,所述第二语音数据集包括第二音素序列和第二音频;合成模块,用于基于所述第一语音数据集和所述第二语音数据集,确定样本数据集;训练模块,用于基于所述样本数据集,训练预设的语音评测模型,得到第一评测模型,所述语音评测模型至少包括发音评测网络和音素评测网络;预测模块,用于将待测语音样本输入所述第一评测模型,并将所述第一评测模型的输出作为语音评测结果。
10、根据本申请的第三方面,提供了一种电子设备,包括:
11、至少一个处理器;以及
12、与所述至少一个处理器通信连接的存储器;其中,
13、所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本申请所述的方法。
14、根据本申请的第四方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行本申请所述的方法。
15、本申请实施例的方法,获取第一语音数据集,所述第一语音数据集包括第一音素序列和第一音频;基于所述第一音素序列,确定第二语音数据集,所述第二语音数据集包括第二音素序列和第二音频;基于所述第一语音数据集和所述第二语音数据集,确定样本数据集;基于所述样本数据集,训练预设的语音评测模型,得到第一评测模型,所述语音评测模型至少包括发音评测网络和音素评测网络;将待测语音样本输入所述第一评测模型,并将所述第一评测模型的输出作为语音评测结果。如此,能够智能地对语音进行评测,防止语音评测模型出现过拟合问题并提高了语音评测的精度。
16、需要理解的是,本申请的教导并不需要实现上面所述的全部有益效果,而是特定的技术方案可以实现特定的技术效果,并且本申请的其他实施方式还能够实现上面未提到的有益效果。
技术特征:1.一种语音评测方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述基于所述第一音素序列,确定第二语音数据集包括:
3.根据权利要求1所述的方法,其特征在于,所述基于所述第一语音数据集和所述第二语音数据集,确定样本数据集,包括:
4.根据权利要求1所述的方法,其特征在于,所述基于所述样本数据集,训练预设的语音评测模型,得到第一评测模型,包括:
5.根据权利要求4所述的方法,其特征在于,所述基于所述训练音素特征和所述训练音频特征,对所述预设的语音评测模型进行联合训练,得到所述第一评测模型,包括:
6.根据权利要求5所述的方法,其特征在于,所述基于所述音素评测网络的音素解码器,对所述训练音素特征和所述训练音频特征进行第一特征识别,得到音素识别结果包括:
7.根据权利要求5所述的方法,其特征在于,所述基于所述发音评测网络的音频解码器,对所述训练音素特征和所述训练音频特征进行第二特征识别,得到发音评测结果包括:
8.一种语音评测装置,其特征在于,所述语音评测装置包括:
9.一种电子设备,其特征在于,包括:
10.一种存储有计算机指令的非瞬时计算机可读存储介质,其特征在于,所述计算机指令用于使计算机执行根据权利要求1-7中任一项所述的方法。
技术总结本申请提供了一种语音评测方法、装置、电子设备及存储介质;所述方法包括:获取第一语音数据集,所述第一语音数据集包括第一音素序列和第一音频;基于所述第一音素序列,确定第二语音数据集,所述第二语音数据集包括第二音素序列和第二音频;基于所述第一语音数据集和所述第二语音数据集,确定样本数据集;基于所述样本数据集,训练预设的语音评测模型,得到第一评测模型,所述语音评测模型至少包括发音评测网络和音素评测网络;将待测语音样本输入所述第一评测模型,并将所述第一评测模型的输出作为语音评测结果。如此,能够智能地对语音进行评测,防止语音评测模型出现过拟合问题并提高了语音评测的精度。技术研发人员:戚自力,胡新辉,徐欣康受保护的技术使用者:浙江同花顺智能科技有限公司技术研发日:技术公布日:2024/2/19本文地址:https://www.jishuxx.com/zhuanli/20240618/21717.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。
下一篇
返回列表