语音转换方法及相关方法、设备和存储介质与流程
- 国知局
- 2024-06-21 10:41:28
本申请涉及音频处理,特别是涉及一种语音转换方法及相关方法、设备和存储介质。
背景技术:
1、随着人工智能技术的飞速发展,利用人工智能实现语音识别已经受到越来越多的关注。现有基于人工智能技术的语音识别技术也已在一定程度上取得较优的识别性能。
2、但是,现有的语音识别技术对于仅存在细微区别的语音仍然很难区分。例如,可能会出现将“低”识别为“第一”,将“声音小一点”识别为“声音响一点”等类似串扰。虽然,通过专门收集一定数量诸如此类的语音数据,可以对语音识别模型进行微调。但是,此类数据实际上较为稀缺,造成收集此类语音数据较为困难,更别提收集一定数量。在此情形下,自动获取源语音的相似语音,具有极其重要意义。
技术实现思路
1、本申请主要解决的技术问题是提供一种语音转换方法及相关方法、设备和存储介质,能够自动获取源语音的相似语音。
2、为了解决上述技术问题,本申请第一方面提供了一种语音转换方法,包括:提取源语音的第一语义特征;响应于表征源语音中源字词转换为目标字词的转换指令,基于第一语义特征,预测得到源语音中源字词替换为目标字词之后的第二语义特征;基于第一语义特征和第二语义特征,重建得到至少一个生成语音;其中,不同生成语音的发音变动程度不同,且发音变动程度表征在发音维度由源字词变为目标字词的程度。
3、为了解决上述技术问题,本申请第二方面提供了一种语音识别模型的检测方法,包括:获取源语音中源字词替换为目标字词之后的多个生成语音;其中,多个生成语音由上述第一方面中的语音转换方法得到;获取语音识别模型分别对各个生成语音的识别结果;基于各个生成语音的识别结果,得到语音识别模型关于识别性能的检测结果。
4、为了解决上述技术问题,本申请第三方面提供了一种语音识别模型的训练方法,包括:获取源语音中源字词替换为目标字词之后的多个生成语音,并获取源语音的原始文本;其中,多个生成语音由上述第一方面中的语音转换方法得到;选择至少一个生成语音标注第一文本,作为第一训练样本,并选择至少一个生成语音标注第二文本,作为第二训练样本;其中,第一文本为原始文本,第二文本为原始文本中源字词替换为目标字词之后的文本;基于第一训练样本和第二训练样本,训练语音识别模型。
5、为了解决上述技术问题,本申请第四方面提供了一种听觉检测方法,包括:获取源语音中源字词替换为目标字词之后的多个生成语音;其中,多个生成语音由上述第一方面中的语音转换方法得到;获取目标对象分别对各个生成语音的识别结果;基于各个生成语音的识别结果,得到目标对象关于听觉能力的检测结果。
6、为了解决上述技术问题,本申请第五方面提供了一种发音引导方法,包括:获取目标对象阅读原始文本的源语音;响应于原始文本中目标字词在源语音中被识别为异常字词,选择异常字词作为源字词,并获取源语音中源字词替换为目标字词之后的多个生成语音;其中,多个生成语音由上述第一方面中的语音转换方法得到;播放并引导目标对象跟读各个生成语音,直至目标对象阅读原始文本的源语音识别无误为止。
7、为了解决上述技术问题,本申请第六方面提供了一种电子设备,包括相互耦接的存储器和处理器,存储器中存储有程序指令,处理器用于执行程序指令以实现上述第一方面中的语音转换方法。
8、为了解决上述技术问题,本申请第七方面提供了一种计算机可读存储介质,存储有能够被处理器运行的程序指令,程序指令用于实现上述第一方面的语音转换方法。
9、上述方案,提取源语音的第一语义特征,响应于表征源语音中源字词转换为目标字词的转换指令,基于第一语义特征,预测得到源语音中源字词替换为目标字词之后的第二语义特征,再基于第一语义特征和第二语义特征,重建得到至少一个生成语音,且不同生成语音的发音变动程度不同,发音变动程度表征在发音维度由源字词变为目标字词的程度,故仅需转换指令触发即可在源语音基础上通过语音转换而自动得到与源语音在源字词上存在发音区别的生成语音,且发音区别具体为由源字词变为转换指令中所指定目标字词的发音变动,从而无需专门收集,进而能够自动获取源语音的相似语音。
技术特征:1.一种语音转换方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述基于所述第一语义特征和所述第二语义特征,重建得到至少一个生成语音,包括:
3.根据权利要求1所述的方法,其特征在于,所述基于所述第一语义特征,预测得到所述源语音中所述源字词替换为所述目标字词之后的第二语义特征,包括:
4.根据权利要求3所述的方法,其特征在于,所述基于所述对齐结果从所述第一语义特征,提取与所述第一语义特征维度相同的第一子特征和第二子特征,包括:
5.根据权利要求3所述的方法,其特征在于,所述基于所述第一子特征、所述第二子特征和由所述转换指令所提取到的第三语义特征,预测得到所述第二语义特征,包括:
6.根据权利要求1所述的方法,其特征在于,在所述基于所述第一语义特征和所述第二语义特征,重建得到至少一个生成语音之前,所述方法还包括:
7.根据权利要求1至6任一项所述的方法,其特征在于,所述第二语义特征由特征转换网络预测得到,且所述特征转换网络的训练步骤包括:
8.根据权利要求1至6任一项所述的方法,其特征在于,所述生成语音由语音生成网络重建得到,且所述语音生成网络联合语音鉴别网络基于生成对抗进行训练,所述语音生成网络的训练步骤包括:
9.根据权利要求8所述的方法,其特征在于,所述样本生成语音由所述语音生成网络对样本加权语义特征进行重建得到,所述样本加权语义特征由权重组对所述第一样本语义特征和所述第二样本语义特征加权得到,所述至少基于所述至少一个样本语音分别与所述样本源语音之间的差异,调整所述语音生成网络的网络参数之前,所述方法还包括:
10.一种语音识别模型的检测方法,其特征在于,包括:
11.一种语音识别模型的训练方法,其特征在于,包括:
12.一种听觉检测方法,其特征在于,包括:
13.一种发音引导方法,其特征在于,包括:
14.一种电子设备,其特征在于,包括相互耦接的存储器和处理器,所述存储器中存储有程序指令,所述处理器用于执行所述程序指令以实现权利要求1至13任一项所述的方法。
15.一种计算机可读存储介质,其特征在于,存储有能够被处理器运行的程序指令,所述程序指令用于实现权利要求1至13任一项所述的方法。
技术总结本申请公开了一种语音转换方法及相关方法、设备和存储介质,其中,语音转换方法包括:提取源语音的第一语义特征;响应于表征源语音中源字词转换为目标字词的转换指令,基于第一语义特征,预测得到源语音中源字词替换为目标字词之后的第二语义特征;基于第一语义特征和第二语义特征,重建得到至少一个生成语音;其中,不同生成语音的发音变动程度不同,且发音变动程度表征在发音维度由源字词变为目标字词的程度。上述方案,能够自动获取源语音的相似语音。技术研发人员:张国洋,吴重亮,李永超受保护的技术使用者:科大讯飞股份有限公司技术研发日:技术公布日:2024/1/25本文地址:https://www.jishuxx.com/zhuanli/20240618/21231.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。