技术新讯 > 乐器声学设备的制造及制作,分析技术 > 语音转换、模型训练方法、装置、设备、存储介质及程序与流程  >  正文

语音转换、模型训练方法、装置、设备、存储介质及程序与流程

  • 国知局
  • 2024-06-21 10:39:12

本公开实施例涉及人工智能,尤其涉及一种语音转换、模型训练方法、装置、设备、存储介质及程序。

背景技术:

1、语音转换是人工智能的一个重要方面,主要研究如何在不改变语音表达的语义内容的情况下,对语音的音色进行转换,即,将语音的当前说话人的音色转换为其他人的音色。

2、通常,可以采用如下方式进行语音转换:从原始语音中提取出语义特征,将该语义特征和目标说话人的音色特征进行融合,得到目标语音。

3、然而,实际应用中发现,经过上述转换得到的目标语音所表达语义信息的准确度有所降低,可能无法准确还原原始语音所表达的语义信息。

技术实现思路

1、本公开实施例提供一种语音转换、模型训练方法、装置、设备、存储介质及程序,用以提高转换后的目标语音所表达语义信息的准确度。

2、第一方面,本公开实施例提供一种语音转换方法,包括:

3、获取具有第一音色的原始语音、以及待转换的第二音色的标识;

4、对所述原始语音进行处理,得到所述原始语音对应的语义特征和至少两个层级的风格特征;所述风格特征用于指示所述原始语音对应的表达风格;

5、根据所述第二音色的标识,确定所述第二音色对应的音色特征;

6、根据所述语义特征、所述至少两个层级的风格特征和所述音色特征,生成具有所述第二音色的目标语音。

7、第二方面,本公开实施例提供一种语音转换模型的训练方法,包括:

8、获取多组第一训练样本,每组第一训练样本包括:具有第一样本音色的第一样本原始语音、第二样本音色的标识和具有所述第二样本音色的第一样本目标语音,所述第一样本原始语音和所述第一样本目标语音表达的语义相同;

9、通过待训练的语音转换模型对所述第一样本原始语音进行处理,得到所述第一样本原始语音对应的第一语义特征和至少两个层级的第一预测风格特征;

10、通过所述语音转换模型根据所述第二样本音色的标识确定所述第二样本音色对应的音色特征;

11、通过所述语音转换模型根据所述第一语义特征、所述至少两个层级的第一预测风格特征和所述第二样本音色对应的音色特征,生成第一预测目标语音;

12、根据所述第一预测目标语音、所述第一样本原始语音、所述第一样本目标语音和所述第二样本音色的标识,对所述语音转换模型进行训练;其中,所述训练的目标包括:最小化所述第一预测目标语音与所述第一样本原始语音之间的风格差异、最小化所述第一预测目标语音与所述第一样本目标语音之间的语义差异、最小化所述第一预测目标语音的音色与所述第二样本音色之间的音色差异。

13、第三方面,本公开实施例提供一种语音转换装置,包括:

14、获取模块,用于获取具有第一音色的原始语音、以及待转换的第二音色的标识;

15、特征提取模块,用于对所述原始语音进行处理,得到所述原始语音对应的语义特征和至少两个层级的风格特征;所述风格特征用于指示所述原始语音对应的表达风格;

16、确定模块,用于根据所述第二音色的标识,确定所述第二音色对应的音色特征;

17、生成模块,用于根据所述语义特征、所述至少两个层级的风格特征和所述音色特征,生成具有所述第二音色的目标语音。

18、第四方面,本公开实施例提供一种语音转换模型的训练装置,包括:

19、获取模块,用于获取多组第一训练样本,每组第一训练样本包括:具有第一样本音色的第一样本原始语音、第二样本音色的标识和具有所述第二样本音色的第一样本目标语音,所述第一样本原始语音和所述第一样本目标语音表达的语义相同;

20、特征提取模块,用于通过待训练的语音转换模型对所述第一样本原始语音进行处理,得到所述第一样本原始语音对应的第一语义特征和至少两个层级的第一预测风格特征;

21、确定模块,用于通过所述语音转换模型根据所述第二样本音色的标识确定所述第二样本音色对应的音色特征;

22、生成模块,用于通过所述语音转换模型根据所述第一语义特征、所述至少两个层级的第一预测风格特征和所述第二样本音色对应的音色特征,生成第一预测目标语音;

23、训练模块,用于根据所述第一预测目标语音、所述第一样本原始语音、所述第一样本目标语音和所述第二样本音色的标识,对所述语音转换模型进行训练;其中,所述训练的目标包括:最小化所述第一预测目标语音与所述第一样本原始语音之间的风格差异、最小化所述第一预测目标语音与所述第一样本目标语音之间的语义差异、最小化所述第一预测目标语音的音色与所述第二样本音色之间的音色差异。

24、第五方面,本公开实施例提供一种电子设备,包括:处理器和存储器;

25、所述存储器存储计算机执行指令;

26、所述处理器执行所述计算机执行指令,以实现如第一方面所述的方法,或者如第二方面所述的方法。

27、第六方面,本公开实施例提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现如第一方面所述的方法,或者如第二方面所述的方法。

28、第七方面,本公开实施例提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如第一方面所述的方法,或者如第二方面所述的方法。

29、本公开实施例提供的语音转换、模型训练方法、装置、设备、存储介质及程序,该语音转换方法包括:获取具有第一音色的原始语音、以及待转换的第二音色的标识;对原始语音进行处理,得到原始语音对应的语义特征和至少两个层级的风格特征;风格特征用于指示原始语音对应的表达风格;根据第二音色的标识,确定第二音色对应的音色特征;根据语义特征、至少两个层级的风格特征和音色特征,生成具有第二音色的目标语音。通过上述语音转换过程,使得转换后的目标语音中保留了原始语音的风格特征,从而,能够提高目标语音所表达的语义信息的准确度。

技术特征:

1.一种语音转换方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述至少两个层级的风格特征包括下述中的至少两项:

3.根据权利要求1或2所述的方法,其特征在于,根据所述语义特征、所述至少两个层级的风格特征和所述音色特征,生成具有所述第二音色的目标语音,包括:

4.根据权利要求3所述的方法,其特征在于,所述至少两个层级的风格特征包括:全局层级的风格特征、局部层级的风格特征和帧层级的风格特征;对所述第一融合特征和所述至少两个层级的风格特征进行编码处理和解码处理,得到目标梅尔谱特征,包括:

5.根据权利要求4所述的方法,其特征在于,将所述编码特征、所述全局层级的风格特征和所述帧层级的风格特征进行维度拼接处理,得到第三融合特征,包括:

6.根据权利要求2至5任一项所述的方法,其特征在于,对所述原始语音进行处理,得到所述原始语音对应的至少两个层级的风格特征,包括下述中的至少两项:

7.根据权利要求1至6任一项所述的方法,其特征在于,对所述原始语音进行处理,得到所述原始语音对应的语义特征和至少两个层级的风格特征,包括:

8.一种语音转换模型的训练方法,其特征在于,包括:

9.根据权利要求8所述的方法,其特征在于,根据所述第一预测目标语音、所述第一样本原始语音、所述第一样本目标语音和所述第二样本音色的标识,对所述语音转换模型进行训练,包括:

10.根据权利要求9所述的方法,其特征在于,根据所述第一预测目标语音和所述第一样本原始语音,确定风格损失值,包括:

11.根据权利要求9或10所述的方法,其特征在于,根据所述第一预测目标语音和所述第一样本目标语音,确定语义损失值,包括:

12.根据权利要求9至11任一项所述的方法,其特征在于,根据所述第一预测目标语音和所述第二样本音色的标识,确定音色损失值,包括:

13.根据权利要求8至11任一项所述的方法,其特征在于,所述第一样本音色和所述第二样本音色为同一音色;在所述语音转换模型达到预设收敛条件之后,还包括:

14.根据权利要求8至13任一项所述的方法,其特征在于,所述至少两个层级的第一预测风格特征包括下述中的至少两项:

15.一种语音转换装置,其特征在于,包括:

16.一种语音转换模型的训练装置,其特征在于,包括:

17.一种电子设备,其特征在于,包括:处理器和存储器;

18.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现如权利要求1至7任一项所述的方法,或者,如权利要求8至14任一项所述的方法。

19.一种计算机程序产品,其特征在于,包括计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的方法,或者,如权利要求8至14任一项所述的方法。

技术总结本公开实施例提供一种语音转换、模型训练方法、装置、设备、存储介质及程序,该方法包括:获取具有第一音色的原始语音、以及待转换的第二音色的标识;对原始语音进行处理,得到原始语音对应的语义特征和至少两个层级的风格特征;风格特征用于指示原始语音对应的表达风格;根据第二音色的标识,确定第二音色对应的音色特征;根据语义特征、至少两个层级的风格特征和音色特征,生成具有第二音色的目标语音。通过上述语音转换过程,使得转换后的目标语音中保留了原始语音的风格特征,从而,能够提高目标语音所表达的语义信息的准确度。技术研发人员:王智超,陈远哲,田乔,王玉平,王雨轩受保护的技术使用者:抖音视界(北京)有限公司技术研发日:技术公布日:2024/1/15

本文地址:https://www.jishuxx.com/zhuanli/20240618/20950.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。