技术新讯 > 乐器声学设备的制造及制作,分析技术 > 歌曲转换模型训练方法、合成方法、装置、计算机及介质与流程 > 正文

歌曲转换模型训练方法、合成方法、装置、计算机及介质与流程

国知局
2024-06-21 11:52:52

本发明涉及歌曲转换模型训练领域，尤其涉及一种歌曲转换模型训练方法、合成方法、装置、计算机及介质。

背景技术：

1、目前的歌唱转换技术对歌曲进行特征分离时，多数采用无监督学习方法对歌曲中的特征进行分离，但该无监督学习方法不能保证特征的纯净度，因此导致无法完全解耦，会影响歌曲的自然度，发音不够清晰；音高提取的偏差也会影响歌曲的音调，改变转换歌曲固有的曲调；歌唱人特征的泄露会降低转换歌曲的身份相似度，残留源歌唱人的音色特征。即在歌曲转换过程中，不同特征之间会泄露彼此冗余的信息，造成特征之间的干扰，从而影响歌曲转换的保真性。

技术实现思路

1、本发明实施例提供一种歌曲转换模型训练方法、合成方法、装置、计算机及介质，以解决歌曲特征解耦不彻底的问题。

2、一种歌曲转换模型训练方法，包括：

3、获取训练歌曲数据；

4、对所述训练歌曲数据进行特征提取，分别获取所述训练歌曲数据对应的训练内容特征、训练音高特征和训练音色特征；

5、对所述训练内容特征、所述训练音高特征和所述训练音色特征进行解纠缠处理，获取目标互信息损失；

6、将所述训练内容特征、所述训练音高特征和所述训练音色特征输入原始歌曲转换模型进行处理，获取所述原始歌曲转换模型对应的目标特征损失；

7、若所述目标互信息损失小于第一预设损失，且所述目标特征损失小于第二预设损失，则将所述原始歌曲转换模型确定为目标歌曲转换模型；

8、其中，所述目标歌曲转换模型包括目标内容编码器、目标音高解码器、目标流模型和目标解码器。

9、优选地，所述对所述训练歌曲数据进行特征提取，分别获取所述训练歌曲数据对应的训练内容特征、训练音高特征和训练音色特征，包括：

10、采用自监督模型对所述训练歌曲数据进行内容特征提取，获取所述训练歌曲数据对应的所述训练内容特征；

11、采用dio算法模型对所述训练歌曲数据进行音高特征提取，获取所述训练歌曲数据对应的所述训练音高特征；

12、采用音色提取模型对所述训练歌曲数据进行音色特征提取，获取所述训练歌曲数据对应的所述训练音色特征。

13、优选地，所述采用音色提取模型对所述训练歌曲数据进行音色特征提取，获取所述训练歌曲数据对应的训练音色特征，包括：

14、对所述训练歌曲数据进行特征转换，获取所述训练歌曲数据对应的训练线性谱和训练梅尔谱；

15、采用音色编码器对所述训练梅尔谱进行音色特征提取，获取第一训练音色特征；

16、采用后验编码器对所述训练线性谱和所述第一训练音色特征进行音色特征提取，获取第二训练音色特征。

17、优选地，所述对所述训练内容特征、所述训练音高特征和所述训练音色特征进行解纠缠处理，获取目标互信息损失，包括：

18、对所述训练内容特征和所述训练音高特征进行互信息损失计算，获取第一互信息损失；

19、对所述训练内容特征和所述训练音色特征进行互信息损失计算，获取第二互信息损失；

20、对所述训练音高特征和所述训练音色特征进行互信息损失计算，获取第三互信息损失。

21、优选地，所述原始歌曲转换模型包括原始内容编码器、原始音高解码器和原始流模型；

22、所述将所述训练内容特征、所述训练音高特征和所述训练音色特征输入原始歌曲转换模型进行处理，获取所述原始歌曲转换模型对应的目标特征损失，包括：

23、将所述训练内容特征输入原始内容编码器进行处理，获取所述原始内容编码器对应的第一kl损失；

24、将所述训练音高特征输入原始音高解码器进行处理，获取所述原始音高解码器对应的目标重构损失；

25、将所述训练音色特征输入原始流模型进行处理，获取所述原始流模型对应的第二kl损失。

26、一种歌曲合成方法，包括：

27、获取目标歌曲数据和待替换歌曲数据；

28、对所述目标歌曲数据进行音色特征提取，获取所述目标歌曲数据对应的目标音色特征；

29、对所述待替换歌曲数据进行内容特征提取和音高特征提取，获取所述待替换歌曲数据对应的目标内容特征和目标音高特征；

30、将所述目标音色特征和所述目标内容特征，输入上述任一项所述歌曲转换模型训练方法确定的目标流模型进行处理，获取有效内容特征；

31、将所述目标音色特征、所述有效内容特征和所述目标音高特征，输入上述任一项所述歌曲转换模型训练方法确定的目标解码器进行处理，获取合成歌曲数据。

32、一种歌曲转换模型训练装置，包括：

33、训练歌曲数据获取模块，用于获取训练歌曲数据；

34、训练特征获取模块，用于对所述训练歌曲数据进行特征提取，分别获取所述训练歌曲数据对应的训练内容特征、训练音高特征和训练音色特征；

35、目标互信息损失获取模块，用于对所述训练内容特征、所述训练音高特征和所述训练音色特征进行解纠缠处理，获取目标互信息损失；

36、目标特征损失获取模块，用于将所述训练内容特征、所述训练音高特征和所述训练音色特征输入原始歌曲转换模型进行处理，获取所述原始歌曲转换模型对应的目标特征损失；

37、目标歌曲转换模型获取模块，用于若所述目标互信息损失小于第一预设损失，且所述目标特征损失小于第二预设损失，则将所述原始歌曲转换模型确定为目标歌曲转换模型；其中，所述目标歌曲转换模型包括目标内容编码器、目标音高解码器、目标流模型和目标解码器。

38、一种歌曲合成装置，包括：

39、歌曲数据获取模块，用于获取目标歌曲数据和待替换歌曲数据；

40、目标音色特征获取模块，用于对所述目标歌曲数据进行音色特征提取，获取所述目标歌曲数据对应的目标音色特征；

41、目标内容特征和目标音高特征获取模块，用于对所述待替换歌曲数据进行内容特征提取和音高特征提取，获取所述待替换歌曲数据对应的目标内容特征和目标音高特征；

42、有效内容特征获取模块，用于将所述目标音色特征和所述目标内容特征，输入上述任一项所述歌曲转换模型训练方法确定的目标流模型，获取有效内容特征；

43、合成歌曲数据获取模块，用于将所述目标音色特征、所述有效内容特征和所述目标音高特征，输入上述任一项所述歌曲转换模型训练方法确定的目标解码器，进行处理，获取合成歌曲数据。

44、一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述任一项所述歌曲转换模型训练方法，或者所述处理器执行所述计算机程序时实现上述所述的歌曲合成方法。

45、一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述任一项所述歌曲转换模型训练方法，或者所述处理器执行所述计算机程序时实现上述所述的歌曲合成方法。

46、上述歌曲转换模型训练方法、装置、设备及存储介质，对训练歌曲数据进行特征提取，分别获取训练内容特征、训练音高特征和训练音色特征；对所述训练内容特征、所述训练音高特征和所述训练音色特征进行解纠缠处理，获取目标互信息损失，从而可以确定每两个特征之间的关联程度和特征的纯净度；将所述训练内容特征、所述训练音高特征和所述训练音色特征输入原始歌曲转换模型进行处理，获取目标特征损失，确定各模块的精确度；若所述目标互信息损失小于第一预设损失，且所述目标特征损失小于第二预设损失，则将所述原始歌曲转换模型确定为目标歌曲转换模型，实现歌曲的完全解耦，各特征的干扰程度达到最低，可以保障歌曲转换的真实性和自然度。

47、上述歌曲合成方法、装置、设备及存储介质，对目标歌曲数据进行音色特征提取，获取所述目标歌曲数据对应的目标音色特征；对待替换歌曲数据进行内容特征提取和音高特征提取，获取所述待替换歌曲数据对应的目标内容特征和目标音高特征；将所述目标音色特征和所述目标内容特征，输入所述歌曲转换模型训练方法确定的目标流模型进行处理，获取有效内容特征，保障音色与内容的高度融合，有助于合成歌曲的稳定性；随后将所述目标音色特征、所述有效内容特征和所述目标音高特征，输入所述歌曲转换模型训练方法确定的目标解码器进行处理，保障最终合成的歌曲误差小，各特征间的匹配度高，最终获取合成歌曲数据。