技术新讯 > 乐器声学设备的制造及制作,分析技术 > 一种歌唱合成模型的训练方法、装置及设备与流程 > 正文

一种歌唱合成模型的训练方法、装置及设备与流程

国知局
2024-06-21 10:41:25

本发明涉及计算机，特别是指一种歌唱合成模型的训练方法、装置及设备。

背景技术：

1、在人工智能语音领域中，歌唱合成是非常重要的一个组成部分。

2、在最近的人工智能语音合成技术中，端到端语音合成技术已经较为成熟，如vits、neural speech等，主要利用0条样本或少量样本实现声音模型的制作，如仅仅使用一首歌就可以训练一个高质量的歌唱合成模型，但是，由于歌曲的录制要比文本语音录制要求高很多，标注歌唱数据也需要大量的乐理知识，因此现有的歌唱合成方案对训练数据的质量要求非常高。

技术实现思路

1、本发明的目的是提供一种歌唱合成模型的训练方法、装置及设备，解决了现有的歌唱合成方案对训练数据的质量要求非常高的问题。

2、为达到上述目的，本发明的实施例提供一种歌唱合成模型的训练方法，包括：

3、将标准乐谱样本对应的梅尔频谱特征输入至参考编码器进行特征提取，得到歌唱风格特征作为参考特征；

4、根据所述参考特征和语音合成录制数据，对框架网络模型进行训练，得到训练好的框架网络模型作为歌唱合成模型。

5、可选地，歌唱合成模型的训练方法还包括：

6、根据所述参考特征，计算发音人的梯度反转损失值和歌唱风格损失值；

7、根据所述发音人的梯度反转损失值和所述歌唱风格损失值，调整所述参考编码器的参数。

8、可选地，述框架网络模型包括：时长预测网络、文本编码器、音高预测网络、帧预测网络、后验编码器和解码器。

9、可选地，所述根据所述参考特征和语音合成录制数据，对框架网络模型进行训练，得到训练好的框架网络模型作为歌唱合成模型，包括：

10、将从语音合成录制数据中提取的文本音素、音高节点和音长节点输入至所述文本编码器进行嵌入操作，得到文本嵌入值；

11、根据所述文本嵌入值和所述参考特征，得到时长损失值和音高损失值；

12、根据所述文本嵌入值和音高嵌入值，得到数据流所需的均值和方差的先验值；所述音高嵌入值是对真实音高进行编码后得到的；

13、将所述乐谱样本的线性频谱特征与所述参考特征相加后输入至后验编码器，输出隐变量；

14、对所述隐变量进行流变换，得到所述数据流所需的均值和方差的后验值；

15、根据所述先验值和所述后验值，计算全局损失值；

16、根据时长损失值、音高损失值和全局损失值，对所述框架网络模型进行迭代训练，得到训练好的框架网络模型。

17、可选地，所述根据所述文本嵌入值和所述参考特征，得到时长损失值和音高损失值，包括：

18、将所述文本嵌入值与所述参考特征相加后输入至所述时长预测网络，得到预测时长，并计算所述预测时长与真实时长之间的时长损失值；

19、根据所述文本嵌入值，得到帧嵌入值；

20、将所述帧嵌入值与所述参考特征相加后输入至所述音高预测网络，得到预测音高，并计算所述预测音高与真实音高之间的音高损失值。

21、可选地，所述根据所述文本嵌入值和音高嵌入值，得到数据流所需的均值和方差的先验值，包括：

22、根据所述文本嵌入值，得到帧嵌入值；

23、将所述音高嵌入值与所述帧嵌入值相加后输入至帧预测网络进行上下文编码，得到新的帧嵌入值；

24、根据所述新的帧嵌入值，得到数据流所需的均值和方差的先验值。

25、可选地，所述根据所述文本嵌入值，得到帧嵌入值，包括：

26、利用真实时长，对所述文本嵌入值进行上采样操作，得到所述帧嵌入值。

27、可选地，所述方法还包括：

28、将所述隐变量和所述参考特征相加后输入至所述解码器，将所述隐变量合成为音频波形点。

29、为达到上述目的，本发明的实施例提供一种歌唱合成模型的训练装置，包括：

30、第一处理模块，用于将标准乐谱样本对应的梅尔频谱特征输入至参考编码器，输出与发音人无关的歌唱特征作为参考特征；

31、第二处理模块，用于根据所述参考特征，对框架网络模型和所述参考编码器进行训练，得到歌唱合成模型；其中，所述歌唱合成模型包括训练好的所述参考编码器和所述框架网络模型。

32、为达到上述目的，本发明的实施例提供一种歌唱合成模型的训练设备，包括处理器和收发机，其中，所述处理器用于将标准乐谱样本对应的梅尔频谱特征输入至参考编码器，输出与发音人无关的歌唱特征作为参考特征；所述处理器还用于根据所述参考特征，对框架网络模型和所述参考编码器进行训练，得到歌唱合成模型；其中，所述歌唱合成模型包括训练好的所述参考编码器和所述框架网络模型。

33、为达到上述目的，本发明的实施例提供一种歌唱合成模型的训练设备，包括：收发器、处理器、存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令；所述处理器执行所述程序或指令时实现如上所述的歌唱合成模型的训练方法。

34、为达到上述目的，本发明的实施例提供一种可读存储介质，其上存储有程序或指令，所述程序或指令被处理器执行时实现如上所述的歌唱合成模型的训练方法。

35、本发明的上述技术方案的有益效果如下：

36、本发明实施例的方法，将标准乐谱样本对应的梅尔频谱特征输入至参考编码器进行特征提取，得到歌唱风格特征作为参考特征；根据所述参考特征和语音合成录制数据，对框架网络模型进行训练，得到训练好的框架网络模型作为歌唱合成模型。如此，通过引入参考特征，对歌唱风格特征进行约束，实现对歌唱风格特征和音频特征之间的分离，通过控制参考特征，实现将框架网络模型转换训练为歌唱合成模型。由于训练数据无需利用大量乐理知识标注歌唱数据，解决了现有的歌唱合成方案对训练数据的质量要求非常高的问题。而且参考特征是与发音人无关的歌唱风格特征，在参考特征的约束下，框架网络模型会自动学习到与发音人有关的声学特征。这样，通过固定发音人身份(speaker id)，切换歌唱风格(style id)，歌唱合成模型即可实现针对同一个发音人合成不同歌唱风格的音频。

技术特征：

1.一种歌唱合成模型的训练方法，其特征在于，包括：

2.根据权利要求1所述的歌唱合成模型的训练方法，其特征在于，所述方法还包括：

3.根据权利要求1所述的歌唱合成模型的训练方法，其特征在于，所述框架网络模型包括：时长预测网络、文本编码器、音高预测网络、帧预测网络、后验编码器和解码器。

4.根据权利要求3所述的歌唱合成模型的训练方法，其特征在于，所述根据所述参考特征和语音合成录制数据，对框架网络模型进行训练，得到训练好的框架网络模型作为歌唱合成模型，包括：

5.根据权利要求4所述的歌唱合成模型的训练方法，其特征在于，所述根据所述文本嵌入值和所述参考特征，得到时长损失值和音高损失值，包括：

6.根据权利要求4所述的歌唱合成模型的训练方法，其特征在于，所述根据所述文本嵌入值和音高嵌入值，得到数据流所需的均值和方差的先验值，包括：

7.根据权利要求5或6所述的歌唱合成模型的训练方法，其特征在于，所述根据所述文本嵌入值，得到帧嵌入值，包括：

8.根据权利要求4所述的歌唱合成模型的训练方法，其特征在于，所述方法还包括：

9.一种歌唱合成模型的训练装置，其特征在于，包括：

10.一种歌唱合成模型的训练设备，其特征在于，包括：收发机和处理器；

11.一种歌唱合成模型的训练设备，包括：收发器、处理器、存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令；其特征在于，所述处理器执行所述程序或指令时实现如权利要求1-8任一项所述的歌唱合成模型的训练方法。

12.一种可读存储介质，其上存储有程序或指令，其特征在于，所述程序或指令被处理器执行时实现如权利要求1-8任一项所述的歌唱合成模型的训练方法中的步骤。

技术总结本发明提供一种歌唱合成模型的训练方法、装置及设备，方法包括：将标准乐谱样本对应的梅尔频谱特征输入至参考编码器进行特征提取，得到歌唱风格特征作为参考特征；根据所述参考特征，对框架网络模型和所述参考编码器进行训练，得到歌唱合成模型；其中，所述歌唱合成模型包括训练好的所述参考编码器和所述框架网络模型，涉及通信技术领域。本发明的方案，能够利用语音合成录制数据和歌曲风格特征，实现歌唱合成模型的训练，无需依赖于高质量的标注歌唱数据。技术研发人员：孙莉受保护的技术使用者：中移（苏州）软件技术有限公司技术研发日：技术公布日：2024/1/25