技术新讯 > 乐器声学设备的制造及制作,分析技术 > 歌声合成方法、装置、计算机设备和存储介质与流程 > 正文

歌声合成方法、装置、计算机设备和存储介质与流程

国知局
2024-06-21 11:38:55

本技术涉及音频处理，特别是涉及一种歌声合成方法、装置、计算机设备、存储介质和计算机程序产品。

背景技术：

1、随着音频处理技术的发展，出现了歌声合成技术，歌声合成技术可以基于音频数据，生成具有个性化音色的音频。

2、传统技术中，可根据目标对象的歌声数据对预训练的歌声合成模型的全部参数或部分参数进行调整，以实现音色迁移；也可通过将目标对象的音色特征输入至对应的模型中，由音色嵌入向量控制和调整音色，以使生成的音频的音色接近目标对象的音色。

3、然而，传统方法在歌声合成过程中，需要大量的歌声数据对歌声合成模型进行多次训练，而随着训练数据和训练次数的增加，歌声合成模型可能会不稳定，生成的音频的音色与目标对象的音色之间的差距较大，不利于提高模型合成音频的音色与目标对象的音色之间的相似度。

技术实现思路

1、基于此，有必要针对上述技术问题，提供一种能够提高模型合成音频的音色与目标音色之间的相似度的歌声合成方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。

2、第一方面，本技术提供了一种歌声合成方法，所述方法包括：

3、获取待演唱歌曲对应的音素信息，将所述音素信息输入至预训练的编码模型，得到音素编码特征；所述预训练的编码模型中注入有采用目标对象的人声音频训练得到的编码模型低秩分解矩阵；

4、获取所述待演唱歌曲的音素时长信息，将所述音素编码特征和所述音素时长信息输入至预训练的特征展开模型，得到所述音素编码特征对应的展开特征；

5、获取所述目标对象的基频特征，将所述展开特征和所述基频特征输入至预训练的解码模型，得到音频解码特征；所述预训练的解码模型中注入有采用所述目标对象的人声音频训练得到的解码模型低秩分解矩阵；

6、将所述音频解码特征输入至预训练的频谱生成模型，得到频谱特征，将所述频谱特征输入至声码器，生成目标歌声音频；所述目标歌声音频包括以所述目标对象的音色演唱所述待演唱歌曲的歌声音频。

7、在其中一个实施例中，所述方法还包括：

8、采用训练样本数据对待训练的生成器进行训练，得到训练后的生成器；所述训练后的生成器包括训练后的编码模型、训练后的特征展开模型和训练后的解码模型；

9、固定所述训练后的生成器的模型参数，分别注入待训练的低秩分解矩阵至所述训练后的编码模型和所述训练后的解码模型，得到调整后的生成器；

10、采用所述训练样本数据对所述调整后的生成器中的低秩分解矩阵进行训练，得到预训练的生成器；所述预训练的生成器包括所述预训练的编码模型、所述预训练的特征展开模型和所述预训练的解码模型。

11、在其中一个实施例中，所述方法还包括：

12、响应于所述目标对象触发的模型训练请求，获取所述目标对象选择的样本音频；所述样本音频包括以所述目标对象的音色演唱歌曲得到的人声音频；

13、采用所述样本音频对所述预训练的生成器中的低秩分解矩阵进行训练，得到注入有所述编码模型低秩分解矩阵的所述预训练的编码模型，以及，注入有所述解码模型低秩分解矩阵的所述预训练的解码模型。

14、在其中一个实施例中，所述采用训练样本数据对待训练的生成器进行训练，得到训练后的生成器，包括：

15、将所述训练样本数据输入至所述待训练的生成器，得到所述训练样本数据对应的训练频谱特征；

16、获取待训练的判别器，将所述训练频谱特征输入至所述待训练的判别器；所述待训练的判别器用于输出针对所述训练频谱特征的判别值；所述判别值表征所述训练频谱特征的真实性；

17、对所述待训练的生成器和所述待训练的判别器进行对抗式训练，通过所述对抗式训练训练出所述训练后的生成器。

18、在其中一个实施例中，所述训练样本数据包括具有预设音色的训练音频和所述训练音频对应的训练歌词文本，所述待训练的生成器包括待训练的编码模型、待训练的特征展开模型和待训练的解码模型，所述将所述训练样本数据输入至所述待训练的生成器，得到所述训练样本数据对应的训练频谱特征，包括：

19、获取所述训练歌词文本的训练音素信息，将所述训练音素信息输入至所述待训练的编码模型，得到训练音素编码特征；

20、获取所述训练歌词文本的训练音素时长信息，将所述训练音素编码特征和所述训练音素时长信息输入至所述待训练的特征展开模型，得到所述训练音素编码特征对应的训练展开特征；

21、获取所述训练音频的训练音色特征，对所述训练展开特征和所述训练音色特征进行求和，得到所述训练展开特征对应的训练求和特征；

22、获取所述训练音频的训练基频特征，将所述训练求和特征和所述训练基频特征输入至所述待训练的解码模型，得到训练音频解码特征，将所述训练音频解码特征输入至所述预训练的频谱生成模型，得到所述训练频谱特征。

23、在其中一个实施例中，所述采用所述训练样本数据对所述调整后的生成器中的低秩分解矩阵进行训练，得到预训练的生成器，包括：

24、将所述训练样本数据输入至所述调整后的生成器，根据所述调整后的生成器输出的结果，确定针对所述训练后的编码模型的编码模型矩阵参数修订值和针对所述训练后的解码模型的解码模型矩阵参数修订值；

25、根据所述编码模型矩阵参数修订值，调整所述训练后的编码模型中的低秩分解矩阵，根据所述解码模型矩阵参数修订值，调整所述训练后的解码模型中的低秩分解矩阵，直至得到所述预训练的生成器。

26、在其中一个实施例中，所述得到预训练的生成器之后，所述方法还包括：

27、响应于所述目标对象触发的音色组合请求，获取所述目标对象选择的音色样本；所述音色样本包括以至少两种待组合音色演唱的歌曲；

28、采用所述音色样本对所述预训练的生成器中的低秩分解矩阵进行训练，得到所述音色组合请求对应的音色组合低秩分解矩阵。

29、在其中一个实施例中，所述采用所述音色样本对所述预训练的生成器中的低秩分解矩阵进行训练，得到所述音色组合请求对应的音色组合低秩分解矩阵，包括：

30、采用所述音色样本，训练所述预训练的生成器，得到所述音色样本对应的音色编码低秩分解矩阵和音色解码低秩分解矩阵；

31、获取所述音色样本对应的音色权重信息，根据所述音色权重信息，对所述音色样本对应的音色编码低秩分解矩阵进行加权求和，得到音色组合编码低秩分解矩阵，根据所述音色权重信息，对所述音色样本对应的音色解码低秩分解矩阵进行加权求和，得到音色组合解码低秩分解矩阵；

32、根据所述音色组合编码低秩分解矩阵和所述音色组合解码低秩分解矩阵，确定所述音色组合低秩分解矩阵。

33、第二方面，本技术还提供了一种歌声合成装置，所述装置包括：

34、音素编码模块，用于获取待演唱歌曲对应的音素信息，将所述音素信息输入至预训练的编码模型，得到音素编码特征；所述预训练的编码模型中注入有采用目标对象的人声音频训练得到的编码模型低秩分解矩阵；

35、特征展开模块，用于获取所述待演唱歌曲的音素时长信息，将所述音素编码特征和所述音素时长信息输入至预训练的特征展开模型，得到所述音素编码特征对应的展开特征；

36、特征解码模块，用于获取所述目标对象的基频特征，将所述展开特征和所述基频特征输入至预训练的解码模型，得到音频解码特征；所述预训练的解码模型中注入有采用所述目标对象的人声音频训练得到的解码模型低秩分解矩阵；

37、音频生成模块，用于将所述音频解码特征输入至预训练的频谱生成模型，得到频谱特征，将所述频谱特征输入至声码器，生成目标歌声音频；所述目标歌声音频包括以所述目标对象的音色演唱所述待演唱歌曲的歌声音频。

38、第三方面，本技术还提供了一种计算机设备。所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被处理器执行时实现上述的方法的步骤。

39、第四方面，本技术还提供了一种计算机可读存储介质。所述计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述的方法的步骤。

40、第五方面，本技术还提供了一种计算机程序产品。所述计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现上述的方法的步骤。

41、上述歌声合成方法、装置、计算机设备、存储介质和计算机程序产品，通过获取待演唱歌曲对应的音素信息，将音素信息输入至预训练的编码模型，得到音素编码特征，预训练的编码模型中注入有采用目标对象的人声音频训练得到的编码模型低秩分解矩阵，从而基于预训练的编码模型，对待演唱歌曲进行音素层面的特征提取，得到待演唱歌曲对应的音色特征编码；获取待演唱歌曲的音素时长信息，将音素编码特征和音素时长信息输入至预训练的特征展开模型，得到音素编码特征对应的展开特征，从而基于预训练的特征展开模型，利用音素时长信息展开音素特征编码，得到音素编码特征对应的展开特征；获取目标对象的基频特征，将展开特征和基频特征输入至预训练的解码模型，得到音频解码特征；预训练的解码模型中注入有采用目标对象的人声音频训练得到的解码模型低秩分解矩阵，从而基于预训练的解码模型，对展开特征和基频特征进行解码，得到能够表征音频特征的音频解码特征；将音频解码特征输入至预训练的频谱生成模型，得到频谱特征，将频谱特征输入至声码器，生成目标歌声音频；目标歌声音频包括以目标对象的音色演唱待演唱歌曲的歌声音频，从而基于频谱生成模型，将音频解码特征转换为频谱特征，并通过声码器，根据频谱特征生成以目标对象的音色演唱待演唱歌曲的目标歌声音频，实现预先将采用目标对象的人声音频训练的低秩分解矩阵注入至编码模型和解码模型中，利用注入有上述低秩分解矩阵的编码模型和解码模型，结合频谱生成模型和声码器，构成目标对象专属的歌声合成模型，并利用该专属的歌声合成模型合成以目标对象的音色演唱待演唱歌曲的音频，从而在歌声合成模型的训练阶段，将有限的目标对象的人声音频作为样本，通过微调低秩分解矩阵减少歌声合成模型的参数调整量，从而得到具有良好歌声合成效果的歌声合成模型，进而提高模型合成音频的音色与目标对象的音色之间的相似度。