技术新讯 > 乐器声学设备的制造及制作,分析技术 > 歌声转换方法、装置、电子设备及存储介质与流程 > 正文

歌声转换方法、装置、电子设备及存储介质与流程

国知局
2024-06-21 11:45:10

本发明涉及语音数据处理领域，尤其涉及一种歌声转换方法、装置、电子设备及存储介质。

背景技术：

1、歌声转换技术，作为一种先进的声音处理技术手段，其核心功能是在完整保留源歌曲的原始内容的同时，能够实现从源歌唱者独特的声音风格向目标歌手音色的精确模拟与迁移。

2、尽管歌声转换技术已取得显著进展，目前在情感表达维度的转换过程中，通常采取基于同一个歌手的歌曲样本的音色特征向量与情感特征向量进行编码和解码的方式，由于音色特征向量与情感特征向量在某些维度上有关联的，直接编码和解码的方式导致了歌曲中音色特征向量和情感特征向量之间的关联性难以有效解耦和独立控制的问题。

3、因此，在实际转换效果上，转换后的歌曲的情感表达往往会略显不足，无形中制约了对目标歌手的演唱风格和情感细节的真实再现程度。

4、例如，金融保险企业在开发的移动应用程序中，将歌声转换应用内置应用模块，来提供多样化的增值服务或互动娱乐服务，来留住现有用户并吸引更多的新用户群体。

5、例如，用户在完成保险业务操作后，可以通过上传自己录制的歌曲片段或者选择平台提供的歌曲样本，利用歌声转换模型将他们的声音转换成不同知名歌手的声音风格。

6、由于当前技术可能存在的局限性，如歌曲中音色特征向量和情感特征向量之间的关联性难以有效解耦和独立控制的问题，可能会导致转换后的歌声在某些复杂情感表达略显不足，无法完全捕捉到目标歌手的所有细微情感特征向量。

技术实现思路

1、鉴于以上内容，有必要提供一种歌声转换方法，其目的是将歌曲样本中的源歌手和目标歌手的音色特征向量与情感特征向量进行有效解耦，能够确保转换后的歌曲渲染上目标歌手的音色特点和情感细节。

2、本发明提供的歌声转换方法，包括：

3、获取第一歌手的第一歌曲样本和第二歌手的第二歌曲样本，从所述第一歌曲样本中提取所述第一歌手的第一音色特征向量和第一情感特征向量，从所述第二歌曲样本中提取所述第二歌手的第二音色特征向量和第二情感特征向量；

4、利用所述第一情感特征向量、所述第二情感特征向量和所述第一歌曲样本所属的情感类别的情感标签特征向量构建情感三元组，及利用所述第一音色特征向量、所述第二音色特征向量和所述第一歌曲样本所属的音色类别的音色标签特征向量构建音色三元组；

5、对所述情感三元组和所述音色三元组的各个特征向量进行解耦，拼接解耦后的各个特征向量得到拼接特征向量；

6、提取所述第一歌曲样本的线性谱特征向量，对所述拼接特征向量和所述线性谱特征向量重构波形，得到合成波形；

7、计算所述合成波形与所述第一歌曲样本的真实波形之间概率分布的差异值，当所述差异值小于阈值时，将所述第一歌曲样本从所述第一歌手的歌声转换为所述第二歌手的歌声，得到转换后的歌曲。

8、可选的，所述从所述第一歌曲样本中提取所述第一歌手的第一音色特征向量和第一情感特征向量，包括：

9、计算所述第一歌曲样本的第一梅尔频率倒谱系数，从所述第一梅尔频率倒谱系数中提取所述第一歌手的第一音色特征向量；

10、从所述第一歌曲样本的音频信号中提取所述第一歌手的第一情感特征向量，所述音频信号至少包括谱包络信号、共振峰迁移信号和瞬态分析信号中的一种信号。

11、可选的，所述从所述第二歌曲样本中提取所述第二歌手的第二音色特征向量和第二情感特征向量，包括：

12、计算所述第二歌曲样本的第二梅尔频率倒谱系数，从所述第二梅尔频率倒谱系数中提取所述第二歌手的第二音色特征向量；

13、从所述第二歌曲样本的音频信号中提取所述第二歌手的第二情感特征向量，所述音频信号至少包括谱包络信号、共振峰迁移信号和瞬态分析信号中的一种信号。

14、可选的，所述情感三元组包括负例特征向量、正例特征向量和锚点特征向量，所述利用所述第一情感特征向量、所述第二情感特征向量和所述第一歌曲样本所属的情感类别的情感标签特征向量构建情感三元组，包括：

15、将所述第一情感特征向量作为所述情感三元组的负例特征向量，将所述第二情感特征向量作为所述情感三元组的正例特征向量，及将所述情感标签特征向量作为所述情感三元组的锚点特征向量。

16、可选的，所述音色三元组包括负例特征向量、正例特征向量和锚点特征向量，所述利用所述第一音色特征向量、所述第二音色特征向量和所述第一歌曲样本所属的音色类别的音色标签特征向量构建音色三元组，包括：

17、将所述第一音色特征向量作为所述音色三元组的负例特征向量，将所述第二音色特征向量作为所述音色三元组的正例特征向量，及将所述音色标签特征向量作为所述音色三元组的锚点特征向量。

18、可选的，所述对所述情感三元组和所述音色三元组的各个特征向量进行解耦，拼接解耦后的各个特征向量得到拼接特征向量，包括：

19、以所述情感三元组的锚点特征向量为聚类中心，拉近正例特征向量至锚点特征向量的距离，及拉远负例特征向量至锚点特征向量的距离，以对所述情感三元组进行迭代，直至所述情感三元组的损失函数值小于预设阈值时，停止迭代，完成将所述情感三元组的各个特征向量之间的隐性分布特征向量的解耦；

20、以所述音色三元组的锚点特征向量为聚类中心，拉近正例特征向量至锚点特征向量的距离，及拉远负例特征向量至锚点特征向量的距离，以对所述音色三元组进行迭代，直至所述音色三元组的损失函数值小于预设阈值时，停止迭代，完成将所述音色三元组的各个特征向量之间的隐性分布特征向量的解耦；

21、拼接解耦后的各个特征向量得到所述拼接特征向量。

22、可选的，所述对所述拼接特征向量和所述线性谱特征向量重构波形，得到合成波形，包括：

23、将所述拼接特征向量还原为第一时域信号，及将所述线性谱特征向量还原为第二时域信号；

24、拼接所述第一时域信号和所述第二时域信号，得到所述合成波形。

25、为了解决上述问题，本发明还提供一种歌声转换装置，所述装置包括：

26、获取模块，用于获取第一歌手的第一歌曲样本和第二歌手的第二歌曲样本，从所述第一歌曲样本中提取所述第一歌手的第一音色特征向量和第一情感特征向量，从所述第二歌曲样本中提取所述第二歌手的第二音色特征向量和第二情感特征向量；

27、构建模块，用于利用所述第一情感特征向量、所述第二情感特征向量和所述第一歌曲样本所属的情感类别的情感标签特征向量构建情感三元组，及利用所述第一音色特征向量、所述第二音色特征向量和所述第一歌曲样本所属的音色类别的音色标签特征向量构建音色三元组；

28、解耦模块，用于对所述情感三元组和所述音色三元组的各个特征向量进行解耦，拼接解耦后的各个特征向量得到拼接特征向量；

29、重构模块，用于提取所述第一歌曲样本的线性谱特征向量，对所述拼接特征向量和所述线性谱特征向量重构波形，得到合成波形；

30、转换模块，用于计算所述合成波形与所述第一歌曲样本的真实波形之间概率分布的差异值，当所述差异值小于阈值时，将所述第一歌曲样本从所述第一歌手的歌声转换为所述第二歌手的歌声，得到转换后的歌曲。

31、为了解决上述问题，本发明还提供一种电子设备，所述电子设备包括：

32、至少一个处理器；以及，

33、与所述至少一个处理器通信连接的存储器；其中，

34、所述存储器存储有可被所述至少一个处理器执行的歌声转换程序，所述歌声转换程序被所述至少一个处理器执行，以使所述至少一个处理器能够执行上述歌声转换方法。

35、为了解决上述问题，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有歌声转换程序，所述歌声转换程序可被一个或者多个处理器执行，以实现上述歌声转换方法。

36、相较现有技术，本发明从第一歌曲样本中提取第一歌手的第一音色特征向量和第一情感特征向量，从第二歌曲样本中提取第二歌手的第二音色特征向量和第二情感特征向量，利用提取到的音色特征向量和情感特征向量，分别构建情感三元组和音色三元组，通过对情感三元组和音色三元组的各个特征向量行解耦操作，以实现第一和二歌手的情感维度和音色维度的有效解耦和独立控制。

37、将解耦后的各个特征向量与第一歌曲样本的线性谱特征向量重构波形，生成合成波形，当计算合成波形与第一歌曲样本的真实波形之间概率分布的差异值小于阈值时，说明歌声转换效果达到理想状态，将第一歌手的歌声成功转换为第二歌手的声音风格，生成转换后的歌曲。

38、本发明可以更精确地模拟和迁移源歌曲的内容到目标歌手的音色风格，同时保留并再现目标歌手丰富的情感细节，有效提升了歌声转换技术在情感表达方面的表现力和真实性。在金融保险企业的移动应用程序等应用场景中，可以提供更加真实生动、情感丰富的歌声转换体验，进一步提升用户参与度和满意度。