技术新讯 > 乐器声学设备的制造及制作,分析技术 > 人声分离模型的训练方法、人声分离方法和计算机设备与流程 > 正文

人声分离模型的训练方法、人声分离方法和计算机设备与流程

国知局
2024-06-21 11:38:36

本申请涉及音频处理，特别是涉及一种人声分离模型的训练方法、人声分离方法和计算机设备。

背景技术：

1、随着互联网技术的发展，越来越多与音乐音频相关的应用程序得到普及，为了提高音乐音频的丰富度，人们往往需要在音乐音频中加入混响、和声、伴奏等。与此同时，随着音频处理技术的发展，人们也需要将音乐或音频中的主唱干声从混合声音中分离出来。

2、传统技术中，音乐信号首先通过第一个声音分离模型分离出有混响无和声的主唱人声，然后通过第二个声音分离模型分离出无混响无和声的主唱干声。

3、然而，目前通过多个声音分离模型分类出主唱干声的方式，其实现成本较高。

技术实现思路

1、基于此，有必要针对上述技术问题，提供一种能够降低成本的人声分离模型的训练方法、人声分离方法和计算机设备。

2、第一方面，本申请提供了一种人声分离模型的训练方法，该方法包括：

3、获取由干净人声信号进行混响得到的第一混响信号，并利用第一混响信号构造第一混合信号；

4、将第一混合信号输入待训练的人声分离模型，得到第一混合信号对应的第一人声分离信号，并利用第一人声分离信号与干净人声信号之间的第一差异训练人声分离模型，得到预训练的人声分离模型；

5、获取录制的包含有第二混响信号以及第二混响信号匹配的和声信号的第二混合信号；

6、将第二混响信号输入预训练的人声分离模型得到第二人声分离信号，以及将第二混合信号输入预训练的人声分离模型得到第三人声分离信号，并利用第二人声分离信号与第三人声分离信号之间的第二差异训练预训练的人声分离模型，得到训练完成的人声分离模型。

7、在其中一个实施例中，获取录制的包含有第二混响信号以及第二混响信号匹配的和声信号的第二混合信号，包括：

8、获取预设的第一伴奏信号；

9、根据第二混响信号对应的预设权重、和声信号对应的预设权重和第一伴奏信号对应的预设权重，对第二混响信号、和声信号和第一伴奏信号进行融合处理，得到第二混合信号。

10、在其中一个实施例中，利用第二人声分离信号与第三人声分离信号之间的第二差异训练预训练的人声分离模型，得到训练完成的人声分离模型，包括：

11、根据第二混响信号对应的预设权重和第二人声分离信号，得到目标人声分离信号；

12、根据目标人声分离信号和第三人声分离信号之间的损失值，训练预训练的人声分离模型，得到训练完成的人声分离模型。

13、在其中一个实施例中，利用第一混响信号构造第一混合信号，包括：

14、获取预设的第二伴奏信号；

15、根据第一混响信号对应的预设权重和第二伴奏信号对应的预设权重，对第一混响信号以及第二伴奏信号进行融合处理，得到第一混合信号。

16、在其中一个实施例中，利用第一人声分离信号与干净人声信号之间的第一差异训练人声分离模型，得到预训练的人声分离模型，包括：

17、根据第一混响信号对应的预设权重和干净人声信号，得到目标干净人声信号；

18、根据目标干净人声信号和第一人声分离信号之间的损失值，训练人声分离模型，得到预训练的人声分离模型。

19、在其中一个实施例中，第一差异基于第一人声分离信号和干净人声信号之间的时域损失值和频域损失值得到；第二差异基于第二人声分离信号和第三人声分离信号之间的时域损失值和频域损失值得到。

20、在其中一个实施例中，获取由干净人声信号进行混响得到的第一混响信号，包括：

21、获取干净人声信号和混响声音信号；

22、对干净人声信号和混响声音信号进行卷积，得到第一混响信号。

23、第二方面，本申请还提供了一种人声分离方法，该方法包括：

24、获取混合信号；混合信号为混响信号与和声信号中的至少一者与干声信号进行混合得到；

25、将混合信号输入训练完成的人声分离模型，通过人声分离模型对混合信号进行人声分离处理，得到干声信号；其中，人声分离模型通过上述的人声分离模型的训练方法得到。

26、第三方面，本申请还提供了一种计算机设备，包括存储器和处理器，该计算机设备，包括存储器和处理器，存储器存储有计算机程序，处理器执行计算机程序时实现上述的方法的步骤。

27、第四方面，本申请还提供了一种计算机可读存储介质，该计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述的方法的步骤。

28、上述人声分离模型的训练方法、人声分离方法和计算机设备，获取由干净人声信号进行混响得到的第一混响信号，并利用第一混响信号构造第一混合信号；将第一混合信号输入待训练的人声分离模型，得到第一混合信号对应的第一人声分离信号，并利用第一人声分离信号与干净人声信号之间的第一差异训练人声分离模型，得到预训练的人声分离模型；获取包含第二混响信号以及第二混响信号匹配的和声信号的第二混合信号；将第二混响信号输入预训练的人声分离模型得到第二人声分离信号，以及将第二混合信号输入预训练的人声分离模型得到第三人声分离信号，并利用第二人声分离信号与第三人声分离信号之间的第二差异训练预训练的人声分离模型，得到训练完成的人声分离模型。与传统技术相比，本申请通过利用基于第一混响信号构造的第一混合信号训练人声分离模型，得到能够分离混响信号的预训练的人声分离模型，并且通过利用基于第二混响信号以及和声信号构造的第二混合信号进一步调整预训练的人声分离模型，得到能够分离混响信号以及和声信号的完成训练的人声分离模型，如此，能够训练得到分离混响信号以及和声信号的人声分离模型，从而减少人声分离模型的训练成本。可以通过人声分离模型实现对混合信号中的干声信号分离，从而可以降低对混合信号的人声分离成本。

技术特征：

1.一种人声分离模型的训练方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述获取录制的包含有第二混响信号以及所述第二混响信号匹配的和声信号的第二混合信号，包括：

3.根据权利要求2所述的方法，其特征在于，所述利用所述第二人声分离信号与所述第三人声分离信号之间的第二差异训练所述预训练的人声分离模型，得到训练完成的人声分离模型，包括：

4.根据权利要求1所述的方法，其特征在于，所述利用所述第一混响信号构造第一混合信号，包括：

5.根据权利要求4所述的方法，其特征在于，所述利用所述第一人声分离信号与所述干净人声信号之间的第一差异训练所述人声分离模型，得到预训练的人声分离模型，包括：

6.根据权利要求1至5任意一项所述的方法，其特征在于，所述第一差异基于所述第一人声分离信号和所述干净人声信号之间的时域损失值和频域损失值得到；所述第二差异基于所述第二人声分离信号和所述第三人声分离信号之间的时域损失值和频域损失值得到。

7.根据权利要求1至5任意一项所述的方法，其特征在于，所述获取由干净人声信号进行混响得到的第一混响信号，包括：

8.一种人声分离方法，其特征在于，所述方法包括：

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至8中任一项所述的方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至8中任一项所述的方法的步骤。

技术总结本申请涉及一种人声分离模型的训练方法、人声分离方法和计算机设备。方法包括：获取由干净人声信号进行混响得到的第一混响信号，并以此构造第一混合信号；将第一混合信号输入待训练的人声分离模型，得到第一人声分离信号，利用第一人声分离信号与干净人声信号之间的第一差异训练人声分离模型，得到预训练的人声分离模型；获取录制的包含第二混响信号以及第二混响信号匹配的和声信号的第二混合信号；将第二混响信号以及第二混合信号分别输入预训练的人声分离模型，得到第二人声分离信号和第三人声分离信号，利用第二人声分离信号与第三人声分离信号之间的差异训练预训练的人声分离模型，得到训练完成的人声分离模型，如此能够降低成本。技术研发人员：何礼受保护的技术使用者：腾讯音乐娱乐科技（深圳）有限公司技术研发日：技术公布日：2024/3/24