技术新讯 > 乐器声学设备的制造及制作,分析技术 > 音频转换方法、装置、设备及存储介质与流程 > 正文

音频转换方法、装置、设备及存储介质与流程

国知局
2024-06-21 11:41:12

本申请实施例涉及音频，特别涉及一种音频转换方法、装置、设备及存储介质。

背景技术：

1、唱歌变声，也叫唱歌声音转换，即把一段现成的唱歌声音变成另一个人的声音，同时保留其它特征不变的技术，例如唱词、唱调、停顿、节奏等不变而声音转换。

2、相关技术中，需要采集大量歌声数据作为训练数据，或者需要复杂的模型和训练方法，例如基于信号处理的特殊模型设计和对抗式生成网络，来实现歌唱声音的转换。

3、然而，在实际应用中，歌声数据的稀缺性和模型实现的复杂性都对歌唱变声的实现和应用造成了障碍，导致歌声生成效果的相似度和自然度低。

技术实现思路

1、本申请实施例提供了一种音频转换方法、装置、设备及存储介质，所述技术方案如下：

2、一方面，本申请实施例提供了一种音频转换方法，所述方法包括：

3、将第一样本音频对应的第一样本音频特征以及第一样本音色标识输入音频生成模型，通过所述音频生成模型输出第一样本生成音频，其中，所述第一样本音频为具有不同样本音色的音频，且不同第一样本音色标识对应不同样本音色；

4、基于所述第一样本音频以及所述第一样本生成音频，对所述音频生成模型进行预训练，得到训练后的所述音频生成模型；

5、在训练后的所述音频生成模型的基础上，基于第二样本音频对应的第二样本音频特征以及目标音色标识，对所述音频生成模型进行迁移训练，得到音频转换模型，所述第二样本音频为具有目标音色的音频，所述音频转换模型用于对音频进行音色转换，且不同目标音色对应音频转换模型的模型参数不同；

6、将待转换音频对应的目标音频特征以及所述目标音色标识输入所述音频转换模型，通过所述音频转换模型输出目标音频，所述目标音频具有所述目标音色，且所述目标音频与所述待转换音频具有不同音色但具有相同音频内容。

7、另一方面，本申请实施例提供了一种音频转换装置，所述装置包括：

8、第一音频输出模块，用于将第一样本音频对应的第一样本音频特征以及第一样本音色标识输入音频生成模型，通过所述音频生成模型输出第一样本生成音频，其中，所述第一样本音频为具有不同样本音色的音频，且不同第一样本音色标识对应不同样本音色；

9、第一训练模块，用于基于所述第一样本音频以及所述第一样本生成音频，对所述音频生成模型进行预训练，得到训练后的所述音频生成模型；

10、第二训练模块，用于在训练后的所述音频生成模型的基础上，基于第二样本音频对应的第二样本音频特征以及目标音色标识，对所述音频生成模型进行迁移训练，得到音频转换模型，所述第二样本音频为具有目标音色的音频，所述音频转换模型用于对音频进行音色转换，且不同目标音色对应音频转换模型的模型参数不同；

11、第二音频输出模块，用于将待转换音频对应的目标音频特征以及所述目标音色标识输入所述音频转换模型，通过所述音频转换模型输出目标音频，所述目标音频具有所述目标音色，且所述目标音频与所述待转换音频具有不同音色但具有相同音频内容。

12、另一方面，本申请实施例提供了一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令，所述至少一条指令由所述处理器加载并执行以实现如上述方面所述的音频转换方法。

13、另一方面，本申请实施例提供了一种计算机可读存储介质，所述可读存储介质中存储有至少一条指令，所述至少一条指令由处理器加载并执行以实现如上述方面所述的音频转换方法。

14、另一方面，本申请实施例提供了一种计算机程序产品，该计算机程序产品包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述方面提供的音频转换方法。

15、本申请实施例中，先根据具有不同样本音色的第一样本音频对应的第一样本音频特征以及第一样本音色标识，对音频生成模型进行预训练，并在经过预训练的音频生成模型的基础上，根据具有目标音色的第二样本音频对应的第二样本音频特征以及目标音色标识，对音频生成模型进行迁移训练，从而得到用于对音频进行音色转换的音频转换模型，进而通过将待转换音频对应的目标音频特征以及目标音色标识输入音频转换模型，即可以得到具有目标音色的目标音频。采用本申请实施例提供的方案，能够实现对待转换音频进行音色转换，并且通过先后对音频生成模型进行预训练和迁移训练，提高了模型的训练效率，优化了目标音频的音频生成质量。

技术特征：

1.一种音频转换方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述将第一样本音频对应的第一样本音频特征以及第一样本音色标识输入音频生成模型，通过所述音频生成模型输出第一样本生成音频，包括：

3.根据权利要求2所述的方法，其特征在于，所述基于所述第一样本音频以及所述第一样本生成音频，对所述音频生成模型进行预训练，得到训练后的所述音频生成模型，包括：

4.根据权利要求3所述的方法，其特征在于，所述方法还包括：

5.根据权利要求1所述的方法，其特征在于，所述基于第二样本音频对应的第二样本音频特征以及目标音色标识，对所述音频生成模型进行迁移训练，得到音频转换模型，包括：

6.根据权利要求5所述的方法，其特征在于，所述基于所述第二样本音频以及所述第二样本生成音频，对所述音频生成模型进行迁移训练，得到所述音频转换模型，包括：

7.根据权利要求6所述的方法，其特征在于，所述方法还包括：

8.根据权利要求7所述的方法，其特征在于，所述获取所述第二样本音频对应的第二样本基频特征以及第二样本内容特征，包括：

9.根据权利要求5所述的方法，其特征在于，所述获取所述第二样本音频对应的第二样本频谱特征以及所述目标音色标识之前，所述方法还包括：

10.根据权利要求9所述的方法，其特征在于，所述方法还包括：

11.根据权利要求9所述的方法，其特征在于，所述方法还包括：

12.根据权利要求5至11任一所述的方法，其特征在于，在存在至少两类第二样本音频的情况下，不同类型的第二样本音频对应不同目标音色，所述方法还包括：

13.根据权利要求12所述的方法，其特征在于，所述将待转换音频对应的目标音频特征以及所述目标音色标识输入所述音频转换模型，通过所述音频转换模型输出目标音频，包括：

14.一种音频转换装置，其特征在于，所述装置包括：

15.一种计算机设备，其特征在于，所述计算机设备包括处理器和存储器；所述存储器存储有至少一条指令，所述至少一条指令用于被所述处理器执行以实现如权利要求1至13任一所述的音频转换方法。

16.一种计算机可读存储介质，其特征在于，所述存储介质存储有至少一条指令，所述至少一条指令用于被处理器执行以实现如权利要求1至13任一所述的音频转换方法。

17.一种计算机程序产品，其特征在于，所述计算机程序产品包括计算机指令，所述计算机指令存储在计算机可读存储介质中；计算机设备的处理器从所述计算机可读存储介质读取所述计算机指令，所述处理器执行所述计算机指令，使得所述计算机设备实现如权利要求1至13任一所述的音频转换方法。

技术总结本申请实施例公开了一种音频转换方法、装置、设备及存储介质，属于音频技术领域。该方法包括：将第一样本音频对应的第一样本音频特征以及第一样本音色标识输入音频生成模型，通过音频生成模型输出第一样本生成音频；基于第一样本音频以及第一样本生成音频，对音频生成模型进行预训练，得到训练后的音频生成模型；在训练后的音频生成模型的基础上，基于第二样本音频对应的第二样本音频特征以及目标音色标识，对音频生成模型进行迁移训练，得到音频转换模型；将待转换音频对应的目标音频特征以及目标音色标识输入音频转换模型，通过音频转换模型输出目标音频。采用本申请实施例提供的方案，能够提高音频转换效率，优化目标音频的音频效果。技术研发人员：杨耀根,宋阳受保护的技术使用者：OPPO广东移动通信有限公司技术研发日：技术公布日：2024/4/7