技术新讯 > 乐器声学设备的制造及制作,分析技术 > 音频处理方法、装置及终端设备与流程 > 正文

音频处理方法、装置及终端设备与流程

国知局
2024-06-21 11:33:00

本公开实施例涉及音频处理，尤其涉及一种音频处理方法、装置及终端设备。

背景技术：

1、音色转换是指将一段音频中的音色转换为其它音色，音频的内容不变。例如，终端设备可以对用户的语音进行音色转换处理，使得语音中该用户的音色变成其它的用户的音色。

2、目前，终端设备可以通过音色转换模型对一段音频中的音色进行转换。例如，终端设备通过音色转换模型可以将任意一段语音中的音色转换为预设的10种音色，其中，预设的10种音色是音色转换模型预先训练好的。但是，已训练好的音色转换模型中的预设音色是固定的，若需要增加新的音色，则需要构建大量的训练样本重新训练新的音色转换模型，进而导致新音色的转换效率较低。

技术实现思路

1、本公开提供一种音频处理方法、装置及终端设备，用于解决现有技术中新音色的转换效率较低的技术问题。

2、第一方面，本公开提供一种音频处理方法，该方法包括：

3、获取第一音频；

4、获取目标音色的标识；

5、基于目标音色转换模型、所述第一音频和所述目标音色的标识，确定第二音频，所述第二音频的音色为所述目标音色，所述目标音色转换模型是基于初始音色转换模型和多种音频特征训练得到的，所述初始音色转换模型用于音色转换，所述初始音色转换模型的转换音色中不包括所述目标音色；

6、播放所述第二音频。

7、第二方面，本公开提供一种音频处理装置，该音频处理装置包括第一获取模块、第二获取模块、确定模块和播放模块，其中：

8、所述第一获取模块用于，获取第一音频；

9、所述第二获取模块用于，获取目标音色的标识；

10、所述确定模块用于，基于目标音色转换模型、所述第一音频和所述目标音色的标识，确定第二音频，所述第二音频的音色为所述目标音色，所述目标音色转换模型是基于初始音色转换模型和多种音频特征训练得到的，所述初始音色转换模型用于音色转换，所述初始音色转换模型的转换音色中不包括所述目标音色；

11、所述播放模块用于，播放所述第二音频。

12、第三方面，本公开实施例提供一种终端设备，包括：处理器和存储器；

13、所述存储器存储计算机执行指令；

14、所述处理器执行所述存储器存储的计算机执行指令，使得所述至少一个处理器执行如上第一方面以及第一方面各种可能涉及的所述音频处理方法。

15、第四方面，本公开实施例提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机执行指令，当处理器执行所述计算机执行指令时，实现如上第一方面以及第一方面各种可能涉及的所述音频处理方法。

16、第五方面，本公开实施例提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上第一方面以及第一方面各种可能涉及的所述音频处理方法。

17、本公开提供一种音频处理方法、装置及终端设备，终端设备获取第一音频、获取目标音色的标识，基于目标音色转换模型、第一音频和目标音色的标识，确定第二音频，并播放第二音频，其中，第二音频的音色为目标音色，目标音色转换模型是基于初始音色转换模型和多种音频特征训练得到的，初始音色转换模型用于音色转换，初始音色转换模型的转换音色中不包括目标音色。在上述方法中，在初始音色转换模型中的转换音色不包括目标音色时，由于终端设备可以通过多种音频特征对初始音色转换模型中的模型参数进行微调，因此，终端设备可以使用较短的时长获取转换音色包括目标音色的目标音色转换模型，进而通过目标音色转换模型进行目标音色的转换，提高目标音色的转换效率。

技术特征：

1.一种音频处理方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述多种音频特征包括音色特征和如下至少一种音频特征：

3.根据权利要求1所述的方法，其特征在于，所述基于目标音色转换模型、所述第一音频和所述目标音色的标识，确定第二音频，包括：

4.根据权利要求1所述的方法，其特征在于，所述获取第一音频，包括：

5.根据权利要求1所述的方法，其特征在于，所述获取目标音色的标识，包括：

6.根据权利要求1-5任一项所述的方法，其特征在于，所述目标音色转换模型是通过以下步骤确定的：

7.根据权利要求6所述的方法，其特征在于，所述获取所述样本音频的第一音频特征和所述音色转换音频的第二音频特征，包括：

8.根据权利要求6所述的方法，其特征在于，所述基于所述第一音频特征、所述第二音频特征、所述第一音色特征和所述初始音色转换模型，得到所述目标音色转换模型，包括：

9.根据权利要求8所述的方法，其特征在于，所述基于所述第一预测误差、所述第二预测误差和所述第三预测误差，对所述初始音色转换模型进行处理，得到所述目标音色转换模型，包括：

10.根据权利要求7-9任一项所述的方法，其特征在于，所述方法还包括：

11.一种音频处理装置，其特征在于，包括第一获取模块、第二获取模块、确定模块和播放模块，其中：

12.一种终端设备，其特征在于，包括：处理器和存储器；

13.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机执行指令，当处理器执行所述计算机执行指令时，实现如权利要求1-10任一项所述的音频处理方法。

14.一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-10任一项所述的音频处理方法。

技术总结本公开提供一种音频处理方法、装置及终端设备，该方法包括：获取第一音频；获取目标音色的标识；基于目标音色转换模型、所述第一音频和所述目标音色的标识，确定第二音频，所述第二音频的音色为所述目标音色，所述目标音色转换模型是基于初始音色转换模型和多种音频特征训练得到的，所述初始音色转换模型用于音色转换，所述初始音色转换模型的转换音色中不包括所述目标音色；播放所述第二音频。降低目标音色转换模型的训练时长，提高目标音色转换的效率。技术研发人员：陈远哲,王智超,田乔,王玉平,王雨轩受保护的技术使用者：抖音视界有限公司技术研发日：技术公布日：2024/3/11