技术新讯 > 乐器声学设备的制造及制作,分析技术 > 音色克隆方法、装置、存储介质及计算机设备与流程 > 正文

音色克隆方法、装置、存储介质及计算机设备与流程

国知局
2024-06-21 10:39:11

本技术涉及音色克隆，尤其涉及一种音色克隆方法、装置、存储介质及计算机设备。

背景技术：

1、音色克隆技术主要包含两个方向，一种文本到语音的语音合成技术，一种是语音到语音的语音转换技术。其目标是使生成语音的音色为克隆目标音色。这种技术可以用在配音，直播，社交等领域，进而降低人工成本，并提升社交趣味。

2、目前，基于语音合成技术克隆音色并控制情感，需要大量情感标注，并且，对文本标注语料的标注成本较高，在实际应用中较为困难；而基于语音转换技术来克隆音色，虽然不需要对文本标注语料，但由于缺乏情感控制，进而导致其克隆音色的相似度比语音合成技术要低。

技术实现思路

1、本技术的目的旨在至少能解决上述的技术缺陷之一，特别是现有技术中通过语音合成技术或语音转换技术进行音色克隆时，无法在降低人工标注成本的同时，提高音色克隆的相似度的技术缺陷。

2、本技术提供了一种音色克隆方法，所述方法包括：

3、获取至少一个用户输入的文本特征、待克隆的目标音色，以及多种待融合的情绪特征；

4、将所述文本特征分别与各种情绪特征进行融合，并将融合后的文本特征合成为带有不同情绪的音频特征；

5、基于所述目标音色，将带有不同情绪的音频特征中的至少一个音频特征进行语音转换，得到与所述目标音色对应的音频波形。

6、可选地，所述获取至少一个用户输入的文本特征，包括：

7、获取至少一个用户输入的文本信息；

8、确定语音合成模型，所述语音合成模型包括文本编码器；

9、将所述文本信息输入至所述文本编码器中，得到所述文本编码器输出的与所述文本信息对应的文本特征。

10、可选地，所述获取多种待融合的情绪特征，包括：

11、确定情绪提取模型；

12、通过所述情绪提取模型生成不同情绪下的情绪特征，并将不同情绪下的情绪特征作为多种待融合的情绪特征。

13、可选地，所述情绪提取模块包括语音识别网络和分类层；

14、所述通过所述情绪提取模型生成不同情绪下的情绪特征，包括：

15、通过所述语音识别网络生成多种声学特征，其中，所述语音识别网络是使用语音情感数据库对预训练的hubert模型进行微调后得到的；

16、利用所述分类层对各种声学特征进行情绪识别，得到各种声学特征对应的情绪特征。

17、可选地，所述将所述文本特征分别与各种情绪特征进行融合，并将融合后的文本特征合成为带有不同情绪的音频特征，包括：

18、将所述文本特征和各种情绪特征输入至语音合成模型中，得到所述语音合成模型输出的带有不同情绪的音频特征。

19、可选地，所述语音合成模型包括时长预测模块和解码模块；

20、所述将所述文本特征和各种情绪特征输入至所述语音合成模型中，得到所述语音合成模型输出的带有不同情绪的音频特征，包括：

21、通过所述时长预测模块将所述文本特征和各种情绪特征转换为不同情绪下的音素时长对数；

22、利用所述解码模块根据不同情绪下的音素时长对数生成带有不同情绪的音频特征。

23、可选地，所述基于所述目标音色，将带有不同情绪的音频特征中的至少一个音频特征进行语音转换，得到与所述目标音色对应的音频波形，包括：

24、选取带有不同情绪的音频特征中与所述目标音色的音频特征相似度最高的音频特征作为目标音频特征；

25、对所述目标音频特征进行语音转换后，得到与所述目标音色对应的音频波形。

26、可选地，所述选取带有不同情绪的音频特征中与所述目标音色的音频特征相似度最高的音频特征作为目标音频特征，包括：

27、获取声纹模型；

28、通过所述声纹模型选取带有不同情绪的音频特征中与所述目标音色的音频特征相似度最高的音频特征；

29、将所述相似度最高的音频特征作为目标音频特征。

30、可选地，所述声纹模型包括声纹提取模型和声纹匹配模型；

31、所述通过所述声纹模型选取带有不同情绪的音频特征中与所述目标音色的音频特征相似度最高的音频特征，包括：

32、通过所述声纹提取模型分别从带有不同情绪的音频特征中提取声纹特征，并形成声纹特征集合，以及，通过所述声纹提取模型提取所述目标音色对应的声纹特征；

33、通过所述声纹匹配模型将所述声纹特征集合中的每一声纹特征分别与所述目标音色对应的声纹特征进行相似度匹配，得到相似度匹配结果；

34、将所述相似度匹配结果中相似度最高的声纹特征对应的音频特征作为目标音频特征。

35、可选地，所述对所述目标音频特征进行语音转换后，得到与所述目标音色对应的音频波形，包括：

36、确定语音转换模型，所述语音转换模型是利用预设时长的目标音色数据对ppg-vc模型进行微调后得到的；

37、通过所述语音转换模型对所述目标音频特征进行语音转换，得到与所述目标音色对应的音频波形。

38、本技术还提供了一种音色克隆装置，包括：

39、数据获取模块，用于获取至少一个用户输入的文本特征、待克隆的目标音色，以及多种待融合的情绪特征；

40、特征融合模块，用于将所述文本特征分别与各种情绪特征进行融合，并将融合后的文本特征合成为带有不同情绪的音频特征；

41、音色克隆模块，用于基于所述目标音色，将带有不同情绪的音频特征中的至少一个音频特征进行语音转换，得到与所述目标音色对应的音频波形。

42、本技术还提供了一种存储介质，所述存储介质中存储有计算机可读指令，所述计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行如上述实施例中任一项所述音色克隆方法的步骤。

43、本技术还提供了一种计算机设备，包括：一个或多个处理器，以及存储器；

44、所述存储器中存储有计算机可读指令，所述计算机可读指令被所述一个或多个处理器执行时，执行如上述实施例中任一项所述音色克隆方法的步骤。

45、从以上技术方案可以看出，本技术实施例具有以下优点：

46、本技术提供的音色克隆方法、装置、存储介质及计算机设备，在进行音色克隆时，可以先获取至少一个用户输入的文本特征、待克隆的目标音色，以及多种待融合的情绪特征，接着将文本特征分别与各种情绪特征进行融合，并将融合后的文本特征合成为带有不同情绪的音频特征；该过程使用特征融合的方式将文本特征与各种情绪特征进行融合，并对融合后的文本特征进行语音合成操作，进而避免了直接通过语音合成的方式合成带有不同情绪的音频特征时需要对文本特征进行情感标注的过程，从而节省了人工标注成本；并且，本技术还可以基于目标音色将带有不同情绪的音频特征中的至少一个音频特征进行语音转换，如将带有不同情绪的音频特征中与目标音色最为接近的音频特征进行语音转换，这样既可以快速得到与目标音色对应的音频波形，又可以提高音色克隆的相似度。