技术新讯 > 乐器声学设备的制造及制作,分析技术 > 语音克隆方法、装置、存储介质及计算机设备与流程 > 正文

语音克隆方法、装置、存储介质及计算机设备与流程

国知局
2024-06-21 10:39:28

本申请涉及语音克隆，尤其涉及一种语音克隆方法、装置、存储介质及计算机设备。

背景技术：

1、语音克隆是指对一个人的语音进行录制和处理，从而生成一个能够模拟出该人的语音的计算机程序。语音克隆技术可以根据用户的语音特征生成对应的语音模型，然后通过语音合成技术将文本转换成用户的语音，实现更加真实的语音交互。

2、目前，传统的语音克隆需要大量的数据集来训练模型，少批量数据会导致模型效果不佳。例如，当使用少批量的数据进行语音克隆时，存在发音准确度低，合成音频漏字、情感自然度差等问题。

技术实现思路

1、本申请的目的旨在至少能解决上述的技术缺陷之一，特别是现有技术中使用少批量的数据进行语音克隆时，存在发音准确度低，合成音频漏字、情感自然度差等问题的技术缺陷。

2、本申请提供了一种语音克隆方法，所述方法包括：

3、获取目标用户输入的文本信息及待克隆的目标音色对应的音频信息；

4、通过语音克隆模型确定所述文本信息的音素序列、所述音素序列中每一音素的语义信息，以及所述音频信息的音频风格后进行语音合成，并在合成时，将所述文本信息与待克隆的目标语音进行对齐，得到目标语音。

5、可选地，所述语音克隆模型包括音素生成模块；

6、所述通过语音克隆模型确定所述文本信息的音素序列，包括：

7、通过所述音素生成模块将所述文本信息转换为拼音后，将所述拼音转换为音素序列。

8、可选地，所述语音克隆模型包括语义生成模块；

9、所述通过语音克隆模型确定所述音素序列中每一音素的语义信息，包括：

10、利用所述语义生成模块将所述文本信息进行分词后，确定每一分词对应的语义信息；

11、利用所述语义生成模块根据所述音素序列中每一音素与相应分词之间的对应关系，确定每一音素的语义信息。

12、可选地，所述语音克隆模型包括音频风格生成模块；

13、所述通过语音克隆模型确定所述音频信息的音频风格，包括：

14、利用所述音频风格生成模块将所述音频信息进行短时傅里叶变换后得到梅尔频谱；

15、通过所述音频风格生成模块将所述梅尔频谱输入参考编码器中，得到所述音频信息的音频风格。

16、可选地，所述语音克隆模型包括随机时长预测器和目标时长帧预测模型；

17、所述在合成时，将所述文本信息与待克隆的目标语音进行对齐，包括：

18、在合成时，通过所述随机时长预测器预测所述音素序列的音素时长的对数，并将所述音素时长的对数输入至所述目标时长帧预测模型中；

19、通过所述目标时长帧预测模型预测音素时长帧信息，并利用所述音素时长帧信息将所述文本信息与待克隆的目标语音进行对齐。

20、可选地，所述目标时长帧预测模型的训练过程，包括：

21、获取训练文本的训练音素时长对数以及真实音素时长帧信息；

22、将所述训练音素时长对数输入至初始时长帧预测模型中，得到所述初始时长帧预测模型输出的预测音素时长帧信息；

23、求取所述预测音素时长帧信息与所述真实音素时长帧信息之间的误差值，并将所述误差值带入到对齐损失函数中，得到对齐损失；

24、利用所述对齐损失对所述初始时长帧预测模型进行迭代训练，直到达到预设训练条件后，得到目标时长帧预测模型。

25、可选地，所述语音克隆模型的确定过程，包括：

26、将预先训练好的多人混合模型作为预训练的语音克隆模型，并利用所述目标音色对所述预训练的语音克隆模型进行微调后，得到合成所述目标音色的语音克隆模型；

27、或者，获取预先训练好的多人混合模型，并根据所述目标音色指定所述多人混合模型的克隆音色后，得到语音克隆模型。

28、本申请还提供了一种语音克隆装置，包括：

29、信息获取模块，用于获取目标用户输入的文本信息及待克隆的目标音色对应的音频信息；

30、语音克隆模块，用于通过语音克隆模型确定所述文本信息的音素序列、所述音素序列中每一音素的语义信息，以及所述音频信息的音频风格后进行语音合成，并在合成时，将所述文本信息与待克隆的目标语音进行对齐，得到目标语音。

31、本申请还提供了一种存储介质，所述存储介质中存储有计算机可读指令，所述计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行如上述实施例中任一项所述语音克隆方法的步骤。

32、本申请还提供了一种计算机设备，包括：一个或多个处理器，以及存储器；

33、所述存储器中存储有计算机可读指令，所述计算机可读指令被所述一个或多个处理器执行时，执行如上述实施例中任一项所述语音克隆方法的步骤。

34、从以上技术方案可以看出，本申请实施例具有以下优点：

35、本申请提供的语音克隆方法、装置、存储介质及计算机设备，当获取到目标用户输入的文本信息及待克隆的目标音色对应的音频信息后，本申请可以通过语音克隆模型确定文本信息的音素序列、音素序列中每一音素的语义信息，以及音频信息的音频风格后进行语音合成，并在合成时，将文本信息与待克隆的目标语音进行对齐，这样克隆得到的目标语音既可以通过文本信息与目标语音对齐的方式来解决少批量数据进行语音克隆时的漏字问题，又可以通过音素序列中每一音素的语义信息来提高合成时的韵律和发音准确度，还可以通过目标音色的音频风格来提高合成时的情感自然度，进而达到较高的语音克隆效果，且本申请的语音克隆方法具有较好的稳定性和可扩展性，可以为语音合成和人机交互等领域提供有效的支持。

技术特征：

1.一种语音克隆方法，其特征在于，所述方法包括：

2.根据权利要求1所述的语音克隆方法，其特征在于，所述语音克隆模型包括音素生成模块；

3.根据权利要求1所述的语音克隆方法，其特征在于，所述语音克隆模型包括语义生成模块；

4.根据权利要求1所述的语音克隆方法，其特征在于，所述语音克隆模型包括音频风格生成模块；

5.根据权利要求1所述的语音克隆方法，其特征在于，所述语音克隆模型包括随机时长预测器和目标时长帧预测模型；

6.根据权利要求5所述的语音克隆方法，其特征在于，所述目标时长帧预测模型的训练过程，包括：

7.根据权利要求1-6中任一项所述的语音克隆方法，其特征在于，所述语音克隆模型的确定过程，包括：

8.一种语音克隆装置，其特征在于，包括：

9.一种存储介质，其特征在于：所述存储介质中存储有计算机可读指令，所述计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行如权利要求1至7中任一项所述语音克隆方法的步骤。

10.一种计算机设备，其特征在于，包括：一个或多个处理器，以及存储器；

技术总结本申请提供的语音克隆方法、装置、存储介质及计算机设备，当获取到目标用户输入的文本信息及待克隆的目标音色对应的音频信息后，可以通过语音克隆模型确定文本信息的音素序列、音素序列中每一音素的语义信息，以及音频信息的音频风格后进行语音合成，并在合成时，将文本信息与待克隆的目标语音进行对齐，这样克隆得到的目标语音既可以通过文本信息与目标语音对齐的方式来解决少批量数据进行语音克隆时的漏字问题，又可以通过音素序列中每一音素的语义信息来提高合成时的韵律和发音准确度，还可以通过目标音色的音频风格来提高合成时的情感自然度，进而达到较高的语音克隆效果。技术研发人员：周阳,熊佳,马金龙,黄祥康,盘子圣,徐志坚,谢睿,陈光尧受保护的技术使用者：广州趣研网络科技有限公司技术研发日：技术公布日：2024/1/15