技术新讯 > 乐器声学设备的制造及制作,分析技术 > 基于数据增广的语音克隆方法、装置及介质 > 正文

基于数据增广的语音克隆方法、装置及介质

国知局
2024-06-21 11:51:22

本发明涉及计算机软件工程的语音合成技术，尤其涉及一种基于数据增广的语音克隆方法、装置及介质。

背景技术：

1、语音克隆是人工智能领域重要组成部分之一，目的是在保留说话人的说话内容的同时，实现音色、韵律等方面的转换。目前语音克隆在现实中应用极广，例如数字虚拟人，个性化语音合成，外语培训系统等。如果能在极少资源下(一句话，≤10s)实现快速且高质量的语音克隆，可以极大地节省大量的人力物力，减少资源消耗，提高人工智能企业的效益与市场竞争力。

2、现有的语音克隆方法里大多涉及复杂且不稳定的模型训练，训练时间长，语音克隆效果不够稳定，而且说话人身份转换的关键方法通常是基于特征分离，也就是将说话人身份特征和语音内容特征分开，或是建立两个说话人之间的映射。

技术实现思路

1、为至少一定程度上解决现有技术中存在的技术问题之一，本发明的目的在于提供一种基于数据增广的语音克隆方法、装置及介质。

2、本发明所采用的技术方案是：

3、一种基于数据增广的语音克隆方法，包括以下步骤：

4、s1、对参考语音和源语音做特征提取，并针对参考语音特征库做特征提取，得到关键特征；

5、s2、针对参考语音特征库中的关键特征，利用其数据分布做数据增广；

6、s3、对源语音特征集合和参考语音特征库做相关性分析；

7、s4、针对源语音特征集合的每一条特征序列在数据增广后的特征库中搜索到一系列相关性最高的参考特征集合，并代替源语音特征；

8、s5、构建声码器，将多条参考语音当作源语音重复步骤s2-s4，将语音特征和原始语音作为输入对声码器进行训练；

9、s6、将待转换语音重复步骤s1-s3，得到转换后语音特征，输入训练后的声码器，声码器推理得到转换后语音，此时说话人身份已改变。

10、进一步地，所述步骤s1，包括：

11、使用自监督语音表示模型对参考语音和源语音做特征提取；

12、使用特征筛选的方法提取出参考语音特征库中的关键特征，以便后续语音特征转换。

13、进一步地，所述步骤s2，包括：

14、利用数据增广方法，对参考语音特征库的关键特征进行样本增广，以增强参考说话人的语音特征，扩大参考语音特征库，为后续语音克隆步骤做准备。

15、进一步地，所述步骤s4，包括：

16、通过相关性分析，得到与源特征集合的相关性最高的参考特征集合，并用该参考特征集合代替源语音特征序列，以实现语音特征的转换。

17、进一步地，所述步骤s5，包括：

18、利用已有的参考语音集合对声码器进行预训练，以增强模型的鲁棒性，提高音频质量。

19、本发明所采用的另一技术方案是：

20、一种基于数据增广的语音克隆装置，包括：

21、至少一个处理器；

22、至少一个存储器，用于存储至少一个程序；

23、当所述至少一个程序被所述至少一个处理器执行，使得所述至少一个处理器实现如上所述方法。

24、本发明所采用的另一技术方案是：

25、一种计算机可读存储介质，其中存储有处理器可执行的程序，所述处理器可执行的程序在由处理器执行时用于执行如上所述方法。

26、与现有技术相比，本发明具有以下优点与技术效果：

27、(1)本发明仅需一句话的参考语音即可实现较高效果的语音克隆，语音克隆过程简单有效，仅需在语音重建模块中对声码器进行一次预训练，无需额外的训练。

28、(2)本发明操作非常的简便，测试人员无须了解内部原理，即可快捷方便地完成语音克隆工作，拥有极强的易用性，有广阔的应用空间。

技术特征：

1.一种基于数据增广的语音克隆方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于数据增广的语音克隆方法，其特征在于，所述步骤s1，包括：

3.根据权利要求1所述的一种基于数据增广的语音克隆方法，其特征在于，所述步骤s2，包括：

4.根据权利要求1所述的一种基于数据增广的语音克隆方法，其特征在于，所述步骤s4，包括：

5.根据权利要求1所述的一种基于数据增广的语音克隆方法，其特征在于，所述步骤s5，包括：

6.一种基于数据增广的语音克隆装置，其特征在于，包括：

7.一种计算机可读存储介质，其中存储有处理器可执行的程序，其特征在于，所述处理器可执行的程序在由处理器执行时用于执行如权利要求1-5任一项所述方法。

技术总结本发明公开了一种基于数据增广的语音克隆方法、装置及介质，涉及计算机软件工程的语音合成技术。其中方法包括：S1、对参考语音和源语音做特征提取，并针对参考语音特征库做特征提取，得到关键特征；S2、对关键特征做数据增广；S3、对源语音特征集合和参考语音特征库做相关性分析；S4、将参考特征集合代替源语音特征序列，实现语音特征的转换；S5、构建声码器，将多条参考语音当作源语音重复步骤S2‑S4，将语音特征和原始语音作为输入对声码器进行训练；S6、将待转换语音重复步骤S1‑S3，得到转换后语音特征，输入训练后的声码器，声码器推理得到转换后语音。本发明适用于单样本语音克隆，可以应用于实际的语音克隆工作环境。技术研发人员：黄翰,黎姿,徐粤婷受保护的技术使用者：华南理工大学技术研发日：技术公布日：2024/5/12