技术新讯 > 乐器声学设备的制造及制作,分析技术 > 一种少量数据的自动训练的音色克隆方法与流程  >  正文

一种少量数据的自动训练的音色克隆方法与流程

  • 国知局
  • 2024-06-21 10:42:07

本发明涉及语音生成和克隆,尤其涉及一种少量数据的自动训练的音色克隆方法。

背景技术:

1、语音生成和克隆技术是数字人的普及与应用中至关重要的技术要点,旨在通过采集个体说话人的声音,通过模型学习后,产出特定文字内容且音色和原说话人音色高度相似的音频。现在比较流行的是通过深度学习的方法来学习个体的音色特征,通过训练模型来生成出带有学习对象声音特征的指定内容的音频内容。语音生成和音色克隆技术在日常生活中有着广泛的应用。语音生成在辅助技术,虚拟助手,智能音箱,游戏和虚拟现实等方面有重要的作用,而音色克隆可以进一步定制语音生成的音色,允许用户根据自己的喜好选择一个特定的声音,从而个性化他们的语音合成体验,也可用于电影、电视剧等娱乐制作,例如在需要角色说出特定台词但演员不可用的情况下。在游戏和虚拟现实领域,音色克隆可以使角色的声音更具个性化和真实感。

2、目前的音色克隆分为两种大类,一种是通过少量说话人的语音作为prompt来提取说话人音色特征,来控制生成语音的音色,优点是在克隆音色时,只需要少量的说话人数据,缺点是需要大量不同说话人的数据来训练模型,以及最终生成语音时,音色相似度不够高;另一种是通过较多的单个说话人的数据来训练模型,并让模型学习这个特定说话人的特征,并将说话人特征嵌入到语音特征中,使得生成的语音具有原说话人的音色,优点是音色高度相似,缺点是在需要定制特定说话人模型时,需要大量收集该说话人的高质量数据,如果数据较少,则生成出来的语音容易发音错误。

3、现有的音色克隆方法往往依赖大量的训练数据,这在某种程度上限制了它们在实际应用中的广泛性,特别是对于那些难以获得大量语音样本的目标说话人。另外,传统方法中很少考虑到音频与视觉特征的融合,导致生成的语音在音色表达上缺乏丰富性。而且,一些方法在模型优化和训练策略上存在单一化,如仅采用固定的学习率、缺乏迁移学习策略等,这导致模型训练效率低下,甚至陷入局部最优。此外,没有对生成语音进行细致的音色相似度校验和内容准确性评估,使得输出的语音质量难以得到保障。

技术实现思路

1、本发明的目的是解决现有技术中存在的缺点,而提出的一种少量数据的自动训练的音色克隆方法。

2、为了实现上述目的,本发明采用了如下技术方案:一种少量数据的自动训练的音色克隆方法,包括以下步骤:

3、s1:基于现有的少量目标说话人的语音数据,采用hubert或wav2vec自监督学习算法,提取原说话人语音的声学特征,并通过音频信号处理模型rmvpe提取f0基频和uv语音活性信息,应用注意力机制集中关注重要音色特征,生成声学特征和音色信息;

4、s2:基于所述声学特征和音色信息,采用条件生成对抗网络模型,将目标说话人的音色特征与文本内容进行关联,并进行初步音色转换,生成初步音色转换的语音;

5、s3:基于所述初步音色转换的语音,应用卷积神经网络或循环神经网络对语音中的视觉信息进行分析和建模,提取出与音色关联的视觉特征,并将其与音频特征进行融合,生成音频视觉融合特征;

6、s4:基于所述音频视觉融合特征,采用adam或rmsprop自适应学习率算法对语音生成模型的参数进行优化和更新,结合学习率衰减策略,进行模型训练,生成优化后的音色转换模型;

7、s5:基于所述优化后的音色转换模型,进行迁移学习,采用预训练的wavenet或tacotron模型作为基础,对其进行微调,适配目标说话人的音色特征,生成迁移学习后的音色转换模型;

8、s6:基于所述迁移学习后的音色转换模型,在多尺度提取语音特征,并进行特征融合,应用长短期记忆网络或门控循环单元进行学习和建模,生成多尺度特征融合后的音色转换模型;

9、s7:基于所述多尺度特征融合后的音色转换模型,进行音色克隆,生成与目标说话人音色近似的语音,并使用自动语音识别模型进行内容准确度检验,生成音色克隆后的语音和内容准确度信息;

10、s8:基于所述音色克隆后的语音和内容准确度信息,使用说话人嵌入模型speakerembedding对生成的语音进行音色相似度校验,并根据设定的阈值筛选出音色相近的语音,生成处理后语音;

11、s9:将所述处理后语音添加至训练数据集,并重新训练生成对抗网络语音生成模型,迭代训练和扩充训练数据集,直到达到预期的效果,得到音色克隆增强模型和近似语音数据集。

12、作为本发明的进一步方案,基于现有的少量目标说话人的语音数据,采用hubert或wav2vec自监督学习算法,提取原说话人语音的声学特征,并通过音频信号处理模型rmvpe提取f0基频和uv语音活性信息,应用注意力机制集中关注重要音色特征,生成声学特征和音色信息的步骤具体为:

13、s101:基于现有的少量目标说话人的语音数据,采用hubert自监督学习算法,转化语音为语谱图的形式,并进行特征压缩,生成语谱图;

14、s102:基于所述语谱图,采用wav2vec自监督学习算法,进行特征提取,并运用pca主成分分析进行特征降维,生成声学特征;

15、s103:基于所述声学特征,采用rmvpe音频信号处理模型,进行f0基频提取,并运用滤波器进行uv语音活性分离,生成基音信息;

16、s104:基于所述基音信息,采用注意力机制算法,关注并提取重要音色特征,并应用快速傅里叶变换进行频域分析,生成音色特征;

17、s105:基于所述声学特征和音色特征,采用特征融合技术,生成声学特征和音色信息。

18、作为本发明的进一步方案,基于所述声学特征和音色信息,采用条件生成对抗网络模型,将目标说话人的音色特征与文本内容进行关联,并进行初步音色转换,生成初步音色转换的语音的步骤具体为:

19、s201:基于所述声学特征和音色信息,采用条件生成对抗网络模型,关联目标说话人的音色特征与语音文本数据,并运用支持向量机进行分类,生成关联的数据集;

20、s202:基于所述关联的数据集,采用条件生成对抗网络模型,进行模型训练,并应用dropout技术减少过拟合,生成初步训练模型;

21、s203:基于所述初步训练模型,采用音色转换技术,并应用bn进行规范化处理,生成初步转换语音;

22、s204:评估所述初步转换语音,采用音质评估模型,进行音质评估和改进,并应用adam优化器进行参数优化,生成初步音色转换的提升语音;

23、s205:对所述初步音色转换的提升语音进行再学习,采用迁移学习技术,生成初步音色转换的语音。

24、作为本发明的进一步方案,基于所述初步音色转换的语音,应用卷积神经网络或循环神经网络对语音中的视觉信息进行分析和建模,提取出与音色关联的视觉特征,并将其与音频特征进行融合,生成音频视觉融合特征的步骤具体为:

25、s301:基于所述初步音色转换的语音,采用卷积神经网络,进行视觉特征分析,并应用maxpooling进行特征压缩,生成视觉特征;

26、s302:对所述视觉特征,采用循环神经网络,进行特征挖掘,并运用长短时记忆网络加深特征学习,生成深度视觉特征;

27、s303:基于所述深度视觉特征、声学特征和音色信息,采用特征融合技术,进行初步融合,并应用激活函数relu增强特征的非线性,生成初步音频视觉融合特征;

28、s304:对所述初步音频视觉融合特征进行优化,采用神经网络,并运用gradientdescent进行参数优化,生成优化后的音频视觉融合特征;

29、s305:基于所述优化后的音频视觉融合特征,采用深度学习网络,进行特征学习和融合,生成音频视觉融合特征。

30、作为本发明的进一步方案,基于所述音频视觉融合特征,采用adam或rmsprop自适应学习率算法对语音生成模型的参数进行优化和更新,结合学习率衰减策略,进行模型训练,生成优化后的音色转换模型的步骤具体为:

31、s401:基于所述音频视觉融合特征,设定初始学习率;

32、s402:基于所述初始学习率,应用adam自适应学习率算法,引入一阶矩估计和二阶矩估计,对模型的参数进行初步优化,生成adam优化后的模型参数;

33、s403:利用所述adam优化后的模型参数,再采用rmsprop自适应学习率算法,在参数更新时加入一阶矩估计,进行参数调整,生成rmsprop优化后的模型参数;

34、s404:基于所述rmsprop优化后的模型参数,结合学习率衰减策略,进行模型训练和参数更新,生成优化后的音色转换模型。

35、作为本发明的进一步方案,基于所述优化后的音色转换模型,进行迁移学习,采用预训练的wavenet或tacotron模型作为基础,对其进行微调,适配目标说话人的音色特征,生成迁移学习后的音色转换模型的步骤具体为:

36、s501:基于所述优化后的音色转换模型,选取预训练wavenet模型,利用神经网络的权重共享,减少训练参数,得到wavenet基础模型;

37、s502:基于所述wavenet基础模型,运用迁移学习技术,进行参数微调,得到wavenet迁移学习中间模型;

38、s503:基于所述wavenet迁移学习中间模型,再选取预训练的tacotron模型,运用数据适应技术,进行参数微调和学习,得到tacotron迁移学习中间模型;

39、s504:采用所述tacotron迁移学习中间模型,运用深度神经网络进行特征适配,神经网络层级化处理,生成迁移学习后的音色转换模型。

40、作为本发明的进一步方案,基于所述迁移学习后的音色转换模型,在多尺度提取语音特征,并进行特征融合,应用长短期记忆网络或门控循环单元进行学习和建模,生成多尺度特征融合后的音色转换模型的步骤具体为:

41、s601:基于所述迁移学习后的音色转换模型,采用多尺度特征提取技术,得到多尺度语音特征;

42、s602:基于所述多尺度语音特征,运用特征融合技术,统一多尺度特征的表达形式,生成融合后的语音特征;

43、s603:利用所述融合后的语音特征,运用长短期记忆网络,处理时间序列问题,进行深度特征学习和建模,生成lstm模型中间结果;

44、s604:基于所述lstm模型中间结果,采用门控循环单元,通过更新门和重置门的控制,进行学习和建模,生成多尺度特征融合后的音色转换模型。

45、作为本发明的进一步方案,基于所述多尺度特征融合后的音色转换模型,进行音色克隆,生成与目标说话人音色近似的语音,并使用自动语音识别模型进行内容准确度检验,生成音色克隆后的语音和内容准确度信息的步骤具体为:

46、s701:基于所述多尺度特征融合后的音色转换模型,采用声码器技术,模拟目标说话人音色,生成原始音色克隆语音;

47、s702:基于所述原始音色克隆语音,使用自动语音识别asr模型,进行内容准确性分析,获取内容识别信息;

48、s703:基于所述内容识别信息,应用文本比对算法,对识别内容进行评估,输出内容准确度评估报告;

49、s704:利用所述内容准确度评估报告,结合阈值判定法,筛选高质量语音,生成准确性校验后的音色克隆语音。

50、作为本发明的进一步方案,基于所述音色克隆后的语音和内容准确度信息,使用说话人嵌入模型speaker embedding对生成的语音进行音色相似度校验,并根据设定的阈值筛选出音色相近的语音,生成处理后语音的步骤具体为:

51、s801:基于所述准确性校验后的音色克隆语音,采用说话人嵌入模型,对音色进行相似度分析,得到音色相似度分析报告;

52、s802:结合所述音色相似度分析报告,运用余弦相似度算法,进行深度评估,生成音色相似度评分;

53、s803:基于所述音色相似度评分,通过阈值筛选算法,基于音质筛选语音,形成音色筛选后语音集;

54、s804:利用所述音色筛选后语音集,应用语音质量评估模型,进行质量校验,生成处理后语音。

55、作为本发明的进一步方案,将所述处理后语音添加至训练数据集,并重新训练生成对抗网络语音生成模型,迭代训练和扩充训练数据集,直到达到预期的效果,得到音色克隆增强模型和近似语音数据集的步骤具体为:

56、s901:结合所述处理后语音,进行训练数据集扩充,得到扩充后的训练数据集;

57、s902:利用所述扩充后的训练数据集,采用深度学习框架,启动生成对抗网络gan的训练,形成初始化的gan模型;

58、s903:基于所述初始化的gan模型,引入批量归一化和leakyrelu激活函数进行优化,产生迭代训练中的gan模型;

59、s904:对所述迭代训练中的gan模型,结合早停法进行监控,避免过拟合,最终得到优化后的gan模型。

60、与现有技术相比,本发明的优点和积极效果在于:

61、本发明中,通过hubert或wav2vec自监督学习算法,提取原说话人语音的声学特征,确保了在少量数据的前提下,音色信息的准确性和完整性。结合音频信号处理模型rmvpe、注意力机制以及音频与视觉特征的融合,强化了模型的对音色特征的学习和处理能力。采用自适应学习率的优化策略和长短期记忆网络结构,提高模型训练的稳定性和学习效率。基于预训练模型进行迁移学习也极大地加速了模型的收敛,使得音色克隆更为高效且准确。此方法通过音色相似度校验和生成对抗网络的迭代训练,确保生成的语音既拥有与目标说话人近似的音色,又具有高度的内容准确性。

本文地址:https://www.jishuxx.com/zhuanli/20240618/21325.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。