技术新讯 > 乐器声学设备的制造及制作,分析技术 > 一种基于低秩适应的个性化语音合成方法  >  正文

一种基于低秩适应的个性化语音合成方法

  • 国知局
  • 2024-06-21 11:32:50

本发明涉及语音合成,具体涉及一种基于低秩适应的个性化语音合成方法。

背景技术:

1、随着人工智能和自然语言处理技术的不断发展,语音合成已经成为人机交互中的关键组成部分。然而,传统的语音合成方法通常受限于生成的语音质量和个性化程度。现有技术中采用的语音合成模型对不同个体的语音合成缺乏个性化,导致合成的语音缺乏独特性。

技术实现思路

1、为解决上述技术问题,本发明提供一种基于低秩适应的个性化语音合成方法,通过加入低秩适应结构,将其参数嵌入到基础合成模型的解码器中,从而在原有的基础合成模型的基础上将部分层替换为低秩适应结构,可以更快、更个性化地进行合成微调。新模型能够通过对低秩适应结构中参数的微调改变原模型的生成风格,实现更准确地语音合成,提高合成语音的个性化程度和质量。

2、为解决上述技术问题,本发明采用如下技术方案:

3、一种基于低秩适应的个性化语音合成方法,包括以下步骤:

4、步骤一,获取具有多个音频文件的音频数据集;

5、步骤二,构建基础合成模型并进行训练,具体包括:

6、基础合成模型用于将输入的文本转成合成音频,包括后验编码器、标准化流、解码器、判别器、文本编码器和多周期随机时长预测器;

7、通过由多组transformer块组成的文本编码器得到文本的先验隐变量,并将映射为先验概率分布;

8、将音频文件转为梅尔频率,再将梅尔频谱转为线性谱;提取音频文件中的音高信息;

9、通过后验编码器处理线性谱,生成后验概率分布,并进行上采样,得到后验概率分布的采样点;其中,表示后验隐变量;

10、通过标准化流将后验概率分布的采样点映射到复杂概率分布,通过强制对齐的方式得到后验概率分布与先验概率分布的对齐关系;对齐关系表示每一个音素的发音时长;

11、基于先验隐变量和对齐关系,采用所述多周期随机时长预测器输出为音素时长的对数表示;

12、将后验概率分布的采样点以及所述的音高信息输入到解码器中,得到合成音频;

13、判别器采用对抗生成网络的网络结构,对合成音频的真实性进行分类;

14、通过基于梅尔频谱得到的重建损失、用于度量后验概率分布和先验概率分布之间距离的kl散度、多周期随机时长预测器的预测损失、判别器的对抗生成网络进行对抗训练时的最小二乘损失以及施加于解码器的特征匹配损失,对基础合成模型进行训练;

15、步骤三,构建低秩适应网络并进行训练:

16、基于所述解码器构建低秩适应网络;所述解码器包括卷积层和多感受野融合模块,对完成训练的基础合成模型的解码器中的权重矩阵进行低秩分解,更新解码器中的权重矩阵,具体包括:

17、将卷积层和多感受野融合模块的权重矩阵重新排列成二维的权重矩阵;通过奇异值分解方法将二维的权重矩阵分解为矩阵的乘积,其中和是正交矩阵,是对角矩阵,中包含奇异值;截断对角矩阵,保留前m个最大的奇异值,m为设定值;使用截断后的对角矩阵,与正交矩阵构建新的权重矩阵,并替换原本的权重矩阵;

18、使用音频数据集对低秩适应网络进行训练,调整低秩适应网络的参数;

19、步骤四,推理过程:

20、将文本输入至完成训练的基础合成模型,基础合成模型根据文本编码器和多周期随机时长预测器获得音素时长的对数表示以及先验概率分布,再经过标准化流的逆变换获得后验概率分布的采样点;将后验概率分布的采样点输入到完成训练的低秩适应网络中,生成合成音频。

21、进一步地,步骤一具体包括以下步骤:

22、s11,收集人声音频文件;

23、s12,通过音频分离,将人声音频文件中的伴奏、混响以及和声分离,得到干声音频文件;

24、s13,对干声音频文件进行切片处理,得到切片音频文件;

25、s14,对切片音频文件进行响度匹配操作,将切片音频文件中的所有音频匹配至同一目标响度,并采样至相同频率,得到所述音频数据集。

26、进一步地,步骤二中,所述将音频文件转为梅尔频率,具体包括:

27、对音频数据集中的音频文件进行规范化,通过对规范化后的音频文件应用短时傅立叶变换,得到梅尔频谱;

28、所述提取音频文件中的音高信息,具体包括:

29、通过f0预测器提取音频文件的音高信息;音高信息包括音高和声音声道信息。

30、进一步地,步骤二中,所述将后验概率分布的采样点z以及所述的音高信息输入到解码器中得到合成音频,具体包括:

31、针对后验概率分布的采样点,解码器首先进行前处理卷积,逐渐增加通道数,获取初始的特征图;将音高信息转化为嵌入向量,通过一维卷积添加到初始的特征图上;随后,在多个上采样层中使用转置卷积,逐渐增加初始特征图的宽度,同时减少通道数,将特征图逐渐还原到原始尺寸,在每个上采样层后,通过多感受野融合模块进行特征融合;多感受野融合模块由多个相同大小的一维卷积通过残差模块方式连接而成,以捕获不同感受野下的特征;特征融合后的特征图再次经过一维卷积,减少通道数,经过激活函数和权重变换,生成合成音频,并通过tanh函数缩放至范围内。

32、进一步地,步骤二中,所述通过基于梅尔频谱得到的重建损失、用于度量后验概率分布和先验概率分布之间距离的kl散度、多周期随机时长预测器的预测损失、判别器的对抗生成网络进行对抗训练时的最小二乘损失以及施加于解码器的特征匹配损失对基础合成模型进行训练,具体包括:

33、基础合成模型的损失函数如下:

34、;

35、其中,为所述重建损失:

36、;

37、表示是训练过程中生成的梅尔频谱;表示l1范数;

38、表示用于度量后验概率分布和先验概率分布之间距离的kl散度:

39、;

40、其中,表示给定线性谱和输出隐变量的后验概率分布,表示给定输入文本后,先验隐变量的先验概率分布;

41、为多周期随机时长预测器的预测损失:

42、;

43、表示解码器的解码过程,表示多周期随机时长预测器的输出;

44、和为判别器的对抗生成网络进行对抗训练时的最小二乘损失:

45、;

46、;

47、其中表示判别器,是解码器最终生成的合成音频,和分别表示采样点的期望和合成音频y在给定采样点z的条件下的条件期望;是施加于解码器的特征匹配损失:

48、;

49、其中,表示判别器的层数,表示第层判别器的输出特征图,表示特征图的数量。

50、与现有技术相比,本发明的有益技术效果是:

51、目前常用的语音合成方法,由于庞大的模型体积以及复杂的参数,通常采用使用预训练的解码器以及判别器的方式来训练使用者的音频,这种方式虽然训练快速,能够快速地在不同的说话人间迁移学习,但其存在个性化音频特征学习不充分的问题,无法满足不同使用者之间个性化表达的需求。

52、与现有的语音合成方法相比,本发明增加了低秩适应结构,能够快速地训练个性化解码器,利用少量数据训练出能够生成特定音频的模型,实现定制化需求,同时加入f0预测器来提取丰富的音高特征,并将其应用于解码器的训练以及后验概率分布的采样点生成中,以此来生成更加贴合原声的音频。

本文地址:https://www.jishuxx.com/zhuanli/20240618/22151.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。