技术新讯 > 乐器声学设备的制造及制作,分析技术 > 一种基于音高的语音转换模型训练方法及语音转换系统与流程  >  正文

一种基于音高的语音转换模型训练方法及语音转换系统与流程

  • 国知局
  • 2024-06-21 11:39:33

本技术涉及语音转换,尤其涉及一种基于音高的语音转换模型训练方法及语音转换系统。

背景技术:

1、语音转换技术是通过语音转换模型将一种人物语音转换为另一种人物语音的技术,但是,想要得到高质量的人物语音,需要使用大量的样本数据来训练语音转换模型,以通过语音转换技术得到更加真实的人物语音。

2、在实际的训练过程中,往往难以获取大量的样本数据,为此,只能使用少量的样本数据训练语音转换模型。但是,由于人类自然语音的表现力较为丰富,人物语音在音色和韵律上的变化较大,而由少量的样本数据训练得到的语音转换模型生成的人物语音与实际的人物语音存在一定的差距。

3、为了减小语音差距,在使用少量样本数据训练语音转换模型时,可以采用预训练与模型微调的方式,即先在一个大量音频数据的数据集上做语音转换模型预训练,之后再用少量的样本数据去对语音转换模型做微调。但是,在少量样本数据的情况下,依然存在转换后的人物语音与真实的人物语音的音高相似度较低的问题。

技术实现思路

1、为了减少在少量样本数据的情况下,转换后的人物语音与真实的人物语音的音高相似度较低的问题。

2、第一方面,本技术的部分实施例提供一种基于音高的语音转换模型训练方法,所述方法应用于训练语音转换模型,语音转换模型包括先验编码器、后验编码器、时序对齐模块、解码器和音高提取模块,所述方法包括:

3、将参考语音输入至所述先验编码器和所述音高提取模块,以通过所述先验编码器提取音频特征编码,以及,通过所述音高提取模块提取音高特征;

4、将所述音频特征编码和所述音高特征执行特征拼接,得到语音拼接特征;

5、将所述参考语音对应的线性谱输入至所述后验编码器中,得到音频隐变量;

6、通过所述时序对齐模块对齐所述语音拼接特征和所述音频隐变量的时序序列,得到转换语音编码;

7、通过所述解码器解码所述转换语音编码得到转换后的语音;

8、计算所述转换后的语音的训练损失,如果所述训练损失小于或等于训练损失阈值,则根据所述待训练模型的当前参数输出语音转换模型,如果所述训练损失大于训练损失阈值则对所述语音转换模型执行迭代训练,所述待训练模型为未训练收敛的语音合成模型。

9、在一些实施例中,所述音高提取模块包括编码器层、滤波器层、中间层和解码器层;

10、所述编码器层、所述中间层和所述解码器层形成所述音高提取模块的第一编码支路,所述编码器层、所述滤波器层和所述解码器层形成所述音高提取模块的第二编码支路。

11、在一些实施例中,所述编码器层包括平均池化层和卷积网络,通过所述音高提取模块提取音高特征的步骤,包括:

12、通过所述卷积网络提取所述参考语音的音高特征向量;

13、通过所述平均池化层对所述音高特征向量执行下采样,得到所述音高特征编码;

14、通过所述解码器层对所述音高特征编码执行解码,得到所述音高特征。

15、在一些实施例中,所述卷积网络包括卷积块,所述卷积块包括2d卷积层、批量归一化层和relu函数,通过所述卷积网络提取所述参考语音的音高特征向量的步骤,包括:

16、通过所述2d卷积层提取深层次的音频向量;

17、通过所述批量归一化层对所述深层次的音频向量执行加速收敛处理,以从所述深层次的音频向量中提取收敛音高特征;

18、通过所述relu函数对所述收敛音高特征添加非线性关系,得到所述音高特征向量。

19、在一些实施例中,所述卷积网络的输入端和所述卷积网络的输出端之间设置有快捷卷积层,通过所述relu函数对所述收敛音高特征添加非线性关系的步骤前,还包括:

20、通过所述快捷卷积层提取快捷音高特征;

21、拼接所述快捷音高特征和所述收敛音高特征,得到音高拼接特征;

22、通过所述relu函数添加所述音高拼接特征之间的非线性关系,得到所述音高特征向量。

23、在一些实施例中,所述解码器层包括反卷积层和所述卷积网络,通过所述解码器层对所述音高特征编码执行解码操作的步骤,包括:

24、通过所述反卷积层对所述音高特征编码执行反卷积计算,得到反卷积特征向量;

25、通过所述卷积网络对所述反卷积特征向量执行解码,得到所述音高特征。

26、在一些实施例中,通过所述时序对齐模块对齐所述语音拼接特征和所述音频隐变量的时序序列的步骤,包括:

27、获取时序对齐模块的模板语音序列;

28、按照所述模板语音序列对齐所述语音拼接特征和所述音频隐变量的时序序列;

29、将对齐后的所述语音拼接特征和所述音频隐变量执行编码,得到转换语音编码。

30、在一些实施例中,所述语音转换模型还包括风格编码器,将所述音频特征编码和所述音高特征执行特征拼接的步骤之后,所述方法还包括:

31、通过所述风格编码器提取所述参考语音的风格特征;

32、将所述风格特征映射至所述语音拼接特征中,以更新所述语音拼接特征。

33、在一些实施例中,所述训练损失包括频谱损失,计算所述转换后的语音的训练损失的步骤,包括:

34、获取所述参考语音的频谱精度,以及,获取转换后的语音的频谱精度;

35、按照下式,根据参考语音的频谱精度和转换后的语音的频谱精度计算所述频谱损失:

36、

37、其中,lrecon为频谱损失,xmel为参考语音的频谱精度,为转换后的语音的频谱精度。

38、第二方面,本技术提供一种语音转换系统,所述语音转换系统包括语音转换模型,所述语音转换模型根据第一方面所述的基于音高的语音转换模型训练方法训练获得,所述语音转换模型包括,先验编码器、后验编码器、时序对齐模块、解码器和音高提取模块,其中,所述先验编码器被配置为提取参考语音的音频特征编码;

39、所述音高提取模块被配置为提取所述参考语音的音高特征;

40、所述后验编码器被配置为根据所述参考语音对应的线性谱生成音频隐变量;

41、所述时序对齐模块被配置为对齐语音拼接特征和所述音频隐变量的时序序列,得到转换语音编码,所述语音拼接特征由所述音频编码特征和所述音高特征提取得到;

42、所述解码器被配置为对所述转换语音编码执行解码,得到转换后的语音。

43、由以上技术方案可知,本技术提供一种基于音高的语音转换模型训练方法及语音转换系统,所述方法用于训练语音转换模型,语音转换模型包括,先验编码器、后验编码器、时序对齐模块、解码器和音高提取模块。所述方法通过将参考语音输入至先验编码器和音高提取模块,通过先验编码器输出音频特征编码,并通过音高提取模块提取音高特征。然后将参考语音对应的线性谱输入至所述后验编码器中,得到音频隐变量。并将音频特征编码和音高特征拼接得到的语音拼接特征和音频隐变量输入至时序对齐模块,得到转换语音编码,并通过解码器解码转换语音编码,得到转换后的语音。再计算转换后的语音的训练损失,以判断语音转换模型的收敛程度。本技术通过音高提取模块提取参考语音的音高特征,并与音频特征编码进行拼接对齐,使转换后的语音的音高特征更加接近真实人物的语音,提高在语音样本不足的情况下,转换后的语音的音高相似度。

本文地址:https://www.jishuxx.com/zhuanli/20240618/22725.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。