技术新讯 > 乐器声学设备的制造及制作,分析技术 > 模型训练方法、语音转换方法及装置与流程  >  正文

模型训练方法、语音转换方法及装置与流程

  • 国知局
  • 2024-06-21 10:43:54

本技术涉及语音转换领域,具体而言,涉及一种模型训练方法、语音转换方法及装置。

背景技术:

1、evc(emotional voice conversion,情感语音转换)是一种将源音频信号的情感表达转换为所需情感表达,并保持源音频信号内容和说话者音色不变的语音信号处理技术,在情感识别、有声书娱乐、虚拟数字人、自动化客服服务等领域具有显著的应用与研究价值。然而,现有的evc技术通常依赖于预设的情感类别标签(如“开心”、“生气”、“惊讶”等),因此,在一定程度上限制了情感表达的多样性及可解释性。

技术实现思路

1、为了克服现有技术中的至少一个不足,本技术提供一种模型训练方法、语音转换方法及装置,具体包括:

2、第一方面,本技术提供一种模型训练方法,所述方法包括:

3、从样本集中选取多个语音文本样本对,其中,所述多个语音文本样本对包括多个样本语音以及与所述多个样本语音一一对应的多个情感描述文本;

4、通过待训练文本模型,得到所述多个情感描述文本的多个文本情感特征;

5、通过待训练语音模型对所述多个样本语音进行特征提取,得到所述多个样本语音的多个语音特征;

6、计算所述多个文本情感特征与所述多个语音特征两两之间的相似度,得到情感相似度矩阵;

7、根据所述情感相似度矩阵与所述多个语音文本样本对的情感相似度真值矩阵之间的差异,更新所述待训练文本模型以及所述待训练语音模型,直至满足预设收敛条件后,获得由所述待训练文本模型训练得到的基于文本驱动且跨语音文本模态的情感特征提取器。

8、结合第一方面的可选实施方式,每个情感描述文本包括开放式情感描述文本和带情感标签的情感类别描述文本,所述通过待训练文本模型,得到所述多个情感描述文本的多个文本情感特征,包括:

9、对于每个情感描述文本,通过所述待训练文本模型对所述情感描述文本中的开放式情感描述文本进行特征提取,得到第一文本特征;

10、通过所述待训练文本模型对所述情感描述文本中带情感标签的情感类别描述文本进行特征提取,得到第二文本特征;

11、将所述第一文本特征与所述第二文本特征进行加权,得到所述情感描述文本的文本情感特征。

12、结合第一方面的可选实施方式,在所述通过待训练文本模型对所述多个语音文本样本对中的多个情感描述文本分别进行特征提取,得到所述多个情感描述文本的多个文本情感特征之前,所述方法还包括:

13、获取所述多个样本语音的情感标签矩阵,其中,所述情感标签矩阵记录了所述每个所述样本语音蕴含与预设的多个情感标签之间的对应关系;

14、获取所述多个样本语音的情感描述矩阵,其中,所述情感描述矩阵记录了每个所述样本语音与所述多个情感描述文本之间的对应关系;

15、将所述情感标签矩阵与所述情感描述矩阵进行加权,得到所述情感相似度真值矩阵。

16、第二方面,本技术还提供一种语音转换方法,所述方法包括:

17、获取待转换语音以及所述待转换语音的目标情感描述文本;

18、通过语音转换模型的音色提取器对所述待转换语音进行处理,得到所述待转换语音的目标音色特征,所述语音转换模型还包括语义信息提取器、语音生成器以及通过所述的模型训练方法得到的情感特征提取器;

19、通过语义信息提取器对所述待转换语音进行语义信息提取,得到所述待转换语音的目标语义特征;

20、通过所述情感特征提取器对所述目标情感描述文本进行特征提取,得到所述目标情感描述文本的目标情感特征;

21、通过所述语音编解码器和声码器对所述目标音色特征、目标语义特征以及目标情感特征进行转换,得到与所述目标情感描述文本相匹配的目标语音。

22、结合第二方面的可选实施方式,所述语义信息提取器包括语音识别层、语音聚类层以及音素编码层,所述通过语义信息提取器对所述待转换语音进行语义信息提取,得到所述待转换语音的目标语义特征,包括:

23、通过所述语音识别层对所述待转换语音中的语音内容进行识别,得到初始语音特征;

24、通过所述语音聚类层对所述初始语音特征进行聚类,得到聚类后的语音特征;

25、通过所述音素编码层对所述聚类后的语音特征进行编码,得到所述目标语义特征。

26、结合第二方面的可选实施方式,所述语音生成器包括编解码层、声码层,所述通过所述语音生成器对所述目标音色特征、目标语义特征以及目标情感特征进行转换,得到与所述目标情感描述文本相匹配的目标语音,包括:

27、通过所述编解码层对所述目标音色特征、目标语义特征以及目标情感特征进行处理,得到具有所述目标情感特征的目标梅尔谱;

28、通过所述声码层对所述目标梅尔谱进行转换,生成与所述目标情感描述文本相匹配的目标语音。

29、第三方面,本技术还提供一种模型训练装置,所述装置包括:

30、样本选取模块,用于从样本集中选取多个语音文本样本对,其中,所述多个语音文本样本对包括多个样本语音以及与所述多个样本语音一一对应的多个情感描述文本;

31、模型更新模块,用于通过待训练文本模型,得到所述多个情感描述文本的多个文本情感特征;

32、所述模型更新模块,还用于通过待训练语音模型对所述多个样本语音进行特征提取,得到所述多个样本语音的多个语音特征;

33、所述模型更新模块,还用于计算所述多个文本情感特征与所述多个语音特征两两之间的相似度,得到情感相似度矩阵;

34、所述模型更新模块,还用于根据所述情感相似度矩阵与所述多个语音文本样本对的情感相似度真值矩阵之间的差异,更新所述待训练文本模型以及所述待训练语音模型,直至满足预设收敛条件后,获得由所述待训练文本模型训练得到的基于文本驱动且跨语音文本模态的情感特征提取器。

35、结合第三方面的可选实施方式,每个情感描述文本包括开放式情感描述文本和带情感标签的情感类别描述文本,所述模型更新模块还具体用于:

36、对于每个情感描述文本,通过所述待训练文本模型对所述情感描述文本中的开放式情感描述文本进行特征提取,得到第一文本特征;

37、通过所述待训练文本模型对所述情感描述文本中带情感标签的情感类别描述文本进行特征提取,得到第二文本特征;

38、将所述第一文本特征与所述第二文本特征进行加权,得到所述情感描述文本的文本情感特征。

39、结合第三方面的可选实施方式,在所述通过待训练文本模型,得到所述多个情感描述文本的多个文本情感特征之前,所述样本选取模块还用于:

40、获取所述多个样本语音的情感标签矩阵,其中,所述情感标签矩阵记录了所述每个所述样本语音蕴含与预设的多个情感标签之间的对应关系;

41、获取所述多个样本语音的情感描述矩阵,其中,所述情感描述矩阵记录了每个所述样本语音与所述多个情感描述文本之间的对应关系;

42、将所述情感标签矩阵与所述情感描述矩阵进行加权,得到所述情感相似度真值矩阵。

43、第四方面,本技术还提供一种语音转换装置,所述装置包括:

44、数据获取模块,用于获取待转换语音以及所述待转换语音的目标情感描述文本;

45、语音转换模块,用于通过语音转换模型的音色提取器对所述待转换语音进行处理,得到所述待转换语音的目标音色特征,所述语音转换模型还包括语义信息提取器、语音生成器以及模型训练方法得到的情感特征提取器;

46、所述语音转换模块,还用于通过语义信息提取器对所述待转换语音进行语义信息提取,得到所述待转换语音的目标语义特征;

47、所述语音转换模块,还用于通过所述情感特征提取器对所述目标情感描述文本进行特征提取,得到所述目标情感描述文本的目标情感特征;

48、所述语音转换模块,还用于通过所述语音生成器对所述目标音色特征、目标语义特征以及目标情感特征进行转换,得到与所述目标情感描述文本相匹配的目标语音。

49、结合第四方面的可选实施方式,所述语义信息提取器包括语音识别层、语音聚类层以及音素编码层,所述语音转换模块还具体用于:

50、通过所述语音识别层对所述待转换语音中的语音内容进行识别,得到初始语音特征;

51、通过所述语音聚类层对所述初始语音特征进行聚类,得到聚类后的语音特征;

52、通过所述音素编码层对所述聚类后的语音特征进行编码,得到所述目标语义特征。

53、结合第四方面的可选实施方式,所述语音生成器包括编解码层、声码层,所述语音转换模块还具体用于:

54、通过所述编解码层对所述目标音色特征、目标语义特征以及目标情感特征进行处理,得到具有所述目标情感特征的目标梅尔谱;

55、通过所述声码层对所述目标梅尔谱进行转换,生成与所述目标情感描述文本相匹配的目标语音。

56、第五方面,本技术还提供一种存储介质,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时,实现所述的模型训练方法或者所述的语音转换方法。

57、第六方面,本技术还提供一种电子设备,所述电子设备包括处理器以及存储器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,实现所述的模型训练方法或者所述的语音转换方法。

58、相对于现有技术而言,本技术具有以下有益效果:

59、本技术提供一种模型训练方法、语音转换方法及装置。模型训练设备从样本集中选取多个语音文本样本对,其中,多个语音文本样本对包括多个样本语音以及与多个样本语音一一对应的多个情感描述文本;通过待训练文本模型,得到多个情感描述文本的多个文本特征;通过待训练语音模型对多个样本语音进行特征提取,得到多个样本语音的多个语音特征;计算多个文本特征与多个语音特征两两之间的相似度,得到情感相似度矩阵;根据情感相似度矩阵与其情感相似度真值矩阵之间的差异,更新待训练文本模型以及待训练语音模型。如此,训练出能够基于文本驱动且跨语音文本模态的情感特征提取器。

本文地址:https://www.jishuxx.com/zhuanli/20240618/21396.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。