技术新讯 > 乐器声学设备的制造及制作,分析技术 > 语音合成方法、装置、电子设备和存储介质与流程  >  正文

语音合成方法、装置、电子设备和存储介质与流程

  • 国知局
  • 2024-06-21 10:39:26

本发明涉及语音合成,尤其涉及一种语音合成方法、装置、电子设备和存储介质。

背景技术:

1、语音合成是人工智能研究领域的分支之一,旨在将输入的文本转换成语音输出,其广泛应用于智能助手、短视频以及小说阅读等场景。

2、目前,语音合成多采用端到端的语音合成声学模型,例如,自回归的transformer、tacotron等,此类模型以文本为输入,通过编码器进行编码,接着通过解码器解码以得到声学特征,从而合成语音。

3、然而,此种方式虽然已可以产生与自然语音接近的语音,但是,其仍然存在一些较为明显的缺陷,如对于人声音色、发音习惯等,目前合成语音与自然语音还有较大差距,简而言之,合成语音在音色和发音习惯上仍存在着明显不足,语音合成的效果欠佳。

技术实现思路

1、本发明提供一种语音合成方法、装置、电子设备和存储介质,用以解决现有技术中合成语音在音色和发音习惯上存在欠缺,语音合成效果不佳的缺陷,优化语音合成效果,保证合成语音的真实自然。

2、本发明提供一种语音合成方法,包括:

3、确定目标语音和待合成文本;

4、对所述目标语音进行特征提取,得到目标语音特征,所述目标语音特征包括目标粗粒度语音特征和目标细粒度语音特征,所述目标粗粒度语音特征和所述目标细粒度语音特征表征信息不同;

5、基于所述目标语音、所述待合成文本,以及所述目标语音特征,确定待合成语音特征,所述待合成语音特征包括待合成粗粒度语音特征和待合成细粒度语音特征;

6、基于所述待合成语音特征,确定所述待合成文本对应的合成语音。

7、根据本发明提供的一种语音合成方法,所述目标语音的语种与所述待合成文本的语种不同;

8、所述基于所述目标语音、所述待合成文本,以及所述目标语音特征,确定待合成语音特征,包括:

9、对所述目标语音和所述待合成文本进行音素提取,得到多语种音素序列,所述多语种音素序列包括目标语音音素序列和待合成文本音素序列;

10、基于所述多语种音素序列,以及所述目标粗粒度语音特征,确定待合成粗粒度语音特征;

11、基于所述多语种音素序列、所述目标语音特征,以及所述待合成粗粒度语音特征,确定待合成细粒度语音特征。

12、根据本发明提供的一种语音合成方法,所述基于所述多语种音素序列,以及所述目标粗粒度语音特征,确定待合成粗粒度语音特征,包括:

13、对所述目标粗粒度语音特征进行音色韵律提取,得到音色韵律特征,所述音色韵律特征包括句子级音色韵律特征和子句级音色韵律特征;和/或,对所述目标语音的能量和时长进行编码,得到能量时长特征,所述能量时长特征包括句子级能量时长特征和子句级能量时长特征;

14、基于所述多语种音素序列、所述目标粗粒度语音特征,以及所述音色韵律特征和/或所述能量时长特征,确定待合成粗粒度语音特征。

15、根据本发明提供的一种语音合成方法,所述基于所述多语种音素序列,以及所述目标粗粒度语音特征,确定待合成粗粒度语音特征,包括:

16、对所述目标语音和所述待合成文本进行语义提取,得到多语种文本语义特征,所述多语种文本语义特征包括目标文本语义特征和待合成文本语义特征;

17、基于所述多语种音素序列、所述目标粗粒度语音特征,以及所述多语种文本语义特征,确定待合成粗粒度语音特征。

18、根据本发明提供的一种语音合成方法,所述对所述目标语音和所述待合成文本进行音素提取,得到多语种音素序列,包括:

19、对所述目标语音和所述待合成文本进行音素提取,得到初始多语种音素序列;

20、基于所述目标语音及其语种和所述待合成文本及其语种,提取多语种信息,所述多语种信息包括所述目标语音的语种信息和所述待合成文本的语种信息,所述语种信息包括韵律信息、语调信息、重音信息、调和信息中的至少一种;

21、确定所述目标语音中的静音段,基于各静音段的静音时长对所述各静音段进行分类,得到所述各静音段的类别信息;

22、基于所述初始多语种音素序列,以及所述多语种信息,或者所述多语种信息和所述类别信息,确定多语种音素序列。

23、根据本发明提供的一种语音合成方法,所述基于所述多语种音素序列,以及所述目标粗粒度语音特征,确定待合成粗粒度语音特征,包括:

24、基于语音合成模型,应用所述多语种音素序列、所述目标粗粒度语音特征,以及所述目标语音的语种和所述待合成文本的语种,生成待合成粗粒度语音特征;

25、所述语音合成模型中包括前预设数量个多语种独立回归层和后预设数量个多语种共享回归层,所述多语种独立回归层中对不同语种音素序列回归预测的模块不同,所述多语种共享回归层中对不同语种音素序列回归预测的模块相同;

26、所述语音合成模型是在自回归模型的基础上,应用样本语音及其语种、样本待合成文本及其语种,以及样本粗粒度语音特征和样本待合成粗粒度语音特征训练得到。

27、根据本发明提供的一种语音合成方法,所述目标粗粒度语音特征为多码本底层量化特征中的第零码本和第一码本,所述多码本底层量化特征通过对所述目标语音进行编码压缩得到;

28、所述基于所述多语种音素序列,以及所述目标粗粒度语音特征,确定待合成粗粒度语音特征,包括:

29、基于当前语音帧的所述第零码本和所述第一码本,确定融合码本,基于所述多语种音素序列和所述融合码本,确定所述当前语音帧的下一语音帧的待合成第零码本;

30、基于所述融合码本,以及所述下一语音帧的待合成第零码本,确定所述下一语音帧的待合成第一码本,基于各语音帧的待合成第零码本和待合成第一码本,确定待合成粗粒度语音特征;

31、或者,基于多个语音帧的所述第零码本和所述第一码本,确定所述多个语音帧对应的时间尺度下的尺度融合码本,基于所述多语种音素序列,以及所述尺度融合码本,确定所述多个语音帧在所述时间尺度下分别对应的下一语音帧的融合码本和待合成第零码本;

32、基于所述多个语音帧在所述时间尺度下分别对应的下一语音帧的融合码本和待合成第零码本,确定所述多个语音帧在所述时间尺度下分别对应的下一语音帧的待合成第一码本,基于各语音帧的待合成第零码本和待合成第一码本,确定待合成粗粒度语音特征。

33、本发明还提供一种语音合成装置,包括:

34、确定单元,用于确定目标语音和待合成文本;

35、提取单元,用于对所述目标语音进行特征提取,得到目标语音特征,所述目标语音特征包括目标粗粒度语音特征和目标细粒度语音特征,所述目标粗粒度语音特征和所述目标细粒度语音特征表征信息不同;

36、预测单元,用于基于所述目标语音、所述待合成文本,以及所述目标语音特征,确定待合成语音特征,所述待合成语音特征包括待合成粗粒度语音特征和待合成细粒度语音特征;

37、合成单元,用于基于所述待合成语音特征,确定所述待合成文本对应的合成语音。

38、本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述的语音合成方法。

39、本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述的语音合成方法。

40、本发明提供的语音合成方法、装置、电子设备和存储介质,通过对目标语音进行特征提取,得到目标语音特征,通过目标语音、待合成文本和目标语音特征分别进行粗粒度和细粒度的待合成语音特征预测,根据预测得到的待合成粗粒度语音特征和待合成细粒度语音特征,确定合成语音,通过粗细粒度两个层面上蕴含了丰富的发音和音色的待合成语音特征,进行语音合成,能够有效提升语音合成的效果,保证合成语音的质量,避免了目前合成语音在音色和发音习惯上存在欠缺,语音合成效果不佳的缺陷,提升了语音合成过程的稳定性和精确性,优化了合成语音在音色和发音习惯上的逼真度,保证了合成语音的真实自然。

本文地址:https://www.jishuxx.com/zhuanli/20240618/20988.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。