技术新讯 > 乐器声学设备的制造及制作,分析技术 > 语音合成方法、装置、设备及存储介质与流程  >  正文

语音合成方法、装置、设备及存储介质与流程

  • 国知局
  • 2024-06-21 11:56:53

本发明涉及人工智能技术,尤其涉及一种语音合成方法、装置、电子设备及存储介质。

背景技术:

1、在金融业务领域,为了增强用户对相关金融业务的了解,普及相关的金融业务知识,将相关的金融业务知识文本进行语音合成后对用户解说普及,方便对相关金融业务的了解,例如:将重疾险业务办理要求文本进行语音合成,并将合成的语音向用户解说,方便用户了解重疾险的办理要求。

2、但是现有的语音合成方法,只根据待合成语音文本(如重疾险业务办理要求文本)的文本特征,利用文本转语音模型进行语音合成,忽略了待合成语音文本的语言特征,导致了基于待合成语音文本(如重疾险业务办理要求文本)等文本合成语音的语音体验(如自然流畅度、韵律轻重)较差。

技术实现思路

1、本发明提供一种语音合成方法、装置、电子设备及存储介质,其主要目的在于提高了基于重疾险业务办理要求文本等文本合成语音的语音体验。

2、获取待合成语音文本,并对所述待合成语音文本进行音素转换,得到文本音素序列;

3、提取所述文本音素序列的语言特征,得到音素特征向量;

4、提取所述待合成语音文本的文本特征,得到文本特征向量;

5、基于所述音素特征向量、所述文本特征向量,利用预构建的语音合成模型生成待合成语音的声学特征,其中,所述语音合成模型为基于生成对抗损失训练的fastspeech2模型;

6、将所述声学特征映射为语音,得到合成语音。

7、可选地,所述对所述待合成语音文本进行音素转换,得到文本音素序列,包括:

8、对所述待合成语音文本进行分词处理,得到一个或多个分词词语;

9、基于预设语音的发音规则将每个所述分词词语转化为对应的音素,得到对应的分词音素;

10、将所有所述分词音素按照对应的分词词语在所述待合成语音文本中的先后顺序组合为序列的形式,得到所述文本音素序列。

11、可选地,所述提取所述文本音素序列的语音特征,得到音素特征向量,包括:

12、将所述文本音素序列中的每一个分词音素转换为向量,得到每个所述分词音素对应的分词音素向量;

13、获取所述文本音素序列中的每一个分词音素的音素时长,得到每一个所述分词音素对应的分词音素时长;

14、将每个所述分词音素对应的分词音素向量及分词音素时长进行组合,得到每个分词音素的目标分词音素向量;

15、基于所有所述分词词语在所述待合成语音文本中的先后顺序,将所有所述目标分词音素向量进行组合,得到所述音素特征向量。

16、可选地,所述将所述文本音素序列中的每一个分词音素转换为向量,得到每个所述分词音素对应的分词音素向量,包括:

17、将所述分词音素中的每个音素转换为向量,得到对应音素向量;

18、将所有所述音素向量按照对应的音素在所述分词音素中的顺序进行组合,得到分词音素矩阵;

19、将所述分词音素矩阵转化为一维矩阵,得到所述分词音素向量。

20、可选地,所述获取所述文本音素序列中的每一个分词音素的音素时长,得到每一个所述分词音素对应的分词音素时长,包括:

21、获取所述分词音素中每个音素的音素时长;

22、将所述分词音素中所有音素的音素时长相加,得到该分词音素对应的分词音素时长。

23、可选地,所述语音合成模型为基于生成对抗损失训练的fastspeech2模型,包括:

24、获取初始化模型参数的fastspeech2模型及预构建的判别器;

25、获取训练文本集,其中,所述训练文本集中的每一个训练文本都有对应的与该训练文本对齐的标签语音;

26、在所述训练文本集中任意选取一个训练文本,得到目标训练文本;

27、基于所述目标训练文本,利用所述fastspeech2模型进行语音特征生成,得到合成语音声学特征;

28、提取所述目标训练文本对应的标签语音的语音特征,得到标签语音声学特征;

29、利用所述判别器分析所述合成语音声学特征及所述标签语音声学特征的真实性概率,得到生成语音真实性概率及真实语音真实性概率;

30、基于所述生成语音真实性概率及所述真实语音真实性概率,利用预构建的生成对抗损失函数计算目标损失值,以衡量所述判别器及所述fastspeech2模型之间的对抗程度;

31、基于所述目标损失值判断是否达到预设的训练条件;

32、当达到预设的训练条件,输出此时的fastspeech2模型,得到所述语音合成模型;

33、当未达到预设的训练条件,对所述fastspeech2模型及所述判别器进行模型参数调整,并返回所述在所述训练文本集中任意选取一个训练文本步骤。

34、可选地,所述将所述声学特征映射为语音,得到合成语音,包括:

35、将所述声学特征转换为时域的波形信号;

36、对所述波形信号进行音调后处理,得到所述合成语音。

37、为了解决上述问题,本发明还提供一种语音合成装置,所述装置包括:

38、特征提取模块,用于获取待合成语音文本,并对所述待合成语音文本进行音素转换,得到文本音素序列;提取所述文本音素序列的语言特征,得到音素特征向量;提取所述待合成语音文本的文本特征,得到文本特征向量;

39、特征生成模块,用于基于所述音素特征向量、所述文本特征向量,利用预构建的语音合成模型生成待合成语音的声学特征,其中,所述语音合成模型为基于生成对抗损失训练的fastspeech2模型;

40、语音映射模块,用于将所述声学特征映射为语音,得到合成语音。

41、为了解决上述问题,本发明还提供一种电子设备,所述电子设备包括:

42、存储器,存储至少一个计算机程序;及

43、处理器,执行所述存储器中存储的计算机程序以实现上述所述的语音合成方法。

44、为了解决上述问题,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一个计算机程序,所述至少一个计算机程序被电子设备中的处理器执行以实现上述所述的语音合成方法。

45、本发明实施例提取所述文本音素序列的语言特征,得到音素特征向量;提取所述待合成语音文本的文本特征,得到文本特征向量;基于所述音素特征向量、所述文本特征向量,利用预构建的语音合成模型生成待合成语音的声学特征;将所述声学特征映射为语音,得到合成语音。与只利用待合成语音文本(如重疾险业务办理要求文本)的文本特征进行语音合成相比,还兼顾了待合成语音文本的语言特征,提高了基于重疾险业务办理要求文本等文本合成语音的语音体验,因此本发明实施例提出的语音合成方法、装置、电子设备及可读存储介质提高了基于重疾险业务办理要求文本等文本合成语音的语音体验。

技术特征:

1.一种语音合成方法,其特征在于,所述方法包括:

2.如权利要求1所述的语音合成方法,其特征在于,所述对所述待合成语音文本进行音素转换,得到文本音素序列,包括:

3.如权利要求2中所述的语音合成方法,其特征在于,所述提取所述文本音素序列的语音特征,得到音素特征向量,包括:

4.如权利要求3所述的语音合成方法,其特征在于,所述将所述文本音素序列中的每一个分词音素转换为向量,得到每个所述分词音素对应的分词音素向量,包括:

5.如权利要求3所述的语音合成方法,其特征在于,所述获取所述文本音素序列中的每一个分词音素的音素时长,得到每一个所述分词音素对应的分词音素时长,包括:

6.如权利要求1所述的语音合成方法,其特征在于,所述语音合成模型为基于生成对抗损失训练的fastspeech2模型,包括:

7.如权利要求1至6中任意一项所述的语音合成方法,其特征在于,所述将所述声学特征映射为语音,得到合成语音,包括:

8.一种语音合成装置,其特征在于,包括:

9.一种电子设备,其特征在于,所述电子设备包括:

10.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的语音合成方法。

技术总结本发明涉及人工智能技术,揭露一种语音合成方法,包括:获取待合成语音文本,并对所述待合成语音文本进行音素转换,得到文本音素序列;提取所述文本音素序列的语言特征,得到音素特征向量;提取所述待合成语音文本的文本特征,得到文本特征向量;基于所述音素特征向量、所述文本特征向量,利用预构建的语音合成模型生成待合成语音的声学特征,将所述声学特征映射为语音,得到合成语音。本发明还提出一种语音合成装置、设备以及介质,可应用于金融领域,提高了基于重疾险业务办理要求文本等文本合成语音的语音体验。技术研发人员:张旭龙,王健宗,程宁,罗凯一受保护的技术使用者:平安科技(深圳)有限公司技术研发日:技术公布日:2024/6/5

本文地址:https://www.jishuxx.com/zhuanli/20240618/24655.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。