技术新讯 > 乐器声学设备的制造及制作,分析技术 > 一种语音合成方法及其装置、电子设备、存储介质与流程  >  正文

一种语音合成方法及其装置、电子设备、存储介质与流程

  • 国知局
  • 2024-06-21 11:48:32

本公开实施例涉及监控,特别涉及一种语音合成方法及其装置、电子设备、存储介质。

背景技术:

1、随着生成式ai(人工智能)技术的发展,语音合成的技术逐渐成熟,文本数据首先要转化为音素表达,然后可以通过声学模型直接生成声学特征比如梅尔频谱,经声码器转换为声音;或者,直接通过文本音素生成目标音频。这种方式合成的语音比较生硬。缺少必要的情感表达,很容易分辨出来不是真人,因此,合成高拟真效果的语音,仍然存在技术挑战。

技术实现思路

1、本公开提供一种语音合成方法及其装置、电子设备、存储介质,能够提高合成语音的情感。

2、第一方面,本公开提供了一种语音合成方法,所述方法可以包括:

3、获取待进行语音合成的句子,并从所述句子中提取语气词和非语气词;

4、识别所述句子所反映的情感信息,根据所述语气词和所述情感信息从语气词情感发音映射表中查找所述语气词的语音;所述语气词情感发音映射表包含情感信息、语气词以及语音之间的多组映射关系;

5、对所述非语气词进行语音合成处理,得到所述非语气词的语音;

6、将所述语气词的语音和所述非语气词的语音进行拼接和平滑处理,得到所述句子的合成语音。

7、第二方面,本公开提供了一种语音合成装置,可以包括:

8、提取模块,用于获取待进行语音合成的句子,并从所述句子中提取语气词和非语气词;

9、查找模块,用于识别所述句子所反映的情感信息,根据所述语气词和所述情感信息从语气词情感发音映射表中查找所述语气词的语音;所述语气词情感发音映射表包含情感信息、语气词以及语音之间的多组映射关系;

10、合成模块,用于对所述非语气词进行语音合成处理,得到所述非语气词的语音;

11、处理模块,用于将所述语气词的语音和所述非语气词的语音进行拼接和平滑处理,得到所述句子的合成语音。

12、第三方面,本公开提供了一种电子设备,可以包括:

13、至少一个处理器;以及

14、与所述至少一个处理器通信连接的存储器;其中,

15、所述存储器存储有可被所述至少一个处理器执行的一个或多个计算机程序,一个或多个所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行所述的语音合成方法。

16、第四方面,本公开提供了一种计算机可读存储介质,其上存储有计算机程序,其中,所述计算机程序在被处理器/处理核执行时实现所述的语音合成方法。

17、本公开所提供的实施例中,从待合成语音的句子中提取语气词,可以锁定需要增加情感的词语,根据提取的语气词从语气词情感发音映射表中找到与该语气词对应的具有情感的语音,由该具有情感的语音作为合成语音的一部分,保证了合成语音中的情感表达,并且将语气词的语音和非语气词的语音进行拼接和平滑处理,使得两个语音能够顺利衔接,合成语音更流畅,提高了真人模拟效果。

18、应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

技术特征:

1.一种语音合成方法,其特征在于,所述方法包括:

2.根据权利要求1所述的语音合成方法,其特征在于,在所述语气词情感发音映射表中,一组映射关系中的语音是由说话者根据同组映射关系中的情感信息对同组映射关系中语气词进行发音并录制得到的;所述语气词情感发音映射表的数量为n个,n为正整数,一个语气词情感发音映射表对应一个说话者;

3.根据权利要求1所述的语音合成方法,其特征在于,所述对所述非语气词进行语音合成处理,得到所述非语气词的语音,包括:

4.根据权利要求1-3任意一项所述的语音合成方法,其特征在于,所述将所述语气词的语音和所述非语气词的语音进行拼接和平滑处理,得到所述句子的合成语音,包括:

5.根据权利要求1所述的语音合成方法,其特征在于,在从所述句子中提取语气词和非语气词之后,所述方法还包括:若从所述句子中提取语气词失败,则对所述句子进行语音合成处理,得到所述句子的合成语音。

6.根据权利要求1所述的语音合成方法,其特征在于,在预测所述句子所反映的情感信息后,所述方法还包括:

7.根据权利要求1-3任意一项所述的语音合成方法,其特征在于,所述句子是指待合成文本所包括的句子集中任意一个,所述待合成文本所包括的句子集是对所述待合成文本进行断句处理得到的;得到所述句子的合成语音之后,所述方法包括:

8.一种语音合成装置,其特征在于,包括:

9.一种电子设备,其特征在于,包括:

10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序在被处理器执行时实现如权利要求1-7任一项所述的语音合成方法。

技术总结本公开提供了一种语音合成方法及其装置、电子设备、存储介质,该方法包括:获取待进行语音合成的句子,并从句子中提取语气词和非语气词;识别句子所反映的情感信息,根据语气词和情感信息从语气词情感发音映射表中查找语气词的语音;语气词情感发音映射表包含情感信息、语气词以及语音之间的多组映射关系;对非语气词进行语音合成处理,得到非语气词的语音;将语气词的语音和非语气词的语音进行拼接和平滑处理,得到句子的合成语音。根据本公开的实施例提高了合成语音的情感。技术研发人员:乔宏利,刘敏,陆全,蒋宁,吴海英受保护的技术使用者:马上消费金融股份有限公司技术研发日:技术公布日:2024/5/6

本文地址:https://www.jishuxx.com/zhuanli/20240618/23687.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。