技术新讯 > 乐器声学设备的制造及制作,分析技术 > 语音合成的方法、装置、设备和计算机可读介质与流程 > 正文

语音合成的方法、装置、设备和计算机可读介质与流程

国知局
2024-06-21 11:27:14

本发明涉及计算机，尤其涉及一种语音合成的方法、装置、设备和计算机可读介质。

背景技术：

1、随着人工智能的高速发展，语音合成技术应用越来越广泛，在小说阅读、数字人、营销外呼和智能客户机器人等场景都会使用语音合成的声音，用于机器人播报或与客户实时交互。

2、在实现本发明过程中，发明人发现现有技术中至少存在如下问题：在实际场景中，对语音合成实时性有很高的要求。目前语音合成的速度较慢，导致难以实时流畅与用户交互。

技术实现思路

1、有鉴于此，本发明实施例提供一种语音合成的方法、装置、设备和计算机可读介质，能够提高语音合成的速度，保障实时流畅与用户交互。

2、为实现上述目的，根据本发明实施例的一个方面，提供了一种语音合成的方法，包括：

3、在合成文本中定位韵律短语，以在语音数据库中按照所述韵律短语匹配历史短语合成音频，得到匹配失败的韵律短语和匹配成功的韵律短语；

4、将匹配失败的韵律短语输入声学模型，所述声学模型输出新建短语合成音频；

5、以所述合成文本中韵律短语的排列顺序、所述新建短语合成音频和所述匹配成功的韵律短语对应历史短语合成音频，构建并输出所述合成文本的语音。

6、所述在合成文本中定位韵律短语，以在语音数据库中按照所述韵律短语匹配历史短语合成音频之前，还包括：

7、在所述语音数据库中，若基于所述合成文本匹配历史语句合成音频失败，则执行以所述合并文本的韵律短语匹配历史短语合成音频。

8、所述在合成文本中定位韵律短语，以在语音数据库中按照所述韵律短语匹配历史短语合成音频，包括：

9、将所述合成文本通过文本归一化、分词和韵律预测，定位韵律短语；

10、以所述韵律短语作为关键词，在语音数据库中匹配历史短语合成音频。

11、所述将匹配失败的韵律短语输入声学模型，所述声学模型输出新建短语合成音频，包括：

12、将匹配失败的韵律短语，发送至后端服务器；

13、在所述后端服务器中，调用所述声学模型处理所述匹配失败的韵律短语；

14、接收所述声学模型输出的所述新建短语合成音频。

15、所述方法还包括：

16、以所述新建短语合成音频和/或所述合成文本的语音，更新所述语音数据库。

17、所述合成文本包括电子书文本或商品介绍文本。。

18、所述语音数据库用于存储合成文本的短语音频合成音频和合成文本的语句合成音频，所述合成文本包括用户标识。

19、根据本发明实施例的第二方面，提供了一种语音合成的装置，包括：

20、匹配模块，用于在合成文本中定位韵律短语，以在语音数据库中按照所述韵律短语匹配历史短语合成音频，得到匹配失败的韵律短语和匹配成功的韵律短语；

21、新建模块，用于将匹配失败的韵律短语输入声学模型，所述声学模型输出新建短语合成音频；

22、输出模块，用于以所述合成文本中韵律短语的排列顺序、所述新建短语合成音频和所述匹配成功的韵律短语对应历史短语合成音频，构建并输出所述合成文本的语音。

23、根据本发明实施例的第三方面，提供了一种语音合成的电子设备，包括：

24、一个或多个处理器；

25、存储装置，用于存储一个或多个程序，

26、当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如上述的方法。

27、根据本发明实施例的第四方面，提供了一种计算机可读介质，其上存储有计算机程序，所述程序被处理器执行时实现如上述的方法。

28、上述发明中的一个实施例具有如下优点或有益效果：在合成文本中定位韵律短语，以在语音数据库中按照所述韵律短语匹配历史短语合成音频，得到匹配失败的韵律短语和匹配成功的韵律短语；将匹配失败的韵律短语输入声学模型，所述声学模型输出新建短语合成音频；以所述合成文本中韵律短语的排列顺序、所述新建短语合成音频和所述匹配成功的韵律短语对应历史短语合成音频，构建并输出所述合成文本的语音。以韵律短语作为匹配音频的依据，能够提高语音合成的速度，保障实时流畅与用户交互。

29、上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。

技术特征：

1.一种语音合成的方法，其特征在于，包括：

2.根据权利要求1所述语音合成的方法，其特征在于，所述在合成文本中定位韵律短语，以在语音数据库中按照所述韵律短语匹配历史短语合成音频之前，还包括：

3.根据权利要求1所述语音合成的方法，其特征在于，所述在合成文本中定位韵律短语，以在语音数据库中按照所述韵律短语匹配历史短语合成音频，包括：

4.根据权利要求1所述语音合成的方法，其特征在于，所述将匹配失败的韵律短语输入声学模型，所述声学模型输出新建短语合成音频，包括：

5.根据权利要求1所述语音合成的方法，其特征在于，所述方法还包括：

6.根据权利要求1所述语音合成的方法，其特征在于，所述合成文本包括电子书文本或商品介绍文本。

7.根据权利要求1所述语音合成的方法，其特征在于，所述语音数据库用于存储合成文本的短语音频合成音频和合成文本的语句合成音频，所述合成文本包括用户标识。

8.一种语音合成的装置，其特征在于，包括：

9.一种语音合成的电子设备，其特征在于，包括：

10.一种计算机可读介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现如权利要求1-7中任一所述的方法。

技术总结本发明公开了语音合成的方法、装置、设备和计算机可读介质，涉及计算机技术领域。该方法的一具体实施方式包括：在合成文本中定位韵律短语，以在语音数据库中按照所述韵律短语匹配历史短语合成音频，得到匹配失败的韵律短语和匹配成功的韵律短语；将匹配失败的韵律短语输入声学模型，所述声学模型输出新建短语合成音频；以所述合成文本中韵律短语的排列顺序、所述新建短语合成音频和所述匹配成功的韵律短语对应历史短语合成音频，构建并输出所述合成文本的语音。该实施方式能够提高语音合成的速度，保障实时流畅与用户交互。技术研发人员：马博森受保护的技术使用者：京东科技信息技术有限公司技术研发日：技术公布日：2024/2/8