技术新讯 > 乐器声学设备的制造及制作,分析技术 > 音频合成方法、系统、电子设备和计算机可读存储介质与流程 > 正文

音频合成方法、系统、电子设备和计算机可读存储介质与流程

国知局
2024-06-21 11:56:02

本申请涉及数据处理，特别是涉及一种音频合成方法、系统、电子设备和计算机可读存储介质。

背景技术：

1、随着智能设备的发展，越来越多的智能设备能够支持人机交互，人机交互时通常需要将文本数据合成为音频进行反馈。但现有的人机交互过程中，通常仅仅是将文本数据转换成了生硬的音频，导致音频合成的拟人化程度不足。有鉴于此，如何提高音频合成的拟人化程度成为了亟待解决的问题。

技术实现思路

1、本申请主要解决的技术问题是提供一种音频合成方法、系统、电子设备和计算机可读存储介质，能够提高音频合成的拟人化程度。

2、为解决上述技术问题，本申请第一方面提供一种音频合成方法，包括：响应于得到待处理文本，在所述待处理文本中插入口语化表述内容，得到口语化文本；其中，所述口语化表述内容至少包括口语化新增内容和口语化停顿间隔；获取所述口语化文本的韵律特征，基于所述韵律特征得到所述口语化文本的韵律停顿间隔；基于所述口语化停顿间隔和所述韵律停顿间隔，将所述口语化文本转换为目标音频。

3、为解决上述技术问题，本申请第二方面提供一种音频合成系统，包括：转换模块、分析模块和生成模块，响应于得到待处理文本，所述转换模块用于在所述待处理文本中插入口语化表述内容，得到口语化文本；其中，所述口语化表述内容至少包括口语化新增内容和口语化停顿间隔；分析模块，用于获取所述口语化文本的韵律特征，基于所述韵律特征得到所述口语化文本的韵律停顿间隔；生成模块，用于基于所述口语化停顿间隔和所述韵律停顿间隔，将所述口语化文本转换为目标音频。

4、为解决上述技术问题，本申请第三方面提供一种电子设备，所述电子设备包括相互耦接的存储器和处理器，所述存储器中存储有程序指令，所述处理器用于执行所述程序指令以实现上述第一方面所述的音频合成方法。

5、为解决上述技术问题，本申请第四方面提供一种计算机可读存储介质，其上存储有程序指令，所述程序指令被处理器执行时实现上述第一方面所述的音频合成方法。

6、上述方案，当得到待处理文本时，在待处理文本中插入口语化表述内容，将待处理文本转换为口语化文本，其中，口语化表述内容至少包括口语化新增内容和口语化停顿间隔，因此，口语化文本中能够包含更多的口语化表述时会增加的内容，以及口语化表述时会采用的停顿，获取转换后的口语化文本的韵律特征，使口语化新增内容能够影响韵律特征，从而基于韵律特征得到口语化文本对应的韵律停顿间隔，使韵律停顿间隔也更加口语化，基于口语化停顿间隔和韵律停顿间隔，对包括口语化新增内容的口语化文本进行音频合成，将口语化文本转换为目标音频，使目标音频在播放时能够包括口语化新增内容且停顿间隔也更加口语化，提高音频合成的拟人化程度。

技术特征：

1.一种音频合成方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述在所述待处理文本中插入口语化表述内容，得到口语化文本，包括：

3.根据权利要求2所述的方法，其特征在于，所述文本转换模型包括编码器和解码器，所述第一训练文本分别经过所述编码器和所述解码器后得到第一预测文本；或者，

4.根据权利要求1-3任一项所述的方法，其特征在于，所述口语化新增内容至少包括语气词、填充词、重复词和拟声音频中的至少一者，所述口语化停顿间隔包括多种时间长度的停顿间隔；

5.根据权利要求2所述的方法，其特征在于，所述获取所述口语化文本的韵律特征，基于所述韵律特征得到所述口语化文本的韵律停顿间隔，包括：

6.根据权利要求1所述的方法，其特征在于，所述基于所述口语化停顿间隔和所述韵律停顿间隔，将所述口语化文本转换为目标音频，包括：

7.根据权利要求6所述的方法，其特征在于，多种所述韵律停顿间隔对应有多个间隔时长等级，多种所述口语化停顿间隔与至少部分所述间隔时长等级匹配；

8.一种音频合成系统，其特征在于，包括：

9.一种电子设备，其特征在于，包括：相互耦接的存储器和处理器，所述存储器中存储有程序指令，所述处理器用于执行所述程序指令以实现如权利要求1-7中任一项所述的音频合成方法。

10.一种计算机可读存储介质，其上存储有程序指令，其特征在于，所述程序指令被处理器执行时实现如权利要求1-7中任一项所述的音频合成方法。

技术总结本申请公开了一种音频合成方法、系统、电子设备和计算机可读存储介质，该方法包括：响应于得到待处理文本，在待处理文本中插入口语化表述内容，得到口语化文本；其中，口语化表述内容至少包括口语化新增内容和口语化停顿间隔；获取口语化文本的韵律特征，基于韵律特征得到口语化文本的韵律停顿间隔；基于口语化停顿间隔和韵律停顿间隔，将口语化文本转换为目标音频。通过上述方式，本申请能够提高音频合成的拟人化程度。技术研发人员：方昕,胡亚军,潘嘉,高建清,刘聪,马志强受保护的技术使用者：科大讯飞股份有限公司技术研发日：技术公布日：2024/6/5