技术新讯 > 乐器声学设备的制造及制作,分析技术 > 语音合成的方法、电子设备、存储介质及计算机程序产品与流程 > 正文

语音合成的方法、电子设备、存储介质及计算机程序产品与流程

国知局
2024-06-21 11:44:36

本公开涉及数据处理领域，特别涉及一种语音合成的方法、电子设备、存储介质及计算机程序产品。

背景技术：

1、语音合成是指利用计算机技术，将文本转换成对应的语音输出。随着技术的不断发展和用户需求的变化，现阶段语音合成系统主要采用参数合成的方法来提高语音合成的质量。

2、相关技术中，语音合成主要利用声学模型和声码器对文本进行处理，即利用声学模型将文本转换成隐含特征，然后将这些隐含特征经过声码器转换成语音输出。声学模型通常使用深度学习模型来预测文本的隐含特征，声码器则负责将这些隐含特征转化为实际的语音信号，但是前述这种方式所获得的语音的音质较差。基于此，相关技术还提出了一种端到端的语音合成方法，即直接将深度学习模型进行文本至语音的训练，避免声学模型和声码器的分离。通过端到端的训练，模型可以将文本直接映射到语音输出，从而简化了系统架构。这种方法在音质方面的表现更加优秀，但是在韵律和自然度等方面还存在改进空间。

技术实现思路

1、为了解决前述问题的至少之一，本公开提供了一种语音合成的方法、电子设备、存储介质及计算机程序产品。

2、根据本公开的一个方面提供了一种语音合成的方法，包括：调用韵律模块对目标文本的文本编码特征进行韵律分析，获得关于所述目标文本的文本韵律特征，其中所述文本韵律特征用于表征所述目标文本的期望韵律；基于所述目标文本的音素时长数据，将所述文本韵律特征与所述文本编码特征进行时长规整，获得韵律融合特征；以及将所述韵律融合特征转换为具有期望韵律的目标语音。

3、在一些实施方式中，所述调用韵律模块对目标文本的文本编码特征进行韵律分析，获得关于所述目标文本的文本韵律特征，包括：调用所述韵律模块对所述文本编码特征中任一音素特征进行分析，获得关于所述音素特征的多帧音素韵律；以及整合各个所述音素特征的多帧所述音素韵律，形成对应于所述目标文本的所述文本韵律特征。

4、在一些实施方式中，所述基于所述目标文本的音素时长数据，将所述文本韵律特征与所述文本编码特征进行时长规整，获得韵律融合特征，包括：将所述文本韵律特征进行帧压缩，获得期望数量的音素韵律；根据所述文本编码特征中各个音素特征的帧对应关系，将与任一所述音素特征所对应的多帧所述音素韵律进行均值计算，获得对应于所述音素特征的平均韵律，并形成由所述平均韵律与相应所述音素特征构成的音素韵律对；基于所述音素时长数据中关于任一所述音素特征的发音时长，将所述音素特征所对应的所述音素韵律对的帧数扩充至相应所述发音时长，形成关于所述音素韵律对的音素帧集合；以及依所述文本编码特征中各个所述音素特征的序列，整合各个所述音素特征的所述音素帧集合，形成关于所述目标文本的韵律融合特征。

5、在一些实施方式中，所述将所述韵律融合特征转换为具有期望韵律的目标语音，包括：调用解码器对所述韵律融合特征进行解码，形成便于声码器识别的目标数据；以及调用所述声码器将所述目标数据转换为具有期望韵律的所述目标语音。

6、在一些实施方式中，在所述调用韵律模块对目标文本的文本编码特征进行韵律分析，获得关于所述目标文本的文本韵律特征之前，包括：调用韵律训练文本对初始韵律模块进行训练，获得关于所述韵律训练文本的韵律预测特征；将所述韵律预测特征与音频实际韵律进行比较，获得表征二者之间差异的韵律损失值；以及调用所述韵律损失值对所述初始韵律模块进行优化，直至所述韵律损失值小于期望损失阈值，将优化后的所述初始韵律模块作为所述韵律模块。

7、在一些实施方式中，在所述基于所述目标文本的音素时长数据，将所述文本韵律特征与所述文本编码特征进行时长规整，获得韵律融合特征之前，包括：调用时长预测模块对所述目标文本中各个音素特征进行时长预测，获得整合有各个所述音素特征的发音时长的所述音素时长数据。

8、在一些实施方式中，在所述基于所述目标文本的音素时长数据，将所述文本韵律特征与所述文本编码特征进行时长规整，获得韵律融合特征之前，还包括：对所述目标文本的多个音素进行特征提取，获得用于表征各个所述音素的语境信息的音素特征；以及整和各个所述音素特征，形成所述文本编码特征。

9、根据本公开的另一个方面提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时，以实现如上述任一实施方式所述的语音合成的方法。

10、根据本公开的又一个方面提供了一种可读存储介质，所述可读存储介质存储有计算机程序，所述计算机程序适于处理器进行加载，以执行如上述任一实施方式所述的语音合成的方法。

11、根据本公开的再一个方面提供了一种计算机程序产品，包括计算机程序/指令，所述计算机程序/指令被处理器执行时实现上述任一实施方式所述的语音合成的方法。

技术特征：

1.一种语音合成的方法，其特征在于，包括：

2.根据权利要求1所述的语音合成的方法，其特征在于，所述调用韵律模块对目标文本的文本编码特征进行韵律分析，获得关于所述目标文本的文本韵律特征，包括：

3.根据权利要求1所述的语音合成的方法，其特征在于，所述基于所述目标文本的音素时长数据，将所述文本韵律特征与所述文本编码特征进行时长规整，获得韵律融合特征，包括：

4.根据权利要求1所述的语音合成的方法，其特征在于，所述将所述韵律融合特征转换为具有期望韵律的目标语音，包括：

5.根据权利要求1所述的语音合成的方法，其特征在于，在所述调用韵律模块对目标文本的文本编码特征进行韵律分析，获得关于所述目标文本的文本韵律特征之前，包括：

6.根据权利要求1所述的语音合成的方法，其特征在于，在所述基于所述目标文本的音素时长数据，将所述文本韵律特征与所述文本编码特征进行时长规整，获得韵律融合特征之前，包括：

7.根据权利要求6所述的语音合成的方法，其特征在于，在所述基于所述目标文本的音素时长数据，将所述文本韵律特征与所述文本编码特征进行时长规整，获得韵律融合特征之前，还包括：

8.一种电子设备，其特征在于，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时，以实现如权利要求1至7中任一项所述的语音合成的方法。

9.一种可读存储介质，其特征在于，所述可读存储介质存储有计算机程序，所述计算机程序适于处理器进行加载，以执行如权利要求1至7中任一项所述的语音合成的方法。

10.一种计算机程序产品，包括计算机程序/指令，其特征在于，所述计算机程序/指令被处理器执行时实现权利要求1至7中任一项所述的语音合成的方法。

技术总结本公开提供了一种语音合成的方法，包括：调用韵律模块对目标文本的文本编码特征进行韵律分析，获得关于目标文本的文本韵律特征，其中文本韵律特征用于表征目标文本的期望韵律；基于目标文本的音素时长数据，将文本韵律特征与文本编码特征进行时长规整，获得韵律融合特征；以及将韵律融合特征转换为具有期望韵律的目标语音。本公开还提供一种电子设备、存储介质及计算机程序产品。技术研发人员：江明奇,殷昊,王瑞,史文婧,陈云琳受保护的技术使用者：出门问问创新科技有限公司技术研发日：技术公布日：2024/4/17