技术新讯 > 乐器声学设备的制造及制作,分析技术 > 文本到语音的生成方法、装置及电子设备与流程 > 正文

文本到语音的生成方法、装置及电子设备与流程

国知局
2024-09-14 14:40:04

本技术涉及计算机，尤其是涉及一种文本到语音的生成方法、装置及电子设备。

背景技术：

1、通常，在文本到语音的合成过程中更加侧重于对说话人的声音的复刻，即保证合成的语音尽可能的贴合说话人的声音特性（如音调、音色等）。但是，对于合成语音而言，其呈现效果不仅由说话人的声音特性决定，还取决于该语音对应的文本信息。例如，当文本信息为惊悚小说时，所合成的语音在呈现效果上更具有快速、深沉的韵律特性。而相关技术在文本到语音的合成过程中，并未考虑文本信息所对应的韵律特征，从而导致合成的语音的韵律不能完全与文本信息贴合，从而降低了合成语音的丰富性和真实感。

技术实现思路

1、为了解决上述问题，本技术实施例提供了一种文本到语音的生成方法、装置及电子设备，能够在文本到语音的合成过程中考虑文本信息所对应的韵律特征，以提高合成语音的真实感和丰富性。具体地，本技术实施例公开了以下技术方案：

2、本技术实施例第一方面提供一种文本到语音的生成方法，该方法包括：首先，获取待处理文本和目标参考语音。其次，对待处理文本进行预处理，得到待处理文本对应的目标编码。然后，基于目标编码、目标参考语音，以及目标语音生成模型中的风格向量单元，生成目标风格向量；其中，目标风格向量用于表征待处理文本对应的第一韵律信息和目标参考语音对应的第二韵律信息。最后，基于目标风格向量、待处理文本，以及目标语音生成模型中的生成单元，生成待处理文本和目标参考语音对应的目标合成语音；其中，目标合成语音具有待处理文本对应的第一韵律特征和目标参考语音对应的第二韵律特征。

3、在一些实施例中，风格向量单元包括风格扩散采样器和特征提取器。基于目标编码、目标参考语音，以及目标语音生成模型中的风格向量单元，生成目标风格向量，包括：基于目标编码和风格向量单元中的风格扩散采样器，生成待处理文本对应的第一韵律向量；其中，第一韵律向量用于表征第一韵律信息。基于目标参考语音和风格向量单元中的特征提取器，生成参考语音对应的第二韵律向量；其中，第二韵律向量用于表征第二韵律信息。基于第一韵律向量和第二韵律向量，生成目标风格向量。

4、在一些实施例中，特征提取器包括x-vector特征提取器，x-vector特征提取器包括多个时延网络层和多个全连接网络层。基于目标参考语音和风格向量单元中的特征提取器，生成参考语音对应的第二韵律向量，包括：基于目标参考语音，生成目标参考语音对应的参考音频特征；其中，参考音频特征包括梅尔频率倒谱系数特征。将参考音频特征依次通过多个时延网络层和多个全连接网络层，生成梅尔频率倒谱系数特征对应的x向量；其中，第二韵律向量包括x向量。

5、在一些实施例中，基于第一韵律向量和第二韵律向量，生成目标风格向量，包括：对第一韵律向量和第二韵律向量进行求和运算，得到初始风格向量；对初始风格向量进行时序平均池化处理，确定目标风格向量。

6、在一些实施例中，生成单元包括音素编码器、方差适配器、梅尔谱编码器和声码器。基于目标风格向量、待处理文本，以及目标语音生成模型中的生成单元，生成待处理文本和目标参考语音对应的目标合成语音，包括：基于待处理文本、目标风格向量和音素编码器，生成待处理文本对应的音素状态序列；基于音素状态序列和方差适配器，对音素状态序列添加的预设方差信息，得到调整后的音素状态序列；其中，预设方差信息包括时长信息、音调信息和能量信息中的至少一项。基于调整后的音素状态序列、目标风格向量和梅尔谱编码器，将调整后的音素状态序列转化为梅尔谱图序列。基于梅尔谱图序列和声码器，生成目标合成语音。

7、在一些实施例中，该方法还包括：基于待处理文本，确定待处理文本对应的初始音素向量和音素位置编码；其中，待处理文本对应多个音素，音素位置编码用于表征多个音素中各音素在待处理文本中的位置信息。

8、在一些实施例中，音素编码器包括至少一个风格自适应归一化层。基于待处理文本、目标风格向量和音素编码器，生成待处理文本对应的音素状态序列，包括：基于待处理文本对应的所述初始音素向量和所述音素编码器中的第一卷积层和第一全连接层，生成第一中间序列。基于第一中间序列、音素位置编码、音素编码器中的多个第一转换模块以及第二全连接层，生成音素状态序列；其中，第一转换模块包括第一注意力机制层、至少一个风格自适应归一化层和第二卷积层。

9、在一些实施例中，梅尔谱编码器包括至少一个风格自适应归一化层。基于调整后的音素状态序列、目标风格向量和梅尔谱编码器，将调整后的音素状态序列转化为梅尔谱图序列，包括：基于调整后的音素状态序列和所述梅尔谱编码器中的第三全连接层，生成第二中间序列；基于第二中间序列、目标风格向量，以及梅尔谱编码器中的多个第二转换模块和第四全连接层，生成梅尔谱图序列；其中，第二转换模块包括第二注意力机制层、至少一个风格自适应归一化层和第三卷积层。

10、在一些实施例中，目标编码包括目标字级编码，目标语音生成模型还包括目标句法构建网络和目标编码网络。对待处理文本进行预处理，得到待处理文本对应的目标编码，包括：根据待处理文本，确定待处理文本对应的文本信息和音素信息；其中，文本信息包括文本内容和边界信息。基于文本信息和目标语音生成模型中的所述目标句法构建网络，生成待处理文本对应的目标句法图；其中，文本内容包括多个字符，目标句法图用于表征多个字符中各字符之间的句法关系。基于音素信息、边界信息、目标句法图，以及目标语音生成模型中的目标编码网络，生成待处理文本对应的目标字级编码。

11、在一些实施例中，该方法还包括：获取样本文本数据和样本参考语音数据；基于样本文本数据、样本参考语音数据和待训练语音生成模型，生成样本文本数据和样本参考语音数据对应的预测合成语音；获取样本合成语音数据；以预测合成语音为待训练语音生成模型的初始训练输出信息，样本合成语音数据作为监督信息，迭代待训练语音生成模型，得到目标语音生成模型。

12、本技术实施例第二方面提供一种文本到语音的生成装置，包括获取模块、预处理模块、第一生成模块和第二生成模块。其中，获取模块被配置为获取待处理文本和目标参考语音。预处理模块被配置为对待处理文本进行预处理，得到待处理文本对应的目标编码。第一生成模块被配置为基于目标编码、目标参考语音，以及目标语音生成模型中的风格向量单元，生成目标风格向量；其中，目标风格向量用于表征待处理文本对应的第一韵律信息和目标参考语音对应的第二韵律信息。第二生成模块被配置为基于目标风格向量、待处理文本，以及目标语音生成模型中的生成单元，生成待处理文本和目标参考语音对应的目标合成语音；其中，目标合成语音具有待处理文本对应的第一韵律特征和目标参考语音对应的第二韵律特征。

13、本技术实施例第三方面提供了一种电子设备，包括：处理器和存储器，所述存储器，用于存储计算机可执行指令；所述处理器，用于从所述存储器中读取所述指令，并执行所述指令以实现前述第一方面所述的文本到语音的生成方法。

14、本技术实施例第四方面提供了一种计算机可读存储介质，所述存储介质存储有计算机程序指令，当计算机读取所述指令时，执行前述第一方面所述的文本到语音的生成方法。

15、本技术实施例第五方面提供了一种计算机程序产品，该计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，该计算机程序包括程序指令，当该程序指令被计算机执行时，使该计算机执行前述第一方面所述的文本到语音的生成方法。

16、本技术实施例第六方面提供一种计算机程序，当该计算机程序被处理器执行时，可以实现前述第一方面所述的文本到语音的生成方法。

17、本技术实施例提供的文本到语音的生成方法，通过预先训练好的目标语音生成模型，生成待处理文本和目标参考语音对应的目标合成语音。首先，对待处理文本进行预处理，得到待处理文本对应的目标编码。然后，基于目标编码、目标参考语音，以及目标语音生成模型中的风格向量单元，生成目标风格向量；之后，再基于目标风格向量、待处理文本，以及目标语音生成模型中的生成单元，生成待处理文本和目标参考语音对应的目标合成语音。本技术实施例提供的文本到语音的生成方法中，由于风格向量单元所生成的目标风格向量可以表征待处理文本对应的第一韵律信息和目标参考语音对应的第二韵律信息，因此，基于目标风格向量所生成的目标合成语音具有待处理文本对应的第一韵律特征和目标参考语音对应的第二韵律特征。因此，本技术实施例提供的文本到语音的生成方法可以在文本到语音的合成过程中提取文本信息的韵律特征，提高了合成语音的真实感和丰富性。