技术新讯 > 乐器声学设备的制造及制作,分析技术 > 语音合成方法、装置、设备、介质和程序产品与流程 > 正文

语音合成方法、装置、设备、介质和程序产品与流程

国知局
2024-06-21 11:56:54

本技术涉及语音合成，特别是涉及一种语音合成方法、装置、设备、介质和程序产品。

背景技术：

1、语音合成系统通常由前端、声学模型和声码器组成，其中声码器的作用是将声学模型生成的mel(mel，梅尔)谱图转换为可以听到的音频。随着神经网络的发展，tts(textto speech，语音合成)技术中的声码器从传统参数类的声码器逐渐转换为神经网络声码器。

2、传统的神经网络声码器中选用的神经网络也在演进，由自回归神经网络转变为非自回归神经网络，其中自回归神经网络包括wavenet、wavernn(wave recurrent neuralnetworks，波循环神经网络)和lpcnet(linear prencdictive coding net，线性预测编码网络)等，非自回归神经网络包括melgan(mel generative adversarial network，梅尔生成对抗网络)、hifigan(high fidelity generative adversarial network，高保真生成对抗网络)和waveglow等。

3、但是，用非自回归神经网络进行语音合成，往往会出现频谱断裂或凸起造成声音颤抖的问题。

技术实现思路

1、基于此，有必要针对上述技术问题，提供一种能够解决语音合成中存在的颤音问题，进而提高音质的语音合成方法、装置、设备、介质和程序产品。

2、第一方面，本技术提供了一种语音合成方法。该方法包括：获取梅尔谱图，并对梅尔谱图进行特征提取处理，得到基频对应的第一声学数据；根据第一声学数据，得到谐波对应的第二声学数据；基于第一声学数据以及第二声学数据得到语音合成模板；将语音合成模板和梅尔谱图输入至语音合成网络中，得到语音合成网络输出的语音音频。

3、在其中一个实施例中，第一声学数据包括第一声学谱线，第二声学数据包括第二声学谱线，基于第一声学数据以及第二声学数据得到语音合成模板，包括：将第一声学谱线和第二声学谱线进行叠加处理，以得到语音合成模板。

4、在其中一个实施例中，根据第一声学数据，得到谐波对应的第二声学数据，包括：利用cos函数对第一声学谱线进行处理，以得到第二声学谱线。

5、在其中一个实施例中，对梅尔谱图进行特征提取处理，得到基频对应的第一声学数据，包括：将梅尔谱图输入至第一特征提取网络中，得到第一特征提取网络输出的第一声学数据；其中，第一特征提取网络包括级联的多个卷积层。

6、在其中一个实施例中，语音合成网络包括分解网络、编解码网络以及合成网络，将语音合成模板和梅尔图谱输入至语音合成网络中，得到语音合成网络输出的语音音频，包括：将语音合成模板输入至分解网络，得到分解网络输出的分解特征，分解特征包括与不同的子频带分别对应的多个特征图；将分解特征和梅尔谱图输入至编解码网络，得到编解码网络输出的编解码特征；将编解码特征输入至合成网络，得到合成网络输出的语音音频，语音音频包括各不同子频带对应的语音信号。

7、在其中一个实施例中，分解网络包括第二特征提取网络和第一滤波器；将语音合成模板输入至分解网络，得到分解网络输出的分解特征，包括：将语音合成模板输入至第二特征提取网络，得到第二特征提取网络输出的模板特征图；将模板特征图输入至第一滤波器，以由第一滤波器按照子频段为分割粒度对模板特征图进行分割，得到分解特征。

8、在其中一个实施例中，合成网络包括级联的第二滤波器和转换网络，将编解码特征输入至合成网络，得到合成网络输出的语音音频，包括：将编解码特征和分解特征进行融合处理，得到第一融合特征，并将第一融合特征输入至第二滤波器，以由第二滤波器对第一融合处理进行再次融合，得到第二融合特征，第二融合特征包括不同子频带对应的特征信息；将第二融合特征与模板特征图进行融合处理，得到第三融合特征，并将第三融合特征输入至转换网络，得到语音合成网络输出的语音音频。

9、在其中一个实施例中，编解码网络包括编码网络和解码网络，将分解特征和梅尔谱图输入至编解码网络，得到编解码网络输出的编解码特征，包括：将分解特征输入至编码网络，得到编码网络输出的多个编码特征；将多个编码特征和梅尔谱图输入至解码网络，得到解码网络输出的编解码特征。

10、在其中一个实施例中，编码网络包括多个编码器，编码器包括卷积层和第一残差网络。

11、在其中一个实施例中，解码网络包括多个解码器，解码器包括反卷积层和第二残差网络。

12、第二方面，本技术还提供了一种语音合成装置。该装置包括：第一确定模块，用于获取梅尔谱图，并对梅尔谱图进行特征提取处理，得到基频对应的第一声学数据；第二确定模块，用于根据第一声学数据，得到谐波对应的第二声学数据；第三确定模块，用于基于第一声学数据以及第二声学数据得到语音合成模板；第四确定模块，用于将语音合成模板和梅尔谱图输入至语音合成网络中，得到语音合成网络输出的语音音频。

13、在其中一个实施例中，第一声学数据包括第一声学谱线，第二声学数据包括第二声学谱线，第三确定模块，具体用于将第一声学谱线和第二声学谱线进行叠加处理，以得到语音合成模板。

14、在其中一个实施例中，第二确定模块，具体用于利用cos函数对第一声学谱线进行处理，以得到第二声学谱线。

15、在其中一个实施例中，第一确定模块，具体用于将梅尔谱图输入至第一特征提取网络中，得到第一特征提取网络输出的第一声学数据；其中，第一特征提取网络包括级联的多个卷积层。

16、在其中一个实施例中，语音合成网络包括分解网络、编解码网络以及合成网络，第四确定模块，具体用于将语音合成模板输入至分解网络，得到分解网络输出的分解特征，分解特征包括与不同的子频带分别对应的多个特征图；将分解特征和梅尔谱图输入至编解码网络，得到编解码网络输出的编解码特征；将编解码特征输入至合成网络，得到合成网络输出的语音音频，语音音频包括各不同子频带对应的语音信号。

17、在其中一个实施例中，第四确定模块，还用于将语音合成模板输入至第二特征提取网络，得到第二特征提取网络输出的模板特征图；将模板特征图输入至第一滤波器，以由第一滤波器按照子频段为分割粒度对模板特征图进行分割，得到分解特征。

18、在其中一个实施例中，合成网络包括级联的第二滤波器和转换网络，第四确定模块，还用于将编解码特征和分解特征进行融合处理，得到第一融合特征，并将第一融合特征输入至第二滤波器，以由第二滤波器对第一融合处理进行再次融合，得到第二融合特征，第二融合特征包括不同子频带对应的特征信息；将第二融合特征与模板特征图进行融合处理，得到第三融合特征，并将第三融合特征输入至转换网络，得到语音合成网络输出的语音音频。

19、在其中一个实施例中，第四确定模块，还用于将分解特征输入至编码网络，得到编码网络输出的多个编码特征；将多个编码特征和梅尔谱图输入至解码网络，得到解码网络输出的编解码特征。

20、在其中一个实施例中，编码网络包括多个编码器，编码器包括卷积层和第一残差网络。

21、在其中一个实施例中，解码网络包括多个解码器，解码器包括反卷积层和第二残差网络。

22、第三方面，本技术还提供了一种计算机设备，包括存储器和处理器，该存储器存储有计算机程序，该处理器执行该计算机程序时实现上述第一方面任一项所述的方法的步骤。

23、第四方面，本技术还提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述第一方面中任一项所述的方法的步骤。

24、第五方面，本技术还提供了一种计算机程序产品，该计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现上述第一方面中任一项所述的方法的步骤。

25、上述语音合成方法、装置、设备、介质和程序产品，通过获取梅尔谱图，并对梅尔谱图进行特征提取处理，得到基频对应的第一声学数据，然后根据第一声学数据，得到谐波对应的第二声学数据，再基于第一声学数据以及第二声学数据得到语音合成模板，最后将语音合成模板和梅尔谱图输入至语音合成网络中，得到语音合成网络输出的语音音频。本技术通过梅尔谱图得到的基频是一个连续信号，将基于基频的语音合成模板输入语音合成网络，为语音合成网络提供了时域上的连续性，因此解决了语音合成中存在的颤音问题，进而提高了语音合成的音质。