技术新讯 > 乐器声学设备的制造及制作,分析技术 > 使用合成的训练数据的两级文本到语音系统的制作方法 > 正文

使用合成的训练数据的两级文本到语音系统的制作方法

国知局
2024-06-21 11:32:59

本公开涉及使用合成的训练数据的两级文本到语音系统。

背景技术：

1、语音合成系统使用语音模型来从文本和/或音频输入生成合成音频，并且在移动设备上变得越来越流行。存在各种不同的语音模型，每个语音模型包括独特的效率和能力，诸如说话风格、韵律、语言、口音等。在一些场境中，在另一个语音模型上实现这些开发的功能中的一个可能很有用。然而，训练语音模型所需的特定训练数据可能不可用。在其他情况下，在语音模型之间传送这些能力中的一个或多个可能是有用的。然而，此处，由于某些语音模型的显著开发成本、架构约束和/或设计限制，在语音模型之间传送能力可能是特别困难的。

技术实现思路

1、本公开的一个方面提供了一种计算机实现的方法，该方法在数据处理硬件上执行时使数据处理硬件执行操作。操作包括获得包括多个训练音频信号和对应转录的训练数据。每个训练音频信号对应于由目标说话者以第一口音/方言说出的参考话语。每个转录包括对应参考话语的文本表示。对于训练数据的每个训练音频信号，操作包括由被配置为接收与由目标说话者以第一口音/方言说出的参考话语对应的训练音频信号作为输入的经训练的声音克隆系统，生成由目标说话者说出的对应参考话语的训练合成语音表示。训练合成语音表示包括目标说话者以不同于第一口音/方言的第二口音/方言的声音。这里，对于训练数据的每个训练音频信号，操作还包括基于训练音频信号的对应转录和由经训练的声音克隆系统生成的对应参考话语的训练合成语音表示来训练文本到语音(tts)系统。操作还包括接收要被合成为以第二口音/方言的语音的输入文本话语。操作还包括获得包括表示目标说话者的声音特性的说话者嵌入和标识第二口音/方言的口音/方言标识符的调节输入。操作还包括使用以所获得的调节输入为条件的经训练的tts系统并且通过处理输入话语来生成输出音频波形，该输出音频波形对应于以第二口音/方言克隆目标说话者的声音的输入文本话语的合成语音表示。

2、本公开的实施方式可以包括以下可选特征中的一个或多个。在一些实施方式中，训练tts系统包括训练tts系统的tts模型的编码器部分，以将由经训练的声音克隆系统生成的对应参考话语的训练合成语音表示编码成表示由训练合成语音表示捕获的韵律的话语嵌入。在这些实施方式中，训练tts系统还包括：使用训练音频信号的对应转录，通过对话语嵌入进行解码以生成表达语音的预测输出音频信号来训练tts系统的解码器部分。在一些示例中，训练tts系统还包括：使用预测输出音频信号来训练tts系统的合成器以生成输入文本话语的预测合成语音表示，其克隆以第二/口音方言的目标说话者的语音并且具有由话语嵌入表示的韵律；生成预测合成语音表示与训练合成语音表示之间的梯度/损失；以及通过tts模型和合成器反向传播梯度/损失。

3、操作还可以包括从训练合成语音表示对固定长度参考帧序列进行采样，该固定长度参考帧序列提供表示由训练合成语音表示捕获的韵律的参考韵律特征。这里，训练tts模型的编码器部分包括训练编码器部分以将从训练合成语音表示采样的固定长度参考帧序列编码到话语嵌入中。在一些实施方式中，训练tts模型的解码器部分包括使用训练音频信号的对应转录来解码话语嵌入到固定长度预测帧序列中，该固定长度预测帧序列提供表示由话语嵌入表示的韵律的转录的预测韵律特征。可选地，可以训练tts模型，使得由解码器部分解码的固定长度预测帧的数量等于从训练合成语音表示采样的固定长度参考帧的数量。

4、在一些实施方式中，参考话语的训练合成语音表示包括音频波形或梅尔频率谱图序列。经训练的声音克隆系统还可以被配置为在生成训练合成语音表示时接收训练音频信号的对应转录作为输入。在一些示例中，与由目标说话者说出的参考话语对应的训练音频信号包括人类语音的输入音频波形，训练合成语音表示包括以第二口音/方言克隆目标说话者的声音的合成语音的输出音频波形，并且经训练的声音克隆系统包括被配置成将输入音频波形直接转换成对应输出音频波形的端到端神经网络。

5、在一些实施方式中，tts系统包括tts模型，该tts模型以调节输入为条件并且被配置为通过使用输入文本话语对嵌入到提供韵律特征的固定长度预测帧序列中的话语进行解码来生成表达语音的输出音频信号。选择话语嵌入以指定输入文本话语的预期韵律，并且韵律特征表示由话语嵌入指定的预期韵律。在这些实施方式中，tts系统还包括波形合成器，其被配置为接收固定长度预测帧序列作为输入，并且生成与输入文本话语的合成语音表示对应的输出音频波形作为输出，其克隆以第二口音/方言的目标说话者的语音。表示预期韵律的韵律特征可以包括持续时间、音高轮廓、能量轮廓和/或梅尔频率谱图轮廓。

6、本公开的另一方面提供了一种系统，该系统包括数据处理硬件和存储指令的存储器硬件，该指令在数据处理硬件上执行时使数据处理硬件执行操作。操作包括获得包括多个训练音频信号和对应转录的训练数据。每个训练音频信号对应于由目标说话者以第一口音/方言说出的参考话语。每个转录包括对应参考话语的文本表示。对于训练数据的每个训练音频信号，操作包括由被配置为接收与由目标说话者以第一口音/方言说出的参考话语对应的训练音频信号作为输入的经训练的声音克隆系统，生成由目标说话者说出的对应参考话语的训练合成语音表示。训练合成语音表示包括目标说话者以不同于第一口音/方言的第二口音/方言的语音。这里，对于训练数据的每个训练音频信号，操作还包括基于训练音频信号的对应转录和由经训练的声音克隆系统生成的对应参考话语的训练合成语音表示来训练文本到语音(tts)系统。操作还包括接收要被合成为以第二口音/方言的语音的输入文本话语。操作还包括获得包括表示目标说话者的声音特性的说话者嵌入和标识第二口音/方言的口音/方言标识符的调节输入。操作还包括使用以所获得的调节输入为条件的经训练的tts系统并且通过处理输入文本话语来生成输出音频波形，该输出音频波形对应于以第二口音/方言克隆目标说话者的声音的输入文本话语的合成语音表示。

7、本公开的实施方式可以包括以下可选特征中的一个或多个。在一些实施方式中，训练tts系统包括训练tts系统的tts模型的编码器部分，以将由经训练的声音克隆系统生成的对应参考话语的训练合成语音表示编码成表示由训练合成语音表示捕获的韵律的话语嵌入。在这些实施方式中，训练tts系统还包括：使用训练音频信号的对应转录，通过对话语嵌入进行解码以生成表达语音的预测输出音频信号来训练tts系统的解码器部分。在一些示例中，训练tts系统还包括：使用预测输出音频信号来训练tts系统的合成器以生成输入文本话语的预测合成语音表示，其克隆以第二/口音方言的目标说话者的声音并且具有由话语嵌入表示的韵律；生成预测合成语音表示与训练合成语音表示之间的梯度/损失；以及通过tts模型和合成器反向传播梯度/损失。

8、操作还可以包括从训练合成语音表示对固定长度参考帧序列进行采样，该固定长度参考帧序列提供表示由训练合成语音表示捕获的韵律的参考韵律特征。这里，训练tts模型的编码器部分包括训练编码器部分以将从训练合成语音表示采样的固定长度参考帧序列编码到话语嵌入中。在一些实施方式中，训练tts模型的解码器部分包括使用训练音频信号的对应转录来解码话语嵌入到固定长度预测帧序列中，该固定长度预测帧序列提供表示由话语嵌入表示的韵律的转录的预测韵律特征。可选地，可以训练tts模型，使得由解码器部分解码的固定长度预测帧的数量等于从训练合成语音表示采样的固定长度参考帧的数量。

9、在一些实施方式中，参考话语的训练合成语音表示包括音频波形或梅尔频率谱图序列。训练的声音克隆系统还可以被配置为在生成训练合成语音表示时接收训练音频信号的对应转录作为输入。在一些示例中，与由目标说话者说出的参考话语对应的训练音频信号包括人类语音的输入音频波形，训练合成语音表示包括在以第二口音/方言克隆目标说话者的声音的合成语音的输出音频波形，并且经训练的声音克隆系统包括被配置成将输入音频波形直接转换成对应输出音频波形的端到端神经网络。

10、在一些实施方式中，tts系统包括tts模型，该tts模型以调节输入为条件并且被配置为通过使用输入文本话语解码话语嵌入到提供韵律特征的固定长度预测帧序列中，来生成表达语音的输出音频信号。选择话语嵌入以指定输入文本话语的预期韵律，并且韵律特征表示由话语嵌入指定的预期韵律。在这些实施方式中，tts系统还包括波形合成器，其被配置为接收固定长度预测帧序列作为输入，并且生成与输入文本话语的合成语音表示对应的输出音频波形作为输出，其克隆以第二口音/方言的目标说话者的声音。表示预期韵律的韵律特征可以包括持续时间、音高轮廓、能量轮廓和/或梅尔频率谱图轮廓。

11、本公开的另一方面提供了一种计算机实现的方法，该方法在数据处理硬件上执行时使数据处理硬件执行包括获得包括多个文本话语的训练数据的操作。对于训练数据的每个训练文本话语，操作还包括由被配置为接收训练文本话语作为输入的经训练的声音克隆系统生成对应训练文本话语的训练合成语音表示，以及基于对应训练文本话语和由经训练的声音克隆系统生成的训练合成语音表示来训练文本到语音(tts)系统以学习如何生成具有目标语音特性的合成语音。训练合成语音表示在目标说话者的语音中，并且具有目标语音特性。操作还包括接收要被合成为具有目标语音特性的语音的输入文本话语，以及使用经训练的tts系统生成输入文本话语的合成语音表示，该合成语音表示具有目标语音特性。

12、本公开的实施方式可以包括以下可选特征中的一个或多个。在一些实施方式中，操作还包括获得包括指示目标说话者的声音特性的说话者标识符的调节输入。这里，当生成输入文本话语的合成语音表示时，经训练的tts系统以所获得的调节输入为条件，并且具有目标语音特性的合成语音表示克隆目标说话者的声音。目标语音特性可以包括目标口音/方言或目标韵律/风格。在一些示例中，当生成对应训练文本话语的训练合成语音表示时，经训练的声音克隆系统还被配置为接收指示目标说话者的声音特性的说话者标识符。

13、在附图和以下描述中阐述了本公开的一个或多个实施方式的细节。根据说明书和附图以及权利要求，其他方面、特征和优点将是显而易见的。