技术新讯 > 乐器声学设备的制造及制作,分析技术 > 基于卷积增强变换神经网络的语音转换模型的制作方法 > 正文

基于卷积增强变换神经网络的语音转换模型的制作方法

国知局
2024-06-21 10:40:12

本公开涉及基于卷积增强变换神经网络(conformer)的语音转换模型。

背景技术：

1、语音转换模型可用于将源说话者的语音修改成另一种形式，而不改变语音的语言信息。例如，语音转换模型可以产生用户语音的副本。可选地，语音转换模型可以将用户的语音转换为以另一种语言的语音的音频波形。机器学习方法可用于准确地训练语音转换模型和有效地将语音转换为另一种形式。

技术实现思路

1、本发明的一个方面提供一种语音转换模型，包括编码器，所述编码器包括自注意力块的堆栈，所述编码器被配置为对与话语对应的输入频谱图进行编码。语音转换模型还包括频谱图解码器，所述频谱图解码器被配置为从所述编码器接收经编码的频谱图作为输入。所述频谱图解码器被配置为生成与所述话语的合成语音表示对应的输出频谱图作为输出。

2、本公开的实施方式可以包括以下可选特征中的一个或多个。在一些实施方式中，对应于所述话语的所述输入频谱图是从由与非典型语音相关联的说话者说出的输入语音中提取的。在这些实现中，所述话语的所述合成语音表示包括所述话语的合成规范流畅语音表示。

3、此外，语音转换模型可以包括字段解码器，所述字段解码器被配置为从所述编码器接收所述经编码的频谱图作为输入；以及生成与所述话语的转录对应的文本表示作为输出。此外，语音转换模型可以包括音素解码器，其被配置成从所述编码器接收所述经编码的频谱图作为输入；以及生成所述话语的音素表示作为输出。

4、在一些实施方式中，述自注意力块的堆栈包括conformer块的堆栈，每个conformer块具有多头自注意力机制。在这些实现方式中，编码器还可以包括第一子采样层，所述第一子采样层被设置在所述conformer块的堆栈之前，并且被配置为接收所述输入频谱图，所述第一子采样层包括卷积神经网络cnn层，随后在时间上池化以减少由所述conformer块的堆栈中的初始conformer块处理的帧的数目。此外，在这些实现中，编码器可以包括第二子采样层，所述第二子采样层被设置在所述conformer块的堆栈中的conformer块的初始集合与所述conformer块的堆栈中的conformer块的最终集合之间，所述第二子采样层被配置为对由所述conformer块的初始集合中的最后conformer块输出的隐藏表示进行子采样，以减少由所述conformer块的最终集合处理的帧的数量。在这些实施方式中，编码器还可以包括被设置在所述conformer块的堆栈之后的上采样层，所述上采样层包括单个转置cnn层，所述单个转置cnn层被配置为对由所述conformer块的堆栈中的最终conformer块输出的隐藏表示进行上采样，以增加由设置在所述编码器和所述频谱图解码器之间的交叉注意力机制处理的帧的数目。

5、此外，可以使用包括第一训练步骤的两步训练过程来训练语音转换模型，所述第一训练步骤在与典型流畅语音相关联的典型说话者的多个口头话语上预训练所述语音转换模型。这里，每个口头话语与所述话语的对应的地面真值合成规范流畅语音表示配对。两步训练过程还包括第二训练步骤，其基于由与非典型语音相关联的说话者说出的多个非典型语音样本，微调经预训练的语音转换模型的参数。

6、在一些实施方式中，所述频谱图解码器直接从所述经编码的频谱图生成所述输出频谱图，而不对与所述话语的转录对应的文本表示执行任何中间的文本到语音的转换。

7、本公开的另一方面提供了一种用于语音转换模型的计算机实现的方法。当在数据处理硬件上执行时，使数据处理硬件执行以下操作：接收与话语对应的输入频谱图作为语音转换模型的编码器的输入，所述编码器包括自注意力块的堆栈。所述操作还包括生成经编码的频谱图作为所述编码器的输出。该操作包括接收被生成作为所述编码器的输出的所述经编码的频谱图，作为所述语音转换模型的频谱图解码器的输入。该操作还包括生成与所述话语的合成语音表示对应的输出频谱图作为所述频谱图解码器的输出。

8、该方面可以包括一个或多个以下可选特征。在一些实施方式中，对应于所述话语的所述输入频谱图是从由与非典型语音相关联的说话者说出的输入语音中提取的。在这些实现中，所述话语的所述合成语音表示包括所述话语的合成规范流畅语音表示。

9、在一些实施方式中，所述操作包括接收被生成作为所述编码器的输出的所述经编码的频谱图，作为所述语音转换模型的字段解码器的输入。这些实施方式还包括生成与所述话语的转录对应的文本表示，作为所述字段解码器的输出。所述操作还可以包括接收被生成作为所述编码器的输出的所述经编码的频谱图，作为所述语音转换模型的音素解码器的输入，以及生成所述话语的音素表示，作为所述音素解码器的输出。

10、在一些实施方式中，所述自注意力块的堆栈包括conformer块的堆栈，每个conformer块具有多头自注意力机制。在这些实施方式中，所述编码器还包括第一子采样层，所述第一子采样层被设置在所述conformer块的堆栈之前，并且被配置成接收所述输入频谱图，所述第一子采样层包括卷积神经网络cnn层，随后在时间上池化以减少由所述conformer块的堆栈中的初始conformer块处理的帧的数目。此外，在这些实施方式中，所述编码器还包括第二子采样层，所述第二子采样层被设置在所述conformer块的堆栈中的conformer块的初始集合与所述conformer块的堆栈中的conformer块的最终集合之间，所述第二子采样层被配置为对所述conformer块的初始集合中的最后conformer块输出的隐藏表示进行子采样)，以减少由所述conformer块的最终集合处理的帧的数量。在这些实施方式中，所述编码器还包括设置在所述conformer块的堆栈之后的上采样层，所述上采样层包括单个转置cnn层，所述单个转置cnn层被配置为对由所述conformer块的堆栈中的最终conformer块输出的隐藏表示进行上采样，以增加由设置在所述编码器和所述频谱图解码器之间的交叉注意力机制处理的帧的数目。

11、此外，可以使用包括第一训练步骤的两步训练过程来训练语音转换模型，所述第一训练步骤通过在与典型流畅语音相关联的典型说话者的多个口头话语上预训练所述语音转换模型。这里，，每个口头话语与所述话语的对应的地面真值合成规范流畅语音表示配对。两步训练过程还包括第二训练步骤，其基于由与非典型语音相关联的说话者说出的多个非典型语音样本，微调经预训练的语音转换模型的参数。

12、在一些实施方式中，所述频谱图解码器(220a)直接从所述经编码的频谱图(212)生成所述输出频谱图，而不对与所述话语的转录对应的文本表示执行任何中间的文本到语音的转换。

13、本公开的一个或多个实现的细节在附图和以下描述中阐述。从说明书和附图以及从权利要求书中，其它方面，特征和优点将是显而易见的。

技术特征：

1.一种语音转换模型(200)，其特征在于，包括：

2.根据权利要求1所述的语音转换模型(200)，其特征在于，

3.根据权利要求1或2所述的语音转换模型(200)，其特征在于，还包括字段解码器(220b)，所述字段解码器(220b)被配置为：

4.根据权利要求1-3中任一项所述的语音转换模型(200)，其特征在于，还包括音素解码器(220c)，所述音素解码器(220c)被配置为：

5.根据权利要求1-4中任一项所述的语音转换模型(200)，其特征在于，所述自注意力块的堆栈(400)包括conformer块的堆栈(400)，每个conformer块具有多头自注意力机制(420)。

6.根据权利要求5所述的语音转换模型(200)，其特征在于，所述编码器(210)还包括第一子采样层(305)，所述第一子采样层(305)被设置在所述conformer块的堆栈(400)之前，并且被配置为接收所述输入频谱图(102)，所述第一子采样层(305)包括卷积神经网络cnn层，随后在时间上池化以减少由所述conformer块的堆栈(400)中的初始conformer块处理的帧的数目。

7.根据权利要求6所述的语音转换模型(200)，其特征在于，所述编码器(210)还包括第二子采样层(315)，所述第二子采样层(315)被设置在所述conformer块的堆栈(400)中的conformer块的初始集合(400a)与所述conformer块的堆栈(400)中的conformer块的最终集合(400b)之间，所述第二子采样层(315)被配置为对由所述conformer块的初始集合(400a)中的最后conformer块输出的隐藏表示进行子采样，以减少由所述conformer块的最终集合(400b)处理的帧的数量。

8.根据权利要求7所述的语音转换模型(200)，其特征在于，所述编码器(210)还包括被设置在所述conformer块的堆栈(400)之后的上采样层(325)，所述上采样层(325)包括单个转置cnn层，所述单个转置cnn层被配置为对由所述conformer块的堆栈(400)中的最终conformer块输出的隐藏表示进行上采样，以增加由设置在所述编码器(210)和所述频谱图解码器(220a)之间的交叉注意力机制(231a)处理的帧的数目。

9.根据权利要求1-8中任一项所述的语音转换模型(200)，其特征在于，所述语音转换模型(200)由两步训练过程(500)来训练，所述两步训练过程(500)包括：

10.根据权利要求1-9中任一项所述的语音转换模型(200)，其特征在于，所述频谱图解码器(220a)直接从所述经编码的频谱图(212)生成所述输出频谱图(222)，而不对与所述话语(108)的转录(201)对应的文本表示执行任何中间的文本到语音的转换。

11.一种计算机实现的方法(600)，其特征在于，当在数据处理硬件(710)上执行所述方法时，使所述数据处理硬件(710)执行以下操作：

12.根据权利要求11所述的方法(600)，其特征在于，

13.根据权利要求11或12所述的方法(600)，其特征在于，所述操作还包括：

14.根据权利要求11-13中任一项所述的方法(600)，其特征在于，所述操作还包括：

15.根据权利要求11-14中任一项所述的方法(600)，其特征在于，所述编码器(210)的所述自注意力块的堆栈(400)包括conformer块的堆栈(400)，每个conformer块具有多头自注意力机制(420)。

16.根据权利要求15所述的方法(600)，其特征在于，所述编码器(210)还包括第一子采样层(305)，所述第一子采样层(305)被设置在所述conformer块的堆栈(400)之前，并且被配置成接收所述输入频谱图(102)，所述第一子采样层(305)包括卷积神经网络cnn层，随后在时间上池化以减少由所述conformer块的堆栈(400)中的初始conformer块处理的帧的数目。

17.根据权利要求16所述的方法(600)，其特征在于，所述编码器(210)还包括第二子采样层(315)，所述第二子采样层(315)被设置在所述conformer块的堆栈(400)中的conformer块的初始集合(400a)与所述conformer块的堆栈(400)中的conformer块的最终集合(400b)之间，所述第二子采样层(315)被配置为对所述conformer块的初始集合(400a)中的最后conformer块输出的隐藏表示进行子采样)，以减少由所述conformer块的最终集合(400b)处理的帧的数量。

18.根据权利要求17所述的方法(600)，其特征在于，所述编码器(210)还包括设置在所述conformer块的堆栈(400)之后的上采样层(325)，所述上采样层(325)包括单个转置cnn层，所述单个转置cnn层被配置为对由所述conformer块的堆栈(400)中的最终conformer块输出的隐藏表示进行上采样，以增加由设置在所述编码器(210)和所述频谱图解码器(220a)之间的交叉注意力机制(231a)处理的帧的数目。

19.根据权利要求11-18中任一项所述的方法(600)，其特征在于，使用两步训练过程(500)训练所述语音转换模型(200)，所述两步训练过程(500)包括：

20.根据权利要求11-19中任一项所述的方法(600)，其特征在于，所述频谱图解码器(220a)直接从所述经编码的频谱图(212)生成所述输出频谱图(222)，而不对与所述话语(108)的转录(201)对应的文本表示执行任何中间的文本到语音的转换。

技术总结一种语音转换的方法(600)，包括接收与话语(108)对应的输入频谱图(102)作为语音转换模型(200)的编码器(210)的输入，所述编码器包括自注意力块的堆栈(400)。该方法还包括生成经编码的频谱图(212)作为从所述编码器的输出，并接收从所述编码器输出的所述经编码的频谱图作为所述语音转换模型的频谱图解码器(220)的输入。该方法还包括生成与所述话语的合成语音表示对应的输出频谱图(222)作为从所述频谱图解码器的输出。技术研发人员：布瓦那·拉马巴德兰,陈哲怀,法迪·比亚德希,佩德罗·J·莫雷诺·门希瓦尔受保护的技术使用者：谷歌有限责任公司技术研发日：技术公布日：2024/1/22