技术新讯 > 乐器声学设备的制造及制作,分析技术 > 一种基于离散语音标记和离散扩散模型的语音合成系统 > 正文

一种基于离散语音标记和离散扩散模型的语音合成系统

国知局
2024-06-21 11:51:03

本发明涉及语音领域，尤其涉及一种基于离散语音标记和离散扩散模型的语音合成系统。

背景技术：

1、传统的技术通常利用梅尔频谱图(mel-spectrogram)作为中间特征进行语音生成。fastspeech是一个基于神经网络的端到端tts模型，能从文本生成梅尔频谱图(mel-spectrogram)，然后使用诸如wavenet的声码器合成语音。fastspeech旨在提供快速、稳定且可控的语音合成服务，比传统端到端tts模型生成梅尔频谱图的速度快70倍，合成语音的速度快8倍。grad-tts也是一个基于神经网络的端到端tts模型，它利用随机微分方程的框架，将传统的扩散概率模型泛化到不同参数的噪声数据重建中，允许通过明确控制声音质量和推理速度之间的权衡来灵活重建。

2、近期，一些工作利用神经音频编解码器(neural audio codec)产生的离散标记(token)作为中间特征进行语音生成。spear-tts是一个多说话人的tts系统，可以在最少的监督下进行训练。通过结合两种不同的离散语音标记，spear-tts将tts任务分解为两个序列到序列的任务：从文本到高层语义标记(类似于“阅读”)和从语义标记到低层声学标记(“说话”)。这种解耦使训练更高效，泛化能力更强。vall-e也是一个多说话人的tts系统，它利用神经编解码语言模型，用于高质量的语音合成。该模型使用来自神经音频编解码器的离散标记进行训练，并将tts视为一个条件语言建模任务。在英语语音的大型数据集上进行预训练，模型能够仅凭一秒钟的录音生成个性化语音。vall-e在自然度和说话者相似度方面超越了现有的tts系统，并在合成中保留了情感和声学环境。

3、部分工作也采用神经音频编解码器产生的连续潜在向量(latent embedding)作为中间特征。naturalspeech2利用利用具有残差向量量化器的神经音频编解码器来重建语音波形，并获得量化后的潜在向量，并在给定文本输入的情况下使用扩散模型生成这些潜在向量。

4、残差矢量量化(residual vector quantization,rvq)是一种数据压缩技术，它是当前主流的神经音频编解码器的核心，并运用在了soundstream和encodec等神经音频编解码器中。矢量量化将数据点的空间划分为一组离散的区域，而残差矢量量化通过级联码本的层次结构实现高效压缩，通过处理前一层的残差错误实现高精度压缩。delightfultts2使用神经音频编解码器提取离散语音标记和波形重建。该模型是一个分层编解码器网络，提取出细粒度编解码器的连续帧级语音表示和粗粒度编解码器的离散标记。首先，细粒度音频编解码器使用卷积编码器将波形编码为连续特征，粗粒度编解码器旨在从细粒度编解码器重建帧级特征，但使用更少的量化器。

5、因此，本领域的技术人员致力于开发一种新的语音合成框架：利用神经语音编解码器将语音量化成仅一层的粗粒度离散标记，并用非自回归的离散扩散模型进行建模。

技术实现思路

1、有鉴于现有技术的上述缺陷，本发明所要解决的技术问题是如何降低计算资源以及加快计算速度。

2、为实现上述目的，本发明提供了一种基于离散语音标记和离散扩散模型的语音合成系统，涉及语音领域，本发明首先经过说话人特征编码器得到维度为512的说话人特征，音素和说话人特征共同被送入音素编码器，得到音素级别的特征；所述音素级别的特征和所述说话人特征再经过时长预测器，可得到每个音素所对应的时长，通过复制音素相对应的帧的次数，我们就得到了含有时长信息的帧级别特征；所述帧级别特征将作为条件送入离散扩散模型，生成对应的离散的语音标记序列，所述语音标记序列又被进一步送入神经音频解码器，从而得到最终的语音波形。

3、进一步地，所述说话人特征编码器以提示语音经过神经语音编码器量化后的连续潜在向量作为输入；模型通过一个一维卷积层处理该连续潜在向量，然后经过一系列的注意力模块对提示语音特征进行处理，最终对处理后的特征在时间维度上取平均值，得到最终的说话人嵌入。

4、进一步地，所述音素编码器是一个基于转换器编码器结构(transformer encoderblock)的编码器，它以音素序列作为输入；其中，所述说话人嵌入通过加入编码器的层正则化(layernorm)层实现；所述音素编码器的作用是提取音素的上下文相关表示，这些表示捕捉了音素之间的关系和它们在句子中的位置信息。

5、进一步地，所述时长预测器负责预测给定输入文本的每个音素应该发音的时间长度，从所述音素编码器中得到的音素级别特征接着被送入所述时长预测器，它的任务是为每个音素预测一个时长值，所述时长值表征了每个音素应该持续的时间长度，它们是连续的，并需要被量化成离散的时间步。

6、进一步地，本发明使用单调对齐(monotonic alignment search，mas)实现文本到语音的生成流，在训练过程中，所述时长预测器的训练目标是最大化给定文本情况下语音的对数似然，并且由于生成流的性质，其采样过程是完全并行的；所述时长预测器由卷积层和正则化层组成；

7、所述时长预测器的损失函数为预测的标记持续时间与单义对齐搜索提取的标记持续时间之间的均方误差，如下公式：

8、

9、

10、进一步地，所述离散扩散模型是一种生成模型，通过模拟从无序的噪声数据逐步转换为有序结构的过程来生成数据；这个过程包括两个阶段：正向扩散和反向扩散；在正向扩散阶段，所述离散扩散模型逐步向数据添加噪声，直至数据完全变为随机噪声；在反向扩散阶段，所述离散扩散模型逐步从噪声中恢复出有意义的数据结构；通过这个过程，所述离散扩散模型学习如何从随机噪声生成目标数据。

11、进一步地，所述离散扩散模型与连续的扩散模型不同，离散标记不能通过加以高斯噪声的方式进行正向扩散，因此在正向加噪过程中，引入状态转移矩阵，并且采取掩码并恢复的策略，即某一标记有k+1种状态可以转移，其中有γt的概率被转移到掩码标记，kβt的概率被转移到另一个标记，αt概率保持为原有标记；一旦该标记成为了掩码标记，状态便会保持在掩码状态不再改变；

12、

13、计算得到累计转移矩阵和其相对应的概率；

14、是第t步的累积转移矩阵；代表在起始时间的某个初始状态或值分布；代表在t次转移后停留在当前状态的概率；这通过乘积来建模，它聚合了从1到t的所有时间步长中保持在相同状态的概率；

15、项调整了转变为掩码状态(第k+1状态)的概率，其中是转移到不同状态(不变为掩码)的平均概率；正向扩散过程中的概率是预先定义的先验信息，在实际使用中，如果数据较为多样且复杂，则βt可以被设置为很小，如果数据较为匮乏，则可使用较大的βt；

16、训练一个神经网络来实现反向扩散过程，其目的是预测pθ(xt-1|xt,y)从而去估计q(xt-1|xt,x0)..因此在训练过程中，该网络通过优化证据下界实现；

17、lvlb＝l0+l1+···+lt-1+lt,

18、l0＝-logpθ(x0|x1,y),

19、lt-1＝dkl(q(xt-1|xt,x0)||pθ(xt-1|xt,y))

20、lt＝dkl(q(xt|x0)||p(xt)

21、此外，为了提高生成质量，模型还引入了无噪音预测损失

22、在推理阶段，通过计算来进行每一步的迭代推理。

23、进一步地，所述离散扩散模型的优化目标是找到最大化p(x|y)的x，但为了使得生成模型能够更好地匹配输入文本的要求，一个直接的解决方案是优化目标函数logp(x|y)+s logp(y|x)，其中s是一个超参数，用于控制后验约束的程度；通过应用贝叶斯定理，将这个优化目标导出为如下方程

24、

25、目标函数是两项之间的加权和，其中第一项logp(y|x)衡量生成样本x和目标文本y之间的相似性，第二项(1-s)logp(x)鼓励生成图像的多样性；优化这个目标函数可以平衡生成图像的忠实度和多样性，同时也考虑到生成图像和目标文本描述之间的相似性；这种方法可以提高生成图像的质量，并增强扩散模型在各种图像生成任务中的性能；

26、为了预测无条件的p(x)，有不同的方法来微调模型，可以将输入条件设置为空文本，也可以使用可学习的向量作为空向量以更好地适应p(x)的logits；

27、log pθ(xt-1|xt，y)＝log pθ(xt-1|xt)+(s+1)(log pθ(xt-1|xt，y)-log pθ(xt-1|xt))

28、上述公式中，在推理阶段，为了更准确地计算pθ(xt-1|xt，y)，将条件输入设置为可学习的空向量来预测无条件图像pθ(xt-1|xt)；使用可学习的空向量作为条件输入为模型提供了无分类指导，从而改进了生成性能并使训练过程更高效；因此，模型在每一步都进行两次预测，一次是有条件的预测，一次是无条件地预测，通过加权求和，可以得到更准确的pθ(xt-1|xt，y)。

29、进一步地，所述离散扩散模型以正向扩散后的离散标记序列作为输入，以帧级特征作为条件；所述离散标记序列首先通过位置编码与所述帧级特征拼接在一起，然后送入transformer解码器；在所述transformer解码器中，每一个模块依次进行自注意力和交叉注意力，其中所述交叉注意力中以帧级特征作为key向量和value向量；最终，该扩散模型预测出离散标记序列，并按照上文所述计算损失；在实际训练中，所述离散扩散模型、所述时长预测器、所述音素编码器和所述说话人特征编码器是联合训练的。

30、进一步地，本发明使用基于delightfultts2的所述神经音频编解码器提取离散语音标记和波形重建，该模型基于向量量化自动编码器和对抗训练(vq-gan)的分层编解码器网络，提取出细粒度编解码器的连续帧级语音表示和粗粒度编解码器的离散标记，其训练目标是重建与真实语音非常相似的高质量波形；

31、首先，所述细粒度音频编解码器使用卷积编码器将波形编码为连续特征，它包括一个波形下采样编码器、一个镜像上采样解码器和一个作为特征瓶颈的残差向量量化器；所述细粒度音频编码器接收16khz的波形作为输入，并使用卷积层将其下采样到帧级表示，通过下采样层实现600倍的压缩比；结果的帧级语音表示通过多个向量量化器的残差向量量化器(rvq)进行量化；

32、所述粗粒度编解码器旨在从所述细粒度编解码器重建帧级特征，但使用更少的量化器；更多的量化器将更好地在所述细粒度编解码器中重建波形，但它也会增加一个语音帧的语音标记数量，并使得使用离散标记进行语言建模变得困难，所述粗粒度编解码器在标记数量和波形重建质量上做出了基于预训练所述细粒度编解码器的平衡；细粒度编解码器的帧级声学特征作为粗粒度编解码器的重建目标，在训练中粗粒度编解码器预测细粒度rvq的权重分布；使用所述粗粒度编解码器生成的与语音离散标记，它仅需要1个标记来标记37.5ms的语音。

33、本发明具有如下技术效果：

34、1、仅一层的离散语音标记和非自回归方式实现了高效训练和推理，这缓解了已有的技术存在的问题；

35、2、预测语音更符合文本的要求；

36、3、即便在提示语音嘈杂的情况下，也能实现高质量的干净语音生成。

37、以下将结合附图对本发明的构思、具体结构及产生的技术效果作进一步说明，以充分地了解本发明的目的、特征和效果。