技术新讯 > 乐器声学设备的制造及制作,分析技术 > 文本转语音的方法、设备和计算机程序产品与流程 > 正文

文本转语音的方法、设备和计算机程序产品与流程

国知局
2024-06-21 11:48:52

本公开的实施例总体上涉及语音，并且更具体地涉及文本转语音的方法、设备以及计算机程序产品。

背景技术：

1、文本转语音(tts)技术旨在给定文本的情况下合成可理解的自然语音，被广泛应用，并已被扩展到多说话者场景。在实际应用中，期待对于来自给定说话者的几个长度较短的音频样本，tts模型能够生成高质量的语音。通常，需要对tts模型进行微调，否则实现的自适应质量(adaptation quality)较低。

技术实现思路

1、本公开的实施例提供了一种文本转语音的方法、设备和计算机程序产品。

2、在本公开的一个方面，提供了一种文本转语音的方法。该方法包括：通过对第一说话者的参考波形进行编码，得到与第二说话者分离的编码后风格特征；通过将所述编码后风格特征迁移到对输入文本进行编码得到的频谱图，得到经风格迁移后的频谱图；以及将所述经风格迁移后的频谱图转换为时域语音波形。

3、在本公开的另一方面，提供了一种电子设备。该设备包括处理单元以及存储器，其中存储器被耦合至处理单元并且存储有指令。指令在由处理单元执行时执行以下动作：通过对第一说话者的参考波形进行编码，得到与第二说话者分离的编码后风格特征；通过将所述编码后风格特征迁移到对输入文本进行编码得到的频谱图，得到经风格迁移后的频谱图；以及将所述经风格迁移后的频谱图转换为时域语音波形。

4、在本公开的又一方面，提供了一种计算机程序产品。该计算机程序产品被有形地存储在非瞬态计算机可读介质上并且包括计算机可执行指令，计算机可执行指令在被执行时使得计算机执行根据本公开的实施例的方法或过程。

5、提供技术实现要素：部分是为了以简化的形式来介绍相关概念，这些概念在下文的具体实施方式中将被进一步描述。本发明内容部分无意标识本公开的关键特征或主要特征，也无意限制本公开的各个实施例的范围。

技术特征：

1.一种文本转语音的方法，包括：

2.根据权利要求1所述的方法，其中对第一说话者的所述参考波形进行编码包括：

3.根据权利要求2所述的方法，其中对第一说话者的所述参考波形进行编码还包括：

4.根据权利要求1所述的方法，其中所述第二说话者与所述第一说话者在空间位置上接近，具有相同分布方差的特征。

5.根据权利要求3所述的方法，其中所述第一说话者的特征的损失函数基于所述损失值。

6.根据权利要求5所述的方法，其中对第一说话者的所述参考波形进行编码，得到与第二说话者分离的编码后风格特征包括：

7.根据权利要求6所述的方法，还包括：

8.根据权利要求1所述的方法，其中：

9.一种电子设备，包括：

10.根据权利要求9所述的设备，其中对第一说话者的所述参考波形进行编码包括：

11.根据权利要求10所述的设备，其中对第一说话者的参考波形进行编码还包括：

12.根据权利要求9所述的设备，其中所述第二说话者与所述第一说话者在空间位置上接近，具有相同分布方差的特征。

13.根据权利要求11所述的设备，其中所述第一说话者的特征的损失函数基于所述损失值。

14.根据权利要求13所述的设备，其中对第一说话者的所述参考波形进行编码，得到与第二说话者分离的编码后风格特征包括：

15.根据权利要求14所述的设备，所述指令在由所述处理单元执行时还执行以下动作：

16.根据权利要求14所述的设备，其中：

17.一种计算机程序产品，所述计算机程序产品被有形地存储在非瞬态计算机可读介质上并且包括计算机可执行指令，所述计算机可执行指令在被执行时使计算机执行根据权利要求1至8中任一项所述的方法。

技术总结本公开的实施例涉及一种文本转语音的方法、设备和计算机程序产品。方法包括通过对第一说话者的参考波形进行编码，得到与第二说话者分离的编码后风格特征。方法还包括通过将所述编码后风格特征迁移到对输入文本进行编码得到的频谱图，得到经风格迁移后的频谱图。方法还包括将所述经风格迁移后的频谱图转换为时域语音波形。根据本公开的文本转语音方法，基于OWS的对比学习框架也能够灵活且有效地合成具有目标说话者风格的语音，从而能够实现轻量级语音风格迁移，可以学习高质量且可识别的语音合成的特征，实现有效的说话者特征学习。此外，该模型将有利于其他下游任务。技术研发人员：杨文彬,王子嘉,倪嘉呈,贾真受保护的技术使用者：戴尔产品有限公司技术研发日：技术公布日：2024/5/6