技术新讯 > 乐器声学设备的制造及制作,分析技术 > 合成语音的调整方法、训练方法及相关装置与流程 > 正文

合成语音的调整方法、训练方法及相关装置与流程

国知局
2024-06-21 11:47:43

本申请涉及语音合成，特别是涉及一种合成语音的调整方法、训练方法及相关装置。

背景技术：

1、语音合成是一种将文本转换成合成语音的智能语音技术，它是实现人机交互的关键技术之一。随着人工智能技术的发展，语音合成技术在众多领域得到了广泛应用，例如智能移动终端领域、智能家居领域和车载设备领域等。

2、目前，现有的语音合成方法只能合成出单一固定属性的语音数据，然而，不同用户对于合成语音的属性的喜好通常不同，使得不再能够满足用户的使用需求。

技术实现思路

1、本申请主要解决的技术问题是提供一种合成语音的调整方法、训练方法及相关装置，能够实现对语音属性的调整，满足用户对于合成语音的个性化需求。

2、为了解决上述问题，本申请第一方面提供了一种合成语音的调整方法，该方法包括：获取初始合成语音的属性调整文本，以及，获取目标说话人的原属性特征，其中，属性调整文本用于表征对初始合成语音进行语音属性调整的属性差异，初始合成语音是利用原属性特征和声学特征进行语音合成得到的；利用属性调整文本和原属性特征进行属性预测，得到新属性特征；基于新属性特征和声学特征进行语音合成，得到调整后的合成语音。

3、为了解决上述问题，本申请第二方面提供了一种语音合成系统的训练方法，该方法包括：获取多对说话人的语音数据样本之间的属性差异样本；以及，利用语音合成系统获取各说话人的属性特征样本；利用语音合成系统对属性差异样本和说话人的属性特征样本进行属性预测，得到预测属性特征；基于预测属性特征，对语音合成系统的网络参数进行调整，得到训练后的语音合成系统。

4、为了解决上述问题，本申请第三方面提供了一种合成语音的调整装置，该装置包括：属性调整单元、属性获取单元、属性预测单元和语音合成单元，其中，属性调整单元用于获取初始合成语音的属性调整文本；属性获取单元用于获取目标说话人的原属性特征，其中，属性调整文本用于表征对初始合成语音进行语音属性调整的属性差异，初始合成语音是利用原属性特征和声学特征进行语音合成得到的；属性预测单元用于利用属性调整文本和原属性特征进行属性预测，得到新属性特征；语音合成单元用于基于新属性特征和声学特征进行语音合成，得到调整后的合成语音。

5、为了解决上述问题，本申请第四方面提供了一种语音合成系统的训练装置，该装置包括：差异获取单元、属性获取单元、语音预测单元和参数调整单元，其中，差异获取单元用于获取多对说话人的语音数据样本之间的属性差异样本；属性获取单元用于获取各说话人的属性特征样本；语音预测单元用于对属性差异样本和说话人的属性特征样本进行属性预测，得到预测属性特征；参数调整单元用于基于预测属性特征，对语音合成系统的网络参数进行调整，得到训练后的语音合成系统。

6、为了解决上述问题，本申请第五方面提供了一种电子设备，该电子设备包括相互耦接的存储器和处理器，存储器中存储有程序数据，处理器用于执行程序数据以实现上述合成语音的调整方法和/或语音合成系统的训练方法的任一步骤。

7、为了解决上述问题，本申请第六方面提供了一种计算机可读存储介质，该计算机可读存储介质存储有能够被处理器运行的程序数据，程序数据用于实现上述合成语音的调整方法和/或语音合成系统的训练方法的任一步骤。

8、上述方案，通过获取目标说话人的原属性特征，而初始合成语音是利用原属性特征和声学特征进行语音合成得到的，可以得到对于合成的初始合成语音的语音属性的表征，并获取初始合成语音的属性调整文本，而属性调整文本用于表征对初始合成语音进行语音属性调整的属性差异，可以得到相对于初始合成语音的语音属性差异，也即用户想要的合成语音与初始合成语音之间的语音属性的属性差异，然后，利用属性调整文本和原属性特征进行属性预测，得到新属性特征，可以使得新属性特征更接近属性调整文本所对应的用户需要的属性特征，再基于新属性特征和声学特征进行语音合成，得到调整后的合成语音，可以得到趋向于属性调整文本的合成语音，实现了对合成语音的语音属性的调整，从而，满足用户对于合成语音的个性化需求。

9、应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，而非限制本申请。

技术特征：

1.一种合成语音的调整方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述利用所述属性调整文本和所述原属性特征进行属性预测，得到新属性特征，包括：

3.根据权利要求1所述的方法，其特征在于，

4.根据权利要求3所述的方法，其特征在于，所述利用所述属性调整文本和所述原属性特征进行属性预测，得到新属性特征之前，包括：

5.根据权利要求1所述的方法，其特征在于，所述获取初始合成语音的属性调整文本，包括：

6.根据权利要求1所述的方法，其特征在于，所述初始合成语音是语音合成模型对所述原属性特征和所述声学特征进行语音合成得到的；

7.根据权利要求6所述的方法，其特征在于，所述语音合成模型是利用多个说话人的语音数据样本的属性特征样本、文本特征样本、表征样本进行训练得到的。

8.一种语音合成系统的训练方法，其特征在于，包括：

9.根据权利要求8所述的方法，其特征在于，所述语音合成系统包括属性编码模块和属性调整模型，每对说话人包括第一说话人和第二说话人，所述属性差异样本包括所述第二说话人相对于所述第一说话人的语音数据样本之间的属性差异；

10.根据权利要求8所述的方法，其特征在于，所述方法还包括：

11.根据权利要求10所述的方法，其特征在于，所述语音合成系统包括语音合成模型，所述语音合成模型包含属性编码模块；

12.根据权利要求11所述的方法，其特征在于，

13.一种合成语音的调整装置，其特征在于，包括：

14.一种语音合成系统的训练装置，其特征在于，包括：

15.一种电子设备，其特征在于，包括相互耦接的存储器和处理器，所述存储器中存储有程序数据，所述处理器用于执行所述程序数据以实现权利要求1至7任一项所述方法的步骤；和/或，权利要求8至12任一项所述方法的步骤。

16.一种计算机可读存储介质，其特征在于，存储有能够被处理器运行的程序数据，所述程序数据用于实现权利要求1至7任一项所述方法的步骤；和/或，权利要求8至12任一项所述方法的步骤。

技术总结本申请公开了一种合成语音的调整方法、训练方法及相关装置。该方法包括：获取初始合成语音的属性调整文本，以及，获取目标说话人的原属性特征，其中，属性调整文本用于表征对初始合成语音进行语音属性调整的属性差异，初始合成语音是利用原属性特征和声学特征进行语音合成得到的；利用属性调整文本和原属性特征进行属性预测，得到新属性特征；基于新属性特征和声学特征进行语音合成，得到调整后的合成语音。上述方案，能够实现对语音属性的调整，满足用户对于合成语音的个性化需求。技术研发人员：刘利娟,潘嘉,高建清,刘聪受保护的技术使用者：科大讯飞股份有限公司技术研发日：技术公布日：2024/4/29