技术新讯 > 乐器声学设备的制造及制作,分析技术 > 语音合成方法、装置、设备和存储介质与流程 > 正文

语音合成方法、装置、设备和存储介质与流程

国知局
2024-06-21 11:56:07

本申请涉及语音合成，特别是涉及一种语音合成方法、装置、设备和存储介质。

背景技术：

1、语音合成又称文语转换(text-to-speech，tts)，旨在实现将输入文本转换为流畅自然的语音并输出，是实现智能人机交互的关键技术。

2、目前，语音合成技术在众多场景中均有应用，例如，车载语音助理、手机助手、智能客服、有声读物等。随着语音合成技术的不断发展，对合成语音质量的要求也在不断提高，对合成语音质量的要求不仅仅是“能听清”，而更多的要求“自然流畅、高拟人化”等高质量要求。

3、因此，如何使得语音合成输出的合成语音更加拟人化，成为亟待解决的技术问题。

技术实现思路

1、本申请主要解决的技术问题是提供一种语音合成方法、装置、设备和计算机可读存储介质，能够提高合成语音的拟人化效果。

2、为解决上述技术问题，本申请采用的一个技术方案是：提供一种语音合成方法，该方法包括：获取第一待合成文本的目标语音特征，目标语音特征表征有第一待合成文本对应的音素信息、韵律信息和副语言标签信息；利用目标语音特征进行语音合成，得到第一待合成文本对应的目标合成语音。

3、可选地，获取第一待合成文本的目标语音特征，包括：基于第一待合成文本，提取得到音素特征、韵律特征和副语言标签特征；利用音素特征、韵律特征和副语言标签特征，生成目标语音特征。

4、可选地，基于第一待合成文本，提取得到副语言标签特征的步骤包括：提取第一待合成文本中的副语言标签信息和副语言标签信息在第一待合成文本中的位置信息；基于副语言标签信息、副语言标签信息的位置信息和预设约束条件，生成副语言标签特征。

5、可选地，副语言标签特征包括若干副语言标签序列，预设约束条件包括：各副语言标签序列分别包括至少一种预设副语言标签，且不同副语言标签序列所包括的预设副语言标签的种类不相同。

6、可选地，预设副语言标签包括第一类标签和第二类标签中的至少一者，其中，第一类标签包括场景风格标签和情感类型标签中的至少一者，第二类标签包括文本表示标签和无文本表示标签，文本表示标签包括至少一种预设口语词标签，无文本表示标签包括预设停顿标签以及预设发声习惯标签中的至少一者；预设约束条件进一步包括以下条件中的至少一个：第一类标签和第二类标签分别位于不同的副语言标签序列；场景风格标签和情感类型标签分别位于不同的副语言标签序列；文本表示标签和无文本表示标签分别位于不同的副语言标签序列；不能同时出现的各种预设口语词标签位于同一副语言标签序列；能同时出现的各种预设口语词标签分别位于不同的副语言标签序列；预设停顿标签和预设发声习惯标签位于不同的副语言标签序列。

7、可选地，利用音素特征、韵律特征和副语言标签特征，生成目标语音特征，包括：分别对音素特征、韵律特征和副语言标签特征进行编码处理；对编码后的音素特征、编码后的韵律特征和编码后的副语言标签特征进行拼接处理，得到目标语音特征。

8、可选地，第一待合成文本的获取步骤包括：获取第二待合成文本；利用大语言模型对第二待合成文本进行预测，得到带有副语言标签信息的第一待合成文本。

9、可选地，利用目标语音特征进行语音合成的步骤由语音合成模型执行，语音合成模型包括声学特征预测网络和声码器；利用目标语音特征进行语音合成，得到第一待合成文本对应的目标合成语音，包括：利用声学特征预测网络预测目标语音特征对应的目标声学特征；利用声码器对目标声学特征进行处理，得到目标合成语音。

10、可选地，利用目标语音特征进行语音合成的步骤由语音合成模型执行，语音合成模型至少经第一样本数据集进行训练得到；其中，第一样本数据集包括若干标注有副语言标签信息的第一样本待合成文本以及各第一样本待合成文本分别对应的第一样本语音；利用第一样本数据集对语音合成模型进行训练的步骤包括：获取第一样本待合成文本对应的样本目标语音特征，利用语音合成模型预测样本目标语音特征对应的样本预测声学特征；获取第一样本待合成文本的第一样本语音的样本实际声学特征；基于样本预测声学特征和样本实际声学特征之间的差异，调整语音合成模型的网络参数。

11、可选地，在利用第一样本数据集对语音合成模型进行训练之前，方法还包括：利用第二样本数据集对语音合成模型进行训练；其中，第二样本数据集包括若干未带有副语言标签信息的第二样本待合成文本以及各第二样本待合成文本分别对应的第二样本语音；和/或，在利用第一样本数据集对语音合成模型进行训练之后，方法还包括：利用第三样本数据集对语音合成模型进行训练；其中，第三样本数据集包括若干带有目标对象的副语言标签信息的第三样本待合成文本以及各第三样本待合成文本分别对应的第三样本语音。

12、为解决上述技术问题，本申请采用的另一个技术方案是：提供一种语音合成装置，该装置包括：特征获取模块，用于获取第一待合成文本的目标语音特征，目标语音特征表征有第一待合成文本对应的音素信息、韵律信息和副语言标签信息；语音合成模块，用于利用目标语音特征进行语音合成，得到第一待合成文本对应的目标合成语音。

13、为解决上述技术问题，本申请采用的另一个技术方案是：提供一种电子设备，包括相互耦接的存储器和处理器，存储器存储有程序指令；处理器用于执行存储器中存储的程序指令，以实现上述语音合成方法。

14、为解决上述技术问题，本申请采用的另一个技术方案是：提供一种计算机可读存储介质，该计算机可读存储介质用于存储程序指令，程序指令能够被处理器执行以实现上述语音合成方法。

15、以上方案，通过获取第一待合成文本的目标语音特征，并利用目标语音特征进行语音合成，得到待合成文本对应的目标合成语音。目标语音特征除了表征有第一待合成文本对应的音素信息和韵律信息之外，还表征有第一待合成文本对应的副语言标签信息。在利用目标语音特征进行语音合成时，可基于副语言标签信息调整副语言标签信息相应文本的发音效果，使得目标合成语音在听感上更加自然、口语化，从而提高目标合成语音的拟人化效果。

技术特征：

1.一种语音合成方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述获取第一待合成文本的目标语音特征，包括：

3.根据权利要求2所述的方法，其特征在于，基于所述第一待合成文本，提取得到所述副语言标签特征的步骤包括：

4.根据权利要求3所述的方法，其特征在于，所述副语言标签特征包括若干副语言标签序列，所述预设约束条件包括：各所述副语言标签序列分别包括至少一种预设副语言标签，且不同所述副语言标签序列所包括的所述预设副语言标签的种类不相同。

5.根据权利要求4所述的方法，其特征在于，所述预设副语言标签包括第一类标签和第二类标签中的至少一者，其中，所述第一类标签包括场景风格标签和情感类型标签中的至少一者，所述第二类标签包括文本表示标签和无文本表示标签，所述文本表示标签包括至少一种预设口语词标签，所述无文本表示标签包括预设停顿标签以及预设发声习惯标签中的至少一者；

6.根据权利要求3所述的方法，其特征在于，所述利用所述音素特征、所述韵律特征和所述副语言标签特征，生成所述目标语音特征，包括：

7.根据权利要求1所述的方法，其特征在于，所述第一待合成文本的获取步骤包括：

8.根据权利要求1所述的方法，其特征在于，利用所述目标语音特征进行语音合成的步骤由语音合成模型执行，所述语音合成模型包括声学特征预测网络和声码器；

9.根据权利要求1所述的方法，其特征在于，利用所述目标语音特征进行语音合成的步骤由语音合成模型执行，所述语音合成模型至少经第一样本数据集进行训练得到；其中，所述第一样本数据集包括若干标注有所述副语言标签信息的第一样本待合成文本以及各所述第一样本待合成文本分别对应的第一样本语音；

10.根据权利要求9所述的方法，其特征在于，

11.一种语音合成装置，其特征在于，所述装置包括：

12.一种电子设备，其特征在于，包括相互耦接的存储器和处理器，

13.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质用于存储程序指令，所述程序指令能够被处理器执行以实现权利要求1-10任一项所述的方法。

技术总结本申请公开了一种语音合成方法、装置、设备和存储介质，语音合成方法包括：获取第一待合成文本的目标语音特征，目标语音特征表征有第一待合成文本对应的音素信息、韵律信息和副语言标签信息；利用目标语音特征进行语音合成，得到第一待合成文本对应的目标合成语音。通过上述方式，能够提高目标合成语音的拟人化效果。技术研发人员：董元杰,宋锐,胡亚军,方昕,高建清,刘聪受保护的技术使用者：科大讯飞股份有限公司技术研发日：技术公布日：2024/6/5