技术新讯 > 乐器声学设备的制造及制作,分析技术 > 语音合成数据获取方法、装置、电子设备及存储介质与流程 > 正文

语音合成数据获取方法、装置、电子设备及存储介质与流程

国知局
2024-06-21 11:29:44

本申请涉及语音合成，更具体地，涉及一种语音合成数据获取方法、装置、电子设备以及存储介质。

背景技术：

1、语音合成，又称文语转换(text to speech)技术，能将任意文字信息实时转化为标准流畅的语音朗读出来，相当于给机器装上了人工嘴巴。在语音合成系统中可控地生成带有特定色彩的音色是一类受到关注的研究问题，然而，受限于大规模的、满足语音合成训练所要求的录音和具有标注质量的语料均难以获取，目前的多说话人语音合成方法所生成的与人脸相配的语音质量有限，难以满足用户使用需求。

技术实现思路

1、本申请提出了一种语音合成数据获取方法、装置、电子设备以及存储介质，以改善上述问题。

2、第一方面，本申请实施例提供了一种语音合成数据获取方法，所述方法包括：获取候选音色向量，其中，候选音色的数量为多个；获取参考人脸图像；基于所述候选音色向量获取与所述参考人脸图像匹配的参考音色向量，所述参考音色向量的数量小于所述候选音色向量的数量；将所述参考音色向量作为目标语音合成数据。

3、第二方面，本申请实施例提供了一种语音合成数据获取装置，所述装置包括：候选音色向量获取模块，用于获取候选音色向量，其中，候选音色的数量为多个；参考人脸图像获取模块，用于获取参考人脸图像；参考音色向量获取模块，用于基于所述候选音色向量获取与所述参考人脸图像对应的参考音色向量，所述参考音色向量的数量小于所述候选音色向量的数量；语音合成数据获取模块，用于将所述参考音色向量作为目标语音合成数据。

4、第三方面，本申请提供了一种电子设备，包括一个或多个处理器以及存储器；一个或多个程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序配置用于执行上述第一方面的方法。

5、第四方面，本申请提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有程序代码，其中，在所述程序代码运行时执行上述第一方面的方法。

6、本申请提供的一种语音合成数据获取方法、装置、电子设备以及存储介质，本方法通过获取候选音色向量，其中，候选音色的数量为多个；获取参考人脸图像；基于所述候选音色向量获取与所述参考人脸图像对应的参考音色向量，所述参考音色向量的数量小于所述候选音色向量的数量；将所述参考音色向量作为目标语音合成数据。从而通过上述方式实现了可以基于候选音色向量获取与参考人脸图像匹配的参考音色向量，从而获取到与参考人脸图像在主观感受上相匹配的合成语音数据，提供了一种跨模态的音色定制方式，从而可以实现提升与人脸相配的语音的质量。

技术特征：

1.一种语音合成数据获取方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述基于所述候选音色向量获取与所述参考人脸图像对应的参考音色向量，包括：

3.根据权利要求2所述的方法，其特征在于，所述通过所述指定神经网络模型基于所述候选音色向量预测得到与所述参考人脸图像对应的参考音色向量，包括：

4.根据权利要求3所述的方法，其特征在于，所述通过所述指定神经网络模型从所述候选音色向量中获取与所述参考人脸图像具备对应关系的预测音色向量，包括：

5.根据权利要求4所述的方法，其特征在于，所述通过所述指定神经网络模型获取所述参考人脸图像分别与多个候选音色向量之间的相似度参数，得到多个相似度参数，包括：

6.根据权利要求2所述的方法，其特征在于，所述将所述候选音色向量与所述参考人脸图像输入指定神经网络模型之前，所述方法还包括：

7.根据权利要求6所述的方法，其特征在于，所述待训练神经网络模型包括第一模型和第二模型，所述将所述人脸图像和音色输入待训练神经网络模型，包括：

8.根据权利要求6所述的方法，其特征在于，所述将所述人脸图像和音色输入待训练神经网络模型之前，还包括：

9.根据权利要求1所述的方法，其特征在于，所述基于所述候选音色向量获取与所述参考人脸图像对应的参考音色向量，包括：

10.一种语音合成数据获取装置，其特征在于，所述装置包括：

11.一种电子设备，其特征在于，包括一个或多个处理器以及存储器；

12.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有程序代码，其中，在所述程序代码被处理器运行时执行权利要求1-9任一所述的方法。

技术总结本申请公开了一种语音合成数据获取方法、装置、电子设备以及存储介质。该方法包括：获取候选音色向量，其中，候选音色的数量为多个；获取参考人脸图像；基于所述候选音色向量获取与所述参考人脸图像匹配的参考音色向量，所述参考音色向量的数量小于所述候选音色向量的数量；将所述参考音色向量作为目标语音合成数据。本方法实现了可以基于候选音色向量获取与参考人脸图像匹配的参考音色向量，从而获取到与参考人脸图像在主观感受上相匹配的合成语音数据，提供了一种跨模态的音色定制方式，从而可以实现提升与人脸相配的语音的质量。技术研发人员：史尧,许云飞受保护的技术使用者：OPPO广东移动通信有限公司技术研发日：技术公布日：2024/2/21