技术新讯 > 乐器声学设备的制造及制作,分析技术 > 语音合成的方法、装置及电子设备与流程 > 正文

语音合成的方法、装置及电子设备与流程

国知局
2024-10-21 14:19:32

本申请涉及语音合成，具体而言，涉及语音合成的方法、装置及电子设备。

背景技术：

1、在一些语音合成场景中，通常基于录音人的录音数据进行模型训练获得训练好的声学模型，以学习录音人的语言风格和音色，进而可以基于训练好的声学模型对待合成文本进行语音合成，获得合成语音。

2、但是，由于录音数据质量差等原因，采用这种方式语音合成效果通常较差。

技术实现思路

1、本申请实施例的目的在于提供语音合成的方法、装置及电子设备，用以在进行语音合成时，提高语音合成效果。

2、一方面，提供一种语音合成的方法，包括：

3、采用个性化声学模型，对待合成文本进行编码，获得语音编码信息；个性化声学模型是基于目标合成对象的语音样本数据对基础声学模型进行微调训练获得的；

4、基于基础声学模型，获得目标选择对象的声纹信息；基础声学模型是基于多个音频提供对象的语音样本数据进行模型训练获得的；目标选择对象是从多个音频提供对象中选取的；

5、基于目标选择对象的声纹信息，采用选择的目标语音合成方向对应设置的声纹迁移方式，对语音编码信息进行声纹迁移处理，获得迁移处理信息；目标语音合成方向是从多个语音合成方向中选择的；

6、基于迁移处理信息进行语音合成，获得目标合成语音。

7、一方面，提供一种语音合成的装置，包括：

8、编码单元，用于采用个性化声学模型，对待合成文本进行编码，获得语音编码信息；个性化声学模型是基于目标合成对象的语音样本数据对基础声学模型进行微调训练获得的；

9、获得单元，用于基于基础声学模型，获得目标选择对象的声纹信息；基础声学模型是基于多个音频提供对象的语音样本数据进行模型训练获得的；目标选择对象是从多个音频提供对象中选取的；

10、迁移单元，用于基于目标选择对象的声纹信息，采用选择的目标语音合成方向对应设置的声纹迁移方式，对语音编码信息进行声纹迁移处理，获得迁移处理信息；目标语音合成方向是从多个语音合成方向中选择的；

11、合成单元，用于基于迁移处理信息进行语音合成，获得目标合成语音。

12、一方面，提供了一种电子设备，包括处理器以及存储器，存储器存储有计算机可读取指令，当计算机可读取指令由处理器执行时，运行如上述任一种语音合成的各种可选实现方式中提供的方法的步骤。

13、一方面，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时运行如上述任一种语音合成的各种可选实现方式中提供的方法的步骤。

14、一方面，提供了一种计算机程序产品，计算机程序产品在计算机上运行时，使得计算机执行如上述任一种语音合成的各种可选实现方式中提供的方法的步骤。

15、本申请实施例提供的语音合成的方法、装置及电子设备中，采用个性化声学模型，对待合成文本进行编码，获得语音编码信息；个性化声学模型是基于目标合成对象的语音样本数据对基础声学模型进行微调训练获得的；基于基础声学模型，获得目标选择对象的声纹信息；基础声学模型是基于多个音频提供对象的语音样本数据进行模型训练获得的；目标选择对象是从多个音频提供对象中选取的；基于目标选择对象的声纹信息，采用选择的目标语音合成方向对应设置的声纹迁移方式，对语音编码信息进行声纹迁移处理，获得迁移处理信息；目标语音合成方向是从多个语音合成方向中选择的；基于迁移处理信息进行语音合成，获得目标合成语音。这样，可以针对不同的语音合成需求选择不同的声纹迁移方式进行语音合成，实现了对语音合成方向的可控迁移优化，提高了语音合成的效果。

16、本申请的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本申请而了解。本申请的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

技术特征：

1.一种语音合成的方法，其特征在于，包括：

2.如权利要求1所述的方法，其特征在于，基于所述目标选择对象的声纹信息，采用选择的目标语音合成方向对应设置的声纹迁移方式，对所述语音编码信息进行声纹迁移处理，获得迁移处理信息，包括：

3.如权利要求2所述的方法，其特征在于，所述采用方差预测器，基于所述目标选择对象的声纹信息和所述语音编码信息，获得第一方差预测信息，包括：

4.如权利要求3所述的方法，其特征在于，所述基于所述第一方差预测信息，获得所述迁移处理信息，包括：

5.如权利要求2-4任一项所述的方法，其特征在于，所述采用时长预测器，基于所述第二方差预测信息、所述语音编码信息以及所述目标选择对象的声纹信息，获得所述迁移处理信息，包括：

6.一种语音合成的装置，其特征在于，包括：

7.如权利要求6所述的装置，其特征在于，所述迁移单元用于：

8.如权利要求7所述的装置，其特征在于，所述迁移单元用于：

9.如权利要求8所述的装置，其特征在于，所述迁移单元用于：

10.如权利要求7-9任一项所述的装置，其特征在于，所述迁移单元用于：

11.一种电子设备，其特征在于，包括处理器以及存储器，所述存储器存储有计算机可读取指令，当所述计算机可读取指令由所述处理器执行时，运行如权利要求1-5任一所述方法。

技术总结本申请属于语音合成技术领域，公开了语音合成的方法、装置及电子设备，该方法包括采用个性化声学模型，对待合成文本进行编码，获得语音编码信息；基于基础声学模型，获得目标选择对象的声纹信息；基于目标选择对象的声纹信息，采用选择的目标语音合成方向对应设置的声纹迁移方式，对语音编码信息进行声纹迁移处理，获得迁移处理信息；基于迁移处理信息进行语音合成，获得目标合成语音。这样，可以针对不同的语音合成需求选择不同的声纹迁移方式进行语音合成，实现了对语音合成方向的可控迁移优化，提高了语音合成的效果。技术研发人员：喻陈毅,宋胤,柴华,张睿雄,龚彩霞受保护的技术使用者：北京嘀嘀无限科技发展有限公司技术研发日：技术公布日：2024/10/17