技术新讯 > 乐器声学设备的制造及制作,分析技术 > 基于微调的快速适应发音人的语音合成方法及装置与流程 > 正文

基于微调的快速适应发音人的语音合成方法及装置与流程

国知局
2024-06-21 10:43:53

[]本发明涉及人工智能，具体地说是一种基于微调的快速适应发音人的语音合成方法及装置。

背景技术：

0、[背景技术]

1、现有语音合成通常首先进行音频采集、处理与语音标注，然后利用网络训练发音人，最终根据输入文字合成指定发音人的声音。其具体的算法通常为：

2、1.音频采集与处理：首先，采集一定数量的发音人的音频样本；这些样本可以包括不同语速、音调和情感的录音；然后，对这些音频进行预处理，包括降噪、均衡化等，以准备用于训练的音频数据。

3、2.语音标注：在这一阶段，音频样本需要进行文本标注，即将每个音频与其相应的文字文本关联起来；这样，在训练过程中可以将文本和音频对应起来，使系统能够学习到正确的发音方式。

4、3.网络训练：利用带有标注的音频数据和对应的文本，训练语音合成模型；这可能涉及到深度学习技术，如端到端的语音合成技术。

5、4.发音人特定训练：在一些情况下，可能会进行发音人特定的训练；这可以进一步提高语音合成的个性化和自然度；发音人特定训练可能需要更多的特定发音人的音频样本。

6、5.语音合成：在模型训练完成后，可以使用输入的文本来合成发音人特定的语音；模型将根据输入的文本生成相应的音频，从而实现语音合成的过程。

7、该过程中主要存在如下问题：

8、(1)音频和文本标注复杂度高：音频处理涉及多个步骤，如切分、去噪和平滑声音，这需要一定的技术和专业知识。同时，从音频转录到音素标注也是一个复杂的任务，涉及到声学和语言学领域的知识。

9、(2)微调时间长且效果不尽如人意：微调发音人模型确实需要耗费时间和大量数据来获得令人满意的效果。过度微调可能导致过拟合，而无法捕捉到真实发音人的个性。

技术实现思路

0、[技术实现要素：]

1、本发明的目的就是要解决上述的不足而提供一种基于微调的快速适应发音人的语音合成方法，能够快速适应不同发音人，实现声音克隆的目标，且有效降低了手动处理音频所带来的复杂性和时间成本，同时显著简化了手动转录的复杂过程，减少了时间开销，提升了标注文件的准确性水平。

2、本发明一方面，提供了一种基于微调的快速适应发音人的语音合成方法，分为数据集准备和语音合成两个阶段；其中，在数据集准备阶段，对音频进行预处理并利用whisper模型转录生成标注文件；在语音合成阶段，利用数据基于base model预训练模型进行微调，即可快速克隆想要的声音，输出合成语音。

3、作为一种实施例，所述数据集准备阶段包括以下步骤：

4、1)支持多发音人克隆，针对每个发音人，准备大于10条的短音频；

5、2)以pipeline的方式对音频进行集中批量预处理操作；

6、3)使用whisper模型对音频进行自动转录，再辅助人工检查转录正确性，得到处理后的标注文件。

7、作为一种实施例，步骤2)中，集中批量预处理操作包括但不限于降噪、重采样操作，以确保音频数据的质量和一致性。

8、作为一种实施例，所述语音合成阶段包括以下步骤：

9、(1)基于预训练模型进行微调，创建一个新模型，其中包含多个发音人的信息；

10、(2)将合成的音频波形转化为可听的声音，并输出合成语音。

11、作为一种实施例，在步骤(1)之前，还包括模型训练的步骤：利用大规模语料库，对预训练的语音合成模型进行训练。

12、本发明另一方面，提供了一种基于微调的快速适应发音人的语音合成装置，包括数据集准备单元和语音合成单元；所述数据集准备单元，用于在数据集准备阶段，对音频进行预处理并利用whisper模型转录生成标注文件；所述语音合成单元，用于利用数据基于base model预训练模型进行微调，以快速克隆想要的声音并输出合成语音。

13、作为一种实施例，所述数据集准备单元支持多发音人克隆，针对每个发音人，准备大于10条的短音频；以pipeline的方式对音频进行集中批量预处理操作，使用whisper模型对音频进行自动转录，再辅助人工检查转录正确性，得到处理后的标注文件。

14、作为一种实施例，所述语音合成单元利用大规模语料库，对预训练的语音合成模型进行训练，并基于预训练模型进行微调，创建一个新模型，其中包含多个发音人的信息；最后将合成的音频波形转化为可听的声音，并输出合成语音。

15、本发明第三方面，提出了一种计算机可读存储介质，所述计算机可读存储介质包括存储的程序，所述程序执行上述方法。

16、本发明第四方面，提出了一种计算机设备，包括：处理器、存储器和总线；所述处理器与所述存储器通过所述总线连接；所述存储器用于存储程序，所述处理器用于运行程序，所述程序运行时执行上述方法。

17、本发明同现有技术相比，具有如下优点：

18、(1)本发明由于采用了流水线式的处理方式对音频进行处理，有效降低了手动处理音频所带来的复杂性和时间成本。

19、(2)本发明应用whisper模型进行语音转录，显著简化了手动转录的复杂过程，并减少了时间开销，同时辅助人工检查进一步提升了标注文件的准确性水平。

20、(3)本发明由于模型训练中的基础模型表现出色，因此仅需使用相对较少的数据和步骤，就能够快速适应不同发音人，实现声音克隆的目标。

21、(4)本发明还支持同时克隆多位发音人，使其具备多发音人的合成能力，值得推广应用。

技术特征：

1.一种基于微调的快速适应发音人的语音合成方法，其特征在于：分为数据集准备和语音合成两个阶段；其中，在数据集准备阶段，对音频进行预处理并利用whisper模型转录生成标注文件；在语音合成阶段，利用数据基于basemodel预训练模型进行微调，即可快速克隆想要的声音，输出合成语音。

2.如权利要求1所述的方法，其特征在于，所述数据集准备阶段包括以下步骤：

3.如权利要求2所述的方法，其特征在于：步骤2)中，集中批量预处理操作包括但不限于降噪、重采样操作，以确保音频数据的质量和一致性。

4.如权利要求1所述的方法，其特征在于，所述语音合成阶段包括以下步骤：

5.如权利要求4所述的方法，其特征在于，在步骤(1)之前，还包括模型训练的步骤：利用大规模语料库，对预训练的语音合成模型进行训练。

6.一种基于微调的快速适应发音人的语音合成装置，其特征在于：包括数据集准备单元和语音合成单元；所述数据集准备单元，用于在数据集准备阶段，对音频进行预处理并利用whisper模型转录生成标注文件；所述语音合成单元，用于利用数据基于base model预训练模型进行微调，以快速克隆想要的声音并输出合成语音。

7.如权利要求6所述的装置，其特征在于：所述数据集准备单元支持多发音人克隆，针对每个发音人，准备大于10条的短音频；以pipeline的方式对音频进行集中批量预处理操作，使用whisper模型对音频进行自动转录，再辅助人工检查转录正确性，得到处理后的标注文件。

8.如权利要求6所述的装置，其特征在于：所述语音合成单元利用大规模语料库，对预训练的语音合成模型进行训练，并基于预训练模型进行微调，创建一个新模型，其中包含多个发音人的信息；最后将合成的音频波形转化为可听的声音，并输出合成语音。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质包括存储的程序，所述程序执行权利要求1至5中任一项所述的方法。

10.一种计算机设备，其特征在于，包括：处理器、存储器和总线；所述处理器与所述存储器通过所述总线连接；所述存储器用于存储程序，所述处理器用于运行程序，所述程序运行时执行权利要求1至5中任一项所述的方法。

技术总结本发明涉及一种基于微调的快速适应发音人的语音合成方法及装置，其方法包括以下步骤，1)数据集准备：针对每个发音人，准备大于10条的短音频；以pipeline的方式对音频进行集中批量预处理操作；使用whisper模型对音频进行自动转录，再辅助人工检查转录正确性，得到处理后的标注文件；2)语音合成：利用大规模语料库，对预训练的语音合成模型进行训练；基于预训练模型进行微调，创建一个新模型，其中包含多个发音人的信息；将合成的音频波形转化为可听的声音，并输出合成语音；本发明能够快速适应不同发音人，实现声音克隆的目标，有效降低了手动处理音频所带来的复杂性和时间成本，简化了手动转录的复杂过程，减少了时间开销。技术研发人员：郭红森受保护的技术使用者：上海数珩信息科技股份有限公司技术研发日：技术公布日：2024/2/1