技术新讯 > 乐器声学设备的制造及制作,分析技术 > 一种语音合成自动化实现方法与流程 > 正文

一种语音合成自动化实现方法与流程

国知局
2024-06-21 11:30:38

本发明涉及语音合成相关，具体为一种语音合成自动化实现方法。

背景技术：

1、语音合成(speechsynthesis)技术是指用人工方法合成语音。文本转语音(texttospeech)系统是对语音合成技术的具体应用，其任务是给定某种语言的文本，合成对应的语音。语音合成技术能够模仿说话人的声音，也称为声音克隆、语音克隆。随着深度学习技术在语音技术的应用与发展，端到端的文本转语音模型正在取得快速发展。

2、预训练模型是已经用数据集训练好了的模型。

3、微调(fine-tune)通过使用预训练好的模型来初始化自己的模型权重，然后用自己的数据接着训练。微调通常速度更快、精度更高。当然，自己训练好的模型也可以当作预训练模型，然后再在自己的数据集上进行训练，来使模型适用于自己的场景、自己的任务。

技术实现思路

1、本发明的目的在于提供一种语音合成自动化实现方法，用于克服现有技术中的上述缺陷。

2、本发明是通过以下技术方案来实现的。

3、本发明的一种语音合成自动化实现方法，包括：

4、步骤一，构建语音合成模型，并训练得到预训练模型：

5、c.构建语音合成模型，包括文本预处理、声纹编码器、声学模型(也称为合成器)、声码器；

6、d.音频数据集训练语音合成模型得到预训练模型；

7、步骤二，录音自动化：

8、a.准备文本；

9、b.根据显示文本内容读出语音；

10、c.将录音发送到服务器；

11、d.对录音进行语音识别，计算错误率；

12、e.如果错误率低于阈值，则把该音频保存到服务器，并读下一句；如果错误率高于或等于阈值，则再读一遍；直到读好所有的文本，得到对应的音频。

13、步骤三，音频数据微调语音合成模型：

14、a.对文本进行预处理，转为音素，得到标签文件；

15、b.对录好的音频进行预处理，包括删除非语音部分、降噪等，得到音频文件；

16、c.把标签文件和音频文件发送到预训练好的语音合成的声学模型进行微调；

17、d.微调训练得到说话人的模型权值。

18、步骤四，用语音合成模型进行推理，实现文本转语音，并且能够模仿说话人声音：

19、a.构建语音合成推理模型；

20、b.把微调得到说话人的模型权值发送到语音合成推理模型；

21、c.用docker部署语音合成服务，把文本输入语音合成推理模型则可合成出与该说话人相似的语音。

22、进一步的技术方案，声纹编码器采用ge2e算法，合成器采用基于fastspeech-2算法模型，声码器采用style melgan或者parallel wavegan或者hifi-gan算法模型。

23、进一步的技术方案，采用开源数据集aishell 3作为训练样本。

24、进一步的技术方案，模型与预训练模型相同，但是不用预训练模型的权值。

25、本发明的有益效果：

26、本发明通过程序和互联网实现语音合成自动化，实现了在工程应用上，从预训练模型到录音到微调再到推理的自动化功能，使得克隆说话人的声音更加简便、快捷，从而降低成本，提质增效；

27、实现用深度学习技术构建端到端的语音合成模型，并用开源数据集训练得到预训练模型。开发具有录音功能的app或者微信小程序，说话人通过app或者微信小程序在手机上录音，录音音频通过互联网自动发送到服务器；录完音频之后，程序自动把说话人的音频数据输入预训练模型进行微调，得到说话人的模型权值；微调得到的语音合成模型可以实现文本转语音，并且能够模仿说话人声音；

28、本申请应用互联网、人工智能技术、人机互动，可以自动实现语音合成，且模仿说话人声音；通过计算机程序把语音合成的多个步骤自动实现，使得语音合成更加方便快捷。

技术特征：

1.一种语音合成自动化实现方法，其特征在于，包括：

2.根据权利要求1所述的一种语音合成自动化实现方法，其特征在于：在步骤一a中，所述声纹编码器采用ge2e算法。

3.根据权利要求1所述的一种语音合成自动化实现方法，其特征在于：在步骤一a中，合成器采用基于fastspeech-2算法模型。

4.根据权利要求1所述的一种语音合成自动化实现方法，其特征在于：在步骤一a中，声码器采用style melgan或者parallel wavegan或者hifi-gan算法模型。

5.根据权利要求1所述的一种语音合成自动化实现方法，其特征在于：在步骤一b中，采用开源数据集aishell 3作为训练样本。

6.根据权利要求1所述的一种语音合成自动化实现方法，其特征在于：在步骤四a中，所述推理模型与预训练模型相同，但是不用预训练模型的权值。

技术总结本发明涉及语音合成相关技术领域，公开了一种语音合成自动化实现方法，包括用深度学习技术构建端到端的语音合成模型，并用开源数据集训练得到预训练模型；开发具有录音功能的APP或者微信小程序，说话人通过APP或者微信小程序在手机上录音，录音音频通过互联网自动发送到服务器；录完音频之后，程序自动把说话人的音频数据输入预训练模型进行微调，得到说话人的模型权值；微调得到的语音合成模型可以实现文本转语音，并且能够模仿说话人声音；本申请应用互联网、人工智能技术、人机互动，可以自动实现语音合成，且模仿说话人声音；通过计算机程序把语音合成的多个步骤自动实现，使得语音合成更加方便快捷。技术研发人员：方海泉,励建科,胡艳,梁磊,陈再蝶受保护的技术使用者：康旭科技有限公司技术研发日：技术公布日：2024/2/29