技术新讯 > 乐器声学设备的制造及制作,分析技术 > 一种语音编辑及优化方法、装置、设备及存储介质与流程 > 正文

一种语音编辑及优化方法、装置、设备及存储介质与流程

国知局
2024-06-21 10:40:37

本发明涉及语音合成，尤其涉及一种语音编辑及优化方法、装置、设备及存储介质。

背景技术：

1、目前语音合成技术飞速发展，已经可以合成质量较高的语音，在智能助手、小说配音等领域取得了广泛的应用，但是目前的语音合成效果距离专业播音员、声优仍有较大的差距，因此在对语音质量要求更高的游戏、影视等领域，应用仍比较受限。

2、例如，在游戏配音领域，目前仍广泛采用由专业声优录制的方式。但是该方式无法解决用户自定义角色名的问题，因为不可能每有一个用户注册便让声优重新录制一次。而基于语音合成的配音，也并没有得到游戏厂商的认可。因此，目前游戏厂商大都刻意回避了这一问题，如不在配音中提及用户角色，或在提及时使用其他固定代称。在短视频制作等应用领域，在已有文本-音频对的前提下，修改部分文本之后，通过语音合成技术生成对应的修改后音频。但是该方法难以保证编辑后音频与原音频音色、语气等特征的一致性，难以满足游戏配音对音质和表现力的高要求

技术实现思路

1、本发明提供了一种语音编辑及优化方法、装置、设备及存储介质，以解决现有技术中，直接合成的音频或编辑后的音频，在音色相似度、音质表现力上，难以达到声优录制的水平，无法满足游戏配音场景的需求，不能完成自定义角色名场景下的配音任务的问题。

2、第一方面，本发明实施例提供了一种语音编辑及优化方法，包括：

3、将原始音频所对应的掩盖后音频和待合成文本输入至语音编辑模型，得到编辑后音频，所述编辑后音频为将所述掩盖后音频和所述待合成文本进行编辑合成后生成的音频；

4、将编辑后音频和所述原始音频输入至声音转换模型，得到转换后音频，所述转换后音频为基于原始音频对所述编辑后音频的音频特征进行转换后的音频。

5、可选的，所述将原始音频所对应的掩盖后音频和待合成文本输入至语音编辑模型，得到编辑后音频，包括：

6、将掩盖后音频输入至音频编辑模型的音频编码模块，得到音频特征向量，所述掩盖后音频为掩盖所述原始音频中，所述待合成文本要替换的模板文本所对应音频后所得到的音频；

7、将所述待合成文本输入至所述语音编辑模型的文本编码模块，得到文本特征信息；

8、基于所述语音编辑模型的全局特征提取模块，提取所述音频特征向量中的全局特征；

9、基于所述语音编辑模型的局部特征提取模块，提取所述音频特征向量中的第一局部特征，所述第一局部特征为所述掩盖后音频中未掩盖部分的音频特征信息；

10、基于所述语音编辑模型的局部特征预测模块，预测所述文本特征信息、所述全局特征和所述第一局部特征对应的第二局部特征，所述第二局部特征为所述待合成文本所对应待合成音频的特征信息；

11、基于解码模块处理所述文本特征信息、所述全局特征、所述第一局部特征和所述第二局部特征，得到所述待合成文本所对应待合成音频的声学特征；

12、基于声码器模块处理所述待合成音频的声学特征和所述掩盖后音频，得到编辑后音频。

13、可选的，所述基于解码模块处理所述文本特征信息、所述全局特征、所述第一局部特征和所述第二局部特征，得到所述待合成文本所对应待合成音频的声学特征，包括：

14、基于解码模块处理所述文本特征信息、所述全局特征、所述第一局部特征、所述第二局部特征和所述音频特征向量，得到所述待合成文本所对应待合成音频的声学特征。

15、可选的，将所述编辑后音频和所述原始音频输入至声音转换模型，得到转换后音频，包括：

16、将所述编辑后音频输入所述声音转换模型的内容编码模块，得到内容特征；

17、基于所述声音转换模型中的音频特征编码模块分别处理所述编辑后音频和所述原始音频，得到所述编辑后音频所对应的第一音频特征和所述原始音频所对应的第二音频特征；

18、基于所述声音转换模型的音频特征融合模块，对所述第一音频特征和所述第二音频特征进行融合，得到融合后音频特征；

19、基于所述声音转换模型的解码模块处理所述融合后音频特征和所述内容特征，得到转换后音频。

20、可选的，训练所述语音编辑模型的训练集包括通用训练集和定制训练集；

21、所述通用训练集包括多个用户的通用样本对，每个通用样本对包括作为输入的输入文本信息和掩盖后的音频信息，以及作为输出的原始音频信息；

22、所述定制训练集包括特定用户的定制样本对，所述定制样本对包括作为输入的输入文本信息和掩盖后的音频信息，以及作为输出的原始音频信息。

23、可选的，所述声音转换模型的训练集包括：

24、基于掩盖后的通用音频信息、输入文本生成的编辑后音频和原始音频信息所形成的数据集；和/或，

25、基于掩盖后的定制音频信息、输入文本生成的编辑后音频和原始音频信息所形成的数据集。

26、可选的，所述待合成文本为用以替换所述模板文本的自定义文本，所述模板文本为所述原始音频中需要进行编辑替换的文本。

27、第二方面，本发明实施例提供了一种语音编辑及优化装置，包括：

28、第一输入模块，用于将原始音频所对应的掩盖后音频和待合成文本输入至语音编辑模型，得到编辑后音频，所述编辑后音频为将所述掩盖后音频和所述待合成文本进行编辑合成后生成的音频；

29、第二输入模块，用于将编辑后音频和所述原始音频输入至声音转换模型，得到转换后音频，所述转换后音频为基于原始音频对所述编辑后音频的音频特征进行转换后的音频。

30、第三方面，本发明实施例提供了一种电子设备，所述电子设备包括：

31、至少一个处理器；以及

32、与所述至少一个处理器通信连接的存储器；其中，

33、所述存储器存储有可被所述至少一个处理器执行的计算机程序，所述计算机程序被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明任一实施例所述的语音编辑及优化方法。

34、第四方面，本发明实施例提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于使处理器执行时实现本发明任一实施例所述的语音编辑及优化方法。

35、本发明实施例的技术方案，通过将原始音频所对应的掩盖后音频和待合成文本输入至语音编辑模型，得到编辑后音频，所述编辑后音频为将所述掩盖后音频和所述待合成文本进行编辑合成后生成的音频；将编辑后音频和所述原始音频输入至声音转换模型，得到转换后音频，所述转换后音频为基于原始音频对所述编辑后音频的音频特征进行转换后的音频，解决了现有技术中，直接合成的音频或编辑后的音频，在音色相似度、音质表现力上，难以达到声优录制的水平，无法满足游戏配音场景的需求，不能完成自定义角色名场景下的配音任务的问题，本发明将原始音频所对应的掩盖后音频和待合成文本输入至语音编辑模型，得到编辑后音频，完成了自定义角色名场景下的配音任务，提升了用户的沉浸感；将编辑后音频和原始音频输入至声音转换模型，进一步优化了编辑后音频与原始音频边界的过渡，且保留了声优原始录制状态，提升了声音编辑后语音的表现力。

36、应当理解，本部分所描述的内容并非旨在标识本发明的实施例的关键或重要特征，也不用于限制本发明的范围。本发明的其它特征将通过以下的说明书而变得容易理解。