技术新讯 > 乐器声学设备的制造及制作,分析技术 > 语音转换方法、装置、计算机设备及存储介质与流程  >  正文

语音转换方法、装置、计算机设备及存储介质与流程

  • 国知局
  • 2024-06-21 11:33:26

本技术涉及语音处理,尤其涉及一种语音转换方法、及装置、计算机设备及存储介质。

背景技术:

1、随着互联网技术的发展,虚拟偶像(如洛天依)开始变得流行。当前虚拟偶像与用户进行交流时,一般是通过歌声合成引擎语调合成的歌声来进行交流的。然而,在一些场景中,用户希望可以将自己的说话声音转换为与虚拟偶像歌声高度一致的说话声音。

2、现有技术中,为了实现将用户的说话声音转换为与虚拟偶像歌声高度一致的说话声音,可以利用虚拟偶像的歌声音库,使用vocaloid等音频合成软件,按照真人说话的韵律规则,手动调出具有虚拟偶像音色的说话音频。

3、然而,发明人发现,上述调教方法虽然能语调出虚拟偶像的音色,但是这个方案费时费力,且需要调教师有较高水平的语音调校经验。

技术实现思路

1、有鉴于此,现提供一种语音转换方法、装置、计算机设备及计算机可读存储介质,以解决上述问题。

2、本技术提供了一种语音转换方法,所述方法包括:

3、对待转换语音进行特征提取处理,得到所述待转换语音的第一梅尔频谱、第一音调数据及第一静音/非静音数据,所述第一静音/非静音数据用于判定所述待转换语音中的语音帧是否为静音帧;

4、将所述第一梅尔频谱输入至预训练好的语音识别模型中,得到第一语义特征数据;

5、将所述第一音调数据、所述第一静音/非静音数据及目标用户的第一音色特征数据输入至训练好的语音转换模型中,得到目标梅尔频谱;

6、将所述目标梅尔频谱输入至声码器中,得到目标语音,所述目标语音音频中的音色为所述目标用户的音色。

7、可选地,所述语音转换模型包括音调网络、编码器及解码器,所述将所述第一音调数据、所述第一静音/非静音数据及目标用户的第一音色特征数据输入至训练好的语音转换模型中,得到目标梅尔频谱包括:

8、将所述第一音调数据及所述第一静音/非静音数据输入至语音转换模型的音调网络中,得到第一音调特征数据;

9、将所述第一语义特征数据及所述第一音调特征数据输入至所述语音转换模型的编码器中,得到第一编码特征数据;

10、将所述第一编码特征数据及目标用户的第一音色特征数据输入至所述语音转换模型的解码器中,得到目标梅尔频谱。

11、可选地,所述语音转换模型通过以下方式训练得到:

12、获取多个训练样本数据,每一个训练样本数据包括音频样本的第二语义特征数据、第二音调数据、第二静音/非静音数据、第二音色特征数据及第二梅尔频谱,其中,所述多个训练样本数据为对多个音频样本进行预处理后得到的,所述多个音频样本包括所述目标用户的唱歌音频、非目标用户的说话音频及非目标用户的唱歌音频;

13、将所述训练样本数据中的第二音调数据、第二静音/非静音数据输入至所述音调网络中,得到第二音调特征数据;

14、将所述训练样本数据中的第二语义特征数据及所述第二音调特征数据输入至所述编码器中,得到第二编码特征数据;

15、将所述第二编码特征数据及所述训练样本数据中的第二音色特征数据输入至所述解码器中,得到预测梅尔频谱;

16、根据所述训练样本数据中的第二梅尔频谱与所述预测梅尔频谱的损失值调整所述语音转换模型的参数,直到满足训练预设条件,得到训练好的语音转换模型。

17、可选地,所述对多个音频样本进行预处理包括:

18、分别对所述多个音频样本进行特征提取处理,得到各个音频样本的第二梅尔频谱、第二音调数据及第二静音/非静音数据;

19、将各个音频样本的第二梅尔频谱输入至所述语音识别模型中,得到各个音频样本的第二语义特征数据;

20、获取发出各个音频样本的发音人的第二音色特征数据;

21、将各个音频样本的第二语义特征数据、第二音调数据、第二静音/非静音数据、第二梅尔频谱及发出各个音频样本的发音人的第二音色特征数据组合形成训练样本数据。

22、可选地,对音频样本进行特征提取处理,得到音频样本的第二音调数据及第二静音/非静音数据包括:

23、对音频样本进行分帧处理,得到多个音频帧;

24、分别提取多个所述音频帧的基频,并将提取到的所有基频作为音频样本的第二音调数据;

25、分别对多个所述音频帧进行静音检测,并将得到的所有检测结果作为音频样本的第二静音/非静音数据,其中,检测结果采用01向量表示。

26、可选地,所述语音转换模型通过引入生成对抗网络进行训练得到,其中,所述语音转换网络作为所述生成对抗网络的生成器,所述生成对抗网络中的判别器为多频带判别器及/或多窗口判别器。

27、可选地,所述编码器中包含有实例归一化层,所述语音转换模型中的编码器与解码器的结构为类变分自编码器结构。

28、可选地,所述解码器中包含有风格自适应归一化层。

29、可选地,所述对待转换语音进行特征提取处理,得到所述待转换语音的第一梅尔频谱、第一音调数据及第一静音/非静音数据的步骤之前,还包括:

30、接收音调调整指令,所述音调调整指令包括所述目标用户的音调均值;

31、将所述第一音调数据及第一静音/非静音数据输入至语音转换模型的音调网络中,得到第一音调特征数据包括:

32、获取对待转换语音进行特征提取处理后得到的第一音调数据;

33、计算所述第一音调数据的音调均值;

34、根据所述第一音调数据、所述第一音调数据的音调均值及所述目标用户的音调均值确定驱动音调数据;

35、将所述驱动音调数据及所述第一静音/非静音数据输入至所述音调网络中,得到第一音调特征数据。

36、本技术还提供了一种语音转换装置,所述语音转换装置包括:

37、提取模块,用于对待转换语音进行特征提取处理,得到所述待转换语音的第一梅尔频谱、第一音调数据及第一静音/非静音数据,所述第一静音/非静音数据用于判定所述待转换语音中的语音帧是否为静音帧;

38、语义处理模块,用于将所述第一梅尔频谱输入至预训练好的语音识别模型中,得到第一语义特征数据;

39、语音转换模块,用于将所述第一音调数据、所述第一静音/非静音数据及目标用户的第一音色特征数据输入至训练好的语音转换模型中,得到目标梅尔频谱;

40、声码模块,用于将所述目标梅尔频谱输入至声码器中,得到目标语音,所述目标语音音频中的音色为所述目标用户的音色。

41、本技术还提供了一种计算机设备,所述计算机设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述方法的步骤。

42、本技术还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述方法的步骤。

43、本技术实施例语音转换方法,通过对待转换语音进行特征提取处理,得到所述待转换语音的第一梅尔频谱、第一音调数据及第一静音/非静音数据,所述第一静音/非静音数据用于判定所述待转换语音中的语音帧是否为静音帧;将所述第一梅尔频谱输入至预训练好的语音识别模型中,得到第一语义特征数据;将所述第一音调数据、所述第一静音/非静音数据及目标用户的第一音色特征数据输入至训练好的语音转换模型中,得到目标梅尔频谱;将所述目标梅尔频谱输入至声码器中,得到目标语音,所述目标语音音频中的音色为所述目标用户的音色。上述语音转换方法可以直接将用户说话的语音转换成语音内容不变但具有目标用户的音色的语音,由此提高了语音转换速度,降低了语音转换成本。此外,本技术在通过语音识别网络提取语义特征以外,还通过引入实例归一化层,变分信息瓶颈等理论来确保音色、语义、音调等特征的有效解耦。在解码器中引入风格自适应归一化层,以便更好地捕捉音色特性,提高输出音频与目标音频的音色相似度。此外。在训练时,会引入判别器来促使模型更关注频谱细节,提高合成音质。除此之外,通过上述语音转换方法得到目标数据后也可进行语音合成模型的训练,进一步降低数据生成成本。

本文地址:https://www.jishuxx.com/zhuanli/20240618/22224.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。