技术新讯 > 乐器声学设备的制造及制作,分析技术 > 一种语音转换方法、语音转换系统和电子装置与流程 > 正文

一种语音转换方法、语音转换系统和电子装置与流程

国知局
2024-06-21 11:27:35

本申请涉及语音，特别涉及一种语音转换方法、语音转换系统和电子装置。

背景技术：

1、语音风格迁移或者音色迁移通常在变声系统、加密系统、语音聊天、游戏等场景中得到广泛的应用，它将一个语音风格的声音通过变声器等方法，以其他语音风格或者目标的语音风格输出，从而在保持语义不变的情况下，可以隐藏用户的身份信息或者增加娱乐效果等。

2、在游戏的业务场景中，通常目标说话人经常是游戏角色，有固定的音色，且该音色被广大玩家所接受和认可，因此任务是把其他说话人的音色变为目标说话人的音色。

3、现有技术中，实现音色变音或者迁移的方法为先通过训练模型然后再投入使用，具体如下：

4、一、训练模型

5、使用大量源说话人和目标说话人的语音，每人至少半小时以上，然后训练变声器模型。

6、二、使用

7、在使用阶段，输入源说话人的语音和对应的基频信息到变声器模型中，变声器提取源说话人语音信息的内容，然后把目标说话人的音色矢量与提取输入语音中的内容结合，再参考基频信息生成变声后的语音。

8、但在变声的过程中，由于源说话人和目标说话人的发音习惯不同，因此他们的基频差异一般比较明显。通常情况男声基频很低，女声相对较高，当源说话人和目标说话人性别不一致的时候，差异就会非常大。

9、目前作为变声器模型输入的基频一般采用源说话人语音的基频，或者在此基频上按照目标说话人的平均基频进行匹配。但是匹配完不能符合目标说话人的发音特征，从而变声后的音频在音高上跟目标说话人差异较大，导致变声结果无法在业务中使用。

技术实现思路

1、为解决上述问题，本发明提供一种语音转换方法，包括：

2、s1:对源说话人以及目标说话人的音频进行基于全局内容的基频匹配，并根据所述基频匹配结果输入至变声器中，得到第一变声结果a2；

3、s2:基于第一变声结果a2,对源说话人以及目标说话人进行发音单元的基频匹配，得到基频p_f_a2_new；

4、s3：将源说话人音频a0和基频p_f_a2_new输入至变声器中，得到第二变声结果a3。

5、进一步地，步骤s1包括：

6、s10:计算源说话人基频p_f_a；

7、s12:根据源说话人的说话内容与目标说话人说话内容相似度，得到对应目标说话人音频的最相似基频p_f_b；

8、s13:根据最相似基频p_f_b，对源说话人基频p_f_a进行更新，得到更新基频p_f_2；

9、s14:将源说话人音频a0和更新基频p_f_2,输入至变声器中，得到第一变声结果a2。

10、进一步地，步骤s12包括：

11、s121：计算源说话人音频a0对应的文字内容的句嵌入矢量e_t_a；

12、s122：计算目标说话人原音频i对应的文字内容的句嵌入矢量e_t_b_i；

13、s123：计算句嵌入矢量e_t_a和与每一个句嵌入矢量e_t_b_i的相似度；

14、s124:取出相似度最高的文本对应的音频文件，计算对应的基频p_f_b。

15、进一步地，步骤s123中的相似度为余弦相似度，其公式为：

16、s im_t_i＝(e_t_a·e_t_b_i/(||e_t_a||·||e_t_b_i||)

17、其中i为b的各条音频id,“·”为内积，操作||...||为取模。

18、进一步地，步骤s13包括：

19、s131:源说话人音频a0输入至变声器中，得到目标说话人处理音频a1；

20、s132:计算目标说话人处理音频a1的基频p_f_1；

21、s133:更新源说话人的基频，得到更新基频p_f_2，其公式为：

22、p_f_2＝＝p_f_1/p_f_b*p_f_a。

23、进一步地，步骤s2包括：

24、s22:基于目标说话人的所有音节，计算目标说话人所有音节的平均基频p_f_b_k；

25、s23：基于第一变声结果a2的每个音节，计算第一变声结果a2中每个音节的平均基频p_f_a2_j；

26、s24：设置基频调整因子f_j，其公式为：f_j＝p_f_b_j0/p_f_a2_j，其中，p_f_b_j0为第一变声结果a2的某个音节对应的基频值；

27、s25：根据基频调整因子，更新第一变声结果a2的基频p_f_a2为p_f_a2_new；

28、进一步地，步骤s22包括：

29、s221:目标说话人中每个发音单元的时长进行标注；

30、s222:对目标说话人每一个音频的所有音节进行遍历，并进行平均处理，得到每个音节的平均基频；

31、s223:统计并列出目标说话人所有音节；

32、s224:计算目标说话人的所有音节的平均基频p_f_b_k。

33、进一步地，步骤s25包括：

34、s251:读取第一变声结果a2的音节时长的起止时间t_s,t_e；

35、s252:读取第一变声结果a2的基频p_f_a2从t_s到t_e的每个音节的基频值；

36、s253:读取每个音节的基频调整因子f_j；

37、s254:将步骤s252中的每个音节的基频值乘以对应的基频调整因子f_j，得到更新的基频p_f_a2_new。

38、本发明还提供一种语音转换系统，包括音节标注单元，基频计算单元，基频调整单元，和变声单元，其中：

39、音节标注单元用以对源说话人以及目标说话人的音节进行标注；

40、基频计算单元用以对源说话人以及目标说话人的语音进行基频计算和匹配；

41、基频调整单元用以对处理的基频进行调整或者更新；

42、变声单元用于将源说话人音频a0以及基频信息输入至变声器中，获得变声结果。

43、本发明还提供一种电子装置，所述电子装置包括处理器以及存储器，所述存储器用于存储可执行程序，所述处理器用于执行所述可执行程序以实现所述的语音转换方法。

44、本发明基于源说话人语音和目标说话人的文本和基频特征，分别进行内容的全局基频匹配以及发音单元的细粒度基频匹配后，得到更新后的最优匹配基频输入至变声器中，得到理想的变声效果。

45、为了对本发明有更清楚全面的了解，下面结合附图，对本发明的具体实施方式进行详细描述。

技术特征：

1.一种语音转换方法，其特征是，包括如下步骤：

2.如权利要求1所述的语音转换方法，其特征是，步骤s1包括：

3.如权利要求2所述的语音转换方法，其特征是，步骤s12包括：

4.如权利要求3所述的语音转换方法，其特征是，步骤s123中的相似度为余弦相似度，其公式为：

5.如权利要求2所述的语音转换方法，其特征是，步骤s13包括：

6.如权利要求1所述的语音转换方法，其特征是，步骤s2包括：

7.如权利要求6所述的语音转换方法，其特征是，步骤s22包括：

8.如权利要求6所述的语音转换方法，其特征是，步骤s25包括：

9.一种语音转换系统，其特征是，包括音节标注单元，基频计算单元，基频调整单元，和变声单元，其中：

10.一种电子装置，其特征在于，所述电子装置包括处理器以及存储器，所述存储器用于存储可执行程序，所述处理器用于执行所述可执行程序以实现权利要求1-8所述的语音转换方法。

技术总结本发明提供一种语音转换方法、语音转换系统和电子装置，步骤包括S1‑S3:S1:对源说话人以及目标说话人的音频进行基于全局内容的基频匹配，并根据所述基频匹配结果输入至变声器中，得到第一变声结果A2；S2:基于第一变声结果A2,对源说话人以及目标说话人进行发音单元的基频匹配，得到基频P_f_A2_new；S3：将源说话人音频A0和基频P_f_A2_new输入至变声器中，得到第二变声结果A3。本申请基于源说话人语音和目标说话人的文本和基频特征，分别进行内容的全局基频匹配以及发音单元的细粒度基频匹配后，得到更新后的最优匹配基频输入至变声器中，得到理想的变声效果。技术研发人员：刘嘉受保护的技术使用者：上海暖叠网络科技有限公司技术研发日：技术公布日：2024/2/8