技术新讯 > 乐器声学设备的制造及制作,分析技术 > 动画角色语音变换系统及方法、存储介质、电子装置与流程 > 正文

动画角色语音变换系统及方法、存储介质、电子装置与流程

国知局
2024-06-21 11:42:45

本技术涉及数据处理，具体而言，涉及一种动画角色语音变换系统及方法、存储介质、电子装置。

背景技术：

1、近年来，随着人工智能技术的进步，语音合成技术也得到了快速发展。语音合成技术(text to speech，简称tts)，用于根据用户所选择的音色、音调，以及身份、情感、口音等，将文本转化为预设目标的语音。声音转换是语音合成的重要应用方向之一，声音转换即将待转换语音根据用户的选择转换为目标语音的过程。上述声音转换技术时常应用于配音演员的复刻上。具体而言，针对某些动画作品中的角色，配音演员为其适配的声音本身已经成为该动画人员的重要标识之一，配音演员的更换而导致该动画角色配音的变换会严重影响观众的观看体验。相关技术中，部分方案提出通过声音转换技术，将某一动画角色的原始配音作为目标说话人进行复刻，当原始配音演员由于病患、工作调动等因素导致其无法为该动画角色继续配音的情形下，由另一配音演员通过声音转换技术，以原始配音演员的声音为该动画角色进行重新配音。

2、虽然上述方案可以在一定程度上解决动画角色配音变换的问题，但是，在实践中，某一配音演员往往会针对不同角色进行配音，而不同的角色对应的配音往往风格迥异。

3、一方面，动画角色在制作的过程中往往会赋予较为夸张的角色设定，反应在声音上会导致其声音风格较为夸张，声音个性化较强，这导致不同动画角色即使由同一配音演员进行配音，受其设定影响也会呈现风格迥然不同的声音。

4、另一方面，配音演员在为动画角色配音的过程中会结合角色设定针对性的进行艺术加工，例如，某个动画角色涉及剧情较为悲惨，则配音演员会在配音过程中刻意表露出情绪悲伤的特点，某个动画角色承担喜剧效果，则配音演员会在配音过程中刻意显得搞笑。诸如此类的人为赋予角色配音的效果，不仅令不同动画角色的声音风格差异进一步扩大，并且上述配音的特点相关技术中的声音转换技术难以实现精准的复刻，尤其不同的配音演员对角色的理解或其表现能力均存在不同，故其他配音演员为动画角色重新配音的过程中，也难以体现原配音演员对该动画人员的表现方式。

5、相关技术中，动画角色的配音在复刻过程中无法理想实现的声音转换的问题，相关技术中尚未提出有效的解决方案。

技术实现思路

1、本技术实施例提供了一种动画角色语音变换系统及方法、存储介质、电子装置，以至少解决相关技术中动画角色的配音在复刻过程中无法理想实现的声音转换的问题。

2、在本技术的一个实施例中，提供了一种动画角色语音变换系统，所述系统包括：

3、音频特征编码模块，配置为获取目标配音演员的目标语音样本，并根据所述目标语音样本的风格类别，提取所述目标语音样本的目标音频特征；

4、个人特征编码模块，配置为获取所述目标语音样本的第一个人特征，并根据所述第一个人特征确定所述目标语音样本的第二个人特征；其中，所述第一个人特征用于指示所述目标语音样本的静态声音特性，所述第二个人特征用于指示在预设时长内对所述第一个人特征的特征偏置量与增益量的预测值；

5、角色特征编码模块，配置为获取所述目标配音演员针对不同动画角色的配音音频作为角色特征样本，基于所述角色特征样本对应的角色特征向量与所述待转换音频对应的音频特征向量的风格相似度确定第一权重和第一角色特征，通过所述第一角色特征对应的角色特征向量与所述待转换音频对应的音频特征向量之间的音素相似度确定第二权重，基于所述第一权重和所述第二权重加权求和后得到所述待转换音频对应的目标角色特征；其中，所述风格相似度至少包括：音色、音调、音高的相似度，所述第一权重用于指示不同所述角色特征样本对应的角色特征向量与所述待转换音频对应的音频特征向量之间的相似度，所述第一角色特征用于指示与所述待转换音频之间的相似度最高的角色特征样本，所述第二权重用于指示所述第一角色特征对应的角色特征向量与所述待转换音频对应的音频特征向量之间的音素相似度；

6、音色转换模块，配置为将所述待转换音频对应的音频特征向量、所述目标语音样本的目标音频特征、与所述第二个人特征和所述目标角色特征进行融合，并将待转换音频转换为符合所述目标配音演员风格的目标语音。

7、在一实施例中，所述音色转换模块包括:

8、特征编码单元，配置为将所述目标音频特征与所述第二个人特征和所述目标角色特征进行融合，以得到联合编码特征；以及，根据所述目标音频特征提取隐式特征；

9、特征解码单元，配置为根据所述联合编码特征与所述隐式特征生成所述目标语音样本的预估值；

10、音频预估单元，配置为根据所述目标语音样本的预估值与所述目标语音样本的真实值训练第一损失函数；其中，所述第一损失函数用于指示所述目标语音样本的预估值相对于真实值的损失；

11、对齐预估单元，配置为将所述联合编码特征与所述隐式特征进行对齐处理以计算对齐矩阵，并根据对齐矩阵训练第二损失函数，所述第二损失函数用于指示所述联合特征与所述隐式特征之间的离散度；

12、鉴别单元，配置为根据所述目标语音样本的预估值与所述真实值的差异确定鉴别结果，并根据所述鉴别结果训练第三损失函数；

13、所述音色转换模块还配置为，根据所述第一损失函数、第二损失函数、第三损失函数得到训练后的音色转换模块，并通过训练后的音色转换模块将待转换音频转换为符合所述目标配音演员风格的目标语音。

14、在一实施例中，所述角色特征编码模块包括：

15、角色特征提取单元，配置为获取所述目标配音演员针对不同动画角色的配音音频作为角色特征样本，并提取所述角色特征样本对应的角色特征向量；

16、角色特征编码单元，配置为从所述角色特征样本对应的角色特征向量中选取与所述待转换音频的相似度满足要求的角色特征向量进行编码，得到所述待转换音频对应的角色特征。

17、在一实施例中，所述角色特征编码单元包括：

18、第一注意力层，将所述待转换音频对应的音频特征向量作为查询对象，将所述角色特征提取单元提取的多个角色特征向量作为查询键，根据所述待转换音频对应的音频特征向量和多个所述角色特征向量之间的相似度，确定所述第一权重和所述第一角色特征；

19、第二注意力层，将所述第一角色特征对应的角色特征向量作为查询对象，将所述待转换音频对应的音频特征向量作为查询键，根据所述待转换音频对应的音频特征向量和所述第一角色特征对应的角色特征向量之间的音素相似度，确定所述第二权重。

20、在一实施例中，所述个人特征编码模块包括：

21、频谱处理单元，由一全连接层构成，配置为提取所述目标语音样本的梅尔谱特征，并转换为特征序列；

22、时序处理单元，包括一门控卷积层与一残差层，配置为获取所述特征序列的时序信息；

23、注意力单元，配置为根据所述特征序列的时序信息，在多个第一预设时长内分别提取所述特征序列对应的所述第一个人特征，在第二预设时长中，将多个所述第一预设时长内提取的多个所述第一个人特征进行平均化处理，得到风格向量，其中，所述第二预设时长包括多个所述第一预设时长；

24、风格自适应单元，配置为根据所述风格向量预测所述第一个人特征的特征偏置量与增益量，并将预测得到的所述第一个人特征的特征偏置量与增益量作为所述目标语音样本的第二个人特征。

25、在一实施例中，所述特征编码单元还配置为，将通过训练后的所述音频特征编码模块提取的所述目标音频特征与通过训练后的所述风格编码模块提取的所述第二个人特征进行融合，得到所述联合编码特征，并根据所述目标音频特征的真实梅尔谱特征提取对应的所述隐式特征；所述特征解码单元还配置为，根据生成的所述目标语音样本的预估值确定所述目标音频特征对应的预估的梅尔谱特征；所述音频预估单元还配置为，根据所述目标音频特征的真实梅尔谱特征和所述目标音频特征对应的预估的梅尔谱特征训练训练所述第一损失函数；其中，所述第一损失函数用于指示所述目标音频特征对应的预估的梅尔谱特征相对于所述目标音频特征对应的预估的梅尔谱特征的损失。

26、在一实施例中，所述鉴别单元还配置为，分别针对所述特征编码单元、所述特征解码单元、所述音频预估单元以及所述对齐预估单元进行对抗训练，并根据所述对抗训练的结果训练所述第三损失函数。

27、根据本技术的另个一个实施例，还提供了一种动画角色语音变换方法，包括：获取待转换音频与目标配音演员的目标语音样本；通过音频特征编码模块识别所述目标语音样本的风格类别，并根据所述目标语音样本的风格类别提取所述目标语音样本的目标音频特征；其中，所述目标音频特征包含所述目标语音样本的文本特征、韵律特征和音色特征；通过所述音频特征编码模块提取所述待转换音频的对应的音频特征向量，其中，所述待转换音频的对应的音频特征向量包含所述待转换音频的文本特征、韵律特征和音色特征；通过个人特征编码模块获取所述目标语音样本的第一个人特征，并根据所述第一个人特征确定所述目标语音样本的第二个人特征；其中，所述第一个人特征用于指示所述目标语音样本的静态声音特性，所述第二个人特征用于指示在预设时长内对所述第一个人特征的特征偏置量与增益量的预测值；通过角色特征编码模块获取所述目标配音演员针对不同动画角色的配音音频作为角色特征样本，基于所述角色特征样本对应的角色特征向量与所述待转换音频对应的音频特征向量的相似度确定第一权重和第一角色特征，通过所述第一角色特征对应的角色特征向量与所述待转换音频对应的音频特征向量之间的音素相似度确定第二权重，基于所述第一权重和所述第二权重加权求和后得到所述待转换音频对应的角色特征；其中，所述第一权重用于指示不同所述角色特征样本对应的角色特征向量与所述待转换音频对应的音频特征向量之间的相似度，所述第一角色特征用于指示与所述待转换音频之间的相似度最高的角色特征样本，所述第二权重用于指示所述第一角色特征对应的角色特征向量与所述待转换音频对应的音频特征向量之间的音素相似度；将所述待转换音频对应的音频特征向量、所述目标语音样本的目标音频特征、所述目标语音样本的第二个人特征以及所述目标角色特征输入音色转换模块，通过所述音色转换模块进行融合映射得到联合编码特征，对所述联合编码特征进行标准流化操作后解码，得到与所述目标配音演员的说话风格对应的目标语音特征，并基于所述目标语音特征对所述原始语音进行转换，得到目标语音。

28、在本技术的一个实施例中，还提出了一种计算机可读的存储介质，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

29、在本技术的一个实施例中，还提出了一种电子装置，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行上述任一项方法实施例中的步骤。

30、通过本技术实施例提供的动画角色语音变换系统，包括音频特征编码模块，个人特征编码模块、角色特征编码模块和音色转换模块，获取待转换音频与目标配音演员的目标语音样本；通过音频特征编码模块识别所述目标语音样本的风格类别，并根据所述目标语音样本的风格类别提取所述目标语音样本的目标音频特征；通过个人特征编码模块获取所述目标语音样本的第一个人特征，并根据所述第一个人特征确定所述目标语音样本的第二个人特征；通过角色特征编码模块获取所述目标配音演员针对不同动画角色的配音音频作为角色特征样本，基于所述角色特征样本对应的角色特征向量与所述待转换音频对应的音频特征向量的相似度确定第一权重和第一角色特征，通过所述第一角色特征对应的角色特征向量与所述待转换音频对应的音频特征向量之间的音素相似度确定第二权重，基于所述第一权重和所述第二权重加权求和后得到所述待转换音频对应的角色特征；将所述待转换音频对应的音频特征向量、所述目标语音样本的目标音频特征、所述目标语音样本的第二个人特征以及所述目标角色特征输入音色转换模块得到目标语音，解决了相关技术中动画角色的配音在复刻过程中无法理想实现的声音转换的问题，可以有效识别目标配音演员的说话风格，并将待转换的原始语音按照目标配音演员的说话风格进行转换，有效复刻目标配音演员的音色。