技术新讯 > 乐器声学设备的制造及制作,分析技术 > 方法及装置、非易失性存储介质、电子设备与流程 > 正文

方法及装置、非易失性存储介质、电子设备与流程

国知局
2024-06-21 11:43:10

本技术涉及声音转换，具体而言，涉及一种方法及装置、非易失性存储介质、电子设备。

背景技术：

1、声音转换(voice conversion，vc)作为音频生成领域的一个重要分支，其目标是在目标说话人和源说话人之间建立一个映射关系，即在保持表达内容不变的前提下，将源说话人的音色转换成目标说话人的音色。近年来，随者信息技术的不断发展和语音交互的普及，这项技术也被广泛应用于很多领域，如应用于声音隐私通话领域，以保护发音人本身声音隐私安全及人身安全；如应用于语音增强领域，以进一步提升语音的质量；以及应用于医疗服务，以辅助发音障碍者更方便且清楚的表达自己的意图等。

2、但是，相关的声音转换方法是分阶段(转换模型和声码器)进行训练的，由于转换模型预测的声学特征与声码器在训练时使用的声学特征(来自真实的语音)有不同的分布，导致语音质量和音色相似度很大程度上依赖声码器的重构能力。

3、针对上述的问题，目前尚未提出有效的解决方案。

技术实现思路

1、本技术实施例提供了一种方法及装置、非易失性存储介质、电子设备，以至少解决由于相关的声音转换方法需要对转换模型和声码器分别进行训练，以确定待转换音频对应的目标音频，造成声音转换效率较低的技术问题。

2、根据本技术实施例的一个方面，提供了一种声音转换方法，包括：提取第一预设音频训练集对应的第一特征，并提取原始音频对应的第二特征，根据第一特征和第二特征确定原始音频的内容特征；利用第一预训练的说话人编码器从目标音频中提取说话人特征，并利用预训练的目标基频预测模型对原始音频的基频、静音标识、内容特征以及说话人特征进行处理，得到原始音频对应的预测基频，其中，目标音频的音色为原始音频所待转化的，第一预设音频训练集中的发音人与目标音频的发音人相同；利用先验编码器确定内容特征、预测基频以及静音标识对应的第一分布函数，并利用预训练的流模块确定第一分布函数和说话人特征对应的第二分布函数；利用预训练的目标解码器对第二分布函数、说话人特征和/或校正后的预测基频进行处理，得到转化音频，其中，转化音频的内容与原始音频的内容相同，转化音频的音色与目标音频的音色相同。

3、可选地，根据第一特征和第二特征确定原始音频的内容特征，包括：将第一特征进行聚类处理，得到n个第三特征；在n个第三特征中，确定m个与第二特征的相似度大于预设阈值的第四特征，其中，n和m均为大于1的正整数，且m小于n；对m个第四特征进行加权求和，得到内容特征。

4、可选地，利用预训练的目标解码器对第二分布函数、说话人特征和/或校正后的预测基频进行处理，得到转化音频之后，方法还包括：利用预训练的目标判别器，对转化音频的真伪性进行判别。

5、可选地，通过第二预设音频训练集和第一损失函数，对待训练的预设基频预测模型进行训练，通过第二预设音频训练集和第二损失函数，对待训练的流模块进行训练，通过第二预设音频训练集和第三损失函数，对待训练的目标解码器进行训练，通过第二预设音频训练集和第四损失函数，对第二待训练的说话人编码器进行训练，通过第二预设音频训练集和第五损失函数，对待训练的目标判别器进行训练，其中，第二预设音频训练集中的发音人与原始音频的发音人相同，第二预设音频训练集中包括：第一原始音频以及第一原始音频对应的第一目标音频；在目标损失函数满足预设条件的情况下，得到预训练的目标基频预测模型、预训练的流模块、预训练的目标解码器以及预训练的目标判别器，其中，目标损失函数由第一损失函数、第二损失函数、第三损失函数、第四损失函数以及第五损失函数组成。

6、可选地，通过第二预设音频训练集和第一损失函数，对待训练的预设基频预测模型进行训练，包括：提取第一原始音频对应的第一目标特征，以及提取第一目标音频对应的第二目标特征，其中，第一预设音频训练集中的发音人与目标音频的发音人相同，第二预设音频训练集中的发音人与原始音频的发音人相同；将第一目标特征进行聚类处理，得到u个第三目标特征；在u个第三目标特征中，确定v个与第二目标特征的相似度大于第二预设阈值的第四目标特征，并对v个第四目标特征进行加权求和，得到第一内容特征，其中，u和v均为大于1的正整数，且v小于u；利用第一预训练的说话人编码器从第一原始音频中提取第一说话人特征；利用待训练的预设基频预测模型对第一原始音频的基频信息、第一静音标识、第一内容特征以及第一说话人特征进行处理，得到第一原始音频对应的第一预测基频；根据第一预测基频和第一原始音频对应的真实基频之间的均方误差，确定第一损失函数；通过第二预设音频训练集以及第一损失函数，以对待训练的预设基频预测模型进行训练。

7、可选地，通过第二预设音频训练集和第二损失函数，对待训练的流模块进行训练，包括：根据第一内容特征、第一预测基频以及第一静音标识，利用待训练的预设先验编码器，确定第一目标分布函数；利用后验编码器对第一原始音频对应的线性谱和第一说话人特征进行处理，得到第二目标分布函数，其中，第二目标分布函数的复杂程度高于第一目标分布函数；利用待训练的流模块对第二目标分布函数和第一说话人特征进行处理，得到第三目标分布函数；根据第三目标分布函数与第一目标分布函数之间的相对熵，确定第二损失函数；通过第二预设音频训练集以及第二损失函数，以对待训练的流模块进行训练。

8、可选地，通过第二预设音频训练集和第三损失函数，对待训练的目标解码器进行训练，包括：利用待训练的解码器对第二目标分布函数、第一说话人特征和/或第一预测基频进行处理，得到第一目标音频；提取第一原始音频对应的第一对数梅尔频谱，以及提取第一目标音频对应的第二对数梅尔频谱；根据第一对数梅尔频谱与第二对数梅尔频谱之间平均绝对误差，确定第三损失函数；通过第二预设音频训练集以及第三损失函数，以对待训练的目标解码器进行训练，其中，待训练的目标解码器用于输出第一转化音频。

9、可选地，通过第二预设音频训练集和第四损失函数，对第二待训练的说话人编码器进行训练，包括：利用第一预训练的说话人编码器从第一原始音频中提取第一说话人特征；利用第二待训练的说话人编码器从第一转化音频中提取第二说话人特征；对第一说话人特征做梯度停止处理，得到目标处理结果；根据目标处理结果以及第二说话人特征，确定基于说话人相似度的第四损失函数；通过第二预设音频训练集以及第四损失函数，以对第二待训练的说话人编码器进行训练。

10、可选地，原始音频中包括：说话声音和/或歌唱声音。

11、可选地，利用预训练的目标解码器对第二分布函数、说话人特征和/或校正后的预测基频进行处理，得到目标音频，包括：在原始音频中包括歌唱声音的情况下，利用预训练的目标解码器对第二分布函数、说话人特征和校正后的预测基频进行处理，得到目标音频。

12、可选地，在原始音频中包括歌唱声音的情况下，利用预训练的目标解码器对第二分布函数、说话人特征和校正后的预测基频进行处理，得到目标音频，包括：在预测基频中确定非静音位置处的分段预测基频；在原始音频中提取非静音位置处的分段真实基频；根据分段预测基频以及分段真实基频，确定校正后的预测基频；预训练的目标解码器，对第二分布函数、说话人特征和校正后的预测基频进行处理，得到目标音频。

13、根据本技术实施例的再一方面，还提供了一种声音转换装置，包括：第一确定模块，用于提取第一预设音频训练集对应的第一特征，并提取原始音频对应的第二特征，根据第一特征和第二特征确定原始音频的内容特征；第二确定模块，用于利用第一预训练的说话人编码器从目标音频中提取说话人特征，并利用预训练的目标基频预测模型对原始音频的基频、静音标识、内容特征以及说话人特征进行处理，得到原始音频对应的预测基频，其中，目标音频的音色为原始音频所待转化的，第一预设音频训练集中的发音人与目标音频的发音人相同；第三确定模块，用于利用先验编码器确定内容特征、预测基频以及静音标识对应的第一分布函数，并利用预训练的流模块确定第一分布函数和说话人特征对应的第二分布函数；第四确定模块，用于利用预训练的目标解码器对第二分布函数、说话人特征和/或校正后的预测基频进行处理，得到转化音频，其中，转化音频的内容与原始音频的内容相同，转化音频的音色与目标音频的音色相同。

14、根据本技术实施例的再一方面，还提供了一种非易失性存储介质，存储介质包括存储的程序，其中，程序运行时控制存储介质所在的设备执行以上的声音转换方法。

15、根据本技术实施例的再一方面，还提供了一种电子设备，包括：存储器和处理器，处理器用于运行存储在存储器中的程序，其中，程序运行时执行以上的声音转换方法。

16、在本技术实施例中，采用提取第一预设音频训练集对应的第一特征，并提取原始音频对应的第二特征，根据第一特征和第二特征确定原始音频的内容特征；利用第一预训练的说话人编码器从目标音频中提取说话人特征，并利用预训练的目标基频预测模型对原始音频的基频、静音标识、内容特征以及说话人特征进行处理，得到原始音频对应的预测基频，其中，目标音频的音色为原始音频所待转化的，第一预设音频训练集中的发音人与目标音频的发音人相同；利用先验编码器确定内容特征、预测基频以及静音标识对应的第一分布函数，并利用预训练的流模块确定第一分布函数和说话人特征对应的第二分布函数；利用预训练的目标解码器对第二分布函数、说话人特征和/或校正后的预测基频进行处理，得到转化音频，其中，转化音频的内容与原始音频的内容相同，转化音频的音色与目标音频的音色相同的方式，达到了在同一架构中对声音转换模型进行训练的目的，从而实现了提升声音转换效率的技术效果，进而解决了由于相关的声音转换方法需要对转换模型和声码器分别进行训练，以确定待转换音频对应的目标音频，造成声音转换效率较低的技术问题。