技术新讯 > 乐器声学设备的制造及制作,分析技术 > 语音转换方法及装置、存储介质、电子装置与流程 > 正文

语音转换方法及装置、存储介质、电子装置与流程

国知局
2024-06-21 10:44:12

本技术涉及数据处理，具体而言，涉及一种语音转换方法及装置、存储介质、电子装置。

背景技术：

1、目前，相关技术中的声音转换的主要方式是先通过自动语音识别（automaticspeech recognition，简称为asr）技术对待转换的语音进行识别并提取巴科斯范式（backus-naur form，简称为bnf）特征，进一步通过从文本到语音（text to speech，简称为tts）技术对基于上述识别内容与bnf特征进行语音合成处理进而得到目标语音。上述过程受限于asr的识别准确度与效率，在实际处理过程中无论是声音转换的准确性亦或实时性均不理想。对此，相关技术进一步提出了端到端的声音转换方式，即不通过asr进行语音识别而直接对待转换语音实现音色转换，进而得到目标语音，但是，现有的端到端的声音转换方式在音色的转换上存在较多不足，不能理想地复刻目标说话人的音色。

2、针对相关技术中，端到端的声音转换方式在音色的转换上存在较多不足，不能理想地复刻目标说话人的音色的问题，相关技术中尚未提出有效的解决方案。

技术实现思路

1、本技术实施例提供了一种语音转换方法及装置、存储介质、电子装置，以至少解决相关技术中端到端的声音转换方式在音色的转换上存在较多不足，不能理想地复刻目标说话人的音色的问题。

2、在本技术的一个实施例中，提供了一种语音转换方法，包括：

3、获取待转换的原始语音与目标说话人的目标语音样本；

4、通过音频特征编码模块识别所述目标语音样本的风格类别，并根据所述目标语音样本的风格类别提取所述目标语音样本的目标音频特征；其中，所述目标音频特征包含所述目标语音样本的文本特征、韵律特征和音色特征；

5、通过所述音频特征编码模块提取所述原始语音的原始音频特征，其中，所述原始音频特征包含所述原始语音的文本特征、韵律特征和音色特征；

6、通过风格特征编码模块获取所述目标语音样本的第一风格特征，并根据所述第一风格特征确定所述目标语音样本的第二风格特征；其中，所述第一风格特征用于指示所述目标语音样本的静态声音特性，所述第二风格特征用于指示在预设时长内对所述第一风格特征的特征偏置量与增益量的预测值；

7、将所述原始语音的原始音频特征、所述目标语音样本的目标音频特征和所述目标语音样本的第二风格特征进行融合映射得到联合编码特征；

8、对所述联合编码特征进行标准流化操作后解码，得到与所述目标说话人的说话风格对应的目标语音特征，并基于所述目标语音特征对所述原始语音进行转换，得到目标语音。

9、在一实施例中，在通过音频特征编码模块提取所述原始语音的音频特征之前，所述方法包括：

10、使用第一训练样本训练第一聚类模型，其中，所述第一训练样本包括多个说话人的语音样本，且多个说话人的语音样本对应不同的风格类型；所述第一聚类模型用于对所述第一训练样本进行聚类，并根据聚类结果确定所述第一训练样本对应的类别标签；

11、使用第二训练样本训练第二聚类模型，其中，所述第二训练样本包括多个说话人的语音样本，且多个说话人的语音样本对应不同的风格类型；所述第二聚类模型用于对所述第二训练样本进行聚类，并根据聚类结果确定所述第二训练样本对应的类别标签；所述第一聚类模型和所述第二聚类模型采用不同结构的特征提取器，以从不同的维度进行聚类；

12、将第三训练样本同时输入训练后的所述第一聚类模型、训练后的所述第二聚类模型以及初始音频特征编码模块，其中，所述第三训练样本包含多个说话人的语音样本；

13、根据所述初始音频特征编码模块的损失函数训练所述初始音频特征编码模块，同时根据所述第一聚类模型和所述第二聚类模型输出的真实类别标签和所述初始音频特征编码模块输出的预测类别标签，训练所述初始音频特征编码模块至收敛，得到所述音频特征编码模块，其中，所述音频特征编码模块用于根据语音的风格类型进行音频特征的提取。

14、在一实施例中，所述根据所述初始音频特征编码模块的损失函数训练所述初始音频特征编码模块，包括：

15、通过以下损失函数的公式训练所述初始音频特征编码模块：

16、。

17、其中，表示概率，i表示聚类类别的标识，st表示目标向量，表示当前特征向量满足目标向量且属于类别i的概率，表示当前类别i下可训练的特征向量，sim(.,.)表示计算余弦相似度，为超参数，k表示聚类类别的数量，ek表示聚类类别k下可训练的特征向量。

18、在一实施例中，所述根据所述第一聚类模型和所述第二聚类模型输出的真实类别标签和所述初始音频特征编码模块输出的预测类别标签，训练所述初始音频特征编码模块至收敛，包括：

19、对所述初始音频特征编码模块的特征编码单元和类别映射单元进行初始化处理；

20、通过所述特征编码单元提取所述第三训练样本的音频特征并编码，并通过所述类别映射单元将所述特征编码单元提取的音频特征映射到对应的类别编码，得到所述第三训练样本对应的预测类别标签；

21、通过所述初始音频特征编码模块的类别编码单元输出所述预测类别标签，基于所述预测类别标签与所述第一聚类模型和所述第二聚类模型输出的真实类别标签，训练所述初始音频特征编码模块至收敛。

22、在一实施例中，所述基于所述预测类别标签与所述第一聚类模型和所述第二聚类模型输出的真实类别标签，训练所述初始音频特征编码模块至收敛，包括：

23、最小化所述第一聚类模型输出的真实类别标签与所述预测类别标签第一平均交叉熵，同时最小化所述第二聚类模型输出的真实类别标签与所述预测类别标签第二平均交叉熵，基于最小化后的所述第一平均交叉熵和最小化后的所述第二平均交叉熵，更新所述初始音频特征编码模块的损失函数，同时对所述初始音频编码模块的训练参数进行更新。

24、在本技术的另一个实施例中，还提供了一种语音转换装置，包括：

25、第一获取模块，配置为获取待转换的原始语音与目标说话人的目标语音样本；

26、第一提取模块，配置为通过音频特征编码模块识别所述目标语音样本的风格类别，并根据所述目标语音样本的风格类别提取所述目标语音样本的目标音频特征；其中，所述目标音频特征包含所述目标语音样本的文本特征、韵律特征和音色特征；

27、第二提取模块，配置为通过所述音频特征编码模块提取所述原始语音的原始音频特征，其中，所述原始音频特征包含所述原始语音的文本特征、韵律特征和音色特征；

28、第二获取模块，配置为通过风格特征编码模块获取所述目标语音样本的第一风格特征，并根据所述第一风格特征确定所述目标语音样本的第二风格特征；其中，所述第一风格特征用于指示所述目标语音样本的静态声音特性，所述第二风格特征用于指示在预设时长内对所述第一风格特征的特征偏置量与增益量的预测值；

29、融合映射模块，配置为将所述原始语音的原始音频特征、所述目标语音样本的目标音频特征和所述目标语音样本的第二风格特征进行融合映射得到联合编码特征；

30、转换模块，配置为对所述联合编码特征进行标准流化操作后解码，得到与所述目标说话人的说话风格对应的目标语音特征，并基于所述目标语音特征对所述原始语音进行转换，得到目标语音。

31、在本技术的一个实施例中，还提出了一种计算机可读的存储介质，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

32、在本技术的一个实施例中，还提出了一种电子装置，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行上述任一项方法实施例中的步骤。

33、通过本技术实施例，获取待转换的原始语音与目标说话人的目标语音样本；通过音频特征编码模块识别所述目标语音样本的风格类别，并根据所述目标语音样本的风格类别提取所述目标语音样本的目标音频特征；通过所述音频特征编码模块提取所述原始语音的原始音频特征；通过风格特征编码模块获取所述目标语音样本的第一风格特征，并根据所述第一风格特征确定所述目标语音样本的第二风格特征；将所述原始语音的原始音频特征、所述目标语音样本的目标音频特征和所述目标语音样本的第二风格特征进行融合映射得到联合编码特征；对所述联合编码特征进行标准流化操作后解码，得到与所述目标说话人的说话风格对应的目标语音特征，并基于所述目标语音特征对所述原始语音进行转换，得到目标语音，解决了相关技术中相关技术中端到端的声音转换方式在音色的转换上存在较多不足，不能理想地复刻目标说话人的音色的问题，通过音频特征编码模块识别目标语音样本的风格类别，并将原始语音的原始音频特征、目标语音样本的目标音频特征和目标语音样本的第二风格特征进行融合映射，可以有效识别目标说话人的说话风格，并将待转换的原始语音按照目标说话人的说话风格进行转换，有效复刻目标说话人的音色。