技术新讯 > 乐器声学设备的制造及制作,分析技术 > 语音转换方法、装置、设备及计算机可读介质与流程 > 正文

语音转换方法、装置、设备及计算机可读介质与流程

国知局
2024-06-21 11:31:02

本发明的实施方式涉及语音处理，更具体地，本发明的实施方式涉及一种语音转换方法、装置、设备及计算机可读介质。

背景技术：

1、本部分旨在为权利要求书中陈述的本发明的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。

2、语音克隆，也称为语音转换，是指将输入语音里的音色替换为指定的音色，而不改变除音色外的其他信息。语音克隆的关键是对说话人的语音进行音色解耦，音色解耦的方法有很多种，常见的方法包括滤波、频率转换、相位调整等。滤波是最常用的音色解耦方法之一，通过设计不同的滤波器，可以选择性地增强或抑制不同频率的成分，从而改变音色。频率转换则是将音频信号的频谱进行变换，使得音调和音色可以独立地进行处理。相位调整则是通过调整不同频率成分的相位关系，来改变声音的谐波结构，从而改变音色。然而，以上方式在音色解耦之后会导致韵律信息严重损失，极大降低语音转换后的情感保真度。

技术实现思路

1、在本上下文中，本发明的实施方式期望提供一种语音转换方法、装置、设备及计算机可读介质，以解决音色解耦会导致韵律信息严重损失的技术问题。

2、在本发明实施方式的第一方面中，提供了一种语音转换方法，包括：获取原始说话人的第一语音和目标说话人的第二语音；提取所述第一语音的内容特征和韵律特征，并采用随机打乱策略提取所述第二语音的目标音色特征；将所述内容特征、所述韵律特征以及所述目标音色特征输入解码器，获得所述解码器输出的目标梅尔频谱特征；利用声码器将所述目标梅尔频谱特征还原为第三语音，以将所述原始说话人讲述的所述第一语音转换为所述目标说话人讲述的所述第三语音。

3、在本发明的一个可选的实施例中，所述提取所述第一语音的内容特征包括：获取所述第一语音的梅尔频谱；将所述第一语音的梅尔频谱输入语义识别模型；提取所述语义识别模型的最后一个隐藏层输出的隐层特征；将所述隐层特征输入第一内容特征编码模型；获取所述第一内容特征编码模型的编码输出作为所述第一语音的内容特征。

4、在本发明的一个可选的实施例中，所述采用随机打乱策略提取所述第二语音的目标音色特征包括：获取所述第二语音的梅尔频谱；采用随机打乱策略破坏所述梅尔频谱中的语义信息和韵律信息，得到所述的梅尔频谱的随机打乱频谱；将所述随机打乱频谱输入第一音色提取模型；提取所述第一音色提取模型的最后一个隐藏层输出的隐层特征作为所述第二语音的目标音色特征。

5、在本发明的一个可选的实施例中，所述采用随机打乱策略破坏所述梅尔频谱中的语义信息和韵律信息，得到所述的梅尔频谱的随机打乱频谱：将所述梅尔频谱按照时间顺序划分为多个频谱片段；随机打乱所述多个频谱片段的排序顺序；从打乱后的多个频谱片段中随机选择至少一个频谱片段，并对选择出的频谱片段中的数据帧按照时间维度反转；将所有频谱片段按照时间顺序拼接，得到所述随机打乱频谱。

6、在本发明的一个可选的实施例中，所述提取所述第一语音的韵律特征具体包括：将所述第一语音的梅尔频谱输入第一韵律提取模型，其中，所述第一韵律提取模型用于将所述第一语音中的原始音色特征解耦；提取所述第一韵律提取模型的最后一个隐藏层输出的隐层特征作为所述第一语音的韵律特征。

7、在本发明的一个可选的实施例中，所述方法还包括按照如下方式训练得到所述第一内容特征编码模型、所述第一音色提取模型以及所述第一韵律提取模型：获取一个说话人或多个说话人的语音数据作为训练样本；将所述训练样本的梅尔频谱输入到所述语义识别模型；将所述语义识别模型的最后一个隐藏层输出的隐层特征输入第二内容特征编码模型，以通过所述第二内容特征编码模型获得所述训练样本的内容特征；将所述训练样本的梅尔频谱采用随机打乱策略破坏所述梅尔频谱中的语义信息和韵律信息，得到所述梅尔频谱的随机打乱频谱后输入第二音色提取模型，以通过所述第二音色提取模型获得所述训练样本的音色特征；将所述训练样本的梅尔频谱输入第二韵律提取模型，以通过所述第二韵律提取模型获得所述训练样本的韵律特征，其中，所述第二韵律提取模型是基于多重随机损失函数和梯度反转层构建得到的，所述多重随机损失函数是叠加多个l1损失函数得到的，每个l1损失函数均对应一次采用随机打乱策略通过所述第二音色提取模型获得的所述训练样本的音色特征，所述梯度反转层用于抑制所述训练样本的音色特征的梯度传播，提取所述第二韵律提取模型的最后一个隐藏层输出的隐层特征作为所述训练样本的韵律特征；将所述训练样本的内容特征、音色特征以及韵律特征进行拼接，并将拼接后的特征序列输入解码器，以对所述第二内容特征编码模型、所述第二音色提取模型以及所述第二韵律提取模型进行联合训练；在所述第二内容特征编码模型、所述第二音色提取模型以及所述第二韵律提取模型均收敛时，将当前的第二内容特征编码模型作为所述第一内容特征编码模型，将当前的第二音色提取模型作为所述第一音色提取模型，将当前的第二韵律提取模型作为所述第一韵律提取模型。

8、在本发明的一个可选的实施例中，在基于一个说话人的语音数据构建所述训练样本或基于多个说话人的语音数据构建所述训练样本时，所述训练样本中均不存在说话人信息的标注数据。

9、在本发明实施方式的第二方面中，提供了一种语音转换装置，包括：语音获取模块，用于获取原始说话人的第一语音和目标说话人的第二语音；特征提取模块，用于提取所述第一语音的内容特征和韵律特征，并采用随机打乱策略提取所述第二语音的目标音色特征；解码转换模块，用于将所述内容特征、所述韵律特征以及所述目标音色特征输入解码器，获得所述解码器输出的目标梅尔频谱特征；语音还原模块，用于利用声码器将所述目标梅尔频谱特征还原为第三语音，以将所述原始说话人讲述的所述第一语音转换为所述目标说话人讲述的所述第三语音。

10、在本发明实施方式的第三方面中，提供了一种电子设备，包括存储器、处理器、通信接口及通信总线，存储器中存储有可在处理器上运行的计算机程序，存储器、处理器通过通信总线和通信接口进行通信，处理器执行计算机程序时实现上述方法的步骤，

11、在本发明实施方式的第四方面中，提供了一种具有处理器可执行的非易失的程序代码的计算机可读介质，程序代码使处理器执行上述的方法。

12、本发明提供了一种语音转换方法，包括：获取原始说话人的第一语音和目标说话人的第二语音；提取所述第一语音的内容特征和韵律特征，并采用随机打乱策略提取所述第二语音的目标音色特征；将所述内容特征、所述韵律特征以及所述目标音色特征输入解码器，获得所述解码器输出的目标梅尔频谱特征；利用声码器将所述目标梅尔频谱特征还原为第三语音，以将所述原始说话人讲述的所述第一语音转换为所述目标说话人讲述的所述第三语音。本技术利用音色与时序具有弱相关性、语义和韵律均与时序具有强相关性的特点，通过随机打乱时序信息来破坏第二语音的语义和韵律信息，从而在提取音色特征时只提取音色相关的信息，进而在提取韵律特征时又能够在去除音色信息的基础上最大限度保留韵律信息，实现了更高的语音转换情感保真度，解决了音色解耦会导致韵律信息严重损失的技术问题。