技术新讯 > 乐器声学设备的制造及制作,分析技术 > 实时语音转换方法、装置及电子设备与流程 > 正文

实时语音转换方法、装置及电子设备与流程

国知局
2024-06-21 10:41:49

本公开实施例涉及音频处理，尤其涉及一种实时语音转换方法、装置及电子设备。

背景技术：

1、实时音频转换可以将实时接收的音频的音色转换为另一个音色，可以通过训练好的音频转换模型，对实时音频进行音频转换处理。

2、目前，可以通过实时音频(流式音频)的音素对音频转换模型进行训练，使得训练完成的音频转换模型可以通过实时音频的音素，对实时音频的音色进行转换。例如，向语音转换模型中输入实时语音的音素和待转换音色的标识，语音转换模型可以输出包括待转换音色的语音。但是，音素包含的实时音频的信息较少，使得音频转换模型无法准确的学习到实时音频中的音频信息，导致实时语音的音色转换的准确度较差。

技术实现思路

1、本公开提供一种实时语音转换方法、装置及电子设备，用于解决现有技术中实时语音的音色转换的准确度较差的技术问题。

2、第一方面，本公开提供一种实时语音转换方法，该方法包括：

3、获取第一用户的第一音频和目标音色的标识，所述第一音频以流式方式进行处理，所述第一音频的音色与所述目标音色不同；

4、基于实时语音转换模型、所述第一音频和所述目标音色的标识，确定目标音频，所述目标音频的音色为所述目标音色，所述实时语音转换模型是基于样本流式音频的样本音频特征和目标音色的音色特征训练得到的，所述样本音频特征指示所述样本流式音频的音素特征、音频细节特征和音调变化特征；

5、播放所述目标音频。

6、第二方面，本公开提供一种实时语音转换装置，该实时语音转换装置包括获取模块、第一确定模块和播放模块，其中：

7、所述获取模块用于，获取第一用户的第一音频和目标音色的标识，所述第一音频以流式方式进行处理，所述第一音频的音色与所述目标音色不同；

8、所述第一确定模块用于，基于实时语音转换模型、所述第一音频和所述目标音色的标识，确定目标音频，所述目标音频的音色为所述目标音色，所述实时语音转换模型是基于样本流式音频的样本音频特征和目标音色的音色特征训练得到的，所述样本音频特征指示所述样本流式音频的音素特征、音频细节特征和音调变化特征；

9、所述播放模块用于，播放所述目标音频。

10、第三方面，本公开实施例提供一种电子设备，包括：处理器和存储器；

11、所述存储器存储计算机执行指令；

12、所述处理器执行所述存储器存储的计算机执行指令，使得所述至少一个处理器执行如上第一方面以及第一方面各种可能涉及的所述实时语音转换方法。

13、第四方面，本公开实施例提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机执行指令，当处理器执行所述计算机执行指令时，实现如上第一方面以及第一方面各种可能涉及的所述实时语音转换方法。

14、第五方面，本公开实施例提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上第一方面以及第一方面各种可能涉及的所述实时语音转换方法。

15、本公开提供一种实时语音转换方法、装置及电子设备，获取第一用户的第一音频和目标音色的标识，第一音频以流式方式进行处理，第一音频的音色与目标音色不同，基于实时语音转换模型、第一音频和目标音色的标识，确定目标音频，目标音频的音色为目标音色，其中，实时语音转换模型是基于样本流式音频的样本音频特征和目标音色的音色特征训练得到的，样本音频特征指示样本流式音频的音素特征、音频细节特征和音调变化特征，播放目标音频。在上述方法中，由于音频特征包括样本流式音频的音素特征、音频细节特征和音调变化特征，因此，实时语音转换模型可以学习到样本流式音频中较多的音频信息，进而提高模型训练的准确度和模型训练的效果，提高实时语音的音色转换的准确度。

技术特征：

1.一种实时语音转换方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述基于实时语音转换模型、所述第一音频和所述目标音色的标识，确定目标音频，包括：

3.根据权利要求1或2所述的方法，其特征在于，所述获取第一用户的第一音频和目标音色的标识，包括：

4.根据权利要求1或2所述的方法，其特征在于，所述实时语音转换模型是通过以下步骤确定的：

5.根据权利要求4所述的方法，其特征在于，所述获取样本流式音频的音频特征，包括：

6.根据权利要求5所述的方法，其特征在于，所述部分卷积层为所述多个卷积层中的前m个卷积层，所述m为大于或等于1的整数，且所述m小于所述语音识别模型中的卷积层的数量。

7.根据权利要求5或6所述的方法，其特征在于，所述获取所述样本流式音频的目标频谱图，包括：

8.根据权利要求5或6所述的方法，其特征在于，所述基于所述预测频谱图和所述目标频谱图，对所述实时语音转换模型进行更新，包括：

9.一种实时语音转换装置，其特征在于，包括获取模块、第一确定模块和播放模块，其中：

10.一种电子设备，其特征在于，包括：处理器和存储器；

11.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机执行指令，当处理器执行所述计算机执行指令时，实现如权利要求1-8任一项所述的实时语音转换方法。

12.一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-8任一项所述的实时语音转换方法。

技术总结本公开提供一种实时语音转换方法、装置及电子设备，该方法包括：获取第一用户的第一音频和目标音色的标识，所述第一音频以流式方式进行处理，所述第一音频的音色与所述目标音色不同；基于实时语音转换模型、所述第一音频和所述目标音色的标识，确定目标音频，所述目标音频的音色为所述目标音色，所述实时语音转换模型是基于样本流式音频的样本音频特征和目标音色的音色特征训练得到的，所述样本音频特征指示所述样本流式音频的音素特征、音频细节特征和音调变化特征；播放所述目标音频。提高实时语音的音色转换准确度。技术研发人员：陈远哲,屠明,李鑫,田乔,王玉平,王雨轩受保护的技术使用者：抖音视界有限公司技术研发日：技术公布日：2024/2/1