技术新讯 > 乐器声学设备的制造及制作,分析技术 > 一种语音转换方法、装置、设备及介质与流程 > 正文

一种语音转换方法、装置、设备及介质与流程

国知局
2024-06-21 10:39:17

本申请涉及音频处理，特别涉及一种语音转换方法、装置、设备及介质。

背景技术：

1、随着虚拟社交产品被广泛应用，为了保护用户隐私，提升用户体验，语音转换是一个不可缺少的技术功能。目前，在现有的语音转换技术中，语音转换存在较高延时，当用户说完一句话后通常要等两到三秒左右才能收到转换后的声音，面临用户等待时间长的问题，导致用户体验较差。

技术实现思路

1、有鉴于此，本申请的目的在于提供一种语音转换方法、装置、设备及介质，能够降低语音转换时延，从而提升用户体验。其具体方案如下：

2、第一方面，本申请公开了一种语音转换方法，包括：

3、当待转换语音大于预设长度阈值，则将所述待转换语音切分为多个语音片段；

4、依次将所述多个语音片段中的每个语音片段作为目标音频片段；

5、将所述目标语音片段输入目标自动语音识别模型，得到所述目标语音片段的语义特征；其中，所述语义特征包括语音后验图特征以及分类特征；

6、将所述语义特征以及目标声纹特征输入目标声学模型，得到梅尔特征；其中，所述目标声纹特征为目标音色对应的声纹特征；

7、将所述梅尔特征转换为音频以得到所述目标语音片段对应的转换后音频，并输出所述转换后音频。

8、可选的，所述目标声学模型包括编码器和解码器；其中，所述编码器的窗口大小基于所述目标音频片段的大小确定。

9、可选的，所述目标声学模型的训练过程包括：

10、获取第一训练样本集；其中，所述第一训练样本集包括时长不同的第一语音样本；

11、从所述第一训练样本集中选取第一语音样本，并输入所述目标自动语音识别模型，得到所述第一语音样本的语音后验图特征以及分类特征；

12、将所述第一语音样本的语音后验图特征、分类特征以及目标语音样本的声纹特征输入初始声学模型进行训练，并且，在训练过程中，编码器的窗口大小基于选取出的第一语音样本的长度确定；

13、当满足第一训练停止条件，则将当前的声学模型确定为目标声学模型。

14、可选的，所述获取第一训练样本集，包括：

15、从原始训练样本集中随机选取预设数量的样本；

16、使用环境噪声对选取出的样本进行加噪处理，得到加噪后样本；

17、将所有加噪后样本以及所述原始训练样本集构成的样本集确定为第一训练样本集。

18、可选的，所述初始声学模型还包括嵌入层；相应的，将所述第一语音样本的语音后验图特征、分类特征以及目标语音样本的声纹特征输入初始声学模型进行训练，包括：

19、利用所述嵌入层输出目标语音样本的声纹特征对应的特征矩阵；所述目表语音样本包括多个说话人对应的语音样本；

20、将所述特征矩阵以及所述第一语音样本的语音后验图特征、分类特征输入编码器，得到编码特征；

21、将所述编码特征输入解码器，得到梅尔特征。

22、可选的，所述解码器包括多个轻量化卷积单元。

23、可选的，所述目标自动语音识别模型的训练过程，包括：

24、从第二训练数据集中获取多个第二训练样本，得到训练样本组；其中，每个所述第二训练样本均为单人声语音样本；

25、将所述训练样本组输入初始自动语音识别模型进行训练；

26、当满足第二训练停止条件，则将当前的自动语音识别模型确定为目标自动语音识别模型。

27、第二方面，本申请公开了一种语音转换装置，包括：

28、语音切分模块，用于当待转换语音大于预设长度阈值，则将所述待转换语音切分为多个语音片段；

29、目标片段确定模块，用于依次将所述多个语音片段中的每个语音片段作为目标音频片段；

30、语义特征提取模块，用于将所述目标语音片段输入目标自动语音识别模型，得到所述目标语音片段的语义特征；其中，所述语义特征包括语音后验图特征以及分类特征；

31、梅尔特征提取模块，用于将所述语义特征以及目标声纹特征输入目标声学模型，得到梅尔特征；其中，所述目标声纹特征为目标音色对应的声纹特征；

32、音频转换模块，用于将所述梅尔特征转换为音频以得到所述目标语音片段对应的转换后音频；

33、音频输出模块，用于输出所述转换后音频。

34、第三方面，本申请公开了一种电子设备，包括存储器和处理器，其中：

35、所述存储器，用于保存计算机程序；

36、所述处理器，用于执行所述计算机程序，以实现前述的语音转换方法。

37、第四方面，本申请公开了一种计算机可读存储介质，用于保存计算机程序，其中，所述计算机程序被处理器执行时实现前述的语音转换方法。

38、可见，本申请当待转换语音大于预设长度阈值，则将所述待转换语音切分为多个语音片段；依次将所述多个语音片段中的每个语音片段作为目标音频片段；将所述目标语音片段输入目标自动语音识别模型，得到所述目标语音片段的语义特征；其中，所述语义特征包括语音后验图特征以及分类特征；将所述语义特征以及目标声纹特征输入目标声学模型，得到梅尔特征；其中，所述目标声纹特征为目标音色对应的声纹特征；将所述梅尔特征转换为音频以得到所述目标语音片段对应的转换后音频，并输出所述转换后音频。也即，本申请在待转换语音大于预设长度阈值时，则将待转换语音切分为多个语音片段；依次将每个语音片段输入目标自动语音识别模型得到语义特征，然后将语义特征以及目标声纹特征输入目标声学模型，得到梅尔特征，再转化为音频，并输出。这样，分片段处理，处理一个语音片段输出一个语音片段对应的转换后语音。并且，转换过程是利用目标自动语音识别模型得到语音后验图特征以及分类特征，进而将语音后验图特征以及分类特征、目标声纹特征输出声学模型，得到梅尔特征，再转换为音频，这样，在转换过程得到了丰富的语义特征，能够提升转换后语音的准确度。

39、本申请的有益效果在于：能够在保障转换后语音准确度的情况下，降低语音转换时延，从而提升用户体验。

技术特征：

1.一种语音转换方法，其特征在于，包括：

2.根据权利要求1所述的语音转换方法，其特征在于，所述目标声学模型包括编码器和解码器；其中，所述编码器的窗口大小基于所述目标音频片段的大小确定。

3.根据权利要求2所述的语音转换方法，其特征在于，所述目标声学模型的训练过程包括：

4.根据权利要求3所述的语音转换方法，其特征在于，所述获取第一训练样本集，包括：

5.根据权利要求3所述的语音转换方法，其特征在于，所述初始声学模型还包括嵌入层；相应的，将所述第一语音样本的语音后验图特征、分类特征以及目标语音样本的声纹特征输入初始声学模型进行训练，包括：

6.根据权利要求2所述的语音转换方法，其特征在于，所述解码器包括多个轻量化卷积单元。

7.根据权利要求1至6任一项所述的语音转换方法，其特征在于，所述目标自动语音识别模型的训练过程，包括：

8.一种语音转换装置，其特征在于，包括：

9.一种电子设备，其特征在于，包括存储器和处理器，其中：

10.一种计算机可读存储介质，其特征在于，用于保存计算机程序，其中，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的语音转换方法。

技术总结本申请公开了一种语音转换方法、装置、设备及介质，包括：当待转换语音大于预设长度阈值，则将所述待转换语音切分为多个语音片段；依次将所述多个语音片段中的每个语音片段作为目标音频片段；将所述目标语音片段输入目标自动语音识别模型，得到所述目标语音片段的语义特征；其中，所述语义特征包括语音后验图特征以及分类特征；将所述语义特征以及目标声纹特征输入目标声学模型，得到梅尔特征；其中，所述目标声纹特征为目标音色对应的声纹特征；将所述梅尔特征转换为音频以得到所述目标语音片段对应的转换后音频，并输出所述转换后音频。能够降低语音转换时延，从而提升用户体验。技术研发人员：周芯永,刘忠亮,张璐,陶明受保护的技术使用者：上海任意门科技有限公司技术研发日：技术公布日：2024/1/15