技术新讯 > 乐器声学设备的制造及制作,分析技术 > 语音处理方法、装置、计算机设备和存储介质与流程 > 正文

语音处理方法、装置、计算机设备和存储介质与流程

国知局
2024-06-21 11:50:11

本技术涉及人工智能，特别是涉及一种语音处理方法、装置、计算机设备、存储介质和计算机程序产品。

背景技术：

1、语音处理是人工智能领域的一个重要研究内容，语音处理主要研究如何在不改变语音内容的前提下，将第一对象的声音属性转换成第二对象的声音属性。声音属性包括对象身份、情感、口音、风格等。当在将第一对象的声音属性转换成第二对象的声音属性的时候，要求对第一对象的其他属性信息进行保留。例如将第一对象的音色转换成第二对象的音色，则需要保留第一对象的除了音色之外的韵律、情感、语言内容等信息。

2、针对这些声音属性信息的保留是一个相对复杂的问题，目前的语音处理方法往往只能将同一个韵律信息和同一个音色信息扩展到每一语音帧上，而实际语音信号中的韵律信息往往是有细微变化的，而现有的语音转换方法无法模拟真实的韵律变化，导致合成语音不够自然。

技术实现思路

1、基于此，有必要针对上述技术问题，提供一种能够得到较为自然的合成音频的语音处理方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。

2、第一方面，本技术提供了一种语音处理方法。所述方法包括：

3、获取源音频中每一语音帧的语音内容编码特征、以及待进行调整的韵律编码特征；

4、基于每一语音帧的语音内容编码特征，按每一语音帧对于韵律编码特征的韵律贡献程度，对韵律编码特征进行调整，获得每一语音帧的第一融合编码特征；

5、基于每一语音帧的第一融合编码特征，确定与源音频对应的合成音频。

6、在其中一个实施例中，基于每一语音帧的语音内容编码特征，按每一语音帧对于韵律编码特征的韵律贡献程度，对韵律编码特征进行调整，获得每一语音帧的第一融合编码特征，包括：

7、基于韵律编码特征和每一语音帧的语音内容编码特征进行特征融合和调整，获得每一语音帧的第一权重特征，第一权重特征用于表征相应帧对于韵律编码特征的韵律贡献程度；

8、基于每一语音帧的第一权重特征，对韵律编码特征进行调整，获得每一语音帧的中间韵律特征；

9、将每一语音帧的语音内容编码特征与每一语音帧的中间韵律特征进行融合，获得每一语音帧的第一融合编码特征。

10、在其中一个实施例中，基于韵律编码特征和每一语音帧的语音内容编码特征进行特征融合和调整，获得每一语音帧的第一权重特征，包括：

11、基于韵律编码特征和每一语音帧的语音内容编码特征进行第一融合处理，获得每一语音帧的第一中间权重特征；

12、基于特征维度数量，对每一语音帧的第一中间权重特征进行缩放处理，获得每一语音帧的第一缩放权重特征；

13、对每一语音帧的第一缩放权重特征进行归一化处理，获得每一语音帧的第一权重特征。

14、在其中一个实施例中，基于每一语音帧的第一融合编码特征，确定与源音频对应的合成音频，包括：

15、获取目标音频的目标音色嵌入编码特征；

16、基于每一语音帧的第一融合编码特征，按每一语音帧对于目标音色嵌入编码特征的音色还原程度，对目标音色嵌入编码特征进行调整，获得每一语音帧的第二融合编码特征；

17、对每一语音帧的第二融合编码特征进行解码，得到合成音频。

18、在其中一个实施例中，基于每一语音帧的第一融合编码特征，按每一语音帧对于目标音色嵌入编码特征的音色还原程度，对目标音色嵌入编码特征进行调整，获得每一语音帧的第二融合编码特征，包括：

19、基于目标音色嵌入编码特征和每一语音帧的第一融合编码特征进行特征融合和调整，获得每一语音帧的第二权重特征，第二权重特征用于表征相应帧对于目标音色嵌入编码特征的音色还原程度；

20、基于每一语音帧的第二权重特征，对目标音色嵌入编码特征进行调整，获得每一语音帧的中间音色特征；

21、将每一语音帧的第一融合编码特征与每一语音帧的中间音色特征进行融合，获得每一语音帧的第二融合编码特征。

22、在其中一个实施例中，基于目标音色嵌入编码特征和每一语音帧的第一融合编码特征进行特征融合和调整，获得每一语音帧的第二权重特征，包括：

23、基于目标音色嵌入编码特征和每一语音帧的第一融合编码特征进行第二融合处理，获得每一语音帧的第二中间权重特征；

24、基于特征维度数量，对每一语音帧的第二中间权重特征进行缩放处理，获得每一语音帧的第二缩放权重特征；

25、对每一语音帧的第二缩放权重特征进行归一化处理，获得每一语音帧的第二权重特征。

26、在其中一个实施例中，获取源音频中每一语音帧的语音内容编码特征、以及待进行调整的韵律编码特征，包括：

27、获取源音频，提取待进行调整音频的频谱特征，并提取源音频中每一语音帧的瓶颈特征；

28、对频谱特征进行编码，获得待进行调整的韵律编码特征；

29、对每一语音帧的瓶颈特征进行编码，获得每一语音帧的语音内容编码特征。

30、第二方面，本技术还提供了一种语音处理装置。所述装置包括：

31、获取模块，用于获取源音频中每一语音帧的语音内容编码特征、以及待进行调整的韵律编码特征；

32、调整模块，用于基于每一语音帧的语音内容编码特征，按每一语音帧对于韵律编码特征的韵律贡献程度，对韵律编码特征进行调整，获得每一语音帧的第一融合编码特征；

33、合成模块，用于基于每一语音帧的第一融合编码特征，确定与源音频对应的合成音频。

34、第三方面，本技术还提供了一种计算机设备。所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

35、获取源音频中每一语音帧的语音内容编码特征、以及待进行调整的韵律编码特征；

36、基于每一语音帧的语音内容编码特征，按每一语音帧对于韵律编码特征的韵律贡献程度，对韵律编码特征进行调整，获得每一语音帧的第一融合编码特征；

37、基于每一语音帧的第一融合编码特征，确定与源音频对应的合成音频。

38、第四方面，本技术还提供了一种计算机可读存储介质。所述计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

39、获取源音频中每一语音帧的语音内容编码特征、以及待进行调整的韵律编码特征；

40、基于每一语音帧的语音内容编码特征，按每一语音帧对于韵律编码特征的韵律贡献程度，对韵律编码特征进行调整，获得每一语音帧的第一融合编码特征；

41、基于每一语音帧的第一融合编码特征，确定与源音频对应的合成音频。

42、第五方面，本技术还提供了一种计算机程序产品。所述计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现以下步骤：

43、获取源音频中每一语音帧的语音内容编码特征、以及待进行调整的韵律编码特征；

44、基于每一语音帧的语音内容编码特征，按每一语音帧对于韵律编码特征的韵律贡献程度，对韵律编码特征进行调整，获得每一语音帧的第一融合编码特征；

45、基于每一语音帧的第一融合编码特征，确定与源音频对应的合成音频。

46、上述语音处理方法、装置、计算机设备、存储介质和计算机程序产品，通过源音频中每一语音帧的语音内容编码特征，按每一语音帧对于韵律编码特征的韵律贡献程度对韵律编码特征进行调整，获得每一语音帧的第一融合编码特征，能够将音频韵律融入每一语音帧的文本内容中，同时保留了文本内容和音频韵律，基于每一语音帧的第一融合编码特征，有利于得到较为自然的合成音频。