技术新讯 > 乐器声学设备的制造及制作,分析技术 > 语音处理方法、装置及终端设备与流程 > 正文

语音处理方法、装置及终端设备与流程

国知局
2024-06-21 10:44:11

本技术实施例涉及人工智能，尤其涉及一种语音处理方法、装置及终端设备。

背景技术：

1、终端设备可以通过声码器，对输入的语音进行编码处理，得到音频数据。同时可以通过声码器，对接收到的音频数据进行解码处理，并播放音频数据对应的语音。

2、在相关技术中，可以通过如下方式对进行语音处理：发送端获取待处理的语音，并对语音进行预处理，得到初始音频数据。发送端通过声码器的编码器对初始音频数据进行编码处理，得到目标音频数据。并向接收端发送目标音频数据，接收端的声码器将接收到的比特流形式的目标音频数据中解析出语音特征参数，合成语音信号。在上述过程中，由于声码器使用固定的参数和模型结构，声码器提取语音信号的特征参量。若语音包含复杂的语音情感、语气变化和上下文信息时，声码器解码合成的语音听起来不够清晰、自然，且可能存在明显的机械感。导致语音处理的效果较差。

技术实现思路

1、本技术实施例提供一种语音处理方法、装置及终端设备，用以解决语音处理的效果较差的问题。

2、第一方面，本技术实施例提供一种语音处理方法，包括：

3、对待处理的初始语音进行去噪处理，得到目标语音；

4、通过编码块对所述目标语音进行编码处理，得到中间音频数据，所述中间音频数据包括至少一个目标语义特征，所述编码块包括至少一个第一卷积块、至少一个第一残差单元、语义理解模块、以及第二卷积块；

5、通过量化模型对所述中间音频数据进行量化处理，得到目标音频数据，所述目标音频数据包括每个目标语义特征对应的编码索引值。

6、在一种可能的实施方式中，所述编码块中各模块的排列顺序为：所述至少一个第一卷积块与所述至少一个第一残差单元交错排列，所述语义理解模块、所述第二卷积块；通过编码块对所述目标语音进行编码处理，得到中间音频数据，包括：

7、通过所述至少一个第一卷积块和所述至少一个第一残差单元对所述目标语音进行处理，得到所述目标语音对应的至少一个初始语义特征；

8、通过所述语义理解模块对所述至少一个初始语义特征进行上下文理解处理，得到所述至少一个初始语义特征对应的至少一个加强语义特征；

9、通过所述第二卷积块对所述至少一个加强语义特征进行处理，得到所述中间音频数据。

10、在一种可能的实施方式中，通过所述第二卷积块对所述至少一个加强语义特征进行处理，得到所述中间音频数据，包括：

11、获取所述目标语义特征的目标数量；

12、根据所述目标数量，通过所述第二卷积块对所述至少一个加强语义特征进行数量提取处理，得到所述中间音频数据，所述中间音频数据包括的目标语义特征的数量为所述目标数量。

13、在一种可能的实施方式中，通过所述量化模型对所述中间音频数据进行量化处理，得到目标音频数据，包括：

14、获取编码索引表，所述编码索引表包括多个标准语义特征、以及每个标准语义特征对应的编码索引值；

15、根据所述编码索引表，通过所述量化模型对所述中间音频数据进行量化处理，得到目标音频数据。

16、在一种可能的实施方式中，根据所述编码索引表，通过所述量化模型对所述中间音频数据进行量化处理，得到目标音频数据，包括：

17、针对任意一个目标语义特征，确定所述目标语义特征与编码索引表的每个标准语义特征之间的第一相似度，得到多个第一相似度；

18、将所述第一相似度最大的标准语义特征确定为待选语义特征；

19、将所述待选语义特征对应的编码索引值确定为所述目标语义特征对应的编码索引值；

20、通过所述量化模型对所述至少一个目标语义特征对应的编码索引值进行压缩处理，得到所述目标音频数据。

21、在一种可能的实施方式中，通过所述量化模型对所述至少一个目标语义特征对应的编码索引值进行压缩处理，得到所述目标音频数据之后，还包括：

22、对所述目标音频数据进行熵编码处理，得到所述目标音频数据对应的目标压缩文件；

23、向预设设备发送所述目标压缩文件，或者存储所述目标压缩文件。

24、在一种可能的实施方式中，对待处理的初始语音进行去噪处理，得到目标语音，包括：

25、对所述初始语音进行预处理，得到中间语音，所述预处理至少包括降噪处理、预加重处理、帧化处理；

26、对所述中间语音进行划分处理，得到背景音、噪音以及第一语音，所述第一语音为所述中间语音中，除所述背景音和所述噪音之外的语音；

27、在所述中间语音中，对所述噪音进行去除处理、对所述背景音进行音量减少处理、以及对所述第一语音进行音量增强处理，得到所述目标语音。

28、在一种可能的实施方式中，所述方法还包括：

29、通过所述量化模型对所述目标音频数据进行反量化处理，得到所述中间音频数据；

30、通过所述解码块对所述中间音频数据进行解码处理，得到所述目标语音，并播放所述目标语音，所述解码块包括至少一个第一卷积块、至少一个第一残差单元、语义理解模块、以及第二卷积块，所述解码块中各模块的排列顺序为：所述第二卷积块、所述语义理解模块、所述至少一个第一卷积块与所述至少一个第一残差单元交错排列。

31、第二方面，本技术实施例提供一种语音处理装置，所述装置包括：

32、第一处理模块，用于对待处理的初始语音进行去噪处理，得到目标语音；

33、第二处理模块，用于通过编码块对所述目标语音进行编码处理，得到中间音频数据，所述中间音频数据包括至少一个目标语义特征，所述编码块包括至少一个第一卷积块、至少一个第一残差单元、语义理解模块、以及第二卷积块；

34、第三处理模块，用于通过量化模型对所述中间音频数据进行量化处理，得到目标音频数据，所述目标音频数据包括每个目标语义特征对应的编码索引值。

35、在一种可能的实施方式中，所述第二处理模块具体用于：

36、通过所述至少一个第一卷积块和所述至少一个第一残差单元对所述目标语音进行处理，得到所述目标语音对应的至少一个初始语义特征；

37、通过所述语义理解模块对所述至少一个初始语义特征进行上下文理解处理，得到所述至少一个初始语义特征对应的至少一个加强语义特征；

38、通过所述第二卷积块对所述至少一个加强语义特征进行处理，得到所述中间音频数据。

39、在一种可能的实施方式中，所述第二处理模块具体用于：

40、获取所述目标语义特征的目标数量；

41、根据所述目标数量，通过所述第二卷积块对所述至少一个加强语义特征进行数量提取处理，得到所述中间音频数据，所述中间音频数据包括的目标语义特征的数量为所述目标数量。

42、在一种可能的实施方式中，所述第三处理模块具体用于：

43、获取编码索引表，所述编码索引表包括多个标准语义特征、以及每个标准语义特征对应的编码索引值；

44、根据所述编码索引表，通过所述量化模型对所述中间音频数据进行量化处理，得到目标音频数据。

45、在一种可能的实施方式中，所述第三处理模块具体用于：

46、针对任意一个目标语义特征，确定所述目标语义特征与编码索引表的每个标准语义特征之间的第一相似度，得到多个第一相似度；

47、将所述第一相似度最大的标准语义特征确定为待选语义特征；

48、将所述待选语义特征对应的编码索引值确定为所述目标语义特征对应的编码索引值；

49、通过所述量化模型对所述至少一个目标语义特征对应的编码索引值进行压缩处理，得到所述目标音频数据。

50、在一种可能的实施方式中，所述第一处理模块具体用于：

51、对所述初始语音进行预处理，得到中间语音，所述预处理至少包括降噪处理、预加重处理、帧化处理；

52、对所述中间语音进行划分处理，得到背景音、噪音以及第一语音，所述第一语音为所述中间语音中，除所述背景音和所述噪音之外的语音；

53、在所述中间语音中，对所述噪音进行去除处理、对所述背景音进行音量减少处理、以及对所述第一语音进行音量增强处理，得到所述目标语音。

54、在一种可能的实施方式中，所述装置还包括第四处理模块以及第五处理模块。

55、其中，所述第四处理模块用于：

56、对所述目标音频数据进行熵编码处理，得到所述目标音频数据对应的目标压缩文件；

57、向预设设备发送所述目标压缩文件，或者存储所述目标压缩文件。

58、所述第五处理模块用于：

59、通过所述量化模型对所述目标音频数据进行反量化处理，得到所述中间音频数据；

60、通过所述解码块对所述中间音频数据进行解码处理，得到所述目标语音，并播放所述目标语音，所述解码块包括至少一个第一卷积块、至少一个第一残差单元、语义理解模块、以及第二卷积块，所述解码块中各模块的排列顺序为：所述第二卷积块、所述语义理解模块、所述至少一个第一卷积块与所述至少一个第一残差单元交错排列。

61、第三方面，本技术提供一种芯片，所述芯片上存储有计算机程序，所述计算机程序被所述芯片执行时，实现如第一方面任一项所述的方法。

62、第四方面，本技术提供一种芯片模组，所述芯片模组上存储有计算机程序，所述计算机程序被所述芯片模组执行时，实现如第一方面任一项所述的方法。

63、第五方面，本技术实施例提供一种终端设备，包括：

64、至少一个处理器；以及

65、与所述至少一个处理器通信连接的存储器；其中，

66、所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行第一方面任一项所述的方法。

67、第六方面，本技术实施例提供一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行第一方面中任一项所述的方法。

68、第七方面，本技术实施例提供一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现第一方面中任一项所述的方法。

69、本技术实施例提供的语音处理方法、装置及终端设备，对初始语音进行去噪处理，得到目标语音。通过编码块对目标语音进行编码处理，得到中间音频数据，中间音频数据包括至少一个目标语义特征。编码块包括至少一个第一卷积块、至少一个第一残差单元、语义理解模块、以及第二卷积块。通过量化模型对中间音频数据进行量化处理，得到目标音频数据，目标音频数据包括每个目标语义特征对应的编码索引值。在上述过程中，由于在编码器的编码块中加入了语义理解模块。语义理解模块可以加强对音频数据上下文的语义理解，提取关于上下文的语义特征，从而提高了编解码后恢复语音的可懂性和流畅度。提高了语音处理的效果。