技术新讯 > 乐器声学设备的制造及制作,分析技术 > 语音处理方法、特征集合学习方法、计算设备及计算机可读存储介质与流程 > 正文

语音处理方法、特征集合学习方法、计算设备及计算机可读存储介质与流程

国知局
2024-09-05 14:26:22

本说明书实施例涉及语音处理的，特别涉及一种语音处理方法、特征集合学习方法、计算设备及计算机可读存储介质。

背景技术：

1、语音数据作为一种常见的模态数据，广泛存在应用于我们的生活中，扮演着不可或缺的角色。一方面，随着互联网技术的普及，语音数据的数据量迎来爆炸性增长，给数据处理带来了更大的挑战，另一方面，随着以大语言模型(large language model，llm)为代表的深度学习技术的崛起，人工智能领域掀起了多模态统一建模的浪潮，语音数据作为一种重要的摩天数据，如何对其进行准确的表征至关重要。

2、目前，通过量化处理提取语音数据的语音量化特征，在此基础上执行语音处理，成为了主流的语音处理方式，同时也在语音处理上取得了一定的进展。

3、然而，语音量化往往采用自监督重构的方式，只关注语音数据的声学信息，却未考虑语音数据特有的语义信息，导致语音量化特征不能全面、准确地表征语音数据的语音特征，存在语音处理准确性不足的问题。因此，亟需一种高准确度的语音处理方法。

技术实现思路

1、有鉴于此，本说明书实施例提供了一种语音处理方法。本说明书一个或者多个实施例同时涉及一种特征集合学习方法，一种语音处理装置，一种特征集合学习方法，一种计算设备，一种计算机可读存储介质以及一种计算机程序产品，以解决现有技术中存在的技术缺陷。

2、根据本说明书实施例的第一方面，提供了一种语音处理方法，包括：

3、提取待处理语音的语音特征；

4、基于语音特征，经语音识别编码，获得待处理语音的语义特征；

5、基于语义特征和预先学习的特征集合，确定待处理语音的目标量化特征，其中，特征集合包括样本语音单元的样本量化特征，样本量化特征基于样本语音单元和样本语音单元的标签文本进行语音识别学习获得；

6、基于目标量化特征执行语音处理任务，获得语音处理结果。

7、根据本说明书实施例的第二方面，提供了一种特征集合学习方法，包括：

8、获取样本语音、样本语音的标签文本和初始特征集合，其中，样本语音包括多个样本语音单元，初始特征集合包括多个初始语音单元的初始量化特征；

9、提取各样本语音单元的样本语音特征；

10、基于各样本语音单元的样本语音特征，经语音识别编码，获得各样本语音单元的样本语义特征；

11、基于各样本语音单元的样本语义特征和初始特征集合，确定各样本语音单元的预测量化特征；

12、基于各样本语音单元的预测量化特征，经语音识别解码，获得各样本语音单元的预测文本；

13、基于各样本语音单元的预测文本和各样本语音单元的标签文本，调整多个初始语音单元的初始量化特征，获得包括各样本语音单元的样本量化特征的特征集合。

14、根据本说明书实施例的第三方面，提供了一种语音处理装置，包括：

15、第一提取模块，被配置为提取待处理语音的语音特征；

16、第一编码模块，被配置为基于语音特征，经语音识别编码，获得待处理语音的语义特征；

17、第一量化模块，被配置为基于语义特征和预先学习的特征集合，确定待处理语音的目标量化特征，其中，特征集合包括样本语音单元的样本量化特征，样本量化特征基于样本语音单元和样本语音单元的标签文本进行语音识别学习获得；

18、处理模块，被配置为基于目标量化特征执行语音处理任务，获得语音处理结果。

19、根据本说明书实施例的第四方面，提供了一种特征集合学习装置，包括：

20、获取模块，被配置为获取样本语音、样本语音的标签文本和初始特征集合，其中，样本语音包括多个样本语音单元，初始特征集合包括多个初始语音单元的初始量化特征；

21、第二提取模块，被配置为提取各样本语音单元的样本语音特征；

22、第二编码模块，被配置为基于各样本语音单元的样本语音特征，经语音识别编码，获得各样本语音单元的样本语义特征；

23、第二量化模块，被配置为基于各样本语音单元的样本语义特征和初始特征集合，确定各样本语音单元的预测量化特征；

24、解码模块，被配置为基于各样本语音单元的预测量化特征，经语音识别解码，获得各样本语音单元的预测文本；

25、调整模块，被配置为基于各样本语音单元的预测文本和各样本语音单元的标签文本，调整多个初始语音单元的初始量化特征，获得包括各样本语音单元的样本量化特征的特征集合。

26、根据本说明书实施例的第五方面，提供了一种计算设备，包括：

27、存储器和处理器；

28、所述存储器用于存储计算机程序/指令，所述处理器用于执行所述计算机程序/指令，该计算机程序/指令被处理器执行时实现上述方法的步骤。

29、根据本说明书实施例的第六方面，提供了一种计算机可读存储介质，其存储有计算机程序/指令，该计算机程序/指令被处理器执行时实现上述方法的步骤。

30、根据本说明书实施例的第七方面，提供了一种计算机程序产品，包括计算机程序/指令，该计算机程序/指令被处理器执行时实现上述方法的步骤。

31、本说明书一个实施例中，提取待处理语音的语音特征，提取得到包含待处理语音的声学信息的语音特征。基于语音特征，经语音识别编码，获得待处理语音的语义特征；基于语义特征和预先学习的特征集合，确定待处理语音的目标量化特征，其中，特征集合包括样本语音单元的样本量化特征，样本量化特征基于样本语音单元和样本语音单元的标签文本进行语音识别学习获得。基于样本语音单元和样本语音单元的标签文本，以一种有监督判别学习的方式，来进行语音识别学习获得特征集合，可以量化得到具有明确的语义信息的目标量化特征，使得目标量化特征同时包含有声学信息和语义信息，全面、准确地表征待处理语音的语音特征。基于目标量化特征执行语音处理任务，获得语音处理结果，提升了语音处理的准确性。

技术特征：

1.一种语音处理方法，包括：

2.根据权利要求1所述的方法，所述提取待处理语音的语音特征，包括：

3.根据权利要求2所述的方法，在所述基于所述语音特征，经语音识别编码，获得所述待处理语音的语义特征之前，还包括：

4.根据权利要求1所述的方法，所述基于所述语义特征和预先学习的特征集合，确定所述待处理语音的目标量化特征，包括：

5.根据权利要求1所述的方法，所述提取待处理语音的语音特征，包括：

6.根据权利要求1-5任一项所述的方法，在所述基于所述语义特征和预先学习的特征集合，确定所述待处理语音的目标量化特征之前，还包括：

7.根据权利要求6所述的方法，在所述提取各样本语音单元的样本语音特征之前，还包括：

8.根据权利要求6所述的方法，在所述基于所述各样本语音单元的样本语音特征，经语音识别编码，获得所述各样本语音单元的样本语义特征之前，还包括：

9.根据权利要求6所述的方法，所述基于所述各样本语音单元的样本语义特征和所述初始特征集合，确定所述各样本语音单元的预测量化特征，包括：

10.根据权利要求6所述的方法，所述提取各样本语音单元的样本语音特征，包括：

11.根据权利要求10所述的方法，在所述将所述各样本语音单元的预测量化特征输入所述语音识别解码层，基于所述预测量化特征，经语音识别解码，获得所述各样本语音单元的预测文本之后，还包括：

12.一种特征集合学习方法，包括：

13.一种计算设备，包括：

14.一种计算机可读存储介质，其存储有计算机程序/指令，该计算机程序/指令被处理器执行时实现权利要求1至12任意一项所述方法的步骤。

15.一种计算机程序产品，包括计算机程序/指令，该计算机程序/指令被处理器执行时实现权利要求1至12任意一项所述方法的步骤。

技术总结本说明书实施例提供语音处理方法、特征集合学习方法、计算设备及计算机可读存储介质，应用于语音处理的技术领域，其中所述语音处理方法包括：提取待处理语音的语音特征；基于语音特征，经语音识别编码，获得待处理语音的语义特征；基于语义特征和预先学习的特征集合，确定待处理语音的目标量化特征，其中，特征集合包括样本语音单元的样本量化特征，样本量化特征基于样本语音单元和样本语音单元的标签文本进行语音识别学习获得；基于目标量化特征执行语音处理任务，获得语音处理结果。以一种有监督判别学习的方式来进行语音识别学习获得特征集合，量化得到同时包含有声学信息和语义信息的目标量化特征，提升了语音处理的准确性。技术研发人员：杜志浩,张仕良,王嘉明,陈谦,杨叶新,李泽瑞受保护的技术使用者：阿里巴巴（中国）有限公司技术研发日：技术公布日：2024/9/2