技术新讯 > 乐器声学设备的制造及制作,分析技术 > 语音处理方法、语音识别方法以及语音模型训练方法与流程 > 正文

语音处理方法、语音识别方法以及语音模型训练方法与流程

国知局
2024-06-21 11:27:59

本说明书实施例涉及语音数据处理，特别涉及一种语音处理方法。

背景技术：

1、随着深度学习技术的发展，语音模型在不同场景下实现对应的语音处理，极大方便了人们的生产和生活，例如，语音转录、语音生成、语音答复和语音翻译等。

2、目前，根据语音处理的不同场景，需要利用不同架构的语音模型、不同的样本语音数据或者不同的训练策略，针对性地训练语音模型，得到高性能的语音模型，实现高准确度的语音处理。

3、然而，这样的语音模型和语音处理的场景绑定，导致了语音模型的迁移性不足，进而导致了语音处理的准确性不足。亟需一种高准确性的语音处理方法。

技术实现思路

1、有鉴于此，本说明书实施例提供了一种语音处理方法。本说明书一个或者多个实施例同时涉及一种语音识别方法，一种语音模型训练方法，一种语音处理装置，一种语音识别装置，一种语音模型训练装置，一种计算设备，一种计算机可读存储介质以及一种计算机程序，以解决现有技术中存在的技术缺陷。

2、根据本说明书实施例的第一方面，提供了一种语音处理方法，包括：

3、获取待处理的语音数据；

4、利用目标语音模型，对语音数据进行语音处理，获得针对语音数据的语音处理结果，其中，目标语音模型基于样本语音数据和提示信息对预训练语音模型训练得到，提示信息基于对样本语音数据在不同语音维度下的语音特征进行自学习得到。

5、根据本说明书实施例的第二方面，提供了一种语音识别方法，应用于云侧设备，包括：

6、接收前端发送的语音识别任务的任务请求，其中，任务请求携带有待识别的语音数据；

7、利用目标语音模型，对语音数据进行识别，获得语音识别结果，其中，目标语音模型基于样本语音数据和提示信息对预训练语音模型训练得到，提示信息基于对样本语音数据在不同语音维度下的语音特征进行自学习得到；

8、将语音识别结果反馈至前端。

9、根据本说明书实施例的第三方面，提供了一种语音模型训练方法，应用于云侧设备，包括：

10、获取样本集，其中，样本集包括样本语音数据和样本语音数据的标签处理结果；

11、将样本语音数据输入预训练语音模型的编码单元，经编码单元得到样本语音特征；

12、利用自学习单元，基于样本语音特征，提取多个语音维度的语音特征，并基于多个语音维度的语音特征，自学习得到样本语音数据对应的提示信息；

13、将提示信息和样本语音特征输入预训练语音模型的特征处理单元，经特征处理单元得到预测处理结果；

14、基于预测处理结果和标签处理结果，对预训练语音模型进行参数调整，获得目标语音模型；

15、将目标语音模型的模型参数反馈至端侧设备。

16、根据本说明书实施例的第四方面，提供了一种语音处理装置，包括：

17、数据获取模块，被配置为获取待处理的语音数据；

18、处理模块，被配置为利用目标语音模型，对语音数据进行语音处理，获得针对语音数据的语音处理结果，其中，目标语音模型基于样本语音数据和提示信息对预训练语音模型训练得到，提示信息基于对样本语音数据在不同语音维度下的语音特征进行自学习得到。

19、根据本说明书实施例的第五方面，提供了一种语音识别装置，应用于云侧设备，包括：

20、接收模块，被配置为接收前端发送的语音识别任务的任务请求，其中，任务请求携带有待识别的语音数据；

21、识别模块，被配置为利用目标语音模型，对语音数据进行识别，获得语音识别结果，其中，目标语音模型基于样本语音数据和提示信息对预训练语音模型训练得到，提示信息基于对样本语音数据在不同语音维度下的语音特征进行自学习得到；

22、结果反馈模块，被配置为将语音识别结果反馈至前端。

23、根据本说明书实施例的第六方面，提供了一种语音模型训练装置，应用于云侧设备，包括：

24、样本集获取模块，被配置为获取样本集，其中，样本集包括样本语音数据和样本语音数据的标签处理结果；

25、编码模块，被配置为将样本语音数据输入预训练语音模型的编码单元，经编码单元得到样本语音特征；

26、自学习模块，被配置为利用自学习单元，基于样本语音特征，提取多个语音维度的语音特征，并基于多个语音维度的语音特征，自学习得到样本语音数据对应的提示信息；

27、特征处理模块，被配置为将提示信息和样本语音特征输入预训练语音模型的特征处理单元，经特征处理单元得到预测处理结果；

28、训练模块，被配置为基于预测处理结果和标签处理结果，对预训练语音模型进行参数调整，获得目标语音模型；

29、模型反馈模块，被配置为将目标语音模型的模型参数反馈至端侧设备。

30、根据本说明书实施例的第七方面，提供了一种计算设备，包括：

31、存储器和处理器；

32、所述存储器用于存储计算机可执行指令，所述处理器用于执行所述计算机可执行指令，该计算机可执行指令被处理器执行时实现上述方法的步骤。

33、根据本说明书实施例的第八方面，提供了一种计算机可读存储介质，其存储有计算机可执行指令，该指令被处理器执行时实现上述方法的步骤。

34、根据本说明书实施例的第九方面，提供了一种计算机程序，其中，当所述计算机程序在计算机中执行时，令计算机执行上述方法的步骤。

35、本说明书一个实施例中，获取待处理的语音数据；利用目标语音模型，对语音数据进行语音处理，获得针对语音数据的语音处理结果，其中，目标语音模型基于样本语音数据和提示信息对预训练语音模型训练得到，提示信息基于对样本语音数据在不同语音维度下的语音特征进行自学习得到。基于对样本语音数据在不同语音维度下的语音特征，自学习得到了适应于样本语音数据的提示信息，基于自适应学习的样本语音数据的提示信息和样本语音数据对预训练语音模型进行有提示性的模型训练，使得训练得到的目标语音模型适应了不同样本语音数据的语音特征，匹配于多种语音处理的场景，目标语音模型具有高迁移性，利用高迁移性的目标语音模型对语音数据进行语音处理，提升了语音处理的准确性。

技术特征：

1.一种语音处理方法，包括：

2.根据权利要求1所述的方法，所述目标语音模型包括：编码单元、特征处理单元；

3.根据权利要求1或2所述的方法，在所述利用目标语音模型，对所述语音数据进行语音处理之前，还包括：

4.根据权利要求3所述的方法，所述利用自学习单元，基于所述多个语音维度的语音特征，自学习得到所述样本语音数据对应的提示信息，包括：

5.根据权利要求3所述的方法，在所述将所述提示信息和所述样本语音特征输入所述预训练语音模型的特征处理单元，经所述特征处理单元得到预测处理结果之前，还包括：

6.根据权利要求3所述的方法，在所述将所述提示信息和所述样本语音特征输入所述预训练语音模型的特征处理单元，经所述特征处理单元得到预测处理结果之前，还包括：

7.根据权利要求3所述的方法，所述基于所述样本语音特征，提取多个语音维度的语音特征，包括：

8.根据权利要求3所述的方法，所述基于所述预测处理结果和所述标签处理结果，对所述预训练语音模型进行参数调整，获得目标语音模型，包括：

9.根据权利要求8所述的方法，所述基于所述预测处理结果和所述标签处理结果，计算第一损失值，包括：

10.一种语音识别方法，应用于云侧设备，包括：

11.一种语音模型训练方法，应用于云侧设备，包括：

12.一种计算设备，包括：

13.一种计算机可读存储介质，其存储有计算机可执行指令，该计算机可执行指令被处理器执行时实现权利要求1至11任意一项所述方法的步骤。

技术总结本说明书实施例提供语音处理方法、语音识别方法以及语音模型训练方法，其中所述语音处理方法包括：获取待处理的语音数据；利用目标语音模型，对语音数据进行语音处理，获得针对语音数据的语音处理结果，其中，目标语音模型基于样本语音数据和提示信息对预训练语音模型训练得到，提示信息基于对样本语音数据在不同语音维度下的语音特征进行自学习得到。基于自适应学习的样本语音数据的提示信息和样本语音数据对预训练语音模型进行有提示性的模型训练，目标语音模型匹配于多种语音处理的场景，具有高迁移性，利用高迁移性的目标语音模型对语音数据进行语音处理，提升了语音处理的准确性。技术研发人员：黄殿文,张冲,张芮熙,马煜坤,阮庄孝,倪崇嘉,庄永祥,马斌受保护的技术使用者：杭州阿里云飞天信息技术有限公司技术研发日：技术公布日：2024/2/19