技术新讯 > 乐器声学设备的制造及制作,分析技术 > 语音处理、预训练语言模型训练以及语音识别方法与流程  >  正文

语音处理、预训练语言模型训练以及语音识别方法与流程

  • 国知局
  • 2024-06-21 11:50:03

本说明书实施例涉及计算机,特别涉及一种语音处理方法。

背景技术:

1、随着计算机技术的发展,大规模语言模型(llm,large language mode l)开始大放异彩,在语言理解、生成、交互和推理方面表现出的非凡能力,广泛应用于对话、翻译、代码生成等自然语言处理领域。随着大规模语言模型的突飞猛进,大规模语言模型在语音处理研究中开辟了一个重要的领域。

2、目前,通常采用端对端的语音处理方案:直接将音频序列转化为文字序列,实现准确的语音处理。然而上述方案需要大量资源,语音处理性能较差,因此,亟需一种高性能的语音处理方案。

技术实现思路

1、有鉴于此,本说明书实施例提供了一种语音处理方法。本说明书一个或者多个实施例同时涉及一种预训练语言模型训练方法,一种语音识别方法,一种语音处理装置,一种预训练语言模型训练装置,一种语音识别装置,一种计算设备,一种计算机可读存储介质以及一种计算机程序,以解决现有技术中存在的技术缺陷。

2、根据本说明书实施例的第一方面,提供了一种语音处理方法,包括:

3、获取语音处理任务对应的目标语音数据;

4、对目标语音数据进行特征提取,获得目标语音数据的离散特征序列;

5、将离散特征序列输入预训练语言模型,经预训练语言模型的输入单元,基于文本特性对离散特征序列进行分割探索处理,获得分割探索处理结果;

6、经预训练语言模型的编解码单元,根据分割探索处理结果生成目标语音数据对应的处理结果。

7、根据本说明书实施例的第二方面,提供了一种预训练语言模型训练方法,应用于云侧设备,包括:

8、获取多个样本语音数据,其中,多个样本语音数据携带样本处理标签;

9、对多个样本语音数据进行特征提取,获得多个样本语音数据分别对应的样本离散特征序列;

10、将多个样本语音数据分别对应的样本离散特征序列输入初始语言模型,经初始语言模型的输入单元,基于文本特性对样本离散特征序列进行分割探索预测,获得分割探索预测结果;

11、经初始语言模型的编解码单元,根据分割探索预测结果生成多个样本语音数据对应的预测处理结果;

12、根据预测处理结果和样本处理标签,调整初始语言模型的模型参数,获得预训练语言模型。

13、根据本说明书实施例的第三方面,提供了一种语音识别方法,包括:

14、获取语音识别任务对应的目标语音数据;

15、对目标语音数据进行特征提取,获得目标语音数据的离散特征序列;

16、将离散特征序列输入预训练语言模型,经预训练语言模型的输入单元,基于文本特性对离散特征序列进行分割探索处理,获得分割探索处理结果;

17、经预训练语言模型的编解码单元,根据分割探索处理结果生成目标语音数据对应的识别结果。

18、根据本说明书实施例的第四方面,提供了一种语音处理装置,包括:

19、第一获取模块,被配置为获取语音处理任务对应的目标语音数据;

20、第一提取模块,被配置为对目标语音数据进行特征提取,获得目标语音数据的离散特征序列;

21、第一输入模块,被配置为将离散特征序列输入预训练语言模型,经预训练语言模型的输入单元,基于文本特性对离散特征序列进行分割探索处理,获得分割探索处理结果;

22、第一生成模块,被配置为经预训练语言模型的编解码单元,根据分割探索处理结果生成目标语音数据对应的处理结果。

23、根据本说明书实施例的第五方面,提供了一种预训练语言模型训练装置,应用于云侧设备,包括:

24、第二获取模块,被配置为获取多个样本语音数据,其中,多个样本语音数据携带样本处理标签;

25、第二提取模块,被配置为对多个样本语音数据进行特征提取,获得多个样本语音数据分别对应的样本离散特征序列;

26、第二输入模块,被配置为将多个样本语音数据分别对应的样本离散特征序列输入初始语言模型,经初始语言模型的输入单元,基于文本特性对样本离散特征序列进行分割探索预测,获得分割探索预测结果;

27、第二生成模块,被配置为经初始语言模型的编解码单元,根据分割探索预测结果生成多个样本语音数据对应的预测处理结果;

28、调整模块,被配置为根据预测处理结果和样本处理标签,调整初始语言模型的模型参数,获得预训练语言模型。

29、根据本说明书实施例的第六方面,提供了一种语音识别装置,包括:

30、第三获取模块,被配置为获取语音识别任务对应的目标语音数据;

31、第三提取模块,被配置为对目标语音数据进行特征提取,获得目标语音数据的离散特征序列;

32、第三输入模块,被配置为将离散特征序列输入预训练语言模型,经预训练语言模型的输入单元,基于文本特性对离散特征序列进行分割探索处理,获得分割探索处理结果;

33、第三生成模块,被配置为经预训练语言模型的编解码单元,根据分割探索处理结果生成目标语音数据对应的识别结果。

34、根据本说明书实施例的第七方面,提供了一种计算设备,包括:

35、存储器和处理器;

36、所述存储器用于存储计算机可执行指令,所述处理器用于执行所述计算机可执行指令,该计算机可执行指令被处理器执行时实现上述第一方面或者第二方面或者第三方面所提供方法的步骤。

37、根据本说明书实施例的第八方面,提供了一种计算机可读存储介质,其存储有计算机可执行指令,该指令被处理器执行时实现上述第一方面或者第二方面或者第三方面所提供方法的步骤。

38、根据本说明书实施例的第九方面,提供了一种计算机程序,其中,当所述计算机程序在计算机中执行时,令计算机执行上述第一方面或者第二方面或者第三方面所提供方法的步骤。

39、本说明书一个实施例提供的语音处理方法,获取语音处理任务对应的目标语音数据;对目标语音数据进行特征提取,获得目标语音数据的离散特征序列;将离散特征序列输入预训练语言模型,经预训练语言模型的输入单元,基于文本特性对离散特征序列进行分割探索处理,获得分割探索处理结果;经预训练语言模型的编解码单元,根据分割探索处理结果生成目标语音数据对应的处理结果。通过生成目标语音数据的离散特征序列,在粗粒度上使得语音和文本较为相似,进一步地,对离散特征序列进行分割探索处理,在细粒度上有效地减少了语音和文本之间的情态差距并保证了语音的特性,增强了预训练语言模型在语音和文本表示之间的桥梁能力,有助于预训练语言模型理解将语音处理和文本处理合并的细微差别,增强了预训练语言模型在理解和响应语音输入方面的适应性,提高了语音处理性能。

技术特征:

1.一种语音处理方法,包括:

2.根据权利要求1所述的方法,所述对所述目标语音数据进行特征提取,获得所述目标语音数据的离散特征序列,包括:

3.根据权利要求2所述的方法,所述对所述连续特征序列进行离散化处理,获得所述目标语音数据的离散特征序列,包括:

4.根据权利要求3所述的方法,所述利用均值聚类算法对所述连续特征序列进行离散化处理,获得所述目标语音数据的离散特征序列之后,还包括:

5.根据权利要求1所述的方法,所述输入单元包括语音嵌入单元,所述语音嵌入单元包括多个池化窗口和处理层;

6.根据权利要求5所述的方法,所述处理层包括下采样层、上采样层和残差连接层,所述下采样层用于整合相邻特征信息,所述上采样层用于恢复特征序列长度;

7.根据权利要求5所述的方法,所述利用所述多个池化窗口和文本特性对所述离散特征序列进行分割探索,获得所述多个池化窗口分别对应的池化特征,包括:

8.根据权利要求1所述的方法,还包括:

9.根据权利要求1所述的方法,所述获取语音处理任务对应的目标语音数据之后,还包括:

10.根据权利要求9所述的方法,所述经所述预训练语言模型的编解码单元,根据所述嵌入处理结果和所述分割探索处理结果生成所述目标语音数据对应的处理结果,包括:

11.一种预训练语言模型训练方法,应用于云侧设备,包括:

12.一种语音识别方法,包括:

13.一种计算设备,包括:

14.一种计算机可读存储介质,其存储有计算机可执行指令,该计算机可执行指令被处理器执行时实现权利要求1至10任意一项或者权要求11或者权利要求12所述方法的步骤。

技术总结本说明书实施例提供语音处理、预训练语言模型训练以及语音识别方法,其中所述语音处理方法包括:获取语音处理任务对应的目标语音数据;对目标语音数据进行特征提取,获得目标语音数据的离散特征序列;将离散特征序列输入预训练语言模型,经预训练语言模型的输入单元,基于文本特性对离散特征序列进行分割探索处理,获得分割探索处理结果;经预训练语言模型的编解码单元,根据分割探索处理结果生成目标语音数据对应的处理结果。通过生成离散特征序列,使得语音和文本较为相似,对离散特征序列进行分割探索处理,有效地减少了语音和文本之间的情态差距并保证了语音特性,增强了预训练语言模型在理解和响应语音输入的适应性,提高了语音处理性能。技术研发人员:马煜坤,张冲,赵胜奎,陈谦,王雯,黄殿文,倪崇嘉,阮庄孝,王昊,马斌受保护的技术使用者:杭州阿里云飞天信息技术有限公司技术研发日:技术公布日:2024/5/8

本文地址:https://www.jishuxx.com/zhuanli/20240618/23850.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。