技术新讯 > 乐器声学设备的制造及制作,分析技术 > 一种语音识别方法、装置、存储介质及电子设备与流程  >  正文

一种语音识别方法、装置、存储介质及电子设备与流程

  • 国知局
  • 2024-06-21 10:38:58

本说明书涉及计算机,尤其涉及一种语音识别方法、装置、存储介质及电子设备。

背景技术:

1、近年来,语音识别技术得到了飞速的发展。机器通过对输入的语音信号进行理解与分析,能够将语音数据转变为本文数据。如今,语音识别技术已经在许多领域都得到了广泛的应用。

2、然而目前,语音识别技术仍然存在着一定的弊端。现有的语音识别系统一般都是按照语句本身的顺序对文本进行预测,即从左至右一个字一个字地预测并生成句子。换句话说,现有的语音识别技术只利用左侧的上文信息来进行预测,而没有考虑到整个语音的信息来进行全局预测,这种方式很有可能会造成错误的累积。

3、因此,如何进一步提高语音识别的准确率,降低识别错误的可能性,是一个亟待解决的问题。

技术实现思路

1、本说明书提供一种语音识别方法、装置、存储介质及电子设备,以至少部分地解决现有技术存在的上述问题。

2、本说明书采用下述技术方案:

3、本说明书提供了一种语音识别方法,包括:

4、获取样本文本;

5、将所述样本文本输入待训练的双向语言模型,所述双向语言模型至少包括前向预测子网、后向预测子网、融合子网;

6、通过所述前向预测子网根据所述样本文本得到前向预测结果,并通过所述后向预测子网根据所述样本文本得到后向预测结果;

7、通过所述融合子网对所述前向预测结果和所述后向预测结果进行融合,得到双向预测结果;

8、根据所述双向预测结果和所述样本文本之间的差异,对所述双向语言模型进行训练;

9、采用所述双向语言模型对语音识别模型进行知识迁移;

10、采用知识迁移后的语音识别模型进行语音识别。

11、可选地,通过所述前向预测子网根据所述样本文本得到前向预测结果,具体包括:

12、将所述样本文本输入所述前向预测子网;

13、通过所述前向预测子网,按照从左到右的顺序对前向预测结果中的每个字进行预测,得到所述前向预测结果。

14、可选地,通过所述后向预测子网根据所述样本文本得到后向预测结果,具体包括:

15、将所述样本文本输入所述后向预测子网;

16、通过所述后向预测子网,按照从右到坐的顺序对后向预测结果中的每个字进行预测,得到所述后向预测结果。

17、可选地,所述语音识别模型至少包括编码子网、解码子网;

18、采用所述双向语言模型对语音识别模型进行知识迁移,具体包括:

19、获取样本语音与所述样本语音对应的标注文本;

20、将所述标注文本输入所述双向语言模型,得到所述双向语言模型输入的双向预测结果;

21、将所述样本语音输入所述编码子网,得到所述编码子网输出的待优化编码特征;

22、将所述待优化编码特征输入所述解码子网,得到所述解码子网输出的待优化预测结果;

23、根据所述待优化预测结果与所述双向预测结果之间的差异,对所述语音识别模型进行训练。

24、可选地,所述双向预测结果和所述待优化预测结果均用于表征预测出的文本中各字的概率分布;

25、以所述待优化预测结果与所述双向预测结果之间的差异最小为优化目标,对所述语音识别模型进行训练,具体包括:

26、确定所述标注文本的独热编码;

27、对所述独热编码与所述双向预测结果进行加权融合,得到加权预测结果;

28、根据所述加权预测结果和所述待优化预测结果之间差异,对所述语音识别模型进行训练。

29、可选地,所述前向预测子网、所述后向预测子网、所述编码子网、所述解码子网为基于transformer模型构建的子网。

30、可选地,采用知识迁移后的语音识别模型进行语音识别,具体包括:

31、获取目标语音;

32、将所述目标语音输入知识迁移后的语音模型;

33、通过所述编码子网对所述目标语音进行编码,得到所述目标语音的编码特征;

34、通过所述解码子网对所述编码特征进行解码,得到所述目标语音的目标预测结果;

35、根据所述目标预测结果确定目标文本。

36、本说明书提供的一种语音识别的装置,所述装置包括:

37、获取模块,用于获取样本文本;

38、输入模块,用于将所述样本文本输入待训练的双向语言模型,所述双向语言模型至少包括前向预测子网、后向预测子网、融合子网;

39、输出模块,用于通过所述前向预测子网根据所述样本文本得到前向预测结果,并通过所述后向预测子网根据所述样本文本得到后向预测结果;

40、融合模块,用于通过所述融合子网对所述前向预测结果和所述后向预测结果进行融合,得到双向预测结果;

41、训练模块,用于根据所述双向预测结果和所述样本文本之间的差异,对所述双向语言模型进行训练;

42、迁移模块,用于采用所述双向语言模型对语音识别模型进行知识迁移;

43、识别模块,用于采用知识迁移后的语音识别模型进行语音识别。

44、本说明书提供了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述语音识别方法。

45、本说明书提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述语音识别方法。

46、本说明书采用的上述至少一个技术方案能够达到以下有益效果:

47、在本说明书提供的语音识别方法中,获取样本文本;将所述样本文本输入待训练的双向语言模型,所述双向语言模型至少包括前向预测子网、后向预测子网、融合子网;通过所述前向预测子网根据所述样本文本得到前向预测结果,并通过所述后向预测子网根据所述样本文本得到后向预测结果;通过所述融合子网对所述前向预测结果和所述后向预测结果进行融合,得到双向预测结果;根据所述双向预测结果和所述样本文本之间的差异,对所述双向语言模型进行训练;采用所述双向语言模型对语音识别模型进行知识迁移;采用知识迁移后的语音识别模型进行语音识别。

48、在采用本说明书提供的语音识别方法进行语音数据到文本数据的转换时,可预先训练具有双向预测能力的双向语言模型,通过老师-学生模型的思想将双向语言模型同时结合上下文进行预测的能力迁移到语音识别模型上,并最终采用语音识别模型实现语音识别。采用本方法可在语音识别时同时结合语音数据的上下文生成预测文本中的各字,大幅提高了语音识别时对语音的理解能力与预测的准确率;同时,采用知识迁移的方式使预测过程中无需处理过多的数据,保证了语音识别的效率。

技术特征:

1.一种语音识别方法,其特征在于,包括:

2.如权利要求1所述的方法,其特征在于,通过所述前向预测子网根据所述样本文本得到前向预测结果,具体包括:

3.如权利要求1所述的方法,其特征在于,通过所述后向预测子网根据所述样本文本得到后向预测结果,具体包括:

4.如权利要求1所述的方法,其特征在于,所述语音识别模型至少包括编码子网、解码子网;

5.如权利要求4所述的方法,其特征在于,所述双向预测结果和所述待优化预测结果均用于表征预测出的文本中各字的概率分布;

6.如权利要求4所述的方法,其特征在于,所述前向预测子网、所述后向预测子网、所述编码子网、所述解码子网为基于transformer模型构建的子网。

7.如权利要求4所述的方法,其特征在于,采用知识迁移后的语音识别模型进行语音识别,具体包括:

8.一种语音识别装置,其特征在于,包括:

9.一种计算机可读存储介质,其特征在于,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述权利要求1~7任一项所述的方法。

10.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现上述权利要求1~7任一项所述的方法。

技术总结本说明书公开了一种语音识别方法、装置、存储介质及电子设备。在本说明书提供的语音识别方法中,获取样本文本;将所述样本文本输入待训练的双向语言模型,所述双向语言模型至少包括前向预测子网、后向预测子网、融合子网;通过所述前向预测子网根据所述样本文本得到前向预测结果,并通过所述后向预测子网根据所述样本文本得到后向预测结果;通过所述融合子网对所述前向预测结果和所述后向预测结果进行融合,得到双向预测结果;根据所述双向预测结果和所述样本文本之间的差异,对所述双向语言模型进行训练;采用所述双向语言模型对语音识别模型进行知识迁移;采用知识迁移后的语音识别模型进行语音识别。技术研发人员:李海燕,俞再亮,易江燕,陶建华,白烨受保护的技术使用者:之江实验室技术研发日:技术公布日:2024/1/15

本文地址:https://www.jishuxx.com/zhuanli/20240618/20922.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。