技术新讯 > 乐器声学设备的制造及制作,分析技术 > 语音识别模型的训练方法、装置、电子设备及存储介质与流程  >  正文

语音识别模型的训练方法、装置、电子设备及存储介质与流程

  • 国知局
  • 2024-06-21 11:47:40

本公开涉及计算机,具体而言,涉及一种语音识别模型的训练方法、语音识别模型的训练装置、语音识别方法、语音识别装置、电子设备及存储介质。

背景技术:

1、随着人工智能与深度学习技术的快速发展,自动语音识别(automatic speechrecognition,asr)技术成为语音识别的主流方向。基于conformer的asr模型采用编码-解码(encoder-decoder)网络架构,采用音频全局特征建模与局部特征建模相结合,在多种asr任务中均被证明优于其他asr模型。

2、相关技术中,基于conformer的asr模型的语音识别性能非常依赖于训练数据集的分布。因此,识别一些长尾分布的热词(也称为关键词)时,例如人名、地名、商品名等,准确率或召回率较低,识别效果较差。

3、需要说明的是,在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

技术实现思路

1、本公开实施例提供一种语音识别模型的训练方法、语音识别模型的训练装置、语音识别方法、语音识别装置、电子设备及存储介质,该训练方法提高了语音识别模型对关键词的识别能力。

2、本公开的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本公开的实践而习得。

3、本公开实施例提供一种语音识别模型的训练方法,包括:获取训练音频数据;对所述训练音频数据进行编码处理,得到第一特征数据;通过初始关键文本子模型对关键文本数据进行特征提取,得到第二特征数据,其中,所述关键文本数据包括根据所述训练音频数据对应的标注文本数据确定的文本数据;通过初始特征融合子模型对所述第一特征数据和所述第二特征数据进行特征融合,得到第三特征数据;对与所述第一特征数据和所述第三特征数据相对应的第四特征数据进行解码处理,得到所述训练音频数据对应的识别文本数据;基于所述识别文本数据和所述标注文本数据,训练所述初始关键文本子模型和所述初始特征融合子模型,以基于训练完成的关键文本子模型和训练完成的特征融合子模型得到所述语音识别模型。

4、在本公开一些示例性实施例中,所述基于所述识别文本数据和所述标注文本数据,训练所述初始关键文本子模型和所述初始特征融合子模型,包括:基于预设的损失函数,确定所述识别文本数据与所述标注文本数据对应的损失值;响应于所述损失值未满足预设的收敛条件,更新所述初始关键文本子模型的第一模型参数和所述初始特征融合子模型的第二模型参数。

5、在本公开一些示例性实施例中,所述关键文本数据是响应于与所述训练音频数据相对应的随机生成值小于预设概率值而按照预设节选窗口从所述标注文本数据中节选的第一关键文本数据。

6、在本公开一些示例性实施例中,所述关键文本数据是响应于与所述训练音频数据相对应的随机生成值不小于预设概率值而生成的由空字符组成的第二关键文本数据。

7、在本公开一些示例性实施例中,所述通过初始特征融合子模型对所述第一特征数据和所述第二特征数据进行特征融合,得到第三特征数据,包括:通过初始特征融合子模型,确定与所述第一特征数据和所述第二特征数据相对应的相似度数据;根据所述相似度数据和所述第二特征数据,确定所述第三特征数据。

8、本公开实施例提供一种语音识别方法,包括:获取待识别音频数据;将所述待识别音频数据输入至语音识别模型中,得到所述待识别音频数据对应的识别文本数据,其中,所述语音识别模型是根据上述任一种方法训练得到的。

9、本公开实施例提供一种语音识别模型的训练装置,包括:获取模块,用于获取训练音频数据;编码模块,用于对所述训练音频数据进行编码处理,得到第一特征数据;文本模块,用于通过初始关键文本子模型对关键文本数据进行特征提取,得到第二特征数据,其中,所述关键文本数据包括根据所述训练音频数据对应的标注文本数据确定的文本数据;融合模块,用于通过初始特征融合子模型对所述第一特征数据和所述第二特征数据进行特征融合,得到第三特征数据;解码模块,用于对与所述第一特征数据和所述第三特征数据相对应的第四特征数据进行解码处理,得到所述训练音频数据对应的识别文本数据;训练模块,用于基于所述识别文本数据和所述标注文本数据,训练所述初始关键文本子模型和所述初始特征融合子模型,以基于训练完成的关键文本子模型和训练完成的特征融合子模型得到所述语音识别模型。

10、本公开实施例提供一种语音识别装置,包括:获取模块,用于获取待识别音频数据;识别模块,用于将所述待识别音频数据输入至语音识别模型中,得到所述待识别音频数据对应的识别文本数据,其中,所述语音识别模型是根据上述任一种方法训练得到的。

11、本公开实施例提供一种电子设备,包括:至少一个处理器;存储装置,用于存储至少一个程序,当所述至少一个程序被所述至少一个处理器执行时,使得所述至少一个处理器实现如上述任一种语音识别模型的训练方法或者语音识别方法。

12、本公开实施例提供一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如上述任一种语音识别模型的训练方法或者语音识别方法。

13、本公开实施例提供的语音识别模型的训练方法,通过将关键文本子模型与声学模型编码网络进行融合,训练得到关键词增强的语音识别模型,解决了含有关键词的识别结果不在识别候选中的问题,能够提高对例如符合长尾分布的关键词的识别效果,且不会影响通用语音识别的性能,从而能够整体提升语音识别系统的用户体验。

14、应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。

技术特征:

1.一种语音识别模型的训练方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述基于所述识别文本数据和所述标注文本数据,训练所述初始关键文本子模型和所述初始特征融合子模型,包括:

3.根据权利要求1或2所述的方法,其特征在于,所述关键文本数据是响应于与所述训练音频数据相对应的随机生成值小于预设概率值而按照预设节选窗口从所述标注文本数据中节选的第一关键文本数据。

4.根据权利要求1或2所述的方法,其特征在于,所述关键文本数据是响应于与所述训练音频数据相对应的随机生成值不小于预设概率值而生成的由空字符组成的第二关键文本数据。

5.根据权利要求1或2所述的方法,其特征在于,所述通过初始特征融合子模型对所述第一特征数据和所述第二特征数据进行特征融合,得到第三特征数据,包括:通过初始特征融合子模型,

6.一种语音识别方法,其特征在于,包括:

7.一种语音识别模型的训练装置,其特征在于,包括:

8.一种语音识别装置,其特征在于,包括:

9.一种电子设备,其特征在于,包括:

10.一种计算机可读存储介质,其上存储有计算机可执行指令,其特征在于,所述可执行指令被处理器执行时实现如权利要求1至6中任一项所述的方法。

技术总结本公开提供了一种语音识别模型的训练方法和语音识别方法。该训练方法包括:获取训练音频数据;对训练音频数据进行编码处理,得到第一特征数据;通过初始关键文本子模型对关键文本数据进行特征提取,得到第二特征数据;通过初始特征融合子模型对第一特征数据和第二特征数据进行特征融合,得到第三特征数据;对与第一特征数据和第三特征数据相对应的第四特征数据进行解码处理,得到训练音频数据对应的识别文本数据;基于识别文本数据和标注文本数据,训练初始关键文本子模型和初始特征融合子模型,以基于训练完成的关键文本子模型和训练完成的特征融合子模型得到语音识别模型。通过该方法训练得到的语音识别模型能够提升对关键词的语音识别效果。技术研发人员:付立,范璐,吴友政,何晓冬受保护的技术使用者:京东城市(北京)数字科技有限公司技术研发日:技术公布日:2024/4/29

本文地址:https://www.jishuxx.com/zhuanli/20240618/23598.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。