技术新讯 > 乐器声学设备的制造及制作,分析技术 > 语音识别模型生成方法、语音识别方法、设备和介质与流程  >  正文

语音识别模型生成方法、语音识别方法、设备和介质与流程

  • 国知局
  • 2024-06-21 11:32:49

本公开的实施例涉及语音识别,具体涉及语音识别模型生成方法、语音识别方法、设备和介质。

背景技术:

1、语音识别技术通过计算机把语音信号转写为相应的文本或命令。随着模式识别与自然语言理解领域的发展,语音识别及语音评测技术的研究和应用领域越来越广泛。目前,通常采用的语音识别方式为:采用编码-解码(encoder-decoder)网络架构的conformer语音识别模型,以语音信号的波形作为输入,通过一系列的深度学习层将语音信号转换成相应的文本或命令。

2、然而,当采用上述语音识别方式时,经常会存在如下技术问题:

3、conformer语音识别模型依赖于训练数据集的分布,对于一些长尾分布的热词(例如人名、地名、专业术语等)时,识别准确率或召回率较低,识别效果较差。

4、该背景技术部分中所公开的以上信息仅用于增强对本发明构思的背景的理解,并因此,其可包含并不形成本国的本领域普通技术人员已知的现有技术的信息。

技术实现思路

1、本公开的内容部分用于以简要的形式介绍构思,这些构思将在后面的具体实施方式部分被详细描述。本公开的内容部分并不旨在标识要求保护的技术方案的关键特征或必要特征,也不旨在用于限制所要求的保护的技术方案的范围。

2、本公开的一些实施例提出了语音识别模型生成方法、语音识别方法、语音识别设备和计算机可读介质,来解决以上背景技术部分提到的技术问题。

3、第一方面,本公开的一些实施例提供了一种语音识别模型生成方法,该方法包括:通过初始模型包括的初始音频编码子模型对样本音频信息进行编码处理,得到音频编码信息;通过初始模型包括的初始关键文本子模型对至少一个关键文本信息中的各个关键文本信息进行特征提取处理,得到至少一个关键文本特征信息,其中,关键文本信息是根据样本音频信息对应的样本文本信息生成的;通过初始模型包括的初始融合解码子模型对音频编码信息和至少一个关键文本特征信息进行融合解码处理,得到文本信息;根据对应样本音频信息的样本文本信息和得到的文本信息,确定初始模型是否训练完成;响应于确定初始模型训练完成,将初始模型确定为语音识别模型。

4、第二方面,本公开的一些实施例提供了一种语音识别方法,方法包括:获取待识别音频信息;根据所述待识别音频信息、关键词信息和语音识别模型,生成所述待识别音频信息对应的识别文本信息,其中,所述语音识别模型是根据第一方面任一实现方式生成的。

5、第三方面,本公开的一些实施例提供了一种语音识别设备,包括:一个或多个处理器;存储装置,其上存储有一个或多个程序,音频采集设备,用于采集待识别音频信息;显示设备,用于显示待识别音频信息对应的识别文本信息;当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现上述第一方面任一实现方式所描述的方法。

6、第四方面,本公开的一些实施例提供了一种计算机可读介质,其上存储有计算机程序,其中,程序被处理器执行时实现上述第一方面任一实现方式所描述的方法。

7、本公开的上述各个实施例具有如下有益效果:通过本公开的一些实施例的语音识别模型生成方法得到的语音识别模型可以提高识别准确率和召回率,进而提高识别效果。具体来说,造成识别效果较差的原因在于:conformer语音识别模型依赖于训练数据集的分布,对于一些长尾分布的热词(例如人名、地名、专业术语等)时,识别准确率或召回率较低。基于此,本公开的一些实施例的语音识别模型生成方法,首先,通过初始模型包括的初始音频编码子模型对样本音频信息进行编码处理,得到音频编码信息。由此,可以将原始的语音信号转换为数字表示,以便计算机能够对其进行处理和分析。其次,通过初始模型包括的初始关键文本子模型对至少一个关键文本信息中的各个关键文本信息进行特征提取处理,得到至少一个关键文本特征信息,其中,关键文本信息是根据样本音频信息对应的样本文本信息生成的。由此,可以提取样本文本信息中的关键词(例如人名、地名、专业术语等)的特征向量用于后续融合。然后,通过初始模型包括的初始融合解码子模型对音频编码信息和至少一个关键文本特征信息进行融合解码处理,得到文本信息,由此,在确定文本信息时除了音频特征还加入了关键词特征,从而可以提高特定词汇的识别准确率。之后,根据对应样本音频信息的样本文本信息和得到的文本信息,确定初始模型是否训练完成。由此,可以将得到的文本信息和样本文本信息进行比较,确定初始模型是否训练完成。最后,响应于确定初始模型训练完成,将初始模型确定为语音识别模型。由此,通过本公开的一些实施例的语音识别模型生成方法得到的语音识别模型在训练时融合了音频特征和样本文本信息对应的关键词特征,从而可以提高特定词汇的识别准确率,进而提高语音识别的准确率和召回率,提高识别效果。

技术特征:

1.一种语音识别模型生成方法,包括:

2.根据权利要求1所述的方法,其中,所述关键文本信息是通过以下步骤生成的:

3.根据权利要求2所述的方法,其中,所述关键文本生成模型是通过以下训练步骤生成的:

4.根据权利要求1所述的方法,其中,所述初始融合解码子模型包括特征融合层、组合层和解码层;以及

5.根据权利要求4所述的方法,其中,所述通过初始模型包括的初始音频编码子模型对样本音频信息进行编码处理,得到音频编码信息,包括:

6.根据权利要求5所述的方法,其中,所述通过特征融合层对音频编码信息和至少一个关键文本特征信息进行特征融合,得到融合特征信息,包括:

7.一种语音识别方法,其特征在于,包括:

8.根据权利要求7所述的方法,其中,所述根据所述待识别音频信息、关键词信息和语音识别模型,生成所述待识别音频信息对应的识别文本信息,包括:

9.一种语音识别设备,包括:

10.根据权利要求9所述的语音识别设备,其中,所述语音识别设备还包括输入装置,用于输入关键词信息。

11.一种计算机可读介质,其上存储有计算机程序,其中,所述计算机程序被处理器执行时实现如权利要求1-8中任一所述的方法。

技术总结本公开的实施例公开了语音识别模型生成方法、语音识别方法、设备和介质。该方法的一具体实施方式包括:通过初始音频编码子模型对样本音频信息进行编码处理,得到音频编码信息;通过初始关键文本子模型对各个关键文本信息进行特征提取处理,得到至少一个关键文本特征信息;通过初始融合解码子模型对音频编码信息和至少一个关键文本特征信息进行融合解码处理,得到文本信息;根据样本文本信息和文本信息,确定初始模型是否训练完成;响应于确定初始模型训练完成,将初始模型确定为语音识别模型。通过本公开的一些实施例的语音识别模型生成方法得到的语音识别模型可以提高特定词汇的识别准确率,进而提高语音识别的准确率和召回率,提高识别效果。技术研发人员:徐银海,刘益帆,丁丹,赵明洲受保护的技术使用者:北京安声科技有限公司技术研发日:技术公布日:2024/3/5

本文地址:https://www.jishuxx.com/zhuanli/20240618/22150.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。