技术新讯 > 乐器声学设备的制造及制作,分析技术 > 语音识别方法、装置、电子设备及存储介质与流程  >  正文

语音识别方法、装置、电子设备及存储介质与流程

  • 国知局
  • 2024-06-21 10:38:39

本公开涉及计算机,具体涉及语音识别方法、装置、电子设备及存储介质。

背景技术:

1、端到端模型在语音识别(automatic speech recognition,简称为asr)领域的广泛应用和取得的显著改进,在词汇表中包含子词单元,因此端到端模型很难识别罕见词,这是由于它们经常被分解为不常见的子词序列。其中,罕见词包括出现频率较低的词或在某些领域中具有特定含义的词等等。基于此,为了提高语音识别的准确性,就需要提高对罕见词的识别性能。

技术实现思路

1、有鉴于此,本公开提供了一种语音识别方法、装置、电子设备及存储介质,以解决由于罕见词的存在所导致的语音识别准确性的问题。

2、第一方面,本公开提供了一种语音识别方法,所述方法包括:

3、获取待识别语音以及预设词表;

4、将所述待识别语音输入目标语音识别模型的基础模型,并将所述预设词表输入所述目标语音识别模型的偏置模块中,得到语音识别结果,所述偏置模块用于基于所述预设词表得到目标偏置向量,所述目标偏置向量用于与所述基础模型中目标单元输出的目标隐藏状态向量进行融合得到目标融合结果,所述基础模型的输出层用于基于所述目标融合结果得到所述语音识别结果。

5、第二方面,本公开提供了一种语音识别装置,所述装置包括:

6、待识别语音获取模块,用于获取待识别语音以及预设词表;

7、语音识别模块,用于将所述待识别语音输入目标语音识别模型的基础模型,并将所述预设词表输入所述目标语音识别模型的偏置模块中,得到语音识别结果,所述偏置模块用于基于所述预设词表得到目标偏置向量,所述目标偏置向量用于与所述基础模型中目标单元输出的目标隐藏状态向量进行融合得到目标融合结果,所述基础模型的输出层用于基于所述目标融合结果得到所述语音识别结果。

8、第三方面,本公开提供了一种电子设备,包括:存储器和处理器,存储器和处理器之间互相通信连接,存储器中存储有计算机指令,处理器通过执行计算机指令,从而执行上述第一方面或其对应的任一实施方式的语音识别方法。

9、第四方面,本公开提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机指令,计算机指令用于使计算机执行上述第一方面或其对应的任一实施方式的语音识别方法。

10、本公开提供的语音识别方法,预设词表用于表示稀有词的词表,在语音识别过程中,利用预设词表所得到的目标偏置向量与目标语音识别模型的基础模型中目标单元输出的目标隐藏状态向量的融合,再将融合结果作用于基础模型的输出,提升了稀有词的识别效果,即,对于稀有词,改善其识别效果可以提高语音识别的准确率,减少误识别的情况。

技术特征:

1.一种语音识别方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述目标语音识别模型的训练方法包括:

3.根据权利要求2所述的方法,其特征在于,所述语音识别模型的基础模型包括预测单元、音频单元、融合单元以及输出层,所述预测单元的输入包括所述样本文本,所述音频单元的输入包括所述样本音频,所述融合单元用于将所述预测单元的输出与所述音频单元的输出进行融合,所述输出层用于基于所述融合结果输出所述预测结果;

4.根据权利要求3所述的方法,其特征在于,若所述语音识别模型的基础模型中目标单元为所述预测单元,所述预测单元包括顺次连接的词嵌入子单元以及预测子单元,所述预测隐藏状态向量的确定方式包括:

5.根据权利要求4所述的方法,其特征在于,所述将所述融合后的偏置向量与所述语音识别模型的基础模型中目标单元的输出进行融合,得到融合结果,并基于所述融合结果以及所述语音识别模型的基础模型中其余单元的输出,从所述语音识别模型的基础模型输出预测结果,包括:

6.根据权利要求3所述的方法,其特征在于,若所述语音识别模型的基础模型中目标单元为所述音频单元,所述预测隐藏状态向量为所述音频单元的输出,所述将所述融合后的偏置向量与所述语音识别模型的基础模型中目标单元的输出进行融合,得到融合结果,并基于所述融合结果以及所述语音识别模型的基础模型中其余单元的输出,从所述语音识别模型的基础模型输出预测结果,包括:

7.根据权利要求2所述的方法,其特征在于,所述语音识别模型的偏置模块包括编码单元,所述编码单元包括文本编码子单元、音素编码子单元以及融合子单元,所述将所述目标文本输入所述语音识别模型的偏置模块中进行编码得到偏置向量,包括:

8.根据权利要求7所述的方法,其特征在于,所述语音识别模型的偏置模块还包括偏置层,所述将所述偏置向量与所述预测隐藏状态向量融合得到融合后的偏置向量,包括:

9.根据权利要求2所述的方法,其特征在于,所述语音识别模型的基础模型为预训练得到的模型,所述对所述语音识别模型的参数进行更新确定所述目标语音识别模型,包括:

10.根据权利要求3所述的方法,其特征在于,所述音频单元包括音频编码子单元以及共享编码子单元,所述预测单元以及所述音频单元的输出的确定方式,包括:

11.一种语音识别装置,其特征在于,所述装置包括:

12.一种电子设备,其特征在于,包括:

13.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机指令,所述计算机指令用于使计算机执行权利要求1至10中任一项所述的语音识别方法。

技术总结本公开涉及计算机技术领域,公开了语音识别方法、装置、电子设备及存储介质,本公开提供的方法包括获取待识别语音以及预设词表;将待识别语音输入目标语音识别模型的基础模型,并将预设词表输入目标语音识别模型的偏置模块中,得到语音识别结果,偏置模块用于基于预设词表得到目标偏置向量,目标偏置向量用于与基础模型中目标单元输出的目标隐藏状态向量进行融合得到目标融合结果,基础模型的输出层用于基于目标融合结果得到语音识别结果。该方法提升了稀有词的识别效果,即,对于稀有词,改善其识别效果可以提高语音识别的准确率,减少误识别的情况。技术研发人员:邱瑾,黄露,李博宇,张骏,卢璐,马泽君受保护的技术使用者:北京有竹居网络技术有限公司技术研发日:技术公布日:2024/1/15

本文地址:https://www.jishuxx.com/zhuanli/20240618/20890.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。