技术新讯 > 乐器声学设备的制造及制作,分析技术 > 基于CTC的端到端语音识别模型及解码方法、电子设备与流程  >  正文

基于CTC的端到端语音识别模型及解码方法、电子设备与流程

  • 国知局
  • 2024-06-21 11:54:02

本发明涉及语音识别,具体而言,涉及一种基于ctc的端到端语音识别模型及解码方法、电子设备。

背景技术:

1、在实时消音系统中,当话者在说话时,语音识别系统需要实时识别语音内容。除了基本的识别准确率要求以外,在实际应用场景中,还会关注实时率和识别速度的稳定性。

2、目前,wenet框架下的u2模型作为一种语音识别模型已经得到广泛应用,加权有限状态转换器(weighted finite state transducer,wfst)的束搜索(beam search)算法是u2模型使用的一种流式解码算法,相比ctc解码器的前缀解码算法,它可以引入额外的语言模型,通常可以得到更好的识别结果。在使用wfst beam search时,wenet采用的解码器是基于kaldi系统中的lattice-faster-online-decoder解码器,结合适配ctc解码器输出的跳帧机制能加速解码速度。但是,lattice-faster-online-decoder解码器中的剪枝算法与采用隐马尔可夫模型建模的kaldi系统会更加匹配,对于u2模型这种基于ctc的模型来说,直接使用这种剪枝算法需要相对繁琐的剪枝配置,识别结果的错误率较高,并且在对陌生语音内容解码时,解码速度和稳定性均不能满足要求。

3、因此,在wenet框架下使用wfst beam search进行解码时,如何降低删除错误,提高识别率,同时保证对不同音频内容解码识别的实时性和速度稳定性,是需要解决的技术问题。

技术实现思路

1、本发明的目的之一在于提供一种基于ctc的端到端语音识别模型及解码方法、电子设备,其能够在wenet框架下使用wfst beam search解码时,降低删除错误,提高识别率,同时保证对不同音频内容解码识别的实时性和速度稳定性。本发明的可以这样实现:

2、第一方面,本发明提供一种基于ctc的端到端语音识别模型解码方法,所述方法包括:利用基于ctc的端到端语音识别模型对待识别语音每个时间步的语音数据进行识别,获得每个时间步下各个token对应的概率;根据每个所述时间步对应的剪枝宽度、所述各个token对应的概率以及预先构建的解码图进行基于加权有限状态转换器的束搜索wfstbeam search,得到每个所述时间步对应的搜索结果;根据每个所述时间步对应的所述搜索结果,确定所述时间步的下一个时间步对应的剪枝宽度;基于最后一个所述时间步的所述搜索结果确定所述待识别语音的解码结果。

3、第二方面,本发明提供一种基于ctc的端到端语音识别模型,包括:获取模块、搜索模块更新模块和确定模块;所述获取模块,用于:利用基于ctc的端到端语音识别模型对待识别语音每个时间步的语音数据进行识别,获得每个时间步下各个token对应的概率;所述搜索模块,用于根据每个所述时间步对应的多个所述token和剪枝宽度、所述各个token对应的概率以及预先构建的解码图进行基于加权有限状态转换器的束搜索wfst beamsearch,得到每个所述时间步对应的搜索结果;所述更新模块,用于根据每个所述时间步对应的所述搜索结果,确定所述时间步的下一个时间步对应的剪枝宽度;所述确定模块,用于基于最后一个所述时间步的所述搜索结果确定所述待识别语音的解码结果。

4、第三方面,本发明提供一种电子设备,包括:存储器,用于存储计算机程序;处理器,用于执行所述计算机程序以实现如前述实施方式任一项所述的基于ctc的端到端语音识别模型解码方法。

5、本发明提供的基于ctc的端到端语音识别模型及解码方法、电子设备,方法包括:先利用基于ctc的端到端语音识别模型对待识别语音每个时间步的语音数据进行识别,获得每个时间步下各个token对应的概率,为后续的解码过程提供基础。利用wfst beamsearch方式能够在搜索过程中限制候选路径的数量。通过使用剪枝宽度,可以减少搜索空间,提高解码的效率。根据每个时间步的搜索结果,确定下一个时间步的剪枝宽度,这种动态调整可以根据实际的解码情况,自适应地调整搜索空间的大小,在保证解码质量的前提下,保证解码速度的稳定性,通过在搜索过程中收集每个时间步的搜索结果,并在最后一个时间步进行决策,可以获得准确的解码结果,通过上述方案,可以实现识别系统在保证解码准确性的基础上,兼顾解码速度及其稳定性。

技术特征:

1.一种基于ctc的端到端语音识别模型解码方法,其特征在于,所述方法包括:

2.根据权利要求1所述的基于ctc的端到端语音识别模型解码方法,其特征在于,根据每个所述时间步对应的剪枝宽度、所述各个token对应的概率以及预先构建的解码图进行基于加权有限状态转换器的束搜索wfst beam search,得到每个所述时间步对应的搜索结果,包括:

3.根据权利要求1所述的基于ctc的端到端语音识别模型解码方法,其特征在于,根据每个所述时间步对应的所述搜索结果,确定所述时间步的下一个时间步对应的剪枝宽度,包括:

4.根据权利要求2所述的基于ctc的端到端语音识别模型解码方法,其特征在于,针对每个所述时间步,利用所述时间步对应的剪枝宽度、各个所述token的所述概率对全部所述token进行剪枝处理,得到目标token,包括:

5.根据权利要求2所述的基于ctc的端到端语音识别模型解码方法,其特征在于,基于所述目标token以及所述解码图对所述时间步的候选词序列进行路径扩展,得到所述搜索结果,包括:

6.根据权利要求5所述的基于ctc的端到端语音识别模型解码方法,其特征在于,在确定出位于所述解码图中的所述目标token之后,所述方法还包括:

7.根据权利要求5所述的基于ctc的端到端语音识别模型解码方法,其特征在于,在根据每个所述时间步对应的剪枝宽度、所述各个token对应的概率以及预先构建的解码图进行基于加权有限状态转换器的束搜索wfst beam search,得到每个所述时间步对应的搜索结果之前,所述方法还包括:

8.一种基于ctc的端到端语音识别模型,其特征在于,包括:获取模块、搜索模块、更新模块和确定模块;

9.根据权利要求8所述的基于ctc的端到端语音识别模型,其特征在于,所述搜索模块,具体用于:

10.一种电子设备,其特征在于,包括:存储器,用于存储计算机程序;处理器,用于执行所述计算机程序以实现如权利要求1至7任一项所述的基于ctc的端到端语音识别模型解码方法。

技术总结本发明提供的基于CTC的端到端语音识别模型及解码方法、电子设备,方法包括:利用基于CTC的端到端语音识别模型对待识别语音每个时间步的语音数据进行识别,获得每个时间步下各个Token对应的概率;根据每个时间步对应的剪枝宽度、各个Token对应的概率以及预先构建的解码图进行基于加权有限状态转换器的束搜索Wfst Beam Search,得到每个时间步对应的搜索结果,根据每个时间步对应的搜索结果,确定时间步的下一个时间步对应的剪枝宽度;基于最后一个时间步的搜索结果确定待识别语音的解码结果。本发明可以根据实际的解码情况自适应地动态调整剪枝宽度,可以在保证解码准确性的基础上,兼顾解码速度及其稳定性。技术研发人员:陈凯斌受保护的技术使用者:广州虎牙科技有限公司技术研发日:技术公布日:2024/5/29

本文地址:https://www.jishuxx.com/zhuanli/20240618/24358.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。