一种使用检索增强技术强化CTC解码的语音识别方法
- 国知局
- 2024-06-21 11:26:00
本发明属于语音识别,更具体地,涉及一种使用检索增强技术强化ctc解码的语音识别方法。
背景技术:
1、近年来,检索增强语言模型通过使用k近邻(knn)模型线性插值输出词分布来改进预训练语言模型,在自然语言处理(nlp)任务中取得了显著的成功,包括语言模型、问答和机器翻译。knn语言模型成功的核心是构建高质量的键值数据存储。尽管nlp任务取得了这些进步,但语音任务中的应用,特别是语音识别(asr),由于构建音频模态的细粒度数据存储相关较为困难,仍然受到限制。有人提出通过加入检索机制来为asr提供外部文本语料库的信息,增强asr系统的性能。然而,这种方法仍然属于knn语言模型的范畴,只是增强了rnn-t(recurrent neural network transducer)的文本模态。有研究人员采用语音合成技术生成音频,并使用音频嵌入和文本嵌入作为键值对构建数据存储,然后将knn融合层插入conformer以增强上下文asr。然而,这种方法仅限于上下文asr,并且键值对是粗粒度的,键和值都在短语级别。针对于基于连接时序分类(connectionist temporalclassification)解码的语音识别模型,如何构建细粒度帧级别键值数据存储以进一步提升性能,仍然是一个挑战。
技术实现思路
1、为了增强基于ctc解码的语音识别系统性能,本发明提出一种基于检索增强的提升ctc解码性能的语音识别方法。给定一个预训练后的ctc解码模型,首先利用数据经过特征编码器得到帧级别向量,然后以帧级别的向量与ctc伪标签形成键值对,构造细粒度键值数据存储。最后,在解码阶段通过检索帧级向量和对应的ctc伪标签得到检索增强预测的概率分布,对ctc解码结果进行线性插值,提升语音识别系统的性能。另外,本发明提出了一种跳过“空”的策略,以减小数据存储,并加速解码。
2、为实现上述目的,本发明提供了如下技术方案:
3、一种使用检索增强技术强化ctc解码的语音识别方法,包括以下步骤,
4、s101、预训练asr模型特征提取,将音频数据传入该asr模型特征编码器,提取该数据对应的帧级别中间特征表示;
5、s102、ctc解码预测概率分布,将步骤s101输出的中间特征表示输入到ctc解码器中,获取ctc解码器预测的帧级别概率分布;
6、s103、数据存储构造,即使用训练集数据来构建大量的特征向量与标签的键值对,并将其缓存,且在数据存储构建阶段,跳过伪标签为“空”字符的帧;
7、s104、数据存储检索,即在测试阶段检索最近邻的k个键值对,计算得到数据存储检索概率分布,且在数据存储检索阶段,对于伪标签为“空”的帧,无需进行检索和概率融合,直接以ctc预测的概率分布作为最终结果;
8、s105、概率融合,利用线性插值将数据存储检索得到的概率分布和预训练asr模型的ctc解码的概率分布融合,得到最终的概率分布p(y|x):
9、p(y|x)=λpknn(y|x)+(1-λ)pctc(y|x).
10、其中pknn为数据存储检索概率分布,pctc为ctc预测的概率分布,λ为超参数,平衡两个概率分布。
11、本技术方案进一步的优化,所述步骤s102,根据ctc解码的条件独立假设,利用该分布可以为提取出的每一帧中间特征标记字符伪标签,公式如下:
12、
13、其中,xn为输入的第n帧音频,yn为第n帧音频对应的文本标签,为预测的第n帧音频对应的伪标签,利用argmax与ctc输出的概率分布,可以将中间特征逐帧标记ctc伪标签。
14、本技术方案进一步的优化,所述步骤s103中使用ctc解码器预测的帧级别伪标签作为value,即值;通过将这一过程扩展到整个训练集,记为s,即可成功构建一个由帧级别键值对组成的数据存储,
15、
16、其中(k,v)是构造的键值对数据存储,s是整个训练集,f(xi)为输入的第i帧音频数据对应的中间特征,为第i帧的ctc伪标签。
17、本技术方案进一步的优化,所述步骤104中数据存储检索概率分布pknn公式如下:
18、
19、其中,x为音频,y为预测的文本,n为检索出的最近邻键值对集合,(ki,vi)代表检索出的第i个最近邻键值对,τ代表温度系数,d(.,.)代表l2距离,f(x)为音频x经编码器提取出的特征。
20、本技术方案进一步的优化,所述asr模型特征编码器为transformer编码器或conformer编码器。
21、区别于现有技术,上述技术方案有益效果是,应用本发明提出的语音识别方法,无需额外的训练即可进一步提升已完成训练的基于ctc解码的语音识别模型的性能。本发明还提出了一种跳过“空”的策略,以减小数据存储,并加速解码。另外,本发明同样可以用于快速域适应,仅需要构建无标签目标域数据的数据存储,即可提升语音识别系统在目标域上的性能。
技术特征:1.一种使用检索增强技术强化ctc解码的语音识别方法,其特征在于,包括以下步骤,
2.如权利要求1所述的使用检索增强技术强化ctc解码的语音识别方法,其特征在于,所述步骤s102,根据ctc解码的条件独立假设,利用该分布可以为提取出的每一帧中间特征标记字符伪标签,公式如下:
3.如权利要求1所述的使用检索增强技术强化ctc解码的语音识别方法,其特征在于,所述步骤s103中使用ctc解码器预测的帧级别伪标签作为value,即值;通过将这一过程扩展到整个训练集,记为s,即可成功构建一个由帧级别键值对组成的数据存储,
4.如权利要求1所述的使用检索增强技术强化ctc解码的语音识别方法,其特征在于,所述步骤104中数据存储检索概率分布pknn公式如下:
5.如权利要求1所述的使用检索增强技术强化ctc解码的语音识别方法,其特征在于,所述asr模型特征编码器为transformer编码器或conformer编码器。
技术总结本发明属于语音识别技术领域,更具体地,涉及一种使用检索增强技术强化CTC解码的语音识别方法。该方法给定一个预训练后的CTC解码模型,首先利用数据经过特征编码器得到帧级别向量,然后以帧级别的向量与CTC伪标签形成键值对,构造细粒度键值数据存储。最后,在解码阶段通过检索帧级向量和对应的CTC伪标签对CTC解码解决进行线性插值,提升语音识别系统的性能。技术研发人员:秦勇,周家名,赵石顽,王卉,王雪琛,贺佳贝受保护的技术使用者:南开大学技术研发日:技术公布日:2024/2/6本文地址:https://www.jishuxx.com/zhuanli/20240618/21492.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。