一种语音识别方法和相关装置与流程
- 国知局
- 2024-06-21 11:41:04
本申请涉及语音识别,特别是涉及一种语音识别方法和相关装置。
背景技术:
1、现今基于注意力机制的transformer结构及其变体已经被广泛应用于端到端语音识别系统,如las(listen attend-and-spell)、transformer-transducer、rnn-t(recurrent neural network transducer)、conformer等,这些模型架构均使用了注意力机制试图提高模型识别准确度。但是,在实际应用场景中,待识别的语音往往来自于不同领域,如音乐、视频、导航等,基于多领域的语音训练出的语音识别模型存在准确度低的问题,亟待解决。
技术实现思路
1、有鉴于此,本申请提供了一种语音识别方法和相关装置,用于解决现有技术存在的语音识别模型存在语音识别准确度低的问题,其技术方案如下:
2、第一方面,提供了一种语音识别方法,包括:
3、获取待识别语音特征向量;
4、通过预训练的语音识别模型中的编码器对待识别语音特征向量进行编码,得到编码特征向量,其中,编码器包括多个编码层,任一个编码层基于多头注意力机制进行编码,且编码过程会对多个注意力头的权重进行修正,使得具有正向激励作用的注意力头的修正后权重大于具有负向激励作用的注意力头的修正后权重;
5、通过语音识别模型中的解码器对编码特征向量进行解码,得到待识别语音特征向量对应的语音识别结果。
6、第二方面,提供了一种语音识别装置,其特征在于,包括:
7、特征向量获取单元,用于获取待识别语音特征向量;
8、编码单元,用于通过预训练的语音识别模型中的编码器对待识别语音特征向量进行编码,得到编码特征向量,其中,编码器包括多个编码层,任一个编码层基于多头注意力机制进行编码,且编码过程会对多个注意力头的权重进行修正,使得具有正向激励作用的注意力头的修正后权重大于具有负向激励作用的注意力头的修正后权重;
9、解码单元,用于通过语音识别模型中的解码器对编码特征向量进行解码,得到待识别语音特征向量对应的语音识别结果。
10、第三方面,提供了一种电子设备,包括存储器和处理器;
11、存储器,用于存储程序;
12、处理器,用于执行程序,实现如上述任一项的语音识别方法的各个步骤。
13、第四方面,提供了一种可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时,实现如上述任一项的语音识别方法的各个步骤。
14、经由上述的技术方案可知,本申请提供的语音识别方法,通过预训练的语音识别模型中的编码器对待识别语音特征向量进行编码,得到编码特征向量,通过语音识别模型中的解码器对编码特征向量进行解码,得到待识别语音特征向量对应的语音识别结果。由此可见,无论待识别语音特征向量来自哪个领域,本申请均会在对待识别语音特征向量进行编码的过程中对编码层中的多个注意力头的权重进行修正,以使得具有正向激励作用的注意力头的修正后权重大于具有负向激励作用的注意力头的修正后权重,由此可以削弱具有负向激励作用的注意力头在编码过程中的负向激励作用,并提高具有正向激励作用的注意力头在编码过程中的正向激励作用,因此基于各个注意力头的修正后权重进行编码,使得到的编码特征向量更准确,提高了语音识别的准确度。
技术特征:1.一种语音识别方法,其特征在于,包括:
2.根据权利要求1所述的语音识别方法,其特征在于,所述任一个所述编码层基于多头注意力机制进行编码,包括:
3.根据权利要求2所述的语音识别方法,其特征在于,所述根据所述第一特征向量得到所述编码层中的参考注意力头对每个注意力头的修正系数,包括:
4.根据权利要求3所述的语音识别方法,其特征在于,所述根据所述参考注意力头对应的查询向量和该注意力头对应的键值对中的键,得到所述参考注意力头对该注意力头的修正系数,包括:
5.根据权利要求4所述的语音识别方法,其特征在于,所述计算所述参考注意力头对应的查询向量与该注意力头对应的键值对中的键的相似度,包括:
6.根据权利要求4所述的语音识别方法,其特征在于,所述根据所述参考注意力头与该注意力头的相似度,计算所述参考注意力头对该注意力头的修正系数,包括:
7.根据权利要求2所述的语音识别方法,其特征在于,所述根据所述每个注意力头的修正后权重,得到所述编码层输出的第二特征向量,包括:
8.一种语音识别装置,其特征在于,包括:
9.一种电子设备,其特征在于,包括存储器和处理器;
10.一种可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,实现如权利要求1~7任一项所述的语音识别方法的各个步骤。
技术总结本申请提供了一种语音识别、编码方法和相关装置,通过预训练的语音识别模型中的编码器对待识别语音特征向量进行编码,得到编码特征向量,通过语音识别模型中的解码器对编码特征向量进行解码,得到待识别语音特征向量对应的语音识别结果。由此可见,本申请会在对待识别语音特征向量进行编码的过程中对编码层中的多个注意力头的权重进行修正,以使得具有正向激励作用的注意力头的修正后权重大于具有负向激励作用的注意力头的修正后权重,由此可以削弱具有负向激励作用的注意力头在编码过程中的负向激励作用,因此基于各个注意力头的修正后权重进行编码,使得到的编码特征向量更准确,提高了语音识别的准确度。技术研发人员:唐晨君,吴重亮,李永超,吴明辉受保护的技术使用者:科大讯飞股份有限公司技术研发日:技术公布日:2024/3/31本文地址:https://www.jishuxx.com/zhuanli/20240618/22890.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。