技术新讯 > 乐器声学设备的制造及制作,分析技术 > 基于注意力机制的语音识别方法、装置、电子设备及介质与流程 > 正文

基于注意力机制的语音识别方法、装置、电子设备及介质与流程

国知局
2024-06-21 11:55:35

本申请中涉及语音处理技术，尤其是一种基于注意力机制的语音识别方法、装置、电子设备及介质。

背景技术：

1、语音识别的目的为将音频转化为可读文字，在人机交互，智能听写，字幕生成等众多领域内有着广泛的需求。

2、相关技术中，一个优秀的语音识别系统应当拥有部署简单、高准确率、高响应速度等特性。传统方法将语音识别任务分为声学，发音，语言逻辑三种任务进行学习，存在训练部署复杂，数据标记困难等问题。其中，随着深度学习的发展，语音模型得以将输入音频直接输出为对应文本，代表性的模型框架有rnn，cnn，transformer，conformer等。

3、然而，随着现有的语音识别模型的内部结构通常较为复杂，这也导致虽然能够提升语音识别的准确率，但是其处理效率也随之降低，难以满足实时响应的需求。

技术实现思路

1、本申请实施例提供一种基于注意力机制的语音识别方法、装置、电子设备及介质。用以解决相关技术中存在的，现有的语音识别模型的语音识别效率较低的问题。

2、其中，根据本申请实施例的一个方面，提供的一种基于注意力机制的语音识别方法，其中：

3、获取待识别语音数据；

4、将所述待识别语音数据输入至预训练完毕的注意力语音识别模型中，得到语音识别结果，其中所述注意力语音识别模型部署有门控注意力模块，所述门控注意力模块由多个门控注意力块所组成。

5、可选地，在基于本申请上述方法的另一个实施例中，所述门控注意力模块为单头注意力机制的模块；以及，

6、所述门控注意力模块利用比例偏移操作代替全连接层。

7、可选地，在基于本申请上述方法的另一个实施例中，通过如下公式构建所述门控注意力块：

8、ql,kl＝scaleoffsetq(xl),scaleoffsetk(xl)；

9、ul,vl＝denseu(xl),densev(xl)；

10、

11、

12、

13、

14、其中，scaleoffset(·)＝α·x+b为比例偏移操作,dense为全连接层，rope(·)为旋转位置编码，⊙代表逐元素乘法，q,代表query，k代表key，u代表gate，v代表value，a代表所述门控注意力块的注意力权重。

15、可选地，在基于本申请上述方法的另一个实施例中，在所述获取待识别语音数据之后，还包括：

16、将所述待识别语音数据进行梅尔倒谱系数mfcc预处理，得到多维语音特征；

17、通过时间维度掩码和频率维度掩码，对所述多维语音特征进行掩码操作，得到噪声数据；

18、将第一数量的所述多维语音特征与第二数量的所述噪声数据共同输入至所述注意力语音识别模型。

19、可选地，在基于本申请上述方法的另一个实施例中，在所述将所述待识别语音数据输入至预训练完毕的注意力语音识别模型之后，还包括：

20、利用所述注意力语音识别模型的预测层，将所述待识别语音数据的语音特征映射到词表分布，得到中文词表；

21、将所述中文词表转换为unicode词表；

22、利用所述注意力语音识别模型的ctc层识别所述unicode词表，得到所述语音识别结果。

23、可选地，在基于本申请上述方法的另一个实施例中，在所述获取待识别语音数据之前，还包括：

24、获取初始的注意力语音识别模型，并对所述初始注意力语音识别模型进行随机深度训练，直至得到所述预训练完毕的注意力语音识别模型；

25、其中，通过如下公式进行随机深度训练：

26、

27、其中，bl为第l层伯努利分布值，为伯努利分布概率，l为所述初始注意力语音识别模型的模型深度，bl在pl的概率下为1，在1-pl的概率下为0，fl(·)为第l层的门控注意力块。

28、可选地，在基于本申请上述方法的另一个实施例中，所述对所述初始注意力语音识别模型进行随机深度训练，包括：

29、利用预设损失函数对所述初始注意力语音识别模型进行随机深度训练；

30、其中，所述预设损失函数为：

31、

32、其中，所述σ为超参数。

33、其中，根据本申请实施例的又一个方面，提供的一种基于注意力机制的语音识别装置，其中：

34、获取模块，被配置为获取待识别语音数据；

35、识别模块，被配置为将所述待识别语音数据输入至预训练完毕的注意力语音识别模型中，得到语音识别结果，其中所述注意力语音识别模型部署有门控注意力模块，所述门控注意力模块由多个门控注意力块所组成。

36、根据本申请实施例的又一个方面，提供的一种电子设备，包括：

37、存储器，用于存储可执行指令；以及

38、显示器，用于与所述存储器以执行所述可执行指令从而完成上述任一所述基于注意力机制的语音识别方法的操作。

39、根据本申请实施例的还一个方面，提供的一种计算机可读存储介质，用于存储计算机可读取的指令，所述指令被执行时执行上述任一所述基于注意力机制的语音识别方法的操作。

40、本申请中，可以获取待识别语音数据；将待识别语音数据输入至预训练完毕的注意力语音识别模型中，得到语音识别结果，其中注意力语音识别模型部署有门控注意力模块，门控注意力模块由多个门控注意力块所组成。通过应用本申请的技术方案，能够实现一种利用门控注意力机制模块以及作为字符解码器的ctc层而部署得到的语音识别模型来对语音数据进行识别的技术方案。由于门控注意力机制仅需提供简单的上下文信息和位置信息即可进行识别，因此一方面可以保证语音识别系统的准确性，另一方面还能够减少识别结果的等待时间。

41、下面通过附图和实施例，对本申请的技术方案做进一步的详细描述。

技术特征：

1.一种基于注意力机制的语音识别方法，其特征在于，其中：

2.如权利要求1所述的方法，其特征在于，所述门控注意力模块为单头注意力机制的模块；以及，利用比例偏移操作代替全连接层。

3.如权利要求1或2所述的方法，其特征在于，通过如下公式构建所述门控注意力块：

4.如权利要求1所述的方法，其特征在于，在所述获取待识别语音数据之后，还包括：

5.如权利要求1所述的方法，其特征在于，在所述将所述待识别语音数据输入至预训练完毕的注意力语音识别模型之后，还包括：

6.如权利要求1所述的方法，其特征在于，在所述获取待识别语音数据之前，还包括：

7.如权利要求6所述的方法，其特征在于，所述对所述初始注意力语音识别模型进行随机深度训练，包括：

8.一种基于注意力机制的语音识别装置，其特征在于，其中：

9.一种电子设备，其特征在于，包括：

10.一种计算机可读存储介质，用于存储计算机可读取的指令，其特征在于，所述指令被执行时执行权利要求1-7中任一所述基于注意力机制的语音识别方法的操作。

技术总结本申请公开了一种基于注意力机制的语音识别方法、装置、电子设备及介质。本申请可以获取待识别语音数据；将待识别语音数据输入至预训练完毕的注意力语音识别模型中，得到语音识别结果，其中注意力语音识别模型部署有门控注意力模块，门控注意力模块由多个门控注意力块所组成。通过应用本申请的技术方案，能够实现一种利用门控注意力机制模块以及作为字符解码器的CTC层而部署得到的语音识别模型来对语音数据进行识别的技术方案。由于门控注意力机制仅需提供简单的上下文信息和位置信息即可进行识别，因此一方面可以保证语音识别系统的准确性，另一方面还能够减少识别结果的等待时间。技术研发人员：潘帅,张伟,陈曦,麻志毅受保护的技术使用者：杭州未名信科科技有限公司技术研发日：技术公布日：2024/6/2