基于注意力机制的CRNN网络在麦克风唤醒中应用方法
- 国知局
- 2024-06-21 11:32:48
本发明涉及语音识别,尤其涉及基于注意力机制的crnn网络在麦克风唤醒中应用方法。
背景技术:
1、语音识别是人机交互领域的一个热门话题,语音识别技术在现代社会的应用越来越广泛,其中包括大词汇量连续语音识别技术(large vocabulary continuous speechrecognition,lvcsr)和关键词识别(keyword spotting,kws)。
2、但是lvcsr需要高计算能力和大量存储空间,因此一般在云服务器上运行,不能在小型移动设备(如麦克风)上进行使用,而kws对计算能力的要求较小,可以在移动设备上实现,但识别效率不高,使得现有的语音识别技术不能实现在模型参数和运算量都大幅降低的情况下,同时又具有高识别率。
技术实现思路
1、有鉴于此,本发明的目的在于提出基于注意力机制的crnn网络在麦克风唤醒中应用方法,以解决现有的语音识别技术不能实现小体积高识别率的多分类kws系统问题。
2、基于上述目的,本发明提供了基于注意力机制的crnn网络在麦克风唤醒中应用方法,包括以下步骤:
3、s1、建立端到端神经网络模型,网络模型由卷积神经网络、循环神经网络和注意力机制构成;
4、s2、输入特征经过卷积神经网络后得到输出特征,再经过循环神经网络计算各个时间步的隐藏状态;
5、s3、注意力机制选择更可能包含关键词的语音部分,同时忽略不相关的部分,计算每一个输入位置与当前输出位置的关联性;
6、s4、通过线性变换和softmax函数生成概率分布,实现关键词的识别。
7、优选的,在s2中,先对输入特征进行处理,包括语音的特征选取和提取以及标签处理,处理步骤包括如下步骤:
8、s2.1采用hann进行stft,公式如下,
9、y(n)=x(n)w(n)
10、其中,n为第n个采样点,x(n)为缓存的语音信号,w(n)为hann窗系数取平方根;
11、s2.2、将进行dft变换到频域,公式如下,
12、
13、其中,k表示第k个频点,n为dft长度,e-j2π为复指数形式。
14、优选的,在s2.2中根据心理声学模型将频点划分成m个子带,定义一个有m个滤波器的滤波器组,采用的滤波器为三角滤波器,中心频率为b,三角滤波器的频率响应定义为:
15、
16、s2.3、求这个子带的能量倒谱s,公式如下;
17、
18、其中,ln(·)为自然对数;
19、s2.4、求出前6个子带倒谱的一阶差分和二阶差分,公式如下,
20、c1(m)=s(m+1)-s(m)
21、c2(m)=s(m+2)-2*s(m+1)+s(m)
22、其中,1≤m≤6,将s、c1、c2共30个特征值作为输入特征。
23、优选的,标签就是标注wav音频文件对应的内容,将关键词和其他语音进行分类,且按关键词持续时长进行分类。
24、优选的,在s2中,在循环神经网络中,我们使用了双向gru,通过该网络可以直接利用语音上下文信息。
25、优选的,在s3中,计算每一个输入位置与当前输出位置的关联性公式如下,
26、输入语音特征x=(x1,...,xt)中得出更高维度的特征表示h=(h1,...,ht);
27、et=vttnag(wht+b)
28、其中,w、v为学习到的权重,b为偏置参数;
29、注意力机制从特征表示中学习归一化的权重αt∈[0,1];
30、
31、其中,exp(·)表示取指数;然后,再通过attention对不同时间步的隐藏状态进行加权形成固定长度向量c;
32、
33、优选的,在s4中,生成概率分布的公式如下:
34、p(yi)=softmax(uc)
35、其中是线性变换,表示是否检测到第个关键词;
36、softmax,函数表达式如下;
37、
38、其中,v为输入向量,vj为v的第j个分量,σ(v)j为输出的第j个激活概率。
39、本发明的有益效果:本发明提供的基于注意力机制的crnn网络在麦克风唤醒中应用方法,通过建立端到端的神经网络模型,将语音特征表示为更高维度的特征表示,并使用注意力机制选择更可能包含关键词的语音部分,并通过线性变换和softmax函数生成概率分布,实现关键词的识别,实现了小体积、高识别率的多分类kws系统,并将其应用于麦克风唤醒控制中。
技术特征:1.基于注意力机制的crnn网络在麦克风唤醒中应用方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的基于注意力机制的crnn网络在麦克风唤醒中应用方法,其特征在于,在s2中,先对输入特征进行处理,包括语音的特征选取和提取以及标签处理,处理步骤包括如下步骤:
3.根据权利要求2所述的基于注意力机制的crnn网络在麦克风唤醒中应用方法,其特征在于,在s2.2中根据心理声学模型将频点划分成m个子带,定义一个有m个滤波器的滤波器组,采用的滤波器为三角滤波器,中心频率为b,三角滤波器的频率响应定义为:
4.根据权利要求2所述的基于注意力机制的crnn网络在麦克风唤醒中应用方法,其特征在于,标签就是标注wav音频文件对应的内容,将关键词和其他语音进行分类,且按关键词持续时长进行分类。
5.根据权利要求1所述的基于注意力机制的crnn网络在麦克风唤醒中应用方法,其特征在于,在s2中,在循环神经网络中,我们使用了双向gru,通过该网络可以直接利用语音上下文信息。
6.根据权利要求1所述的基于注意力机制的crnn网络在麦克风唤醒中应用方法,其特征在于,在s3中,计算每一个输入位置与当前输出位置的关联性公式如下,
7.根据权利要求1所述的基于注意力机制的crnn网络在麦克风唤醒中应用方法,其特征在于,在s4中,生成概率分布的公式如下:
技术总结本发明涉及语音识别技术领域,具体涉及基于注意力机制的CRNN网络在麦克风唤醒中应用方法,该方法包括,建立端到端神经网络模型,网络模型由卷积神经网络、循环神经网络和注意力机制构成,输入特征经过卷积神经网络后得到输出特征,再经过循环神经网络计算各个时间步的隐藏状态,注意力机制选择更可能包含关键词的语音部分。本发明通过建立端到端的神经网络模型,将语音特征表示为更高维度的特征表示,并使用注意力机制选择更可能包含关键词的语音部分,并通过线性变换和softmax函数生成概率分布,实现关键词的识别,实现了小体积、高识别率的多分类KWS系统,并将其应用于麦克风唤醒控制中。技术研发人员:李任梅,黄秋妍受保护的技术使用者:安徽信息工程学院技术研发日:技术公布日:2024/3/5本文地址:https://www.jishuxx.com/zhuanli/20240618/22147.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。
下一篇
返回列表