技术新讯 > 乐器声学设备的制造及制作,分析技术 > 一种语音识别方法、装置及存储介质与流程  >  正文

一种语音识别方法、装置及存储介质与流程

  • 国知局
  • 2024-12-26 16:14:34

本发明涉及语音识别,尤其涉及一种语音识别方法、装置及存储介质。

背景技术:

1、现有技术中通常采用两类神经网络进行组合,并将同一种神经网络进行多层叠加,结合注意力机制构建成混合声学模型。这种混合声学模型,尤其是以3层cnn(convolutional neural network,卷积神经网络)+13层tdnnf(factorized tdnn,因子分解的时延神经网络)+注意力机制为结构的基线声学模型,其神经网络在处理复杂数据时,由于隐藏层的固定长度限制了模型对丰富信息的捕获和表达,随着网络深度的增加,信息可能丢失或混淆,产生的误差会逐层累积,导致声学模型识别性能出现退化,进而降低语音识别结果的准确率。

技术实现思路

1、本发明提供一种语音识别方法、装置及存储介质,以解决现有技术中存在的问题,减少声学模型训练过程中产生的误差累积,提高语音识别结果的准确率。

2、为实现上述目的,本发明实施例提供了一种语音识别方法,包括:

3、获取分布在时间轴和频率轴上的二维数据特征,将所述二维数据特征输入到声学模型中进行多次特征提取和聚合,输出语音识别的序列结果;其中,所述声学模型由3层卷积神经网络连接8层因子分解的时延神经网络连接多头注意力机制连接2层卷积神经网络连接5层因子分解的时延神经网络连接多头注意力机制连接2层卷积神经网络连接输出层的结构组成,所述声学模型每一层的输出作为下一层的输入进行训练,直至输出层输出所述序列结果;

4、通过解码器将所述序列结果转换为文本数据,得到语音识别结果。

5、作为上述方案的改进,所述3层卷积神经网络连接8层因子分解的时延神经网络构成所述声学模型的第一特征提取单元,所述多头注意力机制连接2层卷积神经网络构成所述声学模型的特征聚合单元,所述5层因子分解的时延神经网络构成所述声学模型的第二特征提取单元;

6、所述第一特征提取单元对输入的所述二维数据特征进行特征提取,输出目标片段对应的语音特征序列到所述特征聚合单元;

7、所述特征聚合单元对输入的所述语音特征序列进行滤波和聚合,输出第一语音特征到所述第二特征提取单元;

8、所述第二特征提取单元对输入的所述语音特征进行参数学习,输出第二语音特征到所述特征聚合单元;

9、所述特征聚合单元对输入的第二语音特征进行滤波和聚合,输出第三语音特征到所述输出层;

10、所述输出层对输入的第三语音特征进行训练,输出语音识别的序列结果。

11、作为上述方案的改进,所述多头注意力机制的具体公式为:

12、multihead(q,k,v)=concat(head1,...,headi,...,headh)wo

13、其中,q表示查询向量,k表示键向量,v表示值向量,h表示头的数量,headi表示第i个头的输出,wo是输出变换矩阵。

14、作为上述方案的改进,所述多头注意力机制的每个头的输出,具体公式为:

15、

16、其中,q表示查询向量,k表示键向量,v表示值向量,wiq为第i个头的查询变换矩阵,为第i个头的键变换矩阵,为第i个头的值变换矩阵,attention()是注意力计算函数。

17、作为上述方案的改进,所述注意力计算函数,具体公式为:

18、

19、其中,q表示查询向量,k表示键向量,v表示值向量,dk是键向量的维度,softmax()为相似度归一化函数,用于计算每个键向量的权重,将所述权重乘以值向量后进行加权求和,得到注意力输出结果。

20、作为上述方案的改进,所述卷积神经网络由数据输入层、卷积层、激活函数层和批量归一化层构成;

21、其中,所述卷积层通过卷积运算对输入数据进行滤波提取语音特征,包括使用一个卷积核在输入数据上进行滑动卷积。

22、作为上述方案的改进,所述卷积运算为两个矩阵对应位置数值进行相乘再相加的运算,具体公式为:

23、

24、其中,ki为第i个卷积核,n为卷积核的个数,xi为第i个图像特征,kt为卷积核矩阵,x为图像特征矩阵,z为卷积运算结果。

25、作为上述方案的改进,所述输出层采用交叉熵损失函数和基于最大互信息的损失函数进行联合训练。

26、为实现上述目的,本发明实施例还提供了一种语音识别装置,包括:

27、语音识别模块,用于获取分布在时间轴和频率轴上的二维数据特征,将所述二维数据特征输入到声学模型中进行多次特征提取和聚合,输出语音识别的序列结果;其中,所述声学模型由3层卷积神经网络连接8层因子分解的时延神经网络连接多头注意力机制连接2层卷积神经网络连接5层因子分解的时延神经网络连接多头注意力机制连接2层卷积神经网络连接输出层的结构组成,所述声学模型每一层的输出作为下一层的输入进行训练,直至输出层输出所述序列结果;

28、序列解码模块,用于通过解码器将所述序列结果转换为文本数据,得到语音识别结果。

29、为实现上述目的,本发明实施例还提供一种语音识别设备,包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器在执行所述计算机程序时实现上述语音识别方法。

30、为实现上述目的,本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质包括存储的计算机程序;其中,所述计算机程序在运行时控制所述计算机可读存储介质所在的设备执行上述语音识别方法。

31、为实现上述目的,本发明实施例还提供一种计算机程序产品,所述计算机程序产品包括计算机程序;其中,所述计算机程序在运行时控制所述程序产品所在的设备执行上述语音识别方法。

32、实施本发明实施例,具有如下有益效果:

33、本发明实施例提供的语音识别方法、装置及存储介质,通过获取分布在时间轴和频率轴上的二维数据特征,将所述二维数据特征输入到声学模型中进行多次特征提取和聚合,输出语音识别的序列结果;通过解码器将所述序列结果转换为文本数据,得到语音识别结果;其中,所述声学模型的结构由3层cnn+8层tdnnf+多头注意力机制+2层cnn+5层tdnnf+多头注意力机制+2层cnn+输出层组成,所述声学模型每一层的输出作为下一层的输入进行训练,直至输出层输出所述序列结果。通过在tdnnf网络层中插入由多头注意力机制与2层cnn组成的特征提取单元,改进声学模型的结构,能够滤除冗余信息,提取关键特征,并通过多层聚合提取,防止误差的逐层累积,从而提高语音识别的准确性。

技术特征:

1.一种语音识别方法,其特征在于,包括:

2.如权利要求1所述的语音识别方法,其特征在于,所述3层卷积神经网络连接8层因子分解的时延神经网络构成所述声学模型的第一特征提取单元,所述多头注意力机制连接2层卷积神经网络构成所述声学模型的特征聚合单元,所述5层因子分解的时延神经网络构成所述声学模型的第二特征提取单元;

3.如权利要求1所述的语音识别方法,其特征在于,所述多头注意力机制的具体公式为:

4.如权利要求3所述的语音识别方法,其特征在于,所述多头注意力机制的每个头的输出,具体公式为:

5.如权利要求4所述的语音识别方法,其特征在于,所述注意力计算函数,具体公式为:

6.如权利要求1所述的语音识别方法,其特征在于,所述卷积神经网络由数据输入层、卷积层、激活函数层和批量归一化层构成;

7.如权利要求6所述的语音识别方法,其特征在于,所述卷积运算为两个矩阵对应位置数值进行相乘再相加的运算,具体公式为:

8.如权利要求1所述的语音识别方法,其特征在于,所述输出层采用交叉熵损失函数和基于最大互信息的损失函数进行联合训练。

9.一种语音识别装置,其特征在于,包括:

10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括存储的计算机程序;其中,所述计算机程序在运行时控制所述计算机可读存储介质所在的设备执行如权利要求1~8任一项所述的语音识别方法。

技术总结本发明公开了一种语音识别方法、装置及存储介质,方法包括:获取分布在时间轴和频率轴上的二维数据特征并输入到声学模型中进行多次特征提取和聚合,输出语音识别的序列结果;其中声学模型由3层卷积神经网络连接8层因子分解的时延神经网络连接多头注意力机制连接2层卷积神经网络连接5层因子分解的时延神经网络连接多头注意力机制连接2层卷积神经网络连接输出层的结构组成,每一层的输出作为下一层的输入进行训练,直至输出层输出序列结果;通过解码器将序列结果转换为文本数据,得到语音识别结果。采用本发明实施例,通过改进声学模型结构,能够滤除冗余信息,提取关键特征,并通过多层聚合提取,防止误差的逐层累积,从而提高语音识别效果。技术研发人员:张延斌,王艺轩,柯国富受保护的技术使用者:广州广哈通信股份有限公司技术研发日:技术公布日:2024/12/12

本文地址:https://www.jishuxx.com/zhuanli/20241216/348882.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。