多语言语音识别方法、装置、设备及介质与流程
- 国知局
- 2024-06-21 11:56:13
本发明涉及人工智能领域,尤其涉及一种多语言语音识别方法、装置、电子设备及可读存储介质。
背景技术:
1、多语言语音识别指的是机器通过识别和理解过程把多种语种语音信号转变为相应的文本或命令的过程,例如,金融领域内,保险智能客服在接收用户来电时,需要将多国客户的语音信号转变为相应文本数据,从而便于保险智能客服进行理解与回复。
2、目前常见的多语言语音识别模型通常是多个单语言识别模型构成,导致模型解码层参数过多,模型复杂度较高,从而降低了语音识别的效率,除此之外,还增加了维护人员的维护成本。
技术实现思路
1、本发明提供一种多语言语音识别方法、装置、电子设备及可读存储介质,其目的在于能够减少多语言语音识别模型输出网络的参数量,提高多语言语音识别模型的识别效率。
2、为实现上述目的,本发明提供的一种多语言语音识别方法,所述方法包括:
3、构建包括语种识别网络、编码网络、预测网络、连接网络及字节输出网络的级联循环神经网络,并利用预设的词块输出网络替换所述字节输出网络,得到多语言语音识别模型;
4、利用所述多语言语音识别模型接收待识别语音数据,利用所述语种识别网络识别所述待识别语音数据的语种,得到所述待识别语音数据的语种标识;
5、利用所述编码网络对所述待识别语音数据进行编码,得到语音编码向量;
6、利用所述预测网络对所述语音编码向量进行上下文记忆,得到所述语音编码向量的记忆向量;
7、利用所述连接网络将所述语种标识、所述语音编码向量及所述记忆向量进行连接,得到语音特征向量;
8、利用预设的归一化指数函计算所述语音特征向量映射至所述词块输出网络中的每个词块上的概率;
9、根据所述概率大小,确定所述待识别语音数据对应的词块文本,并根据所述待识别语音数据的语序,对所述词块文本进行拼接,得到目标文本数据。
10、可选地,所述
11、所述利用所述预测网络对所述语音编码向量进行上下文记忆,得到所述语音编码向量的记忆向量,包括:
12、利用预设的参数,对所述语音编码向量的首向量进行线性变化,得到首向量记忆向量;
13、提取首向量下一时刻的向量特征,利用所述参数对首向量下一时刻的向量特征进行线性变化,并将线性变化后的首向量下一时刻的向量特征与所述首向量记忆向量结合,得到下一时刻的的向量特征记忆向量;
14、根据所述语音编码向量的向量长度,重复所述提取首向量下一时刻的向量特征,利用所述参数对首向量下一时刻的向量特征进行线性变化,并将线性变化后的首向量下一时刻的向量特征与所述首向量记忆向量结合,得到下一时刻的的向量特征记忆向量的步骤,直至所述语音编码向量输入结束,得到所述语音编码向量的正向记忆向量;
15、利用所述参数,对所述语音编码向量的尾向量进行线性变化,得到尾向量记忆向量;
16、提取尾向量上一时刻的向量特征,利用所述参数对尾向量上一时刻的向量特征进行线性变化,并将线性变化后的尾向量上一时刻的向量特征与所述尾向量记忆向量结合,得到上一时刻的的向量特征记忆向量;
17、根据所述语音编码向量的向量长度,重复所述提取尾向量上一时刻的向量特征,利用所述参数对尾向量上一时刻的向量特征进行线性变化,并将线性变化后的尾向量上一时刻的向量特征与所述尾向量记忆向量结合,得到上一时刻的的向量特征记忆向量的步骤,直至所述语音编码向量输入结束,得到所述语音编码向量的反向记忆向量;
18、拼接所述正向记忆向量及所述反向记忆向量,得到所述语音编码向量的记忆向量。
19、可选地,所述利用所述语种识别网络识别所述待识别语音数据的语种,得到所述待识别语音数据的语种标识,包括:
20、利用语种识别网络中的特征提取模块提取所述待识别语音数据的声学特征数据;
21、根据预设的语种特征数据映射规则,识别所述声学特征数据对应的语种类别,得到所述待识别语音数据的语种类别;
22、根据预设的语种标识规则及所述语种类别,生成所述待识别语音数据的语种标识。
23、可选地,所述利用预设的归一化指数函计算所述语音特征向量映射至所述词块输出网络中的每个词块上的概率,包括:
24、利用所述词块输出网络中第一、二及三预设参数分别对所述语音特征向量做线性变换,得到查询向量、关键向量及数值向量;
25、将所述查询向量与所述关键向量的转置向量点乘,得到相似度矩阵;
26、对所述相似度矩阵进行归一化计算,得到归一化矩阵;
27、利用预设的归一化指数函数对所述归一化矩阵进行计算,得到激活矩阵;
28、将所述激活矩阵与所述数值向量点乘,得到所述语音特征向量映射至所述词块输出网络中的每个词块上的概率。
29、可选地,所述构建包括语种识别网络、编码网络、预测网络、连接网络及字节输出网络的级联循环神经网络,包括:
30、获取业务需求,并根据所述业务需求选择语种识别网络、编码网络、预测网络、连接网络及字节输出网络;
31、根据所述语种识别网络、所述编码网络、所述预测网络、所述连接网络及所述字节输出网络,建立初始级联循环神经网络;
32、获取训练语音数据,并利用所述训练语音数据对所述初始级联循环神经网络进行训练,得到训练完成的级联循环神经网络。
33、可选地,所述利用所述编码网络对所述待识别语音数据进行编码,得到语音编码向量,包括:
34、对所述待识别语音数据进行音频特征提取,得到所述待识别语音数据的目标特征;
35、将所述目标特征输入至所述编码网络中预设层数的编码层,得到语音编码向量。
36、可选地,所述所述对所述待识别语音数据进行音频特征提取,得到所述待识别语音数据的目标特征,包括:
37、对所述待识别语音数据进行降噪处理,得到降噪语音数据;
38、对所述降噪语音数据进行分帧,得到语音帧;
39、利用预设的窗函数对所述语音帧进行加窗处理,得到优化语音帧;
40、对所述优化语音帧进行傅里叶变换,得到优化语音帧的频谱特征;
41、根据所述频谱特征,生成所述优化语音帧的梅尔频谱;
42、对所述梅尔频谱进行倒谱变换,得到梅尔频谱倒谱系数;
43、计算所述梅尔频谱倒谱系数中相邻优化语音帧的差分,得到差分特征;
44、结合所述差分特征与所述梅尔频谱倒谱系数,得到所述待识别语音的动态特征;
45、对所述动态特征进行归一化处理,得到所述待识别语音的目标特征。
46、为了解决上述问题,本发明还提供一种多语言语音识别装置,所述装置包括:
47、模型构建模块,用于构建包括语种识别网络、编码网络、预测网络、连接网络及字节输出网络的级联循环神经网络,并利用预设的词块输出网络替换所述字节输出网络,得到多语言语音识别模型;
48、特征提取模块,用于利用所述多语言语音识别模型接收待识别语音数据,利用所述语种识别网络识别所述待识别语音数据的语种,得到所述待识别语音数据的语种标识,利用所述编码网络对所述待识别语音数据进行编码,得到语音编码向量,利用所述预测网络对所述语音编码向量进行上下文记忆,得到所述语音编码向量的记忆向量,利用所述连接网络将所述语种标识、所述语音编码向量及所述记忆向量进行连接,得到语音特征向量;
49、向量映射模块,用于利用预设的归一化指数函计算所述语音特征向量映射至所述词块输出网络中的每个词块上的概率,根据所述概率大小,确定所述待识别语音数据对应的词块文本,并根据所述待识别语音数据的语序,对所述词块文本进行拼接,得到目标文本数据。
50、为了解决上述问题,本发明还提供一种电子设备,所述电子设备包括:
51、存储器,存储至少一个计算机程序;及
52、处理器,执行所述存储器中存储的计算机程序以实现上述所述的多语言语音识别方法。
53、为了解决上述问题,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一个计算机程序,所述至少一个计算机程序被电子设备中的处理器执行以实现上述所述的多语言语音识别方法。
54、本发明实施例通过将传统多语言语音识别模型中的字节输出网络替换成词块输出网络,实现了将语音特征向量输出时需要映射到每个语种的最小文本表示转化为语音特征向量输出时需要映射到每个语种的最大文本表示,从而减少了输出网络参数的复杂度,加快了模型的计算速度,提高了模型识别语音的效率,因此,本发明提供的一种多语言语音识别方法、装置、设备及存储介质,能够减少多语言语音识别模型输出网络的参数量,提高多语言语音识别模型的识别效率。
本文地址:https://www.jishuxx.com/zhuanli/20240618/24576.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。
下一篇
返回列表