技术新讯 > 乐器声学设备的制造及制作,分析技术 > 端到端命令词识别方法及装置、存储介质、终端与流程  >  正文

端到端命令词识别方法及装置、存储介质、终端与流程

  • 国知局
  • 2024-06-21 11:27:12

本发明实施例涉及语音识别,尤其涉及一种端到端命令词识别方法及装置、存储介质、终端。

背景技术:

1、近年来深度学习的发展,使得智能语音交互技术得到前所未有的进步。智能语音交互基于语音识别、自然语言理解、语音合成等技术,让机器能够准确识别人们的指令,理解人们的意图,并及时地做出回应。该项技术已经广泛应用于智能家居、智能座舱、消费电子等行业,极大地提高了工作生活中的便利性。

2、在端到端中文语音识别技术中,选择建模单元是建模过程中非常重要的一步,其中以汉字作为建模单元最为常见。然而,建模单元的选择不仅要考虑网络的输出,还要考虑到不同语言的特性。对于英语,尽管有时我们不知道这个英语单词的意思,但是可以比较容易的读出来,而当我们遇到不认识的汉字的时候,却很难读出来,这是因为汉字是一种文字符号,本身与发音无关,对于不认识的汉字,当缺少对应的拼音时我们不知道这个汉字的发音。目前现有的语音识别方案中,通常选择汉字作为语音识别系统的建模单元,如此不仅需要编码器(encoder)还需要解码器(decoder)。并且decoder的前中后三部分分别添加了汉字转音节模块(char2syllable)、interce模块和音节转汉字模块(linear&softmax)。现有方案中,模型结构较为复杂,并且由于输出为汉字序列,语音识别延迟时间较长,识别效率较低。

技术实现思路

1、本发明实施例解决的技术问题是现有的语音识别方案的模型复杂且识别效率较低。

2、为解决上述技术问题,本发明实施例提供一种端到端命令词识别方法,包括:对待识别命令词语音进行特征提取,得到语音特征序列;将所述语音特征序列输入命令词识别模型,经所述命令词识别模型中的编码器提取所述语音特征序列对应的高维声学特征;根据所述高维声学特征在各个输出音节分类的概率,得到所述高维声学特征对应的目标音节序列,根据所述目标音节序列确定所述待识别命令词语音对应的音节序列。

3、可选的,所述的端到端命令词识别方法,还包括:将所述语音特征序列输入命令词识别模型之前,采用梅尔滤波器组对所述语音特征序列进行特征提取,得到所述语音特征序列对应的梅尔滤波器组特征;对所述语音特征序列对应的梅尔滤波器组特征进行降采样。

4、可选的,所述根据所述目标音节序列确定所述待识别命令词语音对应的音节序列,包括如下任一种:将所述目标音节序列作为所述待识别命令词语音对应的音节序列;将所述高维声学特征输入所述命令词识别模型,经所述命令词识别模型中的解码器对所述高维声学特征进行解码,得到所述高维声学特征对应的语义向量,根据所述语义向量输出的字符的概率,得到所述语义向量对应的目标汉字序列,根据所述目标汉字序列对应的命令词音节序列与所述目标音节序列确定所述待识别命令词语音对应的音节序列。

5、可选的,所述根据所述目标汉字序列对应的命令词音节序列与所述目标音节序列确定所述待识别命令词语音对应的音节序列,包括:响应于所述目标汉字序列对应的命令词音节序列与所述目标音节序列相同,将所述目标音节序列作为所述待识别命令词语音对应的音节序列;响应于所述目标汉字序列对应的命令词音节序列与所述目标音节序列不相同,将所述高维声学特征在各个输出音节分类的概率排名前m的音节序列中与所述目标汉字序列对应的命令词音节序列相同的音节序列作为所述待识别命令词语音对应的音节序列,m为正整数。

6、可选的,所述端到端命令词识别方法还包括:将所述语音特征序列的位置编码输入所述命令词识别模型,所述语音特征序列的位置编码用于表征所述语音特征序列中各个序列的相对位置。

7、可选的,所述命令词识别模型采用编码器-解码器的架构,采用如下方式训练得到所述命令词识别模型:对语音训练样本进行特征提取,得到语音特征序列样本;将所述语音特征序列样本输入待训练的命令词识别模型,经所述待训练的命令词识别模型中的编码器提取所述语音特征序列样本对应的高维声学特征样本;根据所述高维声学特征样本在各个输出音节分类上的概率,得到所述高维声学特征样本对应的预测音节序列;采用连接时序分类损失函数评估所述预测音节序列与真实音节序列之间的对齐差距,并计算得到第一损失值;将与所述语音训练样本匹配的真实汉字序列对应的语义向量输入所述待训练的命令词识别模型,所述待训练的命令词识别模型中的解码器根据所述高维声学特征样本,对所述真实汉字序列对应的语义向量以及所述高维声学特征样本进行对齐,得到对齐后的语义向量;根据所述对齐后的语义向量在各个输出字符的概率,得到所述对齐后的语义向量对应的预测汉字序列;采用交叉熵损失函数计算所述预测汉字序列与所述真实汉字序列的第二损失值;对所述第一损失值和第二损失值加权求和,得到所述待训练的命令词识别模型的总损失值;基于所述第一损失值、所述第二损失值以及所述总损失值调整所述编码器及所述解码器的参数,并进行迭代训练,直至所述待训练的命令词识别模型收敛,得到所述命令词识别模型。

8、可选的,所述端到端命令词识别方法,还包括:将所述语音特征序列样本的位置编码输入所述待训练的命令词识别模型,所述语音特征序列样本的位置编码用于表征所述语音特征序列样本中各序列的相对位置;和/或,将所述真实汉字序列对应的语义向量的位置编码输入所述待训练的命令词识别模型,所述真实汉字序列对应的语义向量的位置编码用于表征真实汉字序列对应的语义向量的相对位置。

9、本发明实施例还提供一种端到端命令词识别装置,包括:语音特征提取单元,用于对待识别命令词语音进行特征提取,得到语音特征序列;声学特征提取单元,用于将所述语音特征序列输入命令词识别模型,经所述命令词识别模型中的编码器提取所述语音特征序列对应的高维声学特征;确定单元,用于根据所述高维声学特征在各个输出音节分类的概率,得到所述高维声学特征对应的目标音节序列,根据所述目标音节序列确定所述待识别命令词语音对应的音节序列。

10、本发明实施例还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器运行时执行上述任一种端到端命令词识别方法的步骤。

11、本发明实施例还提供一种终端,包括存储器和处理器,所述存储器上存储有能够在所述处理器上运行的计算机程序,所述处理器运行所述计算机程序时执行上述任一种端到端命令词识别方法的步骤。

12、与现有技术相比,本发明实施例的技术方案具有以下有益效果:

13、通过将待识别命令词语音进行特征提取得到的语音特征序列输入命令词识别模型,经所述命令词识别模型中的编码器提取语音特征序列对应的高维声学特征,基于高维声学特征在各个输出音节分类的概率得到高维声学特征对应的目标音节序列,进而基于目标音节序列得到待识别命令词对应的音节序列。考虑到命令词的数目通常较为有限,数据量较小,如此,不必依赖解码器,仅需编码器也可以得到命令词对应的音节序列,并且由于命令词数据量较小输出音节序列即可确保对命令词的识别准确度,并简化命令词识别模型以减小模型大小,且输出音节序列相比输出汉字序列可以提高识别效率,缩短延迟时间。

本文地址:https://www.jishuxx.com/zhuanli/20240618/21615.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。