语音关键词检测方法、系统、存储介质及电子设备与流程
- 国知局
- 2024-06-21 11:53:32
本发明属于深度学习的,特别是涉及一种语音关键词检测方法、系统、存储介质及电子设备。
背景技术:
1、随着数据处理技术的进步以及移动互联网的快速普及,计算机技术被广泛地运用到了社会的各个领域,随之而来的则是海量数据的产生。其中,语音数据受到了人们越来越多的重视。语音识别技术,也被称为自动语音识别(automatic speech recognition,asr),其目标是将人类的语音中的词汇内容转换为计算机可读的输入,例如按键、二进制编码或者字符序列。
2、近来,语音识别技术取得显著进步,其涉及工业、家电、通信、汽车电子、医疗、家庭服务、消费电子产品等各个领域。语音识别技术属于人工智能方向的一个重要分支,涉及许多学科,如信号处理、计算机科学、语言学、声学、生理学、心理学等,是人机自然交互技术中的关键环节。
3、关键词检测是语音识别领域的一个子领域,其目的是在语音信号中检测指定词语的所有出现位置。现有技术中常用的关键词检测有基于补白模型的关键词检测、基于样例的关键词检测、基于大量词汇连续语音系统的关键词检测等等。然而,现有的语音关键词检测方法的关键词召回率不高,无法满足实际应用的需求。
技术实现思路
1、鉴于以上所述现有技术的缺点,本发明的目的在于提供一种语音关键词检测方法、系统、存储介质及电子设备,能够有效提高语音关键词检测的召回率,满足实际应用需求。
2、第一方面,本发明提供一种语音关键词检测方法,所述方法包括以下步骤:对待检测的多个关键词进行预处理,获取嵌入关键词;获取语音的声学嵌入特征;将所述嵌入关键词和所述声学嵌入特征经过预设数量个依次相连的transformer编码块,获取关键词起始嵌入向量、关键词结束嵌入向量和声学输出向量;基于所述关键词起始嵌入向量、所述关键词结束嵌入向量和所述声学输出向量计算所述关键词与所述声学嵌入特征的相似度分数;基于所述相似度分数获取各个关键词的关键词偏差;对所述声学输出向量和所述关键词偏差元素相乘后进行解码,获取关键词检测结果。
3、在第一方面的一种实现方式中,对待检测的多个关键词关键词进行预处理包括以下步骤:
4、对于每个关键词,添加起始符和结束符,获取标准关键词;
5、将各个标准关键词进行嵌入处理并重构为预设大小,获取所述嵌入关键词。
6、在第一方面的一种实现方式中,获取语音的声学嵌入特征包括以下步骤:
7、获取语音的fbank特征;
8、将所述fbank特征输入一维卷积模块,获取嵌入特征;
9、将所述嵌入特征输入依次连接的预设数量个三模态注意力块,获取所述声学嵌入特征;所述三模态注意力块用于基于语义、位置和区域实现注意力处理。
10、在第一方面的一种实现方式中,基于所述关键词起始嵌入向量、所述关键词结束嵌入向量和所述声学输出向量计算所述关键词与所述声学嵌入特征的相似度分数包括以下步骤:
11、将所述关键词起始嵌入向量和所述关键词结束嵌入向量进行元素相加后输入多层感知机,获取关键词库;
12、将所述声学输出向量经过预设数量个三模态注意力块后与所述关键词库进行矩阵点积运算,获取点积运算结果;所述三模态注意力块用于基于语义、位置和区域实现注意力处理;
13、将所述点积运算结果经过sigmoid函数,获取所述相似度分数。
14、在第一方面的一种实现方式中,基于所述相似度分数计算各个关键词的关键词偏差包括以下步骤:
15、选取各个关键词对应的最大相似度分数;
16、获取所述最大相似度分数大于预设值的特定关键词;
17、将所述点积运算结果中所述特定关键词对应的位置元素保持不变,其他位置设置为1后,输入多层感知机和sigmoid函数,获取所述关键词偏差。
18、在第一方面的一种实现方式中,所述三模态注意力块执行以下操作:
19、将输入向量分割为4个子向量,并整形为预设形状的整形子向量;
20、将所述整形子向量输入语义注意力模块,得到语义注意力图;
21、将所述整形子向量和所述语义注意力图进行矩阵相乘,获取矩阵a;
22、将所述矩阵a输入位置注意力模块,得到位置注意力图;
23、将所述矩阵a和所述位置注意力图矩阵相乘,获取矩阵b;
24、将所述矩阵b输入区域注意力模块,得到区域注意力图;
25、将所述矩阵b和所述区域注意力图矩阵相乘后,经过整形输入一维卷积模块,获取输出向量。
26、在第一方面的一种实现方式中,采用ctc解码器对所述声学输出向量和所述关键词偏差元素相乘的结果进行解码。
27、第二方面,本发明提供一种语音关键词检测系统,所述系统包括第一获取模块、第二获取模块、第三获取模块、计算模块、第四获取模块和检测模块;
28、所述第一获取模块用于对待检测的多个关键词进行预处理,获取嵌入关键词;
29、所述第二获取模块用于获取语音的声学嵌入特征;
30、所述第三获取模块用于将所述嵌入关键词和所述声学嵌入特征经过预设数量个依次相连的transformer编码块,获取关键词起始嵌入向量、关键词结束嵌入向量和声学输出向量;
31、所述计算模块用于基于所述关键词起始嵌入向量、所述关键词结束嵌入向量和所述声学输出向量计算所述关键词与所述声学嵌入特征的相似度分数;
32、所述第四获取模块用于基于所述相似度分数获取各个关键词的关键词偏差;
33、所述检测模块用于对所述声学输出向量和所述关键词偏差元素相乘后进行解码,获取关键词检测结果。
34、第三方面,本发明提供一种电子设备,所述电子设备包括:处理器和存储器;
35、所述存储器用于存储计算机程序;
36、所述处理器用于执行所述存储器存储的计算机程序,以使所述电子设备执行上述的语音关键词检测方法。
37、第四方面,本发明提供一种计算机可读存储介质,其上存储有计算机程序,该程序被电子设备执行时实现上述的语音关键词检测方法。
38、如上所述,本发明所述的语音关键词检测方法、系统、存储介质及电子设备,具有以下
39、有益效果:
40、(1)能够有效提高语音关键词检测的召回率;
41、(2)智能化程度高,极具实用性。
技术特征:1.一种语音关键词检测方法,其特征在于,所述方法包括以下步骤:
2.根据权利要求1所述的语音关键词检测方法,其特征在于:对待检测的多个关键词关键词进行预处理包括以下步骤:
3.根据权利要求1所述的语音关键词检测方法,其特征在于:获取语音的声学嵌入特征包括以下步骤:
4.根据权利要求1所述的语音关键词检测方法,其特征在于:基于所述关键词起始嵌入向量、所述关键词结束嵌入向量和所述声学输出向量计算所述关键词与所述声学嵌入特征的相似度分数包括以下步骤:
5.根据权利要求4所述的语音关键词检测方法,其特征在于:基于所述相似度分数计算各个关键词的关键词偏差包括以下步骤:
6.根据权利要求3或4所述的语音关键词检测方法,其特征在于:所述三模态注意力块执行以下操作:
7.根据权利要求1所述的语音关键词检测方法,其特征在于:采用ctc解码器对所述声学输出向量和所述关键词偏差元素相乘的结果进行解码。
8.一种语音关键词检测系统,其特征在于,所述系统包括第一获取模块、第二获取模块、第三获取模块、计算模块、第四获取模块和检测模块;
9.一种电子设备,其特征在于,所述电子设备包括:处理器和存储器;
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被电子设备执行时实现权利要求1至7中任一项所述的语音关键词检测方法。
技术总结本发明提供一种语音关键词检测方法、系统、存储介质及电子设备,所述方法包括:对待检测的多个关键词进行预处理,获取嵌入关键词;获取语音的声学嵌入特征;将所述嵌入关键词和所述声学嵌入特征经过预设数量个依次相连的transformer编码块,获取关键词起始嵌入向量、关键词结束嵌入向量和声学输出向量;基于所述关键词起始嵌入向量、所述关键词结束嵌入向量和所述声学输出向量计算所述关键词与所述声学嵌入特征的相似度分数;基于所述相似度分数获取各个关键词的关键词偏差;对所述声学输出向量和所述关键词偏差元素相乘后进行解码,获取关键词检测结果。本发明的语音关键词检测方法、系统、存储介质及电子设备能够有效提高语音关键词检测的召回率。技术研发人员:请求不公布姓名受保护的技术使用者:上海蜜度数字科技有限公司技术研发日:技术公布日:2024/5/27本文地址:https://www.jishuxx.com/zhuanli/20240618/24306.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。