技术新讯 > 乐器声学设备的制造及制作,分析技术 > 一种实时语音关键词检测方法及系统与流程 > 正文

一种实时语音关键词检测方法及系统与流程

国知局
2024-06-21 11:40:28

本发明属于语音识别，具体涉及一种实时语音关键词检测方法及系统。

背景技术：

1、校园安全问题一直受到到社会的高度关注，如何在保护学生隐私的前提下，通过非接触的方式快速准确地判断校园霸凌事件的发生成为一个热点课题。基于语音的实时关键词检索系统，通过分析校园环境中麦克风采集的音频信号可实时反馈音频中是否含有校园霸凌相关的敏感词/报警词。小尺寸的系统设计使得其能本地部署，且校方可以自定义需要检索的关键词，能够更好地保护学生的隐私。

2、但是，传统的基于语音的实时关键词检索系统通常是先经过一个通用的语音识别模块得到音频对应的多个候选路径集合以及各个候选路径的得分以及时间信息，随后在候选路径集合中进行用户自定义关键词的搜索，得到有可能出现各个被搜索敏感词的起始时间以及置信度得分，最后送入决策单元，输出最终的被检索敏感词的时间和置信度信息。这种方式对算力的要求高，通常以离线方式进行，且系统的优化方向为最小化序列错误，和关键词检测任务的目标存在失配。

技术实现思路

1、为解决现有技术中存在的技术问题，本发明的目的在于提供一种实时语音关键词检测方法及系统。

2、为实现上述目的，达到上述技术效果，本发明采用的技术方案为：

3、一种实时语音关键词检测方法，包括以下步骤：

4、步骤s001、对输入音频进行分帧、特征提取，组成固定时长的片段级特征序列，再输入至含有空白检测的声学编码器模块，最终得到去除空白信息的二级声学向量；

5、步骤s002、通过敏感词偏置的文本预测模块获取融合敏感词信息的文本预测概率；

6、步骤s003、将步骤s001所得去除空白信息的二级声学向量与步骤s002所得融合敏感词信息的文本预测概率进行融合，得到候选路径集合，并将当前候选路径集合作为下一时刻文本预测模块的输入；

7、步骤s004、对当前时刻的候选路径集合进行解析，给出是否出现敏感词的判断。

8、进一步的，步骤s001中，令y1：t表示1到t时刻的一级声学向量，表示为：

9、y1：t＝nnfirst acoustic encoder(feature1：t)。

10、进一步的，步骤s001中，得到去除空白信息的二级声学向量的步骤包括：

11、所述含有空白检测的声学编码器模块包括一级声学编码器、二级声学编码器和ctc输出层；

12、将片段级特征序列输入一级声学编码器后输出一级声学向量，随后一级声学向量输入至ctc输出层；

13、端到端的asr框架使用一个空白符号<blank>作为建模单元，用于解决音频的输入特征序列和目标文本序列长度不一致的问题；ctc输出层将输入的一级声学向量映射为各个建模单元对应的后验概率；

14、在一个片段内，按时间帧进行空白节点的输出概率yctc[i][blank]和预设阈值的比较：

15、如果输出概率大于预设阈值，则认为该时间帧对应的声学向量属于空白特征，做丢弃处理；如果输出概率小于预设阈值，则参与新的片段级一级声学向量的构成，最后一级声学向量送入二级声学编码器即可得到最终去除了空白信息的二级声学向量对应公式如下：

16、acoustic_embedding1：t_blank_remove＝nnsecond acoustic encoder(y1：t_blank_remove)

17、y1：t_blank_remove＝{yiwhen yctc[i][blank]＜threshold，i∈[1，t]}

18、其中，

19、二级声学编码器的推理计算量由输入向量长度t降低为输入向量时长tblank_remove。

20、进一步的，步骤s002中，通过敏感词偏置的文本预测模块获取融合敏感词信息的文本预测概率的步骤包括：

21、对自定义的敏感词文本进行解析，将每个敏感词映射到建模单元序列[k1，k2...，kl]，随后在词向量提取模型映射为敏感词向量其中，l为建模单元序列的长度，与ki为一一对应的关系，i的取值范围为1-l；

22、注意力模块使用输出作为查询向量，敏感词向量kemb作为键和值向量，通过加性注意力权重计算，得到敏感词偏置的上下文向量cu；

23、将敏感词偏置的上下文向量cu与候选路径集合的词向量组合为作为敏感词偏置的文本预测模块的输入，通过加性注意力操作，得到融合敏感词和上一时刻的候选路径信息的文本预测概率。

24、进一步的，通过加性注意力权重计算，得到敏感词偏置的上下文向量cu的步骤包括：

25、将查询向量和键和值向量分别通过一个线性变化层(wk，wq)，然后相加，tanh激活后再通过一个线性变换层以及一个softmax函数，得到加性注意力权重系数αi，u，最终得到敏感词偏置的上下文向量cu，公式如下：

26、

27、

28、

29、进一步的，步骤s003中，通过声学-文本信息融合模块进行文本和声学信息融合，包括以下步骤：

30、将片段级的二级声学向量和含有敏感词信息的文本预测概率同时送入一个神经网络进行融合，每个时间帧进行一次最优路径的搜索，并更新当前时刻的候选路径集合以及文本预测模型的隐层状态，将当前候选路径集合作为下一时刻文本预测模块的输入。

31、进一步的，步骤s004中，对当前时刻的候选路径集合进行解析，给出是否出现敏感词的判断的步骤包括：

32、通过决策模块对当前时刻的候选路径集合进行解析，得到候选路径集合中敏感词路径的最高得分和非敏感词路径的最高得分，使用二者的log域差值与给定阈值做比较，最后得到敏感词存在与否的判断。

33、本发明还公开了一种实时语音关键词检测系统，包括：

34、含有空白检测的声学编码器模块，用于得到一级声学向量及去除空白信息的二级声学向量；

35、敏感词偏置的文本预测模块，用于得到融合敏感词信息的文本预测概率；

36、声学-文本信息融合模块，用于进行文本和声学信息融合，并将结果输入敏感词偏置的文本预测模块；

37、决策模块，用于给出是否出现敏感词的判断，输出关键词的相关信息(置信度、时间)。

38、进一步的，所述含有空白检测的声学编码器模块包括一级声学编码器(firstacoustic encoder)、二级声学编码器(second acoustic encoder)和ctc输出层三个神经网络，一级声学编码器会完成一级声学向量的提取；

39、将片段级特征序列输入一级声学编码器后可输出一级声学向量，随后一级声学向量输入至ctc输出层，片段中所有空白节点的输出概率yctc[i][blank]小于预设阈值的一级声学向量将组成新的片段级一级声学向量，最后送入二级声学编码器进行模型推理，得到去除空白信息的二级声学向量。

40、进一步的，所述敏感词偏置的文本预测模块包括注意力模块，所述注意力模块使用输出作为查询向量，与敏感词向量kemb通过加性注意力权重计算，得到敏感词偏置的上下文向量cu。

41、与现有技术相比，本发明的有益效果为：

42、本发明创新性设置敏感词偏置的文本预测模块，其在常规的文本预测模块基础上融合了敏感词信息，且在建模过程中通过负例的构造，在保持误检测的情况下能够提高敏感词检测的准确率，利用asr的ctc支路的空白(blank)节点特性，将常规的声学信息提取拆分为两步：先通过一级声学编码器进行一级声学向量的提取再通过二级声学编码器进行模型推理得到去除空白信息的二级声学向量，显著减少了模型整体的推理计算量，同时可以实时检测输入音频是否包含敏感词，且敏感词支持用户自定义，具有计算复杂度小、实时性较高的特点，更方便本地部署。