技术新讯 > 乐器声学设备的制造及制作,分析技术 > 命令词识别方法、装置、设备及存储介质与流程  >  正文

命令词识别方法、装置、设备及存储介质与流程

  • 国知局
  • 2024-06-21 10:40:46

本技术涉及语音识别,具体涉及一种命令词识别方法、装置、设备及存储介质。

背景技术:

1、语音识别是指通过计算机把语音信号转换为对应的文本的过程,作为人机交互的关键入口,语音识别是人工智能领域中的重要研究方向之一。语音识别主要包括大词表连续识别、固定句式识别和命令词识别三个方向,其中大词表连续识别对用户的输入没有限制,用户可以自由表达,算法实现最为复杂,一般只以云端形式提供服务;固定句式识别要求用户使用特定的句式进行语音输入,例如[打开/关闭][客厅/卧室]的[灯/空调/电视];命令词识别仅能识别若干个固定的命令词或者语句,算法实现相对简单。

2、现有的命令词识别方案主要基于混合模型和端到端模型实现,其中,混合模型主要由特征提取模块、声学模块和解码模块组成,特征提取模块用来提取语音的频域信息并进行一些列的变换,生成音频特征;声学模块的输入是音频特征向量序列,输出是一组声学建模单元的概率分布,常用的声学建模单元为音素;解码模块根据声学建模单元、发音字典和文本上下文关系构建解码网络,实现声学建模单元到文本的转换。端到端模型的结构类型较多,通常由声学编码器和解码网络组成,可以直接将音频特征转换为文本,相比于混合模型结构更加简单。这两种模型在进行模型参数优化过程中需要对语音数据进行打包,一个包内的语音数据长短不一,为了发挥gpu并行运算的优势,需要对同一个包内的语音数据进行填充,使所有语音数据的长度均与最长的语音数据保持一致,才能将语音数据打包成一个张量。数据打包过程会引入大量无效的填充数据,造成计算资源的浪费。

技术实现思路

1、本技术实施例提供一种命令词识别方法、装置、设备及存储介质,用以解决现有的命令词识别模型在参数优化时需要对语音数据进行打包,并在数据打包过程中引入大量无效的填充数据,造成计算资源浪费的技术问题。

2、第一方面,本技术实施例提供一种命令词识别方法,包括:

3、获取待识别的语音信息,并提取所述语音信息的音频特征;

4、对所述音频特征进行压缩处理,并将压缩后的音频特征输入到经过预训练的命令词识别模型中,对所述语音信息中的命令词进行识别。

5、在一个实施例中,所述对所述音频特征进行压缩处理,包括:

6、将所述音频特征中的第一音频帧减去第二音频帧,计算所述音频特征的差分谱;所述第一音频帧是所述音频特征中相邻两音频帧中的后一帧,所述第二音频帧是所述第一音频帧的前一帧;

7、计算所述差分谱中各差分帧的强度,得到所述差分谱对应的差分谱强度;

8、基于所述差分谱强度,对所述音频特征进行压缩处理。

9、在一个实施例中,所述基于所述差分谱强度,对所述音频特征进行压缩处理,包括:

10、基于所述差分谱强度,对所述差分谱中的差分帧进行降序排序;

11、根据所述差分帧的排序顺序和所述音频特征的长度,确定所述音频特征中的目标音频帧,以及所述目标音频帧对应的目标差分帧的强度;

12、将所述目标差分帧的强度作为压缩阈值,对所述音频特征进行压缩处理。

13、在一个实施例中,所述命令词识别模型包括上下文特征提取层、注意力统计池化层和分类输出层;

14、所述将压缩后的音频特征输入到经过预训练的命令词识别模型中,对所述语音信息中的命令词进行识别,包括:

15、将压缩后的音频特征输入到经过预训练的命令词识别模型中,利用所述命令词识别模型中的上下文特征提取层,提取压缩后的音频特征的上下文特征;

16、利用所述命令词识别模型中的注意力统计池化层提取所述上下文特征的语句特征;

17、基于所述分类输出层对所述语句特征进行分类,根据分类结果对所述语音信息中的命令词进行识别。

18、在一个实施例中,所述上下文特征提取层包括卷积层和注意力机制层;所述卷积层包括逐通道卷积层、逐点卷积层、激活归一化层和池化层,所述注意力机制层包括多头注意力层、第一求和归一化层、前馈网络层和第二求和归一化层;

19、所述利用所述命令词识别模型中的上下文特征提取层,提取压缩后的音频特征的上下文特征,包括:

20、利用所述命令词模型中的上下文特征提取层,对压缩后的音频特征依次进行逐通道卷积处理、逐点卷积处理、归一化处理和池化处理,得到压缩后的音频特征对应的卷积特征;

21、对所述卷积特征中的任一第一目标输入帧,计算各第二目标输入帧与所述第一目标输入帧之间的相关性;所述第一目标输入帧是所述卷积特征中的任一音频帧,所述第二目标输入帧是所述卷积特征中除所述第一目标输入帧之外的音频帧;

22、根据所述相关性确定各所述第二目标输入帧相对于所述第一目标输入帧的注意力权重;

23、根据所述注意力权重对所述卷积特征中的各音频帧进行加权求和,得到所述卷积特征对应的上下文特征。

24、在一个实施例中,所述利用所述命令词识别模型中的注意力统计池化层提取所述上下文特征的语句特征,包括:

25、基于所述上下文特征中各音频帧的注意力权重,利用所述命令词识别模型中的注意力统计池化层,分别计算所述上下文特征的加权平均值和加权标准差;所述加权平均值表征所述语音信息的语句级别特征的全局信息,所述加权标准差是所述语音信息的时域变化特征;

26、对所述加权平均值和所述加权标准差进行拼接处理,得到所述上下文特征对应的语句特征。

27、在一个实施例中,所述基于所述分类输出层对所述语句特征进行分类,根据分类结果对所述语音信息中的命令词进行识别,包括:

28、基于所述分类输出层对所述语句特征进行线性变换,以确定所述语音信息中的命令词属于各预设命令词类别的类别概率;

29、选取所述类别概率最大的目标命令词类别对所述语句特征进行分类,并根据分类结果对所述语音信息中的命令词进行识别。

30、第二方面,本技术实施例提供一种命令词识别装置,包括:

31、特征提取模块,用于获取待识别的语音信息,并提取所述语音信息的音频特征;

32、命令词识别模块,用于对所述音频特征进行压缩处理,并将压缩后的音频特征输入到经过预训练的命令词识别模型中,对所述语音信息中的命令词进行识别。

33、第三方面,本技术实施例提供一种电子设备,包括处理器和存储有计算机程序的存储器,所述处理器执行所述程序时实现第一方面所述的命令词识别方法的步骤。

34、第四方面,本技术实施例提供一种非暂态的可读计算机存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面所述的命令词识别方法的步骤。

35、第五方面,本技术实施例提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现第一方面所述的命令词识别方法的步骤。

36、本技术实施例提供的命令词识别方法、装置、设备及存储介质,通过获取待识别的语音信息,并提取该语音信息的音频特征,对音频特征进行压缩处理,可以剔除音频特征中的静音片段等无效信息,将压缩后的音频特征输入到经过预训练的命令词识别模型,对语音信息中的命令词进行识别时,可以避免或减少数据填充,从而减少计算资源的浪费。

本文地址:https://www.jishuxx.com/zhuanli/20240618/21146.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。