技术新讯 > 乐器声学设备的制造及制作,分析技术 > 多说话人语音关键词识别方法、装置及设备与流程 > 正文

多说话人语音关键词识别方法、装置及设备与流程

国知局
2024-06-21 11:49:00

本申请涉及语音处理，尤其涉及一种多说话人语音关键词识别方法、装置及设备。

背景技术：

1、随着智能语音技术的不断推广，具有语音交互能力的智能设备得到了广泛推广。目前，各类智能电子设备的智能语音助手均设置有相应的唤醒词检测技术，其通过特定的唤醒关键词唤醒智能语音助手以激活人机交互流程，例如小米智能设备的“小爱同学”、华为的“小艺小艺”，等等。

2、目前，唤醒词检测技术主要是通过在设备上24小时持续运行一个唤醒词检测模型，对用户输入的语音流进行检测，判断是否被用户使用唤醒词唤醒。然而，唤醒技术对输入信号的信噪比有一定要求，信噪比较低时性能较差，尤其是在多说话人场景下，现有降噪技术对人声干扰的应对能力较差，无法有效去除人声干扰，导致设备的关键词唤醒性能较差。

3、针对上述问题，目前业界暂未提出较佳的解决方案。

技术实现思路

1、本申请提供一种多说话人语音关键词识别方法、装置、电子设备及存储介质，用以至少解决目前相关技术中因无法有效消除人声干扰而导致多说话人语音的关键词检测性能较差的问题。

2、第一方面，本申请实施例提供一种多说话人语音关键词识别方法，包括：获取待识别的多说话人音频；基于关键词信息提取器，从所述多说话人音频中提取对应目标关键词的关键词嵌入条件矩阵；将所述关键词嵌入条件矩阵和所述多说话人音频输入至文本感知语音分离模块，以由所述文本感知语音分离模块从所述多说话人音频中分离出潜在关键词音频序列；所述潜在关键词音频序列包含至少一个具有固定顺序的潜在关键词音频，每一所述潜在关键词音频为所预测的包含所述目标关键词的音频片段；基于关键词搜索模块，确定所述潜在关键词音频序列针对存在所述目标关键词的识别概率。

3、第二方面，本申请实施例提供一种多说话人语音关键词识别装置，包括：获取单元，被配置成获取待识别的多说话人音频；提取单元，被配置成基于关键词信息提取器，从所述多说话人音频中提取对应目标关键词的关键词嵌入条件矩阵；分离单元，被配置成将所述关键词嵌入条件矩阵和所述多说话人音频输入至文本感知语音分离模块，以由所述文本感知语音分离模块从所述多说话人音频中分离出潜在关键词音频序列；所述潜在关键词音频序列包含至少一个具有固定顺序的潜在关键词音频，每一所述潜在关键词音频为所预测的包含所述目标关键词的音频片段；识别单元，被配置成基于关键词搜索模块，确定所述潜在关键词音频序列针对存在所述目标关键词的识别概率。

4、第三方面，提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本申请任一实施例的多说话人语音关键词识别方法的步骤。

5、第四方面，本申请实施例提供一种存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现本申请任一实施例的多说话人语音关键词识别方法的步骤。

6、本申请实施例的有益效果在于：

7、在处理多说话人音频时，利用关键词信息提取器提取对应目标关键词的关键词嵌入条件矩阵，并将关键词嵌入条件矩阵和多说话人音频输入至文本感知语音分离模块，利用文本指导对关键词音频的提取，实现利用关键词上下文信息让模型拥有文本感知能力，输出具有固定顺序的潜在关键词音频序列，而不是以随机次序输出音频，能够在解决人声干扰的同时还不增加关键词检测开销，有效提高关键词相关音频的分离质量，有效弥补了目前相关技术中系统无法处理人声干扰的缺陷，提高了语音关键词检测技术对多说话人音频的关键词识别结果的精确度。

技术特征：

1.一种多说话人语音关键词识别方法，包括：

2.根据权利要求1所述的方法，其中，所述关键词信息提取器包含音频编码器，

3.根据权利要求1或2所述的方法，其中，所述文本感知语音分离模块包含编码器、解码器和分离器，所述编码器包含1-d卷积层，解码器包含1-d转置卷积层，以及所述分离器包含多个顺序级联的文本感知跳跃记忆块；其中，所述分离器中排序在最后的所述文本感知跳跃记忆块包含mem-lstm，且其他的所述文本感知跳跃记忆块均包含级联的seg-lstm和mem-lstm。

4.根据权利要求3所述的方法，其中，所述文本感知跳跃记忆块包含交叉conformer块，所述交叉conformer块的输出被用作所述seg-lstm的输入；所述交叉conformer块包含多个前馈神经网络层，多头交叉注意力层，卷积层和层归一化模块；其中，所述多头交叉注意力层的查询是由所述多说话人音频所对应的混合信号特征而定义的，以及所述多头交叉注意力层的键和值是由所述关键词嵌入条件矩阵而定义的。

5.根据权利要求4所述的方法，其中，所述文本感知语音分离模块采用时域si-snr损失函数。

6.根据权利要求5所述的方法，其中，所述文本感知语音分离模块是采用排列无关性训练方式而进行训练的。

7.根据权利要求1所述的方法，其中，所述关键词搜索模块包含多尺度深度时序卷积模型。

8.根据权利要求7所述的方法，其中，所述多尺度深度时序卷积模型的损失函数为：

9.一种多说话人语音关键词识别装置，包括：

10.一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-8中任一项所述方法的步骤。

技术总结本申请实施例提供一种多说话人语音关键词识别方法、装置及设备，涉及语音处理技术领域，其中该方法包括：获取待识别的多说话人音频；基于关键词信息提取器，从多说话人音频中提取对应目标关键词的关键词嵌入条件矩阵；将关键词嵌入条件矩阵和多说话人音频输入至文本感知语音分离模块，以由文本感知语音分离模块从多说话人音频中分离出潜在关键词音频序列；基于关键词搜索模块，确定潜在关键词音频序列针对存在目标关键词的识别概率。由此，利用关键词上下文信息指导对多说话人混合音频中关键词音频的提取，有效弥补了目前相关技术中系统无法处理人声干扰的缺陷，提高了语音关键词检测技术对多说话人音频的关键词识别结果的精确度。技术研发人员：俞凯,杨宝琛,奚彧,李浩宇,余林峰,谭天,李豪受保护的技术使用者：思必驰科技股份有限公司技术研发日：技术公布日：2024/5/6