技术新讯 > 乐器声学设备的制造及制作,分析技术 > 语音唤醒处理方法、装置、存储介质及电子设备与流程 > 正文

语音唤醒处理方法、装置、存储介质及电子设备与流程

国知局
2024-06-21 11:36:30

本技术涉及音频处理，具体涉及一种语音唤醒处理方法、装置、存储介质及电子设备。

背景技术：

1、语音唤醒处理是检测分析语音信号中是否包含特定唤醒词的处理工作，相关技术中，语音唤醒处理通常是先对语音信号进行自适应滤波回声消除得到误差信号，然后，对误差信号进行非线性后处理来进一步消除残余回声，得到的信号最终由唤醒算法进行唤醒检测处理。

2、但是，相关技术中，通常非线性后处理和唤醒检测处理两个步骤通常时相互独立的，容易把残余回声中接近唤醒语音信号的非唤醒语音进行增强，使得唤醒算法把它误认为是唤醒语音信号，继而产生误唤醒，虽然唤醒率得以提升，但是会使得误唤醒率较高。

技术实现思路

1、本技术实施例提供一种语音唤醒处理方案，可以实现能够增强语音唤醒率的同时降低误唤醒率。

2、本技术实施例提供以下技术方案：

3、根据本技术的一个实施例，一种语音唤醒处理方法，其包括：获取待处理语音信号；对所述待处理语音信号进行自适应滤波回声消除处理，得到误差信号；采用非线性后处理网络，基于后处理输入信号及所述待处理语音信号进行回声消除非线性后处理，得到回声消除信号，所述后处理输入信号为根据所述误差信号得到的；采用唤醒网络，基于所述回声消除信号进行唤醒检测处理，所述非线性后处理网络与所述唤醒网络为联合进行对抗训练得到的，其中，所述对抗训练中所述非线性后处理网络作为生成器且所述唤醒网络作为判别器，所述对抗训练的目标为所述判别器对所述生成器生成的数据的真假识别准确性越来越高。

4、在本技术的一些实施例中，所述非线性后处理网络为实数网络；所述采用非线性后处理网络，基于所述后处理输入信号及所述待处理语音信号进行回声消除非线性后处理，得到回声消除信号，包括：将所述后处理输入信号及所述待处理语音信号的频域信号分别拆分成实部谱和虚部谱；将所述实部谱和所述虚部谱输入所述非线性后处理网络进行回声消除非线性后处理，得到回声消除信号。

5、在本技术的一些实施例中，所述将所述实部谱和所述虚部谱输入所述非线性后处理网络进行回声消除非线性后处理，得到回声消除信号，包括：对所述实部谱和所述虚部谱进行第一卷积处理，得到第一卷积结果；对所述第一卷积结果进行第一池化处理，得到第一池化结果；对所述第一池化结果进行第二卷积处理，得到第二卷积结果；对所述第二卷积结果进行第二池化处理，得到第二池化结果；对所述第二池化结果进行第三卷积处理，得到第三卷积结果；对所述第三卷积结果进行循环神经网络编码处理，得到编码结果；将所述编码结果和所述第三卷积结果拼接后进行第一反卷积处理，得到第一反卷积结果；将所述第一反卷积结果和所述第二卷积结果拼接后进行第二反卷积处理，得到第二反卷积结果；将所述第二反卷积结果和所述第一卷积结果拼接后进行第三反卷积处理，得到第三反卷积结果；对所述第三反卷积结果进行第四卷积处理，得到第四卷积结果；将所述第四卷积结果与所述实部谱和所述虚部谱进行相乘处理，得到输出结果；根据所述输出结果，得到所述回声消除信号。

6、在本技术的一些实施例中，所述采用唤醒网络，基于所述回声消除信号进行唤醒检测处理，包括：将所述回声消除信号进行梅尔滤波处理得到梅尔倒谱特征；将所述梅尔倒谱特征输入所述唤醒网络进行唤醒检测处理，得到唤醒检测结果。

7、在本技术的一些实施例中，所述唤醒网络为时间卷积神经网络结合循环神经网络得到的，所述循环神经网络位于所述时间卷积神经网络中全连接层和激活层之间；所述将所述梅尔倒谱特征输入所述唤醒网络进行唤醒检测处理，得到唤醒检测结果，包括：将所述梅尔倒谱特征输入所述时间卷积神经网络进行时间卷积处理，得到所述全连接层输出的全连接运算结果；将所述全连接运算结果输入所述循环神经网络进行循环神经网络编码处理，得到循环编码结果；将所述循环编码结果输入所述激活层进行激活处理，得到所述唤醒检测结果。

8、在本技术的一些实施例中，在所述采用非线性后处理网络，基于后处理输入信号及所述待处理语音信号进行回声消除非线性后处理，得到回声消除信号之前，所述方法还包括：采用缓存器对所述误差信号进行缓存；根据缓存的预定帧数个所述误差信号，得到所述回声消除信号。

9、在本技术的一些实施例中，所述非线性后处理网络与所述唤醒网络为按照以下方式联合进行对抗训练得到的：获取训练数据，所述训练数据包括样本语音信号及所述样本语音信号对应的标签回声消除信号及标签唤醒检测结果；基于所述训练数据对预设非线性后处理网络及预设唤醒网络进行迭代对抗训练，得到训练后的所述非线性后处理网络与所述唤醒网络，其中，每一轮迭代对抗训练中的步骤包括：对所述样本语音信号进行自适应滤波回声消除处理，得到样本误差信号；采用所述预设非线性后处理网络，基于所述样本误差信号及所述样本语音信号进行回声消除非线性后处理，得到第一预测回声消除信号；根据所述第一预测回声消除信号及所述标签回声消除信号计算得到第一损失；采用所述预设唤醒网络，基于所述第一预测回声消除信号进行唤醒检测处理，得到第一唤醒检测结果；根据所述第一唤醒检测结果及所述标签唤醒检测结果计算得到第二损失；联合所述第一损失和所述第二损失更新所述预设非线性后处理网络的参数，得到更新后非线性后处理网络；采用所述更新后非线性后处理网络，基于所述样本误差信号及所述样本语音信号进行回声消除非线性后处理，得到第二预测回声消除信号；采用所述预设唤醒网络，基于所述第二预测回声消除信号进行唤醒检测处理，得到第二唤醒检测结果；根据所述第二唤醒检测结果及所述标签唤醒检测结果计算得到第三损失；根据所述第三损失更新所述预设唤醒网络中的参数。

10、根据本技术的一个实施例，一种语音唤醒处理装置，所述装置包括：获取模块，用于获取待处理语音信号；自适应消除模块，用于对所述待处理语音信号进行自适应滤波回声消除处理，得到误差信号；非线性后处理模块，用于采用非线性后处理网络，基于后处理输入信号及所述待处理语音信号进行回声消除非线性后处理，得到回声消除信号，所述后处理输入信号为根据所述误差信号得到的；唤醒模块，用于采用唤醒网络，基于所述回声消除信号进行唤醒检测处理，所述非线性后处理网络与所述唤醒网络为联合进行对抗训练得到的，其中，所述对抗训练中所述非线性后处理网络作为生成器且所述唤醒网络作为判别器，所述对抗训练的目标为所述判别器对所述生成器生成的数据的真假识别准确性越来越高。

11、根据本技术的另一实施例，一种存储介质，其上存储有计算机程序，当所述计算机程序被计算机的处理器执行时，使计算机执行本技术实施例所述的方法。

12、根据本技术的另一实施例，一种电子设备可以包括：存储器，存储有计算机程序；处理器，读取存储器存储的计算机程序，以执行本技术实施例所述的方法。

13、根据本技术的另一实施例，一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行本技术实施例所述的各种可选实现方式中提供的方法。

14、本技术实施例中，获取待处理语音信号；对所述待处理语音信号进行自适应滤波回声消除处理，得到误差信号；采用非线性后处理网络，基于后处理输入信号及所述待处理语音信号进行回声消除非线性后处理，得到回声消除信号，所述后处理输入信号为根据所述误差信号得到的；采用唤醒网络，基于所述回声消除信号进行唤醒检测处理，所述非线性后处理网络与所述唤醒网络为联合进行对抗训练得到的，其中，所述对抗训练中所述非线性后处理网络作为生成器且所述唤醒网络作为判别器，所述对抗训练的目标为所述判别器对所述生成器生成的数据的真假识别准确性越来越高。

15、以这种方式，通过采用联合进行对抗训练得到的非线性后处理网络与唤醒网络进行唤醒处理，使得非线性后处理及唤醒检测处理的有效联合，进一步的，对抗训练中非线性后处理网络作为生成器且唤醒网络作为判别器，且与常规的对抗训练目标相反，本技术中对抗训练的目标为判别器对生成器生成的数据的真假识别准确性越来越高，使得生成器的生成数据越来越令判别器容易区分真假，使得语音唤醒处理的结果能够增强唤醒率的同时降低唤醒处理流程自身导致的误唤醒率。