技术新讯 > 乐器声学设备的制造及制作,分析技术 > 降噪识别联合网络的语音识别方法、装置、设备及介质与流程 > 正文

降噪识别联合网络的语音识别方法、装置、设备及介质与流程

国知局
2024-06-21 11:36:26

本申请涉及语音识别领域，特别是涉及到一种降噪识别联合网络的语音识别方法、装置、设备及介质。

背景技术：

1、命令词识别属于语音识别，广泛应用于智能家居领域，比如智能语音音箱、智能语音耳机、智能语音灯、智能语音风扇等。单独的语音识别网络，在比如电视噪声，电风扇噪声等复杂环境下，识别率会较大幅度下降。传统的降噪算法对非稳态噪声降噪效果不佳，ai降噪无法跟后续的识别进行联合优化，且识别能力往往与模型大小成正比，嵌入式设备由于成本考虑，相比手机等智能设备，其算力低、内存和flash小，大的复杂的模型无法部署在此类低资源设备上。

2、因此，如何解决传统的降噪算法无法做到联合优化，降噪效果不佳且在算力较低的设备上难以部署的问题是一个亟需解决的技术问题。

技术实现思路

1、本申请的主要目的为提供一种降噪识别联合网络的语音识别方法、装置、设备及介质，旨在解决传统的降噪算法无法做到联合优化，降噪效果不佳且在算力较低的设备上难以部署的技术问题。

2、为了实现上述发明目的，本申请提出一种降噪识别联合网络的语音识别方法，所述方法包括：

3、对输入的带噪音频进行傅里叶变换，得到实部和虚部的频域特征；

4、对所述频域特征进行变换，得到fbank特征；

5、将fbank特征经过线性映射后输入到降噪网络中，获取降噪输出结果，其中，所述降噪输出结果为包含实部和虚部的复数掩码；

6、基于目标函数对所述降噪输出结果进行训练，输出实部和虚部的降噪后的复数掩码；

7、通过所述降噪后的复数掩码和所述频域特征计算出降噪后的频域特征及降噪后fbank特征；

8、将所述fbank特征和所述降噪后fbank特征输入到语音识别网络，计算音素序列。

9、进一步地，所述对输入的带噪音频进行傅里叶变换，得到实部和虚部的频域特征的步骤，包括：

10、从输入音频中进行采样，并对采样得到的信号进行加窗处理；

11、对加窗后的信号进行傅里叶变换，将时域信号转换为频域信号；

12、对所述频域信号进行提取，得到实部和虚部的频域特征。

13、进一步地，所述对所述频域特征进行变换，得到fbank特征的步骤，包括：

14、将所述频域特征映射到mel频率上，得到mel频谱；

15、使用滤波器对所述mel频谱进行滤波，得到每个滤波器通道的能量；

16、对滤波器通道的能量进行对数运算，得到fbank特征。

17、进一步地，所述将fbank特征经过线性映射后输入到降噪网络中，获取降噪输出结果的步骤，包括：

18、通过fbank特征经过一层线性映射，将fbank特征的维度映射为降噪网络的输入维度，输入至所述降噪网络中；

19、将fbank特征进行升维到hdim；

20、将升维后的特征降维为pdim；

21、通过一个注意力操作，使用注意力矩阵对当前时刻及历史共窗口长度的特征进行加权汇总；

22、通过二维卷积，对加权汇总后的fbank特征进行处理，得到降噪输出结果。

23、进一步地，所述目标函数包括第一目标函数和第二目标函数，所述基于目标函数对所述降噪输出结果进行训练，输出实部和虚部的降噪后的复数掩码的步骤，包括：

24、定义所述目标函数，其中所述第一目标函数使用 si-snr 作为损失函数，第二目标函数使用掩码之间的均方误差作为损失函数；

25、针对所述降噪输出结果，通过所述第一目标函数进行训练，目标是最大化干净语音和降噪后音频之间的信噪比；

26、同时，通过第二目标函数进行训练，目标是最小化生成的掩码与真实掩码之间的均方误差；

27、在达到预设条件后，输出实部和虚部的降噪后的复数掩码。

28、进一步地，所述通过所述降噪后的复数掩码和所述频域特征计算出降噪后的频域特征及降噪后fbank特征的步骤，包括：

29、将输入音频对应的所述频域特征与降噪后的复数掩码进行按元素相乘操作，得到降噪后的频域特征；

30、对所述降噪后的频域特征进行变换，得到所述降噪后的fbank特征。

31、进一步地，所述将所述fbank特征和所述降噪后fbank特征输入到语音识别网络，计算音素序列的步骤，包括：

32、对于每个输入的fbank特征和降噪后的fbank特征，将其分别输入到语音识别网络的第一层线性映射中；

33、将映射后的fbank特征和降噪后的fbank特征分别输入到识别模块中进行升维；

34、将升维后的特征再降维为原始维度进行降维；

35、将经过降维后的特征通过conv2d层进行卷积操作，将经过卷积操作后的特征输入到下一个识别模块；

36、直到通过所有的识别模块，将最后一个识别模块输出的fbank特征与音素类别建立对应关系，获得音素序列的预测结果。

37、本申请的第二方面还包括一种降噪识别联合网络的语音识别装置，包括：

38、第一变换模块，用于对输入的带噪音频进行傅里叶变换，得到实部和虚部的频域特征；

39、第二变换模块，用于对所述频域特征进行变换，得到fbank特征；

40、降噪模块，用于输入fbank特征到降噪网络中，通过网络的前向传播过程得到降噪输出结果，即频谱的实部和虚部的复数掩码；

41、训练模块，用于基于目标函数对所述降噪输出结果进行训练，输出实部和虚部的降噪后的复数掩码；

42、降噪转化模块，用于通过所述降噪后的复数掩码和所述频域特征计算出降噪后的频域特征及降噪后fbank特征；

43、语音识别模块，用于将所述fbank特征和所述降噪后fbank特征输入到语音识别网络，计算音素序列。

44、本申请的第三方面还包括一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述中任一项所述方法的步骤。

45、本申请的第四方面还包括一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述中任一项所述方法的步骤。

46、有益效果

47、传统降噪算法与语音识别网络相互分离，在实际应用中无法进行联合优化。本申请提供的一种降噪识别联合网络的语音识别方法，通过将降噪网络与语音识别网络进行联合训练和优化，可以实现对噪声降噪和语音识别的同时优化，提高整体的识别性能。通过采用计算量少的线性映射和计算，大大减少了计算复杂度和推理耗时，使得在低资源嵌入式平台可实时计算，融合降噪前和降噪后的特征作为识别的输入特征，保证了识别的鲁棒性。

技术特征：

1.一种降噪识别联合网络的语音识别方法，其特征在于，所述方法包括：

2.根据权利要求1所述的降噪识别联合网络的语音识别方法，其特征在于，所述对输入的带噪音频进行傅里叶变换，得到实部和虚部的频域特征的步骤，包括：

3.根据权利要求1所述的降噪识别联合网络的语音识别方法，其特征在于，所述对所述频域特征进行变换，得到fbank特征的步骤，包括：

4.根据权利要求1所述的降噪识别联合网络的语音识别方法，其特征在于，所述将fbank特征经过线性映射后输入到降噪网络中，获取降噪输出结果的步骤，包括：

5.根据权利要求1所述的降噪识别联合网络的语音识别方法，其特征在于，所述目标函数包括第一目标函数和第二目标函数，所述基于目标函数对所述降噪输出结果进行训练，输出实部和虚部的降噪后的复数掩码的步骤，包括：

6.根据权利要求1所述的降噪识别联合网络的语音识别方法，其特征在于，所述通过所述降噪后的复数掩码和所述频域特征计算出降噪后的频域特征及降噪后fbank特征的步骤，包括：

7.根据权利要求1所述的降噪识别联合网络的语音识别方法，其特征在于，所述将所述fbank特征和所述降噪后fbank特征输入到语音识别网络，计算音素序列的步骤，包括：

8.一种降噪识别联合网络的语音识别装置，其特征在于，包括：

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7 中任一项所述方法的步骤。

技术总结本申请涉及语音识别技术领域，特别是涉及到一种降噪识别联合网络的语音识别方法、装置、设备及介质，其中方法包括：对输入的带噪音频进行傅里叶变换，得到实部和虚部的频域特征；对所述频域特征进行变换，得到FBank特征；将FBank特征经过线性映射后输入到降噪网络中，获取降噪输出结果，其中，所述降噪输出结果为包含实部和虚部的复数掩码；基于目标函数对所述降噪输出结果进行训练，输出降噪后的复数掩码；通过所述降噪后的复数掩码和所述频域特征计算出降噪后的频域特征及降噪后FBank特征；将所述FBank特征和所述降噪后FBank特征输入到语音识别网络，计算音素序列。本申请实现对噪声降噪和语音识别的同时优化，提高整体的识别性能和轻量化性能。技术研发人员：李杰受保护的技术使用者：深圳市友杰智新科技有限公司技术研发日：技术公布日：2024/3/12