技术新讯 > 乐器声学设备的制造及制作,分析技术 > 啸叫抑制方法、装置、电子设备和存储介质与流程 > 正文

啸叫抑制方法、装置、电子设备和存储介质与流程

国知局
2024-06-21 10:39:42

本发明涉及音频处理，尤其涉及一种啸叫抑制方法、装置、电子设备和存储介质。

背景技术：

1、随着科技的迅速发展，人们对汽车的乘坐体验要求越来越高。其中，智能化车载娱乐是影响乘坐体验的重要因素。目前，智能化车载娱乐包括无“麦”k歌，该无“麦”k歌是指不使用传统手持麦克风的形式进行k歌，而是使用车机内嵌的语音麦克风进行k歌，以提供更灵活方便的k歌方式。然而，抛弃手持麦克风意味着摒弃强指向性拾音的优势，在k歌这种嘈杂的环境下，车载麦克风更易拾取到噪声从而引发啸叫问题。因此，需要进行啸叫抑制，以确保无“麦”k歌的使用体验。

2、目前，啸叫抑制方式主要分为传统方式和深度学习方式，传统方式如相位调制法其啸叫抑制效果并不好，而采用深度学习方式进行啸叫抑制，现有技术大多基于麦克风信号重建目标信号，然而深度学习模型直接基于麦克风信号重建目标信号，将会引入较多失真，即目标信号为失真信号。因此，现有技术的啸叫抑制效果较差。

技术实现思路

1、本发明提供一种啸叫抑制方法、装置、电子设备和存储介质，用以解决现有技术中啸叫抑制效果差的缺陷。

2、本发明提供一种啸叫抑制方法，包括：

3、获取麦克风采集的第一音频信号，以及所述第一音频信号对应的第二音频信号，所述第二音频信号为所述第一音频信号经过处理后所需输出的参考信号；

4、将所述第一音频信号与所述第二音频信号输入至啸叫抑制模型，得到所述啸叫抑制模型输出的分离权重向量；

5、将所述第一音频信号与所述分离权重向量进行相乘，得到目标音频信号；

6、其中，所述啸叫抑制模型是基于训练样本和所述训练样本对应的目标音频信号标签训练得到的，所述训练样本包括样本第一音频信号和样本第二音频信号。

7、根据本发明提供的一种啸叫抑制方法，所述将所述第一音频信号与所述第二音频信号输入至啸叫抑制模型，得到所述啸叫抑制模型输出的分离权重向量，包括：

8、将所述第一音频信号转换为第一频谱信号，并将所述第二音频信号转换为第二频谱信号；

9、将所述第一频谱信号和所述第二频谱信号进行拼接，得到拼接频谱信号；

10、将所述拼接频谱信号输入至所述啸叫抑制模型中的特征提取层，得到所述特征提取层输出的特征张量；

11、将所述特征张量输入至所述啸叫抑制模型中的权重向量生成层，得到所述权重向量生成层输出的分离权重向量。

12、根据本发明提供的一种啸叫抑制方法，所述将所述拼接频谱信号输入至所述啸叫抑制模型中的特征提取层，得到所述特征提取层输出的特征张量，包括：

13、将所述拼接频谱信号输入至所述特征提取层中的频域特征提取层，得到所述频域特征提取层输出的第一目标特征张量，所述频域特征提取层用于在频率轴上对所述拼接频谱信号进行特征提取；

14、将所述第一目标特征张量输入至所述特征提取层中的时域特征提取层，得到所述时域特征提取层输出的特征张量，所述时域特征提取层用于在时间轴上对所述第一目标特征张量进行特征提取。

15、根据本发明提供的一种啸叫抑制方法，所述将所述第一目标特征张量输入至所述特征提取层中的时域特征提取层，得到所述时域特征提取层输出的特征张量，包括：

16、将所述第一目标特征张量与所述拼接频谱信号输入至所述特征提取层中的第一特征融合层，得到所述第一特征融合层输出的第一融合特征张量；

17、将所述第一融合特征张量输入至所述特征提取层中的时域特征提取层，得到所述时域特征提取层输出的第二目标特征张量；

18、将所述第二目标特征张量与所述第一融合特征张量输入至所述特征提取层中的第二特征融合层，得到所述第二特征融合层输出的特征张量。

19、根据本发明提供的一种啸叫抑制方法，所述将所述第一频谱信号和所述第二频谱信号进行拼接，得到拼接频谱信号，包括：

20、将所述第一频谱信号划分为多个频段的第一频带信号，并将所述第二频谱信号划分为多个频段的第二频带信号；

21、基于各所述频段对应的预设切分间隔，分别对各所述第一频带信号进行切分，得到多个第三频带信号，并基于各所述频段对应的预设切分间隔，分别对各所述第二频带信号进行切分，得到多个第四频带信号；

22、将所述多个第三频带信号和所述多个第四频带信号分别进行拼接，得到多个拼接频谱信号；

23、其中，所述频段的频率越大则对应的所述预设切分间隔越大。

24、根据本发明提供的一种啸叫抑制方法，所述将所述拼接频谱信号输入至所述啸叫抑制模型中的特征提取层，得到所述特征提取层输出的特征张量，包括：

25、将所述多个拼接频谱信号分别输入至所述特征提取层中的频域特征提取层，得到所述频域特征提取层输出的多个第一目标特征张量；

26、将所述多个第一目标特征张量分别输入至所述特征提取层中的时域特征提取层，得到所述时域特征提取层输出的多个特征张量；

27、其中，所述频域特征提取层包括依次连接的双向门控循环网络gru层、点卷积层、归一化层和激活层；所述时域特征提取层包括依次连接的gru层、点卷积层、归一化层和激活层。

28、根据本发明提供的一种啸叫抑制方法，所述目标音频信号标签包括频域信号标签和时域信号标签，所述啸叫抑制模型是基于如下步骤训练得到：

29、将所述样本第一音频信号转换为样本第一频谱信号，并将所述样本第二音频信号转换为样本第二频谱信号；

30、将所述样本第一频谱信号和所述样本第二频谱信号进行拼接，得到样本拼接频谱信号；

31、将所述样本拼接频谱信号输入至待训练模型，得到所述待训练模型输出的预测分离权重向量；

32、将所述样本第一频谱信号与所述预测分离权重向量进行相乘，得到预测目标频谱信号；

33、基于所述预测目标频谱信号和所述频域信号标签，确定第一损失值；

34、将所述预测目标频谱信号转换为属于时域的预测目标音频信号，基于所述预测目标音频信号和所述时域信号标签，确定第二损失值；

35、基于所述第一损失值和所述第二损失值，训练所述待训练模型得到所述啸叫抑制模型。

36、本发明还提供一种啸叫抑制装置，包括：

37、信号获取模块，用于获取麦克风采集的第一音频信号，以及所述第一音频信号对应的第二音频信号，所述第二音频信号为所述第一音频信号经过处理后所需输出的参考信号；

38、向量输出模块，用于将所述第一音频信号与所述第二音频信号输入至啸叫抑制模型，得到所述啸叫抑制模型输出的分离权重向量；

39、信号相乘模块，用于将所述第一音频信号与所述分离权重向量进行相乘，得到目标音频信号；

40、其中，所述啸叫抑制模型是基于训练样本和所述训练样本对应的目标音频信号标签训练得到的，所述训练样本包括样本第一音频信号和样本第二音频信号。

41、本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述啸叫抑制方法。

42、本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述啸叫抑制方法。

43、本发明提供的啸叫抑制方法、装置、电子设备和存储介质，获取麦克风采集的第一音频信号，以及第一音频信号对应的第二音频信号，且第二音频信号为第一音频信号经过处理后所需输出的参考信号，以将第一音频信号与第二音频信号输入至啸叫抑制模型，得到啸叫抑制模型输出的分离权重向量，从而不仅基于第一音频信号的信息确定分离权重向量，还基于第二音频信号的信息确定分离权重向量，即基于更多的信息确定分离权重向量，从而提高分离权重向量的确定准确性，进而提高啸叫抑制效果；且啸叫抑制模型输出的是分离权重向量，并将第一音频信号与分离权重向量进行相乘，得到目标音频信号，其是在原始的第一音频信号上进行线性分离，相比非线性模型直接输出重建的目标信号而言，本发明可以减少非线性失真，进而提高啸叫抑制效果，提高音质；且通过上述方式，将第一音频信号中的其他信号分离，保留目标音频信号，可以从根源上抑制啸叫的发生，进而提高啸叫抑制效果。