联合听觉场景分析与深度学习的混合水声信号分离方法
- 国知局
- 2024-06-21 11:36:52
本技术实施例涉及声信号分离,特别涉及一种联合听觉场景分析与深度学习的混合水声信号分离方法。
背景技术:
1、声信号分离是指利用传声器阵列在空间中进行声信号采样,然后通过相关算法将目标信号从混合信号中提取出来的过程。由于水下形势错综复杂,往往存在多源声信号(即混合水声信号),在对接收到的信号进行信号变换以及水声目标识别过程中,为了实现良好的变换及识别效果,常需要利用此技术对混合水声信号进行分离。
2、早期发展的声信号分离方法主要有盲源分离、维纳滤波、小波分析、经验模态分解和听觉场景分析等。其中,听觉场景分析技术以人耳听觉为依据,常应用于语音分离领域,且对分离条件的要求也较低,有较广的适用性。而在水下声信号分离方面,以独立成分分析为基础的盲源分离方法应用较为广泛。上述方法经过多年发展已取得较多应用,但对于海洋环境来说尚存在一些限制,例如以独立成分分析为基础的盲源分离方法,其依据声源信号间的统计独立性,在应用中往往要求观测信号的个数要大于或等于声源信号的个数,否则会导致信号分离效果的下降。同时,水下目标信号通常集中于中低频段,相似度较高,容易出现频谱重叠,这给应用于海洋环境下的多源声信号分离带来了困难。
3、近年来,深度学习技术凭借其优异的学习能力在机器学习领域持续凸显,并催生了许多相关的技术方法。深度学习采用了监督学习的方式进行信号分离,通过大量学习目标信号的特征,从而获取能够滤除噪声逼近目标信号的深度学习模型。包括卷积神经网络、递归神经网络、长短期记忆网络、全卷积时域音频分离网络在内的等多种类型的网络被逐渐用于声信号分离领域,极大的扩展了声信号分离方法,并提升了信号的分离效果。
4、然而,上述深度学习方法还不能很好地适应复杂的海洋环境下的多源声信号分离,其分离效果无法满足实际需求。
技术实现思路
1、本技术实施例的目的在于提供一种联合听觉场景分析与深度学习的混合水声信号分离方法,可实现对水下复杂环境中的混合水声信号的精准分离与重构,分离时抗干扰能力强,稳定性高,为水声目标识别提供了便利。
2、为解决上述技术问题,本技术的实施例提供了一种联合听觉场景分析与深度学习的混合水声信号分离方法,包括以下步骤:通过预训练的听觉分割模型对获取到的混合水声信号进行听觉分割,将所述混合水声信号分解成若干个听觉片段;其中,每一个所述听觉片段均用于表征对应的声学事件在听觉场景中的局部描述;通过预训练的深度聚类网络对所述若干个听觉片段进行听觉重组,将来自于同一个声源的听觉片段重组在一起,得到各所述声源对应的水声信号;其中,所述深度聚类网络是融合了k-means聚类算法的深度学习网络;其中,所述听觉分割模型基于conv-tasnet深度学习网络训练得到,所述听觉分割模型由卷积编码层、分离层和卷积解码层组成,所述通过预训练的听觉分割模型对获取到的混合水声信号进行听觉分割,将所述混合水声信号分解成若干个听觉片段,包括:将获取到的混合水声信号逐帧输入至所述听觉分割模型中,利用所述卷积编码层,对所述混合水声信号进行特征提取,得到所述混合水声信号的高维特征矩阵;利用所述分离层,基于所述高维特征矩阵估计所述混合水声信号中各声源对应的掩码矩阵,并基于所述高维特征矩阵和所述各声源对应的掩码矩阵,得到分离后的特征矩阵;利用所述卷积解码层,对各所述分离后的特征矩阵进行解卷积操作,将一帧所述混合水声信号分解成与所述声源的数量相同的听觉片段。
3、本技术的实施例还提供了一种联合听觉场景分析与深度学习的混合水声信号分离系统,所述系统包括获取模块、听觉分割模块和听觉重组模块;所述获取模块用于获取混合水声信号;所述听觉分割模块用于通过预训练的听觉分割模型对所述混合水声信号进行听觉分割,将所述混合水声信号分解成若干个听觉片段;其中,每一个所述听觉片段均用于表征对应的声学事件在听觉场景中的局部描述;所述听觉重组模块用于通过预训练的深度聚类网络对所述若干个听觉片段进行听觉重组,将来自于同一个声源的听觉片段重组在一起,得到各所述声源对应的水声信号;其中,所述深度聚类网络是融合了k-means聚类算法的深度学习网络;其中,所述听觉分割模型基于conv-tasnet深度学习网络训练得到,所述听觉分割模型由卷积编码层、分离层和卷积解码层组成,所述通过预训练的听觉分割模型对获取到的混合水声信号进行听觉分割,将所述混合水声信号分解成若干个听觉片段,包括:将获取到的混合水声信号逐帧输入至所述听觉分割模型中,利用所述卷积编码层,对所述混合水声信号进行特征提取,得到所述混合水声信号的高维特征矩阵;利用所述分离层,基于所述高维特征矩阵估计所述混合水声信号中各声源对应的掩码矩阵,并基于所述高维特征矩阵和所述各声源对应的掩码矩阵,得到分离后的特征矩阵;利用所述卷积解码层,对各所述分离后的特征矩阵进行解卷积操作,将一帧所述混合水声信号分解成与所述声源的数量相同的听觉片段。
4、本技术的实施例还提供了一种电子设备,包括:至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器中存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述的联合听觉场景分析与深度学习的混合水声信号分离方法。
5、本技术的实施例还提供了一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时实现上述的联合听觉场景分析与深度学习的混合水声信号分离方法。
6、本技术的实施例提供的联合听觉场景分析与深度学习的混合水声信号分离方法,将听觉场景分析与深度学习联合起来,充分利用人耳听觉属性,结合深度学习提供的听觉分割模型和深度聚类网络,联合实现混合水声信号的分离,有效克服了水下环境的限制。听觉场景分析的引入,能够提取出混合水声信号的主要组成部分,减少背景噪声及其他噪声的干扰,让其能够很好地适应复杂的水下环境,听觉场景分析能够提取出符合人耳听觉特性的特征,提高特征的代表性和准确性,进而提高整个混合水声信号分离过程的精度,从而实现对水下复杂环境中的混合水声信号的精准分离与重构,为水声目标识别提供了便利。
7、在一些可选的实施例中,所述卷积编码层由一维卷积核组成,所述听觉分割模型还包括线性整流单元,所述利用所述卷积编码层,对所述混合水声信号进行特征提取,得到所述混合水声信号的高维特征,包括:利用所述一维卷积核,基于所述混合水声信号的长度、所述一维卷积核的长度、预设的滑动步长、以及所述一维卷积核的数量,在所述混合水声信号上进行滑动卷积,输出所述混合水声信号的高维特征矩阵;将所述高维特征矩阵经所述线性整流单元整流后输入至所述分离层。线性整流单元的设置能够保证输出为非负数。
8、在一些可选的实施例中,所述卷积解码层由一维转置卷积核组成,所述利用所述卷积解码层,对各所述分离后的特征矩阵进行解卷积操作,包括:利用所述一维转置卷积核对各所述分离后的特征矩阵进行解卷积操作,降维得到与所述声源的数量相同的时域信号;对各所述时域信号进行维度填充,将填充后的各所述时域信号作为所述声学片段,填充后的各所述时域信号的维度与所述混合水声信号的维度相同。在进行解卷积操作时,还需要进行相同维度填充,保证分割出的听觉片段的维度与混合水声信号的维度相同,防止后续进行听觉重组时出错,保证最终分离出的各声源对应的水声信号有较高质量。
9、在一些可选的实施例中,所述通过预训练的深度聚类网络对所述若干个听觉片段进行听觉重组,将来自于同一个声源的听觉片段重组在一起,得到不同声源对应的水声信号,包括:将各所述听觉片段均输入至预训练的深度聚类网络中,所述深度聚类网络将各所述听觉片段映射到高维特征空间中,得到每个时域点在所述高维特征空间中对应的嵌入向量;所述深度聚类网络基于所述k-means聚类算法对各所述嵌入向量进行聚类,确定各所述时域点对应的类别,输出各所述声源对应的理想二值掩膜矩阵;其中,所述类别与所述声源一一对应;将所述混合水声信号分别与各所述声源对应的理想二值掩膜矩阵相乘,得到各所述声源对应的水声信号。深度聚类网络基于k-means聚类算法和理想二值掩膜实现听觉重组,不需要对分离后的声信号进行排序,巧妙地避免了排列问题的发生,从而快速、高质量地完成听觉重组。
10、在一些可选的实施例中,所述深度聚类网络在进行训练时使用的损失函数通过以下公式表示:
11、
12、
13、
14、其中, x表示所述深度聚类网络基于训练样本估计出的理想二值掩膜矩阵, y表示所述训练样本上标注的真实理想二值掩膜矩阵, a0表示标签亲和矩阵, a1表示估计亲和矩阵,表示取弗罗贝尼乌斯范数, loss表示所述损失函数。
15、在一些可选的实施例中,所述通过预训练的听觉分割模型对获取到的混合水声信号进行听觉分割,包括:将获取到的混合水声信号输入至gammatone滤波器组中进行滤波,得到滤波后的混合水声信号,通过预训练的听觉分割模型对所述滤波后的混合水声信号进行听觉分割。gammatone滤波器组能够近似地实现人耳蜗基底膜功能,使得混合水声信号近似人类听觉神经接收到的响应信号,为听觉场景分析提供了便利。
本文地址:https://www.jishuxx.com/zhuanli/20240618/22426.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。