技术新讯 > 乐器声学设备的制造及制作,分析技术 > 基于TBTA网络的海洋哺乳动物叫声识别分类方法 > 正文

基于TBTA网络的海洋哺乳动物叫声识别分类方法

国知局
2024-06-21 10:41:31

本发明涉及海洋动物叫声识别分类，具体为基于tbta网络的海洋哺乳动物叫声识别分类方法。

背景技术：

1、随着水声通信技术的发展，除了可靠性、通信速率和网络化外，水声通信的安全性与隐蔽性也逐渐受到重视。传统方法大多采用低检测概率low probability ofdetection，lpd技术实现隐蔽水声通信，与传统的lpd隐蔽通信技术不同，仿生隐蔽水声通信技术利用海洋中固有的海洋生物叫声或者人工合成的模拟叫声作为通信信号。

2、目前仿生隐蔽水声通信技术均是生成某一种海洋哺乳动物的特定叫声，无法根据不同海域、不同季节动物的栖息情况自适应调整，实际应用中若采用目标海域当前季节并不栖息的海洋动物叫声通信，反而更易被察觉。因此可以通过对目标海域当前季节的海洋哺乳动物叫声进行识别分类，继而自适应选择适合当前海域环境的海洋哺乳动物叫声。

技术实现思路

1、本发明的目的在于提供一种基于tbta网络的海洋哺乳动物叫声识别分类方法，在双支路双层注意力机制网络tbta基础上，将tbta设计为两个分支，分别用于处理光谱特征和空间特征，无需进行繁琐的特征工程，并且在光谱维度和空间维度上引入了自适应的自注意机制，这使得tbta能够对提取的特征图进行有效的细分和优化，在数据集有限的情况下，可以大幅度提高分类的精度。

2、为实现上述目的，本发明提供如下技术方案：本发明提供的基于tbta网络的海洋哺乳动物叫声识别分类方法包括以下步骤：

3、 s1使用adobe audition对原始海洋哺乳动物叫声音频信号进行预处理；

4、s2对进行了预处理的叫声信号的时频谱图生成三维立方体数据集，并进行数据集划分；

5、s3构建tbta网络的光谱分支模型，具体包括：

6、s3.1使用3d-cnn层和下采样来捕获特征映射；

7、s3.2附着3d-cnn与bn结合的密集光谱块；

8、s3.3采用光谱注意块来细化频谱特征，并获得加权谱特征映射；

9、s3.4通过注意块获取加权谱特征映射后，采用批归一化bn层和随机失活层dropout层来增强数值稳定性，以克服过拟合问题；最后通过全局平均池化层获得光谱特征图；

10、s4构建tbta网络的空间分支模型，具体包括：

11、s4.1使用3d-cnn层来捕获特征映射；

12、s4.2将3d-cnn与bn结合后的密集空间块进行附着；

13、s4.3采用空间注意块对每个像素的系数进行加权，得到更具判别性的空间特征；

14、s4.4在捕获加权空间特征映射后，采用bn层和dropout层增强数值稳定性，克服过拟合问题；最后通过全局平均池化层，得到空间特征图；

15、s5对tbta网络模型进行训练与验证。

16、优选的，s1步骤具体为：

17、使用adobe audition软件对原始海洋哺乳动物叫声音频进行降噪、声音增强、回声消除、咔嗒声去除操作，然后再对音频信号进行数字化处理，以此来提高音频信号的质量、准确性和适用性。

18、优选的，s2步骤具体为：

19、s2.1对进行了预处理的所有海洋哺乳动物叫声音频信号进行短时傅里叶变换stft，得到所有叫声音频信号的彩色时频谱图，对于给定信号x（t），其stft通过下面公式计算：

20、；

21、其中，x(t,f)是频率f处在时间t处的复数值，x(τ)是原始信号，g(τ-t)是窗口函数，用于限制信号在时间窗口内，e-j2πfτ是复指数，描述了信号的频率；

22、s2.2在叫声音频信号的时频谱图中选取中心像素pi的h×h个相邻像素，生成三维立方体集{v1,v2，…，vn}∈rh×h×b，当目标像素位于图像边缘时，其相邻缺失像素的值设为零，h即补丁大小，b表示频带个数；

23、s2.3将三维立方体数据集随机划分为训练集vtrain、验证集vval和测试集vtest，同时将上述划分后的数据集对应的标签向量分为训练标签ltrain、验证标签lval、测试标签ltest。

24、优选的，所述s3.1步骤具体为：

25、使用3d-cnn作为光谱分支的基本结构，每个3d-cnn层都附带一个批归一化bn层，以提高数值稳定性；对于带有bn的第（m+1）个3d-cnn层的第i个输出，计算公式为：

26、；

27、；

28、其中∈rh×h×b为第(m+1)层的第j个输入特征图，为第m层bn后的输出，e(·)和var(·)分别表示输入的期望函数和方差函数；和表示第(m+)个3d-cnn层的权重和偏置，为三维卷积运算，r()表示引入网络非线性单元的激活函数。

29、优选的，s3.2步骤具体为：

30、其密集光谱块使用的是densenet中的密集块，且密集光谱块中每个卷积层由r个形状为1×1×a的核组成，然后每层生成形状为h×h×b的特征映射，具有r个通道，密集连接在通道维度上连接特征映射，因此通道数量与卷积层数量之间存在线性关系；m层密集块生成的rm通道输出表示为：

31、；

32、其中b表示输入特征映射中的通道编号。

33、优选的，s3.3的步骤具体为：

34、光谱注意块从初始输入a∈rc×h×h开始计算，其h×h为输入的patch大小，c为输入通道的个数；具体来说，将a与at进行矩阵乘法运算，得到通道关注映射x∈rc×c，softmax层连接计算公式为：

35、；

36、其中表示第i个通道对第j个通道的影响；将xt与a之间的矩阵相乘结果重塑为rc×h×h；将重塑后的结果用尺度α参数进行加权，并加入输入a，得到最终的光谱注意图e∈rc×h×h，计算公式为：

37、；

38、其中α初始化为0，可以逐渐学习，最终的映射e包含了所有通道特征的加权和，并描述远程依赖关系，提高特征的可判别性。

39、优选的，s4.1步骤具体为：

40、使用3d-cnn作为空间分支的基本结构，并在每个3d-cnn层中加入一个bn层，以提高数值稳定性。

41、优选的，s4.2步骤具体为：

42、其密集空间块使用的也是densenet中的密集块，密集空间块中每个卷积层由r个形状为1×1×a的核组成，然后每层生成形状为h×h×b的特征映射，具有r个通道，密集连接在通道维度上连接特征映射，因此通道数量与卷积层数量之间存在线性关系。

43、优选的，s4.3步骤具体为：

44、使空间注意块的输入特征图为a∈rc×h×h，采用两个卷积层分别生成新的特征图b和c，其中{b,c}∈rc×h×h，将b和c重塑为rc×n，其中n=p×p是像素数，在b和c之间进行矩阵相乘，随后附加一个softmax层，计算空间注意特征映射s∈rn×n：

45、；

46、其中测量第i个像素对第j个像素的影响，两个像素的特征表示越相同，表示它们之间的相关性越强，将初始输入特征a同时送入卷积层，得到一个新的特征映射d∈rc×h×h，随后将其重塑为rc×n；并在d和st之间进行矩阵的乘法运算，将结果重塑为rc×h×h：

47、；

48、其中初始值为零的β可以逐渐学会分配更多的权重，对所有位置和原始特征进行权重相加，得到最终特征e∈rc×h×h，因此，空间维度上的远程上下文信息建模为e。

49、优选的，s5步骤具体为：

50、s5.1在tbta网络模型的训练过程中，除了在空间分支和频谱分支的最后一层bn层与全局平均池化层之间分别采用一层dropout层来防止过拟合，还引入了提前停止策略和动态学习率调整方法来防止过拟合，并减少训练时间；训练中使用的激活函数是自正则化非单调激活函数mish，mish的公式是：

51、；

52、其中x表示激活的输入,tanh表示双曲正切函数，softplus表示软正数激活函数，ln表示自然对数函数；

53、s5.2在tbta网络模型的效果验证中，分别使用总体精度oa、平均精度aa和kappa系数k三个定量指标来衡量模型预测的精度；oa的计算公式为：

54、；

55、其中a代表正确分类的样本数，n代表总样本数；

56、aa的计算公式为：

57、；

58、其中n代表总样本数，代表类别i中正确分类的样本数，代表类别i中的样本总数；

59、k的计算公式为：

60、；

61、其中n是类别的总数，是混淆矩阵中第i行的总和，是混淆矩阵中第i列的总和，total是总样本数。

62、本发明的有益效果：

63、本发明的基于tbta网络的海洋哺乳动物叫声识别分类方法，并基于densenet和3d-cnn，提出了双支路双层注意力机制网络tbta深度学习框架，tbta设计了两个分支，使用双支路分别提取海洋哺乳动物叫声音频时频谱图的光谱特征和空间特征，无需进行繁琐的特征工程，并且在光谱维度和空间维度上引入了自适应的自注意机制，分别应用于光谱分支和空间分支。

64、由于复杂的海洋环境和各种有害信号，如海底混响、杂波和各种类型的噪声，缺乏具有特定信噪比的数据集是海洋哺乳动物叫声分类识别技术研究的主要局限性之一。为海洋哺乳动物叫声信号识别分类任务提供了一种高效而灵活的解决方案，可通过对目标海域当前季节的海洋哺乳动物叫声进行识别分类，继而自适应选择适合当前海域环境的海洋哺乳动物叫声。

65、使用双支路分别提取海洋哺乳动物叫声音频时频谱图的光谱特征和空间特征，然后进行融合分类，这样做减少了两类特征之间的干扰，提供了更全面的数据表示。

66、使用光谱注意块和空间注意块使网络更多地关注信息区域，而较少考虑非必要区域，从而增加有效信息的提取效率。

67、使用双支路和自注意机制都可以在数据集有限的条件下提取更多更全面的特征描述，从而在数据集有限的情况下大幅度提高分类精度。