一种水下声音分类模型训练方法、系统、装置及存储介质
- 国知局
- 2024-06-21 11:47:16
本技术涉及神经网络,特别是涉及一种水下声音分类模型训练方法、系统、装置及存储介质。
背景技术:
1、水下环境中包含各种不同的声音,例如海洋船舶的辐射噪声、生物声音和通信信号相关的声音等,分析这些水下声音信号对于水下环境的监测具有重要意义,在近年来引起了广泛的关注。
2、随着神经网络的快速发展和在人工智能多个领域取得突破性进展,使用神经网络模型对水下声音进行分类已成为现在常用的方法,这类方法通常依赖于大规模水下声音标注数据集来支撑神经网络模型学习和理解水下声音信号的可判别特征,从而支持目标水下声音分类模型进行声音类别的判断。然而由于复杂的水下环境、声音传播失真和环境背景噪音的存在,在实际情况下获取大量的有类别标注的水下声音数据是非常难的,且需要耗费大量的人力物力,因此目前对于水下声音分类,一般采用有限的水下声音标注数据或水下声音仿真数据作为训练数据,对初始水下声音分类模型进行训练得到目标水下声音分类模型,由于数据规模和仿真数据与水下环境之间相似性的限制,导致利用这些数据训练得到的目标水下声音分类模型,对水下声音进行分类的准确率比较低。
技术实现思路
1、有鉴于此,本技术提供了一种水下声音分类模型训练方法、系统、装置及存储介质,本技术提供的水下声音分类模型训练方法、系统、装置及存储介质,在模型的预训练和训练的过程中,结合了无类别标注的声音数据和有类别标注的水下声音数据,能够有效地提高目标水下声音分类模型对水下声音进行分类的准确率。
2、本技术提供一种水下声音分类模型训练方法,包括:
3、获取无类别标注的声音数据和有类别标注的水下声音数据;
4、对所述无类别标注的声音数据和所述有类别标注的水下声音数据进行转换处理,得到第一频谱图和第二频谱图;
5、对所述第一频谱图进行部分遮挡处理,得到被部分遮挡的频谱图和第一频谱图中被遮挡部分的频谱图;
6、根据所述第一频谱图、所述被部分遮挡的频谱图、所述第一频谱图中被遮挡部分的频谱图和所述第二频谱图,对预设初始网络模型中的初始编码器和初始解码器进行预训练,得到预训练后的编码器;
7、根据所述预训练后的编码器和初始分类头,构建初始水下声音分类模型;
8、根据所述第一频谱图和所述类别标注,对所述初始水下声音分类模型进行训练,得到目标水下声音分类模型。
9、可选地,所述初始解码器包括初始第一解码器和初始第二解码器,所述根据所述第一频谱图、所述被部分遮挡的频谱图、所述第一频谱图中被遮挡部分的频谱图和所述第二频谱图,对预设初始网络模型中的初始编码器和初始解码器进行预训练,得到预训练后的编码器,包括:
10、将所述被部分遮挡的频谱图输入所述初始编码器,得到第一向量;
11、将所述第一向量输入所述初始第一解码器,得到重构的局部频谱图;
12、将所述第一向量输入所述初始第二解码器,得到全局频谱图;
13、根据所述第一频谱图中被遮挡部分的频谱图、所述重构的局部频谱图和第一损失函数,得到第一网络损失;
14、根据所述第二频谱图、所述全局频谱图和第二损失函数,得到第二网络损失;
15、根据所述第一网络损失和所述第二网络损失,调整所述初始编码器、所述初始第一解码器和所述初始第二解码器的参数,直至网络收敛,得到预训练后的编码器。
16、可选地,所述根据所述第一频谱图和所述类别标注,对所述初始水下声音分类模型进行训练,得到目标水下声音分类模型,包括:
17、将所述第一频谱图输入所述预训练后的编码器,得到第二向量;
18、将所述第二向量输入所述初始分类头,得到初始分类结果;
19、根据所述初始分类结果、所述类别标注和第三损失函数,得到第三网络损失;
20、根据所述第三网络损失,调整所述初始水下声音分类模型中所述预训练后的编码器和所述初始分类头的参数,直至网络收敛,得到目标水下声音分类模型。
21、可选地,所述初始编码器为swin-transformer神经网络。
22、本技术还提供一种水下声音分类模型训练系统,包括:
23、获取模块,用于获取无类别标注的声音数据和有类别标注的水下声音数据;
24、第一处理模块,用于对所述无类别标注的声音数据和所述有类别标注的水下声音数据进行转换处理,得到第一频谱图和第二频谱图;
25、第二处理模块,用于对所述第一频谱图进行部分遮挡处理,得到被部分遮挡的频谱图和第一频谱图中被遮挡部分的频谱图;
26、预训练模块,用于根据所述第一频谱图、所述被部分遮挡的频谱图、所述第一频谱图中被遮挡部分的频谱图和所述第二频谱图,对预设初始网络模型中的初始编码器和初始解码器进行预训练,得到预训练后的编码器;
27、模型构建模块,用于根据所述预训练后的编码器和初始分类头,构建初始水下声音分类模型;
28、训练模块,用于根据所述第一频谱图和所述类别标注,对所述初始水下声音分类模型进行训练,得到目标水下声音分类模型。
29、可选地,所述初始解码器包括初始第一解码器和初始第二解码器,所述预训练模块在执行根据所述第一频谱图、所述被部分遮挡的频谱图和所述第一频谱图中被遮挡部分的频谱图和所述第二频谱图,对预设初始网络模型中的初始编码器和初始解码器进行预训练,得到预训练后的编码器时,具体用于:
30、将所述被部分遮挡的频谱图输入所述初始编码器,得到第一向量;
31、将所述第一向量输入所述初始第一解码器,得到重构的局部频谱图;
32、将所述第一向量输入所述初始第二解码器,得到全局频谱图;
33、根据所述第一频谱图中被遮挡部分的频谱图、所述重构的局部频谱图和第一损失函数,得到第一网络损失;
34、根据所述第二频谱图、所述全局频谱图和第二损失函数,得到第二网络损失;
35、根据所述第一网络损失和所述第二网络损失,调整所述初始编码器、所述初始第一解码器和所述初始第二解码器的参数,直至网络收敛,得到预训练后的编码器。
36、可选地,所述训练模块在执行根据所述第一频谱图和所述类别标注,对所述初始水下声音分类模型进行训练,得到目标水下声音分类模型时,具体用于:
37、将所述第一频谱图输入所述预训练后的编码器,得到第二向量;
38、将所述第二向量输入所述初始分类头,得到初始分类结果;
39、根据所述初始分类结果、所述类别标注和第三损失函数,得到第三网络损失;
40、根据所述第三网络损失,调整所述初始水下声音分类模型中所述预训练后的编码器和所述初始分类头的参数,直至网络收敛,得到目标水下声音分类模型。
41、可选地,所述初始编码器为swin-transformer神经网络。
42、本技术还提供一种水下声音分类模型训练装置,包括::处理器、存储器和通信总线;
43、所述通信总线,用于实现所述处理器和所述存储器之间的连接通信;
44、所述处理器用于执行所述存储器中存储的水下声音分类模型训练处理程序,以实现如上述任一项所述水下声音分类模型训练方法的步骤。
45、本技术还提供一种可读存储介质,所述可读存储介质中存储有计算机可执行指令,所述计算机可执行指令被处理器加载并执行时,实现上述任一项所述水下声音分类模型训练方法的步骤。
46、与现有技术相比,本技术提供的一种水下声音分类模型训练方法、系统、装置及存储介质,通过获取无类别标注的声音数据和有类别标注的水下声音数据,对无类别标注的声音数据和有类别标注的水下声音数据进行转换处理,得到第一频谱图和第二频谱图,对第一频谱图进行部分遮挡处理,得到被部分遮挡的频谱图和第一频谱图中被遮挡部分的频谱图,根据第一频谱图、被部分遮挡的频谱图和第一频谱图中被遮挡部分的频谱图和第二频谱图,对预设初始网络模型中的初始编码器和初始解码器进行预训练,得到预训练后的编码器,根据预训练后的编码器和初始分类头,构建初始水下声音分类模型,根据第一频谱图和类别标注,对初始水下声音分类模型进行训练,得到目标水下声音分类模型,本技术中,通过大量的无类别标注的声音数据和少量的有类别标注的水下声音数据对模型中的初始编码器和初始解码器进行预训练,通过无类别标注的声音数据和有类别标注的水下声音数据对由预训练后的编码器和初始分类头构建的初始水下声音分类模型的参数进行微调,使得在模型的预训练和微调的过程中,结合了无类别标注的声音数据和有类别标注的水下声音数据,能够极大地降低模型对标注数据的需求,以及能够有效地提高目标水下声音分类模型对水下声音进行分类的准确率,且通过对无类别标注的声音数据和有类别标注的水下声音数据进行转换处理后得到第一频谱图和第二频谱图,再通过第一频谱图、第二频谱图以及对第一频谱图进行部分遮挡处理后得到的被部分遮挡的频谱图和第一频谱图中被遮挡部分的频谱图,对预设初始网络模型中的初始编码器和初始解码器进行预训练,使得预训练后的编码器具有根据被部分遮挡的频谱图预测原始频谱图中被遮挡部分的频谱图和预测原始水下声音的全局频谱图的能力,进而使得目标水下声音分类模型具有对声音数据分布特点的先验知识,从而能够进一步有效地提高目标水下声音分类模型对水下声音进行分类的准确率。
本文地址:https://www.jishuxx.com/zhuanli/20240618/23565.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。