技术新讯 > 计算推算,计数设备的制造及其应用技术 > 一种基于对比学习与图卷积神经网络的人物交互检测方法、系统、设备及介质  >  正文

一种基于对比学习与图卷积神经网络的人物交互检测方法、系统、设备及介质

  • 国知局
  • 2024-07-31 23:26:22

本发明属于人物交互检测,特别涉及一种基于对比学习与图卷积神经网络的人物交互检测方法、系统、设备及介质。

背景技术:

1、人物交互(human object interaction,hoi)检测旨在解决人和物的交互关系问题,通过研究人物交互检测可以更好地理解人与世界的互动方式,使机器具备像人类一样观察和理解周围环境并做出快速决断的机制,可以促进视频监控,服务型机器人等技术的发展。不同于常见的目标检测、动作识别等任务,人物交互检测需要更高层次的视觉理解。hoi检测旨在定位成对的人和对象实例并识别它们之间的交互,通常以<人类、对象、交互>三元组的形式产生hoi预测。

2、申请号为【202211512924.0】的专利申请中公开了一种基于二分图结构的人物交互检测方法,该方法融合多个模态的特征,通过姿态估计提取图片中人的关键点输入到关键点特征处理网络模块进行姿态信息的获取;接着将提取到的视觉特征和空间特征进行融合输入到推理网络中得到分类逻辑输出以及通过关键点特征处理网络得到分类逻辑输出,最后将两者的逻辑输出进行融合得到最后的分类结果。

3、针对如上所述的现有技术方案,虽然可以充分利用图片中存在的各种信息,能够得到更全面的特征表示,使最终的特征信息更加丰富,但是没有解决数据的长尾问题,对于数量较少的实例,仅依靠扩充特征信息仍然无法使其得到充分的训练。

4、申请号为【202311084633.0】的专利申请中公开了一种基于提示性引导查询的级联约束解码人物交互检测方法,该方法融合视觉查询向量、空间查询向量和语义查询向量拼接得到最终的融合查询向量,采用主分支解码器和抑制分支解码器对融合查询向量进行解码,将两个分支的输出进行交互感知融合,再经过多层感知机得到交互检测结果。可以挖掘更深层次的交互式表征,并提高模型的泛化能力性能。

5、针对如上所述的现有技术方案,虽然融合了多个维度的向量,扩充了最终用于分类预测的向量特征,但是对于那些数量稀少的交互类别,增加额外的特征信息同样无法使模型充分学习该类别的特征,还会导致整个网络的计算开销增大,影响模型的计算性能。

6、综上分析,目前,现有技术存在以下技术问题:

7、1、现有技术在进行模型训练时,没有考虑到数据的长尾分布问题,对于罕见实例的学习不充分,从而影响模型的性能;

8、2、现有技术尝试从各个角度来提升分类方法的性能,但一般都进行了相对复杂的设计,导致计算效率低,训练时间相对较长。

技术实现思路

1、为了克服上述现有技术的不足,本发明的目的在于提供一种基于对比学习与图卷积神经网络的人物交互检测方法、系统、设备及介质,通过从对比学习获取当前图像实例的相似实例,扩充训练过程中实例集的数量,同时将分类预测任务转换成图结构中的边分类任务,本发明具有简化任务难度,提升交互行为预测性能的特点。

2、一种基于对比学习与图卷积神经网络的人物交互检测方法,包括以下步骤:

3、步骤1,构建深度神经网络;

4、步骤2,对步骤1构建的深度神经网络进行初始化;

5、步骤3,将人物交互检测图像数据集与通过目标检测器对其预测出的实例的框信息及其类别进行合并,生成新的图像集合,所述新的图像集合包括新的训练集和测试集;

6、步骤4,使用步骤3得到的新的训练集,训练步骤2初始化后的深度神经网络;

7、步骤5,将步骤3得到的新的测试集输入到步骤4训练完成的深度神经网络中,进行分类预测,得到测试集的测试准确率。

8、所述步骤1具体包括:

9、步骤1.1,构建一个六层的特征提取网络,用于对实例的特征进行提取,其结构依次为:输入层→第1个卷积层→第1个残差卷积层→第2个残差卷积层→第3个残差卷积层→第4个残差卷积层;

10、步骤1.2,构建一个四层的投影头网络,用于对步骤1.1提取到的实例特征进行降维操作,得到降维操作后的实例特征,其结构依次为:第1个全连接层→第2个全连接层→第3个全连接层→第4个全连接层;

11、步骤1.3,构建一个三层的空间信息配对网络,用于获得图像中人体实例和物体实例的配对信息,其中前两层是并列结构,其结构依次为:并列的第1、2个全连接层→第3个全连接层;

12、步骤1.4,构建一个五层的边分类图卷积神经网络,将步骤1.2得到的降维操作后的实例特征,和步骤1.3获得的图像中人体实例和物体实例的配对信息输入至构建的边分类图卷积神经网络中,用于进行边分类任务,获得最终的交互预测结果,所述边分类图卷积神经网络结构依次为:第1个残差图卷积层→第2个残差图卷积层→第3个残差图卷积层→第4个残差图卷积层→第1个全连接层。

13、所述步骤2的具体方法为:

14、步骤2.1,在(0,1)范围内随机选一个数,用所选数作为深度神经网络中每个节点的初始权值;

15、步骤2.2,将每个节点的初始权值作为第一次迭代过程中深度神经网络中每个节点的权值。

16、所述步骤3中的人物交互检测图像数据集包括训练集和测试集,对于训练集和测试集中的所有实例,均包含标注好的框信息以及其对应的分类标签,将人物交互检测图像数据集中训练集和测试集中的图像,经过目标检测器预测出实例的框信息及其类别,将测出的实例框及其类别与数据集合并生成新的训练集与测试集。

17、所述步骤4的具体方法为:

18、步骤4.1,在步骤3中生成的新的训练集中随机取出r张图像,其中,r是数据批处理大小,将随机取出的r张图像输入步骤1.1的特征提取网络后,获得骨干特征;

19、步骤4.2,根据步骤4.1中随机取出的r张图像的尺寸与步骤1.1特征提取网络中提取出的实例特征的尺寸对实例的框信息进行缩放,得到缩小后的实例特征;

20、步骤4.3,对步骤4.2获取的缩小后的实例特征,经过步骤1.2投影头网络进行对比学习计算相似度,获得相似实例;

21、步骤4.4,根据步骤4.3中获得的相似实例,计算步骤4.1r张图像中当前图像以外的其他图像中,相似实例正确判定的对比损失值;

22、步骤4.5,将步骤4.2获得的当前图像的实例特征与实例的空间特征分别传入到步骤1.3的空间信息配对网络的第1、2个全连接层中,获得当前图像实例的成对信息;

23、步骤4.6,根据当前图像中的实例、步骤4.3获得的相似实例以及步骤4.5获得的当前图像实例的成对信息,构造图结构的邻接矩阵;

24、步骤4.7,将步骤4.6获得的邻接矩阵与步骤4.2中获得的实例特征再经过步骤1.3中的第3个全连接层,得到的特征传入到步骤1.4的边分类图卷积神经网络的前4个残差图卷积层中,获得最终用于分类预测的人体特征和物体特征;

25、步骤4.8,将步骤4.7的最终用于分类预测的人体特征和物体特征两两拼接,然后传入到步骤1.4的第1个全连接层进行边分类预测,最终输出r张图像中所有边的边分类预测标签;

26、步骤4.9,根据步骤4.8中获得的边分类预测标签计算步骤4.1中r张图像的每个实例正确分类的交叉熵损失值;

27、步骤4.10,利用步骤4.4计算的对比损失值与步骤4.9计算的交叉熵损失值对步骤2初始化后的深度神经网络中每个节点的权值求偏导,得到深度神经网络中每个节点权值的梯度值;

28、步骤4.11,使用反向传播算法,根据步骤4.10中计算出的当前每个节点的梯度值更新步骤2初始化后的深度神经网络中所有的参数,得到更新后的深度神经网络。

29、所述步骤5具体包括:

30、步骤5.1,将步骤3中生成的新的测试集依次输入到步骤4.11更新后的深度神经网络中,输出每幅图像对应的预测分类标签,计算深度神经网络在测试集上的准确率;

31、步骤5.2,判断步骤5.1中的准确率是否仍在持续上升,若不再上升,得到训练好的深度神经网络,否则,执行步骤4.1。

32、所述步骤4.3的具体方法为:

33、对当前图像与同一批次其他图像中的实例计算欧氏距离,根据欧式距离的值判断两实例是否相似:

34、

35、其中,x,y分别表示当前图像和同一批次其他图像中的实例,xi,yi分别表示样本x,y的第i个特征值,n表示特征总数;

36、所述步骤4.6的具体方法为:

37、记当前图像中实例的交互对矩阵为nc为当前图像中人体实例和物体实例的总和,即对比学习获得的相似矩阵为其中no为同一批次中除当前正在预测交互行为以外的其他图像中的实例总数,计算的邻接矩阵为其中n为该批次所有图像的所有实例数量的总和,即n=nc+no;根据pairs_matrix和sim_matrix生成当前正在进行预测图像中的实例和其他图像中的实例之间的成对关系矩阵

38、pairsctoo=pairs_matrix×sim_matrix

39、最终将pairs_matrix与pairsctoo结合后生成邻接矩阵。

40、本发明还提供了一种基于对比学习与图卷积神经网络的人物交互检测系统,包括:

41、模型构建模块,用于深度神经网络的构建,生成整个深度神经网络;

42、深度神经网络初始化模块,用于对深度神经网络进行初始化;

43、数据采集模块,用于将人物交互检测图像数据集与通过目标检测器对其预测出的实例的框信息及其类别进行合并,生成新的图像集合,所述新的图像集合包括新的训练集和测试集;

44、深度神经网络训练模块,用于使用新的训练集,训练初始化后的深度神经网络;

45、深度神经网络分类预测模块,用于将新的测试集输入到训练完成的深度神经网络中,进行分类预测,得到测试集的测试准确率。

46、本发明还提供了一种基于对比学习与图卷积神经网络的人物交互检测设备,包括:

47、存储器:存储上述一种基于对比学习与图卷积神经网络的人物交互检测方法的计算机程序,为计算机可读取的设备;

48、处理器:用于执行所述计算机程序时实现所述的一种基于对比学习与图卷积神经网络的人物交互检测方法。

49、本发明还提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序被处理器执行时能够实现所述的一种基于对比学习与图卷积神经网络的人物交互检测方法。

50、与现有技术相比,本发明的有益效果为:

51、1、本发明利用对比学习的思想,在步骤4.3中将对比学习设计加入模型中,在利用其他图像中人体和物体实例的基础上,计算其与当前图片中实例的相似度以确定该实例是否能够被用作扩充实例,从而大大提高了参与训练的实例数量。

52、2、本发明通过在步骤4.4中为对比学习阶段设计的损失函数,对于每个实例,将其与同一类别的其他实例进行对比,并与其他所有类别的实例进行对比。这样可以确保每个类别的实例都能够充分地与其他类别的样本进行对比,从而更好地学习到类别特定的特征表示,使每个类对模型在训练过程中的学习都有一个近似的贡献度。

53、3、本发明在步骤4.6中根据图像中的人体和物体及其两者之间是否具有交互行为来构建图结构,使用图卷积神经网络作为分类预测的模型,将分类任务转变成图神经网络中边分类任务,简化了任务的难度。

54、4、本发明在步骤4.5和步骤4.6构造邻接矩阵时使用了空间特征配对算法,首先对当前图像中的人和物体实例进行配对,然后构造图结构的邻接矩阵,增强了邻接矩阵的准确性,为后续图卷积神经网络的学习提供保障。

55、综上,本发明通过利用对比学习获得其他图像中的相似实例,将交互行为分类任务转换成图结构中的边分类任务,具有扩充实例数量,使网络模型得到充分学习,简化任务难度,缩短训练学习时间的优点。

本文地址:https://www.jishuxx.com/zhuanli/20240730/197559.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。