技术新讯 > 计算推算,计数设备的制造及其应用技术 > 基于几何属性引入的目标关系分类方法  >  正文

基于几何属性引入的目标关系分类方法

  • 国知局
  • 2024-09-05 14:51:26

本发明涉及深度学习和图像处理领域,尤其涉及一种基于几何属性引入的目标关系分类方法。

背景技术:

1、视觉关系分类是计算机视觉领域中的一个任务,旨在识别和理解图像中不同物体之间的关系。它涉及到了对物体之间的几何关系、功能关系和语义关系等进行建模和推断。通常输入是一幅图像以及图中目标的位置,输出是描述物体之间关系的标签或类别。例如,在一张包含人和球的图像中,视觉关系分类任务可以分类人物和球之间的关系,如“持有”、“踢”、“接触”等。

2、视觉关系分类任务的价值在于提高计算机对于图像场景的理解和推理能力,为视觉搜索和其他计算机视觉任务提供支持,并在实际应用中发挥重要作用,如场景理解、视觉推理、视觉搜索和计算机辅助视觉任务等。在视觉关系分类中,a在b的上面,c被d包含这种目标间的几何属性和目标间的语义关系存在很强的相关性。举例来说,当存在一种“穿戴”关系的两个目标时,它们在空间上往往会发生一定程度的交叠。这是由于这种关系通常涉及一个目标被另一个目标覆盖或嵌套,这导致它们在视觉上产生重叠的区域。同时,这种几何属性还传递了语义上的信息,例如a是b的一部分或者a依赖于b的存在。因此,利用这种几何属性能够辅助语义关系的识别,提升视觉关系分类的准确率。如何把目标间的几何属性引入视觉关系分类算法中,使其能够感知到目标间的几何关系,提升其性能,是一个值得探索的研究路径。

技术实现思路

1、本发明旨在至少解决现有技术中存在的技术问题之一。为此,本发明公开了基于几何属性引入的目标关系分类方法。所述方法能够识别图片中目标之间的关系,相比现有方法,本方法对几何属性,包括面积属性、方向属性,进行显式建模,并将这种几何属性显式地引入视觉关系分类模型,使模型能够感知到目标间的先验几何属性,实现高精度的视觉关系分类。

2、本发明的目的是通过如下技术方案实现的,基于几何属性引入的目标关系分类方法,所述方法包括:

3、步骤1,构建视觉关系分类模型,包括预训练视觉模型和关系预测层;

4、步骤2,使用预训练视觉模型提取图片特征;

5、步骤3,根据图片特征和目标区域标注获得所有目标的特征表示;

6、步骤4,计算目标对的几何属性向量;

7、步骤5,把目标对的特征表示和目标对的几何属性向量输入关系预测层,获得预测的关系概率向量;

8、步骤6,计算并优化关系分类损失函数,训练视觉关系分类模型,用视觉关系分类模型进行视觉关系分类。

9、所述的计算目标对的几何属性向量,包括以下步骤:

10、步骤401,构建面积属性向量;对于第i个目标和第j个目标,构建一个长度为3的向量计算第i个目标和第j个目标的iou;如果第i个目标和第j个目标的iou不小于0.6,则把eij的第一个元素赋值为1,其他元素赋值为0;如果第i个目标和第j个目标的iou不小于0.3且小于0.6,则把eij的第二个元素赋值为1,其他元素赋值为0;如果第i个目标和第j个目标的iou小于0.3,则把eij的第三个元素赋值为1,其他元素赋值为0;

11、赋值后的eij是第i个目标和第j个目标的面积属性向量,对所有目标对计算面积属性向量;

12、步骤402,构建方向属性向量;对于第i个目标和第j个目标,构建一个长度为4的向量第i个目标的矩形框的坐标表示为(xi,yi,wi,hi),第j个目标的矩形框的坐标表示为(xj,yj,wj,hj),计算第i个目标和第j个目标的幅角,表达式为:

13、

14、其中,θij表示第i个目标和第j个目标的幅角,xi和yi表示第i个目标的矩形框的左上角坐标,wi和hi表示第i个目标的矩形框的宽度和高度;xj和yj表示第j个目标的矩形框的左上角坐标,wj和hj表示第j个目标的矩形框的宽度和高度;

15、对sij进行赋值,表达式为:

16、

17、其中,sijk表示sij的第k个元素;

18、赋值后的sij是第i个目标和第j个目标的方向属性向量;对所有目标对计算方向属性向量;

19、步骤403,构建几何属性向量;第i个目标和第j个目标的面积属性向量和第i个目标和第j个目标的方向属性向量拼接起来,得到第i个目标和第j个目标的几何属性向量,表达式为:

20、uij=[eij,sij]

21、其中,uij表示第i个目标和第j个目标的几何属性向量;

22、对所有目标对计算几何属性向量;

23、所述的使用预训练视觉模型提取图片特征,包括以下步骤:

24、输入图片表示为使用预训练视觉模型提取输入图片的视觉特征,表达式为:

25、fimg=resnet(x)

26、其中,表示图片的视觉特征,w和h表示图片的宽和高,d表示resnet的隐藏层维度,s表示resnet的下采样倍数。

27、所述的根据图片特征和目标区域标注获得所有目标的特征表示,包括以下步骤:

28、根据目标区域标注,将目标的位置表示为矩形框的坐标(xi,yi,wi,hi),其中i表示目标的索引,xi和yi表示矩形框的左上角坐标,wi和hi表示矩形框的宽度和高度;

29、使用roialign算法,将目标区域标注映射到图片特征的空间中,得到目标的视觉特征图,表达式为:

30、

31、其中,表示第i个目标的视觉特征图,d表示resnet的隐藏层维度,so表示roialign的输出大小;

32、对第i个目标的视觉特征图进行自适应池化,获得第i个目标的特征表示,表达式为:

33、

34、其中,表示第i个目标的特征表示;

35、对每个目标都提取视觉特征,得到所有目标的特征表示:

36、

37、其中,表示所有目标的特征表示,n表示目标的数量。

38、所述的把目标对的特征表示和目标对的几何属性向量输入关系预测层,获得预测的关系概率向量,包括以下步骤:

39、把第i个目标和第j个目标的特征表示和第i个目标和第j个目标的几何属性向量输入关系预测层,表达式为:

40、

41、其中,pij是第i个目标和第j个目标的预测的关系概率向量,softmax和relu是激活函数,表示第i个目标的特征表示,表示第j个目标的特征表示,uij表示第i个目标和第j个目标的几何属性向量,wm、wr、ws、bm和br是可学习参数;

42、计算所有目标对的关系概率向量;

43、所述的计算并优化关系分类损失函数,训练视觉关系分类模型,用视觉关系分类模型进行视觉关系分类,包括以下步骤:

44、步骤601,计算关系分类损失函数;表达式为:

45、

46、其中,lp表示关系分类损失函数,n表示目标的数量,c表示数据集的关系类别数,pijk表示所述的第i个目标和第j个目标的预测的关系概率向量pij的第k个元素,qijk是关系标注,当第i个目标和第j个目标有第k类关系时,qijk=1,否则qijk=0。

47、步骤602,用优化算法对关系分类损失函数lp进行优化,训练视觉关系分类模型;

48、步骤603,用视觉关系分类模型进行视觉关系分类。

49、与现有方法相比,本发明方法的优点在于:本技术提供了基于几何属性引入的目标关系分类方法,本方法把几何属性显式建模为面积属性和方向属性,并将这种几何属性显式地引入视觉关系分类模型,使模型能够感知到目标间的先验几何属性,实现高精度的视觉关系分类。

本文地址:https://www.jishuxx.com/zhuanli/20240905/288502.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。