技术新讯 > 计算推算,计数设备的制造及其应用技术 > 动态交互对象的三维姿态检测方法、系统、装置及存储介质  >  正文

动态交互对象的三维姿态检测方法、系统、装置及存储介质

  • 国知局
  • 2024-07-31 22:51:54

本申请涉及机器视觉中的对象空间运动检测的,更具体地涉及一种动态交互对象的三维姿态检测方法、系统、装置和介质。

背景技术:

1、人们试图将机器视觉技术引入对自由状态的对象群体进行动态交互过程的分析,例如但不限于动物社交活动、机器人交互过程等等,其中的各个对象能够自发且自由地做出行为。

2、为了分析研究这些动态交互对象的行为特征,首先要检测各个交互个体的三维姿态信息。但是,基于深度相机的三维姿态检测只能得到部分简单的姿态信息。现有的一些工具虽然可以提供多个个体的肢体动态分析,但需要对个体行动进行限制,从而无法运用于各个对象自由做出交互行为的应用场景。检测自由状态的个体的方法目前仅局限于单个个体,关于多个动态交互对象的状态分析存在诸多技术障碍。例如,在多个对象的交互过程中,各个对象之间彼此会产生复杂的遮挡关系,因为对象有行为自由,所以这种遮挡关系还会频繁动态变化。进一步地,多个对象的交互行为比单个个体的行为更富有多样性,使得难以准确地识别各个对象的关键点的动态三维位置;而多个对象交互过程的研究,不仅需要准确地识别出各个对象的动态三维姿态,对于识别的时效性也有严格要求。

技术实现思路

1、提出本申请以解决现有技术中的以上技术问题。

2、本申请旨在提供一种动态交互对象的三维姿态检测方法、系统、装置和计算机程序产品,其利用单个主视角的相机的简单拍摄系统,在多个对象自由且动态地彼此交互的过程中,尽管彼此的遮挡关系复杂多变,依然能够准确且迅速地(包括实时地)识别检出任何目标对象在各个拍摄时刻的肢体关键点的三维位置,从而确定目标对象在此过程中的动态三维姿态。

3、根据本申请的第一方面,提供一种动态交互对象的三维姿态检测方法,其中,多个对象彼此之间进行动态交互。该方法包括如下步骤。基于第一组的主视角和多个从视角的训练用二维图像中的至少一个对象的肢体关键点的二维位置,处理整合以得到所述至少一个对象的第一组的肢体关键点的三维位置。使用所述第一组的主视角的训练用二维图像中包含所述至少一个对象的感兴趣区域和所述至少一个对象的第一组的肢体关键点的三维位置,来构建三维数据集。使用构建的三维数据集来训练第二学习网络。基于含多个对象的主视角的待检测二维图像,提取包含目标对象的感兴趣区域。基于所提取的包含目标对象的感兴趣区域,利用训练好的第二学习网络,来检出所述目标对象的肢体关键点的三维位置。基于所述目标对象的肢体关键点的不同时刻的检出三维位置,来确定所述目标对象的动态三维姿态。

4、根据本申请的第二方面,提供一种动态交互对象的三维姿态检测系统。该系统包括单个顶视角相机和至少一个处理器。所述单个顶视角相机配置为拍摄含多个对象的主视角的不同时间的二维图像作为待检测二维图像。所述至少一个处理器配置为执行根据本申请各个实施例的动态交互对象的三维姿态检测方法。该方法包括如下步骤。基于第一组的主视角和多个从视角的训练用二维图像中的至少一个对象的肢体关键点的二维位置,处理整合以得到所述至少一个对象的第一组的肢体关键点的三维位置。使用所述第一组的主视角的训练用二维图像中包含所述至少一个对象的感兴趣区域和所述至少一个对象的第一组的肢体关键点的三维位置,来构建三维数据集。使用构建的三维数据集来训练第二学习网络。基于含多个对象的主视角的待检测二维图像,提取包含目标对象的感兴趣区域。基于所提取的包含目标对象的感兴趣区域,利用训练好的第二学习网络,来检出所述目标对象的肢体关键点的三维位置。基于所述目标对象的肢体关键点的不同时刻的检出三维位置,来确定所述目标对象的动态三维姿态。

5、根据本申请的第三方面,提供一种动态交互对象的三维姿态检测装置。该装置包括至少一个处理器,其配置为执行根据本申请各个实施例的动态交互对象的三维姿态检测方法。该方法包括如下步骤。基于第一组的主视角和多个从视角的训练用二维图像中的至少一个对象的肢体关键点的二维位置,处理整合以得到所述至少一个对象的第一组的肢体关键点的三维位置。使用所述第一组的主视角的训练用二维图像中包含所述至少一个对象的感兴趣区域和所述至少一个对象的第一组的肢体关键点的三维位置,来构建三维数据集。使用构建的三维数据集来训练第二学习网络。基于含多个对象的主视角的待检测二维图像,提取包含目标对象的感兴趣区域。基于所提取的包含目标对象的感兴趣区域,利用训练好的第二学习网络,来检出所述目标对象的肢体关键点的三维位置。基于所述目标对象的肢体关键点的不同时刻的检出三维位置,来确定所述目标对象的动态三维姿态。

6、根据本申请的第四方面,提供一种计算机可读存储介质,其上存储有可执行程序,所述可执行程序由处理器执行时,实现根据本申请各个实施例的动态交互对象的三维姿态检测方法。

7、利用根据本申请各个实施例的动态交互对象的三维姿态检测方法、系统、装置和介质,其基于第一组的主视角和多个从视角的训练用二维图像中的至少一个对象的肢体关键点的二维位置,处理整合以得到所述至少一个对象的第一组的肢体关键点的三维位置;使用所述第一组的主视角的训练用二维图像中包含所述至少一个对象的感兴趣区域和所述至少一个对象的第一组的肢体关键点的三维位置,来构建三维数据集。如此构建而成的三维数据集体现了主视角的二维图像中的对象所在感兴趣区域与对象的肢体关键点的三维位置之间的映射关系,用来训练第二学习网络,就可以让第二学习网络习得所述映射关系。在实际检测与其他对象进行动态交互的目标对象的肢体关键点的动态三维位置时,利用含单个主视角的(相机的)简单拍摄系统所得的多个对象的主视角的待检测二维图像,在多个对象自由且动态地彼此交互的过程中,尽管彼此的遮挡关系复杂多变,依然能够准确且迅速地(包括实时地)识别检出任何目标对象在各个拍摄时刻的肢体关键点的三维位置,从而确定目标对象在此过程中的动态三维姿态。

技术特征:

1.一种动态交互对象的三维姿态检测方法,其中,多个对象彼此之间进行动态交互,其特征在于,包括:

2.根据权利要求1所述的三维姿态检测方法,其特征在于,第一组的主视角和多个从视角的训练用二维图像中的至少一个对象的肢体关键点的二维位置通过如下处理来得到:

3.根据权利要求1所述的三维姿态检测方法,其特征在于,用于得到所述至少一个对象的第一组的肢体关键点的三维位置的处理整合,具体包括:

4.根据权利要求2或3所述的三维姿态检测方法,其特征在于,还包括:

5.根据权利要求1所述的三维姿态检测方法,其特征在于,所述三维数据集的构建具体包括:

6.根据权利要求1所述的三维姿态检测方法,其特征在于,基于所提取的包含目标对象的感兴趣区域,利用训练好的第二学习网络,来检出所述目标对象的肢体关键点的三维位置具体包括:

7.根据权利要求1所述的三维姿态检测方法,其特征在于,所述主视角为顶视角,所述从视角为侧向视角。

8.根据权利要求1所述的三维姿态检测方法,其特征在于,所述至少一个对象位于所述训练用二维图像中部,所述目标对象不同于所述至少一个对象。

9.根据权利要求1所述的三维姿态检测方法,其特征在于,所述包含目标对象的感兴趣区域被提取以仅包含单个目标对象,或者使得单个目标对象居中且占据所述感兴趣区域的面积的预定比率以上。

10.根据权利要求1所述的三维姿态检测方法,其特征在于,所述含多个对象的主视角的待检测二维图像使用单个顶视角相机拍摄得到。

11.根据权利要求1所述的三维姿态检测方法,其特征在于,所述第一学习网络和所述第二学习网络均包括卷积神经网络。

12.根据权利要求1所述的三维姿态检测方法,其特征在于,所述对象包括动物、可动设施和机器人中的任何一种。

13.一种动态交互对象的三维姿态检测系统,其特征在于,包括:

14.一种动态交互对象的三维姿态检测装置,其特征在于,包括至少一个处理器,其配置为执行根据权利要求1-12中任何一项所述的动态交互对象的三维姿态检测方法。

15.一种计算机可读存储介质,其上存储有可执行程序,所述可执行程序由处理器执行时,实现根据权利要求1-12中任何一项所述的动态交互对象的三维姿态检测方法。

技术总结本申请提供一种动态交互对象的三维姿态检测方法、系统、装置及存储介质。该方法包括:基于从主从视角训练用二维图像中的至少一个对象的肢体关键点的二维位置,处理整合以得到第一组的肢体关键点的三维位置,据此构建三维数据集来训练第二学习网络;基于含多个对象的主视角的待检测二维图像,提取包含目标对象的感兴趣区域;基于感兴趣区域利用第二学习网络检出目标对象的肢体关键点的三维位置;由此确定目标对象的动态三维姿态。利用含单个主视角的简单拍摄系统,在多个对象自由动态地彼此交互的过程中,尽管遮挡关系复杂多变,依然能够准确且迅速地识别检出任何目标对象在各个拍摄时刻的肢体关键点的三维位置,确定目标对象的动态三维姿态。技术研发人员:孙一,董冀峥,宁静,张兴江受保护的技术使用者:西湖大学技术研发日:技术公布日:2024/7/29

本文地址:https://www.jishuxx.com/zhuanli/20240730/195052.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。