基于不确定性估计的第一视角行为识别方法及系统
- 国知局
- 2025-01-10 13:35:10
本发明涉及行为识别,特别是涉及一种基于不确定性估计的第一视角行为识别方法及系统。
背景技术:
1、本部分的陈述仅仅是提供了与本发明相关的背景技术信息,不必然构成在先技术。
2、随着智能眼镜等可穿戴技术的广泛应用,以自我为中心(即第一视角)的视频行为识别(video action recognition,var)正逐渐成为视频行为识别领域的一个重大转折点。这些设备从根本上改变了数据收集的方式,提供了第一人称视角,这在增强现实和机器人技术等领域尤为重要。通过这种视角,系统可以更深入地了解用户的交互行为,从而提升用户体验,覆盖从个人助理到医疗监控以及互动游戏等广泛的应用场景。
3、然而,第一视角视频行为识别面临着独特的挑战,特别是在开放集识别的背景下。开放集识别要求系统不仅能够识别已知的动作类别,还能检测并标记出从未见过的新动作,将其归为“未知”类别。这一要求源于封闭集环境的局限性,封闭集环境下的分类器通常仅在预定义的类别上进行训练和测试,缺乏应对新出现的、未曾见过的类别的能力。而在现实世界中,随着技术的不断发展和应用的变化,新操作层出不穷,这对行为识别系统的适应性提出了更高的要求。
4、当前的自我视角视频行为识别研究大多集中在封闭集场景上,因此常常无法有效处理开放集环境中的复杂性。这一缺陷进一步强调了开发新的识别方法的必要性,使其能够在识别范围广泛的操作时保持高精度和高可靠性,尤其是在遇到新颖且未见过的操作时。
5、将第三视角的视频动作识别方法直接应用到第一视角行为识别上存在明显的局限性。虽然第三视角的视频动作识别在大量研究、复杂模型和数据集开发的推动下取得了显著进展,但这些方法难以直接应用于第一视角视频动作识别。主要挑战在于两者在数据特征上的差异以及视角不同导致的对动作上下文理解的不同。第一视角的视频通常未经预处理,并且由于视角的局限和运动模糊等原因,要求同时进行动作和物体的识别。例如,在处理“切菜”这一行为时,系统不仅需要识别动词“切”,还需识别名词“蔬菜”,而这在第三视角的视频动作识别中通常并不需要如此细致的处理。因此,第一视角行为识别的方法需要进一步发展,以克服这些独特的挑战。
技术实现思路
1、为了解决上述问题,本发明提出了一种基于不确定性估计的第一视角行为识别方法及系统,不仅可以识别视频中的动作和对象,还能够评估这些识别结果的确定性,在应对不确定性和未知动作时更具优势,显著提高了开放集第一视角行为识别任务的准确度,使得在开放环境中的应用更加可靠。
2、为了实现上述目的,本发明采用如下技术方案:
3、第一方面,本发明提供一种基于不确定性估计的第一视角行为识别方法,包括以下步骤:
4、获取第一视角视频,对第一视角视频进行预处理,获得训练样本;
5、对训练样本进行多阶段不同尺度的特征提取,对不同阶段的特征进行整合,获得第一特征;
6、对第一特征进行分类预测,量化分类结果的不确定性,获得分类的证据向量,定义第一损失函数,最小化模型预测的证据参数和真实情况的差异,获得预测标签,定义第二损失函数,最小化预测标签与真实标签之间的差异;
7、汇总损失函数,优化模型参数,获得训练好的行为识别模型。
8、作为可选择的实施方式,对第一视角视频进行预处理,包括对获取的第一视角视频进行真实标签的标注。
9、作为可选择的实施方式,对训练样本进行多阶段不同尺度的特征提取,具体为:
10、在每个特征提取阶段,利用动态位置嵌入捕获视频中的空间和时间位置信息,利用多头关系聚合器聚合不同时间帧的关系信息,利用前馈网络进一步提取和强化特征。
11、作为可选择的实施方式,共有四个特征提取阶段,每个特征提取阶段的特征提取尺度不同,通过整合不同阶段的特征,获得层次化的特征表示。
12、作为可选择的实施方式,所述第一损失函数定义为:
13、
14、其中,表示狄利克雷集中参数在k个类别中的总和,代表证据的整体强度,是一个常数,log(αj)是对模型预测的证据参数αj的对数变换,tj是与动作标签y相对应的独热编码向量中的二进制指示器,j为分类类别,k代表类别数量。
15、作为可选择的实施方式,所述第二损失函数定义为:
16、
17、其中,tj是与动作标签y相对应的独热编码向量中的二进制指示器,j为分类类别,k代表类别数量,是模型对于第j个类别的原始预测值。
18、第二方面,本发明提供一种基于不确定性估计的第一视角行为识别系统,包括:
19、数据获取和预处理模块,被配置为:获取第一视角视频,对第一视角视频进行预处理,获得训练样本;
20、特征提取模块,被配置为:对训练样本进行多阶段不同尺度的特征提取,对不同阶段的特征进行整合,获得第一特征;
21、分类模块,被配置为:对第一特征进行分类预测,量化分类结果的不确定性,获得分类的证据向量,定义第一损失函数,最小化模型预测的证据参数和真实情况的差异,获得预测标签,定义第二损失函数,最小化预测标签与真实标签之间的差异;
22、模型训练模块,被配置为:汇总损失函数,优化模型参数,获得训练好的行为识别模型。
23、第三方面,本发明提供一种电子设备,包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成第一方面所述的方法。
24、第四方面,本发明提供一种计算机可读存储介质,用于存储计算机指令,所述计算机指令被处理器执行时,完成第一方面所述的方法。
25、第五方面,本发明提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现完成第一方面所述的方法。
26、与现有技术相比,本发明的有益效果为:
27、本公开提出一种基于不确定性估计的第一视角行为识别方法及系统,基于openear框架,能够有效处理第一人称视角下常见的多样化且未经策划的内容。通过多尺度的特征提取,能够理解第一视角视频中的复杂动作,通过四个阶段的特征提取过程,有效地捕捉到视频中的局部细节和全局上下文信息。通过与双头证据深度网络分类器相结合,达到对开放集的第一视角视频动作进行可信的、具有动名词区分的识别的良好性能。不仅可以识别视频中的动作和对象,还能够评估这些识别结果的确定性。这种能力使得模型在应对不确定性和未知动作时更具优势,在复杂多变的环境中能够保持较高的识别准确性。显著提高了开放集第一视角行为识别任务的准确度,使得在开放环境中的应用更加可靠。
28、本发明附加方面的优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
技术特征:1.基于不确定性估计的第一视角行为识别方法,其特征在于,包括以下步骤:
2.如权利要求1所述的基于不确定性估计的第一视角行为识别方法,其特征在于,对第一视角视频进行预处理,包括对获取的第一视角视频进行真实标签的标注。
3.如权利要求1所述的基于不确定性估计的第一视角行为识别方法,其特征在于,对训练样本进行多阶段不同尺度的特征提取,具体为:
4.如权利要求3所述的基于不确定性估计的第一视角行为识别方法,其特征在于,共有四个特征提取阶段,每个特征提取阶段的特征提取尺度不同,通过整合不同阶段的特征,获得层次化的特征表示。
5.如权利要求1所述的基于不确定性估计的第一视角行为识别方法,其特征在于,所述第一损失函数定义为:
6.如权利要求1所述的基于不确定性估计的第一视角行为识别方法,其特征在于,所述第二损失函数定义为:
7.基于不确定性估计的第一视角行为识别系统,其特征在于,包括:
8.一种电子设备,其特征在于,包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成权利要求1-6任一项所述的方法。
9.一种计算机可读存储介质,其特征在于,用于存储计算机指令,所述计算机指令被处理器执行时,完成权利要求1-6任一项所述的方法。
10.一种计算机程序产品,其特征在于,包括计算机程序,所述计算机程序被处理器执行时实现完成权利要求1-6任一项所述的方法。
技术总结本发明属于行为识别技术领域,公开了一种基于不确定性估计的第一视角行为识别方法及系统,包括获取第一视角视频,对第一视角视频进行预处理,获得训练样本;对训练样本进行多阶段不同尺度的特征提取,对不同阶段的特征进行整合,获得第一特征;对第一特征进行分类预测,量化分类结果的不确定性,获得分类的证据向量,定义第一损失函数,最小化模型预测的证据参数和真实情况的差异,获得预测标签,定义第二损失函数,最小化预测标签与真实标签之间的差异;汇总损失函数,优化模型参数,获得训练好的行为识别模型。本发明在应对不确定性和未知动作时更具优势,显著提高了开放集第一视角行为识别任务的准确度,使得在开放环境中的应用更加可靠。技术研发人员:刘萌,邹沂杉,聂礼强,刘慧,关惟俐,宋雪萌,郭杰,郭洋洋受保护的技术使用者:山东建筑大学技术研发日:技术公布日:2025/1/6本文地址:https://www.jishuxx.com/zhuanli/20250110/354046.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。