一种基于家庭场景图的儿童危险行为检测方法
- 国知局
- 2024-07-31 22:48:11
本发明涉及计算机视觉领域,特别是指一种基于家庭场景图的儿童危险行为检测方法。
背景技术:
1、目前人们对家庭安全的关注日益提升,使用计算机视觉技术保证家庭安全是一种有效的方法。儿童的天性使得他们在成长过程中充满好奇心和活力,但同时也因为缺乏对潜在危险的足够警觉而面临一些潜在的风险。儿童往往会在家中进行各种探索和活动,而这些活动有时可能涉及到一些危险行为,例如攀爬高处、接触电器等。在这一背景下,家长的疏忽可能成为儿童安全的隐患,因为无法时刻关注儿童的行为,可能忽略了一些潜在的危险情况。在目前智能家居的背景下,引入场景图生成方法,生成家中的场景图,可以实时检测儿童的行为情况,从而在出现危险行为时及时向家长报警,提供及时、有效的安全保障。
2、家庭场景图的生成是指为家用摄像头拍摄到的家庭情况生成结构化的图表示,这样的结构化表示体现了家中不同人物、物体的相对关系。在这样的家庭场景图中,包含了儿童与其他家具、物品的互动,可以实时监测儿童的行为,当其中行为出现危险的倾向时,做出报警行为提醒附近的成年人。场景图生成任务中的关系分布往往呈现出长尾的特性,很多关系的样本数量非常少,以至于传统的场景图生成方法在家庭为背景的情况下难以获得良好的性能。因此进行家庭场景图的儿童危险行为检测是一个十分有价值的问题。
技术实现思路
1、为了克服现有场景图生成任务在家庭环境下对儿童的危险行为识别准确率低、效率不高的问题,本发明提出了一种基于家庭场景图的儿童危险行为检测方法。
2、本发明解决其技术问题所采用的技术具体步骤是:
3、一种基于家庭场景图的儿童危险行为检测方法,包括以下步骤:
4、步骤一:将visual genome数据集中的图像输入到目标检测器faster r-cnn中,检测出图像中的所有潜在对象集合obj={oi|,i=1,…,n},其中n为对象数量,每个对象oi都具有视觉特征vi,边界框坐标的空间特征si,以及初始的文本模态特征,即对象标签预测li;
5、步骤二:从潜在对象集合obj中任意取出一个对象oi,将对象的视觉特征vi和边界框坐标的空间特征si通过视觉嵌入编码为查询向量qi、键向量ki以及值向量vi的向量三元组<qi,ki,vi>,将向量三元组作为输入送入协同注意力网络;
6、步骤三:将视觉模态的查询-键-值向量三元组<qi,ki,vi>作为输入送入多头注意层ma,获取视觉特征信息θi:
7、θi=ma(qi,ki,vi)=[head1,head2,...,headp,...,headα]wo
8、
9、其中,wo表示输出的权重矩阵,dk表示向量的维度,head1表示第一个注意力头,head2表示第二个注意力头,headp表示第p个注意力头,headα表示最后一个注意力头,p表示[1,α]的任意数字,α表示注意力头的总数,softmax(·)表示使用softmax函数进行计算;
10、步骤四:将多头注意力层的结果θi输入到前馈层中,再对前馈层的输出使用残差连接和层归一化,得到最终的视觉特征gi;
11、步骤五:将对象oi的对象标签预测li通过文本嵌入得到查询-键-值向量三元组,以步骤三、四相同的方式计算出对象oi的最终文本特征ti;
12、步骤六:将gi和ti送入一个两层的全连接神经网络,然后进行相加,获得对象oi的多模态特征zi;
13、步骤七:从潜在对象集合obj中任意取出一个对象oj,其中j≠i,重复步骤二到步骤六,得到对象oj的多模态特征zj;
14、步骤八:将对象oi的多模态特征zi和对象oj的多模态特征zj送入关系分类预测网络,得到对象oi和对象oj的可能谓词关系集合以及与可能谓词关系集合对应的初始预测矩阵其中m表示关系的数量,其中为初始预测矩阵ηij中谓词关系对应的初始预测值;
15、步骤九:从可能谓词关系集合predij中任意选出一个谓词关系标签将该标签作为正样本;
16、步骤十:从可能谓词关系集合predij中任意取出一个谓词关系类别其中m≠n,将该标签作为负样本,计算正样本和负样本的相关性
17、
18、其中<s,o>表示所有对于谓词类别有效的三元组的主宾语对的集合,表示这个三元组不是有效三元组,即对于主宾语对<sn,on>,二者不具有这个关系的可能性,表示这个事件发生的概率;
19、步骤十一:基于谓词类别的分布情况和谓词之间的相关性计算调整因子;
20、
21、其中φm、φn表示谓词关系和的实例数量,其比值体现了正负样本对和在类别分布中的相对位置;u为大于0的超参;β表示谓词关系predn和predm的相关性阈值,当μnm<β时,这对谓词对是弱相关的,反之当μnm≥β时,这对谓词对是强相关的;
22、步骤十二:遍历可能谓词关系集合predij,计算谓词类别的预测概率
23、
24、步骤十三:遍历可能谓词关系集合predij,重复步骤九到十二,计算所有谓词类别关系的预测概率,得到预测概率分布矩阵其中预测概率最高的谓词关系为谓词关系预测结果,记为得到场景图的三元组
25、步骤十四:计算损失值
26、
27、其中,yr是一个独热编码(one-hot encoding)向量,表示对象oi和对象oj的真实关系标签,谓词关系为数据集标注的真实关系时取值为1,否则为0;
28、步骤十五:利用随机梯度下降方法更新模型参数;遍历潜在对象集合obj,重复步骤二到步骤十四,计算其中所有对象之间的关系,当l小于指定的最小损失值后,结束计算,得到训练好的场景生成模型;
29、步骤十六:将家用摄像头采集的图像缩放至固定大小m*n;将其送入训练好的场景图生成模型,得到对应的场景图;
30、步骤十七:遍历场景图中所有的主谓宾三元组<s,r,o>,监测其中和儿童实时位置相关的所有三元组,当发现相关三元组出现可能的危险行为时及时报警。
31、本发明的技术构思为:在儿童危险行为检测任务中,针对家庭场景图的生成,挖掘关系类别在分布情况中的频率以及不同关系类别之间的相关性,实现尾部关系谓词的自适应重加权,提高对儿童危险行为的检测性能。
32、本发明的有益效果是:能够自适应地调整家庭场景图中位于关系类别尾部的儿童危险行为的权重,检测准确度高,效果好。
技术特征:1.一种基于家庭场景图的儿童危险行为检测方法,其特征在于,所述方法包括以下步骤:
技术总结一种基于家庭场景图的儿童危险行为检测方法,使用多头注意力机制,将目标检测器Faster R‑CNN的目标检测结果转化为多模态的特征;使用主宾语对的特征推理二者之间的关系;综合考虑谓词关系在关系分布中的出现频率和不同谓词关系之间的语义相关性,计算调整因子,在计算损失阶段调整对不同的谓词类别关系进行重加权,减少头部谓词类别对罕见的尾部谓词类别的惩罚,使模型更多关注具有丰富信息量的谓词关系,形成识别性能优秀的场景图模型;使用这样的模型实时监测家庭中儿童的活动情况,对儿童出现的危险行为进行报警。本发明综合考虑谓词关系的出现频率和谓词之间的相关性,提高了对家庭场景下的儿童危险行为的识别速度和精度。技术研发人员:杨旭华,何家靖,叶蕾受保护的技术使用者:浙江工业大学技术研发日:技术公布日:2024/7/29本文地址:https://www.jishuxx.com/zhuanli/20240730/194686.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。
下一篇
返回列表