一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

事故检测方法、装置、电子设备和存储介质

2022-06-29 17:31:41 来源:中国专利 TAG:


1.本发明涉及计算机技术领域,尤其涉及一种事故检测方法、装置、电子设备和存储介质。


背景技术:

2.随着视频监控技术的发展与应用,道路监控摄像头的大量安装,为道路交通状态监控,及时处置交通事故提供了条件。
3.传统的交通事故排查方式是人工监测,需要人员全天值守、观看监控视频,不仅需要耗费大量的人力,还受到人眼分辨能力、疲劳程度等人工不可控因素影响,可靠性不高。
4.而随着深度学习在计算机视觉任务中的广泛应用,基于视频的交通事故检测方法因运而生。目前此类方案多是从视频中获取目标的外观和运动两方面信息,从中提取特征并据此进行事故检测。但是直接从目标的外观和运行信息中提取特征,会导致部分信息丢失,影响检测精度,且特征的提取和事故的检测过度依赖目标检测和跟踪的精度,也会影响事故检测的可靠性。


技术实现要素:

5.本发明提供一种事故检测方法、装置、电子设备和存储介质,用以解决现有技术中基于视频中目标的相关信息进行事故检测,检测精度和可靠性低的问题。
6.本发明提供一种事故检测方法,包括:
7.确定待检测视频的图像帧序列;
8.基于全局提取网络,对所述图像帧序列进行三维特征提取,得到所述待检测视频的全局特征;
9.基于局部提取网络,应用所述图像帧序列中各帧图像的检测目标和目标位置,确定所述待检测视频的局部特征;
10.基于融合分类网络,应用所述全局特征和所述局部特征,确定所述待检测视频的事故检测结果。
11.根据本发明提供的一种事故检测方法,所述基于全局提取网络,对所述图像帧序列进行三维特征提取,得到所述待检测视频的全局特征,包括:
12.基于所述全局提取网络中的多层三维卷积网络,对所述图像帧序列进行多层三维卷积,得到第一卷积特征和第二卷积特征,所述第一卷积特征在所述第二卷积特征之前卷积得到;
13.基于所述全局提取网络中的注意力网络,应用所述第一卷积特征,确定所述第二卷积特征的注意力权重,并应用所述注意力权重,对所述第二卷积特征进行加权,得到所述全局特征。
14.根据本发明提供的一种事故检测方法,所述第一卷积特征和所述第二卷积特征分别为所述多层三维卷积的倒数第二层和倒数第一层输出的卷积特征;
15.所述应用所述第一卷积特征,确定所述第二卷积特征的注意力权重,包括:
16.对所述第一卷积特征进行单层三维卷积,得到与所述第二卷积特征相同维度的第三卷积特征;
17.基于所述第三卷积特征,确定所述注意力权重。
18.根据本发明提供的一种事故检测方法,所述基于局部提取网络,应用所述图像帧序列中各帧图像的检测目标和目标位置,确定所述待检测视频的局部特征,包括:
19.基于所述局部提取网络中的目标检测网络,确定所述图像帧序列的各帧图像中检测目标的目标特征和目标位置;
20.基于所述局部提取网络中的时空提取网络,对所述各帧图像的目标特征图进行时空信息提取,得到所述局部特征,所述目标特征图基于对应图像中检测目标的目标特征和目标位置确定。
21.根据本发明提供的一种事故检测方法,所述基于所述局部提取网络中的时空提取网络,对所述各帧图像的目标特征图进行时空信息提取,得到所述局部特征,包括:
22.基于所述时空提取网络中的图卷积网络,对所述各帧图像的目标特征图进行空间信息提取,得到所述各帧图像的目标空间关系;
23.基于所述时空提取网络中的时序提取网络,对所述各帧图像的目标空间关系进行时序特征提取,得到所述待检测视频的局部特征。
24.根据本发明提供的一种事故检测方法,所述基于融合分类网络,应用所述全局特征和所述局部特征,确定所述待检测视频的事故检测结果,包括:
25.基于所述融合分类网络,对所述全局特征和所述局部特征进行融合,并基于融合所得的特征进行上下文提取,得到上下文特征,应用所述上下文特征进行事故分类,确定所述事故检测结果。
26.根据本发明提供的一种事故检测方法,所述全局提取网络、所述局部提取网络和所述融合分类网络基于如下步骤确定:
27.基于初始全局提取网络、初始局部提取网络和初始融合分类网络构建初始检测网络;
28.基于携带有事故标签的第一样本视频,对所述初始检测网络进行训练,基于训练完成的初始检测网络确定所述全局提取网络、所述局部提取网络和所述融合分类网络。
29.根据本发明提供的一种事故检测方法,所述初始全局提取网络是基于携带有事故标签的第二样本视频,联合全局分类网络训练得到的,所述全局分类网络用于基于全局特征进行事故检测。
30.本发明还提供一种事故检测装置,包括:
31.序列确定单元,用于确定待检测视频的图像帧序列;
32.全局提取单元,用于基于全局提取网络,对所述图像帧序列进行三维特征提取,得到所述待检测视频的全局特征;
33.局部提取单元,用于基于局部提取网络,应用所述图像帧序列中各帧图像的检测目标和目标位置,确定所述待检测视频的局部特征;
34.融合分类单元,用于基于融合分类网络,应用所述全局特征和所述局部特征,确定所述待检测视频的事故检测结果。
35.本发明还提供一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述任一种所述事故检测方法的步骤。
36.本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述事故检测方法的步骤。
37.本发明提供的事故检测方法、装置、电子设备和存储介质,通过联合待检测视频的全局特征和局部特征进行事故检测,无论针对目标剧烈变化导致目标检测失效或者跟丢的情况,还是针对场景变化不明显的情况,均能够准确、可靠地完成事故检测,从而保证能够及时监控到交通事故,便于事故排查的及时性。
附图说明
38.为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图简要地说明,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
39.图1是本发明提供的事故检测方法的流程示意图;
40.图2是本发明提供的事故检测方法中步骤120的流程示意图;
41.图3是本发明提供的全局提取网络的结构示意图;
42.图4是本发明提供的事故检测方法中步骤130的流程示意图;
43.图5是本发明提供的局部提取网络的结构示意图;
44.图6是本发明提供的第一阶段训练的结构示意图;
45.图7是本发明提供的事故检测方法的流程示意图;
46.图8是本发明提供的事故检测装置的结构示意图;
47.图9是本发明提供的电子设备的结构示意图。
具体实施方式
48.为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
49.随着深度学习在计算机视觉任务中的广泛应用,基于视频的交通事故检测方法因运而生。
50.目前此类方案多是从视频中获取目标的外观和运动两方面信息,从中提取特征并据此进行事故检测。其中由目标的外观信息所提取的特征用于判断车辆和行人较正常状态有无发生明显变化,例如是否存在车辆侧翻、行人摔倒的情况;由目标的运行信息所提取的特征用于判断是否发生车辆与行人轨迹的相交、速度和角速度的突变等情况。
51.直接从目标的外观和运行信息中提取特征,过于关注局部的信息,会导致部分信息丢失,忽略对于整个交通场景的理解,因此不能很好地识别非事故场景,如交通堵塞等,影响事故检测精度。此外,同时捕捉外观和运动在特征上的融合的方法,需要通过目标检测
和目标跟踪网络建模目标时序上的信息关联,只关注目标的局部信息,过度依赖目标检测和跟踪的精度,而忽略视频全局的信息,也会影响事故检测的可靠性。
52.针对上述问题,本发明实施例提供了一种事故检测方法,图1是本发明提供的事故检测方法的流程示意图,如图1所示,该方法包括:
53.步骤110,确定待检测视频的图像帧序列。
54.具体地,待识别视频即需要进行事故检测的视频,此处待识别视频可以是预先拍摄并存储的视频,也可以是实时采集的视频流,本发明实施例对此不作具体限定。图像帧序列是对待识别视频进行采样得到的,图帧像序列包含多帧图像,每帧图像均来源于待识别视频,且多帧图像按照待识别视频中的时间顺序排列,从而形成图像帧序列。
55.需要说明的是,在对待识别视频进行采集时,通常是基于待识别视频的总帧数进行均匀的顺序采集,由此得到的每帧图像之间的时间间隔相等。或者,也可以是直接将待识别视频中的各帧图像按照时序直接组合形成图像帧序列,例如可以每16帧作为一组图像帧序列。
56.步骤120,基于全局提取网络,对所述图像帧序列进行三维特征提取,得到所述待检测视频的全局特征。
57.此处,全局提取网络即预先训练好的用于对图像帧序列进行全局特征提取的神经网络,例如可以将图像帧序列输入到全局提取网络中,由全局提取网络对输入的图像帧序列进行三维特征提取,并将提取所得的三维特征作为待检测视频的全局特征。
58.其中,对图像帧序列进行三维特征提取,即,将在图像帧本身的两个维度,以及图像帧序列中各帧图像之间的时序所对应的维度,共三个维度上,对图像帧序列整体进行特征提取。此处,进行三维特征提取可以通过3d-cnn(convolutional neural networks,卷积神经网络)实现。通过全局提取网络对图像帧序列进行三维特征提取,可以保证由此得到的全局特征,能够涵盖图像帧序列中各帧图像以及各帧图像之间时序上的信息,从整体上反映待检测视频在交通场景上的信息。
59.步骤130,基于局部提取网络,应用所述图像帧序列中各帧图像的检测目标和目标位置,确定所述待检测视频的局部特征。
60.此处,局部提取网络即预先训练好的用于对图像帧序列进行局部目标特征提取的神经网络,例如可以将图像帧序列输入到局部提取网络中,由局部提取网络对图像帧序列中的各帧图像进行目标检测,从而确定各帧图像中包含的车辆、行人等检测目标并确定其目标位置,在此基础上基于各帧图像中检测目标的位置关系和位置变化等情况,确定待检测视频的局部特征;或者,也可以先对图像帧序列中的各帧图像进行目标检测,再将各帧图像中包含的检测目标及其目标位置输入到局部提取网络中进行局部特征提取。
61.由此提取得到的局部特征,能够反映待检测视频中的各个检测目标在空间上和时序上的信息,从侧重于局部目标的层面上表现待检测视频在车辆、行人等检测目标上的信息。
62.需要说明的是,步骤120和步骤130可以同步执行,步骤120也可以在步骤130之前或者之后执行,本发明实施例对此不作具体限定。
63.步骤140,基于融合分类网络,应用所述全局特征和所述局部特征,确定所述待检测视频的事故检测结果。
64.此处,融合分类网络即预先训练好的用于结合全局特征和局部特征进行事故检测的神经网络,例如可以将步骤120和步骤130分别得到的全局特征和局部特征输入到融合分类网络中,由融合分类网络将全局特征和局部特征融合后进行事故分类,从而得到事故检测结果,或者也可以将全局特征和局部特征输入到融合分类网络中,由融合分类网络分别对全局特征和局部特征进行事故分类,得到基于全局特征的分类结果和基于局部特征的分类结果,基于此进行整合,从而得到事故检测结果,此处的事故检测结果用于反映待检测视频中是否发生了交通事故,如果发生了交通事故,事故检测结果还可以进一步包括发生交通事故的类型或者严重程度等,或者还可以进一步包括事故发生的起始帧和结束帧。
65.在此过程中,针对待检测视频的事故检测,结合了全局特征和局部特征两个层面的特征,其中全局特征的应用可以充分挖掘交通场景的特征,但是可能造成交通场景内的细小变化难以被捕捉识别,而局部特征的应用可以针对性地给出与交通事故直接关联的检测目标的特征,但是多余依赖目标检测和跟踪的进度,漏检或者目标丢失都会导致事故检测失效。而此两者的结合,恰能够相互弥补单一类型的特征在事故检测层面上存在的欠缺,有助于提高事故检测的可靠性和准确性。
66.本发明实施例提供的方法,通过联合待检测视频的全局特征和局部特征进行事故检测,无论针对目标剧烈变化导致目标检测失效或者跟丢的情况,还是针对场景变化不明显的情况,均能够准确、可靠地完成事故检测,从而保证能够及时监控到交通事故,便于事故排查的及时性。
67.基于上一实施例,图2是本发明提供的事故检测方法中步骤120的流程示意图,如图2所示,步骤120包括:
68.步骤121,基于所述全局提取网络中的多层三维卷积网络,对所述图像帧序列进行多层三维卷积,得到第一卷积特征和第二卷积特征,所述第一卷积特征在所述第二卷积特征之前卷积得到;
69.步骤122,基于所述全局提取网络中的注意力网络,应用所述第一卷积特征,确定所述第二卷积特征的注意力权重,并应用所述注意力权重,对所述第二卷积特征进行加权,得到所述全局特征。
70.具体地,全局提取网络可以包括多层三维卷积网络和注意力网络,其中多层三维卷积网络可以体现为多个级联的三维卷积层,前一三维卷积层的输出即后一三维卷积层的输入。
71.在步骤121中,通过多层三维卷积网络,可以将图像帧序列作为整体进行逐层的三维卷积特征提取,从而得到第一卷积特征和第二卷积特征,由于多层三维卷积网络中各个级联的三维卷积层是逐层进行卷积,通过三维卷积层输出卷积特征也存在先后的区别,第一卷积特征在第二卷积特征之前卷积得到,即多层三维卷积网络先基于图像帧序列进行三维卷积得到第一卷积特征,再基于第一卷积特征进行三维卷积得到第二卷积特征。例如,多层三维卷积网络可以包括5层级联的三维卷积层,第一卷积特征可以是第三层卷积得到的,第二卷积特征可以是第五层卷积得到的。
72.考虑到仅应用多层三维卷积网络得到的卷积特征较为粗糙,其中可能包含很多无用的背景信息,可能会对事故检测产生一定的干扰,本发明实施例在步骤122中,应用全局提取网络中的注意力网络,通过确定注意力权重再进行加权的方式,提高图像帧序列整体
的信息中对于与交通事故相关的信息的关注,得到在反映图像帧序列全局场景的同时还能凸显其中与交通事故相关的信息的全局特征。
73.本发明实施例提供的方法,通过在全局特征提取的过程中引入注意力机制,使得全局特征在反映图像帧序列全局场景的同时,还能凸显其中与交通事故相关的信息,有助于滤除直接卷积得到的特征中携带的无用信息,提高事故检测的可靠性。
74.基于上述任一实施例,所述第一卷积特征和所述第二卷积特征分别为所述多层三维卷积的倒数第二层和倒数第一层输出的卷积特征。
75.例如,多层三维卷积网络可以包括5层级联的三维卷积层,第一卷积特征可以是第四层卷积得到的,第二卷积特征可以是第五层卷积得到的。又例如,多层三维卷积网络可以包括6层级联的三维卷积层,第一卷积特征可以是第五层卷积得到的,第二卷积特征可以是第六层卷积得到的。
76.步骤122中,所述应用所述第一卷积特征,确定所述第二卷积特征的注意力权重,包括:
77.对所述第一卷积特征进行单层三维卷积,得到与所述第二卷积特征相同维度的第三卷积特征;
78.基于所述第三卷积特征,确定所述注意力权重。
79.具体地,由于第一卷积特征先于第二卷积特征卷积得到,第一卷积特征的特征维度大于第二卷积特征,因此,需要另外针对第一卷积特征进行单层三维卷积,从而将第一卷积特征的特征维度规整到与第二卷积特征相同的特征维度中,由此得到第三卷积特征。
80.在此基础上,可以通过对第三卷积特征进行1*1卷积,或者对第三卷积特征进行自注意力转换,从而得到注意力权重。
81.例如,图3是本发明提供的全局提取网络的结构示意图,如图3所示,图像帧序列包含了从t时刻到t t时刻的图像,图像帧序列通过多层三维卷积网络(3d-cnn)得到第一卷积特征和第二卷积特征,图3中的第一卷积特征是多层三维卷积网络中的第四层三维卷积层输出的,记为f4,第二卷积特征是多层三维卷积网络中的第五层三维卷积层输出的,记为f5。第一卷积特征f4经过时空注意力转换得到注意力权重w,在此基础上,第二卷积特征f5在经过注意力权重w加权之后,与原始的第二卷积特征f5相加作为最终的全局特征。
82.其中,时空注意力转换即,对第一卷积特征f4进行三维卷积,得到与第二卷积特征f5相同维度的特征,再通过1*1卷积进行降维,从而得到注意力权重w。
83.上述流程中,全局特征可以记为f5’,具体体现为如下公式:
84.f5’=f5 w*f5
85.式中,*代表对位乘积操作。
86.基于上述任一实施例,图4是本发明提供的事故检测方法中步骤130的流程示意图,如图4所述,步骤130包括:
87.步骤131,基于所述局部提取网络中的目标检测网络,确定所述图像帧序列的各帧图像中检测目标的目标特征和目标位置;
88.步骤132,基于所述局部提取网络中的时空提取网络,对所述各帧图像的目标特征图进行时空信息提取,得到所述局部特征,所述目标特征图基于对应图像中检测目标的目标特征和目标位置确定。
89.具体地,局部提取网络可以包括目标检测网络和时空提取网络。
90.其中,目标检测网络用于实现输入图像的目标检测定位,此处的目标检测网络可以通过单一阶段的目标检测方法实现,也可以通过两阶段的目标检测方法例如faster-rcn实现,本发明实施例对此不作具体限定。步骤131中,可以将图像帧序列输入到目标检测网络中,由目标检测网络对于图像帧序列中各帧图像中包含的车辆、行人等目标进行检测定位,从而得到各帧图像中检测目标的目标特征和目标位置。其中,针对任一帧图像中任一检测目标而言,该检测目标的目标位置即该目标的最小外接框在图像中的坐标,该检测目标的目标特征可以是基于目标位置划定的目标区域在图像特征中对应的特征,此处的图像特征可以是在目标检测过程中提取的该图像的特征,例如在应用faster-rcn进行目标检测时,图像特征可以是faster-rcn中的全连接层(fc layer)提取的低维特征。
91.考虑到交通事故的发生可能仅仅体现在图像中的一个目标上,而发生交通事故的目标通常也会存在与之发生交互的目标,因此可以在检测到各帧图像中包含的检测目标之后,可以基于检测目标的目标特征和目标位置构建各帧图像的目标特征图。此处,目标特征图中,以各检测目标的目标特征作为节点,基于检测目标各自的目标位置计算检测目标之间的距离,并基于检测目标之间的距离确定检测目标对应节点之间连接边的权值,由此得到的目标特征图g可以表示为:
92.g=(v,e)
93.其中,v代表图像中提取的检测目标的目标特征,e代表检测目标之间的距离。
94.时空提取网络可用于对输入的目标特征图从时序信息和空间信息两个维度上进行特征提取,从而得到既能够体现待检测视频中的各个检测目标的空间关系,也能够反映待检测视频中各帧图像中的检测目标在时序上的变化信息的局部特征。
95.基于上述任一实施例,步骤132包括:
96.基于所述时空提取网络中的图卷积网络,对所述各帧图像的目标特征图进行空间信息提取,得到所述各帧图像的目标空间关系;
97.基于所述时空提取网络中的时序提取网络,对所述各帧图像的目标空间关系进行时序特征提取,得到所述待检测视频的局部特征。
98.具体地,时空提取网络可以包括图卷积网络和时序提取网络,其中图卷积网络用于实现检测目标的空间信息聚合,时序提取网络用于实现检测目标的时间信息聚合。
99.其中,图卷积网络可用于对输入的图进行特征提取,因此可以将各帧图像的目标特征图输入到图卷积网络中,由图卷积网络对目标特征图所体现的其中各个节点的目标特征,以及各个节点间连接边的距离进行特征提取,从而聚合交通场景下待检测视频中各检测目标之间的空间信息,得到各帧图像的目标空间关系。
100.时序提取网络可用于聚合每次输入的特征之间的时序关系,具体可以逐帧输入图像的目标空间关系至时序提取网络,时序提取网络可以记忆上一时刻提取的目标空间关系的特征,并应用到当前时刻输入的目标空间关系的特征提取中,由此得到的时序提取网络基于最后一帧图像的目标空间关系的输出,即包含了图像帧序列中所有图像的目标空间关系在时序上的关联的局部特征。
101.此处,时序提取网络可以是长短时记忆网络(long short-term memory,lstm)、循环神经网络(recurrent neural network,rnn)等,本发明实施例对此不作具体限定。
102.基于上述任一实施例,图5是本发明提供的局部提取网络的结构示意图,如图5所示,局部提取网络包括目标检测网络、图卷积网络和循环神经网络,其中循环神经网络起到时序提取的作用。通过目标检测网络完成图像帧序列中各帧图像的目标检测之后,即可基于各帧图像包含的检测目标的目标特征和目标位置,构建各帧图像的目标特征图,通过图卷积网络(graph convolutional network,gcn)对目标特征图进行特征提取,即可得到各帧图像的目标空间关系。在此基础上,逐帧输入图像的目标空间关系至循环神经网络,使得循环神经网络的隐藏层的输入不仅包括输入层的输出,还包括上一时刻隐藏层的输出,由此得到包含了图像帧序列中所有图像的目标空间关系在时序上的关联的局部特征。
103.基于上述任一实施例,步骤140包括:
104.基于所述融合分类网络,对所述全局特征和所述局部特征进行融合,并基于融合所得的特征进行上下文提取,得到上下文特征,应用所述上下文特征进行事故分类,确定所述事故检测结果。
105.具体地,在分别得到全局特征和局部特征之后,即可通过融合分类网络,对此两者进行融合,并基于融合后的特征进行事故检测的分类。在此过程中,全局特征和局部特征的融合可以通过拼接或者加权相加等方式实现,考虑到交通事故是具有高度的上下文特性的,因此在得到融合之后的特征后,即可通过rnn或者lstm等对融合所得的特征进行时序信息的构建,即上下文提取,从而得到能够反映待检测视频时序的上下文特征。在得到上下文特征之后,即可基于上下文特征进行分类,从而得到待分析视频中是否存在交通事故的事故检测结果,即完成事故检测。
106.其中,上下文特征的提取可以通过rnn、lstm等实现,考虑,lstm在rnn的基础上,增加了对过去状态的过滤,从而可以选择哪些状态对当前更有影响,解决了rnn在长时建模中出现的梯度消失的问题,更适合构建长时依赖,作为优选,可以在融合分类网络中设置lstm以实现上下文特征提取。
107.基于上述任一实施例,所述全局提取网络、所述局部提取网络和所述融合分类网络基于如下步骤确定:
108.基于初始全局提取网络、初始局部提取网络和初始融合分类网络构建初始检测网络;
109.基于携带有事故标签的第一样本视频,对所述初始检测网络进行训练,基于训练完成的初始检测网络确定所述全局提取网络、所述局部提取网络和所述融合分类网络。
110.具体地,初始全局提取网络、初始局部提取网络和初始融合分类网络分别对应全局提取网络、局部提取网络和融合分类网络的初始化网络,将初始全局提取网络和初始局部提取网络的输出与初始融合分类网络的输入连接,即构成初始检测网络。此处,初始全局提取网络、初始局部提取网络和初始融合分类网络自身的网络参数可以是初始化得到的,也可以是预训练得到的,本发明实施例对此不作具体限定。
111.在确定初始检测网络之后,即可将预先收集并标注有是否发生事故的事故标签的第一样本视频,应用到初始检测网络的训练中,从而实现初始检测网络的有监督训练。训练完成后的初始检测网络,即包括了事故检测中应用的全局提取网络、局部提取网络和融合分类网络。
112.进一步地,针对第一样本视频的事故标签,其中正常的第一样本视频可以不作标
注,存在事故的第一样本视频,可以标注其中发生事故时的起始帧和事故发生后的结束帧作为事故标签,此处所指的结束帧的位置,可以是以车辆均停止或者视频结束为止。
113.基于上述任一实施例,在针对初始检测网络整体进行训练的过程中,将第一样本视频的图像帧序列作为初始检测网络的输入,即可得到初始检测网络针对第一样本视频输出的预测检测结果,预测检测结果中可以包含初始检测网络预测第一样本视频中包含事故的概率。在得到预测检测结果之后,可以基于如下损失函数loss1,对初始检测网络进行参数更新迭代:
[0114][0115]
式中,n1为第一样本视频的数量,y
1i
为第i个第一样本视频的事故标签,y
1i
取0表示正常,取1表示存在事故,p(y
1i
)为第i个第一样本视频的预测检测结果,p(y
1i
)的取值在0-1之间。
[0116]
基于上述任一实施例,所述初始全局提取网络是基于携带有事故标签的第二样本视频,联合全局分类网络训练得到的,所述全局分类网络用于基于全局特征进行事故检测。
[0117]
具体地,为了提高初始检测网络的训练效率和训练效果,在基于初始全局提取网络构建初始检测网络之前,可以预先对初始全局提取网络进行训练。
[0118]
此处,在针对初始全局提取网络进行训练时,需要联合初始分类网络实现,初始分类网络串接在初始全局提取网络之后,在初始全局提取网络对输入的第二样本视频进行全局特征提取之后,初始分类网络可以基于初始全局提取网络提取得到的全局特征进行事故分类,并输出基于全局特征的预测结果。此处,基于全局特征的预测结果可以包含初始全局提取网络和全局分类网络联合预测第二样本视频中包含事故的概率,此两者联合训练的损失函数loss2可以表示为如下公式:
[0119][0120]
式中,n2为第二样本视频的数量,y
2i
为第i个第二样本视频的事故标签,y
2i
取0表示正常,取1表示存在事故,p(y
2i
)为第i个第二样本视频的基于全局特征的预测结果,p(y
2i
)的取值在0-1之间。
[0121]
需要说明的是,此处的第二样本视频与上述实施例中的第一样本视频可以是同一批样本视频,也可以是不同批的样本视频,本发明实施例对此不作具体限定。
[0122]
基于上述任一实施例,全局提取网络、局部提取网络和融合分类网络可以基于两阶段的训练得到:
[0123]
第一阶段下,构建初始全局提取网络,基于携带有事故标签的第二样本视频,对初始全局提取网络和全局分类网络进行联合训练;图6是本发明提供的第一阶段训练的结构示意图,如图6所示,初始全局提取网络的输出即全局分类网络的输入,此处的全局分类网络可以是全连接层(feed-forward network,ffn),也可以是其他类型的分类网络。
[0124]
第二阶段,将训练完成的初始全局提取网络,与初始局部提取网络和初始融合分类网络联合构建初始检测网络,基于携带有事故标签的第一样本视频,对初始检测网络进
行训练,从而得到训练完成的全局提取网络、局部提取网络和融合分类网络。
[0125]
基于上述任一实施例,图7是本发明提供的事故检测方法的流程示意图,如图7所示,可以在实际场景中,应用本地架设的监控摄像头获取监控视频作为待分析视频,并将待分析视频的图像帧序列传输到包含全局提取网络、局部提取网络和融合分类网络的事故检测网络中。
[0126]
其中,全局提取网络中的多层三维卷积网络对图像帧序列进行多层三维卷积,得到第一卷积特征和第二卷积特征,注意力网络则应用第一卷积特征,确定第二卷积特征的注意力权重,并应用注意力权重,对第二卷积特征进行加权,得到全局特征。
[0127]
局部提取网络中的目标检测网络确定图像帧序列的各帧图像中检测目标的目标特征和目标位置,并由此确定各帧图像的目标特征图;局部提取网络中的时空提取网络,对各帧图像的目标特征图进行时空信息提取,得到局部特征。
[0128]
随后,融合分类网络对全局提取网络和局部提取网络分别输出的全局特征和局部特征进行融合,并基于融合所得的特征进行上下文提取,得到上下文特征,应用上下文特征进行事故分类,确定并输出事故检测结果。此处的事故检测结果可以是发生事故的概率,若概率大于预设的阈值,例如0.7、0.8等,则判断为发生事故,并上报相关部门,或者,此处的事故检测结果也可以是是否发生事故,如果是发生事故,则直接上报相关部门。
[0129]
本本发明实施例提供的方法,划分全局和局部两种维度,对图像帧序列进行特征提取,在全局提取网络中,通过多层三维卷积与时空注意力相结合的方式,使得网络尽可能的关注车辆及其周围的相关信息。在局部提取网络中,图像帧序列首先经过目标检测网络,提取并聚合当前帧的目标信息,然后构建目标特征图,图中每个节点代表了每一帧中包含的目标特征,通过图卷积操作,聚合局部目标之间的空间关系,在此基础上获取目标的时空关系,即得到局部特征。随后融分类网络融合两种维度分别提取的特征,并通过提取上下文特征,得到聚合全局上下文和局部目标关系的时序特征,即上下文特征,最后基于上下文特征输出事故发生概率,即事故检测结果。本发明实施例提出的网络具有更优的通用性,相较相关技术中3d卷积的车祸检测方法很难识别场景变化小的交通事故,而通常的检测目标并跟踪的车祸检测方法则过于依赖目标检测和跟踪的精度,如果没有检测到目标,则完全判断不到车祸的发生,某些事故场景下的目标外观的速度变化剧烈,很容易导致无法跟踪目标,本发明实施例提出的方法能够更好的检测出交通事故。
[0130]
并且,应用片段化的图像帧序列,例如每16帧或者每20帧作为一个图像帧序列进行事故检测,可以充分挖掘事故场景特征并实时地检测出交通事故的发生,相较于直接输出视频级的事故概率,具备更强的实时性和通用性。
[0131]
基于上述任一实施例,图8是本发明提供的事故检测装置的结构示意图,如图8所示,该装置包括:
[0132]
序列确定单元810,用于确定待检测视频的图像帧序列;
[0133]
全局提取单元820,用于基于全局提取网络,对所述图像帧序列进行三维特征提取,得到所述待检测视频的全局特征;
[0134]
局部提取单元830,用于基于局部提取网络,应用所述图像帧序列中各帧图像的检测目标和目标位置,确定所述待检测视频的局部特征;
[0135]
融合分类单元840,用于基于融合分类网络,应用所述全局特征和所述局部特征,
确定所述待检测视频的事故检测结果。
[0136]
本发明实施例提供的装置,通过联合待检测视频的全局特征和局部特征进行事故检测,无论针对目标剧烈变化导致目标检测失效或者跟丢的情况,还是针对场景变化不明显的情况,均能够准确、可靠地完成事故检测,从而保证能够及时监控到交通事故,便于事故排查的及时性。
[0137]
基于上述任一实施例,全局提取单元用于:
[0138]
基于所述全局提取网络中的多层三维卷积网络,对所述图像帧序列进行多层三维卷积,得到第一卷积特征和第二卷积特征,所述第一卷积特征在所述第二卷积特征之前卷积得到;
[0139]
基于所述全局提取网络中的注意力网络,应用所述第一卷积特征,确定所述第二卷积特征的注意力权重,并应用所述注意力权重,对所述第二卷积特征进行加权,得到所述全局特征。
[0140]
基于上述任一实施例,所述第一卷积特征和所述第二卷积特征分别为所述多层三维卷积的倒数第二层和倒数第一层输出的卷积特征;
[0141]
全局提取单元具体用于:
[0142]
对所述第一卷积特征进行单层三维卷积,得到与所述第二卷积特征相同维度的第三卷积特征;
[0143]
基于所述第三卷积特征,确定所述注意力权重。
[0144]
基于上述任一实施例,局部提取单元用于:
[0145]
基于所述局部提取网络中的目标检测网络,确定所述图像帧序列的各帧图像中检测目标的目标特征和目标位置;
[0146]
基于所述局部提取网络中的时空提取网络,对所述各帧图像的目标特征图进行时空信息提取,得到所述局部特征,所述目标特征图基于对应图像中检测目标的目标特征和目标位置确定。
[0147]
基于上述任一实施例,局部提取单元具体用于:
[0148]
基于所述时空提取网络中的图卷积网络,对所述各帧图像的目标特征图进行空间信息提取,得到所述各帧图像的目标空间关系;
[0149]
基于所述时空提取网络中的时序提取网络,对所述各帧图像的目标空间关系进行时序特征提取,得到所述待检测视频的局部特征。
[0150]
基于上述任一实施例,融合分类单元用于:
[0151]
基于所述融合分类网络,对所述全局特征和所述局部特征进行融合,并基于融合所得的特征进行上下文提取,得到上下文特征,应用所述上下文特征进行事故分类,确定所述事故检测结果。
[0152]
基于上述任一实施例,该装置还包括训练单元,用于:
[0153]
基于初始全局提取网络、初始局部提取网络和初始融合分类网络构建初始检测网络;
[0154]
基于携带有事故标签的第一样本视频,对所述初始检测网络进行训练,基于训练完成的初始检测网络确定所述全局提取网络、所述局部提取网络和所述融合分类网络。
[0155]
基于上述任一实施例,所述初始全局提取网络是基于携带有事故标签的第二样本
视频,联合全局分类网络训练得到的,所述全局分类网络用于基于全局特征进行事故检测。
[0156]
图9示例了一种电子设备的实体结构示意图,如图9所示,该电子设备可以包括:处理器(processor)910、通信接口(communications interface)920、存储器(memory)930和通信总线940,其中,处理器910,通信接口920,存储器930通过通信总线940完成相互间的通信。处理器910可以调用存储器930中的逻辑指令,以执行事故检测方法,该方法包括:
[0157]
确定待检测视频的图像帧序列;
[0158]
基于全局提取网络,对所述图像帧序列进行三维特征提取,得到所述待检测视频的全局特征;
[0159]
基于局部提取网络,应用所述图像帧序列中各帧图像的检测目标和目标位置,确定所述待检测视频的局部特征;
[0160]
基于融合分类网络,应用所述全局特征和所述局部特征,确定所述待检测视频的事故检测结果。
[0161]
此外,上述的存储器930中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
[0162]
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法所提供的事故检测方法,该方法包括:
[0163]
确定待检测视频的图像帧序列;
[0164]
基于全局提取网络,对所述图像帧序列进行三维特征提取,得到所述待检测视频的全局特征;
[0165]
基于局部提取网络,应用所述图像帧序列中各帧图像的检测目标和目标位置,确定所述待检测视频的局部特征;
[0166]
基于融合分类网络,应用所述全局特征和所述局部特征,确定所述待检测视频的事故检测结果。
[0167]
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各提供的事故检测方法,该方法包括:
[0168]
确定待检测视频的图像帧序列;
[0169]
基于全局提取网络,对所述图像帧序列进行三维特征提取,得到所述待检测视频的全局特征;
[0170]
基于局部提取网络,应用所述图像帧序列中各帧图像的检测目标和目标位置,确定所述待检测视频的局部特征;
[0171]
基于融合分类网络,应用所述全局特征和所述局部特征,确定所述待检测视频的事故检测结果。
[0172]
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
[0173]
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如rom/ram、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
[0174]
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献