技术新讯 > 计算推算,计数设备的制造及其应用技术 > 基于多尺度瓶颈Transformer的交通视频异常检测方法  >  正文

基于多尺度瓶颈Transformer的交通视频异常检测方法

  • 国知局
  • 2024-08-08 16:52:38

本发明属于计算机视觉的一种交通视频异常检测方法,特别是涉及了一种基于多尺度瓶颈transformer(msbt)的多模态交通视频异常检测方法。

背景技术:

1、交通视频异常检测旨在利用视频分析技术来识别交通视频流中的非正常行为或事件。伴随着人工智能的发展,计算机视觉领域也有了很多重大突破,利用计算机视觉技术检测交通视频异常是一种非常有潜力的方法。在追求有效的多模态交通视频异常检测过程中,存在需要解决的三个关键问题:

2、1)信息冗余:每种模态都包含冗余信息,这些冗余可能引入不希望的语义偏差。

3、2)模态不平衡:一个模态内的信息内容可能远远超过另一模态的信息内容。平等对待每个模态可能会导致检测性能下降。

4、3)模态不同步:即使信号同步,不同模态之间也可能存在时间上的不一致。

5、随着多模态数据的可用,对交通视频异常检测的关注日益增加,许多工作致力于融合音频和视觉模态,从而发展出各种融合方法,如基于连接和基于交叉注意力的技术。尽管这些工作中使用的注意力机制隐含地解决了信息冗余问题,但很少有工作以明确的设计处理其中存在的信息冗余、模态不平衡和模态不同步问题。

技术实现思路

1、为了解决背景技术中存在的问题,本发明提供了一种基于多尺度瓶颈transformer的多模态交通视频异常检测方法,通过基于多尺度瓶颈transformer的多模态融合模块进行模态之间的特征融合,采用基于瓶颈令牌的加权策略突出更重要的融合特征,利用一致性对比损失从语义上对齐成对融合的特征。

2、本发明采用的技术方案是:

3、一、一种基于多尺度瓶颈transformer的多模态交通视频异常检测方法

4、1)获取多模态交通视频数据集;

5、2)构建基于多尺度瓶颈transformer多模态融合模块的神经网络模型,利用多模态交通视频数据集对基于多尺度瓶颈transformer多模态融合模块的神经网络模型进行训练后,获得多模态交通视频异常检测网络模型;

6、3)将待检测的多模态交通视频数据输入到多模态交通视频异常检测网络模型中,模型输出交通视频异常检测结果。

7、每个所述的单模态编码器包括依次相连的主干网络、投影层和单模态transformer层。

8、所述2)中,基于多尺度瓶颈transformer多模态融合模块的神经网络模型包括单模态编码器、多模态融合模块、全局编码器和异常检测头,多模态交通视频数据集中的同一模态数据输入到对应的单模态编码器中,多个单模态编码器均与多模态融合模块相连,多模态融合模块经过全局编码器后与异常检测头相连,异常检测头的输出作为神经网络模型的输出。

9、所述多模态融合模块包括相连的多尺度瓶颈transformer模块和权重融合模块,输入多模态融合模块中的多个单模态特征进行两两组合后形成多个模态对,每个模态对输入多尺度瓶颈transformer模块后再输出对应的双模态融合特征,然后通过权重融合模块将所有的双模态融合特征进行融合后,获得多模态融合特征并作为多模态融合模块的输出。

10、所述多尺度瓶颈transformer模块包括多个依次相连的多尺度瓶颈transformer层,每个多尺度瓶颈transformer层包括第一transformer层-第三transformer层,将每个多尺度瓶颈transformer层输入中的第一单模态特征和第一瓶颈令牌进行通道上的连接后再输入到第一transformer层中,再将第一transformer层的输出进行通道上的拆分后,获得第二瓶颈令牌以及下一个多尺度瓶颈transformer层的第一单模态特征,将每个多尺度瓶颈transformer层输入中的第二单模态特征和第二瓶颈令牌进行通道上的连接后再输入到第二transformer层中,第二transformer层输出下一个多尺度瓶颈transformer层的第二单模态特征,第二瓶颈令牌还与可学习瓶颈令牌一起输入到第三transformer层中,第三transformer层输出下一个多尺度瓶颈transformer层的第一瓶颈令牌。

11、所述权重融合模块中,将每个双模态融合特征对应的最后一个多尺度瓶颈transformer层输出的第二瓶颈令牌依次输入到lw层transformer和回归层中,回归层输出该双模态融合特征对应的权重,接着根据每个双模态融合特征的权重,将所有双模态融合特征进行加权并在通道维度进行拼接后获得多模态融合特征。

12、所述2)中,基于多尺度瓶颈transformer多模态融合模块的神经网络模型的训练过程中,损失函数包含时间一致性对比损失,公式如下:

13、

14、其中,为时间一致性对比损失值,nf表示模态对数目,t表示时间片段数,表示模态集合,φ(·,·)表示计算余弦相似度,τ表示温度超参数,表示片段t中模态a到模态b的融合特征,表示片段k中模态c到模态d的融合特征。

15、所述多模态交通视频数据集中的模态信息包含rgb视频流、光流、音频流。

16、当输入的模态信息为rgb视频流和光流,所述的主干网络采用i3d模型;当输入的模态信息为音频模态,所述的主干网络采用vggish模型。

17、二、一种计算机设备

18、所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现所述方法的步骤。

19、三、一种计算机可读存储介质

20、所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现所述的方法的步骤。

21、四、一种计算机程序产品

22、所述产品包括计算机程序/指令,该计算机程序/指令被处理器执行时实现所述方法的步骤。

23、与现有技术相比,本发明具有以下有益效果:

24、1、本发明提出了一个基于多尺度瓶颈transformer的融合模块(即多模态融合模块),其使用减少数量的瓶颈令牌来逐步压缩信息并融合每对模态特征,并利用基于瓶颈令牌的加权方案来突出更重要的融合特征,有效解决信息冗余和模态不平衡问题。

25、2、本发明提出了时间一致性对比损失,通过在视频同一时刻的语义上对齐成对融合的特征,有效处理模态不同步问题。

技术特征:

1.一种基于多尺度瓶颈transformer的交通视频异常检测方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种基于多尺度瓶颈transformer的交通视频异常检测方法,其特征在于,每个所述的单模态编码器包括依次相连的主干网络、投影层和单模态transformer层。

3.根据权利要求1所述的一种基于多尺度瓶颈transformer的交通视频异常检测方法,其特征在于,所述2)中,基于多尺度瓶颈transformer多模态融合模块的神经网络模型包括单模态编码器、多模态融合模块、全局编码器和异常检测头,多模态交通视频数据集中的同一模态数据输入到对应的单模态编码器中,多个单模态编码器均与多模态融合模块相连,多模态融合模块经过全局编码器后与异常检测头相连,异常检测头的输出作为神经网络模型的输出。

4.根据权利要求3所述的一种基于多尺度瓶颈transformer的交通视频异常检测方法,其特征在于,所述多模态融合模块包括相连的多尺度瓶颈transformer模块和权重融合模块,输入多模态融合模块中的多个单模态特征进行两两组合后形成多个模态对,每个模态对输入多尺度瓶颈transformer模块后再输出对应的双模态融合特征,然后通过权重融合模块将所有的双模态融合特征进行融合后,获得多模态融合特征并作为多模态融合模块的输出。

5.根据权利要求4所述的一种基于多尺度瓶颈transformer的交通视频异常检测方法,其特征在于,所述多尺度瓶颈transformer模块包括多个依次相连的多尺度瓶颈transformer层,每个多尺度瓶颈transformer层包括第一transformer层-第三transformer层,将每个多尺度瓶颈transformer层输入中的第一单模态特征和第一瓶颈令牌进行通道上的连接后再输入到第一transformer层中,再将第一transformer层的输出进行通道上的拆分后,获得第二瓶颈令牌以及下一个多尺度瓶颈transformer层的第一单模态特征,将每个多尺度瓶颈transformer层输入中的第二单模态特征和第二瓶颈令牌进行通道上的连接后再输入到第二transformer层中,第二transformer层输出下一个多尺度瓶颈transformer层的第二单模态特征,第二瓶颈令牌还与可学习瓶颈令牌一起输入到第三transformer层中,第三transformer层输出下一个多尺度瓶颈transformer层的第一瓶颈令牌。

6.根据权利要求4所述的一种基于多尺度瓶颈transformer的交通视频异常检测方法,其特征在于,所述权重融合模块中,将每个双模态融合特征对应的最后一个多尺度瓶颈transformer层输出的第二瓶颈令牌依次输入到lw层transformer和回归层中,回归层输出该双模态融合特征对应的权重,接着根据每个双模态融合特征的权重,将所有双模态融合特征进行加权并在通道维度进行拼接后获得多模态融合特征。

7.根据权利要求1所述的一种基于多尺度瓶颈transformer的交通视频异常检测方法,其特征在于,所述2)中,基于多尺度瓶颈transformer多模态融合模块的神经网络模型的训练过程中,损失函数包含时间一致性对比损失,公式如下:

8.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。

9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。

10.一种计算机程序产品,包括计算机程序/指令,其特征在于,该计算机程序/指令被处理器执行时实现权利要求1至7中任一项所述方法的步骤。

技术总结本发明公开了一种基于多尺度瓶颈Transformer的交通视频异常检测方法。本发明建立了基于多尺度瓶颈Transformer多模态融合模块的神经网络模型,包括多个单模态编码器、多模态融合模块、全局编码器和异常检测头。多模态融合模块使用减少数量的瓶颈令牌来逐步压缩信息并融合每对模态特征,并利用基于瓶颈令牌的加权方案来突出更重要的融合特征。此外,本发明提出了一种时间一致性对比损失函数,用以从语义上对齐成对融合的特征。实验结果证明,本发明在最大规模的视频异常检测数据集XD‑Violence达到了先进的性能。技术研发人员:孙盛阳,邱浩,龚小谨受保护的技术使用者:浙江大学技术研发日:技术公布日:2024/8/5

本文地址:https://www.jishuxx.com/zhuanli/20240808/270940.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。