技术新讯 > 计算推算,计数设备的制造及其应用技术 > 融合记忆机制基于大语言模型的监控视频理解方法及系统 > 正文

融合记忆机制基于大语言模型的监控视频理解方法及系统

国知局
2024-08-08 16:54:49

本发明涉及计算机视觉和自然语言理解领域，具体涉及融合记忆机制基于大语言模型的监控视频理解方法及系统。

背景技术：

1、随着安防监控系统的普及，监控视频数据变得越来越庞大和复杂。如何有效地理解和分析这些数据，从而发现异常、识别目标、提取有用信息，成为了迫切需要解决的问题。现有的监控视频理解方法主要基于传统的方法，如图像处理、计算机视觉等，这些方法在处理大规模、高复杂度的监控视频数据时，往往面临准确度不足、鲁棒性差、时序信息利用不充分等问题。

2、随着技术发展，大语言模型(large language models，llms)在自然语言处理(natural language processing，nlp)领域取得的显著进展，其强大的语言理解能力为各种自然语言任务提供了有效的解决方案。而随着视频监控的广泛应用，对于长时监控视频的理解，并通过问答的模式构建多模态监控视频大模型成为了重要的研究课题。然而，直接将这类模型应用于监控视频理解时，往往会面临视频数据的高维、多模态、时序信息复杂等问题，导致模型效果不佳。此外，如何有效地利用已有的大量监控视频数据进行模型的训练，也是一个亟待解决的问题。为了解决这个问题，研究者们开始将视频基础模型和大语言模型相结合，以构建一种能够克服长时监控语义内容理解困难的视频理解系统。然而，现有的系统只能处理少量监控视频帧。对于长监控视频，其计算复杂性、内存开销和大跨度时序内容理解仍然存在挑战。

技术实现思路

1、为了克服现有技术的不足，本发明通过将多模态大语言模型应用于监控视频理解任务，实现了对监控视频的深度理解和问答。该方法能够克服现有系统的限制，有效处理长监控视频，为监控视频的智能化分析和利用提供了新的途径。本发明受到人类观看长监控视频时的记忆机制的启发，即人类对长监控视频的记忆机制包括了一个稳健且持久的长期记忆模块和一个快速刷新的短期记忆模块。其中长期记忆模块储存人类已经学习和理解的信息，包含了人类的常识、经验等对监控画面的直观认知，而短期记忆模块包含了正在看到的信息所产生的短时记忆。

2、为实现上述目的，本发明提供了融合记忆机制基于大语言模型的监控视频理解方法，步骤包括：

3、s1.采集长时监控视频，并提取长时监控视频的全局特征，所述长时监控视频包括：超过300秒的监控视频；

4、s2.构建短期记忆模块，对长时监控视频进行批量帧提取，并将超出预设值的视频帧弹出；

5、s3.构建长期记忆模块，对长时监控视频的全局视频帧进行稀疏编码，得到编码结果，并对所述编码结果与所述全局特征进行加权平均，得到初步特征；

6、s4.将被弹出的视频帧输入至所述构建长期记忆模块中进行稀疏编码，完善所述初步特征，得到全局视频特征；

7、s5.将所述全局视频特征作为输入层融合进大语言模型中，实现以问答的模式对视频进行提问和解答。

8、优选的，所述全局特征的提取方法包括：

9、将长时监控视频分割成一系列帧，每一帧都被视为一个单独的输入；之后，使用3d卷积神经网络对这些帧进行特征提取，得到每个帧的特征表示，对于监控视频帧特征提取，输入的是一个四维张量，其中四个维度分别是通道数、帧数、帧的高度和宽度；重复此过程到整个视频，以提取所有帧的特征，并构建视频特征矩阵，将所有帧的特征组合成一个特征矩阵，其中每一行代表一个帧的特征向量，生成视频逐帧特征集。

10、优选的，所述短期记忆模块的弹出规则包括：

11、将所述短期记忆模块的参数设置为固定长度，并采用缓冲区的方式，每当有新的时序特征进入，最前进入的特征即会被弹出到所述长期记忆模块；所述短期记忆模块参数更新如下：

12、

13、其中，short表示短期记忆模块，ki表示当前库中的批量帧特征，n表示多段批量帧。

14、优选的，得到所述初步特征的方法包括：

15、将所述全局特征记为q，采用稀疏编码技术对长时监控视频的全局视频帧进行编码，得到编码结果p，将全局特征与编码结果进行加权平均：

16、long＝αq+βp

17、其中，α和β为3d卷积得到的全局特征和稀疏编码得到的编码结果的权重。

18、优选的，得到所述全局视频特征的方法包括：

19、每当所述短期记忆模块中的特征被弹出到所述长期记忆模块后，对其进行一次稀疏编码，并加深当前批量视频帧对全局视频的理解，当所述长期记忆模块中的特征超过了大语言模型预设好的特征长度阈值后，采用分层分解位置编码的方法来进行缩减，得到所述全局视频特征。

20、本发明还提供了融合记忆机制基于大语言模型的监控视频理解系统，所述系统用于实现上述方法，包括：采集模块、短期记忆模块、长期记忆模块、传输模块和训练模块；

21、所述采集模块用于采集长时监控视频，并提取长时监控视频的全局特征，所述长时监控视频包括：超过300秒的监控视频；

22、所述短期记忆模块用于对长时监控视频进行批量帧提取，并将超出预设值的视频帧弹出；

23、所述长期记忆模块用于对长时监控视频的全局视频帧进行稀疏编码，得到编码结果，并对所述编码结果与所述全局特征进行加权平均，得到初步特征；

24、所述传输模块用于将被弹出的视频帧输入至所述构建长期记忆模块中进行稀疏编码，完善所述初步特征，得到全局视频特征；

25、所述训练模块用于将所述全局视频特征作为输入层融合进大语言模型中，实现以问答的模式对视频进行提问和解答。

26、优选的，所述采集模块的工作流程包括：

27、将长时监控视频分割成一系列帧，每一帧都被视为一个单独的输入；之后，使用3d卷积神经网络对这些帧进行特征提取，得到每个帧的特征表示，对于监控视频帧特征提取，输入的是一个四维张量，其中四个维度分别是通道数、帧数、帧的高度和宽度；重复此过程到整个视频，以提取所有帧的特征，并构建视频特征矩阵，将所有帧的特征组合成一个特征矩阵，其中每一行代表一个帧的特征向量，生成视频逐帧特征集。

28、优选的，所述短期记忆模块的工作流程包括：

29、将所述短期记忆模块的参数设置为固定长度，并采用缓冲区的方式，每当有新的时序特征进入，最前进入的特征即会被弹出到所述长期记忆模块；所述短期记忆模块参数更新如下：

30、

31、其中，short表示短期记忆模块，ki表示当前库中的批量帧特征，n表示多段批量帧。

32、与现有技术相比，本发明的有益效果如下：

33、本发明通过结合长短期记忆网络的深度学习模型和多模态大语言模型，借助记忆机制处理对长时监控视频的理解，并通过大语言模型生成对视频的提问结果，辅助用户进行长监控视频的深度理解。此外，本发明还具有较强的抗干扰能力，能够在复杂的监控环境中实现稳定识别。

技术特征：

1.融合记忆机制基于大语言模型的监控视频理解方法，其特征在于，步骤包括：

2.根据权利要求1所述的融合记忆机制基于大语言模型的监控视频理解方法，其特征在于，所述全局特的征提取方法包括：

3.根据权利要求1所述的融合记忆机制基于大语言模型的监控视频理解方法，其特征在于，所述短期记忆模块的弹出规则包括：

4.根据权利要求1所述的融合记忆机制基于大语言模型的监控视频理解方法，其特征在于，得到所述初步特征的方法包括：

5.根据权利要求1所述的融合记忆机制基于大语言模型的监控视频理解方法，其特征在于，得到所述全局视频特征的方法包括：

6.融合记忆机制基于大语言模型的监控视频理解系统，所述系统用于实现权利要求1-5任一项所述的方法，其特征在于，包括：采集模块、短期记忆模块、长期记忆模块、传输模块和训练模块；

7.根据权利要求6所述的融合记忆机制基于大语言模型的监控视频理解系统，其特征在于，所述采集模块的工作流程包括：

8.根据权利要求6所述的融合记忆机制基于大语言模型的监控视频理解系统，其特征在于，所述短期记忆模块的工作流程包括：

技术总结本发明公开了融合记忆机制基于大语言模型的监控视频理解方法及系统，其中方法步骤包括：S1.采集长时监控视频，并提取长时监控视频的全局特征，长时监控视频包括：超过300秒的监控视频；S2.构建短期记忆模块，对长时监控视频进行批量帧提取，并将超出预设值的视频帧弹出；S3.构建长期记忆模块，对长时监控视频的全局视频帧进行稀疏编码，得到编码结果，并对编码结果与全局特征进行加权平均，得到初步特征；S4.将被弹出的视频帧输入至构建长期记忆模块中进行稀疏编码，完善初步特征，得到全局视频特征；S5.将全局视频特征作为输入层融合进大语言模型中，实现以问答的模式对视频进行提问和解答。技术研发人员：毛昭勇,王亦晨,沈钧戈,王鑫受保护的技术使用者：西北工业大学技术研发日：技术公布日：2024/8/5