一种基于生成式大模型的自然语言交互安防视频检索系统及其装置的制作方法
- 国知局
- 2024-08-30 14:59:08
本发明涉及大模型交互,特别涉及一种基于生成式大模型的自然语言交互安防视频检索系统及其装置。
背景技术:
1、随着ai技术的不断进步,大语言模型、大视觉模型以及未来不断出现的多模态大模型不仅在增强ai系统的灵活性和应用范围、保护隐私问题和降低成本、提升响应速度和定制化开发等方面起到关键作用,而且在改善用户体验和解决复杂问题方面都有巨大的潜力。
2、大视觉模型(lvm)相较于传统的计算机视觉算法模型具有显著优势。lvm利用深度学习技术,从大规模数据中自动学习和提取复杂特征,而无需手工设计特征,这提升了图像分类和目标检测的准确性和鲁棒性。此外,lvm 具备多模态处理能力,能同时理解和生成视觉、文本和音频信息,使其在跨模态任务中表现出色。lvm采用端到端学习方法,简化了开发流程,增强了泛化能力。
3、经检索,公开号cn108052882a,发明名称为:一种智能安防监控系统的操作方法的中国发明,公开了操作便捷,信息分享及时,提高了办案效率,实用性强。
4、大语言模型(llm)相较于传统的自然语言处理(nlp)算法模型具有显著优势。
5、llm 利用深度学习技术和大规模数据进行训练,能够自动学习复杂的语言模式和长距离依赖关系,这使得它们在理解和生成语言方面表现出色。
6、在安防场景下,大语言模型和大视觉模型的结合可以实现更高效的语义匹配和信息查询。具体来说,大视觉模型可以对监控画面进行目标检测与识别,并将识别结果转换为文本信息;然后,大语言模型可以对这些文本信息进行深入理解和分析,并与用户查询需求进行语义匹配;最后,根据匹配结果返回相关信息给用户。这种结合方式可以大大提高基于生成式大模型的自然语言交互安防视频检索系统的智能化水平,满足用户在安防场景下的查询需求。
7、相比之下,传统nlp算法通常依赖于手工设计的特征和规则,这些方法在处理复杂的语义和句法结构时存在局限。除此之外,llm 的transformer架构通过自注意力机制捕捉上下文关系,能够生成上下文相关且连贯的文本。在预训练和微调后,可以在多种任务中展示出色表现,包括文本生成、语言翻译、内容总结和代码生成等,为此,提出一种基于生成式大模型的自然语言交互安防视频检索系统及其装置。
技术实现思路
1、有鉴于此,本发明提供一种基于生成式大模型的自然语言交互安防视频检索系统及其装置,以解决或缓解现有技术中存在的技术问题,通过大语言模型和大视觉模型对于视频(图像)和文字的准确理解和语义转换,进行储存信息和用户信息的语义匹配,以满足用户在安防场景下的查询需求,至少提供一种有益的选择。
2、本发明实施例的技术方案是这样实现的:
3、第一方面,本发明提供了一种基于生成式大模型的自然语言交互安防视频检索系统,包括:
4、视频采集模块、视频处理与分析模块、大语言模型处理模块、大视觉模型处理模块、语义相似度计算模块、人机交互与结果展示模块、数据存储与管理模块;
5、所述视频采集模块,用于实时或定期采集视频数据;所述视频采集模块包括安装在楼宇内部、娱乐场所内部和预设距离范围内的高清摄像头,所述视频采集模块分别与所述视频处理与分析模块、所述数据存储与管理模块连接;
6、所述视频处理与分析模块,用于接收所述视频采集模块传送的视频数据,利用深度学习算法对所述视频数据进行目标检测,识别出所述视频数据中出现的人物对象,并提取出人物对象的属性信息;并将每个所述人物对象对应的所述属性信息进行数据向量化后得到的属性向量化结果存入向量库中;
7、所述数据存储与管理模块分别与所述语义相似度计算模块、所述人机交互与结果展示模块连接,所述数据存储与管理模块包括所述向量库,所述数据存储与管理模块,用于存储所述视频数据以及与所述视频数据对应的属性向量化结果;
8、所述大语言模型处理模块与所述人机交互与结果展示模块连接,所述大语言模型处理模块,用于接收输入的查询指令;对所述查询指令进行语义分析,以将其转换为用于检索的格式化数据;将所述查询指令对应的所述格式化数据进行数据向量化;
9、所述大视觉模型处理模块分别与语义相似度计算模块、所述视频处理与分析模块连接,所述语义相似度计算模块,用于计算所述查询指令对应的数据向量化结果与所述向量库中存储的人物对象对应的所述属性向量化结果之间的语义相似度;根据相似度排序结果,筛选出与所述查询指令匹配的目标视频片段;
10、所述人机交互与结果展示模块包括用户交互显示界面,用于将所述目标视频片段在所述用户交互显示界面进行展示;并响应在所述用户交互显示界面的用户操作,执行与所述用户操作对应的视频操作动作;其中,所述用户操作包括放大/缩小图像、播放/暂停视频和导出数据。
11、进一步优选的:所述视频采集模块,用于以预设固定时间间隔t作为步长,从实时或定期采集的所述视频数据中连续截取至少三张瞬时图像,其中,所述瞬时图像包括在tb时刻的初始图像,在tm时刻的中间图像,在te时刻的节点图像;
12、所述视频采集模块,用于对所述瞬时图像进行处理,得到像素均值矩阵,并根据所述像素均值矩阵,提取出所述人物对象的所述属性信息。
13、进一步优选的:所述视频采集模块,用于对所述瞬时图像进行处理,得到像素均值矩阵,并根据所述像素均值矩阵,提取出所述人物对象的所述属性信息,包括:
14、将所述瞬时图像均匀划分为步长为ε的单元格区域,并按照顺序依次对单元格区域进行编号,分别为a1、a2、a3、... 、an;
15、获取所述瞬时图像中各图像在处理后得到的a1-an所述单元格区域中像素的像素均值pbn、pmn、pen,并根据所述单元格区域中像素的像素均值pbn、pmn、pen生成像素均值矩阵,其中,pbn、pmn、pen分别为初始图像、中间图像、节点图像对应a1-an单元格区域的像素均值;
16、根据所述像素均值矩阵,计算所述初始图像与所述中间图像的第一像素均值差值矩阵δp,及计算所述中间图像与所述节点图像的第二像素均值差值矩阵δp’;其中,所述单元格区域的所述步长ε不大于所述瞬时图像尺寸的1/100;
17、根据所述第一像素均值差值矩阵δp和所述第二像素均值差值矩阵δp’,生成所述人物对象的运动轨迹,所述属性信息包括所述运动轨迹。
18、进一步优选的:所述视频处理与分析模块为大视觉模型lvm,所述大视觉模型lvm使用基于transformer的计算机视觉模型对所述视频数据进行目标检测和特征提取,得到所述属性向量化结果;
19、所述大语言模型处理模块为大语言模型llm,所述大语言模型llm使用基于transformer的自然语言处理模型对所述查询指令进行编码,得到文本特征向量类型的数据向量化结果。
20、进一步优选的:所述transformer包括自注意力机制、多头注意力机制和编码器-解码器结构;
21、所述自注意力机制,用于在所述视频数据中以视频帧为空间范围,关注所述人物对象所在的具体位置;其中,所述视频帧包括第一视频帧、第二视频帧、第三视频帧和第四视频帧;
22、所述多头注意力机制,用于根据所述视频帧中所述人物对象所在的具体位置,并行执行多个注意力头分别对所述第一视频帧、所述第二视频帧、所述第三视频帧和所述第四视频帧进行人物对象识别,得到目标检测结果;
23、所述编码器-解码器结构,用于对所述视频帧对应的所述目标检测结果进行特征提取和编码,并将编码后的信号输入到解码器中进行人物识别,得到所述属性向量化结果。
24、进一步优选的:所述视频处理与分析模块还用于在24小时内不间断进行所述视频数据采集,利用深度学习算法对所述视频数据进行实时分析,识别出预期发生的危险事件,所述危险事件包括失火事件和烟雾事件,当检测到危险事件时,自动记录事件发生的时间、地点、相关的人物信息,将危险事件的相关属性进行数据向量化,并存入向量库中;
25、所述大语言模型处理模块还用于接收用户输入的查询指令;对查询指令进行语义分析,提取出关键信息,所述关键信息包括时间、地点和事件类型;
26、将查询指令的关键信息进行数据向量化,以便与向量库中的数据进行比较;
27、所述语义相似度计算模块还用于计算用户查询的向量化结果与向量库中存储的危险事件属性向量化结果之间的语义相似度;根据相似度排序结果,筛选出与用户查询最匹配的危险事件记录;
28、所述人机交互与结果展示模块还用于将筛选出的危险事件记录以可视化的形式展示给用户,提供用户交互界面,允许用户进一步查看事件的详细信息,所述详细信息包括事件发生的完整视频和相关人员的身份信息。
29、进一步优选的:所述基于生成式大模型的自然语言交互安防视频检索系统还包括预警与通知模块,所述预警与通知模块用于当检测到所述危险事件时,自动触发预警机制,允许用户自定义预警规则。
30、进一步优选的:所述视频处理与分析模块还连接有隐私保护模块,所述隐私保护模块用于在处理和分析视频数据时,对人物的相关属性隐私保护,对敏感信息脱敏处理,具体包括;
31、所述隐私保护模块,用于对所述视频数据进行预处理,所述预处理包括帧提取和关键帧识别;
32、利用面部识别、光学字符识别检测所述视频数据中的敏感信息;
33、根据识别到的所述敏感信息的类型,使用高斯模糊对检测到的人脸或敏感信息进行模糊处理,得到脱敏后的视频;
34、对脱敏后的视频进行后处理。
35、进一步优选的:所述相关属性包括时间戳、地点、性别、年龄和服装颜色,所述格式化数据包括时间、地点、服装特征。
36、第二方面:一种基于生成式大模型的自然语言交互安防视频检索装置,包括存储器和一个或多个处理器,所述存储器上存储有计算机程序,所述处理器执行所述计算机程序时,用于实现上述基于生成式大模型的自然语言交互安防视频检索系统。
37、本发明实施例由于采用以上技术方案,其具有以下优点:
38、采用了大模型理解和语义转换的方法,使得在特定场景下能够处理更大规模的数据,捕捉更复杂的语言模式,能够更好地理解上下文,识别多义词的不同含义,并生成更合理、更准确的语义信息。
39、此外,大模型在处理多语言任务时表现尤为出色,能够有效地进行跨语言的翻译和语义转换,极大地提高了各种自然语言处理应用的效率和效果;
40、采用了数据向量化实现信息匹配的方法,使得复杂的原始信息能够转换为高维度的向量表示,这种表示捕捉了更多语义信息和细微差异,从而提高了数据的表示能力和匹配精度,显著提升了效果和效率,使得对大规模数据的处理更加精确和高效。
41、其次,基于生成式大模型的自然语言交互安防视频检索系统结合了视频处理、自然语言处理、语义相似度计算等技术,以实现对特定目标的检索包括以下优点:
42、高效性:通过大视觉模型lvm实时处理视频数据,能够快速提取出人物的相关属性。
43、利用大语言模型llm将用户查询转换为格式化数据,并快速找到与之匹配的视频片段。
44、智能化:系统能够自动分析视频数据,无需人工干预即可进行目标检索。
45、通过语义相似度计算,能够更准确地匹配用户查询和视频数据。
46、可扩展性:系统可以根据需要添加更多的摄像头和属性提取功能,以适应更复杂的场景。
47、可以集成更多的自然语言处理技术,以支持更丰富的查询方式。
48、易用性:提供用户交互界面,方便用户输入查询和查看结果。
49、可以通过系统监控和维护模块方便地管理系统的运行状态。
50、隐私保护:在设计中考虑了隐私保护模块,能够确保敏感信息的安全性和合规性。
51、上述概述仅仅是为了说明书的目的,并不意图以任何方式进行限制。除上述描述的示意性的方面、实施方式和特征之外,通过参考附图和以下的详细描述,本发明进一步的方面、实施方式和特征将会是容易明白的。
本文地址:https://www.jishuxx.com/zhuanli/20240830/284925.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。
下一篇
返回列表