技术新讯 > 计算推算,计数设备的制造及其应用技术 > 一种基于多模态的学生危险动作识别系统的制作方法  >  正文

一种基于多模态的学生危险动作识别系统的制作方法

  • 国知局
  • 2024-10-09 15:12:58

本发明属于校园安全防护,具体涉及一种基于多模态的学生危险动作识别系统。

背景技术:

1、随着现代社会的不断进步和发展,校园安全管理依然是校园管理中的重中之重,同时,校园安防系统也是保证学生在校园中安全状况的重要措施。

2、目前现有的校园安防系统主要通过保安室的保安人工观察监控中是否有学生进行危险动作,或是通过较为简单的摔倒动作检测来进行人工智能的检测,使用人工检测的缺陷在于人工无法长时间专注于观察监控画面,且监控画面较多的情况下,十分容易漏检,使用摔倒动作检测等方法虽然能够解决人工的漏检问题,但是由于实现原理和阈值设置的问题,容易出现误检。

技术实现思路

1、本发明的目的就在于为了解决上述问题而提供一种结构简单,设计合理的一种基于多模态的学生危险动作识别系统。

2、本发明通过以下技术方案来实现上述目的:

3、一种基于多模态的学生危险动作识别系统,包括安防系统,所述安防系统包括监控模块,与监控模块电性连接的画面内部分类模块,与画面内部分类模块电性连接的环境信息合成模块,与环境信息合成模块电性连接的信息提取模块,与信息提取模块电性连接的信息判断模块,与信息判断模块电性连接的模型认识能力自动提升模块,以及与信息提取模块电性连接的大语言模型图像理解模块。

4、作为本发明的进一步优化方案,所述监控模块用于提取监控画面中的图像,提取画面中的人像和人群的区域,并进行危险动作分类模型的检测。

5、作为本发明的进一步优化方案,所述画面内部分类模块用于对图像进行分类,并将图像分为三类,第一类是安全,第二类是疑似危险,第三类是危险。

6、作为本发明的进一步优化方案,所述环境信息合成模块用于接收画面内部分类模块中的第二类和第三类信息,并将人物区域的图像及其周围部分的图像一同截取,以包含足够的环境信息。

7、作为本发明的进一步优化方案,所述信息提取模块用于将带有环境信息的图像输入大语言模型的图像理解模块中,并分析图像中的语义信息。

8、作为本发明的进一步优化方案,所述信息判断模块用于判断图像中的语义信息是否存在危险动作的语义描述。

9、作为本发明的进一步优化方案,所述模型认识能力自动提升模块用于将大模型的语言理解能力进行复核,同时将该处信息作为训练数据扩充到数据集中,进行模型认识能力的提升。

10、作为本发明的进一步优化方案,所述大语言模型图像理解模块内的计算公式为r=j(lm(h(g(f(i))))),其中,(i)是原始图像,(f)是预处理函数(如归一化、去噪等),(i')是预处理后的图像,(g)是特征提取函数,(lm)是大型语言模型,它接收编码后的特征(e)并输出语义特征(s),(j)是解析函数,它将语言模型输出的语义特征(s)转换为具体的语义描述或分类结果(r)。

11、作为本发明的进一步优化方案,所述模型认识能力自动提升模块的具体内容,包括如下步骤:

12、s1、优化图像信息的语义结构,将图像通过语义特征提取函数变成语义信息;

13、s2、将图像信息转为大语言模型数据集,该部分由三步组成:第一步、图像收集:i={i 1,i 2,...,i n}其中,i是图像集合,i n是第n张图像;第二步、文本描述收集:t={t1,t2,...,tn},其中t是文本描述集合,tn是经过优化图像信息后的句子,是与图像i n对应的文本描述;第三步、文本-图像配对:将t与i一一对应;

14、s3、将图像信息转为分类模型的训练数据;

15、s4、根据新数据进一步训练模型。

16、本发明的有益效果在于:

17、优势1:针对校园安防的复杂场景,使用大语言模型进行危险图像复核,提高了整体准确度;

18、优势2:针对不同监控环境的不同,使用自动学习功能提高大模型的特化能力,减少识别误差;

19、本发明通过将传统的人工智能校园安防系统和大语言模型的图像认识能力结合,弥补了传统人工智能无法进行更深层次的信息理解的问题,提高了系统的识别可靠度。

技术特征:

1.一种基于多模态的学生危险动作识别系统,包括安防系统,其特征在于,所述安防系统包括监控模块,与监控模块电性连接的画面内部分类模块,与画面内部分类模块电性连接的环境信息合成模块,与环境信息合成模块电性连接的信息提取模块,与信息提取模块电性连接的信息判断模块,与信息判断模块电性连接的模型认识能力自动提升模块,以及与信息提取模块电性连接的大语言模型图像理解模块。

2.根据权利要求1所述的一种基于多模态的学生危险动作识别系统,其特征在于:所述监控模块用于提取监控画面中的图像,提取画面中的人像和人群的区域,并进行危险动作分类模型的检测。

3.根据权利要求1所述的一种基于多模态的学生危险动作识别系统,其特征在于:所述画面内部分类模块用于对图像进行分类,并将图像分为三类,第一类是安全,第二类是疑似危险,第三类是危险。

4.根据权利要求1所述的一种基于多模态的学生危险动作识别系统,其特征在于,所述环境信息合成模块用于接收画面内部分类模块中的第二类和第三类信息,并将人物区域的图像及其周围部分的图像一同截取,以包含足够的环境信息。

5.根据权利要求1所述的一种基于多模态的学生危险动作识别系统,其特征在于:所述信息提取模块用于将带有环境信息的图像输入大语言模型的图像理解模块中,并分析图像中的语义信息。

6.根据权利要求1所述的一种基于多模态的学生危险动作识别系统,其特征在于:所述信息判断模块用于判断图像中的语义信息是否存在危险动作的语义描述。

7.根据权利要求1所述的一种基于多模态的学生危险动作识别系统,其特征在于:所述模型认识能力自动提升模块用于将大模型的语言理解能力进行复核,同时将该处信息作为训练数据扩充到数据集中,进行模型认识能力的提升。

8.根据权利要求6所述的一种基于多模态的学生危险动作识别系统,其特征在于:所述大语言模型图像理解模块内的计算公式为r=j(lm(h(g(f(i))))),其中,(i)是原始图像,(f)是预处理函数(如归一化、去噪等),(i')是预处理后的图像,(g)是特征提取函数,(lm)是大型语言模型,它接收编码后的特征(e)并输出语义特征(s),(j)是解析函数,它将语言模型输出的语义特征(s)转换为具体的语义描述或分类结果(r)。

9.根据权利要求1所述的一种基于多模态的学生危险动作识别系统,其特征在于:所述模型认识能力自动提升模块的具体内部,包括如下步骤:

技术总结本发明涉及一种基于多模态的学生危险动作识别系统,该一种基于多模态的学生危险动作识别系统,包括安防系统,安防系统包括监控模块,与监控模块电性连接的画面内部分类模块,与画面内部分类模块电性连接的环境信息合成模块,与环境信息合成模块电性连接的信息提取模块,与信息提取模块电性连接的信息判断模块,与信息判断模块电性连接的模型认识能力自动提升模块,以及与信息提取模块电性连接的大语言模型图像理解模块,本发明通过将传统的人工智能校园安防系统和大语言模型的图像认识能力结合,弥补了传统人工智能无法进行更深层次的信息理解的问题,提高了系统的识别可靠度。技术研发人员:谈书言,谈世琦受保护的技术使用者:上海禹阳教育科技有限公司技术研发日:技术公布日:2024/9/29

本文地址:https://www.jishuxx.com/zhuanli/20241009/308092.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。