一种基于公共安全事件的数据挖掘方法与流程
- 国知局
- 2024-10-21 14:27:29
本发明属于数据挖掘领域,具体是一种基于公共安全事件的数据挖掘方法。
背景技术:
1、随着社会发展和城市化进程,公共安全事件的种类和数量不断增加,需要更有效的方法来处理和应对这些事件。数据挖掘技术的发展为处理大规模数据提供了可能,使得对公共安全事件数据进行深入分析成为可能。政府部门和安全机构需要更精确、更及时的信息来指导决策和资源分配,以应对各种安全挑战。公共安全事件的数据挖掘方法是一种利用数据挖掘技术对公共安全事件数据进行挖掘的方法。通过探索大规模事件数据中的潜在模式和关联,以揭示事件之间的关系和规律,从而提升公共安全管理和响应能力。
2、现有的公共安全事件的数据挖掘方法,大多仅仅建立检索到与安全时间相关的数据,难以对数据进行充分分析,当检索到的数据量过大时,难以对数据进行关联性的全面分析,不便于在全面检索大量相关数据的同时,快速锁定与安全时间相关性更强的数据。
技术实现思路
1、本发明旨在至少解决现有技术中存在的技术问题之一;为此,本发明提出了一种基于公共安全事件的数据挖掘方法,用于解决难以对数据进行充分分析,当检索到的数据量过大时,难以对数据进行关联性的全面分析,不便于在全面检索大量相关数据的同时,快速锁定与安全时间相关性更强的数据技术问题。
2、为解决上述问题,本发明的第一方面提供了一种基于公共安全事件的数据挖掘方法,包括以下步骤:
3、获取来自不同来源的多模态数据,包括公共区域监控数据、雷达传感器数据和车辆传感器数据,将来自不同来源的多模态数据,进行预处理,形成公共安全事件数据集;
4、通过结合自然语言处理和图像处理技术,构建索引结构,对公共安全事件数据集中结构化数据和非结构化数据进行检索;
5、通过接入公开的新闻网络的数据源,对数据源中的安全事件中采集公共安全事件的相关数据,对公共安全事件进行热度排名;
6、根据安全事件的热度排名的顺序,在公共安全事件数据集中结构化数据和非结构化数据进行多模态数据的检索,将公共安全事件数据集中关于同一公共安全事件的数据进行关联;
7、通过对公共安全事件数据集中进行关联的数据,根据安全事件特征,对进行关联的公共安全事件数据集中的数据进行关联度分析;
8、根据公共安全事件数据的时空特性,公共安全事件数据集中的数据的关联度分析结果,建立安全事件关联度分组。
9、作为本发明进一步的方案:将来自不同来源的多模态数据,进行预处理,形成公共安全事件数据集,包括以下步骤:
10、将公共区域监控数据、雷达传感器数据和车辆传感器数据的多模态数据,进行预处理,去除数据的噪声、异常值和冗余信息;
11、将多模态数据划分为文本类数据、图像类数据、音频类数据和视频类数据,分别将每种类型的数据转换为统一的格式和结构;
12、提取每个文本类数据、图像类数据、音频类数据和视频类数据采集的时间和地点信息,作为数据标签。
13、作为本发明进一步的方案:通过结合自然语言处理和图像处理技术,构建索引结构,对公共安全事件数据集中结构化数据和非结构化数据进行检索,包括以下步骤:
14、将图像类数据和视频类数据中出现的文字信息,通过ocr光学字符识别技术从图像中提取文字并将其转换为文本数据,同时,将音频类数据中的语音信息通过语音识别工具转换为文本数据;ocr光学字符识别技术采用tesseract ocr光学字符识别工具,tesseract是一个开源的ocr引擎,支持多种语言,并且可以处理多种图像格式;
15、将图像类数据、音频类数据和视频类数据转化得到的文本数据,根据图像类数据、音频类数据和视频类数据采集的时间和地点信息,添加数据标签,并添加到文本类数据;
16、针对文本类数据,通过关键词提取算法,提取每个文本类数据中的关键词,并将提取的关键词作为特征表示添加到数据标签中;textrank是基于图的排序算法,它类似于pagerank算法,通过计算单词之间的关系来确定单词的重要性。在这个算法中,单词之间的关系通常由它们之间的共现频率来表示。
17、针对图像类数据,通过卷积神经网络模型在图像上应用卷积和池化操作来提取特征图,通过卷积神经网络模型的全连接层将卷积层输出的特征图展平成特征向量,并通过全连接操作将图像的特征向量映射到图像的输出空间,得到图像的特征表示,将图像的特征表示添加到数据标签中;
18、针对音频类数据,通过mfcc梅尔频率倒谱系数,将音频信号分解成频谱带,然后提取频谱带的能量;并通过短时傅里叶变换,将音频信号分成短时窗口,然后对每个短时窗口进行傅里叶变换,得到频谱信息;
19、将得到的频谱带的能量数据和频谱信息作为特征表示添加到数据标签中;
20、针对视频类数据,通过lucas-kanade光流算法捕捉视频中相邻帧之间的运动信息,并识别运动物体的图像信息,通过卷积神经网络模型在运动物体的图像信息上应用卷积和池化操作来提取特征图,通过卷积神经网络模型的全连接层将卷积层输出的特征图展平成特征向量,并通过全连接操作将图像的特征向量映射到图像的输出空间,得到运动物体的图像信息的特征表示,将得到的特征表示添加到数据标签中;
21、根据数据标签,分别构建对文本类数据、图像类数据、音频类数据和视频类数据的索引结构,对公共安全事件数据集中结构化数据和非结构化数据进行检索。
22、作为本发明进一步的方案:对数据源中的安全事件中采集公共安全事件的相关数据,对公共安全事件进行热度排名,包括以下步骤:
23、收集到的公开的新闻网络的数据源中的关于安全事件的报道,并进行数据清洗,去除无关信息和重复数据;可以通过网络爬虫、api等方式获取相关数据;
24、根据安全事件发生的时间和位置信息,并将公共安全事件所有发生区域进行分区块,将收集的新闻报道按照安全事件进行分组,将相同时间段相同区块发生的安全事件划分到同一安全数据分组;
25、根据安全事件的报道数量、曝光度和新闻报道时长,计算每个分组中的安全事件的热度值;
26、根据每个分组中的安全事件的热度值进行排名,并将热度值进行排名顺序作为热度排名的顺序。
27、作为本发明进一步的方案:根据安全事件的热度排名的顺序,在公共安全事件数据集中结构化数据和非结构化数据进行多模态数据的检索,将公共安全事件数据集中关于同一公共安全事件的数据进行关联,包括以下步骤:
28、根据公共安全事件的每个分组中的安全事件的热度排名的顺序,根据安全事件热度排名的顺序,提取每个安全事件在新闻网络的数据源中对应的安全事件报道数据中的文本类数据、图像类数据、音频类数据或视频类数据;
29、将图像类数据和视频类数据中出现的文字信息,以及音频类数据中的语音信息,转换为文本数据;
30、分别提取每个安全事件在新闻网络的数据源中对应的安全事件报道数据中,文本类数据的关键词、图像类数据的图像的特征表示、音频类数据的频谱带的能量数据和频谱信息,或视频类数据的运动物体的图像信息的特征表示;
31、分别通过对应类型数据的索引结构,对安全事件的文本类数据、图像类数据、音频类数据或视频类数据进行检索,并将检索到的数据作为关于同一公共安全事件的数据进行相互关联。
32、作为本发明进一步的方案:通过对公共安全事件数据集中进行关联的数据,根据安全事件特征,对进行关联的公共安全事件数据集中的数据进行关联度分析,包括以下步骤:
33、获取新闻网络的数据源中对应的安全事件报道数据中的文本类数据,通过关键词提取算法,提取每个文本类数据中的关键词,并对所有关键词在公共安全事件数据集中关联的文本类数据中的出现频率进行统计,并通过加权平均法统计每个文本类数据中所有关键词出现频率,得到文本类数据的关联度评估值;
34、获取新闻网络的数据源中对应的安全事件报道数据中,图像类数据的图像的特征表示,或视频类数据的运动物体的图像信息的特征表示,以及对应的公共安全事件数据集中关联的图像类数据或视频类数据的特征表示;
35、通过训练s i amese神经网络模型评估图像特征之间的关联度,通过训练后s iamese神经网络模型,评估公共安全事件数据集中进行关联的图像类数据或视频类数据关联度评估值;
36、获取新闻网络的数据源中对应的安全事件报道数据中,音频类数据的图像的音频频谱图,以及对应的公共安全事件数据集中关联的音频类数据的音频频谱图;
37、通过训练s i amese神经网络模型评估音频频谱图之间的关联度,通过训练后s iamese神经网络模型,评估公共安全事件数据集中进行关联的音频类数据关联度评估值。
38、作为本发明进一步的方案:根据公共安全事件数据的时空特性,公共安全事件数据集中的数据的关联度分析结果,建立安全事件关联度分组,包括以下步骤:
39、统计公共安全事件数据集中关联数据的数据采集时间信息与新闻网络的数据源中对应的安全事件报道数据时间发生时间之间的时间差;
40、统计公共安全事件数据集中关联数据的数据采集地点信息与新闻网络的数据源中对应的安全事件报道数据时间发生地点之间的距离差;
41、根据公共安全事件数据的时空特性,公共安全事件数据集中的数据的关联度分析结果,计算不同公共安全事件的时空相关性关联度评估值;
42、根据不同公共安全事件的时空相关性关联度评估值,将公共安全事件分组为高时空相关性关联度分组和低时空相关性关联度分组。
43、作为本发明进一步的方案:通过以下公式,计算不同公共安全事件的时空相关性关联度评估值:
44、
45、其中,k为公共安全事件数据集中进行关联的数据的时空相关性关联度评估值,e为公共安全事件数据集中的文本类数据、图像类数据、音频类数据或视频类数据的关联度评估值,e0为公共安全事件数据集中的文本类数据、图像类数据、音频类数据或视频类数据的关联度评估值的平均值,emax为公共安全事件数据集中的文本类数据、图像类数据、音频类数据或视频类数据的关联度评估值的最大值,t为统计的公共安全事件数据集中进行关联的数据的时间差,t0为统计的公共安全事件数据集中所有进行关联的数据的时间差的平均值,tmax为统计的公共安全事件数据集中所有进行关联的数据的时间差的最大值,l为统计的公共安全事件数据集中进行关联的数据的距离差,l0为统计的公共安全事件数据集中所有进行关联的数据的距离差的平均值,lmax为统计的公共安全事件数据集中所有进行关联的数据的距离差的最大值。
46、作为本发明进一步的方案:根据不同公共安全事件的时空相关性关联度评估值,将公共安全事件分组为高时空相关性关联度分组和低时空相关性关联度分组,包括以下步骤:
47、根据不同公共安全事件的时空相关性关联度评估值,将时空相关性关联度评估值大于预设阈值的公共安全事件分组到高时空相关性关联度分组;
48、将时空相关性关联度评估值小于等于预设阈值的公共安全事件分组到低时空相关性关联度分组。
49、与现有技术相比,本发明的有益效果是:
50、本发明通过安全事件的热度排名的顺序,在公共安全事件数据集中结构化数据和非结构化数据进行多模态数据的检索,将公共安全事件数据集中关于同一公共安全事件的数据进行关联;结合自然语言处理和图像处理技术构建索引结构,实现了对公共安全事件数据集中结构化和非结构化数据的高效检索;同时对接入公开新闻网络的数据源可对安全事件进行热度排名后,根据排名顺序进行多模态数据检索,根据时间热度优先对热度较高的安全事件进行检索,便于快速对公众关心的安全事件的相关数据进行关联汇总,便于更全面地了解同一事件的相关信息,促进数据关联和综合分析。
51、本发明通过对公共安全事件数据集中进行关联的数据,根据安全事件特征,对进行关联的公共安全事件数据集中的数据进行关联度分析;同时,根据公共安全事件数据的时空特性,公共安全事件数据集中的数据的关联度分析结果,建立安全事件关联度分组;通过对数据集中的数据进行关联,便于深入了解不同事件之间的联系和影响,从而提供更深层次的洞察和分析;同时关联数据有助于建立事件之间的关联网络,从而促进对事件的综合性分析,而不仅仅局限于对单一数据的独立分析。根据公共安全事件数据的时空特性和特征,对数据进行关联度分析,并建立关联度分组,便于更及时地发现与安全事件不同关联性的数据。
本文地址:https://www.jishuxx.com/zhuanli/20241021/318228.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。
下一篇
返回列表