一种基于大数据的档案文件安全可视化分析方法及系统与流程
- 国知局
- 2024-07-31 22:38:21
本发明涉及档案文件数据处理的,具体为一种基于大数据的档案文件安全可视化分析方法及系统。
背景技术:
1、档案的形成者。档案是由官方机构、半官方机构、非官方机构以及一定的个人、家庭和家族形成的。档案来源于文件。档案是由文件有条件地转化而来的,这里的“文件”是指广义文件,即一切由文字、图表、声像等形式形成的各种材料。档案和文件是同一事物在不同价值阶段的不同形态,两者具有同源性和阶段性的共性,也具有实效、功用、离合等个性差异。从文件到档案是一个批判继承的辩证运动过程。从信息的内容和形式来说,两者完全相同的,但从时效、价值和系统性上来说,档案是对文件的不断扬弃。首先是时效性批判,档案是已经办理完毕的文件;其次是价值评判,档案是办理完毕的文件中具有保存价值的部分;最后是系统性批判,档案是把分散状态的文件按一定逻辑规律整理而成的信息单元。因此,文件是档案的前身,档案是文件的归宿;文件是档案的基础,档案是文件的精华;文件是档案的素材,档案是文件的组合。档案的形式多种多样。档案的形式包括载体、制作手段、表现方式等。从载体来看,有甲骨、金石、缣帛、简册、纸质、胶磁等;从制作手段来看,有刀刻、笔写、印刷、复制、摄影、录音、摄像等;从表现方式来看,有文字、图表、声像等。档案的本质属性。档案具有历史再现性、知识性、信息性、政治性、文化性、社会性、教育性、价值性等特点,其中历史再现性为其本质属性,其他特点为其一般属性。因此,可将档案的定义简要地表述为:档案是再现历史真实面貌的原始文献。随着计算机信息技术的发展,为了提升生产效率和质量;电子档案逐渐替代传统纸质档案,电子档案是指通过计算机磁盘等设备进行存储,与纸质档案相对应,相互关联的通用电子图像文件集合,通常以案卷为单位,电子档案文件在使用中容易受到病毒感染从而导致档案文件损坏,当前的电子档案文件在查阅、提取使用过程必须基于人工进行文件杀毒处理,不能在用户查阅、提取电子档案文件过程智能进行文件杀毒处理,也不能对电子档案文件杀毒处理结果进行可视化反馈。
2、公开号为cn113986821a的中国发明专利申请公开了一种基于标签的档案文件管理方法,采用用户通过客户端查询档案状态,判断档案是否在位,若是则在界面给出位置提示,并提取出档案;验证所述用户信息,根据预设信息判断所述用户是否合法,若合法则确定借出所述档案;将所述档案状态标记为借出,同时记录所述用户的信息;所述用户到指定位置对所述档案查阅,所述执行位置暴露在摄像头视野范围内;所述摄像头采集所述用户动作,对所述动作进行处理分析,若动作可疑则进行告警;有效的改善了档案借阅的安全性,同时分层级标签的使用提高了查阅的效率。以上技术方案不能实现在用户查阅、提取档案文件过程智能进行文件杀毒处理,降低了档案文件的安全性。
技术实现思路
1、(一)解决的技术问题
2、为解决上述当前的电子档案文件在查阅、提取使用过程必须基于人工进行文件杀毒处理,不能在用户查阅、提取电子档案文件过程智能进行文件杀毒处理,也不能对电子档案文件杀毒处理结果进行可视化反馈的问题,实现以上准确采集电子档案文件特征参数、精准检索目标电子档案文件、高效科学识别电子档案文件中文件病毒、智能进行电子档案文件杀毒处理、可视化反馈电子档案文件杀毒处理结果,提高电子档案文件安全性的目的。
3、(二)技术方案
4、本发明通过以下技术方案予以实现:一种档案文件安全可视化分析方法,所述方法包括如下步骤:
5、s1、采集目标电子档案文件特征数据;
6、s2、采用数据搜索算法将所述目标电子档案文件特征数据与电子档案文件文本数据进行电子档案文件的特征关键词匹配,搜索出所述目标电子档案文件特征数据对应的所述电子档案文件文本数据并生成目标电子档案文件文本数据;依据所述目标电子档案文件文本数据进行文本数据分析并构建出目标电子档案文件文本搜索结果数据,当所述目标电子档案文件文本搜索结果数据为不存在时,结束电子档案文件安全分析作业;
7、s3、当所述目标电子档案文件文本搜索结果数据为存在时,依据文件病毒类型特征关键词数据在互联网云端搜索出不同文件病毒类型的特征代码数据并生成文件病毒类型特征代码数据;
8、s4、采用数据识别算法依据所述文件病毒类型特征代码数据对所述目标电子档案文件文本数据进行文件病毒类型代码特征分析,识别出所述目标电子档案文件文本数据中对应的所述文件病毒类型特征代码数据并生成目标电子档案文件病毒类型特征代码数据;依据所述目标电子档案文件病毒类型特征代码数据进行文本数据分析并构建出目标电子档案文件病毒类型识别结果数据;当所述目标电子档案文件病毒类型识别结果数据为不存在时,结束电子档案文件安全分析作业;
9、s5、当所述目标电子档案文件病毒类型识别结果数据为存在时,对所述目标电子档案文件病毒类型特征代码数据执行电子档案文件杀毒处理作业;
10、s6、当执行电子档案文件杀毒处理作业完成时,依据所述目标电子档案文件文本数据搜索出目标电子档案文件所在数据存储库中的存储路径数据并生成目标电子档案文件文本存储路径数据;
11、s7、将所述目标电子档案文件文本数据、所述目标电子档案文件病毒类型特征代码数据、所述目标电子档案文件文本存储路径数据进行数据组合生成目标电子档案文件安全分析结果数据并通过显示设备进行可视化反馈。
12、优选的,所述采集目标电子档案文件特征数据的操作步骤如下:
13、s11、通过电子档案文件搜索输入对话框在线采集目标电子档案文件的特征数据并生成目标电子档案文件特征数据i,所述目标电子档案文件特征数据包括目标电子档案文件的文件名称特征数据和扩展名称特征数据。
14、本发明通过电子档案文件搜索输入对话框高效获取目标电子档案文件特征参数,达到为精确搜索目标电子档案文件提供数据支撑的效果。
15、优选的,所述采用数据搜索算法将所述目标电子档案文件特征数据与电子档案文件文本数据进行电子档案文件的特征关键词匹配,搜索出所述目标电子档案文件特征数据对应的所述电子档案文件文本数据并生成目标电子档案文件文本数据;依据所述目标电子档案文件文本数据进行文本数据分析,并构建出目标电子档案文件文本搜索结果数据,当所述目标电子档案文件文本搜索结果数据为不存在时,结束电子档案文件安全分析作业的操作步骤如下:
16、s21、建立电子档案文件文本数据集合a=(a1,…,am,…,aη),m=1,2,3,…,η;其中am表示第m个电子档案文件文本数据,η表示电子档案文件文本数据数量的最大值;
17、s22、采用宽度优先搜索算法将所述目标电子档案文件特征数据i与所述电子档案文件文本数据集合a中所述电子档案文件文本数据am进行电子档案文件的文件名称特征和文件扩展名称特征关键词匹配,搜索出所述目标电子档案文件特征数据i对应的所述电子档案文件文本数据am,将所述电子档案文件文本数据am标识生成目标电子档案文件文本数据
18、s23、对所述目标电子档案文件文本数据进行文本数据分析并构建出目标电子档案文件文本搜索结果数据a';
19、当进行文本数据分析结果为存在文本数据,则输出所述目标电子档案文件文本搜索结果数据a'为存在;
20、当进行文本数据分析结果为不存在文本数据,则输出所述目标电子档案文件文本搜索结果数据a'为不存在,此时结束电子档案文件安全分析作业。
21、本发明通过基于存储的电子档案文件文本参数结合宽度优先搜索算法与电子档案文件特征数据进行特征关键词匹配搜索出目标电子档案文件,以及对目标电子档案文件文本数据进行文本数据分析,达到高效精准搜索目标电子档案文件文本参数和科学判断出目标电子档案文件是否存在的效果。
22、优选的,当所述目标电子档案文件文本搜索结果数据为存在时,依据文件病毒类型特征关键词数据在互联网云端搜索出不同文件病毒类型的特征代码数据并生成文件病毒类型特征代码数据的操作步骤如下:
23、s31、建立文件病毒类型特征关键词数据集合b=(b1,…,bn,…,bι),n=1,2,3,…,ι;其中bn表示第n个文件病毒类型特征关键词数据,ι表示文件病毒类型特征关键词数据数量的最大值,所述文件病毒类型特征关键词数据包括寄生病毒、文件病毒、头寄生病毒、尾寄生病毒、插入寄生病毒、覆盖病毒、无入口点病毒和伴随病毒;
24、s32、所述目标电子档案文件文本搜索结果数据a'为存在时,采用统一代价搜索算法依据所述文件病毒类型特征关键词数据集合b中文件病毒类型特征关键词数据bn在互联网云端搜索出不同文件病毒类型的特征代码数据并生成文件病毒类型特征代码数据集合c=(c1,…,co,…,cκ),o=1,2,3,…,κ;其中co表示第o种文件病毒类型特征代码数据,κ表示文件病毒类型编号数量的最大值。
25、本发明通过科学预设文件病毒类型特征关键词参数并基于大数据在互联网云端实时搜索出最新不同文件病毒类型的特征代码参数,达到实时搜索出最新不同文件病毒类型特征代码的效果。
26、优选的,所述采用数据识别算法依据所述文件病毒类型特征代码数据对所述目标电子档案文件文本数据进行文件病毒类型代码特征分析,识别出所述目标电子档案文件文本数据中对应的所述文件病毒类型特征代码数据并生成目标电子档案文件病毒类型特征代码数据;依据所述目标电子档案文件病毒类型特征代码数据进行文本数据分析并构建出目标电子档案文件病毒类型识别结果数据;当所述目标电子档案文件病毒类型识别结果数据为不存在时,结束电子档案文件安全分析作业的操作步骤如下:
27、s41、采用数据识别算法依据所述文件病毒类型特征代码数据集合c中所述文件病毒类型特征代码数据co按照文件病毒类型编号o对所述目标电子档案文件文本数据进行文件病毒类型代码特征分析,识别出所述目标电子档案文件文本数据中对应的所述文件病毒类型特征代码数据co,数据识别算法执行文件病毒类型代码特征分析具体步骤如下:
28、s411、设定最大迭代次数t,搜索猎物,代码识别变色龙开始搜索猎物,即在文件病毒类型特征代码数据集合c中搜索出与目标电子档案文件文本数据相匹配的文件病毒类型特征代码数据co,搜索猎物公式如下:
29、其中表示代码识别变色龙个体i第t+1次迭代在维度为κ的文件病毒类型特征代码数据集合c搜索空间中的位置,表示代码识别变色龙个体i第t次迭代在维度为κ的文件病毒类型特征代码数据集合c搜索空间中的位置;表示第t次迭代在维度为κ的文件病毒类型特征代码数据集合c搜索空间中的最优位置,表示代码识别变色龙个体i第t次迭代在维度为κ的文件病毒类型特征代码数据集合c搜索空间中的最优个体位置;γ1、γ2表示控制代码识别变色龙勘探能力的两个参数;r1、r2、r3均为取值[0,1]区间内的随机数,ri代表r1、r2、r3中任意一个参数,γ'表示代码识别变色龙感知猎物的概率,ακ、βκ分别表示在维度为κ的文件病毒类型特征代码数据集合c搜索空间中的上限、下限;sgn(rand-0.5)表示取值1或-1的随机数;
30、s412、猎物定位,代码识别变色龙个体利用眼睛探索文件病毒类型特征代码数据集合c搜索空间中猎物,代码识别变色龙的眼睛在文件病毒类型特征代码数据集合c搜索空间中同时朝两个不同的方向看并同时旋转和聚焦,从而搜索文件病毒类型特征代码数据,为了模拟这个过程,设定将代码识别变色龙的原始位置平移到重心,找到识别猎物位置的旋转矩阵,使用重心处的旋转矩阵更新代码识别变色龙的位置,将代码识别变色龙移回原始位置;此阶段模拟代码识别变色龙通过眼睛旋转定位猎物时的位置更新如下:
31、式中表示代码识别变色龙个体i第t次迭代后在文件病毒类型特征代码数据集合c搜索空间中位置旋转前的各维度平均位置,表示代码识别变色龙个体i第t次迭代后在文件病毒类型特征代码数据集合c搜索空间中的位置,表示代码识别变色龙个体i第t次迭代后在文件病毒类型特征代码数据集合c搜索空间中旋转中心位置;
32、s413、捕获猎物,接近猎物的代码识别变色龙个体位置最优的代码识别变色龙,代码识别变色龙个体用它的舌头攻击猎物,即在文件病毒类型特征代码数据集合c搜索空间中搜索出与目标电子档案文件文本数据相匹配的文件病毒类型特征代码数据co;代码识别变色龙个体的位置更新,代码识别变色龙个体的舌头落向猎物时的速度公式如下:
33、其中表示代码识别变色龙个体i第t+1次迭代在维度为κ的文件病毒类型特征代码数据集合c搜索空间中的舌头落向猎物的速度,表示代码识别变色龙个体i第t次迭代在维度为κ的文件病毒类型特征代码数据集合c搜索空间中的舌头落向猎物的速度,表示代码识别变色龙个体i第t次迭代在文件病毒类型特征代码数据集合c搜索空间中的最优位置,λ=π=1.75用于控制和对舌头速度的影响,θ的更新方式为其中t表示最大迭代次数,t表示当前迭代次数,ρ=1用于控制开发能力的参数;
34、s414、满足最大迭代次数时,则输出与目标电子档案文件文本数据相匹配的文件病毒类型特征代码数据co;
35、s42、将s414步骤中输出的与所述目标电子档案文件文本数据相匹配的所述文件病毒类型特征代码数据co标识生成目标电子档案文件病毒类型特征代码数据
36、s43、对所述目标电子档案文件病毒类型特征代码数据进行文本数据分析并构建出目标电子档案文件病毒类型识别结果数据c';
37、当进行文本数据分析结果为存在文本数据,则输出所述目标电子档案文件病毒类型识别结果数据c'为存在;
38、当进行文本数据分析结果为不存在文本数据,则输出所述目标电子档案文件病毒类型识别结果数据c'为不存在,此时结束电子档案文件安全分析作业。
39、本发明通过采用变色龙优化算法基于文件病毒类型特征代码参数对目标电子档案文件文本参数进行文件病毒分析,并搜索出电子档案文案中病毒特征代码,达到高效科学识别出电子档案文件文本中文件病毒的效果。
40、优选的,当所述目标电子档案文件病毒类型识别结果数据为存在时,对所述目标电子档案文件病毒类型特征代码数据执行电子档案文件杀毒处理作业的操作步骤如下:
41、s51、当所述目标电子档案文件病毒类型识别结果数据c'为存在时,通过杀毒软件对所述目标电子档案文件文本数据中的所述目标电子档案文件病毒类型特征代码数据c'执行电子档案文件杀毒处理作业,所述杀毒软件包括火绒安全软件、金山毒霸、小红伞中任意一个。
42、本发明通过采用杀毒软件自主对目标电子档案文件病毒执行电子档案文件杀毒处理作业,达到实现智能化处理电子档案文件中文件病毒的效果。
43、优选的,当执行电子档案文件杀毒处理作业完成时,依据所述目标电子档案文件文本数据搜索出目标电子档案文件所在数据存储库中的存储路径数据并生成目标电子档案文件文本存储路径数据的操作步骤如下:
44、s61、当执行电子档案文件杀毒处理作业完成时,采用双向搜索算法依据所述目标电子档案文件文本数据搜索出目标电子档案文件所在数据存储库中的存储路径数据并生成目标电子档案文件文本存储路径数据d。
45、本发明通过采用双向搜索算法准确搜索出目标电子档案文件文本参数在数据存储库中的存储路径参数,达到准确、真实反馈携带文件病毒电子档案文件的存储地址状态的效果。
46、优选的,将所述目标电子档案文件文本数据、所述目标电子档案文件病毒类型特征代码数据、所述目标电子档案文件文本存储路径数据进行数据组合生成目标电子档案文件安全分析结果数据并通过显示设备进行可视化反馈的操作步骤如下:
47、s71、将所述目标电子档案文件文本数据所述目标电子档案文件病毒类型特征代码数据所述目标电子档案文件文本存储路径数据d进行数据组合生成目标电子档案文件安全分析结果数据
48、s72、将所述目标电子档案文件安全分析结果数据e中的所述目标电子档案文件文本数据所述目标电子档案文件病毒类型特征代码数据所述目标电子档案文件文本存储路径数据d有序通过显示设备进行可视化反馈,所述显示设备包括显示屏、荧幕中任意一种。
49、本发明通过将目标电子档案文件文本参数、目标电子档案文件病毒类型特征代码参数、目标电子档案文件文本存储路径参数组合生成目标电子档案文件安全分析结果参数并可视化反馈,达到电子档案文件安全分析结果的标准化和科学化输出展示的效果。
50、实现所述一种档案文件安全可视化分析方法的一种基于大数据的档案文件安全可视化分析系统,所述系统包括目标电子档案文件搜索模块、电子档案文件安全处理模块、电子档案文件安全分析结果可视化反馈模块;
51、所述目标电子档案文件搜索模块包括目标电子档案文件特征采集单元、电子档案文件文本存储单元、目标电子档案文件文本搜索单元、目标电子档案文件文本搜索结果分析单元;
52、所述目标电子档案文件特征采集单元,通过电子档案文件搜索输入对话框采集目标电子档案文件特征数据;所述电子档案文件文本存储单元,用于存储电子档案文件文本数据;所述目标电子档案文件文本搜索单元,采用数据搜索算法将所述目标电子档案文件特征数据与电子档案文件文本数据进行电子档案文件的特征关键词匹配,搜索出所述目标电子档案文件特征数据对应的所述电子档案文件文本数据并生成目标电子档案文件文本数据;所述目标电子档案文件文本搜索结果分析单元,依据所述目标电子档案文件文本数据进行文本数据分析并构建出目标电子档案文件文本搜索结果数据;
53、所述电子档案文件安全处理模块包括文件病毒类型关键词存储单元、文件病毒类型特征代码搜索单元、目标电子档案文件病毒识别单元、目标电子档案文件病毒识别结果分析单元、电子档案文件杀毒处理执行单元;
54、所述文件病毒类型关键词存储单元,用于存储文件病毒类型特征关键词数据;所述文件病毒类型特征代码搜索单元,依据文件病毒类型特征关键词数据基于大数据在互联网云端搜索出不同文件病毒类型的特征代码数据并生成文件病毒类型特征代码数据;所述目标电子档案文件病毒识别单元,采用数据识别算法依据所述文件病毒类型特征代码数据对所述目标电子档案文件文本数据进行文件病毒类型代码特征分析,识别出所述目标电子档案文件文本数据中对应的所述文件病毒类型特征代码数据并生成目标电子档案文件病毒类型特征代码数据;所述目标电子档案文件病毒识别结果分析单元,依据所述目标电子档案文件病毒类型特征代码数据进行文本数据分析并构建出目标电子档案文件病毒类型识别结果数据;所述电子档案文件杀毒处理执行单元,对所述目标电子档案文件病毒类型特征代码数据执行电子档案文件杀毒处理作业;
55、所述电子档案文件安全分析结果可视化反馈模块包括目标电子档案文件存储路径搜索单元、目标电子档案文件安全分析结果生成单元、电子档案文件安全分析结果反馈单元;
56、所述目标电子档案文件存储路径搜索单元,依据所述目标电子档案文件文本数据搜索出目标电子档案文件所在数据存储库中的存储路径数据并生成目标电子档案文件文本存储路径数据;所述目标电子档案文件安全分析结果生成单元,将所述目标电子档案文件文本数据、所述目标电子档案文件病毒类型特征代码数据、所述目标电子档案文件文本存储路径数据进行数据组合生成目标电子档案文件安全分析结果数据;所述电子档案文件安全分析结果反馈单元,将所述目标电子档案文件安全分析结果数据并通过显示设备进行可视化反馈。
57、(三)有益效果
58、本发明提供了一种基于大数据的档案文件安全可视化分析方法及系统。具备以下有益效果:
59、一、通过目标电子档案文件特征采集单元,采用电子档案文件搜索输入对话框高效获取目标电子档案文件特征参数,为精确搜索目标电子档案文件提供数据支撑;电子档案文件文本存储单元和目标电子档案文件文本搜索单元相互配合,基于存储的电子档案文件文本参数结合智能搜索算法与目标电子档案文件特征数据进行特征关键词匹配,从而实现高效精准搜索目标电子档案文件文本参数;目标电子档案文件文本搜索结果分析单元,对搜索的目标电子档案文件文本数据进行文本数据分析科学判断出目标电子档案文件是否存在,为执行电子档案文件安全分析提供决策支持,提高了电子档案文件使用的数据安全性。
60、二、通过文件病毒类型关键词存储单元和文件病毒类型特征代码搜索单元相互配合,科学预设文件病毒类型特征关键词参数并基于大数据在互联网云端实时搜索出最新不同文件病毒类型的特征代码参数,提高了对电子档案文件中病毒分析结果的精度;目标电子档案文件病毒识别单元,采用智能识别算法基于文件病毒类型特征代码参数对目标电子档案文件文本参数进行文件病毒分析,高效科学识别出电子档案文件文本中文件病毒,提高了电子档案文件查阅、提取使用过程的数据可靠性;电子档案文件杀毒处理执行单元,采用杀毒软件自主对目标电子档案文件病毒执行电子档案文件杀毒处理作业,实现智能化处理电子档案文件中文件病毒。
61、三、通过目标电子档案文件存储路径搜索单元,采用智能搜索算法准确搜索出目标电子档案文件文本参数在数据存储库中的存储路径参数,实现准确、真实反馈携带文件病毒电子档案文件的存储地址状态;目标电子档案文件安全分析结果生成单元和电子档案文件安全分析结果反馈单元相互配合,将目标电子档案文件文本参数、目标电子档案文件病毒类型特征代码参数、目标电子档案文件文本存储路径参数组合生成目标电子档案文件安全分析结果参数并通过显示设备可视化直观反馈,实现电子档案文件安全分析结果的标准化和科学化输出展示。
本文地址:https://www.jishuxx.com/zhuanli/20240730/193949.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。
下一篇
返回列表