基于人工智能的教育网站安全监测方法及系统与流程
- 国知局
- 2025-01-17 13:06:31
本发明涉大数据,具体涉及一种基于人工智能的教育网站安全监测方法及系统。
背景技术:
1、随着当前广大民众进入到网络环境中,网站的使用量逐年上升,网页内容庞大繁杂,保障网站信息安全、权威和准确至关重要,对于高校等服务对象数目庞大的网站,为大众提供正确的信息和服务是网站拥有者的职责所在,网络舆论和网站安全的重要性愈加凸显。
2、网络信息化的迅速发展,网络舆论信息越来越多,网络舆情在当前是一个热门话题,网络社交在年轻人之间甚至比现实社交占据的地位还要大,对网络上出现的热门话题不加以控制,不及时了解大众的态度并加以引导将会发生严重的影响,另外,现在大部分单位的网站在建设过程中,仅仅考虑了功能的实现问题,忽略了信息安全的风险,这就导致网站时刻处于被攻击、被篡改的危险之中。对于高校等服务对象数目庞大的网站,网页篡改行为甚至会上升到公共安全的问题,造成不可估量的损失,随着篡改行为的持续时间不断增加,所造成的损失会不断扩大,影响网站的进一步使用。
技术实现思路
1、基于此,本发明的目的是提供一种基于人工智能的教育网站安全监测方法、系统,以解决现有技术中存在的技术问题。
2、本发明提出一种基于人工智能的教育网站安全监测方法,包括:
3、对教育网站进行监测需求划分,监测需求包括功能需求和非功能需求,其中,所述功能需求包括网站内容监测,所述非功能需求包括网站篡改监测;
4、基于所述监测需求爬取教育网站运行的文件数据,将所述文件数据进行分布式存储,以使得存储后的文件数据能够根据索引的方式进行搜索;
5、基于网页解析技术对所述文件数据进行解析,以获取所述文件数据中的文本数据和图片数据,分析所述文本数据中的敏感词,结合所述敏感词和所述图片数据对文件数据表达的情感进行分析,进而监测学生对网络上热门话题的态度;
6、对所述文件数据进行网站变化检测,判断发生变化的教育网站,获取教育网站变化的内容,并对变化的内容进行合法性分析,以监测教育网站是否被篡改,并在发现教育网站被篡改后进行报警。
7、优选地,所述基于所述监测需求爬取教育网站运行的文件数据,将所述文件数据进行分布式存储的步骤包括:
8、基于所述监测需求设定爬取目标,根据网络爬虫技术对设定爬取目标的教育网站进行文件数据爬取,采用bitmap对抓取的文件数据进行去重操作;
9、构建包含用户信息表、文件内容表、文件数据索引表的分布式存储系统,所述用户信息表用于存储不同用户的id,所述文件内容表用于存储内容数据,所述文件数据索引表用于为内容数据提供索引;
10、根据文件数据的url地址为爬取到的文件数据创建名称,根据创建的名称为文件数据包含的文件内容建立文件索引,将建立索引后的文件数据存储至分布式存储系统中。
11、优选地,所述基于网页解析技术对所述文件数据进行解析,以获取所述文件数据中的文本数据和图片数据的步骤包括:
12、获取所述文件数据的网页源,其中,每个网页源均对应存在一个固定的url地址,将url地址的后缀转换成html格式;
13、基于python 中的转换函数对html格式的文档进行语法差异处理,以将html格式的文档转换成对应的xml节点树文档;
14、根据解析数据需求对所述xml节点树文档进行路径表达式编辑,基于编辑的路径表达式从所述网页源中解析出文本数据和图片数据。
15、优选地,所述根据解析数据需求对所述xml节点树文档进行路径表达式编辑,基于编辑的路径表达式从所述网页源中解析出文本数据和图片数据的步骤包括:
16、根据是否包含特殊节点将所述xml节点树文档划分为显式文档和隐式文档,其中,所述特殊节点至少包括<style>、<script>节点;
17、获取python 中的lxml解析包,基于所述lxml解析包中的text()函数解析所述显式文档的第一文本列表;
18、构建xpath路径表达式编辑器,滤除所述xpath路径表达式编辑器中的<style>、<script>节点,基于滤除<style>、<script>节点的xpath路径表达式编辑器解析所述隐式文档的第二文本列表;
19、对所述第一文本列表和所述第二文本列表进行正则匹配,以去除所述第一文本列表和所述第二文本列表中的换行符,得到文本数据;
20、获取图片标签,根据所述图片标签的属性从所述xml节点树文档提取图片的源路径,基于所述源路径解析图片数据。
21、优选地,所述分析所述文本数据中的敏感词的步骤包括:
22、将所述文本数据进行分词切割,将切割后的词进行向量化表示,对向量化表示的词进行聚类处理,得到待匹配词;
23、构建敏感词树,将所述敏感词树转换成base数组、check数组、output数组和failure数组并对上述数组进行初始化,得到敏感词库;
24、将待匹配词导入所述敏感词库中,基于多模匹配算法读取待匹配词的字符后在敏感词库中进行状态跳转;
25、通过check数组检测某匹配状态对应的敏感词库中base数组的值是否小于预设值,根据检测结果存储base数组对应的output数组中的敏感词。
26、优选地,所述通过check数组检测某匹配状态对应的敏感词库中base数组的值是否小于预设值,根据检测结果存储base数组对应的output数组中的敏感词的步骤包括:
27、通过check数组检测匹配状态下待匹配词的字符在敏感词库的base数组,若存在若干个敏感词后缀相同,且若干敏感词中字符的base[index]<0,则若干个敏感词均匹配成功,输出若干个敏感词对应的output数组中的敏感词并进行存储;
28、若存在某个敏感词的后缀与另一敏感词的前缀相同,且前缀敏感词中字符的base[index]<0,则前缀敏感词匹配成功,输出前缀敏感词对应的output数组中的敏感词并进行存储;
29、通过failure数组跳转至待匹配词的下一字符进行匹配,若存在后缀敏感词中字符的base[index]<0,则后缀敏感词匹配成功,输出后缀敏感词对应的output数组中的敏感词并进行存储,若不存在后缀敏感词中字符的base[index]<0,则后缀敏感词匹配不成功;
30、若存在某个敏感词的后缀包含另一敏感词的前缀,且前缀敏感词中字符的base[index]≥0,前缀敏感词匹配不成功;
31、通过failure数组转移敏感词的位置到下一base数组,从后缀敏感词继续匹配。
32、优选地,所述对所述文件数据进行网站变化检测,判断发生变化的教育网站的步骤包括:
33、基于所述文件数据获取教育网站的网页信息,根据所述网页信息计算网页的哈希值,并将计算的哈希值与对应的事务箱中记录的网页摘要哈希值进行比较;
34、若比较结果一致,则返回确认消息,将网页信息发送到用户端进行正常页面显示;
35、若比较结果不一致,对教育网站的页面进行阻断并生成事务条,将事务条广播给除自身以外的监控端并转发;
36、除自身以外的监控端接收广播后读取事务条的网页名、url地址以及网页摘要,以使得教育网站内的所有节点均备份该网页变化。
37、优选地,所述对教育网站的页面进行阻断并生成事务条,将事务条广播给除自身以外的监控端并转发的步骤包括:
38、基于工作量证明算法获取当前事务箱的记账权,基于所述记账权将生成的事务条保存在当前事务箱中,并将事务条的哈希摘要记录并汇总存储成一个列表;
39、当前事务箱对应的监控端将本身的签名添加至区块节点,区块节点通过广播将当前事务箱广播给除自身以外的区块节点;
40、接收到广播的区块节点对当前事务箱进行校验,将生成的事务条保存在监控端的区块链中,并在监控端之间进行转发。
41、本发明还提出一种基于人工智能的教育网站安全监测系统,包括:
42、划分模块,用于对教育网站进行监测需求划分,监测需求包括功能需求和非功能需求,其中,所述功能需求包括网站内容监测,所述非功能需求包括网站篡改监测;
43、存储模块,用于基于所述监测需求爬取教育网站运行的文件数据,将所述文件数据进行分布式存储,以使得存储后的文件数据能够根据索引的方式进行搜索;
44、解析模块,用于基于网页解析技术对所述文件数据进行解析,以获取所述文件数据中的文本数据和图片数据,分析所述文本数据中的敏感词,结合所述敏感词和所述图片数据对文件数据表达的情感进行分析,进而监测学生对网络上热门话题的态度;
45、分析模块,用于对所述文件数据进行网站变化检测,判断发生变化的教育网站,获取教育网站变化的内容,并对变化的内容进行合法性分析,以监测教育网站是否被篡改,并在发现教育网站被篡改后进行报警。
46、本发明相比于现有技术的有益效果为:本技术提供的基于人工智能的教育网站安全监测方法,首先对教育网站进行监测需求划分,基于监测需求爬取教育网站运行的文件数据,将文件数据进行分布式存储,以使得存储后的文件数据能够根据索引的方式进行搜索,提高文件读取效率;提取存储的文件数据后进行解析,以获取文件数据中的文本数据和图片数据,分析文本数据中的敏感词,并与图片数据结合进行情感分析,通过文字和图片结合的方式进行情感分析,可以有效的判断出学生情绪,进而对学生的价值观进行预测;进一步的,根据文件数据进行网站变化检测,根据变化的具体内容进行合法性分析,以监测教育网站是否被篡改,发现教育网站被篡改时及时进行报警;本技术提供的教育网站安全监测方法,可以及时了解网站使用对象的情绪以及网站是否被篡改,提高教育网站的安全系数;适合大范围推广。
47、本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
本文地址:https://www.jishuxx.com/zhuanli/20250117/356182.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。
下一篇
返回列表