技术新讯 > 计算推算,计数设备的制造及其应用技术 > 一种网站敏感词的检测方法及装置与流程  >  正文

一种网站敏感词的检测方法及装置与流程

  • 国知局
  • 2024-10-15 09:20:39

本发明属于网站安全,尤其是涉及一种对网站上各链接的页面敏感词进行检测方法及应用该方法的装置。

背景技术:

1、随着移动互联网的发展,用户可以在各个网络平台发布信息,并且还可以对各网络平台上的媒体资源进行评论、与媒体资源的作者进行互动,还可以进行线上通讯,比如打电话等;但是,所有的良好互动均建立在优质的媒体资源以及良好的网络氛围的基础上,而构建良好的网络氛围,主要靠各个网络平台对内容进行检索和校验,确定为不良信息后,对不良信息进行拦截、过滤。

2、因此,如何快速准确的检测出网站上页面敏感词,并及时作出告警,对于维护网络清净,提高网络管理效率都有积极意义。

技术实现思路

1、基于上述背景,本发明旨在提出一种实现网站敏感词高效检测的方法以及应用该方法的网站安全检测系统的敏感词检测装置。

2、第一方面,提出一种网站敏感词的检测方法,包括:根据检测任务的配置参数,批量获取待检测链接加入线程池;定时向所述线程池中的链接发起请求,获取响应内容;加载敏感词词库,采用horspool算法检测所述响应内容,若触发敏感词则根据预设配置进行告警。

3、上述的敏感词词库还包括敏感词所属类别及对应等级,当触发预设类别和/或预设等级的敏感词时,进行预设等级的告警。

4、上述的检测任务结束后输出包括链接地址、触发的关键词及其位置的检测结果;当触发敏感词库时,若检测结果与忽略词库匹配成功则取消告警。

5、较佳的,若响应头或响应内容字符串长度大于10000,则按照字符串长度/10000向上取整进行切分,并根据切分的份数开启对应数量的线程并行的进行检测。

6、以及,获取待检测链接时,每个链接的目录层数小于任务配置,同时每个链接的页面数量小于任务配置;以及,进行检测之前若链接数据已过期则携带请求信息重新请求获取响应内容。

7、较佳的,上述的敏感词词库,包括简体字、繁体字、拼音及二简字。

8、第二方面,提出一种网站安全检测系统的敏感词检测装置,包括:

9、预爬取模块,用于定时的从目标网站爬取待检测的链接数据;

10、任务调度模块,用于创建敏感词检测任务及配置任务参数;

11、词库模块,包括预设的敏感词词库与忽略词词库,其中敏感词词库包括简体字、繁体字、拼音及二简字;

12、检测模块,执行检测任务,向待检测链接请求响应内容,并对响应内容进行敏感词检测;

13、告警模块,若待检测链接触发敏感词则根据预设任务配置进行告警。

14、作为较佳的,上述的词库模块的敏感词词库,还包括敏感词所属类别及对应等级,当触发预设类别和/或预设等级的敏感词时,进行预设等级的告警。

15、作为较佳的,上述的敏感词检测模块,根据检测任务的配置参数,批量获取待检测链接加入线程池;定时向所述线程池中的链接发起请求,获取响应内容,采用horspool算法检测所述响应内容。

16、进一步的,若响应头或响应内容字符串长度大于10000,则按照字符串长度/10000向上取整进行切分,并根据切分的份数开启对应数量的线程并行的进行检测;

17、以及,获取待检测链接时,每个链接的目录层数小于任务配置,同时每个链接的页面数量小于任务配置;并且,进行检测之前若链接数据已过期则携带请求信息重新请求获取响应内容。

18、采用上述技术方案的本发明,至少具有以下有益效果:从目标网站爬取待检测链接,向待检测链接请求获取响应内容,根据检测任务配置加载敏感词词库,采用预设算法对响应内容与词库进行匹配,当触发敏感关键词时进行告警。其中,horspool算法检测,效率更高;响应内容字符串长度大于10000时进行切分并多线程并行执行匹配,有利于提高匹配效率;触发敏感词时还进一步与忽略词库进行匹配,能够对特殊网站进行筛除,减少无效告警;匹配前进行链接是否过期的判断,防止对过期数据的处理,有利于降低资源浪费。

技术特征:

1.一种网站敏感词的检测方法,其特征在于,包括:根据检测任务的配置参数,批量获取待检测链接加入线程池;定时向所述线程池中的链接发起请求,获取响应内容;加载敏感词词库,采用horspool算法检测所述响应内容,若触发敏感词则根据预设配置进行告警。

2.根据权利要求1所述的敏感词检测方法,其特征在于,所述敏感词词库还包括敏感词所属类别及对应等级,当触发预设类别和/或预设等级的敏感词时,进行预设等级的告警。

3.根据权利要求1或2所述的敏感词检测方法,其特征在于,所述检测任务结束后输出包括链接地址、触发的关键词及其位置的检测结果;当触发敏感词库时,若检测结果与忽略词库匹配成功则取消告警。

4.根据权利要求1所述的敏感词检测方法,其特征在于,若响应头或响应内容字符串长度大于10000,则按照字符串长度/10000向上取整进行切分,并根据切分的份数开启对应数量的线程并行的进行检测。

5.根据权利要求1所述的敏感词检测方法,其特征在于,获取待检测链接时,每个链接的目录层数小于任务配置,同时每个链接的页面数量小于任务配置;以及,进行检测之前若链接数据已过期则携带请求信息重新请求获取响应内容。

6.根据权利要求1所述的敏感词检测方法,其特征在于,所述敏感词词库,包括简体字、繁体字、拼音及二简字。

7.一种网站安全检测系统的敏感词检测装置,其特征在于,该装置包括:

8.根据权利要求7所述的装置,其特征在于,所述词库模块的敏感词词库,还包括敏感词所属类别及对应等级,当触发预设类别和/或预设等级的敏感词时,进行预设等级的告警。

9.根据权利要求7所述的装置,其特征在于,所述敏感词检测模块,根据检测任务的配置参数,批量获取待检测链接加入线程池;定时向所述线程池中的链接发起请求,获取响应内容,采用horspool算法检测所述响应内容。

10.根据权利要求9所述的装置,其特征在于,若响应头或响应内容字符串长度大于10000,则按照字符串长度/10000向上取整进行切分,并根据切分的份数开启对应数量的线程并行的进行检测;

技术总结本发明旨在提出一种实现网站敏感词高效检测的方法以及应用该方法的网站安全检测系统的敏感词检测装置。从目标网站爬取待检测链接,向待检测链接请求获取响应内容,根据检测任务配置加载敏感词词库,采用预设算法对响应内容与词库进行匹配,当触发敏感关键词时进行告警。技术研发人员:刘亚轩,王俊受保护的技术使用者:西安交大捷普网络科技有限公司技术研发日:技术公布日:2024/10/10

本文地址:https://www.jishuxx.com/zhuanli/20241015/313816.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。