一种网页篡改检测方法、装置、设备及存储介质与流程

2021-12-17 22:19:00 来源：中国专利 TAG：

1.本技术涉及计算机应用技术领域，特别是涉及一种网页篡改检测方法、装置、设备及存储介质。

背景技术：

2.网页篡改(webpage defacement)，是指黑客入侵合法网站，在合法网站中插入非法文本、图像及恶意链接等行为。网页篡改是黑帽搜索引擎优化的常见手段，通过网页篡改可以增加目的网站在搜索引擎的权重，提升目的网站在搜索引擎中的排名，为目的网站增加访问量，获取更多流量。但是，这会降低合法网站在搜索引擎的排名，给其造成较大经济损失，同时也会影响企业形象。所以，很多网站都需要进行网页篡改检测。
3.在现有技术中，多是基于云端进行网页篡改检测。具体做法是，利用爬虫爬取网站的网页，再对网页进行量级/复杂性更高但准确度也更高的分析，确定是否为篡改网页。
4.但是，这种方法存在多个弊端。首先，云端缺乏全网爬取能力，云端爬虫无法获取孤链篡改网页，也就无法检测到孤链篡改网页。孤链是一种特殊的网页篡改形式，黑客上传篡改网页后，在该网站服务器a中无本地链接指向此篡改网页，同时，黑客在其控制的另一台服务器b上增加链接指向此篡改网页。因此，针对网站服务器a的普通爬虫无法爬取到该孤链篡改网页，而只有拥有全网爬取能力的爬虫，如搜索引擎才能够通过网站b爬取到该孤链篡改网页。其次，为了躲避云端检测手段，篡改者经常会使用cloaking机制，返回正常内容给云端爬虫，而只将恶意内容返回给攻击目标，这样将使得云端爬虫很难获取到恶意网页。也就是说，云端很难检测到使用cloaking机制的篡改网页。再次，云端会对其通过爬虫爬取到的所有网页进行检测，而云端爬虫爬取到的网页大多是网站的正常网页，这将会使得检测效率较低。

技术实现要素：

5.本技术的目的是提供一种网页篡改检测方法、装置、设备及存储介质，以适应多种场景的网页篡改检测，提高检测效率。
6.为解决上述技术问题，本技术提供如下技术方案：
7.一种网页篡改检测方法，应用于目标网站的本地网络设备，所述方法包括：
8.获得所述目标网站的目标网页，所述目标网页为在经过所述本地网络设备的流量的响应包中提取到的网页；
9.对所述目标网页进行解析，获得所述目标网页的文本信息；
10.基于所述目标网页的文本信息，对所述目标网页进行可疑判定；
11.如果判定所述目标网页为可疑网页，则将所述目标网页上报给云端，以使所述云端对所述目标网页进行篡改检测。
12.在本技术的一种具体实施方式中，所述基于所述目标网页的文本信息，对所述目标网页进行可疑判定，包括：
13.将所述目标网页的文本信息与关键词库中的关键词进行匹配；
14.根据匹配结果，对所述目标网页进行可疑判定。
15.在本技术的一种具体实施方式中，所述关键词库中包括严格关键词，所述根据匹配结果，对所述目标网页进行可疑判定，包括：
16.如果匹配结果为：所述目标网页的文本信息与所述关键词库中的严格关键词的匹配次数超过预设次数阈值，则确定所述目标网页为篡改网页。
17.在本技术的一种具体实施方式中，所述关键词库中包括宽松关键词，所述根据匹配结果，对所述目标网页进行可疑判定，包括：
18.如果匹配结果为：所述目标网页的文本信息中不包含所述关键词库中的任意一个宽松关键词，则确定所述目标网页为正常网页。
19.在本技术的一种具体实施方式中，所述基于所述目标网页的文本信息，对所述目标网页进行可疑判定，包括：
20.基于所述目标网页的文本信息，利用检测模型，确定所述目标网页是否为正常网页，所述检测模型为基于所述目标网站的正常网页训练得到的。
21.在本技术的一种具体实施方式中，所述检测模型为通过以下步骤训练获得的：
22.获得所述目标网站的正常网页；
23.在所述正常网页中确定训练网页；
24.基于确定出的训练网页，训练获得所述检测模型。
25.在本技术的一种具体实施方式中，所述获得所述目标网站的正常网页，包括：
26.获得所述目标网站的业务网页；
27.分别根据每个业务网页的访问模式信息，确定每个业务网页是否为正常网页。
28.在本技术的一种具体实施方式中，所述访问模式信息至少包括以下一种信息：访问频率、被不同ip访问的次数、是否被可信ip访问。
29.在本技术的一种具体实施方式中，所述在所述正常网页中确定训练网页，包括：
30.在所述正常网页中剔除请求方为设定目标的网页；
31.在剔除后的所述正常网页中，针对每个ip选择设定数量的网页，确定为训练网页。
32.在本技术的一种具体实施方式中，所述检测模型包括第一检测模型和/或第二检测模型，所述基于确定出的训练网页，训练获得所述检测模型，包括：
33.基于确定出的训练网页的关键词，训练获得所述第一检测模型；
34.和/或，
35.基于确定出的训练网页的访问模式信息，训练获得所述第二检测模型。
36.在本技术的一种具体实施方式中，在所述对所述目标网页进行解析，获得所述目标网页的文本信息之后、所述基于所述目标网页的文本信息，对所述目标网页进行可疑判定，之前，还包括：
37.基于所述目标网页的文本信息，确定数据库中是否存在所述目标网页，所述数据库中包含已确定为正常网页或者篡改网页的网页的文本信息；
38.如果不存在，则执行所述基于所述目标网页的文本信息，对所述目标网页进行可疑判定的步骤。
39.在本技术的一种具体实施方式中，在所述将所述目标网页上报给云端之后，还包
括：
40.接收所述云端返回的篡改检测结果；
41.将所述目标网页的文本信息加入到所述数据库中，并根据所述篡改检测结果标注所述目标网页为正常网页或者篡改网页。
42.一种网页篡改检测装置，应用于目标网站的本地网络设备，所述装置包括：
43.目标网页获得模块，用于获得所述目标网站的目标网页，所述目标网页为在经过所述本地网络设备的流量的响应包中提取到的网页；
44.文本信息获得模块，用于对所述目标网页进行解析，获得所述目标网页的文本信息；
45.可疑判定模块，用于基于所述目标网页的文本信息，对所述目标网页进行可疑判定；
46.可疑上报模块，用于如果判定所述目标网页为可疑网页，则将所述目标网页上报给云端，以使所述云端对所述目标网页进行篡改检测。
47.一种网页篡改检测设备，包括：
48.存储器，用于存储计算机程序；
49.处理器，用于执行所述计算机程序时实现上述任一项所述网页篡改检测方法的步骤。
50.一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现上述任一项所述网页篡改检测方法的步骤。
51.应用本技术实施例所提供的技术方案，本地网络设备在经过自身的流量的响应包中提取到目标网页后，可以对目标网页进行解析，获得目标网页的文本信息，基于目标网页的文本信息，对目标网页进行可疑判定，如果判定目标网页为可疑网页，则将目标网页上报给云端，通过云端对目标网页进行篡改检测。本地网络设备能够获取到经过自身的所有流量的响应包中的网页，所以即使是孤链篡改网页，或者是使用cloaking机制绕过爬虫的篡改网页，只要被访问过，都可以获取到，从而可以适用于各种场景的网页篡改检测。而且，云端只需要对本地网络设备上报的可疑网页进行篡改检测，减少了对大量的正常网页的检测过程，可以提高检测效率。
附图说明
52.为了更清楚地说明本技术实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本技术的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
53.图1为本技术实施例中一种网页篡改检测系统的架构示意图；
54.图2为本技术实施例中网页篡改检测方法的一种实施流程图；
55.图3为本技术实施例中网页篡改检测方法的另一种实施流程图；
56.图4为本技术实施例中一种网页篡改检测装置的结构示意图；
57.图5为本技术实施例中一种网页篡改检测设备的结构示意图。
具体实施方式
58.本技术的核心是提供一种网页篡改检测方法，该方法可以应用于目标网站的本地网络设备。本地网络设备可以是应用层防火墙等网络设备。只要有用户访问目标网站，访问流量及目标网站返回的响应流量都会经过本地网络设备，从而本地网络设备能够在第一时间在经过自身的流量的响应包中提取到网页，对其进行可疑判定，如果判定为可疑网页，则可以上报给云端，通过云端对其进行篡改检测。
59.攻击者要达到其恶意意图，被篡改的网页就需要被目标用户访问到，这就意味着篡改网页的响应包的流量会经过本地网络设备。本地网络设备可以获得流经自身的所有流量，从而可以第一时间获取到所经过的流量的响应包中的网页。也就是说，无论是孤链篡改网页，还是使用cloaking机制绕过爬虫的篡改网页，只要有用户访问，都可以被获取到，而如果篡改网页没有被访问过，则可以认为该网页不会造成危害，即使本地网络设备没有获取到，也不会造成什么影响。本地网络设备获得目标网页后，可以先在本地对其进行可疑判定，在判定其为可疑网页的情况下，上报给云端，利用云端强大的处理能力对其进行篡改检测，最终确定是否为篡改网页，这样云端只需要对可疑网页进行篡改检测，可以提高检测效率。
60.为了使本技术领域的人员更好地理解本技术方案，下面结合附图和具体实施方式对本技术作进一步的详细说明。显然，所描述的实施例仅仅是本技术一部分实施例，而不是全部的实施例。基于本技术中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本技术保护的范围。
61.参见图1所示，为本技术实施例中网页篡改检测系统的架构示意图，该网页篡改检测系统可以包括云端110和目标网站的本地网络设备120(图1中是以防火墙为例)。目标网站可以配置多个本地网络设备120，云端110可以与每个本地网络设备120连接(图1中仅示例性地示出一个)，接收每个本地网络设备120发送的可疑网页，对可疑网页进行篡改检测。
62.客户端可以向目标网站发送针对目标网页的目标访问请求。客户端可以是手机、平板电脑、笔记本电脑、台式机等终端中安装的可进行网络访问的应用，如浏览器等。目标网站返回的响应包会经过本地网络设备120。
63.本地网络设备120获得从经过自身的流量的响应包中提取到目标网页后，可以对目标网页进行解析，获得目标网页的文本信息，基于目标网页的文本信息，对目标网页进行可疑判定，如果判定目标网页为可疑网页，则可以将目标网页上报给云端110，借助云端110强大的运算、处理能力，由云端110对目标网页进行篡改检测，确定目标网页为正常网页还是篡改网页。当然，本地网络设备120在对目标网页进行可疑判定后，如果确定目标网页为篡改网页，则可以直接拦截该响应包，以避免对目标网站产生影响(图1中未示出)。如果确定目标网页非篡改网页，则可以放行该响应包，以响应客户端的目标访问请求。
64.本技术实施例主要是通过网站的本地网络设备对经过本地网络设备的流量的响应包中的网页进行可疑判定，过滤出可疑网页，将可疑网页上报给云端，如上报文本信息、链接地址信息、标签信息等相关信息，云端通过重量级更高但更准确的技术，如机器学习、搜索引擎搜索及行为分析等，确定可疑网页是正常网页还是篡改网页。本地网络设备能够获取到经过自身的所有流量的响应包中的网页，所以即使是孤链篡改网页，或者是使用cloaking机制绕过爬虫的篡改网页，只要被访问过，都可以获取到，从而可以适用于各种场
景的网页篡改检测。而且，云端只需要对本地网络设备上报的可疑网页进行篡改检测，减少了对大量的正常网页的检测过程，可以提高检测效率。同时，在云端进行篡改检测，可以提高检测准确率，减少本地网络设备的性能开销。
65.上面对网页篡改检测系统的各组成进行了整体介绍，下面对网页篡改检测系统进行网页篡改检测的过程进行详细说明。
66.参见图2所示，为本技术实施例中一种网页篡改检测方法的实施流程图，该方法可以应用于目标网站的本地网络设备，该方法可以包括以下步骤：
67.s210：获得目标网站的目标网页。
68.目标网页为在经过本地网络设备的流量的响应包中提取到的网页。
69.目标网站响应访问请求的流量都会经过本地网络设备。本地网络设备对于流经自身的流量，可以提取其响应包中的目标网页。所谓响应包是指服务器端到客户端的响应消息，包括响应行、响应头、响应体等。
70.获得目标网站的目标网页后，可以继续执行步骤s220的操作。
71.s220：对目标网页进行解析，获得目标网页的文本信息。
72.本地网络设备获得经过自身的响应包中的目标网页后，可以对目标网页进行解析，如解析目标网页的dom(document object model，文档对象模型)结构，提取其中的文本信息。篡改者经常会使用特殊编码来绕过检测，所以，本技术对目标网页的文本信息进行解码操作，可以有效防止篡改网页绕过。
73.s230：基于目标网页的文本信息，对目标网页进行可疑判定。
74.获得目标网页的文本信息后，可以进一步基于目标网页的文本信息，对目标网页进行可疑判定，确定出目标网页是正常网页、篡改网页还是可疑网页。
75.在实际应用中，本地网络设备可以基于目标网页的文本信息，进行轻量化检测。如可以通过一些关键词判断，或者可以通过历史数据判断等进行检测。
76.s240：如果判定目标网页为可疑网页，则将目标网页上报给云端，以使云端对目标网页进行篡改检测。
77.在对目标网页进行可疑判定后，判定结果可以有三种，一种是判定目标网页为正常网页，一种是判定目标网页为篡改网页，一种是判定目标网页为可疑网页，即无法准确确定目标网页是正常网页还是篡改网页。在判定目标网页为可疑网页的情况下，可以将目标网页上报给云端，云端可以对目标网页进行篡改检测。在判定目标网页为篡改网页的情况下，可以直接拦截该响应包，以避免影响目标网站的正常运行。在判定目标网页非篡改网页的情况下，可以先放行响应包，以响应客户端的访问请求。
78.在实际应用中，云端可以采用量级更高的检测方式，比如利用神经网络，学习网页语义信息，对网页进行分类等。云端还可以利用搜索引擎，搜索相关网页的信息，如搜索网页链接及黑词等，根据搜索结果判定网页是否被篡改。另外，云端还可以融合多种模型对目标网页是否为篡改网页进行更准确的判断。
79.应用本技术实施例所提供的方法，本地网络设备在经过自身的流量的响应包中提取到目标网页后，可以对目标网页进行解析，获得目标网页的文本信息，基于目标网页的文本信息，对目标网页进行可疑判定，如果判定目标网页为可疑网页，则将目标网页上报给云端，通过云端对目标网页进行篡改检测。本地网络设备能够获取到经过自身的所有流量的
响应包中的网页，所以即使是孤链篡改网页，或者是使用cloaking机制绕过爬虫的篡改网页，只要被访问过，都可以获取到，从而可以适用于各种场景的网页篡改检测。而且，云端只需要对本地网络设备上报的可疑网页进行篡改检测，减少了对大量的正常网页的检测过程，可以提高检测效率。
80.在本技术的一个实施例中，步骤s230可以包括以下步骤：
81.步骤一：将目标网页的文本信息与关键词库中的关键词进行匹配；
82.步骤二：根据匹配结果，对目标网页进行可疑判定。
83.为便于描述，将上述两个步骤结合起来进行说明。
84.在本技术实施例中，可以预先收集多个关键词，构成关键词库。获得目标网页的文本信息后，可以将目标网页的文本信息与关键词库中的关键词进行匹配，根据匹配结果，对目标网页进行可疑判定。
85.关键词库中可以包括严格关键词，所谓严格关键词是指一个网页中只要含有其中的关键词，则就有较高概率认为该网页已被篡改。在本技术的一种具体实施方式中，如果匹配结果为：目标网页的文本信息与关键词库中的严格关键词的匹配次数超过预设次数阈值，则确定目标网页为篡改网页。次数阈值可以根据实际情况进行设定和调整。
86.即将目标网页的文本信息与关键词库中的严格关键词进行匹配，如果匹配次数超过预设次数阈值，则表明目标网页的文本信息命中严格关键词的次数较多，有较高概率已被篡改，在这种情况下，可以直接确定目标网页为篡改网页，可以直接拦截其所在的响应包。
87.如果目标网页的文本信息与关键词库中的严格关键词的匹配次数不超过预设次数阈值，则可以认为目标网页非篡改网页，可能为正常网页或者可疑网页，可以使用其他方式对其进行进一步确定，在无法确定其为正常网页的情况下，可以判定其为可疑网页，并上报云端，由云端进行进一步篡改检测。
88.关键词库中可以包括宽松关键词，可以认为篡改网页有较高概率至少包含一个宽松关键词。在本技术的一种具体实施方式中，如果匹配结果为：目标网页的文本信息中不包含关键词库中的任意一个宽松关键词，则确定目标网页为正常网页。
89.即将目标网页的文本信息与关键词库中的宽松关键词进行匹配，如果目标网页的文本信息中不包含关键词库中的任意一个宽松关键词，则可以认为目标网页没有恶意内容，可以确定目标网页为正常网页，可以直接放行其所在的响应包。
90.如果目标网页的文本信息中包含至少一个宽松关键词，则可以认为目标网页非正常网页，可能为篡改网页或者可疑网页，可以使用其他方式对其进行进一步确定，在无法确定其为篡改网页的情况下，可以判定其为可疑网页，并上报云端，由云端进行进一步篡改检测。
91.在本技术的一种具体实施方式中，关键词库中可以既包括严格关键词，又包括宽松关键词。可以先将目标网页的文本信息与关键词库中的严格关键词进行匹配，如果确定目标网页非篡改网页，则可以进一步将目标网页的文本信息与关键词库中的宽松关键词进行匹配，如果确定目标网页非正常网页，则可以判定其为可疑网页。这样可以提高可疑网页的检出准确率。
92.本地网络设备在本地通过关键词对目标网页进行可疑判定，可以过滤掉可被确定
为正常网页或者篡改网页的网页，只将可疑网页上报给云端，以节省云端资源，提高检测效率。
93.在本技术的一个实施例中，步骤s230可以包括以下步骤：
94.基于目标网页的文本信息，利用检测模型，确定目标网页是否为正常网页，检测模型为基于目标网站的正常网页训练得到的。
95.在本技术实施例中，可以利用本地网络设备的用户访问信息来学习目标网站的业务，先基于目标网站的正常网页训练得到检测模型。
96.在获得目标网页的文本信息后，可以基于目标网页的文本信息，利用检测模型，确定目标网页是否为正常网页。因为检测模型是基于目标网站的正常网页训练得到的，所以利用检测模型，可以准确地确定出目标网页是否为正常网页。这样可以有效过滤掉正常网页。如果确定目标网页非正常网页，且不能确定其为篡改网页，则可以将其确定为可疑网页。将可疑网页上报云端进行篡改检测。
97.在本技术的一个实施例中，检测模型可以通过以下步骤训练获得：
98.步骤一：获得目标网站的正常网页；
99.步骤二：在正常网页中确定训练网页；
100.步骤三：基于确定出的训练网页，训练获得检测模型。
101.为便于描述，将上述三个步骤结合起来进行说明。
102.检测模型的训练可以是本地网络设备执行的，还可以是其他可进行数据处理的设备执行的。为便于描述，本技术实施例以本地网络设备执行为例，对方案进行说明。
103.在本技术实施例中，通过历史数据分析，或者通过目标网站运营者提供的信息，可以获得目标网站的正常网页。
104.具体的，可以先获得目标网站的业务网页，然后分别根据每个业务网页的访问模式信息，确定每个业务网页是否为正常网页。
105.本地网络设备通过在经过自身的流量的响应包中提取网页可以获得目标网站的业务网页。当前，如果目标网站部署有多个本地网络设备，则进行检测模型训练的本地网络设备可以从其他本地网络设备处获取业务网页。
106.获得目标网站的业务网页后，可以分别根据每个业务网页的访问模式信息，确定每个业务网页是否为正常网页。利用访问模式信息，初步区分出正常网页和非正常网页。正常网页也就是正常的业务网页。
107.访问模式信息可以至少包括以下一种信息：访问频率、被不同ip访问的次数、是否被可信ip访问。
108.可以理解的是，篡改网页大部分是想要被搜索引擎搜索到，所以，篡改网页的访问频率会远低于正常网页的访问频率，篡改网页被不同ip访问的次数会远低于正常网页被不同ip访问的次数。所以，如果一个网页的访问频率过低，如低于预设频率阈值，则可以确定该网页非正常网页，或者，如果一个网页被不同ip访问的次数过少，如少于预设访问次数阈值，则可以确定该网页非正常网页。另外，还可以预先设定可信ip，如果一个网页被可信ip访问，则可以确定该网页为正常网页。
109.需要说明的是，访问模式信息还可以包括其他信息，如访问时段信息等，本技术对此不做限制。
110.确定每个业务网页是否为正常网页后，可以剔除掉非正常网页，保留正常网页，在正常网页中再确定训练网页。即将正常网页中符合训练要求的网页确定为训练网页。
111.具体的，可以先确定正常网页中请求方为设定目标的网页，然后在正常网页的除请求方为设定目标的网页外的网页中，针对每个ip选择设定数量的网页，确定为训练网页。
112.首先，可以针对每个正常网页，确定该正常网页的请求方是否为设定目标，如将篡改的高危目标作为设定目标，篡改的高危目标可以是搜索引擎的爬虫等。请求方为设定目标的网页可疑性较大，可以在正常网页中剔除。
113.在正常网页的除请求方为设定目标的网页外的网页中，针对每个ip可以选择设定数量的网页，确定为训练网页。可以防止篡改网页被大量访问，导致这些篡改网页被当成正常网页进行训练。这里的数量可以根据实际情况进行设定和调整。优选的，可以预先设定可信ip名单，训练网页只从可信ip访问的网页中提取。
114.基于确定出的训练网页，可以训练获得检测模型。检测模型可以包括第一检测模型和/或第二检测模型，具体的，可以基于确定出的训练网页的关键词，训练获得第一检测模型。即利用自然语言处理技术，从训练网页中提取出关键词进行建模，训练获得检测模型，学习正常业务的主题分布。还可以基于确定出的训练网页的访问模式信息，训练获得第二检测模型。即使用确定出的训练网页的访问模式信息进行建模，学习正常网页被访问的模式。
115.在实际应用中，在基于目标网页的文本信息，利用检测模型，确定目标网页是否为正常网页的过程中，可以在第一检测模型和第二检测模型均确定目标网页非正常网页的情况下，才确定目标网页非正常网页，如果不能确定其为篡改网页，则可以确定其为可疑网页，提高可疑网页的检出率。还可以在第一检测模型和第二检测模型其中之一确定目标网页非正常网页的情况下，确定目标网页非正常网页，如果不能确定其为篡改网页，则可以确定其为可疑网页，降低可疑网页的误报率。
116.利用检测模型进行正常网页检测的方式，在灰网站中使用效果更为明显。灰网站也是合法网站，但是网站经营的业务与网页篡改内容有一定相似之处。比如体育网站经常包含体育彩票等内容，然而赌博网站也常用彩票这类词汇。在对网页进行可疑判定时，通过常规方法很容易将正常网页判定为可疑网页，如果直接将这些网页作为可疑网页上报云端，云端难以判断该网页是否为网站正常业务内容还是被恶意篡改内容。而随着篡改技术的发展，可以发现越来越多的篡改只针对特定目标开展，以减少篡改被发现的可能性。比如，大部分篡改只希望让搜索引擎检索到，从而提升篡改内容在搜索引擎的可见度，而不希望其他用户能够访问到恶意内容。所以，本技术利用用户访问信息学习网站的业务，利用检测模型进行正常网页的检测，可以将正常网页过滤掉，保留可疑网页上报云端，提高检测效率。
117.在本技术的一个实施例中，可以综合以上多种方案对目标网页进行可疑判定，提高检出率，降低误报率。如图3所示，本地网络设备在经过自身的响应包中提取目标网页后，对目标网页进行解析，获得目标网页的文本信息，将目标网页的文本信息与关键词库中的严格关键词进行匹配，如果命中，可以确定其为篡改网页，则可以直接拦截该响应包，如果未命中，不能确定其为篡改网页，则可以进一步将目标网页的文本信息与关键词库中的宽松关键词进行匹配，如果未命中，则可以确定其为正常网页，直接放行该响应包，如果命中，
不能确定其为正常网页，则可以进一步可以利用检测模型，确定目标网页是否为正常网页，如果正常，则放行该响应包，如果异常，则可以将其确定为可疑网页，上报云端，由云端进行篡改检测，同时放行该响应包。
118.在本技术的一个实施例中，在步骤s220之后、步骤s230之前，该方法还可以包括以下步骤：
119.基于目标网页的文本信息，确定数据库中是否存在目标网页，数据库中包含已确定为正常网页或者篡改网页的网页的文本信息；如果不存在，则执行步骤s230基于目标网页的文本信息，对目标网页进行可疑判定的步骤。
120.在本技术实施例中，可以将通过各种检测手段已确定为正常网页或者篡改网页的网页的文本信息加入到数据库中，并在数据库中做正常网页或者篡改网页的标记。即数据库中包含的网页均已确定为正常网页或者篡改网页。
121.获得目标网页的文本信息后，可以基于目标网页的文本信息，在数据库中查找是否存在目标网页。具体的，可以将目标网页的文本信息与数据库中包含的网页的文本信息进行比对，如果存在匹配的文本信息，则可以确定数据库中存在目标网页，也就是目标网页之前已被确定为正常网页或者篡改网页，根据数据库中的标注，可以直接确定目标网页为正常网页或者篡改网页，进而可以进行进一步的操作，如放行或拦截响应包。
122.如果确定数据库中不存在目标网页，则认为之前还未确定其为正常网页或者篡改网页，可以对其进行进一步可疑判定，并在判定其为可疑网页时上报云端，通过云端进行篡改检测。
123.在数据库中存储已确定为正常网页或者篡改网页的网页的文本信息，本地网络设备可以快速在本地进行正常网页或者篡改网页的确定，如果确定其为正常网页或者篡改网页，则可以不再上报云端，提高检测效率。
124.在本技术的一个实施例中，在步骤s240之后，该方法还可以包括以下步骤：
125.步骤一：接收云端返回的篡改检测结果；
126.步骤二：将目标网页的文本信息加入到数据库中，并根据篡改检测结果标注目标网页为正常网页或者篡改网页。
127.为便于描述，将上述两个步骤结合起来进行说明。
128.本地网络设备判定目标网页为可疑网页，将目标网页上报给云端之后，云端即可对目标网页进行篡改检测，在检测完成后，可以将篡改检测结果返回给本地网络设备。
129.本地网络设备接收到云端返回的篡改检测结果后，即可知晓目标网页是正常网页还是篡改网页，可以将目标网页的文本信息加入到数据库中，并标注目标网页为正常网页或者篡改网页。
130.这样，当再次从经过自身的响应包中提取到目标网页时，通过数据库就可以确定目标网页为正常网页或者篡改网页，可以直接对响应包进行放行或者拦截等操作。
131.本技术实施例利用本地网络设备获取经过自身的响应包中的网页，这些网页有些是云端无法爬取到的，然后本地网络设备利用关键词及检测模型快速过滤正常网页和篡改网页，将少量可疑网页上报云端，利用云端更强大的计算资源，进行量级更高但更准确的分析。本技术综合了本地网络设备与云端各自的优点，在保证高效的同时，能够大幅提升篡改检测的准确率。
132.相应于上面的方法实施例，本技术实施例还提供了一种网页篡改检测装置，应用于目标网站的本地网络设备，下文描述的网页篡改检测装置与上文描述的网页篡改检测方法可相互对应参照。
133.参见图4所示，该装置包括以下模块：
134.目标网页获得模块410，用于获得目标网站的目标网页，目标网页为在经过本地网络设备的流量的响应包中提取到的网页；
135.文本信息获得模块420，用于对目标网页进行解析，获得目标网页的文本信息；
136.可疑判定模块430，用于基于目标网页的文本信息，对目标网页进行可疑判定；
137.可疑上报模块440，用于如果判定目标网页为可疑网页，则将目标网页上报给云端，以使云端对目标网页进行篡改检测。
138.应用本技术实施例所提供的装置，本地网络设备在经过自身的流量的响应包中提取到目标网页后，可以对目标网页进行解析，获得目标网页的文本信息，基于目标网页的文本信息，对目标网页进行可疑判定，如果判定目标网页为可疑网页，则将目标网页上报给云端，通过云端对目标网页进行篡改检测。本地网络设备能够获取到经过自身的所有流量的响应包中的网页，所以即使是孤链篡改网页，或者是使用cloaking机制绕过爬虫的篡改网页，只要被访问过，都可以获取到，从而可以适用于各种场景的网页篡改检测。而且，云端只需要对本地网络设备上报的可疑网页进行篡改检测，减少了对大量的正常网页的检测过程，可以提高检测效率。
139.在本技术的一种具体实施方式中，可疑判定模块430，用于：
140.将目标网页的文本信息与关键词库中的关键词进行匹配；
141.根据匹配结果，对目标网页进行可疑判定。
142.在本技术的一种具体实施方式中，可疑判定模块430，用于：
143.如果匹配结果为：目标网页的文本信息与关键词库中的严格关键词的匹配次数超过预设次数阈值，则确定目标网页为篡改网页。
144.在本技术的一种具体实施方式中，可疑判定模块430，用于：
145.如果匹配结果为：目标网页的文本信息中不包含关键词库中的任意一个宽松关键词，则确定目标网页为正常网页。
146.在本技术的一种具体实施方式中，可疑判定模块430，用于：
147.基于目标网页的文本信息，利用检测模型，确定目标网页是否为正常网页，检测模型为基于目标网站的正常网页训练得到的。
148.在本技术的一种具体实施方式中，还包括检测模型获得模块，用于通过以下步骤训练获得检测模型：
149.获得目标网站的正常网页；
150.在正常网页中确定训练网页；
151.基于确定出的训练网页，训练获得检测模型。
152.在本技术的一种具体实施方式中，检测模型获得模块，用于：
153.获得目标网站的业务网页；
154.分别根据每个业务网页的访问模式信息，确定每个业务网页是否为正常网页。
155.在本技术的一种具体实施方式中，访问模式信息至少包括以下一种信息：访问频
率、被不同ip访问的次数、是否被可信ip访问。
156.在本技术的一种具体实施方式中，检测模型获得模块，用于：
157.确定正常网页中请求方为设定目标的网页；
158.在正常网页的除请求方为设定目标的网页外的网页中，针对每个ip选择设定数量的网页，确定为训练网页。
159.在本技术的一种具体实施方式中，检测模型包括第一检测模型和/或第二检测模型，检测模型获得模块，用于：
160.基于确定出的训练网页的关键词，训练获得第一检测模型；
161.和/或，
162.基于确定出的训练网页的访问模式信息，训练获得第二检测模型。
163.在本技术的一种具体实施方式中，还包括数据库检测模块，用于：
164.在对目标网页进行解析，获得目标网页的文本信息之后、基于目标网页的文本信息，对目标网页进行可疑判定之前，基于目标网页的文本信息，确定数据库中是否存在目标网页，数据库中包含已确定为正常网页或者篡改网页的网页的文本信息；
165.如果不存在，则触发可疑判定模块430执行基于目标网页的文本信息，对目标网页进行可疑判定的步骤。
166.在本技术的一种具体实施方式中，还包括数据库更新模块，用于：
167.在将目标网页上报给云端之后，接收云端返回的篡改检测结果；
168.将目标网页的文本信息加入到数据库中，并根据篡改检测结果标注目标网页为正常网页或者篡改网页。
169.相应于上面的方法实施例，本技术实施例还提供了一种网页篡改检测设备，包括：
170.存储器，用于存储计算机程序；
171.处理器，用于执行计算机程序时实现上述网页篡改检测方法的步骤。
172.如图5所示，为网页篡改检测设备的组成结构示意图，网页篡改检测设备可以包括：处理器10、存储器11、通信接口12和通信总线13。处理器10、存储器11、通信接口12均通过通信总线13完成相互间的通信。
173.在本技术实施例中，处理器10可以为中央处理器(central processingunit，cpu)、特定应用集成电路、数字信号处理器、现场可编程门阵列或者其他可编程逻辑器件等。
174.处理器10可以调用存储器11中存储的程序，具体的，处理器10可以执行网页篡改检测方法的实施例中的操作。
175.存储器11中用于存放一个或者一个以上程序，程序可以包括程序代码，程序代码包括计算机操作指令，在本技术实施例中，存储器11中至少存储有用于实现以下功能的程序：
176.获得目标网站的目标网页，目标网页为在经过本地网络设备的流量的响应包中提取到的网页；
177.对目标网页进行解析，获得目标网页的文本信息；
178.基于目标网页的文本信息，对目标网页进行可疑判定；
179.如果判定目标网页为可疑网页，则将目标网页上报给云端，以使云端对目标网页
进行篡改检测。
180.在一种可能的实现方式中，存储器11可包括存储程序区和存储数据区，其中，存储程序区可存储操作系统，以及至少一个功能(比如网页解析功能、信息上报功能)所需的应用程序等；存储数据区可存储使用过程中所创建的数据，如解析数据、判定数据等。
181.此外，存储器11可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件或其他易失性固态存储器件。
182.通信接口13可以为通信模块的接口，用于与其他设备或者系统连接。
183.当然，需要说明的是，图5所示的结构并不构成对本技术实施例中网页篡改检测设备的限定，在实际应用中网页篡改检测设备可以包括比图5所示的更多或更少的部件，或者组合某些部件。
184.相应于上面的方法实施例，本技术实施例还提供了一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时实现上述网页篡改检测方法的步骤。
185.本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似部分互相参见即可。
186.专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本技术的范围。
187.结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(ram)、内存、只读存储器(rom)、电可编程rom、电可擦除可编程rom、寄存器、硬盘、可移动磁盘、cd-rom、或技术领域内所公知的任意其它形式的存储介质中。
188.本文中应用了具体个例对本技术的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本技术的技术方案及其核心思想。应当指出，对于本技术领域的普通技术人员来说，在不脱离本技术原理的前提下，还可以对本技术进行若干改进和修饰，这些改进和修饰也落入本技术权利要求的保护范围内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：作业批改方法、装置、设备、存储介质和计算机程序产品与流程

一种网页篡改检测方法、装置、设备及存储介质与流程

相关文献

最热文献