技术新讯 > 计算推算,计数设备的制造及其应用技术 > 一种网站自动化内容巡检的方法、装置及设备与流程 > 正文

一种网站自动化内容巡检的方法、装置及设备与流程

国知局
2024-08-08 16:57:13

本说明书涉及数据处理，尤其涉及一种网站自动化内容巡检的方法、装置及设备。

背景技术：

1、目前随着数字化转型进程加深，企业网站逐渐成为企业与用户、企业与客户联系的重要桥梁。随着企业旗下的网站越发壮大，网站结构也越来越复杂，包含的信息也越来越多，通过内容巡检可以保障和提升网站的服务质量。而现有的巡检方案包括人工巡检和自动巡检。面对越发复杂的网站，人工巡检不仅工作量大、工作效率低、人力成本高，而且覆盖面往往无法达到预期，同时随着前端技术发展，现有的一些自动化巡检方法却无法很好地适应动态生成的网站。

2、现在亟需一种网站自动化内容巡检方法，从而解决现有技术中自动化巡检方法却无法很好地适应动态生成的网站的问题。

技术实现思路

1、为解决现有技术中对自动化巡检方法工作效率低，且无法很好地适应动态生成的网站的问题，本说明书实施例提供了一种网站自动化内容巡检的方法、装置及设备，实现了适应动态生成的网站，并且采取了自适应性巡检策略，能够提高巡检效率、降低人力成本，并且能最大程度地减少巡检这一活动本身对网站造成的影响，提升网站的服务质量。

2、为了解决上述技术问题，本说明书的具体技术方案如下：

3、一方面，本说明书实施例提供了一种网站自动化内容巡检方法，包括，

4、使用爬虫技术遍历无头浏览器库中的多个网站页面，获取页面信息和链接信息；

5、检测所述页面信息和链接信息中的数据异常，根据所述数据异常生成初步异常记录表；

6、根据所述链接信息检测各个网站页面间的跳转情况，生成以网站页面为节点的有向图结构；

7、根据所述节点的页面信息生成所述节点的初始权重，根据所述节点的初始权重以及所述节点的链接信息计算所述节点的最终权重值；

8、根据所述节点的最终权重值对所述有向图结构中的节点进行重要性分析，根据所述重要性分析结果确定巡检的频次；

9、对所述多个网站页面进行巡检生成巡检数据，根据所述巡检数据以及所述初步异常记录表生成巡检报告。

10、进一步地，使用爬虫技术遍历无头浏览器库中的多个网站页面，获取页面信息和链接信息进一步包括，

11、通过自动化请求分别检测所述多个网站页面是否能够正常访问；

12、若不能正常访问，则记录该网站页面异常；

13、若可以正常访问，则使用爬虫技术以深度优先遍历或广度优先遍历所述网站页面，根据所述网站页面的url生成所述页面信息。

14、进一步地，若不能正常访问，则记录该网站页面异常进一步包括，

15、若所述网站页面响应异常，将响应码为页面不存在的记录进行标记。

16、进一步地，检测所述页面信息和链接信息中的数据异常进一步包括，

17、通过html解析库获取所述网站页面的html文档结构及其历史记录；

18、比对所述html文档结构与其历史记录中上一次html文档结构的差异，并记录html文档结构差异；

19、通过爬虫抓取所述网站页面的样式链接，根据css解析库解析所述样式链接生成css样式属性值及其历史记录；

20、比对所述css样式属性值及其历史记录中的样式属性值，记录css样式属性值差异。

21、进一步地，检测所述页面信息和链接信息中的数据异常进一步包括，

22、检测javascript代码执行情况，捕获所述网站页面加载时的javascript脚本的执行错误并记录。

23、进一步地，检测所述页面信息和链接信息中的数据异常进一步包括，

24、根据所述页面信息中的页面截图获取所述网站页面的文本内容；

25、检测所述文本内容的语法错误以及错字，记录所述语法错误以及错字。

26、进一步地，根据所述链接信息检测各个网站页面间的跳转情况，生成以网站页面为节点的有向图结构进一步包括，

27、在沙箱环境内进行访问所述链接信息，检测所述链接信息是否为死链接、是否为重定向链接以及是否是不安全的黑名单链接；

28、将死链接、重定向链接以及黑名单链接标记为异常链接信息；

29、根据各个网站页面间的跳转情况，以页面对应的去除参数后的请求url作为节点标识；

30、根据所述异常链接信息以及所述节点标识生成以所述网站页面为节点的有向图结构。

31、进一步地，根据所述节点的页面信息生成所述节点的初始权重，根据所述节点的初始权重以及所述节点的链接信息计算所述节点的最终权重值进一步包括，

32、根据所述节点的页面信息及其映射关系，判断所述有向图的节点的初始化权重；

33、将其他网页链接到该节点的权重值与对应网页出度的比例相加，乘以用户随机浏览到该节点的概率；

34、重复迭代步骤直到所述节点的权重值不再发生显著变化，将其作为该节点的最终权重值；

35、对所有节点的最终权重值进行归一化处理，获取所述有向图结构中节点的重要性分析。

36、另一方面，本说明书实施例还提供了一种网站自动化内容巡检装置，包括，

37、信息获取单元，用于使用爬虫技术遍历无头浏览器库中的多个网站页面，获取页面信息和链接信息；

38、异常记录表生成单元，用于检测所述页面信息和链接信息中的数据异常，根据所述数据异常生成初步异常记录表；

39、有向图获取单元，用于根据所述链接信息检测各个网站页面间的跳转情况，生成以网站页面为节点的有向图结构；

40、权重值计算单元，用于根据所述节点的页面信息生成所述节点的初始权重，根据所述节点的初始权重以及所述节点的链接信息计算所述节点的最终权重值；

41、频次确认单元，用于根据所述节点的最终权重值对所述有向图结构中的节点进行重要性分析，根据所述重要性分析结果确定巡检的频次；

42、报告生成单元，用于对所述多个网站页面进行巡检生成巡检数据，根据所述巡检数据以及所述初步异常记录表生成巡检报告。

43、另一方面，本说明书实施例还提供了一种计算机设备，包括存储器、处理器、以及存储在存储器上的计算机程序，处理器执行所述计算机程序时实现上述的方法。

44、另一方面，本说明书实施例还提供了一种计算机存储介质，其上存储有计算机程序，计算机程序被计算机设备的处理器运行时，执行上述的方法。

45、最后，本说明书还提供一种计算机程序产品，所述计算机程序产品被计算机设备的处理器运行时，执行根据上述所述方法的指令。

46、利用本说明书实施例，使用爬虫技术遍历无头浏览器库中的网站页面，保证能够覆盖到其中所有的网站页面，然后获取页面信息和链接信息并检测网页是否能够正常访问，从而生成初步异常记录表，据其中的链接信息检测各个网站页面间的跳转情况，生成以网站页面为节点的有向图结构，可以很好地适应动态生成的网站，并根据节点的页面信息计算权重值，然后根据权重值进行重要性分析，并确定巡检的频次，通过自适应性的巡检策略，能够提高巡检效率，并且能最大程度地减少巡检这一活动本身对网站造成的影响；避免了现有技术中过于频繁的巡检会增大网站的负载压力，最后根据巡检生成的数据以及初步异常记录表生成巡检报告。实现了适应动态生成的网站，并且采取了自适应性巡检策略，提高了巡检效率以及网站的服务质量，解决了现有技术中巡检这一活动本身对网站造成的影响较大的问题。