技术新讯 > 计算推算,计数设备的制造及其应用技术 > 网页真实高度确定方法、装置、设备及介质与流程  >  正文

网页真实高度确定方法、装置、设备及介质与流程

  • 国知局
  • 2024-11-06 14:47:24

本发明涉及网页取证,特别是涉及一种网页真实高度确定方法、装置、设备及介质。

背景技术:

1、网页截长图是网页取证中重要环节,确保了网页内容的完整性和不可篡改性。在对第三方网页(通常使用<iframe>元素)截长图,或者对第三方网页进行滚动提取网页上的数据时,需要事先确定网页真实高度。网页的真实高度指的是网页内容的总高度,包括所有可见和不可见(需要通过滚动才能看到的)部分。

2、目前,计算网页真实高度的难点在于网页取证是针对第三方网页,且无法知道第三方网页的实现逻辑,而前端编程语言或浏览器当前提供的公开获取网页高度的方法均比较局限,没有计算网页内部元素溢出的高度的方法。对于内部使用css overflow属性滚动条或者包含iframe(framest)以及嵌套的网页,现存的方法均无法获取到上述复杂网页的真实高度。因此,亟需一种针对各种类型的网页均能获取网页真实高度的方法解决上述问题。

技术实现思路

1、鉴于上述问题,提出了本发明以便提供克服上述问题或者至少部分地解决上述问题的一种网页真实高度确定方法、装置、设备及介质。

2、为实现上述目的及其他相关目的,本发明提供一种网页真实高度确定方法,所述方法包括:

3、基于预设广度优先算法,逐层查找出目标网页包含文档中心位置的最小元素;其中,所述最小元素为位于所述目标网页中文档中心位置的最基础的html元素;

4、基于所述最小元素,识别出所述目标网页中最大溢出高度元素;其中,所述最大溢出高度为在所述目标网页中元素内容超出了其容器高度限制而导致垂直滚动条出现的元素;

5、获取所述最大溢出高度元素的最大溢出高度和所述目标网页的原始页面高度,并根据所述最大溢出高度和所述原始页面高度,确定所述目标网页的真实高度。

6、可选地,所述基于预设广度优先算法,逐层查找出目标网页包含文档中心位置的最小元素,包括:

7、创建一个元素队列,并将所述目标网页的根节点加入所述元素队列,且将所述根节点的所有子节点加入所述元素队列;

8、针对所述元素队列中每个元素,判断元素的坐标是否包含文档中心位置;

9、在检测到所述元素的坐标包含文档中心位置时,检测所述元素是否存在子节点;

10、在检测到所述元素不存在子节点时,将所述元素确定为目标网页包含文档中心位置的最小元素。

11、可选地,所述针对所述元素队列中每个元素,判断元素的坐标是否包含文档中心位置的步骤之后,还包括:

12、在检测到所述元素的坐标不包含文档中心位置时,将所述元素的所有子节点加入所述元素队列;

13、循环执行针对所述元素队列中每个元素,判断所述元素的坐标是否包含文档中心位置的步骤,直至所述元素队列为空,结束遍历。

14、可选地,所述基于所述最小元素,识别出所述目标网页中最大溢出高度元素,包括:

15、判断所述最小元素是否为嵌套元素;

16、若所述最小元素为嵌套元素,则将所述最小元素确定为目标网页中最大溢出高度元素;

17、反之,若所述最小元素不是嵌套元素,则判断所述最小元素是否为溢出元素;

18、若所述最小元素为溢出元素,且在检测到不存在溢出高度元素的记录时,记录所述最小元素为最大溢出高度元素;

19、反之,若所述最小元素不是溢出元素,则取所述最小元素的父元素,且在所述父元素不为空时,将所述父元素设置为最小元素,并循环执行判断所述最小元素是否为嵌套元素的步骤,直至识别出所述目标网页中最大溢出高度元素,结束遍历。

20、可选地,所述获取所述最大溢出高度元素的最大溢出高度和所述目标网页的原始页面高度,并根据所述最大溢出高度和所述原始页面高度,确定所述目标网页的真实高度,包括:

21、在确定所述最大溢出高度元素为溢出元素时,获取所述最大溢出高度元素的视口高度、滚动高度以及获取所述目标网页的原始页面高度;

22、根据所述滚动高度和所述视口高度的差,确定最大溢出高度;

23、根据所述原始网页高度和所述最大溢出高度的和,确定所述目标网页的真实高度。

24、可选地,所述获取所述最大溢出高度元素的最大溢出高度和所述目标网页的原始页面高度,并根据所述最大溢出高度和所述原始页面高度,确定所述目标网页的真实高度,包括:

25、在所述最大溢出高度元素为嵌套元素时,进入嵌套元素的内部内容继续遍历,将所述嵌套元素的内部内容设置为目标网页,并循环执行基于预设广度优先算法,逐层查找出目标网页包含文档中心位置的最小元素的步骤到确定所述最大溢出高度元素的类型的步骤,直至识别出所述内部内容的最大溢出高度元素,结束遍历;

26、判断所述内部内容的最大溢出高度元素是否为溢出元素,且在所述最大溢出高度元素为溢出元素时,获取所述最大溢出高度元素的视口高度、滚动高度以及获取所述目标网页的原始页面高度;

27、根据所述滚动高度和所述视口高度的差,确定最大溢出高度,并根据所述原始网页高度和所述最大溢出高度的和,确定所述目标网页的真实高度。

28、可选地,所述查找出目标网页包含文档中心位置的最小元素的步骤之后,还包括:

29、基于所述最小元素,识别出所述目标网页中不存在最大高度溢出元素;

30、获取所述目标网页的原始页面高度,并将所述原始页面高度确定为所述目标网页的真实高度。

31、第二方面,本发明还提供一种网页真实高度确定装置,所述装置包括:

32、查找模块,用于基于预设广度优先算法,查找出目标网页包含文档中心位置的最小元素;其中,所述最小元素为位于所述目标网页中文档中心位置的最基础的html元素;

33、识别模块,用于基于所述最小元素,识别出所述目标网页中最大溢出高度元素;其中,所述最大溢出高度为在所述目标网页中元素内容超出了其容器高度限制而导致垂直滚动条出现的元素;

34、确定模块,用于获取所述最大溢出高度元素的最大溢出高度和所述目标网页的原始页面高度,并根据所述最大溢出高度和所述原始页面高度,确定所述目标网页的真实高度。

35、第三方面,本发明提供一种电子设备,所述电子设备包括:存储器与处理器;所述存储器用于存储计算机程序;所述处理器用于执行所述存储器存储的计算机程序,以使所述电子设备执行如上所述的网页真实高度确定方法的步骤。

36、第四方面,本发明提供一种计算机可读存储介质,其上存储有计算机程序,该程序被电子设备执行时实现如上所述的网页真实高度确定方法的步骤。

37、本发明提供的上述一个或多个技术方案,可以具有如下优点或至少实现了如下技术效果:

38、本发明的网页真实高度确定方法、装置、设备及介质,所述方法包括:基于预设广度优先算法,逐层查找出目标网页包含文档中心位置的最小元素;其中,所述最小元素为位于所述目标网页中文档中心位置的最基础的html元素;基于所述最小元素,识别出所述目标网页中最大溢出高度元素;其中,所述最大溢出高度为在所述目标网页中元素内容超出了其容器高度限制而导致垂直滚动条出现的元素;获取所述最大溢出高度元素的最大溢出高度和所述目标网页的原始页面高度,并根据所述最大溢出高度和所述原始页面高度,确定所述目标网页的真实高度。

39、由此,本发明依据网页html标准,通过遍历的方式查找出最大溢出高度元素,进而将原始网页高度加上最大溢出高度元素溢出的高度,计算出网页的真实高度,解决了目前网页取证领域由于网页真实高度缺少,导致长截图不全,或者滚动提取网页数据不全的技术问题。

本文地址:https://www.jishuxx.com/zhuanli/20241106/324136.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。