使用页面启发式方法的编码数据封装来提取网页特征与流程
- 国知局
- 2024-08-30 15:03:10
本申请总体涉及使用用于应用和/或网络浏览器(web browser)扩展的工具和数据封装进行网页数据识别和提取,更具体地,涉及生成和提供被配置为分析网页启发式方法(heuristics)以识别和提取网页数据的编码数据封装。
背景技术:
1、在线服务提供商可向用户提供可与在线购物和交易处理相关的服务。这些服务可包括与查找和提供折扣及其他成本节省相关的服务,这些折扣和成本节省在商家网站生成交易时应用于该交易。这可以通过网络浏览器扩展来执行,当用户正浏览网站和/或在商家网站上生成交易时,该网络浏览器扩展监控、挖取(scrape)和/或提取商家网站的网站数据。例如,网络浏览器扩展可以监控网站和网站上的数据,例如添加到数字购物车的项目(item),以及可以根据项目、运费、税费等计算出的总额。然而,确定网页元素、特征和数据需要人工操作,由于时间和资源的限制,人工操作成本过高,或者需要自动化计算工具来识别和提取数据。这些自动计算工具需要了解(一个或多个)网页和(一个或多个)网页布局的具体知识,以使得正确挖取、识别和/或提取数据。如果没有这些知识,这些工具可能无法在不同网页的特征和数据之间建立关联,而这些网页可能具有不同的布局,以不同的方式排列图像、文本和其他数据,和/或呈现不同的数据。因此,在线服务提供商需要使用与网页无关的工具来识别和提取数据。
技术实现思路
技术特征:1.一种服务提供商系统,包括:
2.根据权利要求1所述的服务提供商系统,其中,所述编码数据封装包括网页形状,所述网页形状使得能够至少使用分配给所述至少一个网页特征中的每个网页特征的术语和权重来在所述多个网页的布局上识别所述至少一个网页特征。
3.根据权利要求2所述的服务提供商系统,其中,所述至少一个网页特征与如下项中的至少一项相关联:产品标题、产品名称、产品描述、产品价格、或产品折扣。
4.根据权利要求1所述的服务提供商系统,其中,所述操作还包括:
5.根据权利要求4所述的服务提供商系统,其中,所述操作还包括:
6.根据权利要求1所述的服务提供商系统,其中,所述编码数据封装包括对所述多个网页上的所述至少一个网页特征的至少一个描述、至少一个权重、以及过滤逻辑。
7.根据权利要求1所述的服务提供商系统,其中,所述软件操作与所述服务提供商系统提供的网络浏览器应用扩展或专用移动应用之一相关联。
8.根据权利要求1所述的服务提供商系统,其中,所述编码数据封装包括一个或多个操作,用于解析所述多个网页的超文本标记语言(html)代码,以识别所述多个网页上的所述至少一个网页特征。
9.根据权利要求1所述的服务提供商系统,其中,所述编码数据封装使用正则表达式(regex),以使用针对所述多个网页的网页启发式方法来识别所述至少一个网页特征。
10.根据权利要求1所述的服务提供商系统,其中,所述操作还包括:
11.一种方法,包括:
12.根据权利要求11所述的方法,其中,所述一个或多个使用包括针对所述一个或多个项目的至少一个其他网页的浏览会话,所述一个或多个项目还能经由所述至少一个其他网页购买。
13.根据权利要求12所述的方法,还包括:
14.根据权利要求11所述的方法,还包括:
15.根据权利要求11所述的方法,其中,所述网页包括针对所述一个或多个项目的在线商家市场,其中,所述一个或多个网页形状启发式方法被配置为使用与针对所述网页特征布局数据的问题相关联的一个或多个编码数据封装来识别标题、产品、描述、或价格中的至少一者,并且其中,所述网页特征布局数据包括超文本标记语言(html)代码、可扩展标记语言(xml)代码、或javascript代码中的一者。
16.根据权利要求11所述的方法,还包括:
17.一种非暂时性机器可读介质,其上存储有可执行的机器可读指令,用于使机器执行操作,所述操作包括:
18.根据权利要求17所述的非暂时性机器可读介质,其中,所述项目是第一项目,所述数据是第一数据,其中,所述网站还包括所述网站上的第二项目,并且其中,所述操作还包括:
19.根据权利要求17所述的非暂时性机器可读介质,所述多个网页启发式数据封装各自被编码以标识多个网页上多个项目的数据的不同网页特征。
20.根据权利要求17所述的非暂时性机器可读介质,其中,所述多个网页启发式数据封装中的所述至少一个使用正则表达式(regex)来识别与所述数据相对应的网页特征。
技术总结本文提供了使用用于页面启发式方法的编码数据封装来提取网页特征的系统和方法。服务提供商服务器可提供与网站无关的工具,以考虑网页布局的差异。这可以使用旨在考虑不同网页的网页启发式方法的编码数据封装来实现。这些数据封装包括条目,该条目具有用于在网页的网页文档代码中搜索或过滤网页元素的可选范围、权重、以及术语。使用数据封装中的多个条目,可以返回网页是否包含某个特征、数据或元素的判定以及该元素的数据。所识别的特征可用于数据提取和/或确定,这样可以允许一个或多个应用和/或浏览器扩展在多个不同网站上提供服务,而无需专门为特定网站样式制定数据封装。技术研发人员:大卫·菲利普斯,马修·格瓦西奥受保护的技术使用者:贝宝公司技术研发日:技术公布日:2024/8/27本文地址:https://www.jishuxx.com/zhuanli/20240830/285293.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。