一种网页信息的获取方法和装置与流程

2022-06-29 16:45:26 来源：中国专利 TAG：

1.本发明涉及计算机技术领域，尤其涉及一种网页信息的获取方法和装置。

背景技术：

2.随着大数据技术的发展，对互联网数据的需求量也越来越大。从网页获取数据后需要对数据进行清洗、筛选，以获得所需的数据。
3.现有技术中获取数据时提取网页中的所有url链接进行网页文章的爬取，导致爬取了大量无效网页，进而使得网页文章的清洗工作量增加，且清洗难度增大，效率低。

技术实现要素：

4.有鉴于此，本发明实施例提供一种网页信息的获取方法和装置，通过对网页中所有的统一资源定位符url元素进行解析、分组，筛选出目标url分组，然后从目标url分组中获取网页的页面信息，能够根据业务需求更精准地获取网页的页面信息，降低了数据清洗的工作量，提高了工作效率。
5.为实现上述目的，根据本发明实施例的一个方面，提供了一种网页信息的获取方法，包括：
6.解析出网页中所有统一资源定位符url元素，对解析得到的所述url元素进行分组，得到多个统一资源定位符url分组；
7.提取每个所述url分组的分组特征，根据所述分组特征从所述多个url分组中筛选目标url分组；
8.从所述目标url分组中获取所述网页的页面信息。
9.可选地，对解析得到的所述url元素进行分组，包括：
10.遍历所有url元素和各个已建立的url分组，确定每个所述url元素与各个已建立的url分组的相似度，将所述url元素放入相似度最高的url分组中。
11.可选地，所述url元素包括元素索引号和树层级号，将所述url元素放入相似度最高的url分组中之前，包括：
12.确定所述url元素与各个已建立的url分组满足以下预设条件：所述url元素的树层级号与所述已建立的url分组中的url元素的树层级号相同，所述url元素的元素索引号与所述已建立的url分组中的元素索引号成等差数列的各个url元素的元素索引号成等差数列；
13.若所述url元素与各个已建立的url分组不满足所述预设条件，则新建一个url分组，并将所述url元素新建的url分组中。
14.可选地，所述分组特征包括以下至少之一：组内url元素个数、组内url元素平均标题显示长度和组内url元素域名匹配度；
15.根据所述分组特征从所述多个url分组中筛选目标url分组，包括：从所述多个url分组中筛选分组特征满足预设条件的url分组作为所述目标url分组。
16.可选地，所述分组特征包括组内url元素中关键词标记的个数；
17.根据所述分组特征从所述多个url分组中筛选目标url分组，包括：从所述多个url分组中筛选目标url分组中筛选关键词标记的个数满足预设条件的url分组作为所述目标url分组。
18.可选地，从所述目标url分组中获取所述网页的页面信息，包括：
19.提取所述目标url分组中url元素的url地址、标题、摘要、发布时间中的一种或多种信息，当出现多个重复的url地址时对重复的url地址进行去重，以获取所述网页的页面信息。
20.可选地，所述方法还包括：
21.在无法筛选到所述目标url分组的情况下，先对解析出的网页中的所述url元素进行标签过滤，对过滤后的url元素进行重新分组得到多个url分组；然后提取重新分组得到的每个url分组的分组特征，根据分组特征从重新分组得到的多个url分组中筛选目标url分组；之后从所述目标url分组中获取所述网页的页面信息。
22.根据本发明实施例的再一个方面，提供了一种网页信息的获取装置，包括：
23.分组模块，解析出网页中所有统一资源定位符url元素，对解析得到的所述url元素进行分组，得到多个统一资源定位符url分组；
24.筛选模块，提取每个所述url分组的分组特征，根据所述分组特征从所述多个url分组中筛选目标url分组；
25.获取模块，从所述目标url分组中获取所述网页的页面信息。
26.根据本发明实施例的另一个方面，提供了一种电子设备，包括：
27.一个或多个处理器；
28.存储装置，用于存储一个或多个程序，
29.当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现本发明提供的网页信息的获取方法。
30.根据本发明实施例的还一个方面，提供了一种计算机可读介质，其上存储有计算机程序，所述程序被处理器执行时实现本发明提供的网页信息的获取方法。
31.上述发明中的一个实施例具有如下优点或有益效果：本发明实施例首先解析出网页中所有统一资源定位符url元素，并对解析得到的url元素进行分组，然后根据分组特征筛选出目标url分组，以从目标url分组中获取网页的页面信息。本发明实施例的方法能够更加精准地筛选出满足业务需求的目标url分组，如列表页网页中包括主要列表信息的目标url分组，然后从目标url分组中获取网页的页面信息，能够降低数据爬取的网络请求资源，降低数据清洗的工作量，不需要对网页中所有url链接均提取出来进行数据清洗，从而提高工作效率和页面信息获取的准确性。
32.上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。
附图说明
33.附图用于更好地理解本发明，不构成对本发明的不当限定。其中：
34.图1是根据本发明实施例的一种网页信息的获取方法的主要流程的示意图；
35.图2是根据本发明实施例的另一种网页信息的获取方法的主要流程的示意图；
36.图3是根据本发明实施例的再一种网页信息的获取方法的主要流程的示意图；
37.图4是根据本发明实施例的网页信息的获取装置的主要模块的示意图；
38.图5是本发明实施例可以应用于其中的示例性系统架构图；
39.图6是适于用来实现本发明实施例的终端设备或服务器的计算机系统的结构示意图。
具体实施方式
40.以下结合附图对本发明的示范性实施例做出说明，其中包括本发明实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本发明的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。
41.目前对网页页面的通用解析及去除广告的开源代码产品较多，但对列表页几乎不做额外处理，而是将列表页的所有url链接均提取出来，导致爬取大量无效的网页，浪费了大量网络资源；并且将数据清洗、过滤工作后移，导致网页文章详情页的解析、清洗工作量增加，解析了大量的无用文章。如果是人工筛选，筛选工作量大增，如果系统自动清洗，也增大了文章清洗难度，势必降低文章清洗的成功率，效率较低。针对上述问题，本发明实施例提供了一种网页信息的获取方法，以实现网页的通用解析，适用于各种样式的网页，包括列表页，并能够实现对网页信息的筛选，以精准获得所需数据信息供后续爬取工作使用。
42.图1是根据本发明实施例的一种网页信息的获取方法的主要流程的示意图，如图1所示，该方法包括：
43.步骤s101：解析出网页中所有统一资源定位符url元素，对解析得到的url元素进行分组，得到多个统一资源定位符url分组；
44.步骤s102：提取每个url分组的分组特征，根据分组特征从多个url分组中筛选目标url分组；
45.步骤s103：从目标url分组中获取网页的页面信息。
46.在本发明实施例中，可以采用解析网页的工具包解析出网页中所有统一资源定位符url(uniform resource locator)元素，例如jsoup、xpath等工具包。可选地，利用jsoup开源软件包括将html网页文本转化为jsoup的文档对象(即document对象)，然后使用jsoup开源软件包中的查找方法从文档对象中解析出网页中所有url元素，并存储解析得到的所有url元素，如存储在元素数组中，以供后续从元素数组中遍历所有url元素。其中，url元素可以为网页中的url标签相关的内容在jsoup对象中对应的实体。
47.可选地，可使用jsoup开源软件包中的select方法查找“a[href]”关键字，从而解析出网页中所有url元素。其中，jsoup开源软件包为一款java的html解析器，可直接解析某个url地址、html文本内容；可通过dom、css以及类似于jquery的操作方法来取出和操作数据。
[0048]
在本发明实施例中，url元素包括以下元素特征：元素索引号、标题长度、标题显示长度、树层级号、url地址等。其中，标题长度为完整标题的字符数，标题显示长度为标题在页面中显示的长度即字符数，其中，中文字符占两个长度单位。树层级号为url元素在元素
树中的层级号，因为jsoup开源软件包是将url标签用元素来管理，元素包括子元素，为树状结构。
[0049]
典型的列表页网页一般有以下几个区域：中间的文章列表为主要列表信息，一般为业务需要的页面信息；中间左侧的几个板块为次要列表信息，可根据业务需求确定是否选用；页面上部为菜单栏，一般爬取全网站的时候会选用此部分信息，页面底部为页脚声明链接，该部分信息是不需要采集的，为需要过滤掉的信息，以及网站的广告信息，也是需要过滤掉的。本发明实施例通过对url元素进行分组，将每个版块的url元素分在同一url分组，从而可以根据url分组的分组特征确定该url分组所属的版块，从而根据业务需求确定该url分组是否需要被过滤掉，从而筛选出目标url分组。
[0050]
在本发明实施例中，解析出网页中所有url元素后，对解析得到的url元素进行分组，得到多个统一资源定位符url分组，可选地，如图2所示，对解析得到的url元素进行分组，包括：步骤s201：遍历所有url元素和各个已建立的url分组；确定每个url元素与各个已建立的url分组的相似度；步骤s202：将当前遍历的url元素放入与该url元素相似度最高的url分组中，实现对url元素的分组。在遍历第一个url元素时，由于不存在已建立的url分组，可以新建一个url分组，将第一个遍历的url元素放入新建的url分组中。
[0051]
在本发明实施例中，当前遍历的url元素与各个已建立的url分组的相似度，可以通过该url元素与每个已建立的url分组中各个url元素的相似度得到。可选地，针对每个已建立的url分组，获取该已建立的url分组中的各个url元素，分别计算该url元素与该已建立的url分组中各个url元素的相似度，然后计算各个相似度的平均值，得到平均相似度，将得到的平均相似度作为该url元素与该已建立的url分组的相似度。
[0052]
在本发明实施例中，计算该url元素与该已建立的url分组中各个url元素的相似度，可以根据该url元素的元素特征与该已建立的url分组中各个url元素的元素特征计算相似度。可选地，可以根据该url元素的url地址与该已建立的url分组中各个url元素的url地址计算相似度；也可以根据标题长度、标题显示长度、树层级号、元素索引号等元素特征计算相似度；还可以计算各个元素特征的相似度，然后为各个元素特征预设权重值，通过根据各个元素特征与每个元素特征对应的权重值加权求和计算得到该url元素与该已建立的url分组中各个url元素的相似度，进而得到平均相似度，作为该url元素与该已建立的url分组的相似度。需要说明的是，计算相似度的元素特征以及各个元素特征的权重值可以根据实际使用情况进行调整，以对url元素实现精准分组为目标。
[0053]
可选地，相似度可以通过余弦相似度算法计算得到，针对url地址可以根据计算字符串的相似率得到。
[0054]
在本发明实施例的一种实施方式中，如图3所示，步骤s102包括：
[0055]
步骤s301：遍历第i个url元素，i＝1，确定第i个url元素与各个已建立的url分组的相似度；
[0056]
步骤s302：判断第i个url元素是否满足以下预设条件：第i个url元素的树层级号与各个已建立的url分组中的url元素的树层级号相同；第i个url元素的元素索引号与各个已建立的url分组中的元素索引号成等差数列的各个url元素的元素索引号成等差数列；若是，执行步骤s303，若否，执行步骤s304；
[0057]
步骤s303：将第i个url元素放入与第i个url元素相似度最高的url分组中；
[0058]
步骤s304：新建一个url分组，并将第i个url元素放入新建的url分组中；
[0059]
步骤s305：判断i是否等于n，若是，结束流程，若否，令i＝i 1，返回步骤s301，其中n为url元素的个数。
[0060]
在本发明实施例中，同一url分组中各个url元素的树层级号相同，即元素不能与其父级元素或子元素在同一url分组中。同一url分组中的多个url元素的元素索引号可能成等差数列。
[0061]
当确定出当前遍历的该url元素与各个已建立的url分组的相似度之后，判断该url元素是否满足预设条件，若满足预设条件，即当前遍历的该url元素的树层级号与各个已建立的url分组中各个元素的树层级号相同，且元素索引号与各个已建立的url分组中元素索引号成等差数列的各个url元素的元素索引号成等差数列，则可以将该url元素加入与该url元素相似度最高的url分组中；若不满足预设条件，即当前遍历的该url元素的树层级号与各个已建立的url分组中各个元素的树层级号不相同，或者元素索引号与各个已建立的url分组中元素索引号成等差数列的各个url元素的元素索引号不成等差数列，则该url元素不能加入各个已建立的url分组中，即该url元素不符合加入各个已建立的url分组的分组规则，则新建一个url分组，将该url元素放入新建的url分组中。
[0062]
也就是说，若当前遍历的该url元素的树层级号与已建立的url分组中各个url元素的树层级号不同，则该url元素不能放入该已建立的url分组中；若已建立的url分组中各个url元素的元素索引号成等差数列，而该url元素与该url分组中的各个url元素的元素索引号不成等差数列，则该url元素不能放入该已建立的url分组中。若树层级号相同、元素索引号成等差数列，则可以放入该已建立的url分组中，当该url元素可以放入多个已建立的url分组时，可以计算与各个已建立的url分组的相似度，将该url元素放入与该url元素相似度最高的url分组中。
[0063]
本发明实施例根据元素特征判断url元素是否满足加入已建立的各个url分组的预设条件，从而能够更精准地对url元素进行分组，便于后续筛选目标url分组。
[0064]
在本发明实施例中，在获得多个url分组后，提取每个url分组的分组特征，以筛选目标url分组，可选地，分组特征包括以下至少之一：组内url元素个数、组内url元素平均标题显示长度和组内url元素域名匹配度；根据分组特征从多个url分组中筛选目标url分组，包括：从多个url分组中筛选分组特征满足预设条件的url分组作为目标url分组。预设条件可以根据业务需求设定，如需要筛选出网页中的主要列表信息对应的目标url分组，预设条件可以为：组内url元素个数、平均标题显示长度和域名匹配度均达到各自的预设阈值，如组内url元素个数大于18，平均标题显示长度大于40，域名匹配度大于90％。
[0065]
表1示出了分组id为0-9的10个url分组的分组特征，分组特征包括组内url元素个数、组内url元素平均标题显示长度和组内元素域名匹配度；从表1可以看出，组内url元素个数小于3，平均标题显示长度较短的，基本为广告链接，如分组id为5、6、7、8、9的url分组；平均标题显示长度较短且组内url元素域名匹配度较低的，基本为页脚网站声明链接，如分组id为3的url分组；组内元素的个数较多，组内url元素平均标题显示长度长，且组内url元素域名匹配度高的，基本为主要列表信息，如分组id为1的url分组。
[0066]
表1
[0067]
url分组idurl元素个数平均标题显示长度域名匹配度
0264.808100％12046.3100％21633.875100％35860％446100％5224.5100％617100％71190％8180％9160％
[0068]
在一些情况下，网页页面如列表页页面可能是通过关键词搜索的结果，此时，是否匹配关键词也可以作为筛选目标url分组的预设条件。
[0069]
在本发明实施例的另一种实施方式中，分组特征包括组内url元素中关键词标记的个数，如可以为url元素中标题和/或摘要中关键词标记的个数，根据分组特征从多个url分组中筛选目标url分组，包括：从多个url分组中筛选目标url分组中筛选关键词标记的个数满足预设条件的url分组作为目标url分组。如筛选列表页主要列表信息对应的目标url分组，预设条件可以为：标题和/或摘要中关键词标记个数大于等于1，从而可以将带有关键词标记的url分组筛选为目标url分组。
[0070]
本发明实施例的方法，通过提取url分组的分组特征，根据分组特征对url分组进行筛选，可以根据业务需求设定分组特征需满足的预设条件，从而能够精准地筛选出包含所需页面信息的目标url分组。
[0071]
当筛选出目标url分组后，从目标url分组中获取网页的页面信息，可选地，提取目标url分组中url元素的url地址、标题、摘要、发布时间中的一种或多种信息，当出现多个重复的url地址时对重复的url地址进行去重，以获取网页的页面信息。
[0072]
具体地，将目标url分组中url元素记作“elei”，url地址使用jsoup方法elei.attr("href")获取；标题、发布时间、摘要：通过elei.select(标签)方法从url元素中获取标题的标签、发布时间的标签和摘要的标签。需要说明的是，jsoup是由层级关系的，有的url元素只包括url地址与标题，摘要和发布时间可以从其父级元素中获取；若无法获取标题、发布时间和摘要的标签，可以使用jsoup方法elei.text()取出url元素中包含的文字，采用正则表达式从文本中查找，若url元素查找不到，则查找其父级元素。多数情况下：url元素的文本为标题及发布时间，根据url元素及其父级元素正则匹配到发布时间、标题，发布时间。
[0073]
在本发明实施例中，在从目标url分组中获取各个url元素的url地址时，若出现重复的url地址，则对数据按照url地址进行去重，过滤掉重复的数据。
[0074]
在本发明实施例的一种实施方式中，在无法无法筛选到目标url分组的情况下，先对解析出的网页中的url元素进行标签过滤，对过滤后的url元素进行重新分组得到多个url分组；然后提取重新分组得到的每个url分组的分组特征，根据分组特征从重新分组得到的多个url分组中筛选目标url分组；之后从目标url分组中获取网页的页面信息。例如，有的网页采用特殊标签“《！[cdata[”和“]]》”对每个url元素的标签的内容进行保护，需要
对解析出的网页中的url元素执行特殊标签过滤程序对html文件内容进行清洗，以将《！[cdata[]]》标签过滤掉，然后再对过滤后的url元素进行分组，然后再筛序出目标url分组，获取网页的页面信息。
[0075]
本发明实施例所提供的网页信息的获取方法，首先解析出网页中所有url元素，并对解析出的url元素进行分组，然后根据分组特征筛选出目标url分组，以从目标url分组中获取网页的页面信息。本发明实施例的方法能够更加精准地筛选出满足业务需求的目标url分组，如列表页网页中包括主要列表信息的目标url分组，然后从目标url分组中获取网页的页面信息。本发明实施例的方法适用于各种样式的网页包括列表页网页的通用解析，精准地筛选出满足业务需求的网页页面信息如列表页主要列表信息，以供进一步爬取工作使用，能够降低数据爬取的网络请求资源，降低数据清洗的工作量，不需要对网页中所有url链接均提取出来进行数据清洗，从而提高工作效率和信息获取的准确性。
[0076]
如图4所示，本发明实施例提供还提供一种网页信息的获取装置400，包括：
[0077]
分组模块401，解析出网页中所有统一资源定位符url元素，对解析得到的url元素进行分组，得到多个统一资源定位符url分组；
[0078]
筛选模块402，提取每个url分组的分组特征，根据分组特征从多个url分组中筛选目标url分组；
[0079]
获取模块403，从目标url分组中获取网页的页面信息。
[0080]
在本发明实施例中，分组模块401，进一步用于：遍历所有url元素和各个已建立的url分组，确定每个url元素与各个已建立的url分组的相似度，将url元素放入相似度最高的url分组中。
[0081]
在本发明实施例中，url元素包括元素索引号和树层级号；分组模块401，进一步用于：确定url元素与各个已建立的url分组满足以下预设条件：url元素的树层级号与已建立的url分组中的url元素的树层级号相同，url元素的元素索引号与已建立的url分组中的元素索引号成等差数列的各个url元素的元素索引号成等差数列；
[0082]
若url元素与各个已建立的url分组不满足预设条件，则新建一个url分组，并将url元素放入新建的url分组中。
[0083]
在本发明实施例中，分组特征包括以下至少之一：组内url元素个数、组内url元素平均标题显示长度和组内url元素域名匹配度；筛选模块402，进一步用于：从多个url分组中筛选分组特征满足预设条件的url分组作为目标url分组。
[0084]
在本发明实施例中，分组特征包括组内url元素中关键词标记的个数；筛选模块402，还用于：从多个url分组中筛选目标url分组中筛选关键词标记的个数满足预设条件的url分组作为目标url分组。
[0085]
在本发明实施例中，获取模块403，进一步用于：提取目标url分组中url元素的url地址、标题、摘要、发布时间中的一种或多种信息，当出现多个重复的url地址时对重复的url地址进行去重，以获取网页的页面信息。
[0086]
在本发明实施例中，该装置还包括过滤模块，用于：在无法筛选到目标url分组的情况下，先对解析出的网页中的url元素进行标签过滤，然后采用分组模块401对过滤后的url元素进行重新分组得到多个url分组；然后利用筛选模块402提取重新分组得到的每个url分组的分组特征，根据分组特征从重新分组得到的多个url分组中筛选目标url分组；之
后利用获取模块403从目标url分组中获取网页的页面信息。
[0087]
本发明实施例还提供一种电子设备，包括：一个或多个处理器；存储装置，用于存储一个或多个程序，当一个或多个程序被一个或多个处理器执行，使得一个或多个处理器实现本发明实施例的网页信息的获取方法。
[0088]
本发明实施例还提供一种计算机可读介质，其上存储有计算机程序，程序被处理器执行时实现本发明实施例的网页信息的获取方法。
[0089]
图5示出了可以应用本发明实施例的网页信息的获取方法或网页信息的获取装置的示例性系统架构500。
[0090]
如图5所示，系统架构500可以包括终端设备501、502、503，网络504和服务器505。网络504用以在终端设备501、502、503和服务器505之间提供通信链路的介质。网络504可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。
[0091]
用户可以使用终端设备501、502、503通过网络504与服务器505交互，以接收或发送消息等。终端设备501、502、503上可以安装有各种通讯客户端应用，例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等(仅为示例)。
[0092]
终端设备501、502、503可以是具有显示屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。
[0093]
服务器505可以是提供各种服务的服务器，例如对用户利用终端设备501、502、503所浏览的购物类网站提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的产品信息查询请求等数据进行分析等处理，并将处理结果(例如目标推送信息、产品信息
‑‑
仅为示例)反馈给终端设备。
[0094]
需要说明的是，本发明实施例所提供的网页信息的获取方法一般由服务器505执行，相应地，网页信息的获取装置一般设置于服务器505中。
[0095]
应该理解，图5中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。
[0096]
下面参考图6，其示出了适于用来实现本发明实施例的终端设备的计算机系统600的结构示意图。图6示出的终端设备仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。
[0097]
如图6所示，计算机系统600包括中央处理单元(cpu)601，其可以根据存储在只读存储器(rom)602中的程序或者从存储部分608加载到随机访问存储器(ram)603中的程序而执行各种适当的动作和处理。在ram 603中，还存储有系统600操作所需的各种程序和数据。cpu 601、rom 602以及ram 603通过总线604彼此相连。输入/输出(i/o)接口605也连接至总线604。
[0098]
以下部件连接至i/o接口605：包括键盘、鼠标等的输入部分606；包括诸如阴极射线管(crt)、液晶显示器(lcd)等以及扬声器等的输出部分607；包括硬盘等的存储部分608；以及包括诸如lan卡、调制解调器等的网络接口卡的通信部分609。通信部分609经由诸如因特网的网络执行通信处理。驱动器610也根据需要连接至i/o接口605。可拆卸介质611，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器610上，以便于从其上读出的计算机程序根据需要被安装入存储部分608。
[0099]
特别地，根据本发明公开的实施例，上文参考流程图描述的过程可以被实现为计
算机软件程序。例如，本发明公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分609从网络上被下载和安装，和/或从可拆卸介质611被安装。在该计算机程序被中央处理单元(cpu)601执行时，执行本发明的系统中限定的上述功能。
[0100]
需要说明的是，本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、rf等等，或者上述的任意合适的组合。
[0101]
附图中的流程图和框图，图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。
[0102]
描述于本发明实施例中所涉及到的模块可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中，例如，可以描述为：一种处理器包括分组模块、筛选模块和获取模块。其中，这些模块的名称在某种情况下并不构成对该模块本身的限定，例如，获取模块还可以被描述为“从目标url分组中获取网页的页面信息的模块”。
[0103]
作为另一方面，本发明还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的设备中所包含的；也可以是单独存在，而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个该设备执行时，使得该设备包括：解析出网页中所有统一资源定位符url元素，对解析得到的url元素进行分组，得到多个统一资源定位符url分组；提取每个url分组的分组特征，根据分组特征从多个
url分组中筛选目标url分组；从目标url分组中获取网页的页面信息。
[0104]
根据本发明实施例的技术方案，通过解析出网页中所有url元素，并对解析出的url元素进行分组，然后根据分组特征筛选出目标url分组，然后从目标url分组中获取网页的页面信息。本发明实施例的方法能够更加精准地筛选出满足业务需求的目标url分组，如列表页包括主要列表信息的目标url分组，然后从目标url分组中获取网页的页面信息。本发明实施例的方法适用于各种样式的网页包括列表页网页的通用解析，精准地筛选出满足业务需求的网页页面信息如列表页主要列表信息，以供进一步爬取工作使用，能够降低数据爬取的网络请求资源，降低数据清洗的工作量，不需要对网页中所有url链接均提取出来进行数据清洗，从而提高工作效率和信息获取的准确性。
[0105]
上述具体实施方式，并不构成对本发明保护范围的限制。本领域技术人员应该明白的是，取决于设计要求和其他因素，可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等，均应包含在本发明保护范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：青少年肌阵挛癫痫多脑区共激活模式研究方法

一种网页信息的获取方法和装置与流程

相关文献

最热文献