一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

网页表格解析方法、装置、计算机设备和存储介质与流程

2022-02-20 00:41:10 来源:中国专利 TAG:


1.本公开涉及计算机技术领域,特别是涉及一种网页表格解析方法、装置、计算机设备和存储介质。


背景技术:

2.随着互联网技术的发展,出现了数据采集技术,在网页中html(hypertext markup language,超文本标记语言)表格是比较常见的网页页面数据展示格式。而互联网数据采集工作者通常使用python语言和与其相关的依赖包对网页中html表格进行解析。
3.然而,目前的使用python语言和与其相关的依赖包的方法,当html表格较为复杂时传统的方法无法自行判断html表格的横表或者竖表结构,大多数的情况下是需要依赖开发人员的人工识别或者根据表格的特定结构来识别,不仅不能够针对不同结构的表格进行统一识别,而且进行识别的效率上也很低。


技术实现要素:

4.基于此,有必要针对上述技术问题,提供一种能够判断表格的横竖表结构并进行解析的网页表格解析方法、装置、计算机设备和存储介质。
5.一种网页表格解析方法,方法包括以下步骤:
6.分解网页表格,得到网页表格的元素模板;
7.获取预设字段在元素模板中的匹配信息,根据匹配信息判断元素模板对应的网页表格的结构;
8.在网页表格的结构为横表结构的情况下,根据预设字段解析横表结构的网页表格对应的元素模板,得到网页表格的数据。
9.在其中一个实施例中,分解网页表格,得到网页表格的元素模板,包括:
10.利用第一标签将网页表格中的数据进行分解,得到网页表格的规格参数和数据列表;
11.将数据列表中的元素依次输入至根据规格参数生成的数据模板中,得到网页表格的元素模板。
12.在其中一个实施例中,利用第一标签将网页表格中的数据进行分解,得到网页表格的规格参数和数据列表,包括:
13.将第一标签作为分解单位,通过第一标签对网页表格的行和列中的标签进行分解,得到数据列表;
14.根据数据列表中长度最长的行的长度和长度最长的行中元素的数量得到规格参数。
15.在其中一个实施例中,将数据列表中的元素依次输入至根据规格参数生成的数据模板中,得到网页表格的元素模板,包括:
16.根据规格参数生成数据模板;
17.依次遍历数据列表中每一行的元素;
18.将每一行的元素依次输入至数据模板中,得到网页表格的元素模板。
19.在其中一个实施例中,获取预设字段在元素模板中的匹配信息,根据匹配信息判断元素模板对应的网页表格的结构,包括:
20.将预设字段依次与元素模板中每一行中每个元素进行匹配,得到行匹配信息;
21.将预设字段依次与元素模板中每一列中每个元素进行匹配,得到列匹配信息;
22.当行匹配信息大于列匹配信息时,确定网页表格的结构为横表结构;
23.当行匹配信息小于列匹配信息时,确定网页表格的结构为竖表结构。
24.在其中一个实施例中,所述方法还包括:在行匹配信息等于列匹配信息的情况下,输出行匹配信息等于列匹配信息的相等信息;
25.第三方根据相等信息输出相等信息的反馈结果;
26.根据反馈结果确定网页表格的结构为横表结构或竖表结构。
27.在其中一个实施例中,方法还包括:
28.当网页表格的结构为竖表结构时,将竖表结构的网页表格转换为横表结构的网页表格;
29.根据预设字段解析横表结构的网页表格对应的元素模板,得到网页表格的数据。
30.在其中一个实施例中,根据预设字段解析横表结构的网页表格对应的元素模板,得到网页表格的数据,包括:
31.将横表结构的网页表格对应的元素模板中的空位通过空字符串进行填充;
32.根据预设字段中数据字段匹配填充后的元素模板中每一行中网页字段对应的元素,得到数据字段和元素对应关系;
33.将每一行的数据字段和元素对应关系进行数据合并,得到每一行对应的网页数据;
34.将每一行对应的网页数据进行组装,得到网页表格的数据。
35.一种网页表格解析装置,装置包括:
36.表格分解模块,用于分解网页表格,得到网页表格的元素模板;
37.匹配判断模块,用于获取预设字段在元素模板中的匹配信息,根据匹配信息判断元素模板对应的网页表格的结构;
38.表格解析模块,用于根据预设字段解析横表结构的网页表格对应的元素模板,得到网页表格的数据。
39.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述的方法的步骤。
40.一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述的方法的步骤。
41.上述网页表格解析方法、装置、计算机设备和存储介质,通过将网页表格进行分解,进而得到元素模板,能够较快的提取出网页表格的数据,进而通过预设字段与元素模板进行匹配能够进行自动的判断网页表格结构,并且针对横表结构的网页表格进行自动解析,实现横表结构的网页表格数据的自动提取,无需依赖开发人员的人工干预或者网页表格的特定结构来识别网页表格的结构,还可以对横表结构的网页表格进行解析,得到网页
表格数据,提高工作效率,减少人工操作识别网页表格和解析网页表格时的错误率。
42.另一方面,通过预设字段与元素模板进行匹配能够进行自动的判断网页表格结构,进而判断出竖表结构的网页表格,将竖表结构的网页表格转换为横表结构的网页表格,进而使用横表结构的网页表格的解析方法,无需再次编写竖表结构的网页表格的解析方法,使得解析网页表格的数据时更加高效和便捷。
附图说明
43.图1为一个实施例中网页表格解析方法的应用环境图;
44.图2为一个实施例中网页表格解析方法的流程示意图;
45.图3为一个实施例中s202步骤的流程示意图;
46.图4为一个实施例中s302步骤的流程示意图;
47.图5为一个实施例中s204步骤的流程示意图;
48.图6为一个实施例中网页表格解析方法另一部分的流程示意图;
49.图7为一个实施例中s604步骤的流程示意图;
50.图8为一个实施例中网页表格解析装置的结构框图;
51.图9为一个实施例中计算机设备的内部结构图。
具体实施方式
52.为了使本公开的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本公开进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本公开,并不用于限定本公开。
53.本公开提供的网页表格解析方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104进行通信,获取服务器104通过python依赖包beautifulsoup解析得到的网页表格。终端102分解网页表格,得到网页表格元素模板,将元素模板存储在终端102中。终端102获取服务器104中的预设字段。进而终端102获取预设字段在元素模板中的匹配信息。终端102根据匹配信息判断与其存储的元素模板对应的网页表格的结构。当终端102判断网页表格的结构为横表结构时,根据获取到的预设字段解析横表结构的网页表格对应的元素模板,得到网页表格的数据。
54.其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑,服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。可以理解的是,该方法也可以单独应用于终端或服务器。
55.在一个实施例中,如图2所示,提供了一种网页表格解析方法,以该方法应用于图1中的终端为例进行说明,包括以下步骤:
56.s202,分解网页表格,得到所述网页表格的元素模板。
57.其中,分解网页表格可以是将网页表格中元素逐一进行拆解,得到网页表格中单个元素的操作;元素模板可以是包含了网页表格中的数据的模板,即包含了网页表格中的元素的模板,例如网页表格中的元素为:a、a 、b、b 、b1 ,则元素模板可以为存储了a、a 、b、b 、b1 的元素的模板。
58.s204,获取预设字段在所述元素模板中的匹配信息,根据所述匹配信息判断所述
元素模板对应的所述网页表格的结构。
59.其中,预设字段可以包括预先设置好的与网页表格数据(即网页表格中的元素)和对应的数据字段,即数据字段和元素对应关系或元素和数据字段对应关系,如:网页表格中的元素为姓名,与其对应的数据字段为name,则预设字段为姓名和与其对应的name,表示方式可以包括:姓名:name、姓名-name、姓名=name;表示方式在本实施例中不进行限制,本领域技术人员也可根据具体实际场景进行设置其他表示方式,只要能表示出网页表格中的元素和对应的数据字段即可。预设字段可以存储了一般情况下数据字段和元素对应关系或元素和数据字段对应关系,可以支持重复使用,后续识别其他网页表格时也可使用,无需再次预设。
60.匹配信息可以是预设字段中网页表格中的元素在元素模板中存在的数量。
61.步骤206,在所述网页表格的结构为横表结构的情况下,根据所述预设字段解析所述网页表格对应的所述元素模板,得到所述网页表格的数据。
62.其中,解析可以是通过预设字段中网页表格中的元素对应的数据字段匹配元素模板得到的数据字段并进行按照元素模板格式排列的后得到的信息,横表结构通常指的是标题在网页表格中呈行的方式呈现的网页表格的结构。
63.具体地,从网页中得到网页表格。对得到的网页表格中的元素进行分解,将每个元素拆解出来,然后根据拆解出的元素得到网页表格的元素模板;创建预设字段,通过预设字段中预先设置的网页表格的元素匹配元素模板中,然后获取预设字段中网页表格中的元素在元素模板中存在的数量的匹配信息,匹配信息中预设字段中网页表格中的元素在元素模板中存在的数量不同则代表着网页表格的结构不同,通过预设字段中网页表格中的元素在元素模板中存在的数量判断元素模板对应的网页表格的结构。
64.根据匹配信息判断元素模板对应的网页表格结构为横表结构的情况下,根据预设字段中预先设置的网页表格中的元素和对应的数据字段解析横表结构的网页表格对应的元素模板,即将元素模板中的元素和预先设置的网页表格中的元素和对应的数据字段进行匹配合并,将匹配合并后得到的信息一一组装,最后得到网页表格的数据。
65.上述网页表格解析方法中,通过将网页表格进行分解,进而得到元素模板,能够较快的提取出网页表格的数据,进而通过预设字段与元素模板进行匹配能够进行自动的判断网页表格结构,并且针对横表结构的网页表格进行自动解析,实现横表结构的网页表格数据的自动提取,无需依赖开发人员的人工干预或者表格的特定结构来识别网页表格的结构,还可以对横表结构的网页表格进行解析,得到网页表格数据,提高工作效率,减少人工操作识别网页表格和解析网页表格时的错误率。
66.在一个实施例中,所述分解网页表格之前,包括:通过网页解析器进行提取网页中网页表格。
67.其中,网页解析器,可以是一个html网页信息提取工具,就是从html网页中解析提取出“数据”或者“新的url链接”的工具。网页解析器可以包括:lxml、html.parse和beautifulsoup;在本实施例中网页解析器可以是beautifulsoup,beautifulsoup是一个可以从html或xml(extensible markup language,可扩展标记语言)文件中提取数据的python库。
68.具体地,通过python依赖包beautifulsoup解析该网页中的数据,即通过python依
赖包beautifulsoup解析网页中表格,得到网页表格。
69.在一个实施例中,如图3所示,所述分解网页表格,得到所述网页表格的元素模板,包括:
70.s302,利用第一标签将网页表格中的数据进行分解,得到所述网页表格的规格参数和数据列表。
71.s304,将所述数据列表中的元素依次输入至根据所述规格参数生成的数据模板中,得到所述网页表格的元素模板。
72.其中,第一标签通常可以指《td》,《td》标签通常可以是用来定义html表格中的标准单元格,本领域技术人员也以根据实际情况进行选择其他标签,如《p》、《th》等,在本实施例中主要使用的是《td》标签。规格参数通常可以包括网页表格的长度和宽度;数据列表通常指的是由网页表格中每个元素组成的数据列表,其每行中的元素与网页表格中每行的元素对应。数据模板可以是空白的模板,用于存储数据列表中的元素,数据模板可以是数组形式,画布形式或者其他形式,在本实施例中不进行限制,只要能存储数据列表中的元素即可。
73.具体地,利用第一标签对网页表格的数据进行分解,将网页表格的数据进行拆解出来,根据拆解出的数据(即网页表格中的元素),得到网页表格的规格参数和网页表格元素的数据列表。根据规格参数,即长度和宽度生成与长度和宽度所匹配的空白的数据模板,即空白数据模板的长度和宽度为规格参数中的长度和宽度;
74.将数据列表中的网页表格的元素依次按照在网页表格中的排列顺序输入至数据模板中,输入元素后的数据模板即为元素模板。
75.在一个实施例中,如图4所示,所述利用第一标签将网页表格中的数据进行分解,得到所述网页表格的规格参数和数据列表,包括:
76.s402,将所述第一标签作为分解单位,通过所述第一标签对所述网页表格的行和列中的标签进行分解,得到所述数据列表。
77.s404,根据所述数据列表中长度最长的行的长度和长度最长的行中元素的数量得到所述规格参数。
78.具体地,使用第一标签作为最小的分解单位,通过第一标签分别对网页表格行中的标签和列中的标签进行分解,得到第一标签中对应的元素,将第一标签中对应的元素按照网页表格中顺序进行排列,排列后的元素即形成了数据列表。根据数据列表中长度最长的一行中行的长度,得到规格参数中长度,根据数据列中长度最长的一行中元素的数量,得到规格参数中宽度。
79.在一些实施方式中,例如以《td》作为最小单位,网页表格的代码为:
[0080][0081]
则通过《td》标签进行拆解,得到网页表格中的元素,a、a 、b、b 、b1 ;根据网页表格中的元素得到数据列表:
[0082]
[a,a
[0083]
b,b ,b1 ];通过b,b ,b1 ,这一行长度最长的行,为3,元素的个数也为3,则3和3为规格参数中的长度和宽度。
[0084]
本实施例中,通过第一标签进行分解表格,能够精确地获取网格中的每个元素,并且生成的数据列表中存储的也是网页表格中的元素,后续生成的元素模板中是按照网页表格中的顺序存储的网页表格中的元素,所以后续判断网页表格结构即可根据元素模板进行判断,减少了针对复杂表格进行判断繁琐步骤,以及人工进行识别的错误率。
[0085]
在一个实施例中,所述将所述数据列表中的元素依次输入至根据所述规格参数生成的数据模板中,得到所述网页表格的元素模板,包括:
[0086]
根据所述规格参数生成数据模板;依次遍历所述数据列表中每一行的元素;
[0087]
将所述每一行的元素依次输入至所述数据模板中,得到所述网页表格的元素模板。
[0088]
具体地,按照规格参数的中长度和宽度生成与长度和宽度对应的数据模板,该生成的数据模板中长度即为规格参数中长度,宽度即为规格参数中宽度,所以数据列表中所有元素能够该数据模板都能写入,将所述数据列表中每一行的元素依次按照在网页表格中排列的顺序输入至数据模板中,将所有数据列表中元素都输入至数据模板后,即得到了网页表格的元素模板。
[0089]
在一个实施例中,如图5所示,所述获取预设字段在所述元素模板中的匹配信息,根据所述匹配信息判断所述元素模板对应的所述网页表格的结构,包括:
[0090]
s502,将所述预设字段依次与所述元素模板中每一行中每个元素进行匹配,得到行匹配信息。
[0091]
s504,将所述预设字段依次与所述元素模板中每一列中每个元素进行匹配,得到列匹配信息。
[0092]
s506,判断所述行匹配信息和所述列匹配信息的关系。
[0093]
s508,当所述行匹配信息大于所述列匹配信息时,确定所述网页表格的结构为横表结构。
[0094]
s510,当所述行匹配信息小于所述列匹配信息时,确定所述网页表格的结构为竖表结构。
[0095]
其中,匹配可以是判断预设字段是否有元素模板中对应信息的方式。行匹配信息可以是预设字段中网页表格中的元素在元素模板中每一行中出现的次数。列匹配信息可以是预设字段中的网页表格中的元素与元素模板中每一列中出现的次数。
[0096]
具体的,将预设字段中的网页表格中的元素与元素模板中每一行的元素进行匹配,得到行的匹配信息,将预设字段中的网页表格中的元素与元素模板中每一列的元素进行匹配,得到列的匹配信息,根据行的匹配信息和列的匹配信息进行判断,根据判断结果确定元素模板对应的网页表格的结构。当行匹配信息大于列匹配信息时,确定网页表格的结构为横表结构。当行匹配信息小于列匹配信息时,确定网页表格的结构为竖表结构。
[0097]
在一些实施方式中,如预设字段中网页表格元素为a、a 、b、b 、b1 和c。元素模板为:
[0098]
[a,a
[0099]
b,b ,b1 ];
[0100]
则在第一行的命中次数为2次,在第二行的命中次数为3次,行匹配信息取最大次数为3;在第一列的命中次数为2次,在第二列的命中次数为2,在第三列的命中次数为1,列匹配信息取最大次数为2,此时行匹配信息大于列匹配信息,则确定网页表格的结构为横表结构。
[0101]
当元素模板为:
[0102]
[a,a ,
[0103]
b,b ,
[0104]
b1 ];
[0105]
则在第一行的命中次数为2次,在第二行的命中次数为2次,第三行命中次数为1,行匹配信息为2;在第一列的命中次数为3次,在第二列的命中次数为2,列匹配信息为3,此时行匹配信息小于列匹配信息,则确定网页表格的结构为竖表结构。
[0106]
在一个实施例中,方法还包括:在所述行匹配信息等于所述列匹配信息的情况下,输出所述行匹配信息等于所述列匹配信息的相等信息;第三方根据所述相等信息输出所述相等信息的反馈结果;根据所述反馈结果确定所述网页表格的结构为横表结构或竖表结构。
[0107]
具体地,在行匹配信息和列匹配信息相等的情况下,将行匹配信息和列匹配信息相等的信息输出,当第三方获取到该输出的相等的信息时,第三方进行输出该相等的信息的反馈结果,根据该反馈结果确定网页表格的结构。第三方可以是开发工作人员也可以是第三方平台,当为开发工作人员时,通过工作人员输出反馈信息,当为第三方平台时,通过第三方平台输出反馈信息。第三方平台在本实施例中不进行限制,只要能够输出信息即可。
[0108]
在一个实施例中,如图6所示,方法还包括:
[0109]
s602,在所述网页表格的结构为竖表结构的情况下,将所述竖表结构的所述网页表格转换为横表结构的所述网页表格。
[0110]
s604,根据所述预设字段解析所述网页表格对应的所述元素模板,得到所述网页表格的数据。
[0111]
具体地,当网页表格的结构为竖表结构时,需要将竖表结构的网页表格转换为横表结构的网页表格,即将竖表结构的网页表格的第一列变为第一行,第二列变为第二行,以此类推直至所有列全部转换为行。将转换为横表结构的网页表格通过横表结构的网页表格的解析方法,即根据预设字段中预先设置的网页表格中的元素和对应的数据字段解析横表结构的网页表格对应的元素模板,解析后将得到的信息一一组装,最后得到网页表格的数据。
[0112]
在本实施例中,通过将竖表结构的网页表格转换为横表结构的网页表格,进而使用横表结构的网页表格的解析方法,无需再次编写竖表结构的网页表格的解析方法,使得解析网页表格的数据时更加高效和便捷。
[0113]
在其中一个实施例中,如图7所示,所述根据所述预设字段解析横表结构的所述网页表格对应的所述元素模板,得到所述网页表格的数据,包括:
[0114]
s702,将所述横表结构的所述网页表格对应的所述元素模板中的空位通过空字符串进行填充。
[0115]
s704,根据所述预设字段中数据字段匹配填充后的所述元素模板中每一行中网页字段对应的元素,得到数据字段和元素对应关系。
[0116]
s706,将每一行的所述数据字段和元素对应关系进行数据合并,得到每一行对应的网页数据,得到每一行对应的网页数据。
[0117]
s708,将每一行对应的网页数据进行组装,得到所述网页表格的数据。
[0118]
具体地,元素模板中可能会出现某一行或者某一列中有空位的情况,即未填入元素,则此时可以将空位通过空字符串进行填充,确保后续进行匹配时能够将该行或者该列的元素完全匹配,若不通过空字符串进行填充,则进行匹配是如果匹配到某个元素后为空,则可能会认定该行的元素匹配完成,若空后还存在元素,则无法匹配,可能会导致数据丢失。根据预设字段中的网页表格中的元素对应的数据字段匹配进行填充后的元素模板每一行中网页字段对应的元素,得到每一行的至少一个数据字段和元素对应关系。将每一行的至少一个数据字段和元素进行合并,得到每一行的所有数据字段和元素对应关系。可以将每一行的所有数据字段和元素对应关系进行按照每行的顺序进行组装,得到网页表格的数据。还可以将每一行的所有数据字段和元素对应关系以任意顺序进行组装,得到网页表格的数据。在本实施例中不进行限制,只要能将每一行的所有数据字段和元素对应关系展示出来即可。
[0119]
在一些实施方式中,预设字段为1:a、2:a 、3:b、4:b 、5:b1 、6:c;填充后的元素模板为:
[0120]
[a,a ,空字符串
[0121]
b,b ,b1 ];通过预设字段进行匹配,得到第一行的数据字段和元素对应关系,为:1:a和2:a ,得到第二行的数据字段和元素对应关系,为:3:b、4:b 、5:b1 ;将上述对
应关系进行组装,得到网页表格的数据为:{1:a、2:a 、3:b、4:b 、5:b1 }。
[0122]
应该理解的是,虽然附图中的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,附图中至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
[0123]
在一个实施例中,如图8所示,提供了一种网页表格解析装置800,包括:表格分解模块802、匹配判断模块804和表格解析模块806,其中:
[0124]
表格分解模块802,用于分解网页表格,得到所述网页表格的元素模板。
[0125]
匹配判断模块804,用于获取预设字段在所述元素模板中的匹配信息,根据所述匹配信息判断所述元素模板对应的所述网页表格的结构。
[0126]
表格解析模块806,用于根据所述预设字段解析横表结构的所述网页表格对应的所述元素模板,得到所述网页表格的数据。
[0127]
在所述装置的其中一个实施例中,所述装置还包括:预设字段创建模块,用于创建预设字段,所述预设字段包括与所述网页表格中网页字段对应的数据字段。
[0128]
在所述装置的其中一个实施例中,所述表格分解模块802包括:标签拆分模块和元素输入模块,其中:
[0129]
标签拆分模块,用于利用第一标签将网页表格中的数据进行分解,得到所述网页表格的规格参数和数据列表。
[0130]
元素输入模块,用于将所述数据列表中的元素依次输入至根据所述规格参数生成的数据模板中,得到所述网页表格的元素模板。
[0131]
在所述装置的其中一个实施例中,所述标签拆分模块包括数据列表获取模块和规格参数获取模块,其中:
[0132]
数据列表获取模块,用于将所述第一标签作为分解单位,通过所述第一标签对所述网页表格的行和列中的标签进行分解,得到所述数据列表。
[0133]
规格参数获取模块,用于根据所述数据列表中长度最长的行的长度和长度最长的行中元素的数量得到所述规格参数。
[0134]
在所述装置的其中一个实施例中,所述元素输入模块包括:数据模板生成模块、数据列表遍历模块和数据模板输入模块,其中:
[0135]
数据模板生成模块,用于根据所述规格参数生成数据模板。
[0136]
数据列表遍历模块,用于依次遍历所述数据列表中每一行的元素。
[0137]
数据模板输入模块,用于将所述每一行的元素依次输入至所述数据模板中,得到所述网页表格的元素模板。
[0138]
在所述装置的其中一个实施例中,所述匹配判断模块804包括:行匹配模块、列匹配模块、横表结构判断模块和竖表结构判断模块,其中:
[0139]
行匹配模块,用于将所述预设字段依次与所述元素模板中每一行中每个元素进行匹配,得到行匹配信息。
[0140]
列匹配模块,用于将所述预设字段依次与所述元素模板中每一列中每个元素进行
匹配,得到列匹配信息。
[0141]
横表结构判断模块,用于当所述行匹配信息大于所述列匹配信息时,确定所述网页表格的结构为横表结构。
[0142]
竖表结构判断模块,用于当所述行匹配信息小于所述列匹配信息时,确定所述网页表格的结构为竖表结构。
[0143]
在所述装置的其中一个实施例中,所述装置还包括信息反馈模块,
[0144]
信息反馈模块,用于在所述行匹配信息等于所述列匹配信息的情况下,输出所述行匹配信息等于所述列匹配信息的信息;用于获取第三方根据所述信息输出所述信息的反馈结果;用于根据所述反馈结果确定所述网页表格的结构为横表结构或竖表结构。
[0145]
再所述装置的其中一个实施例中,所述装置还包括:竖表结构转换模块;
[0146]
竖表结构转换模块,用于在所述网页表格的结构为竖表结构的情况下,将所述竖表结构的所述网页表格转换为横表结构的所述网页表格。
[0147]
在所述装置的其中一个实施例中,表格解析模块806包括:字符填充模块、数据字段匹配模块、数据合并模块和组装模块,其中:
[0148]
字符填充模块,用于将所述横表结构的所述网页表格对应的所述元素模板中的空位通过空字符串进行填充。
[0149]
数据字段匹配模块,用于根据所述预设字段中数据字段匹配填充后的所述元素模板中每一行中网页字段对应的元素,得到每一行的数据字段和元素对应关系。
[0150]
数据合并模块,用于将每一行的所述数据字段和元素对应关系进行数据合并,得到每一行对应的网页数据。
[0151]
组装模块,用于将每一行对应的网页数据进行组装,得到所述网页表格的数据。
[0152]
关于网页表格解析装置的具体限定可以参见上文中对于网页表格解析方法的限定,在此不再赘述。上述网页表格解析装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
[0153]
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图9所示。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过wifi、运营商网络、nfc(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种网页表格解析方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
[0154]
本领域技术人员可以理解,图9中示出的结构,仅仅是与本公开方案相关的部分结构的框图,并不构成对本公开方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
[0155]
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述各方法实施例中的步骤。
[0156]
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
[0157]
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本公开所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(read-only memory,rom)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(random access memory,ram)或外部高速缓冲存储器。作为说明而非局限,ram可以是多种形式,比如静态随机存取存储器(static random access memory,sram)或动态随机存取存储器(dynamic random access memory,dram)等。
[0158]
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
[0159]
以上所述实施例仅表达了本公开的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本公开构思的前提下,还可以做出若干变形和改进,这些都属于本公开的保护范围。因此,本公开专利的保护范围应以所附权利要求为准。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献