一种公告信息抽取方法、系统及存储介质与流程

2022-12-10 19:26:30 来源：中国专利 TAG：

1.本发明涉及互联网招投标技术领域，特别涉及一种公告信息抽取方法、系统及存储介质。

背景技术：

2.企业在进行业务处理时需要经常处理招投标信息，因此需要实时查看各个网站中招投标公告的最新动态。目前，对于招投标公告的实体信息抽取一般采用规则匹配的方式进行，但该类方法存在的缺点是：人力成本高，需要人工编写大量的正则匹配规则；无可扩展性，在需要更多类别的实体抽取时成本几乎是线性增长；泛化性差，完全依赖已编写的正则匹配规则，在处理格式略有变化的文档时，识别率非常低。

技术实现要素：

3.为提高公告信息抽取的识别率，本发明提供了一种公告信息抽取方法、系统及存储介质。
4.本发明解决技术问题的方案是提供一种公告信息抽取方法，包括以下步骤：获取公告信息的表格内容与非表格内容；对表格内容与非表格内容进行数据预处理；基于预设抽取模型对非表格内容进行信息抽取得到第一抽取结果；基于表格规则扫描表格内容进行信息抽取得到第二抽取结果；对所述第一抽取结果与所述第二抽取结果进行后处理得到所述公告信息的结构化信息。
5.优选地，获取公告信息的表格内容和非表格内容包括以下步骤：将网页中的公告信息存储为html文件；基于html2text数据库提取html文件中的文本信息得到公告文本；基于beautifulsoup数据库区分所述公告文本中的表格内容与非表格内容。
6.优选地，对表格内容进行数据预处理包括对无效空格处理、对有效空格处理中的一种或多种；对非表格内容进行数据预处理包括对无效空格处理、对有效空格处理以及对文本分块。
7.优选地，对文本分块包括以下步骤：对非表格内容进行逐行切分；对切分后的内容进行顺次滑窗拼接，当拼接到超过512字符时，则将上一次的拼接结果作为一个块。
8.优选地，所述预设抽取模型基于初始模型经过微调得到，所述初始模型包括mengzi-bert-large模型、mengzi-bert-base模型、mengzi-bert-3b模型中的一种。
9.优选地，基于初始模型微调包括以下步骤：
获取训练样本，对所述训练样本中的非表格内容进行数据预处理；采用bio序列标注法对经过数据预处理后的非表格内容标注；调整参数对初始模型进行微调。
10.优选地，对所述第一抽取结果与所述第二抽取结果进行后处理采用模糊匹配算法。
11.本发明为解决上述技术问题还提供一种公告信息抽取系统，用于实现上述公告信息抽取方法，包括表格识别模块、数据预处理模块、第一抽取器、第二抽取器以及后处理模块；所述表格识别模块与所述数据预处理模块信号连接；所述第一抽取器分别与所述数据预处理模块以及所述后处理模块信号连接；所述第二抽取器分别与所述数据预处理模块以及所述后处理模块信号连接；所述表格识别模块用于获取表格内容与非表格内容；所述数据预处理模块用于对所述表格内容以及所述非表格内容进行数据预处理；所述第一抽取器为基于预训练模型的抽取器，用于对非表格内容进行信息抽取得到第一抽取结果；所述第二抽取器用于对表格内容进行信息抽取得到第二抽取结果；所述后处理模块用于使所述第一抽取结果与所述第二抽取结果中的内容与所述公告信息中的表述完全一致。
12.优选地，所述后处理模块包括模糊匹配模块，所述模糊匹配模块通过模糊匹配大小写、模糊匹配空格、模糊匹配生僻字中的一种或多种使所述第一抽取结果与所述第二抽取结果中的内容与所述公告信息中的表述完全一致。
13.本发明为解决上述技术问题还提供一种存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述公告信息抽取方法。
14.与现有技术相比，本发明的一种公告信息抽取方法、系统及存储介质具有以下优点：1、本发明的公告信息抽取方法，包括以下步骤：获取公告信息的表格内容与非表格内容；对表格内容与非表格内容进行数据预处理；基于预设抽取模型对非表格内容进行信息抽取得到第一抽取结果；基于表格规则扫描表格内容进行信息抽取得到第二抽取结果；对第一抽取结果与第二抽取结果进行后处理得到公告信息的结构化信息。
15.可以理解，本发明的公告信息抽取方法采用基于抽取模型的方式对网页中的公告信息进行主要内容（非表格内容）抽取，具有泛化性好的优点，因为抽取模型具有很好的语义理解能力，在处理格式略有变化的文档时也能准确地识别出对应的内容，极大地提高了识别率。另外，采用本发明的方法进行信息抽取还具有可扩展性好的优点，在需要更多类别的实体抽取时能够降低成本。此外，本发明通过对第一抽取结果与第二抽取结果进行后处理，可以使第一抽取结果与第二抽取结果中的内容与网页公告信息中的表述完全一致，便于用户获取更精准的信息，避免由于生僻字等原因造成用户理解偏差。
16.2、本发明的公告信息抽取方法中获取公告信息的表格内容和非表格内容包括以下步骤：将网页中的公告信息存储为html文件；基于html2text数据库提取html文件中的文本信息得到公告文本；基于beautifulsoup数据库区分公告文本中的表格内容与非表格内容。通过直接调用数据库对网页中的公告信息进行处理，技术成熟、处理效率高，保证了信
息抽取的效率。
17.3、本发明的公告信息抽取方法中对表格内容进行数据预处理包括对无效空格处理、对有效空格处理中的一种或多种；对非表格内容进行数据预处理包括对无效空格处理、对有效空格处理以及对文本分块。可以理解，本发明的抽取模型为bert类型的模型，由于bert类型的模型的输入字符受512个字符长度的限制，因此对非表格内容会进行分块的步骤，使每一块里面的字符不超过512字符，进而保证抽取模型的抽取效果。
18.4、本发明的公告信息抽取方法中预设抽取模型基于初始模型经过微调得到，初始模型包括mengzi-bert-large模型、mengzi-bert-base模型、mengzi-bert-3b模型中的一种。本发明的抽取模型采用的是基于bert的模型，采用mengzi-bert-large可以保证抽取模型的抽取效果，采用mengzi-bert-base模型可以降低硬件资源的消耗，采用mengzi-bert-3b模型可以获取更高的抽取准确度，因此，用户可以根据不同的需求选择不同的模型以适应更多的场景。
19.5、本发明的公告信息抽取方法中基于初始模型微调包括以下步骤：获取训练样本，对训练样本中的非表格内容进行数据预处理；采用bio序列标注法对经过数据预处理后的非表格内容标注；调整参数对初始模型进行微调。通过bio序列标注法进行标注，有利于处理长文本，提高多任务处理的效果。
20.6、本发明的公告信息抽取方法中对第一抽取结果与第二抽取结果进行后处理采用模糊匹配算法，可以保证较高的准确率。
21.7、本发明还提供一种公告信息抽取系统，具有与上述公告信息抽取方法相同的有益效果，在此不做赘述。
22.8、本发明还提供一种存储介质，其上存储有计算机程序，该计算机程序被执行时实现上述公告信息抽取方法，具有与上述公告信息抽取方法相同的有益效果，在此不做赘述。
附图说明
23.为了更清楚地说明本发明实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。
24.图1是本发明第一实施例提供的一种公告信息抽取方法的步骤流程图。
25.图2是本发明第一实施例提供的一种公告信息抽取方法之获取抽取模型的示例图。
26.图3是本发明第一实施例提供的一种公告信息抽取方法之训练集的结果示例图。
27.图4是本发明第一实施例提供的一种公告信息抽取方法之评估集的结果示例图。
28.图5是本发明第一实施例提供的一种公告信息抽取方法之公告信息示例图。
29.图6是本发明第一实施例提供的一种公告信息抽取方法之抽取结果示例图。
30.图7是本发明第二实施例提供的一种公告信息抽取系统的框图。
31.图8是本发明第二实施例提供的一种公告信息抽取系统的流程示例图。
32.附图标识说明：
2、公告信息抽取系统；20、表格识别模块；30、数据预处理模块；41、第一抽取器；42、第二抽取器；50、后处理模块。
具体实施方式
33.为了使本发明的目的，技术方案及优点更加清楚明白，以下结合附图及实施实例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。
34.请参阅图1，本发明第一实施例提供一种公告信息抽取方法，包括以下步骤：s1、获取公告信息的表格内容与非表格内容；s2、对表格内容与非表格内容进行数据预处理；s3、基于预设抽取模型对非表格内容进行信息抽取得到第一抽取结果；s4、基于表格规则扫描表格内容进行信息抽取得到第二抽取结果；s5、对第一抽取结果与第二抽取结果进行后处理得到公告信息的结构化信息。
35.可以理解，第一抽取结果为抽取得到的非表格内容的结构化信息，第二抽取结果为抽取得到的表格内容的结构化信息。步骤s5中公告信息的结构化信息为第一抽取结果与第二抽取结果经过后处理之后输出到同一文件中存储得到网页中公告信息的结构化信息。
36.可以理解，本发明第一实施例的公告信息抽取方法主要用于对招标网、投标网中的招投标公告信息进行抽取，使用户能够快速、准确地获取自己想要得知的信息。当然，对于其他类型网页上的其他公告信息抽取也可以采用本发明第一实施例提供的公告信息抽取方法。为便于理解，在本发明的实施例中以招投标网中的招投标公告信息抽取进行示例说明。
37.进一步地，本发明第一实施例中的预设的抽取模型是bert类型的预训练模型。可以理解，通过抽取模型对网页中的主要内容（非表格内容）进行信息抽取，具有泛化性好的优点，因为抽取模型具有很好的语义理解能力，在处理格式略有变化的文档时也能准确地识别出对应的内容，极大地提高了识别率，并且，在需要更多类别的实体抽取时，成本也不会极大地提高，可扩展性好。另外，采用本发明的方法进行信息抽取无需人工编写大量的正则匹配规则，也降低了人力成本。
38.进一步地，步骤s1的具体步骤包括：s11、将网页中的信息存储为html文件；s12、基于html2text数据库提取html文件中的文本信息得到公告文本；s13、基于beautifulsoup数据库区分公告文本中的表格内容与非表格内容。
39.可以理解，为便于对网页中的公告信息进行抽取，需先将网页的公告信息存储为文本形式的内容。在本发明第一实施例中先将网页的公告信息存储为html（hyper text markup language）文件，即超文本标记语言文件，再采用html2text数据库提取html文件中的文本信息以将网页的公告信息转换成文本信息。本发明第一实施例中将网页的公告信息存储为html文件易于编码，并且一般来说可以适用所有网页，而利用html2text数据库提取html文件中的文本信息，技术成熟、提取效率高。
40.可以理解，在其他实施例中也可以采用其他的方式提取html文件中的文本信息，
如采用其他数据库等。另外，在其他实施例中也可以将网页的公告信息存储为其他文件类型，再利用对应的手段进行信息提取得到文本内容。
41.可以理解，本发明第一实施例中利用beautifulsoup数据库对表格内容与非表格内容进行区分，有利于提高处理效率。在其他实施例中也可以采用其他能够实现相同功能的数据库或技术手段替换beautifulsoup数据库。
42.进一步地，在本发明第一实施例中对非表格内容进行数据预处理包括对无效空格处理、对有效空格处理以及对文本分块；对表格内容进行数据预处理包括对无效空格处理、对有效空格处理中的一种或多种。
43.进一步地，对无效空格处理是指对文本中连续出现超过两次（包括两次）的空格进行处理，以使最终只保留一个空格。在本发明第一实施例中通过预设处理函数实现对无效空格的处理，处理函数可以是multi函数（多值函数）。
44.进一步地，对有效空格处理为对有效空格使用特殊token进行标识。可以理解，在有些信息中会自带空格，比如在地址信息中，如：xxx路 xx号 x幢 x楼 xxx室；或者在电话号码信息中，如：（区号） 00000000等。这些信息自带空格，并且这些空格信息需要保留，但是经过bert类型的预训练模型后，tokenizer（令牌解析器）会自动忽略空格，因此需要对空格使用特殊token标识以保留原文中的空格信息。具体地，在本发明第一实施例中通过在tokenizer的add_special_token（添加特殊标记）加入[unused]token位代替空格位以保留原文的空格信息。
[0045]
进一步地，由于非表格内容中的信息是通过抽取模型进行抽取的，而bert类型的模型输入字符受512个字符长度的限制，因此，对文本进行分块主要是对非表格内容进行分块，使输入字符长度符合抽取模型的要求。可以理解，对非表格内容进行分块是对经过对无效空格处理、对有效空格处理之后的非表格内容进行分块。
[0046]
进一步地，对文本分块包括以下步骤：s21、对非表格内容进行逐行切分；s22、对切分后的内容进行顺次滑窗拼接，当拼接到超过512字符时，则将上一次的拼接结果作为一个块。
[0047]
可以理解，步骤s22中对切分后的内容进行顺次滑窗拼接直至扫描完所有非表格内容为止。
[0048]
进一步地，为提高抽取模型的识别率，本发明第一实施例中预设的抽取模型基于初始模型经过微调得到，初始模型微调包括以下步骤：s31、获取训练样本，对训练样本中的非表格内容进行数据预处理；s32、采用bio序列标注法对经过数据预处理后的非表格内容标注；s33、调整参数对初始模型进行微调。
[0049]
具体地，在本发明第一实施例中，初始模型为mengzi-bert-large模型。在其他实施例中，mengzi-bert-large模型也可以根据业务场景的硬件资源、抽取准确度要求等进行更换。比如，mengzi-bert-large模型可以更换为mengzi-bert-base模型以降低硬件资源的消耗；为获得更高的抽取准确度，mengzi-bert-large模型还可以更换为mengzi-bert-3b模型等。
[0050]
可以理解，对初始模型进行微调为mengzi-bert-large模型在bio序列标注任务上
进行超参数调优。具体地，bio标注为将每个元素标注为“b-x”、“i-x”或者“o”，其中，“b-x”表示此元素所在的片段属于x类型并且此元素在此片段的开头，“i-x”表示此元素所在的片段属于x类型并且此元素在此片段的中间位置，“o”表示不属于任何类型。
[0051]
示例性地，将x表示为名词短语（np），则bio的三个标记为：b-np：名词短语的开头；i-np：名词短语的中间；o：不是名词短语。
[0052]
具体地，请参阅图2，对初始模型训练的过程为：先获取训练样本中的非表格内容，对非表格内容进行数据预处理，包括对无效空格处理、对有效空格处理以及对文本分块；然后对处理之后的非表格内容进行bio序列标注，然后获取所有涵盖标注信息的训练样本，并通过训练样本对初始模型进行微调，最终得到抽取模型用于抽取非表格内容的结构化信息。
[0053]
具体地，在本发明第一实施例中，模型的训练样本为300个html网页，并分别标注了招投标项目名称、项目编号、中标供应商名称、中标供应商地址、中标价格、招标单位（采购人）名称、招标单位（采购人）地址、招标单位（采购人）联系电话、代理机构名称、代理机构地址、代理机构联系电话这些信息。进一步地，对所有的训练数据采用bio标注法进行标注之后，采用9:1的train（训练集）：dev（评估集）划分比例划分数据集，再进行微调。
[0054]
具体地，在mengzi-bert-large预训练模型上进行序列标注任务微调使用的模型超参为：learning_rate（学习率）：5e-5；lr_scheduler_type：cosine（表示以余弦学习率调整策略去学习）；weight_decay（权值衰减）：0.01；num_train_epochs（训练次数）：50。
[0055]
可以理解，在其他实施例中模型的训练数据可以适当增减，不限制必须为300个html网页。
[0056]
进一步地，请参阅图3和图4，图3是本发明第一实施例中训练集的结果示例，图4是本发明第一实施例中评估集的结果示例。从图3和图4所示的全局计算结果可知，训练集的准确度可以达到99%以上，评估集的准确度可以达到96%以上。因此，采用本发明第一实施例提供的公告信息抽取方法的识别准确度高，并且不受文本的格式影响。
[0057]
进一步地，第一抽取结果中的结构化信息包括：项目名称，项目编号，招标单位（采购人）名称，招标单位（采购人）地址，招标单位（采购人）联系电话，代理机构名称，代理机构地址，代理机构联系电话；第二抽取结果中的结构化信息包括：中标供应商名称，中标供应商地址，中标价格。
[0058]
可以理解，在实际应用场景中，第一抽取结果与第二抽取结果中的结构化信息并不限于上述提及的结构化信息，用户可以根据自己的需求任意组合、增加或减少上述字段。
[0059]
可以理解，由于表格内容具有一定的格式规则，因此对于表格内容可以不用基于模型进行，直接基于表格规则扫描表格内容进行信息抽取即可。可以理解，基于表格规则扫描表格内容为基于表格的行列规则扫描表格内容。具体地，在本发明的实施例通过逐行扫描表格即可对表格内容进行解析从而抽取出表格内容的结构化信息得到第二抽取结果；在
其他实施例中也可以通过逐列扫描的方式实现信息抽取。
[0060]
进一步地，步骤s5中对第一抽取结果与第二抽取结果进行后处理采用模糊匹配算法实现。
[0061]
进一步地，采用模糊匹配算法进行后处理包括模糊匹配大小写、模糊匹配空格、模糊匹配生僻字中的一种或多。具体地，对第一抽取结果会进行模糊匹配大小写、模糊匹配空格、模糊匹配生僻字；对第二抽取结果视实际需求选择后处理的类型。
[0062]
可以理解，由于bert类型不能区分大小写版本的tokenizer在处理文本的过程中不区分大小写，因此通过模糊匹配大小写使抽取的结构化信息中大小写与原网页中对应内容的大小写一致。
[0063]
可以理解，由于步骤s2中数据预处理对有效空格进行了处理，因此在后处理中通过模糊匹配空格使抽取的结构化信息中的空格与原网页中的空格一致。
[0064]
可以理解，由于bert模型处理生僻字问题的局限性，可能会导致对生僻字的处理出现偏差或者不能识别的情况，因此在后处理中加入模糊匹配生僻字，对输出的结果中带有unknown token（表示未知的标记），即[unk]的识别结果进行模糊匹配，确保即使招投标网页中包含生僻字的情况，也可以准确地输出对应的结构化信息。
[0065]
可以理解，通过对第一抽取结果以及第二抽取结果进行后处理可以保证抽取出来的内容与原网页中的表述完全一致，有利于用户获得更准确的信息，避免由于生僻字等原因造成用户理解偏差。
[0066]
可以理解，在本发明第一实施例中采用模糊匹配算法进行后处理，可以保证较高的准确率。在其他实施例中也可以采用其他的算法进行后处理。
[0067]
示例性地，请结合图5和图6，图5为某一网页的公告信息示例图，图6是利用本发明第一实施例提供的公告信息抽取方法对图5中的公告信息进行抽取得到的抽取结果示例图。从图6中可以看出抽取结果中既包括了对非表格内容进行信息抽取得到的第一抽取结果，即项目名称、项目编号、招标单位（采购人）名称、招标单位（采购人）地址、招标单位（采购人）联系电话、代理机构名称、代理机构地址、代理机构联系电话；又包括了对表格内容进行信息抽取得到的第二抽取结果，即中标供应商名称、中标供应商地址、中标价格。并且抽取结果中的表述均与网页中的表述一致，抽取准确率高，有利于用户快速、准确地获取想要得知的信息。
[0068]
请参阅图7，本发明第二实施例提供一种公告信息抽取系统2，用于实现本发明第一实施例提供的公告信息抽取方法，且与本发明第一实施例提供的公告信息抽取方法具有相同的有益效果。公告信息抽取系统2包括表格识别模块20、数据预处理模块30、第一抽取器41、第二抽取器42以及后处理模块50；表格识别模块20与数据预处理模块30信号连接；第一抽取器41分别与数据预处理模块30以及后处理模块50信号连接；第二抽取器42分别与数据预处理模块30以及后处理模块50信号连接；表格识别模块20用于获取表格内容与非表格内容；数据预处理模块30用于对表格内容以及非表格内容进行数据预处理；第一抽取器41为基于预训练模型的抽取器，用于对非表格内容进行信息抽取得到第一抽取结果；第二抽取器42用于对表格内容进行信息抽取得到第二抽取结果；
后处理模块50用于使第一抽取结果与第二抽取结果中的内容与公告信息中的表述完全一致。
[0069]
具体地，第一抽取器41为基于bert类型的预训练模型的抽取器。
[0070]
具体地，表格识别模块20内设有第一数据库与第二数据库，第一数据库用于将网页中的公告信息转换成易处理的公告文本，第二数据库用于将公告文本中的表格内容与非表格内容区别开。
[0071]
具体地，数据预处理模块30包括无效空格处理模块、有效空格处理模块与分块模块；无效空格处理模块用于对公告文本中连续出现超过两次（包括两次）的空格处理，最终只保留一个空格；有效空格处理模块用于对公告文本中的有效空格（需要保留的空格）进行标识，以保留空格信息；分块模块主要是对非表格内容进行处理，将非表格内容划分成各个块，使各块的总字符不超过512字符以符合bert类型模型的输入要求。
[0072]
进一步地，后处理模块50包括模糊匹配模块，模糊匹配模块通过模糊匹配大小写、模糊匹配空格以及模糊匹配生僻字中的一种或多种使第一抽取结果与第二抽取结果中的内容与公告信息中的表述完全一致。具体地，后处理模块50主要用于对第一抽取结果进行处理，对第一抽取结果进行模糊匹配大小写、模糊匹配空格以及模糊匹配生僻字使第一抽取结果的表述与网页中公告信息的表述完全一致；而对第二抽取结果进行后处理的类型视实际需求选择，可以是模糊匹配大小写、模糊匹配空格与模糊匹配生僻字中的一种或多种。
[0073]
示例性地，请结合图7和图8，公告信息抽取系统2的工作流程大致如下：首先将网页的公告信息存储为html文件，将网页中的公告信息转换成公告文本；然后表格识别模块20区分出非表格内容与表格内容；接下来数据预处理模块30分别对非表格内容以及表格内容进行数据预处理，其中，对非表格内容的预处理包括对无效空格的处理、对有效空格的处理以及对文本分块，分别通过无效空格处理模块、有效空格处理模块、文本分块模块进行；对表格内容的预处理类型视实际需求选择；接下来，第一抽取器41对预处理后的非表格内容进行信息抽取得到第一抽取结果，第一抽取结果包括：项目名称，项目编号，招标单位（采购人）名称，招标单位（采购人）地址，招标单位（采购人）联系电话，代理机构名称，代理机构地址，代理机构联系电话；第二抽取器42对预处理后的表格内容进行信息抽取得到第二抽取结果，第二抽取结果包括：中标供应商名称，中标供应商地址，中标价格；最后，后处理模块50对第一抽取结果与第二抽取结果进行后处理，后处理主要通过后处理模块50中的模块匹配模块进行，通过模糊匹配大小写、模糊匹配空格、模糊匹配生僻字之后将第一抽取结果与第二抽取结果输出到同一文件存储，最终得到与网页中表述一致的公告信息的结构化信息。具体地，在本发明的实施例中最终抽取的结构化信息存储为csv格式（逗号分隔值格式），便于用户查阅。
[0074]
进一步地，本发明第三实施例提供一种存储介质，其上存储有计算机程序，该计算机程序被执行时实现本发明第一实施例提供的公告信息抽取方法。并且，本发明第三实施例提供的存储介质与本发明第一实施例提供的公告信息抽取方法具有相同的有益效果。
[0075]
可以理解地，根据本发明公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分从网络上被下载和安装，和/或从可拆卸
介质被安装。在该计算机程序被中央处理单元(cpu)执行时，执行本技术的方法中限定的上述功能。需要说明的是，本技术所述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本技术中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本技术中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、rf等等，或者上述的任意合适的组合。
[0076]
可以以一种或多种程序设计语言或其组合来编写用于执行本技术的操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言诸如java、smalltalk、c ，还包括常规的过程式程序设计语言诸如“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务端上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络包括局域网(lan)或广域网(wan)连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
[0077]
在本发明所提供的实施例中，应理解，“与a对应的b”表示b与a相关联，根据a可以确定b。但还应理解，根据a确定b并不意味着仅仅根据a确定b，还可以根据a和/或其他信息确定b。
[0078]
应理解，说明书通篇中提到的“一个实施例”或“一实施例”意味着与实施例有关的特定特征、结构或特性包括在本发明的至少一个实施例中。因此，在整个说明书各处出现的“在一个实施例中”或“在一实施例中”未必一定指相同的实施例。此外，这些特定特征、结构或特性可以以任意适合的方式结合在一个或多个实施例中。本领域技术人员也应该知悉，说明书中所描述的实施例均属于可选实施例，所涉及的动作和模块并不一定是本发明所必须的。
[0079]
在本发明的各种实施例中，应理解，上述各过程的序号的大小并不意味着执行顺序的必然先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。
[0080]
在本发明的附图中的流程图和框图，图示了按照本技术各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一
个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方案中，方框中所标注的功能也可以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，在此基于涉及的功能而确定。需要特别注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。
[0081]
与现有技术相比，本发明的一种公告信息抽取方法、系统及存储介质具有以下优点：1、本发明的公告信息抽取方法，包括以下步骤：获取公告信息的表格内容与非表格内容；对表格内容与非表格内容进行数据预处理；基于预设抽取模型对非表格内容进行信息抽取得到第一抽取结果；基于表格规则扫描表格内容进行信息抽取得到第二抽取结果；对第一抽取结果与第二抽取结果进行后处理得到公告信息的结构化信息。
[0082]
可以理解，本发明的公告信息抽取方法采用基于抽取模型的方式对网页中的公告信息进行主要内容（非表格内容）抽取，具有泛化性好的优点，因为抽取模型具有很好的语义理解能力，在处理格式略有变化的文档时也能准确地识别出对应的内容，极大地提高了识别率。另外，采用本发明的方法进行信息抽取还具有可扩展性好的优点，在需要更多类别的实体抽取时能够降低成本。此外，本发明通过对第一抽取结果与第二抽取结果进行后处理，可以使第一抽取结果与第二抽取结果中的内容与网页公告信息中的表述完全一致，便于用户获取更精准的信息，避免由于生僻字等原因造成用户理解偏差。
[0083]
2、本发明的公告信息抽取方法中获取公告信息的表格内容和非表格内容包括以下步骤：将网页中的公告信息存储为html文件；基于html2text数据库提取html文件中的文本信息得到公告文本；基于beautifulsoup数据库区分公告文本中的表格内容与非表格内容。通过直接调用数据库对网页中的公告信息进行处理，技术成熟、处理效率高，保证了信息抽取的效率。
[0084]
3、本发明的公告信息抽取方法中对表格内容进行数据预处理包括对无效空格处理、对有效空格处理中的一种或多种；对非表格内容进行数据预处理包括对无效空格处理、对有效空格处理以及对文本分块。可以理解，本发明的抽取模型为bert类型的模型，由于bert类型的模型的输入字符受512个字符长度的限制，因此对非表格内容会进行分块的步骤，使每一块里面的字符不超过512字符，进而保证抽取模型的抽取效果。
[0085]
4、本发明的公告信息抽取方法中预设抽取模型基于初始模型经过微调得到，初始模型包括mengzi-bert-large模型、mengzi-bert-base模型、mengzi-bert-3b模型中的一种。本发明的抽取模型采用的是基于bert的模型，采用mengzi-bert-large可以保证抽取模型的抽取效果，采用mengzi-bert-base模型可以降低硬件资源的消耗，采用mengzi-bert-3b模型可以获取更高的抽取准确度，因此，用户可以根据不同的需求选择不同的模型以适应更多的场景。
[0086]
5、本发明的公告信息抽取方法中基于初始模型微调包括以下步骤：获取训练样本，对训练样本中的非表格内容进行数据预处理；采用bio序列标注法对经过数据预处理后的非表格内容标注；调整参数对初始模型进行微调。通过bio序列标注法进行标注，有利于处理长文本，提高多任务处理的效果。
[0087]
6、本发明的公告信息抽取方法中对第一抽取结果与第二抽取结果进行后处理采用模糊匹配算法，可以保证较高的准确率。
[0088]
7、本发明还提供一种公告信息抽取系统，具有与上述公告信息抽取方法相同的有益效果，在此不做赘述。
[0089]
8、本发明还提供一种存储介质，其上存储有计算机程序，该计算机程序被执行时实现上述公告信息抽取方法，具有与上述公告信息抽取方法相同的有益效果，在此不做赘述。
[0090]
以上对本发明实施例公开的一种公告信息抽取方法、系统及存储介质进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制，凡在本发明的原则之内所作的任何修改，等同替换和改进等均应包含本发明的保护范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

上一篇：返回列表
下一篇：一种余额库表记账方法、系统、终端及存储介质与流程

一种公告信息抽取方法、系统及存储介质与流程

相关文献

最热文献