技术新讯 > 计算推算,计数设备的制造及其应用技术 > 表格提取方法、装置和计算机设备  >  正文

表格提取方法、装置和计算机设备

  • 国知局
  • 2024-07-31 22:50:07

本申请涉及表格识别领域,特别是涉及一种表格提取方法、装置和计算机设备。

背景技术:

1、表格检测和提取属于计算机视觉和自然语言处理交叉范畴,表格的检测和提取现有技术采取的方式涉及图像处理、深度学习、以及文本识别等技术。

2、在现有技术采取的方式中,主要有如下方式。通过python自带的pdfplumber包定位和提取pdf文件中的表格数据;此外,基于百度飞桨框架的表格检测算法pp-structure,主要应用于图片中表格的提取。

3、针对上述现有技术中提供的关于表格的检测与提取方式,仍存在如下问题。如在pdfplumber包应用过程中,对pdf文件格式的依赖性较高,对于扫描版或结构不清晰的pdf表格提取效果有限,容易出现漏失和提取错误;又如算法pp-structure局限于对带有明确边缘或边框线的表格的识别和提取,无法应对待识别表格形式,容易将多个单元格内容混合识别。由此,本申请针对现有技术的局限性和问题,设计了一种综合的表格检测与提取方案。

技术实现思路

1、基于此,有必要针对上述技术问题,提供一种能够提高表格提取效率的方法、装置和计算机设备。

2、第一方面,本申请提供了一种表格提取方法,所述方法包括:

3、根据页数信息将pdf文件转换成图片集,所述pdf文件包含有待识别表格;

4、使用预设分类器对所述图片集进行分类,得到包含所述待识别表格的目标图片集;

5、利用边缘检测算法对所述待识别表格进行边缘识别得到边缘识别结果,所述边缘识别结果包含所述待识别表格的矩形识别信息;

6、根据所述待识别表格的矩形识别信息对所述待识别表格进行框线补充,得到待提取表格;

7、在所述目标图片集中提取框线补充后的待识别表格。

8、在一个实施例中,预设分类器通过分类标签训练得到,所述分类标签包括表格、注释、参考文献、文本、流程图和背景;所述使用预设分类器对所述图片集进行分类,得到包含所述待识别表格的目标图片集,包括:所述预设分类器根据所述分类标签对所述图片集进行分类,得到包含所述待识别表格的目标图片集。

9、在一个实施例中,矩形识别信息包括外框线顶点、竖侧框线点和横侧框线点;所述利用边缘检测算法对所述待识别表格进行边缘识别得到边缘识别结果,包括:通过所述边缘检测算法识别所述待识别表格的矩形结构;根据所述矩形结构确定出所述外框线顶点、所述竖侧框线点和所述横侧框线点。

10、在一个实施例中,通过所述边缘检测算法识别所述待识别表格的矩形结构,包括:通过所述边缘检测算法识别所述待识别表格处不同颜色的单元格边缘,所述单元格边缘为所述待识别表格没有框线的部分;根据所述单元格边缘确定出所述待识别表格的矩形结构。

11、在一个实施例中,根据所述矩形结构确定出所述外框线顶点,包括:获取所述矩形结构的x坐标轴和y坐标轴;将x坐标轴最小值与y坐标轴最小值的点确定为第一外框点;将x坐标轴最小值与y坐标轴最大值的点确定为第二外框点;将x坐标轴最大值与y坐标轴最小值的点确定为第三外框点;将x坐标轴最大值与y坐标轴最大值的点确定为第四外框点;将所述第一外框点、所述第二外框点、所述第三外框点和所述第四外框点确定为所述外框线顶点。

12、在一个实施例中,根据所述待识别表格的矩形识别信息对所述待识别表格进行框线补充,得到待提取表格,包括:根据所述外框线顶点确定出所述待识别表格的外框线;根据所述竖侧框线点与所述横侧框线点确定出所述待识别表格的内框线;根据所述外框线和所述内框线完成对所述待识别表格的框线补充,得到所述待提取表格。

13、在一个实施例中,在所述目标图片集中提取框线补充后的待识别表格,包括:通过pp-structure算法识别出所述目标图片集中框线补充后的待识别表格;提取所述框线补充后的待识别表格。

14、第二方面,本申请还提供了一种表格提取装置,所述装置包括:

15、图片转换模块,用于根据页数信息将pdf文件转换成图片集,所述pdf文件包含有待识别表格;

16、图片分类模块,用于使用预设分类器对所述图片集进行分类,得到包含所述待识别表格的目标图片集;

17、边缘识别模块,用于利用边缘检测算法对所述待识别表格进行边缘识别得到边缘识别结果,所述边缘识别结果包含所述待识别表格的矩形识别信息;

18、框线补充模块,用于根据所述待识别表格的矩形识别信息对所述待识别表格进行框线补充,得到待提取表格;

19、表格提取模块,用于在所述目标图片集中提取框线补充后的待识别表格。

20、第三方面,本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:

21、根据页数信息将pdf文件转换成图片集,所述pdf文件包含有待识别表格;

22、使用预设分类器对所述图片集进行分类,得到包含所述待识别表格的目标图片集;

23、利用边缘检测算法对所述待识别表格进行边缘识别得到边缘识别结果,所述边缘识别结果包含所述待识别表格的矩形识别信息;

24、根据所述待识别表格的矩形识别信息对所述待识别表格进行框线补充,得到待提取表格;

25、提取所述目标图片集中框线补充后的待识别表格。

26、第四方面,本申请还提供了一种计算机可读存储介质。计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:

27、根据页数信息将pdf文件转换成图片集,所述pdf文件包含有待识别表格;

28、使用预设分类器对所述图片集进行分类,得到包含所述待识别表格的目标图片集;

29、利用边缘检测算法对所述待识别表格进行边缘识别得到边缘识别结果,所述边缘识别结果包含所述待识别表格的矩形识别信息;

30、根据所述待识别表格的矩形识别信息对所述待识别表格进行框线补充,得到待提取表格;

31、在所述目标图片集中提取框线补充后的待识别表格。

32、上述表格提取方法、装置和计算机设备,利用yolo分类器识别待识别表格,然后通过边缘检测算法和矩形识别信息来补充表格的框线,最后提取出目标图片集中框线补充后的待识别表格,包括了对pdf文件的处理、分类器的使用、边缘识别、矩形识别、框线补充和表格提取多个步骤;相对于原有技术中的pp-structure(只支持图片的识别),本申请支持pdf格式的输入;相对pdfplumber(只支持pdf电子版文档的识别)本申请支持扫描版pdf以及图片的输入,能适应待识别表格提取场景。本申请解决了现有技术在处理待识别表格时的局限性,并且通过引入yolo和边缘检测算法,提高了表格提取的准确性和效率。

技术特征:

1.一种表格提取方法,其特征在于,所述方法包括:

2.根据权利要求1所述的表格提取方法,其特征在于,所述预设分类器通过分类标签训练得到,所述分类标签包括表格、注释、参考文献、文本、流程图和背景;所述使用预设分类器对所述图片集进行分类,得到包含所述待识别表格的目标图片集,包括:

3.根据权利要求2所述的表格提取方法,其特征在于,所述矩形识别信息包括外框线顶点、竖侧框线点和横侧框线点;所述利用边缘检测算法对所述待识别表格进行边缘识别得到边缘识别结果,包括:

4.根据权利要求3所述的表格提取方法,其特征在于,所述通过所述边缘检测算法识别所述待识别表格的矩形结构,包括:

5.根据权利要求3所述的表格提取方法,其特征在于,所述根据所述矩形结构确定出所述外框线顶点,包括:

6.根据权利要求3所述的表格提取方法,其特征在于,所述根据所述待识别表格的矩形识别信息对所述待识别表格进行框线补充,得到待提取表格,包括:

7.根据权利要求1所述的表格提取方法,其特征在于,所述在所述目标图片集中提取框线补充后的待识别表格,包括:

8.一种表格提取装置,其特征在于,所述装置包括:

9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的表格提取方法的步骤。

10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的表格提取方法的步骤。

技术总结本申请涉及一种待识别表格的提取方法、装置和计算机设备。利用YOLO分类器识别待识别表格,然后通过边缘检测算法和矩形识别信息来补充表格的框线,最后在目标图片集中提取框线补充后的待识别表格,包括了对PDF文件的处理、分类器的使用、边缘识别、矩形识别、框线补充和表格提取多个步骤,能适应本申请所述的待识别表格提取场景。解决了现有技术在处理待识别表格时的局限性,并且通过引入YOLO和边缘检测算法,提高了表格提取的准确性和效率。技术研发人员:胡炎受保护的技术使用者:北京大学长沙计算与数字经济研究院技术研发日:技术公布日:2024/7/29

本文地址:https://www.jishuxx.com/zhuanli/20240730/194892.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。