表格提取方法、系统、电子设备和存储介质与流程
- 国知局
- 2024-09-11 14:18:31
本发明涉及图像处理,尤其涉及一种表格提取方法、系统、电子设备和存储介质。
背景技术:
1、文档表格处理是人们日常生活工作中的通常会面临的事项,然而为了美观以及便于查看,目前大多数的表格是以不可编辑的形式存在的,例如,图片形式、扫描文件形式等,这就导致表格的提取十分困难,表格信息的电子化难度较大。
2、目前,对不可编辑文档中表格的提取、信息的录入、校对等事项多由人工进行,而这不可避免的会耗费大量的时间精力,并且还存在较大操作风险。基于此,自动化表格提取方式应运而生,但是,当下的表格提取方法无法适应于结构多样、形式多变的表格,其兼容性较差,无法对各种类型的表格进行提取,效果往往也堪忧。
技术实现思路
1、本发明提供一种表格提取方法、系统、电子设备和存储介质,用以解决现有技术中表格提取方法兼容性差,无法适应于形式多变的表格,提取效果不佳的缺陷,跳出表格类型的限制,实现各种类型的表格提取,保证了提取效果。
2、本发明提供一种表格提取方法,包括:
3、确定待提取的表格图像;
4、对所述表格图像进行文本检测,得到所述表格图像中的文本区域,以及各文本区域的角点坐标;
5、基于所述各文本区域的角点坐标,生成所述表格图像的掩码图,对所述掩码图进行腐蚀膨胀,得到所述表格图像中单元格的角点坐标;
6、基于所述各文本区域的角点坐标、各单元格的角点坐标,以及所述各文本区域的文本内容,确定所述表格图像对应的表格。
7、根据本发明提供的一种表格提取方法,所述基于所述各文本区域的角点坐标,生成所述表格图像的掩码图,对所述掩码图进行腐蚀膨胀,得到所述表格图像中单元格的角点坐标,包括:
8、基于所述表格图像中表格的角点坐标,生成单通道图像;
9、基于所述各文本区域的角点坐标,以及所述单通道图像,确定所述表格图像的掩码图;
10、基于所述掩码图的图像尺寸,确定目标尺寸;
11、通过所述目标尺寸的卷积核,对所述掩码图进行腐蚀膨胀,得到所述表格图像中单元格的角点坐标。
12、根据本发明提供的一种表格提取方法,所述基于所述各文本区域的角点坐标、各单元格的角点坐标,以及所述各文本区域的文本内容,确定所述表格图像对应的表格,包括:
13、基于所述各文本区域的角点坐标,以及所述各单元格的角点坐标,对所述各文本区域和所述各单元格进行匹配,得到所述各文本区域与所述各单元格之间的对应关系;
14、基于所述对应关系,以及所述各文本区域的文本内容,对所述各单元格进行文本内容置入,得到所述表格图像对应的表格。
15、根据本发明提供的一种表格提取方法,任一文本区域与单元格之间的对应关系基于如下步骤确定:
16、基于所述任一文本区域的角点坐标,以及所述各单元格的角点坐标,确定所述任一文本区域与所述各单元格之间重叠区域的区域面积;
17、从各重叠区域中,筛选区域面积最大的重叠区域作为目标重叠区域,将所述目标重叠区域对应的单元格作为所述任一文本区域对应的单元格,得到所述任一文本区域与单元格之间的对应关系。
18、根据本发明提供的一种表格提取方法,所述确定待提取的表格图像,包括:
19、获取初始表格图像;
20、对所述初始表格图像进行印章检测,得到所述初始表格图像中的印章区域和印章颜色;
21、基于所述印章颜色,对所述初始表格图像中的印章区域进行通道过滤,得到所述表格图像。
22、根据本发明提供的一种表格提取方法,所述基于所述印章颜色,对所述初始表格图像中的印章区域进行通道过滤,得到所述表格图像,包括:
23、基于所述印章颜色,对所述初始表格图像中的印章区域进行通道过滤,得到目标表格图像;
24、对所述目标表格图像进行表格检测,得到所述目标表格图像中表格区域的原始角点坐标;
25、基于所述原始角点坐标,确定目标角点坐标,并基于所述目标角点坐标,对所述目标表格图像中的表格区域进行透视变换;
26、对透视变换所得的表格区域进行方向识别,并基于识别结果对所述透视变换所得的表格区域进行角度矫正,得到所述表格图像。
27、根据本发明提供的一种表格提取方法,所述确定所述表格图像对应的表格,之后还包括:
28、对所述表格图像和所述表格进行同屏显示;
29、在接收到对显示的所述表格中任一单元格的校对操作的情况下,基于所述各单元格的角点坐标,从所述表格中所述任一单元格跳转至所述表格图像中所述任一单元格对应的单元格。
30、本发明还提供一种表格提取系统,包括:
31、图像确定单元,用于确定待提取的表格图像;
32、文本检测单元,用于对所述表格图像进行文本检测,得到所述表格图像中的文本区域,以及各文本区域的角点坐标;
33、腐蚀膨胀单元,用于基于所述各文本区域的角点坐标,生成所述表格图像的掩码图,对所述掩码图进行腐蚀膨胀,得到所述表格图像中单元格的角点坐标;
34、表格提取单元,用于基于所述各文本区域的角点坐标、各单元格的角点坐标,以及所述各文本区域的文本内容,确定所述表格图像对应的表格。
35、本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述的表格提取方法。
36、本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述的表格提取方法。
37、本发明提供的表格提取方法、系统、电子设备和存储介质,通过表格图像中文本区域的角点坐标生成掩码图,对掩码图进行腐蚀膨胀,得到各单元格的角点坐标,打破了表格类型对于表格提取的限制,实现了各类表格的单元格提取,在此基础上结合各文本区域的角点坐标,对各文本区域的文本内容进行回填,得到表格图像对应的表格,克服了传统方案中表格提取方法兼容性差,无法适应于形式多变的表格,提取效果不佳的缺陷,实现了各种类型的表格提取,提升了提取准确性和提取效率,并且易于实现和部署、具备极强的实用性和较好的兼容性。
技术特征:1.一种表格提取方法,其特征在于,包括:
2.根据权利要求1所述的表格提取方法,其特征在于,所述基于所述各文本区域的角点坐标,生成所述表格图像的掩码图,对所述掩码图进行腐蚀膨胀,得到所述表格图像中单元格的角点坐标,包括:
3.根据权利要求1所述的表格提取方法,其特征在于,所述基于所述各文本区域的角点坐标、各单元格的角点坐标,以及所述各文本区域的文本内容,确定所述表格图像对应的表格,包括:
4.根据权利要求3所述的表格提取方法,其特征在于,任一文本区域与单元格之间的对应关系基于如下步骤确定:
5.根据权利要求1至4中任一项所述的表格提取方法,其特征在于,所述确定待提取的表格图像,包括:
6.根据权利要求5所述的表格提取方法,其特征在于,所述基于所述印章颜色,对所述初始表格图像中的印章区域进行通道过滤,得到所述表格图像,包括:
7.根据权利要求1至4中任一项所述的表格提取方法,其特征在于,所述确定所述表格图像对应的表格,之后还包括:
8.一种表格提取系统,其特征在于,包括:
9.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7任一项所述的表格提取方法。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的表格提取方法。
技术总结本发明涉及图像处理技术领域,提供了一种表格提取方法、系统、电子设备和存储介质,其中方法包括:确定待提取的表格图像;对表格图像进行文本检测,得到表格图像中的文本区域,以及各文本区域的角点坐标;基于各文本区域的角点坐标,生成表格图像的掩码图,对掩码图进行腐蚀膨胀,得到表格图像中单元格的角点坐标;基于各文本区域的角点坐标、各单元格的角点坐标,以及各文本区域的文本内容,确定表格图像对应的表格,克服了传统方案中表格提取方法兼容性差,无法适应于形式多变的表格,提取效果不佳的缺陷,实现了各种类型的表格提取,提升了提取准确性和提取效率,并且易于实现和部署、具备极强的实用性和较好的兼容性。技术研发人员:赵泽然,陈文哲,赵小诣,曾冠华,蒋雁秋,徐婷婷受保护的技术使用者:中银金融科技有限公司技术研发日:技术公布日:2024/9/9本文地址:https://www.jishuxx.com/zhuanli/20240911/290146.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。