一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

数字化档案表格转换方法及系统与流程

2022-12-10 09:48:07 来源:中国专利 TAG:

技术特征:
1.一种数字化档案表格转换方法,其特征在于,包含如下内容:读取扫描的待处理档案图像,并对档案图像进行预处理,所述预处理至少包含:灰度化处理、污点修复及纠偏矫正;利用已训练的语义分割网络模型来识别出表格类版面的档案图像;针对表格类版面的档案图像,提取表格结构及文本信息,并依据表格结构来聚合单元格文本,生成可编辑表格数据。2.根据权利要求1所述的数字化档案表格转换方法,其特征在于,对档案图像进行预处理中,首先对读取的档案图像进行灰度化处理;接着,通过二值化阈值来得到待修复污点区域,对待修复污点区域进行膨胀处理后,利用快速行进修复方法对污点进行修复;然后,通过边缘检测定位档案图像边缘信息,通过霍夫变换检测档案图像中直线,利用直线倾斜角度来对档案图片倾斜角度进行纠偏矫正。3.根据权利要求1或2所述的数字化档案表格转换方法,其特征在于,污点修复过程包含如下内容:首先,选取污点修复区域边缘上的像素点c,以该像素点c为中心向周围选取邻域,并根据给定的b点像素及其梯度值来计算像素点c在内部区域b点方向的一阶导数;接着,根据邻域差别、距离参数、水平集参数及权重函数参数来更新新的c点像素值;然后,逐步收缩待修复区域边界并更新区域边界上的像素值,直至完成整个待修复区域的污点修复。4.根据权利要求1或2所述的数字化档案表格转换方法,其特征在于,纠偏矫正过程包含如下内容:首先,利用canny边缘检测算法来定位出档案图像的边缘信息;接着,通过霍夫变换将档案图像所在空间的直线转换成霍夫空间上的点,通过寻找在霍夫空间中参数最大重叠点对应的角度来获取档案图像的倾斜角度;然后,依据该倾斜角度通过对档案图像进行旋转来实现档案图像的纠偏矫正。5.根据权利要求1所述的数字化档案表格转换方法,其特征在于,所述语义分割网络模型采用pp-yolov2_r50vd网络结构,在该网络结构中,利用卷积层和特征金字塔对输入的数据进行特征提取和融合处理,并利用全连接层进行特征分类。6.根据权利要求1或4所述的数字化档案表格转换方法,其特征在于,语义分割网络模型在训练过程中,首先,制作模型训练的样本数据集,在制作过程中通过收集并扫描各版面类型的纸质档案,并在扫描的档案图像上标注对应类别的映射标签,其中,样本数据集中至少包含与标题类、表格类和图片类标签相对应的档案图片类别;然后,利用publaynet数据集对语义分割网络模型进行预训练,并利用制作的样本数据集对预训练后的语义分割网络模型参数进行微调。7.根据权利要求1所述的数字化档案表格转换方法,其特征在于,针对表格类版面的档案图像,提取表格结构的过程包含如下内容:针对表格类版面的档案图像,首先裁剪出仅包含表格内容的图片;然后,将裁剪得到的仅包含表格内容图片输入至已训练的表格识别网络,利用该表格识别网络来提取出图片中的表格结构及表格中单元格坐标。8.根据权利要求7所述的数字化档案表格转换方法,其特征在于,所述表格识别网络包含:用于将输入图像分块编码成特征向量的编码器,及用于将特征向量解码成表格标签的解码器,且解码器基于attention和门控循环单元gru实现,其中,表格识别网络目标函数表示为:其中,表示输出向量时间片t的预测值,w
t
表示编码器特征向
量,s
t
表示解码器中门控循环单元gru第t个时间片的输入特征。9.根据权利要求1所述的数字化档案表格转换方法,其特征在于,针对表格类版面的档案图像,提取表格文本信息的过程包含如下内容:首先,利用文本检测算法对表格类版面的档案图像进行单行文本检测,并获取文本检测坐标和识别的文本数据;接着,依据文本检测坐标和表格结构中单元格坐标之间的交并比和顶点距离来进行单行到多行的文字合并,将属于同一个单元格的文本拼接;然后,将合并后的文本进行排序,结合表格整体结构和表格内对应单元格识别结果来构造出预设编写规则的字符串,并生成可编辑形式的表格数据。10.一种数字化档案表格转换系统,其特征在于,包含:图像数据读取模块、表格版面检测模块和表格版面转换模块,其中,图像数据读取模块,用于读取扫描的待处理档案图像,并对档案图像进行预处理,所述预处理至少包含:灰度化处理、污点修复及纠偏矫正;表格版面检测模块,用于利用已训练的语义分割网络模型来检测出表格类版面的档案图像;表格识别模块,用于针对表格类版面的档案图像,提取表格结构及文本信息,并依据表格整体结构来聚合单元格文本,生成可编辑表格数据。

技术总结
本发明属于档案数字化技术领域,特别涉及一种数字化档案表格转换方法及系统,首先,读取扫描的待处理档案图像,并对档案图像进行预处理,所述预处理主要包含:灰度化处理、污点修复及纠偏矫正;接着,利用已训练的语义分割网络模型识别出表格类版面的档案图像;然后,针对表格类版面的档案图像,提取表格结构及文本信息,并依据表格结构来聚合单元格文本,生成可编辑表格数据。本发明能够实现档案管理中版面分析及表格的识别,便于在档案数字化管理中的应用。的应用。的应用。


技术研发人员:周兵 白世清 王俊淇 王培森 李凯江 李世华
受保护的技术使用者:河南郑大道可信息技术有限公司
技术研发日:2022.09.19
技术公布日:2022/12/9
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献