数字化档案表格转换方法及系统与流程

2022-12-10 09:48:07 来源：中国专利 TAG：

1.本发明属于档案数字化
技术领域：
：，特别涉及一种数字化档案表格转换方法及系统。
背景技术：
：：2.档案数字化过程中，如何精确地提取出扫描后档案文件的非结构化数据，是要解决的关键问题。而且，档案中存在非常复杂的版面样式，尤其是较多的表格类结构，存储着有位置关联的关键信息。为了更好地可编辑化电子档案图像中表格的文本内容及其之间的对应关系，需要精确地解析出电子档案图像中的表格结构，并识别出表格中的文本内容。3.当前录入档案中数据的主要手段是通过人工查找并识别出关键信息，这种方法不仅费时费力，还会出现由于主观因素造成的错查漏查等情况。现有的版面分析技术采用了传统的投影算法，但无法精确区分不同类型的版面结构，而主流的文本识别技术会丢失文本的结构信息，无法应用于表格类的结构，难以实现表格可编辑化操作。这些版面分析技术和表格识别技术在档案领域中也是十分棘手的问题。技术实现要素：4.为此，本发明提供一种数字化档案表格转换方法及系统，实现档案管理中版面分析及表格的识别，便于在档案数字化管理中的应用。5.按照本发明所提供的设计方案，提供一种数字化档案表格转换方法，包含如下内容：6.读取扫描的待处理档案图像，并对档案图像进行预处理，所述预处理主要包含：灰度化处理、污点修复及纠偏矫正；7.利用已训练的语义分割网络模型来识别出表格类版面的档案图像；8.针对表格类版面的档案图像，提取表格结构及文本信息，并依据表格结构来聚合单元格文本，生成可编辑表格数据。9.作为本发明中数字化档案表格转换方法，进一步地，对档案图像进行预处理中，首先对读取的档案图像进行灰度化处理；接着，通过二值化阈值来得到待修复污点区域，对待修复污点区域进行膨胀处理后，利用快速行进修复方法对污点进行修复；然后，通过边缘检测定位档案图像边缘信息，通过霍夫变换检测档案图像中直线，利用直线倾斜角度来对档案图片倾斜角度进行纠偏矫正。10.作为本发明中数字化档案表格转换方法，进一步地，污点修复过程包含如下内容：首先，选取污点修复区域边缘上的像素点c，以该像素点c为中心向周围选取邻域cε，并根据给定的b点像素及其梯度值来计算像素点c在内部区域b点方向的一阶导数；接着，根据邻域差别、距离参数、水平集参数及权重函数参数来更新新的c点像素值；然后，逐步收缩待修复区域边界并更新区域边界上的像素值，直至完成整个待修复区域的污点修复。11.作为本发明中数字化档案表格转换方法，进一步地，纠偏矫正过程包含如下内容：首先，利用canny边缘检测算法来定位出档案图像的边缘信息；接着，通过霍夫变换将档案图像所在空间的直线转换成霍夫空间上的点，通过寻找在霍夫空间中参数最大重叠点对应的角度来获取档案图像的倾斜角度；然后，依据该倾斜角度通过对档案图像进行旋转来实现档案图像的纠偏矫正。12.作为本发明数字化档案表格转换方法，进一步地，所述语义分割网络模型采用pp-yolov2_r50vd网络结构，在该网络结构中，利用卷积层和特征金字塔对输入的数据进行特征提取和融合处理，并利用全连接层进行特征分类。13.作为本发明数字化档案表格转换方法，进一步地，语义分割网络模型在训练过程中，首先，制作模型训练的样本数据集，在制作过程中通过收集并扫描各版面类型的纸质档案，并在扫描的档案图像上标注对应类别的映射标签，其中，样本数据集中至少包含与标题类、表格类和图片类标签相对应的档案图片类别；然后，利用publaynet数据集对语义分割网络模型进行预训练，并利用制作的样本数据集对预训练后的语义分割网络模型参数进行微调。14.作为本发明数字化档案表格转换方法，进一步地，针对表格类版面的档案图像，提取表格结构的过程包含如下内容：针对表格类版面的档案图像，首先裁剪出仅包含表格内容的图片；然后，将裁剪得到仅包含表格内容的图片输入至已训练的表格识别网络，利用该表格识别网络来提取出图片中的表格结构及表格中单元格坐标。15.作为本发明数字化档案表格转换方法，进一步地，所述表格识别网络包含：用于将输入图像分块编码成特征向量的编码器，及用于将特征向量解码成表格标签的解码器，且解码器基于attention和门控循环单元gru实现，其中，表格识别网络目标函数表示为：其中，表示输出向量时间片t的预测值，wt表示编码器特征向量，st表示解码器中单向门控循环单元gru第t个时间片的输入特征。16.作为本发明数字化档案表格转换方法，进一步地，针对表格类版面的档案图像，提取表格文本信息的过程包含如下内容：首先，利用文本检测算法对表格类版面的档案图像进行单行文本检测，并获取文本检测坐标和文本数据；接着，依据文本检测坐标和表格结构中单元格坐标之间的交并比和顶点距离来进行单行到多行的文字合并，将属于同一个单元格的文本拼接；然后，将合并后的文本进行排序，结合表格整体结构和表格内对应单元格识别结果来构造出预设编写规则的字符串，并生成可编辑形式的表格数据。17.进一步地，本发明还提供一种数字化档案表格转换系统，包含：图像数据读取模块、表格版面检测模块和表格识别模块，其中，18.图像数据读取模块，用于读取扫描的待处理档案图像，并对档案图像进行预处理，所述预处理至少包含：灰度化处理、污点修复及纠偏矫正；19.表格版面检测模块，用于利用已训练的语义分割网络模型来识别出表格类版面的档案图像；20.表格识别模块，用于针对表格类版面的档案图像，提取表格结构及文本信息，并依据表格结构来聚合单元格文本，生成可编辑表格数据。21.本发明的有益效果：22.本发明将版面分析与表格识别算法串联，搭建基于深度学习的网络模型，可以有效识别档案中的表格，方便工作人员便捷操作表格类信息；因档案老化、存在涂抹点、扫描偏斜等因素，都会影响到后续表格识别的准确率，故本案方案中将扫描文件首先进行预处理操作，更易使网络训练达到收敛效果。基于图像分割的思想，代替使用投影法进行版面分析的传统算法，在鲁棒性方面更稳定；基于深度学习提取表格结构信息，并根据html规则进行表格重建，实现智能化表格识别。并进一步通过制作少量档案的版面和表格数据集对预训练的网络模型进行微调，可以加快网络的训练过程，更好地应用于档案领域中的表格识别。附图说明：23.图1为实施例中档案表格转换系统结构示意图；24.图2为实施例中预处理模块算法流程示意图；25.图3为实施例中json格式训练标签示意；26.图4为实施例中版面分析网络框架示意；27.图5为实施例中版面分析模块示意；28.图6为实施例中表格结构词表示意；29.图7为实施例中tsr-html表格结构提取网络框架示意；30.图8为实施例中表格识别算法流程示意；31.图9为实施例中表格识别模块示意。具体实施方式：32.为使本发明的目的、技术方案和优点更加清楚、明白，下面结合附图和技术方案对本发明作进一步详细的说明。33.针对档案数字化过程中无法精确区分不同类型的版面结构、无法应用于表格类的结构、难以实现表格可编辑化操作的问题，本发明实施例，提供一种数字化档案表格转换方法，首先，读取扫描的待处理档案图像，并对档案图像进行预处理，所述预处理主要包含：灰度化处理、污点修复及纠偏矫正；接着，利用已训练的语义分割网络模型来识别出表格类版面的档案图像；然后，针对表格类版面的档案图像，提取表格结构及文本信息，并依据表格结构来聚合单元格文本，生成可编辑表格数据。34.参见图1所述，本案实施例中对档案电子化加工处理算法可概括如下几个模块：预处理模块：数字化扫描s10、预处理s20；版面分析模块：版面分析s30；表格识别模块：表格识别s40、可编辑化s50。通过上述的预处理模块、版面检测模块、表格识别模块来实现版面分析及表格识别。针对扫描文件倾斜和扫描文件本身存在污点的问题，可采用霍夫变换技术进行矫正纠偏和快速行进算法实现去污修复。针对档案中不同类型的版面样式难以分类和检测问题，利用基于深度学习的版面分析来区分和定位标题、表格和图片，实现版面分类和检测定位的功能。针对档案图像中的表格结构提取缺失、表格中单元格的多行文字识别等问题，利用基于深度学习的表格识别算法，将图像中的表格转化为excel存储形式的可编辑文档，方便后期转化成ofd格式的业务需求，便于在数字化档案管理中的应用。35.作为优选实施例，进一步地，对档案图像进行预处理中，首先对读取的档案图像进行灰度化处理；接着，通过二值化阈值来得到待修复污点区域，对待修复污点区域进行膨胀处理后，利用快速行进修复方法对污点进行修复；然后，通过边缘检测定位档案图像边缘信息，通过霍夫变换检测档案图像中直线，利用直线倾斜角度来对档案图片倾斜角度进行纠偏矫正。36.将扫描后的电子文档灰度化。通过阈值判断生成掩码提取修复区域，对修复区域进行膨胀处理，最后采用快速行进的修复算法，对污点进行修复。37.进一步地，本案实施例中污点修复过程包含如下内容：首先，选取污点修复区域边缘上的像素点c，以该像素点c为中心向周围选取邻域，并根据给定的b点像素及其梯度值来计算像素点c在内部区域b点方向的一阶导数；接着，根据邻域差别、距离参数、水平集参数及权重函数参数来更新新的c点像素值；然后，逐步收缩待修复区域边界并更新区域边界上的像素值，直至完成整个待修复区域的污点修复。38.将扫描后的电子档案灰度化，通过二值化阈值得到掩模图像，即待修复污点区域，对其进行膨胀处理以增加污点周围区域的面积。使用基于插值的快速行进(fmm)算法实现对污点的修复，通过计算新的像素值来代替待修复污点区域中的原像素值。基于插值的快速行进(fmm)算法可设计为如下内容：39.(1)任选污点修复区域边缘上的像素点c，以c点为中心点向周围选取一个小邻域cε，利用公式(1)，根据给定的b点像素及其在该点的梯度值，计算出边界c点在内部区域b点方向的一阶导数ib(c)。[0040][0041](2)根据邻域作用的差别性，由距离参数与水平集参数引入权重函数参数w(c,b)，利用公式(2)计算出新的c点像素值i(c)。[0042][0043](3)通过上述步骤1和步骤2，先计算待修复区域边缘上的像素点，逐步收缩待修复区域的边界，直至完成整个区域的修复。[0044]通过canny边缘检测来定位图像的边缘信息，再通过霍夫变换检测图像中的直线，最后计算直线的倾斜角度对图片进行旋转，进而实现对电子档案的纠偏矫正。此时，根据《纸质档案数字化规范》，得到符合去污和校正的电子档案。可使用上述步骤得到的电子档案，制作少量档案中不同版面和表格的数据集，用于对预训练的语义分割网络模型微调。[0045]进一步地，本案实施例中，纠偏矫正过程包含如下内容：首先，利用canny边缘检测算法来定位出档案图像的边缘信息；接着，通过霍夫变换将档案图像所在空间的直线转换成霍夫空间上的点，通过寻找在霍夫空间中参数最大重叠点对应的角度来获取档案图像的倾斜角度；然后，依据该倾斜角度通过对档案图像进行旋转来实现档案图像的纠偏矫正。[0046]作为优选实施例，进一步地，所述语义分割网络模型采用pp-yolov2_r50vd网络结构，在该网络结构中，利用卷积层和特征金字塔对输入的数据进行特征提取和融合处理，并利用全连接层进行特征分类。进一步地，语义分割网络模型在训练过程中，首先，制作模型训练的样本数据集，在制作过程中通过收集并扫描各版面类型的纸质档案，并在扫描的档案图像上标注对应类别的映射标签，其中，样本数据集中至少包含与标题类、表格类和图片类标签相对应的档案图片类别；然后，利用publaynet数据集对语义分割网络模型进行预训练，并利用制作的样本数据集对预训练后的语义分割网络模型参数进行微调。[0047]将预处理后的图像进行版面分析，主要流程示意图如图5所示，对档案扫描文件按块划分，找出感兴趣的版面结构，然后根据输出网络的标签和对应坐标提取出表格结构部分。图5中得到标题、表格和图片三种不同类别的版面。将每张档案图像进行语义分割，不同区域标注对应的方框，并用json文件保存方框的坐标和对应类别的映射表当作训练标签，这些json数据采用字典嵌套的形式存放。如图3所示，transcription字段的值代表版面类别，其中0代表标题类，1代表表格类，2代表图片类；points字段是一个二维列表，以顺时针方向存储对应类别中矩形区域的四点坐标。采用基于publaynet数据集的预训练语义分割模型用于版面分析，网络模型架构如图4所示。进一步的，输入自定义的数据集，在预训练模型的基础上进行微调，最终输出不同结构的版面类别和对应的坐标。其中，微调步骤如下：[0048](1)采用预先训练的语义分割模型pp-yolov2_r50vd，更改对应yml配置文件。[0049](2)删除预训练分割模型中的全连接层，保留剩余层的权重。[0050](3)构建新的全连接层，与截断后的模型进行拼接，并对新的全连接层的权重进行初始化。[0051](4)给定较小的学习率后，通过网络训练修改的部分网络参数，得到适合档案版面分析的网络模型参数。[0052]在训练好的模型中，输入测试数据集，输出不同结构的版面类别和对应的坐标。[0053]作为优选实施例，进一步地，针对表格类版面的档案图像，提取表格结构的过程包含如下内容：针对表格类版面的档案图像，首先裁剪出仅包含表格内容的图片；然后，将裁剪得到的仅包含表格内容图片输入至已训练的表格识别网络，利用该表格识别网络来提取出图片中的表格结构及表格中单元格坐标。[0054]扫描档案图像输入语义分割的网络模型后，检测出表格类的版面及其对应位置，裁剪出只含表格内容的图片，输入表格识别的网络模型。tsr-html网络可用来提取表格结构，网络框架如图7所示，它是基于attention的序列模型，包括cnn构成的编码(encoder)模块和基于attention和gru的解码(decoder)模块。编码器用于将输入的图像分块编码成特征向量h，解码器用于将特征向量h解码成html格式的表格标签。[0055]解码器中加入attention可增强表达学习能力，设定gt是attention的一个参数，表示特征h在各时间片的特征加权和，如公式(4)所示。其中，各时间片的特征加权αti由式(3)得出：[0056][0057]其中，si-1表示图像分块编码中第i-1个的输入特征，ht表示t时刻的特征向量。[0058][0059]单向的门控循环单元(gru)结构，在第t个时间片的输入特征st表示为：[0060]st＝gru(lt-1,gt,st-1)#(5)[0061]其中t＝[1,2,…,t]，t是输出标签的长度。在训练时，lt-1是第t个时间片的标签，在测试时,则是第t个时间片的预测结果。gt可由式(4)计算得出，st-1是第t-1个时间片的输入特征。[0062]输出向量有多个节点，且都是html格式的标签，每个时间片预测一个值，预测值由式(5)中的st与编码器中的特征向量wt经过softmax激活函数得到，运算如式(6)所示：[0063][0064]预测值是个概率分布值，对应表格结构词表中的28个结构字符。在解码器中，每个gru单元都有28个输出单元，这些输出单元代表着表格结构字符。如图6所示，在表格结构词表table_structure_dict.txt中第279行至第306行共28个为表格结构字符。该规则限制可解析的表格结构跨行跨列的最大值为10，且没有跨1行或跨1列的字符。[0065]在训练好的tsr-html网络模型中，输入提取的档案表格图片，输出html语法规则的表格结构和表格中单元格的坐标。[0066]进一步地，本案实施例中，针对表格类版面的档案图像，提取表格文本信息的过程包含如下内容：首先，利用文本检测算法对表格类版面的档案图像进行单行文本检测，并获取文本检测坐标和文字数据；接着，依据文本检测坐标和表格结构中单元格坐标之间的交并比和顶点距离来进行单行到多行的文字合并，将属于同一个单元格的文本拼接；然后，将合并后的文本进行排序，结合表格整体结构和表格内对应单元格识别结果来构造出预设编写规则的字符串，并生成可编辑形式的表格数据。[0067]将提取的表格结构信息结合到表格识别算法中，整个算法的流程如图8所示，分为上下两部分，其中上半部分的支路是ocr过程，下半部分的支路是提取表格信息的过程。其中，ocr技术是表格识别的必要步骤，也是识别图像中文本内容的重要技术之一。表格识别的算法步骤如下：[0068](1)通过文本检测算法对表格图像进行单行文字检测，并获得检测的文字坐标。[0069](2)通过文本识别得到文字结果。[0070](3)通过步骤1中的预测表格结构，使用tsr-html网络对表格结构进行分析，获得表格中每个单元格的四点坐标与表格结构信息。[0071](4)计算(1)中文本检测坐标和(3)中单元格坐标之间的交并比和顶点距离进行单行到多行的文字合并，将属于同一单元格的文本拼接在一起。[0072](5)将合并后的文本进行排序，结合表格整体结构信息(3)和表格内对应单元格的识别结果(4)，构造出html编写规则的字符串，实现的效果如图9所示，最终通过excel导出模块获得可编辑形式的表格数据。[0073]进一步地，基于上述的方法，本发明实施例还提供一种数字化档案表格转换系统，包含：图像数据读取模块、表格版面检测模块和表格识别模块，其中，[0074]图像数据读取模块，用于读取扫描的待处理档案图像，并对档案图像进行预处理，所述预处理至少包含：灰度化处理、污点修复及纠偏矫正；[0075]表格版面检测模块，用于利用已训练的语义分割网络模型来识别出表格类版面的档案图像；[0076]表格识别模块，用于针对表格类版面的档案图像，提取表格结构及文本信息，并依据表格结构来聚合单元格文本，生成可编辑表格数据。[0077]除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对步骤、数字表达式和数值并不限制本发明的范围。[0078]本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。[0079]结合本文中所公开的实施例描述的各实例的单元及方法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已按照功能一般性地描述了各示例的组成及步骤。这些功能是以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。本领域普通技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不认为超出本发明的范围。[0080]本领域普通技术人员可以理解上述方法中的全部或部分步骤可通过程序来指令相关硬件完成，所述程序可以存储于计算机可读存储介质中，如：只读存储器、磁盘或光盘等。可选地，上述实施例的全部或部分步骤也可以使用一个或多个集成电路来实现，相应地，上述实施例中的各模块/单元可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。本发明不限制于任何特定形式的硬件和软件的结合。[0081]最后应说明的是：以上所述实施例，仅为本发明的具体实施方式，用以说明本发明的技术方案，而非对其限制，本发明的保护范围并不局限于此，尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本
技术领域：
：的技术人员在本发明揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。当前第1页12当前第1页12

再多了解一些

1/2 1 2 下一页尾页

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

上一篇：返回列表
下一篇：RPA流程生成方法、装置、服务器及介质与流程

数字化档案表格转换方法及系统与流程

相关文献

最热文献