一种去除图像型文本行检测区域重叠的方法、系统及存储介质与流程

2022-02-20 13:10:57 来源：中国专利 TAG：

1.本发明涉及文档处理领域，尤其涉及一种去除图像型文本行检测区域重叠的方法、系统及存储介质。

背景技术：

2.随着智能手机和互联网的发展,图像型文本的获取和分享更加简单快捷。场景文本中的文字蕴含丰富精确的信息，文本中文字信息的检测对于文本内容的理解具有重要的意义。目前，对获取的文本的处理方式大部分为：将文字区域与背景进行分割,利用后续的文字识别、翻译、语音播报等方法进行处理，然而，对于文本检测存在背景复杂、文字表现形式多样、文本内容重叠、技术难度高和文本质量不佳等挑战，传统的处理方式，已经无法满足解决其问题。

技术实现要素：

3.针对现有技术存在的问题，本发明提供了一种去除图像型文本行检测区域重叠的方法、系统及存储介质。
4.为了解决上述技术问题，本发明提供以下技术方案：
5.一种去除图像型文本行检测区域重叠的方法，包括以下步骤：
6.s1：上传图像型文本；
7.s2：使用基于深度学习和计算机视觉技术的文本行检测算法对图像型文本行区域进行检测和定位，每个文本行区域以长矩形块表示，计算出文本行区域的4个顶点坐标信息，分别标记为左上、右上、左下、右下；
8.s3：根据文本行区域的左上、左下两个坐标，进行行区域块坐标信息排序，其中属于同一行的长矩形块排在一起并标记为属于同一行；
9.s4：对同一行的所有文本行区域进行分析，判断是否存在重叠区域；
10.s5：对存在重叠区域的文本行区域进行分析并计算重叠区域的位置和大小，用重叠区域的前一文本行区域的右上、右下坐标信息，重新计算、更新重叠后一文本行区域的左上、左下两个顶点坐标信息；
11.s6：对相邻高、低位行的文本行区域进行分析，通过计算出高位行的左下、右下的顶点坐标信息与计算低位行的左上、右上的顶点坐标信息，判断高位行与低位行是否存在重叠区域；
12.s7：对存在重叠区域的文本行区域进行分析并计算重叠区域的位置和大小，用高位行的左下、右下坐标信息，重新计算、更新重叠的低位行的左上、右上的顶点坐标信息；
13.s8：分析、更新所有的重叠区域文本行区域的坐标信息，输出去除重叠区域的所有文本行区域块的坐标信息。
14.进一步的，所述步骤s1包括：上传的图像型文本时执行文件加密程序。
15.进一步的，所述步骤s2包括：实现文本区域检测与区域定位并以长矩形形式标记，分析、计算出矩形的4个顶点坐标信息，坐标位置以像素为单位。
16.进一步的，所述步骤s3包括：通过计算文本行区域的左上、左下的行高值进行行区域排序，属于同行的文本行区域列为一行。
17.进一步的，所述步骤s4、s5包括：
18.首先，通过分别计算左、右相邻文本行区域的长矩形块的4个顶点坐标信息，计算出宽度像素与高度像素，逆时针得到左文本行区域的4个顶点坐标信息与逆时针得到右文本行区域的四个顶点坐标信息与逆时针得到右文本行区域的四个顶点坐标信息
19.其次，将左文本行区域的左上顶点坐标信息右上顶点坐标信息及右文本行区域的左上顶点坐标信息右上顶点坐标信息的宽度像素带入以下公式：
[0020][0021]
最后，计算结果为var≥0.01时，判断出同一行的文本行区域存在重叠区域，根据左文本行区域的右上顶点坐标信息右下顶点坐标信息的宽度像素，重新计算、更新右文本行区域的左上顶点坐标信息左下顶点坐标信息两个顶点坐标的宽度像素；反之，则同一行的文本行区域不存在重叠区域。
[0022]
进一步的，所述步骤s6、s7包括：
[0023]
首先，通过计算高位行与低位行的4个顶点坐标信息，计算出宽度像素与高度像素，逆时针得到高位行的4个顶点坐标信息与逆时针得到低位行的四个顶点坐标信息
[0024]
其次，将高位行的左下顶点坐标信息右下顶点坐标信息及低位行的左上顶点坐标信息右上顶点坐标信息的高度像素带入以下公式：
[0025][0026]
最后，计算结果为var≥0.01时，判断出高位行与低位行存在重叠区域，根据高位行的左下顶点坐标信息右下顶点坐标信息的高度像素，重新计算、更新低位行文本行区域的左上顶点坐标信息右上顶点坐标信息两个顶点坐标的高度像素；反之，则高位行、低位行不存在重叠区域。
[0027]
进一步的，所述图像型文本为图片或文字扫描件pdf。
[0028]
一种去除图像型文本行检测区域重叠系统，所述去除图像型文本行检测区域重叠系统包括：
[0029]
存储器，用于存储可执行指令；
[0030]
处理器，用于运行所述存储器存储的可执行指令时，实现上述任一项所述的去除图像型文本行检测区域重叠方法。
[0031]
一种计算机可读存储介质，存储有可执行指令，所述可执行指令被处理器执行时实现上述任一项所述的去除图像型文本行检测区域重叠方法。
[0032]
本发明提供的一种去除图像型文本行检测区域重叠的方法、系统及存储介质，通过基于深度学习和计算机视觉技术的文本行检测算法对图像型文本行区域进行检测和定位，获取行区域的坐标信息，进而通过计算、分析得出重叠区域，重新计算、更新重叠区域的坐标信息，实现文本区域文字识别时，不会出现文字内容存在重复。
附图说明
[0033]
图1为本发明实施例的流程图。
[0034]
图2为本发明实施例的上传的文本图。
[0035]
图3为本发明实施例的行区域重叠示意图。
[0036]
图4为本发明实施例的高位行与低位行的区域重叠示意图。
具体实施方式
[0037]
为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
[0038]
结合图1-2所示，一种去除图像型文本行检测区域重叠的方法，包括以下步骤：
[0039]
s1：上传图像型文本；
[0040]
上传图像型文本时执行文件加密程序。
[0041]
s2：使用基于深度学习和计算机视觉技术的文本行检测算法对图像型文本行区域进行检测和定位，每个文本行区域以长矩形块表示，计算出文本行区域的4个顶点坐标信息，分别标记为左上、右上、左下、右下；
[0042]
每个长矩形块指代一个文本行区域块，文本每行包括一个或多个行区域块；
[0043]
实现文本区域检测与区域定位并以长矩形块形式标记，分析、计算出矩形块的4个顶点坐标信息，坐标位置以像素为单位，height表示为高度像素，width表示为宽度像素；
[0044]
s3：根据文本行区域的左上、左下两个坐标，进行行区域块坐标信息排序，其中属于同一行的长矩形块排在一起并标记为属于同一行；
[0045]
通过计算文本行区域的左上、左下的行高值进行行区域排序，属于同行的文本行区域列为一行。
[0046]
s4：对同一行的所有文本行区域进行分析，判断是否存在重叠区域；
[0047]
s5：对存在重叠区域的文本行区域进行分析并计算重叠区域的位置和大小，用重叠区域的前一文本行区域的右上、右下坐标信息，重新计算、更新重叠后一文本行区域的左上、左下两个顶点坐标信息；
[0048]
通过计算同一行上的长矩形块的4个顶点坐标信息，判断左、右相邻的长矩形块是否存在重叠区域，若存在重叠区域，即通过计算出左右重叠区域的位置和大小，重新计算并更新右边的长矩形块的左上、左下两个顶点坐标信息。
[0049]
例如如图3所示，同行上有两块相邻且产生重叠的长矩形块，同一行上的左长矩形
块的四个顶点坐标信息标注为右长矩形块的四个顶点坐标信息标注为
[0050]
首先，通过分别计算左、右相邻文本行区域的长矩形块的4个顶点坐标信息，计算出宽度像素与高度像素，逆时针得到左文本行区域的4个顶点坐标信息与逆时针得到右文本行区域的四个顶点坐标信息与逆时针得到右文本行区域的四个顶点坐标信息
[0051]
其次，将左文本行区域的左上顶点坐标信息右上顶点坐标信息及右文本行区域的左上顶点坐标信息右上顶点坐标信息的宽度像素带入以下公式(i)：
[0052][0053]
最后，计算结果为var≥0.01时，判断出同一行的文本行区域存在重叠区域，根据左文本行区域的右上顶点坐标信息右下顶点坐标信息的宽度像素，重新计算、更新右文本行区域的左上顶点坐标信息左下顶点坐标信息两个顶点坐标的宽度像素；
[0054]
反之，带入公式中计算出的结果为var＜0.01的，则同一行的文本行区域不存在重叠区域。
[0055]
s6：对相邻高、低位行的文本行区域进行分析，通过计算出高位行的左下、右下的顶点坐标信息与计算低位行的左上、右上的顶点坐标信息，判断高位行与低位行是否存在重叠区域；
[0056]
s7：对存在重叠区域的文本行区域进行分析并计算重叠区域的位置和大小，用高位行的左下、右下坐标信息，重新计算、更新重叠的低位行的左上、右上的顶点坐标信息；
[0057]
通过计算相邻高、低位行的长矩形块的4个顶点坐标信息，判断高、低位行的长矩形块是否存在重叠区域，若存在重叠区域，即通过计算出上下重叠区域的位置和大小，重新计算并更新低位行的长矩形块的左上、右上的顶点坐标信息。
[0058]
例如如图4所示，高位行、低位行有产生重叠的长矩形块，高位行的4个顶点坐标信息标记为低位行的4个顶点坐标标记为低位行的4个顶点坐标标记为
[0059]
首先，通过计算高位行与低位行的4个顶点坐标信息，计算出宽度像素与高度像素，逆时针得到高位行的4个顶点坐标信息与逆时针得到低位行的四个顶点坐标信息
[0060]
其次，将高位行的左下顶点坐标信息右下顶点坐标信息及低位行的左上顶点坐标信息右上顶点坐标信息的高度像素带入以下公式(ii)：
[0061][0062]
最后，计算结果为var≥0.01时，判断出高位行与低位行存在重叠区域，根据高位行的左下顶点坐标信息右下顶点坐标信息的高度像素，重新计算、更新低位行文本行区域的左上顶点坐标信息右上顶点坐标信息两个顶点坐标的高度像素；
[0063]
反之，带入公式中计算出的结果为var＜0.01的，则高位行、低位行不存在重叠区域。
[0064]
s8：分析、更新所有的重叠区域文本行区域的坐标信息，输出去除重叠区域的所有文本行区域块的坐标信息。
[0065]
其中，本发明种的图像型文本指的是图片或文字扫描件pdf。
[0066]
本发明提供了一种去除图像型文本行检测区域重叠系统，所述去除图像型文本行检测区域重叠系统包括：
[0067]
存储器，用于存储可执行指令；
[0068]
处理器，用于运行所述存储器存储的可执行指令时，实现上述任一项所述的去除图像型文本行检测区域重叠方法。
[0069]
本发明提供的去除图像型文本行检测区域重叠系统，可以多用户并发使用，且使用过程中，文件上传具有保密性。
[0070]
本发明提供了一种计算机可读存储介质，存储有可执行指令，所述可执行指令被处理器执行时实现上述任一项所述的去除图像型文本行检测区域重叠方法。
[0071]
结合本发明附图1-4所示，通过在本地gpu服务器上加载去除图像型文本行检测区域重叠系统，该系统为多用户并发使用，用户上传图像型文本，使用基于深度学习和计算机视觉技术的文本行检测算法对图像型文本行区域进行检测和定位，计算、分析出文本行区域的4个顶点坐标信息，根据所有文本行区域的坐标信息，进行行区域的排序，将属于同一行的文本行区域块标记为同一行，分析所有同行的文本行区域是否存在重叠区域，首先利用上述公式(i)计算左、右相邻的文本行区域是否存在重叠区域，当计算结果为var≥0.01时，即可判断出同一行的文本行区域存在着重叠区域，分析且计算出重叠区域的位置和大小，重新计算、更新右文本行区域的左上、左下顶点坐标信息，其次，判断高位行、低位行是否存在重叠区域，利用上述公式(ii)计算高位行、低位行的文本行区域是否存在重叠区域，当计算结果为var≥0.01时，即可判断出高位行、低位行存在着重叠区域，分析、计算文本行重叠区域的位置和大小，更新低位行的左上、右上顶点坐标信息。
[0072]
通过以上式子与取值范围进行判断图像型文本是否存在重叠区域，当同行不少于3个文本行区域块存在时，检测重叠区域的算法与上述公式(i)一致，从左至右两两判断左、右相邻的文本行区域是否存在重叠区域，若存在重叠区域，则进行去除，直至完全将同行的多个文本行区域块均进行重叠区域的去除。例如，同一行存在三个文本行区域块，从左到右分别称作a、b、c文本行区域块，则判断是否存在重叠区域时，首先对a、b文本行区域块进行
判断，利用上述公式(i)进行判断，若存在重叠区域，即重新计算、更新b文本行区域块的左上、左下顶点坐标信息，若无，即跳过；其次对b、c文本行区域块进行判断，同样利用上述公式(i)进行判断，若存在重叠区域，即重新计算、更新c文本行区域块的左上、左下顶点坐标信息，若无存在重叠区域，即不用进行变动。若同一行存在三个以上的文本行区域块，检测重叠区域及去除方法与上述同一行三个文本行区域块的方法一致。
[0073]
当图像型文本每页不少于3行时，检测重叠区域的算法和上述公式(ii)一致，从上至下两两判断高位行、低位行的文本行区域是否存在重叠区域，若存在重叠区域，则进行去除，直至完全将多行的的文本行区域块均进行重叠区域的去除。例如，文本存在三行文本行区域块，从上至下分别称为a'、b'、c'文本行区域块，则判断是否存在重叠区域时，首先对a'、b'文本行区域块进行判断，利用上述公式(ii)进行判断，若存在重叠区域，即重新计算、更新b'文本行区域块的左上、右上顶点坐标信息，若无，即跳过；其次对b'、c'文本行区域块进行判断，同样利用上述公式(ii)进行判断，若存在重叠区域，即重新计算、更新c'文本行区域块的左上、右上顶点坐标信息，若无存在重叠区域，即不用进行变动。若同一页文本上存在三行以上的文本行区域块，检测重叠区域及去除重叠区域方法与上述三行文本行区域块的方法一致。
[0074]
以上所述仅为本发明的实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：应用程序的启动方法和装置、存储介质及电子装置与流程

一种去除图像型文本行检测区域重叠的方法、系统及存储介质与流程

相关文献

最热文献