一种基于融合检测的底稿图像识别系统及方法与流程
- 国知局
- 2024-10-15 10:23:14
本发明属于光学字符识别,具体的说是一种基于融合检测的底稿图像识别系统及方法。
背景技术:
1、光学字符识别一般包括图像预处理、文本检测和文本识别过程,其中文本检测方法中比较流行的是基于像素分割的方法和基于回归的方法。底稿图像包含金融场景下的各类文本图像,如银行流水、发票、凭证和各类证件照等,打印质量也各不相同,存在拍照、扫描和pdf打印等。因此,底稿图像中的文本行尺寸、形状和页面排版多变,字体也各不相同,存在小字、透字、文本粘连等问题,由于其场景的复杂性,使用现有的单一文本检测模型很难达到较好的文本检测效果,从而导致整体识别质量差。
2、基于像素分割的文本检测方法通常借鉴物体语义分割和实例分割的思想,利用全卷积神经网络对图像中的每个像素点进行文本和非文本分类,从而得到文本区域掩码图,然后通过一些像素聚合的后处理方式将属于同一文本的文本像素点聚合在一起得到最后的文本实例边界框,这类方法中比较典型的算法有psenet、pan、msr和dbnet等。基于回归的文本检测方法主要是基于以深度学习为基础的目标检测技术或者实例分割技术,它将文本视为一种通用目标然后直接检测出整个文本实例,此类方法通常是直接回归出水平矩形或者多方向的任意形状多边形以解决文本检测的问题,这类方法中比较典型的算法有text-boxes、east和yolo等。基于像素分割的方法的主要优势在于对文本边界的预测比较精准,能够适应于各种形状的文本,同时有较强的抗噪声干扰能力;同时它也存在一些缺陷,如无法检测重叠文本和对小目标不敏感等。基于回归的方法的主要优势在于能够准确检测重叠文本、对小目标的检测效果较好;同时它的缺陷在于不适用于文本行角度、形状存在多样性的场景。
3、如公开号为cn116935405a的中国专利公开了一种基于ocr和nlp提取客户文档扫描件内服务条款方法,步骤如下:1)、服务器获取用户上传的扫描件;2)、将扫描件转换为jpg格式的图片;3)、使用dbnet网络识别图片中包含文字的行;4)、将识别出包含文字的行转换为独立的图片;5)、将包含文字的独立的图片转换为标准化图片;6)、将标准化图片交给文字识别网络,识别出文字;7)、识别出的文字中的标题、段落,切换为正文;8)、识别文档中的表格,切换为正文;9)、提取出文档中的服务内容和对工程师要求,切换为正文;10)、进行关键词搜索,并规范化提取内容。该发明通过系统自动化减少技术人员和业务人员的沟通成本和时间成本,快速定位客户所要的服务内容。
4、如公开号为cn118314563a的中国专利公开了一种基于旋转框体的文本检测方法,属于文本检测领域。所述方法包括:s1、获取图片数据集,并对其进行预处理;s2、构造基于改进yolov8s-obb算法得到的文本检测模型;s3、将所述步骤s1预处理后的图片数据集输入所述步骤s2的文本检测模型中进行迭代,得到最优的文本检测模型;s4、使用所述最优的文本检测模型对所述步骤s1预处理后的图片数据集进行文本检测。该发明通过改进的yolov8s-obb算法生成可旋转的文字检测框体,解决了交通标志牌等目标因图像角度问题所导致的检测框无法全覆盖的问题,同时有效提高检测准确度。
5、上述专利的缺陷:1)无法处理重叠文本,会导致后续识别结果错误;2)对于长文本检测效果不够好,不能适用于底稿文本识别场景。
技术实现思路
1、针对现有技术的不足,本发明提出了一种基于融合检测的底稿图像识别系统及方法,主要包括旋转校正、检测模块和图像文字识别,其中检测模块使用了基于分割的文本检测方法和基于回归的文本检测方法,并将二者的检测结果融合,最后输出底稿图像中的所有文本行的位置。
2、为实现上述目的,本发明提供如下技术方案:
3、一种基于融合检测的底稿图像识别方法,包括以下具体步骤:
4、获取底稿图像,并对获取的底稿图像进行预处理;
5、对预处理后的底稿图像进行角度识别,并进行旋转校正处理;
6、对旋转校正后的底稿图像中的文本位置进行识别;
7、根本识别出的底稿图像中的文本位置,对底稿图像中文本内容进行识别。
8、具体的,所述对预处理后的底稿图像进行角度识别,包括:
9、使用预先标注角度值的底稿图像数据集来训练mobilenet-v3模型,在模型训练完成后,得到底稿朝向识别模型;
10、设定获取的底稿图像为i(x,y),将底稿图像i(x,y)输入至底稿朝向识别模型中,得到底稿图像i(x,y)的朝向角度;
11、将底稿图像i(x,y)从空间域转换到频率域,生成频谱,生成频谱的具体公式为:
12、,
13、其中,f(u,v)表示频率域中频率为(u,v)的频谱值,u表示频率域中的水平频率分量,v表示频率域中的垂直频率分量,i(i,j)表示底稿图像中坐标位置为(i,j)的灰度值,m表示底稿图像i(x,y)的宽度,n表示底稿图像i(x,y)的高度,表示虚数单位,且满足=-1,e表示指数函数;
14、在底稿图像i(x,y)的频率域中进行自适应径向投影,提取底稿图像i(x,y)的倾斜角度。
15、具体的,所述提取底稿图像i(x,y)的倾斜角度,包括:
16、计算频率域中频率为(u,v)的幅度值,计算公式为:
17、,
18、其中,a(u,v)表示频率域中频率为(u,v)的幅度值,re(f(u,v))表示频率域中频率为(u,v)的实部,im(f(u,v))表示频率域中频率为(u,v)的虚部;
19、对频率域中频谱的幅度进行径向投影,转化为极坐标表示,并在不同角度进行投影求和,得到投影值,投影求和的具体公式为:
20、,
21、其中,表示频率域中频谱的幅度在角度上的投影值,表示投影角度,r表示径向距离,r表示频率域中频谱的最大半径;
22、对底稿图像i(x,y)的倾斜角度进行检测,具体公式为:,其中,argmax表示使投影值达到最大值的角度,表示底稿图像i(x,y)的倾斜角度。
23、具体的,所述旋转校正处理,包括:
24、根据提取的底稿图像i(x,y)的倾斜角度,对底稿图像i(x,y)进行旋转校正,具体公式为:
25、,
26、其中,表示旋转校正后的底稿图像。
27、具体的,所述对旋转校正后的金融领域的底稿图像中的文本位置进行识别,包括:
28、获取底稿图像公共数据集,人工标注底稿图像公共数据集中的文本行位置信息;
29、使用含有文本行位置标注信息的底稿图像公共数据集训练第一文本检测模型和第二文本检测模型,得到训练好的第一文本检测模型和第二文本检测模型;
30、将旋转校正后的金融领域的底稿图像分别输入至第一文本检测模型和第二文本检测模型,得到第一文本行位置的预测结果和第二文本行位置的预测结果;
31、设定第一文本行位置的预测结果中的一个检测框为a,第二文本行位置的预测结果中的一个检测框为b,计算检测框a和b之间的ious值,计算公式为:
32、,
33、其中,ious表示检测框a和b之间的ious值,areaa表示检测框a的面积,areab表示检测框b的面积,areac表示检测框c的面积;
34、计算出第一文本行位置的预测结果中的检测框和第二文本行位置的预测结果中的检测框之间的ious,得到ious集合ious_map,ious_map[p,q]表示第一文本行位置的预测结果中的第p个检测框和第二文本行位置的预测结果中的第q个检测框之间的ious;
35、利用融合策略,对ious_map中的检测框进行筛选判断。
36、具体的,所述融合策略,包括:
37、第二文本行位置的预测结果中的检测框检测到单字符文本,若第一文本行位置的预测结果中的检测框都不与单字符文本检测框相交,且单字符文本检测框的宽高比小于1.5,第一文本行位置的预测结果不包含单字符文本检测框,则将单字符文本检测框加入至第一文本行位置的预测结果中;
38、若第一文本行位置的预测结果中的检测框对应第二文本行位置的预测结果中若干个检测框,则删除第一文本行位置的预测结果中的检测框,并将第二文本行位置的预测结果中若干个检测框加入至第一文本行位置的预测结果中。
39、一种基于融合检测的底稿图像识别系统,其用于实现所述的一种基于融合检测的底稿图像识别方法,包括:图像获取模块,旋转校正模块,位置识别模块和文本识别模块;
40、所述图像获取模块,用于获取底稿图像,并对获取的底稿图像进行预处理;
41、所述旋转校正模块,用于对预处理后的底稿图像进行角度识别,并进行旋转校正处理;
42、所述位置识别模块,用于对旋转校正后的底稿图像中的文本位置进行识别;
43、所述文本识别模块,用于根本识别出的底稿图像中的文本位置,对底稿图像中文本内容进行识别。
44、具体的,所述旋转校正模块包括角度识别单元和旋转校正单元,
45、所述角度识别单元,用于对预处理后的底稿图像进行角度识别;
46、所述旋转校正单元,用于根据识别出的底稿图像朝向角度,对底稿图像进行旋转校正。
47、一种电子设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现一种基于融合检测的底稿图像识别方法的步骤。
48、一种计算机可读存储介质,其上存储有计算机指令,当计算机指令运行时执行一种基于融合检测的底稿图像识别方法的步骤。
49、与现有技术相比,本发明的有益效果是:
50、1.本发明提出一种基于融合检测的底稿图像识别方法,通过融合多种检测方法,可以综合各自的优点,减少单一方法的缺陷,提高底稿图像的识别精度。
51、2.本发明提出一种基于融合检测的底稿图像识别方法,该方法适用于各种复杂的底稿图像识别场景,包括但不限于金融领域的底稿图像等。
52、3.本发明提出一种基于融合检测的底稿图像识别方法,通过综合分析多种检测结果,可以有效减少误识别的概率,提高整体系统的准确性。
本文地址:https://www.jishuxx.com/zhuanli/20241014/317497.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。