利用OCR技术提取不良资产合同关键信息的方法及系统与流程
- 国知局
- 2024-07-31 22:35:55
本发明涉及光学字符识别,更具体地说,本发明涉及利用ocr技术提取不良资产合同关键信息的方法及系统。
背景技术:
1、不良资产合同文件包含大量的关键信息,如合同编号、签订日期、交易对手、交易金额、担保方式等。及时准确地提取这些关键信息对于不良资产的管理和处置具有重要意义。
2、传统的不良资产合同信息提取主要依靠人工手动处理,存在工作量大、效率低、准确性不高等问题。chen等人在(chen g, liu m, zhang y x, et al. using images todetect, plan, analyze, and coordinate a smart contract in construction[j].journal of management in engineering, 2023, 39(2): 04023002.)中提出了一种利用图像结合区块链技术来自动化管理和执行智能合同的方法。该研究虽然证明了图像分析在合同信息管理中的潜力,但主要关注于工程施工领域,缺乏对金融领域不良资产合同的专门研究。guo等人在(guo q, hu z, li c, et al. key-region and layout learning forcontract intelligent identification[c]//2021 ieee international conference onemergency science and information technology (icesit). ieee, 2021: 57-61.)中引入了一种结合关键区域检测和文档布局学习的多模态学习方法用于合同信息智能识别。这项研究虽然在合同信息提取任务上取得了较好效果,但忽略了合同内容的跨页关联问题。不良资产合同往往是多页文档,直接对每一页识别提取的关键信息可能是不完整的。
3、综上所述,传统的不良资产合同信息提取通常仅对整体图像进行识别,缺乏对合同图像的局部分割和内容子域的分类处理,无法有效区分不同类型的文本区域,且对长篇幅多页面的合同文本忽略了合同内容的跨页关联问题。
技术实现思路
1、为了克服现有技术的上述缺陷,本发明提供利用ocr技术提取不良资产合同关键信息的方法及系统。
2、为实现上述目的,本发明提供如下技术方案:
3、利用ocr技术提取不良资产合同关键信息的方法,包括:
4、步骤s1000,获取不良资产合同的合同图像,对合同图像进行去噪、局部自适应二值化、旋转矫正和几何校正,获得优质合同图像;
5、步骤s2000,对优质合同图像进行局部分割,计算每个局部图像的局部密度和宽高比,根据局部密度和宽高比将优质合同图像划分为不同的内容子域,收集内容子域域貌特征,根据内容子域域貌特征,对内容子域进行分类;
6、步骤s3000,设计合同关键信息提取规则,根据合同关键信息提取规则从内容子域中提取合同关键信息;
7、步骤s4000,将不同页面的合同关键信息进行跨页信息关联,生成跨页面完整关键信息;
8、步骤s5000,将跨页面完整关键信息存储到结构化数据库中,并建立跨页面完整关键信息与不良资产合同文件的映射关系。
9、进一步地,所述步骤s1000包括:
10、步骤s1100,根据原始不良资产合同文件,获取不良资产合同的电子文档,将电子文档转换为合同图像;
11、步骤s1200,对合同图像进行去噪,获得清晰合同图像;
12、步骤s1300,对清晰合同图像进行局部自适应二值化处理,获得纯净合同图像;
13、步骤s1400,矫正纯净合同图像的倾斜和变形,获得优质合同图像;
14、所述步骤s1300包括:
15、步骤s1310,将清晰合同图像划分若干子图像;
16、步骤s1320,计算每个子图像的局部特征,根据每个子图像的局部特征,获得局部自适应二值化阈值;
17、步骤s1330,根据局部自适应二值化阈值,对每个子图像进行二值化处理,获得二值化子图像;
18、步骤s1340,将所有二值化子图像合并,形成纯净合同图像。
19、进一步地,所述根据每个子图像的局部特征,获得局部自适应二值化阈值的方法包括:
20、;
21、其中:
22、:局部自适应二值化阈值;
23、:第i行第j列子图像的平均灰度值;
24、:第i行第j列子图像的灰度标准差;
25、:调整系数;
26、:子图像的行索引;
27、:子图像的列索引;
28、根据局部自适应二值化阈值,对每个子图像进行二值化处理的方法包括:
29、;
30、其中:
31、:第i行第j列子图像在位置(x,y)处的二值化像素值;
32、:第i行第j列子图像在位置(x,y)处的像素值。
33、进一步地,所述步骤s1400包括:
34、步骤s1410,检测纯净合同图像中的直线,计算纯净合同图像的平均倾斜角度,根据平均倾斜角度对纯净合同图像进行旋转校正,获得正姿合同图像;
35、步骤s1420,根据正姿合同图像的四个角点坐标,计算透视变换矩阵,对正姿合同图像进行几何校正;
36、步骤s1430,对几何校正后的正姿合同图像进行裁剪和归一化处理,保留合同的有效区域,并将图像尺寸调整为统一大小,获得优质合同图像。
37、进一步地,所述计算纯净合同图像的倾斜角度的方法包括:
38、;
39、其中:
40、:纯净合同图像的平均倾斜角度;
41、n:选中的直线数;
42、:第g条直线的长度;
43、:第g条直线与水平轴的夹角;
44、根据平均倾斜角度对图像进行旋转校正的方法包括:
45、;
46、其中:
47、:纯净合同图像中像素的横坐标;
48、:纯净合同图像中像素的纵坐标;
49、:旋转校正后的纯净合同图像中像素的横坐标;
50、:旋转校正后的纯净合同图像中像素的纵坐标。
51、进一步地,所述步骤s2000包括:
52、步骤s2100,对优质合同图像进行局部分割,计算每个局部图像的局部密度和宽高比;根据局部密度和宽高比设定初始区域划分规则,根据初始区域划分规则对优质合同图像进行初始区域划分,获得不同类型的初始区域;类型相同且空间相邻的初始区域进行区域合并,形成内容子域;
53、根据局部密度和宽高比设定初始区域划分规则的方法包括:
54、标题区域:局部密度d>0.8且宽高比r>5;
55、正文区域:局部密度0.2<d<0.8且宽高比1<r<3;
56、表格区域:局部密度d>0.5,且宽高比0.8<r<1.2;
57、签章区域:局部密度d>0.8,且宽高比0.5<r<2;
58、步骤s2200,收集内容子域域貌特征,根据内容子域域貌特征,对内容子域进行分类;
59、步骤s2300,计算内容子域分类的准确率阈值,判断内容子域分类结果是否大于等于准确率阈值,如果大于等于准确率阈值,则进入步骤s3000;如果小于准确率阈值,则调整初始区域划分规则,返回步骤s2100,重新划分内容子域;
60、进一步地,所述步骤s3000包括:
61、步骤s3100,根据内容子域的分类结果,对各个内容子域分别进行ocr识别,获取内容子域内的文本信息;
62、步骤s3200,设计合同关键信息提取规则,根据合同关键信息提取规则从内容子域内识别出的文本信息中提取合同关键信息;
63、步骤s3300,设定合同关键信息完整性标准,根据合同关键信息完整性标准判断合同关键信息是否完整,如果完整,则进入步骤s4000,如果不完整,则调整合同关键信息提取规则,转入步骤s3200,重新提取合同关键信息;
64、所述步骤s4000包括:
65、步骤s4100,根据合同的页眉页脚信息,判断各个页面之间的前后关系和归属关系;
66、步骤s4200,设计跨页面关联规则,根据跨页面关联规则判断不同页面上的合同关键信息是否属于同一个合同关键信息;
67、步骤s4300,设计跨页面合并规则,根据跨页面合并规则,将不同页面上的合同关键信息生成跨页面完整关键信息;
68、步骤s4400,对跨页面完整关键信息进行一致性校验和连续性校验,对没有通过校验的跨页面完整关键信息进行标记和处理。
69、利用ocr技术提取不良资产合同关键信息的系统,其用于实现上述的利用ocr技术提取不良资产合同关键信息的方法,包括:
70、合同图像获取模块:用于获取不良资产合同的电子文档,将电子文档转换为合同图像;
71、合同图像预处理模块:用于对图像获取模块采集的合同图像进行去噪、二值化、旋转矫正和几何校正,获得优质合同图像;
72、合同图像分割模块:用于对优质合同图像进行局部分割,计算每个局部图像的局部密度和宽高比,根据局部密度和宽高比将优质合同图像划分为不同的内容子域;
73、内容子域分类模块:用于收集内容子域域貌特征,根据内容子域域貌特征,对内容子域进行分类;
74、准确率校验模块:用于计算内容子域分类的准确率阈值,判断内容子域分类结果是否满足准确率要求;
75、关键信息提取模块:用于设计合同关键信息提取规则,根据合同关键信息提取规则从内容子域中提取合同关键信息;
76、跨页信息关联模块:用于将不同页面的合同关键信息进行跨页信息关联,生成跨页面完整关键信息;
77、数据存储和管理模块:用于将跨页面完整关键信息存储到结构化数据库中,并建立跨页面完整关键信息与不良资产合同文件的映射关系。
78、一种电子设备,包括存储器、中央处理器以及存储在存储器上并可在中央处理器上运行的计算机程序,所述中央处理器执行所述计算机程序时实现上述的利用ocr技术提取不良资产合同关键信息的方法。
79、一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被执行时实现上述的利用ocr技术提取不良资产合同关键信息的方法。
80、相比于现有技术,本发明的有益效果为:
81、本发明通过图像预处理阶段,包括去噪、局部自适应二值化、旋转矫正和几何校正,有效地提高了合同图像的质量。优质图像的获取是后续信息提取准确性的基础。尤其是通过局部分割和内容子域分类,能够更加细致地处理图像中的不同区域,确保关键内容的准确识别和提取。
82、传统的合同信息提取通常依赖于手工操作,耗时且容易出错。本发明通过自动化的ocr技术和预设的提取规则,能够大幅减少人工参与,快速、准确地提取合同关键信息。这样不仅节省了大量的人力资源,还显著提升了处理速度和效率。
83、合同通常会跨越多个页面,本发明引入了跨页关联技术,通过页眉页脚信息和跨页面关联规则,能够准确判断不同页面上的信息是否属于同一合同,并将其整合成完整的合同关键信息。这一技术有效解决了合同信息分散的问题,确保数据的完整性和连续性。
84、本发明中的各个模块均通过程序化的方式实现,减少了人工操作的环节,从而降低了人工误差的风险。特别是在信息提取和跨页关联过程中,通过设定准确率阈值和一致性校验,确保提取信息的准确性和可靠性。
85、提取的合同关键信息被存储到结构化数据库中,并建立与原合同文件的映射关系,这不仅有助于数据的高效管理和查询,而且为后续的数据分析和处理提供了便利条件。通过结构化存储,数据的可操作性和利用率大大提高。
86、本发明的方法和系统设计具有很强的扩展性。提取规则和分类标准可以根据具体的合同类型和需求进行调整和扩展,适应不同类型的不良资产合同处理需求。系统模块化的设计也便于后续功能的扩展和升级。除了不良资产合同的处理,本发明的方法和系统还可以推广应用到其他类型的合同或文档处理领域,如金融合同、保险合同、法律文件等,具有广泛的应用前景。
本文地址:https://www.jishuxx.com/zhuanli/20240731/193789.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。
下一篇
返回列表