一种面向财务流程表格优化的财务数据提取方法与流程
- 国知局
- 2024-11-06 14:23:21
本发明涉及人工智能,具体涉及一种面向财务流程表格优化的财务数据提取方法。
背景技术:
1、当前,随着数字化转型的推进,企业对财务文档自动化处理的需求日益增长。然而,现有的ocr技术在标准化文档识别上表现良好,但在处理格式多样、结构复杂的财务表格时,仍然面临挑战。这些表格通常包含关键的财务数据,如资产负债表、利润表等,其准确识别对于数据的进一步分析和决策至关重要。
2、现有ocr技术主要面向通用场景设计,缺乏对财务表格特定结构的深入理解和优化。这导致在实际应用中,表格的行列结构、标题和数据单元格等关键信息的识别准确率不高,且处理效率不能满足企业的需求。
技术实现思路
1、针对现有技术的不足,本发明旨在提供一种面向财务流程表格优化的财务数据提取方法。
2、为了实现上述目的,本发明采用如下技术方案:
3、一种面向财务流程表格优化的财务数据提取方法,包括如下步骤:
4、s101、数据集构建:收集和整理财务表格图像,构建得到多样化的财务表格数据集;
5、s102、构建基于pytorch框架的卷积神经网络cnn模型用于识别财务表格中的结构特征,构建基于pytorch框架的ocr模型用于文本识别,构建基于双向长短期记忆网络bilstm结合条件随机场crf的bilstm-crf模型用于识别和分类文本中的财务相关实体;在pytorch平台上利用步骤s101构建的财务表格数据集对cnn模型、ocr模型和bilstm-crf模型进行训练;所述cnn模型通过训练来学习财务表格图像中的结构特征;
6、s103、财务表格结构识别:
7、s1031、图像预处理:首先对待处理的财务表格的图像进行预处理;
8、s1032、结构特征提取:利用步骤s102训练得到的cnn模型提取财务表格图像中的结构特征;
9、s1033、行列识别:利用所述cnn模型分析财务表格图像中的线条和文本对齐模式,检测财务表格图像中的行列边界,并识别财务表格图像中的标题行、表头和数据单元格;
10、s104、关键信息提取:
11、s1041、ocr识别:对预处理后的单元格图像,利用步骤s102训练得到的ocr模型对单元格图像进行文本识别,转换为可编辑文本;
12、s1042、命名实体识别:使用步骤s102训练得到的bilstm-crf模型对步骤s1041中ocr识别得到的文本中的财务相关实体进行识别和分类;
13、s1043、关键信息提取:
14、关键字匹配:创建一个专门针对财务术语的关键字词典,其中包括常见的财务指标和术语,然后通过对ocr识别的文本进行字符串匹配,识别和提取出其中的关键字及其相关的财务信息;
15、正则表达式:采用设定的正则表达式从ocr识别的文本中提取指定格式的财务数据;
16、上下文相关性分析:在提取了关键字和指定格式的财务数据之后,对bilstm-crf模型提取的实体进行上下文相关性分析,以确保信息的准确性和完整性。
17、进一步地,步骤s101中,对收集到的各个财务表格图像进行预处理后,将图像转换为统一的分辨率和格式,然后通过财务专家对每个财务表格图像的关键信息进行标注,并创建标注指南,确保标注的一致性和准确性;将标注好的财务表格图像划分为训练集、验证集和测试集,确保数据分布均匀,覆盖各种不同的表格格式和布局。
18、更进一步地,步骤s101和步骤s1031中的预处理包括灰度化、二值化、噪声去除和对比度增强。
19、本发明还提供一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述方法。
20、本发明还提供一种计算机设备,包括处理器和存储器,所述存储器用于存储计算机程序;所述处理器用于执行所述计算机程序时,实现上述方法。
21、本发明的有益效果在于:本发明方法实现了自动化的财务表格结构识别和信息提取,可以有效减少人工处理时间,提高处理效率,并提高财务表内容提取的准确率,减少人工输入和校正的需要,减少操作错误。本发明方法提取的结构化数据可直接用于财务分析和决策支持。
技术特征:1.一种面向财务流程表格优化的财务数据提取方法,其特征在于,包括如下步骤:
2.根据权利要求1所述的方法,其特征在于,步骤s101中,对收集到的各个财务表格图像进行预处理后,将图像转换为统一的分辨率和格式,然后通过财务专家对每个财务表格图像的关键信息进行标注,并创建标注指南,确保标注的一致性和准确性;将标注好的财务表格图像划分为训练集、验证集和测试集,确保数据分布均匀,覆盖各种不同的表格格式和布局。
3.根据权利要求2所述的方法,其特征在于,步骤s101和步骤s1031中的预处理包括灰度化、二值化、噪声去除和对比度增强。
4.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-3任一所述的方法。
5.一种计算机设备,其特征在于,包括处理器和存储器,所述存储器用于存储计算机程序;所述处理器用于执行所述计算机程序时,实现权利要求1-3任一所述的方法。
技术总结本发明公开了一种面向财务流程表格优化的财务数据提取方法,包括数据集构建、模型构建和训练、财务表格结构识别和关键信息提取等步骤。本发明方法实现了自动化的财务表格结构识别和信息提取,可以有效减少人工处理时间,提高处理效率,并提高财务表内容提取的准确率,减少人工输入和校正的需要,减少操作错误。本发明方法提取的结构化数据可直接用于财务分析和决策支持。技术研发人员:杨威,岳林海,杨伟霞,苏振兴,刘传民,仲卫南,董星辰,李智受保护的技术使用者:国网汇通金财(北京)信息科技有限公司技术研发日:技术公布日:2024/11/4本文地址:https://www.jishuxx.com/zhuanli/20241106/321742.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。