票据信息抽取方法、装置、计算机设备和存储介质与流程
- 国知局
- 2024-08-22 14:33:06
本技术涉及票据的自动化处理,特别是涉及一种票据信息抽取方法、装置、计算机设备和存储介质。
背景技术:
1、在各行业中,票据处理是日常业务的重要组成部分,传统的票据处理方式依赖于人工识别和录入,不仅效率低下,而且容易出错。随着信息技术的发展,尤其是图像识别和人工智能技术的进步,自动化处理票据成为可能。
2、然而,现有的票据处理系统在面对非固定格式的多种类型票据时,通常需要通过图像识别,并基于定制化的自然语言处理( natural language processing ,nlp)模型对图像识别结果中的每个字段进行处理抽取。由于不同类型票据所需抽取的信息不同,如果对于多种类型票据均采用上述抽取方式获取抽取结果,会导致抽取结果的准确度较低的问题。
技术实现思路
1、基于此,有必要针对上述技术问题,提供一种能够提高准确度的票据信息抽取方法、装置、计算机设备、存储介质和程序产品。
2、第一方面,本技术提供了一种票据信息抽取方法,该方法包括:
3、对第一票据的图像进行识别,以得到票据识别结果和所述第一票据的票据类型;
4、获取与所述票据类型对应的票据识别模板,所述票据识别模板中包括至少一个关键字段的指示信息;
5、将所述至少一个关键字段的指示信息和所述票据识别结果,输入至预训练数据抽取模型;获取所述预训练数据抽取模型输出的针对所述至少一个关键字段的目标抽取结果;
6、若针对所述目标抽取结果的用户反馈信息指示所述目标抽取结果抽取不准确,则将所述目标抽取结果,以及所述目标抽取结果对应的人工标注抽取结果作为目标训练集中的训练数据;
7、基于所述目标训练集训练得到lora模型;
8、基于所述预训练数据抽取模型和所述lora模型,对第二票据进行数据抽取。
9、在其中一个实施例中,所述对第一票据的图像进行识别,以得到票据识别结果和所述第一票据的票据类型,包括:
10、对所述第一票据的图像进行ocr识别,以得到票据识别结果;
11、从所述票据识别结果中提取关键信息;
12、将与所述关键信息对应的票据类型确定为所述第一票据的票据类型。
13、在其中一个实施例中,所述指示信息用于指示所述至少一个关键字段中每个关键字段的位置和/或字段格式,所述将所述至少一个关键字段的指示信息和所述票据识别结果,输入至预训练数据抽取模型,包括:
14、基于所述至少一个关键字段的指示信息,生成抽取问题;
15、将所述抽取问题以及所述票据识别结果,输入至预训练数据抽取模型。
16、在其中一个实施例中,所述票据识别模板中还包括:票据逻辑结构;
17、所述获取所述预训练数据抽取模型输出的针对所述至少一个关键字段的抽取结果之后,所述方法还包括:
18、获取所述预训练数据抽取模型输出的针对所述至少一个关键字段的目标抽取结果;
19、根据所述票据逻辑结构,对所述至少一个关键字段的抽取结果进行整合,以得到结构化的目标抽取结果。
20、在其中一个实施例中,所述基于所述预训练数据抽取模型和所述lora模型,对第二票据进行数据抽取,包括:
21、将所述lora模型以插件方式集成至所述预训练数据抽取模型,以得到集成后模型;
22、基于所述集成后模型对第二票据进行数据抽取。
23、第二方面,本技术还提供了一种票据信息抽取装置。所述装置包括:
24、识别模块,用于对第一票据的图像进行识别,以得到票据识别结果和所述第一票据的票据类型;
25、获取模块,用于获取与所述票据类型对应的票据识别模板,所述票据识别模板中包括至少一个关键字段的指示信息;
26、抽取模块,用于将所述至少一个关键字段的指示信息和所述票据识别结果,输入至预训练数据抽取模型;获取所述预训练数据抽取模型输出的针对所述至少一个关键字段的目标抽取结果;
27、若针对所述目标抽取结果的用户反馈信息指示所述目标抽取结果抽取不准确,则将所述目标抽取结果,以及所述目标抽取结果对应的人工标注抽取结果作为目标训练集中的训练数据;
28、基于所述目标训练集训练得到lora模型;
29、基于所述预训练数据抽取模型和所述lora模型,对第二票据进行数据抽取。
30、第三方面,本技术还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
31、对第一票据的图像进行识别,以得到票据识别结果和所述第一票据的票据类型;
32、获取与所述票据类型对应的票据识别模板,所述票据识别模板中包括至少一个关键字段的指示信息;
33、将所述至少一个关键字段的指示信息和所述票据识别结果,输入至预训练数据抽取模型;获取所述预训练数据抽取模型输出的针对所述至少一个关键字段的目标抽取结果;
34、若针对所述目标抽取结果的用户反馈信息指示所述目标抽取结果抽取不准确,则将所述目标抽取结果,以及所述目标抽取结果对应的人工标注抽取结果作为目标训练集中的训练数据;
35、基于所述目标训练集训练得到lora模型;
36、基于所述预训练数据抽取模型和所述lora模型,对第二票据进行数据抽取。
37、第四方面,本技术还提供了一种计算机可读存储介质。所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
38、对第一票据的图像进行识别,以得到票据识别结果和所述第一票据的票据类型;
39、获取与所述票据类型对应的票据识别模板,所述票据识别模板中包括至少一个关键字段的指示信息;
40、将所述至少一个关键字段的指示信息和所述票据识别结果,输入至预训练数据抽取模型;获取所述预训练数据抽取模型输出的针对所述至少一个关键字段的目标抽取结果;
41、若针对所述目标抽取结果的用户反馈信息指示所述目标抽取结果抽取不准确,则将所述目标抽取结果,以及所述目标抽取结果对应的人工标注抽取结果作为目标训练集中的训练数据;
42、基于所述目标训练集训练得到lora模型;
43、基于所述预训练数据抽取模型和所述lora模型,对第二票据进行数据抽取。
44、第五方面,本技术还提供了一种计算机程序产品。所述计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现以下步骤:
45、对第一票据的图像进行识别,以得到票据识别结果和所述第一票据的票据类型;
46、获取与所述票据类型对应的票据识别模板,所述票据识别模板中包括至少一个关键字段的指示信息;
47、将所述至少一个关键字段的指示信息和所述票据识别结果,输入至预训练数据抽取模型;获取所述预训练数据抽取模型输出的针对所述至少一个关键字段的抽取结果;
48、若针对所述目标抽取结果的用户反馈信息指示所述目标抽取结果抽取不准确,则将所述目标抽取结果,以及所述目标抽取结果对应的人工标注抽取结果作为目标训练集中的训练数据;
49、基于所述目标训练集训练得到lora模型;
50、基于所述预训练数据抽取模型和所述lora模型,对第二票据进行数据抽取。
51、上述票据信息抽取方法、装置、计算机设备、存储介质和程序产品,对第一票据的图像进行识别,以得到票据识别结果和第一票据的票据类型;获取与票据类型对应的票据识别模板,票据识别模板中包括至少一个关键字段的指示信息;将至少一个关键字段的指示信息和票据识别结果,输入至预训练数据抽取模型;获取预训练数据抽取模型输出的针对至少一个关键字段的目标抽取结果,若针对目标抽取结果的用户反馈信息指示目标抽取结果抽取不准确,则将目标抽取结果,以及目标抽取结果对应的人工标注抽取结果作为目标训练集中的训练数据;基于目标训练集训练得到lora模型;基于预训练数据抽取模型和lora模型,对第二票据进行数据抽取。通过该方案,由于可以先确定票据类型,并且可以获取与票据类型对应的票据识别模板,这样针对不同类型的票据都可以依据不同的票据识别模板进行处理,通过预训练数据抽取模型去针对性的抽取关键字段对应的抽取结果,这种抽取方式为预训练数据抽取模型提供了更多的上下文信息(即上述至少一个关键字段的指示信息),从而可以提高数据抽取的准确性,并且在用户反馈信息指示目标抽取结果抽取不准确时,可以通过不准确的这类数据的人工标注抽取结果最为训练集训练lora模型,并结合预训练数据抽取模型和lora模型一起进行后续的票据抽取,从而可以进一步提高数据抽取的准确性。
本文地址:https://www.jishuxx.com/zhuanli/20240822/279089.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。