一种合同信息提取方法、系统、设备及存储介质与流程
- 国知局
- 2024-07-31 22:51:55
本申请涉及数据处理的,尤其是涉及一种合同信息提取方法、系统、设备及存储介质。
背景技术:
1、随着社会经济的高速发展,人力成本逐步提高,现实工作中有大量的重复性、模式化的工作依然由人工完成,这大大增加了企业人力成本,同时人工的操作也容易产生操作失误。例如,在一些企业的合作中,一般需要纸质版的合同,企业之间通过寄送纸质版合同进行信息录入,一般的合同识别流程是先将纸质的合同扫描成图片,然后识别提取信息,这种方式可以达到一定的准确率,但是仍然需要人工校验保证识别结果的正确。
2、还有其他的提取方法,比如通过对合同文档中的内容进行分词,对分词结果进行关键词匹配,基于匹配结果以实现合同内容提取。又或是采用标题识别方法,即依次识别解析后的合同文档的标题,根据标题的内容进行提取。但是目前的提取方法,使用单一的提取逻辑,无法验证提取的信息是否正确,导致提取信息出现缺失、错误等问题。
3、上述中的相关技术方案存在以下缺陷:提取合同信息的正确率低。
技术实现思路
1、为了提高提取合同信息的正确率,本申请提供了一种合同信息提取方法、系统、设备及存储介质。
2、在本申请的第一方面,提供了一种合同信息提取方法。该方法包括:
3、获取合同类型和合同文件,合同类型用于反映合同签订内容的领域;
4、根据与合同类型对应的提取模型,提取合同文件中的第一合同信息;
5、根据与合同类型对应的关键字提取库,提取合同文件中的第二合同信息;
6、比对第一合同信息和第二合同信息,确定目标合同信息。
7、由以上技术方案可知,通过获取合同类型,采用与合同类型对应的提取模型,能够提高提取模型对第一合同信息的提取准确率,再使用与合同类型对应的关键字提取库,从合同文件中提取第二合同信息,然后比对两种提取方式得到的第一合同信息和第二合同信息,根据比对的情况确定目标合同信息;采用两种提取方式并对两种方式得到的提取结果进行互相校验,达到提高提取合同信息准确率的效果。
8、在一种可能的实现方式中,获取合同类型,包括:
9、获取合同文件的文件名;
10、将文件名和预设的类型词库进行比对;
11、当文件名与类型词库中的类型对应时,确定合同类型。
12、在一种可能的实现方式中,合同文件通过以下方式得到:
13、获取电子合同;
14、当电子合同为非指定格式时,将电子合同进行格式转换,得到目标合同;
15、对目标合同进行光学字符识别,得到合同文件;
16、当电子合同为指定格式时,对电子合同进行光学字符识别,得到合同文件。
17、在一种可能的实现方式中,第二合同信息包括第二关键字段和第二关键字段对应的第二属性值;
18、根据与合同类型对应的关键字提取库,提取合同文件中的第二合同信息,包括:
19、根据关键字提取库,遍历合同文件,从合同文件中得到第二关键字段和第二关键字段对应的第二属性值。
20、在一种可能的实现方式中,第一合同信息包括第一关键字段和第一关键字段对应的第一属性值,目标合同信息包括多个目标属性值;
21、比对第一合同信息和第二合同信息,确定目标合同信息,包括:
22、当第一关键字段和第二关键字段相同时,比较第一属性值和第二属性值;
23、当第一属性值和第二属性值相同时,则第一属性值为目标属性值;
24、当第一属性值和第二属性值不相同时,对第一属性值和第二属性值进行合并,得到中间属性值;
25、对中间属性值进行规范判断,得到目标属性值。
26、在一种可能的实现方式中,对中间属性值进行规范判断,得到目标属性值,包括:当中间属性值中包含第一关键字段或第二关键字段对应的核心词,则中间属性值为目标属性值;
27、当中间属性值不包含第一关键字段或第二关键字段对应的核心词,则从合同文件中提取目标属性值。
28、在一种可能的实现方式中,提取模型通过以下方式获取:
29、获取训练数据集,训练数据集包括多份历史合同文件,每份历史合同文件的合同类型均相同,历史合同文件中包含多个历史关键字段和历史关键字段对应的历史属性值;
30、使用灰狼算法优化训练模型的超参数;
31、将历史合同文件输入训练模型中,得到提取模型。
32、在本申请的第二方面,提供了一种合同信息提取系统。该系统包括:
33、数据获取模块,用于获取合同类型和合同文件,合同类型用于反映合同签订内容的领域;模型提取模块,用于根据与合同类型对应的提取模型,提取合同文件中的第一合同信息;关键字提取模块,用于根据与合同类型对应的关键字提取库,提取合同文件中的第二合同信息;
34、合同信息确定模块,用于比对第一合同信息和第二合同信息,确定目标合同信息。
35、在本申请的第三方面,提供了一种电子设备。该电子设备包括:存储器和处理器,所述存储器上存储有计算机程序,所述处理器执行所述程序时实现如以上所述的方法。
36、在本申请的第四方面,提供了一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现如根据本申请的第一方面的方法。
37、综上所述,本申请包括至少一种有益技术效果:
38、通过获取合同类型,采用与合同类型对应的提取模型,能够提高提取模型对第一合同信息的提取准确率,再使用与合同类型对应的关键字提取库,从合同文件中提取第二合同信息,然后比对两种提取方式得到的第一合同信息和第二合同信息,采用两种提取方式并对两种方式得到的提取结果进行互相校验,达到提高提取合同信息准确率的效果。
技术特征:1.一种合同信息提取方法,其特征在于,包括:
2.根据权利要求1所述的合同信息提取方法,其特征在于,所述获取合同类型,包括:
3.根据权利要求1所述的合同信息提取方法,其特征在于,所述合同文件通过以下方式得到:
4.根据权利要求1所述的合同信息提取方法,其特征在于,所述第二合同信息包括第二关键字段和所述第二关键字段对应的第二属性值;
5.根据权利要求4所述的合同信息提取方法,其特征在于,所述第一合同信息包括第一关键字段和所述第一关键字段对应的第一属性值,所述目标合同信息包括多个目标属性值;
6.根据权利要求5所述的合同信息提取方法,其特征在于,所述对所述中间属性值进行规范判断,得到目标属性值,包括:
7.根据权利要求1所述的合同信息提取方法,其特征在于,所述提取模型通过以下方式获取:
8.一种合同信息提取系统,其特征在于,包括:
9.一种电子设备,其特征在于,包括存储器和处理器,所述存储器上存储有能够被处理器加载并执行如权利要求1至7中任一种所述方法的计算机程序。
10.一种计算机可读存储介质,其特征在于,存储有能够被处理器加载并执行如权利要求1至7中任一种所述方法的计算机程序。
技术总结本申请涉及一种合同信息提取方法、系统、设备及存储介质,属于数据处理的技术领域,该方法包括获取合同类型和合同文件,合同类型用于反映合同签订内容的领域;根据与合同类型对应的提取模型,提取合同文件中的第一合同信息;根据与合同类型对应的关键字提取库,提取合同文件中的第二合同信息;比对第一合同信息和第二合同信息,确定目标合同信息。本申请具有提高提取合同信息正确率的效果。技术研发人员:张煜,姜庆庆受保护的技术使用者:北京锦城秋源科技有限公司技术研发日:技术公布日:2024/7/29本文地址:https://www.jishuxx.com/zhuanli/20240730/195057.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。
下一篇
返回列表