技术新讯 > 计算推算,计数设备的制造及其应用技术 > 一种智能文档审核方法、装置、计算机设备及存储介质与流程  >  正文

一种智能文档审核方法、装置、计算机设备及存储介质与流程

  • 国知局
  • 2024-12-06 12:35:21

本技术涉及人工智能和金融科技,尤其涉及一种智能文档审核方法、装置、计算机设备及存储介质。

背景技术:

1、随着金融市场的快速发展,在金融、保险等行业中,监管报备是确保合规性的关键环节。但目前报备过程中存在一系列问题:条款不符合监管要求;报备材料格式不规范;审核不严或系统缺陷,导致监管退回率高,风险渗漏严重等。

2、目前的解决方案主要是人工审核、工程匹配以及采用大语言模型等。但是,这些方案存在以下问题:

3、1)人工审核存在耗时长、效率低、工作量大等缺点;

4、2)工程匹配受限于正则表达式的局限性,无法全面覆盖所有复杂的条款格式和语义校验需求;

5、3)大语言模型在识别特定的金融或保险条款方面表现不稳定,处理速度较慢,无法满足实时审核的需求,此外,需要进行二次训练以提高模型的准确性和适应性,成本高昂、过程复杂。

6、综上,目前文档审核存在效率低、无法全面覆盖以及准确率低的问题。

技术实现思路

1、本技术实施例的目的在于提出一种智能文档审核方法、装置、计算机设备及存储介质,以解决相关技术中文档审核效率低、无法全面覆盖,进而导致审核准确率低的技术问题。

2、为了解决上述技术问题,本技术实施例提供一种智能文档审核方法,采用了如下所述的技术方案:

3、接收待审核文档,将所述待审核文档输入训练完成的字段提取模型中进行语义识别提取,得到待审核内容;

4、根据预设校验规则校验所述待审核内容的字段有效性,得到有效审核内容;

5、调用审核参考信息,基于预设匹配规则将所述有效审核内容与所述审核参考信息进行匹配校验,得到审核结果。

6、进一步的,所述字段提取模型包括文本分割单元、文本检测单元、文本识别单元、编码单元、实体识别单元和输出单元;所述将所述待审核文档输入训练完成的字段提取模型中进行语义识别提取,得到待审核内容的步骤包括:

7、将所述待审核文档输入所述文本分割单元进行元素识别,得到文本区域和非文本区域;

8、通过所述文本检测单元对所述文本区域和所述非文本区域进行文本检测,得到包含文本位置信息的文本全局特征;

9、将所述文本全局特征输入所述文本识别单元进行识别,得到文本识别结果;

10、将所述文本识别结果进行句法分析,得到语义短语,并将所述语义短语输入所述编码单元进行注意力计算,得到语义关系向量;

11、通过所述实体识别单元对所述语义关系向量进行审核信息提取,得到审核实体;

12、通过所述输出单元将所述审核实体按照预设模板输出,得到待审核内容。

13、进一步的,所述文本分割单元包括卷积神经网络层、区域候选网络层、兴趣区域池化层、注意力层以及分类层;所述将所述待审核文档输入所述文本分割单元进行元素识别,得到文本区域和非文本区域的步骤包括:

14、通过所述卷积神经网络对所述待审核文档进行特征提取,得到文档特征表示;

15、将所述文档特征表示输入所述区域候选网络层,通过所述区域候选网络层得到候选区域特征;

16、将所述文档特征表示和所述候选区域特征输入所述兴趣区域池化层进行池化操作,得到文档池化特征;

17、通过所述注意力层对所述文档池化特征进行注意力计算,得到注意力强化特征,并将所述注意力强化特征和所述文档池化特征进行融合,得到加强池化融合特征;

18、通过所述分类层对所述加强池化融合特征进行分类,得到所述待审核文档对应的文本区域和非文本区域。

19、进一步的,所述编码单元包括向量嵌入层、平均池化层、多层感知器层和编码器层;所述将所述语义短语输入所述编码单元进行注意力计算,得到语义关系向量的步骤包括:

20、将所述语义短语输入所述向量嵌入层进行嵌入,得到编码序列向量;

21、通过所述平均池化层对所述编码序列向量进行池化操作,得到池化语义编码;

22、将所述池化语义编码和所述编码序列向量输入所述多层感知器层进行加权计算,得到短语序列向量;

23、通过所述编码器层对所述短语序列向量进行注意力计算,得到语义关系向量。

24、进一步的,所述实体识别单元包括全连接层和softmax层;所述通过所述实体识别单元对语义关系向量进行审核信息提取,得到审核实体的步骤包括:

25、通过所述全连接层对所述语义关系向量整合连接,得到全连接语义向量;

26、将所述全连接语义向量输入所述softmax层进行分类,输出审核实体。

27、进一步的,所述根据预设校验规则校验所述待审核内容的字段有效性,得到有效审核内容的步骤包括:

28、根据预设正则表达式对所述待审核内容的文本字段进行提取,得到审核字段和对应的字段内容;

29、基于预设校验规则对所述审核字段和所述字段内容进行校验,得到校验结果;

30、基于校验结果修正所述待审核内容,得到有效审核内容。

31、进一步的,所述基于预设匹配规则将所述有效审核内容与所述审核参考信息进行匹配校验,得到审核结果的步骤包括:

32、提取所述有效审核内容中全部有效审核字段和对应的审核字段值;

33、将所述有效审核字段进行分类,得到字段分类结果;

34、根据所述有效审核字段从所述审核参考信息中获取对应的字段参考值;

35、根据所述字段分类结果,按照对应的所述预设匹配规则将所述审核字段值与所述字段参考值进行匹配,得到匹配度;

36、基于所述匹配度得到审核结果。

37、为了解决上述技术问题,本技术实施例还提供一种智能文档审核装置,采用了如下所述的技术方案:

38、识别提取模块,用于接收待审核文档,将所述待审核文档输入训练完成的字段提取模型中进行语义识别提取,得到待审核内容;

39、有效性校验模块,用于根据预设校验规则校验所述待审核内容的字段有效性,得到有效审核内容;

40、审核模块,用于调用审核参考信息,基于预设匹配规则将所述有效审核内容与所述审核参考信息进行匹配校验,得到审核结果。

41、为了解决上述技术问题,本技术实施例还提供一种计算机设备,采用了如下所述的技术方案:

42、该计算机设备包括存储器和处理器,所述存储器中存储有计算机可读指令,所述处理器执行所述计算机可读指令时实现如上所述的智能文档审核方法的步骤。

43、为了解决上述技术问题,本技术实施例还提供一种计算机可读存储介质,采用了如下所述的技术方案:

44、所述计算机可读存储介质上存储有计算机可读指令,所述计算机可读指令被处理器执行时实现如上所述的智能文档审核方法的步骤。

45、与现有技术相比,本技术主要有以下有益效果:

46、本技术提供一种智能文档审核方法,将接收的待审核文档输入训练完成的字段提取模型中进行语义识别提取,得到待审核内容,对待审核内容的字段有效性进行校验,得到有效审核内容,最后基于预设匹配规则将有效审核内容与审核参考信息进行匹配校验;本技术通过训练完成的字段提取模型对待审核文档进行语义识别,使得字段提取模型能够更好地理解文本的上下文和语义,全面覆盖审核内容,降低风险渗漏可能性,提升识别的效率和准确率,同时,通过校验字段有效性,有助于优化审核流程,进一步提高审核效率,最后通过预设匹配规则进行匹配校验,能够节省人力投入,整体提高审核效率和准确率。

本文地址:https://www.jishuxx.com/zhuanli/20241204/342200.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。