技术新讯 > 计算推算,计数设备的制造及其应用技术 > 用于文档布局和信息提取的框架的制作方法  >  正文

用于文档布局和信息提取的框架的制作方法

  • 国知局
  • 2025-01-10 13:27:47

背景技术:

1、信息提取是创建可搜索知识库或数据库的重要方面。此外,信息提取和知识库创建是理解文件中的数据并从其提取信息的能力。信息可以从诸如文档、图像、图表、图形等文件中提取。文件可以呈各种格式并且具有各种布局。因此,可能难以准确地提取数据文件。此外,大规模挖掘文件中可以自动处理的信息可能具有挑战性。此外,常规系统无法以类似于人类如何阅读文件的方式从文件提取数据。

技术实现思路

1、本文提供了用于从文件提取信息的系统、装置、设备、方法、和/或计算机程序产品实施方案、和/或其组合和子组合。

2、给出的实施方案包括一种用于提取信息的方法。所述方法包括:接收包括信息和多个感兴趣区域(roi)的第一格式的文件;以及将所述文件转换成图像。所述方法进一步包括使用第一模型生成第一输出,所述第一输出包括从所述图像提取的第一信息集和所述图像中的所述第一信息集的第一坐标集。所述方法包括使用第二模型生成第二输出,所述第二输出包括所述图像中的对于所述多个roi中的每个roi的第二坐标集。所述方法包括使用第三模型生成第三输出,所述第三输出包括在所述图像中提取的第二信息集和所述图像中的所述第二信息集的第三坐标集。所述方法进一步包括合并所述第一输出和所述第三输出以生成所述文件中包括的信息和多个坐标。所述多个坐标包括所述图像中的对于所述信息的坐标。所述方法包括生成包括多个区段的第二格式的输出文件。所述多个区段中的每个区段对应于所述多个roi中的一个roi,并且所述多个区段中的每个区段基于所述第二坐标集中的roi对应于相应区段的坐标而被包括在所述输出文件中。所述方法进一步包括向所述输出文件中的所述多个区段中的每个区段填充所述信息的一部分,所述部分基于与所述信息的所述部分对应的坐标以及相应区段的坐标而被确定成与相应区段对应。所述第二格式允许所述输出文件中的信息在其被呈现在图形用户界面(gui)上或被存储在数据存储设备中时是可搜索的。

3、在一些实施方案中,所述信息包括一个或多个词,并且生成所述第一输出或所述第三输出包括围绕所述图像中的所述一个或多个词中的每个词生成边界框。

4、在一些实施方案中,所述第三坐标集围绕所述多个roi中的每个roi形成边界框。

5、在一些实施方案中,所述第一输出是使用光学字符识别(ocr)来生成的。

6、在一些实施方案中,所述第三输出是使用神经网络来生成的。

7、在一些实施方案中,所述输出文件被一个或多个机器学习模型使用以生成知识库。

8、在一些实施方案中,所述信息在所述输出文件中是可选择的。

9、在一些实施方案中,所述方法进一步包括使所述输出文件和所述图像显示。

10、在一些实施方案中,其中,所述信息包括词和/或图像。合并所述第一输出与所述第三输出以生成所述信息可以包括保留被包括在所述第一输出中的图像。所述方法可以进一步包括:识别所述第一输出中的与所述第三输出中的一个或多个词共享相同坐标的一个或多个词;以及确定所述第一输出中的所述一个或多个词与所述第三输出中的所述一个或多个词之间的相似度水平。

11、所述方法可以进一步包括将第一优先级值分配给所述第一输出并且将第二优先级值分配给所述第三输出。所述方法可以进一步包括基于所述第三输出的所述第二优先级值并基于所述相似度水平大于预定阈值来在所述多个词中包括来自所述第三输出的所述一个或多个词。所述方法可以进一步包括基于所述第一输出的所述第一优先级值并基于所述相似度水平大于所述预定阈值来在所述多个词中排除来自所述第一输出的所述一个或多个词。所述方法可以进一步包括识别所述第一输出中的所述一个或多个词的第一数据类型和所述第二输出中的所述一个或多个词的第二数据类型。所述方法可以进一步包括基于所述第一输出中的所述一个或多个词的第一数据类型来在所述多个词中包括来自所述第一输出的所述一个或多个词。所述方法可以进一步包括基于所述第三输出中的所述一个或多个词的第二数据类型来在所述多个词中排除来自所述第三输出的所述一个或多个词。

12、另一给出的实施方案是一种用于提取信息的系统。所述系统包括存储器和耦接到所述存储器的处理器,所述存储器包括指令。所述处理器被配置成执行所述指令,并且所述指令在被执行时致使所述处理器:接收包括信息和多个感兴趣区域(roi)的第一格式的文件;并且将所述文件转换成图像。所述指令在被执行时致使所述处理器:使用第一模型生成第一输出,所述第一输出包括从所述图像提取的第一信息集和所述图像中的所述第一信息集的第一坐标集。所述指令在被执行时进一步致使所述处理器:使用第二模型生成第二输出,所述第二输出包括所述图像中的对于所述多个roi中的每个roi的第二坐标集。所述指令在被执行时进一步致使所述处理器:使用第三模型生成第三输出,所述第三输出包括在所述图像中提取的第二信息集和所述图像中的所述第二信息集的第三坐标集。所述指令在被执行时进一步致使所述处理器:合并所述第一输出和所述第三输出以生成所述文件中包括的信息和多个坐标。所述多个坐标包括所述图像中的对于所述信息的坐标。所述指令在被执行时进一步致使所述处理器:使用所述第二输出生成包括多个区段的第二格式的输出文件。所述多个区段中的每个区段对应于所述多个roi中的一个roi,并且所述多个区段中的每个区段基于所述第二坐标集中的roi对应于相应区段的坐标而被包括在所述输出文件中。所述指令在被执行时进一步致使所述处理器:向所述输出文件中的所述多个区段中的每个区段填充所述信息的一部分,所述部分基于与所述信息的所述部分对应的坐标以及相应区段的坐标而被确定成与相应区段对应。所述第二格式允许所述输出文件中的信息在其被呈现在图形用户界面(gui)上或被存储在数据存储设备中时是可搜索的。

13、在一些实施方案中,所述信息包括一个或多个词,并且生成所述第一输出或所述第三输出包括围绕所述图像中的所述一个或多个词中的每个词生成边界框。

14、在一些实施方案中,所述第三坐标集围绕所述多个roi中的每个roi形成边界框。

15、在一些实施方案中,所述第一输出是使用光学字符识别(ocr)来生成的。

16、在一些实施方案中,所述第三输出是使用神经网络来生成的。

17、在一些实施方案中,所述输出文件被一个或多个机器学习模型使用以生成知识库。

18、在一些实施方案中,所述信息在所述输出文件中是可选择的。

19、在一些实施方案中,所述指令在被执行时进一步致使所述处理器使所述输出文件和所述图像显示。

20、在一些实施方案中,其中,所述信息包括词和/或图像。合并所述第一输出与所述第三输出以生成所述信息可以包括保留被包括在所述第一输出中的图像。所述指令在被执行时可以进一步致使所述处理器:识别所述第一输出中的与所述第三输出中的一个或多个词共享相同坐标的一个或多个词;并且确定所述第一输出中的所述一个或多个词与所述第三输出中的所述一个或多个词之间的相似度水平。

21、在一些实施方案中,所述指令在被执行时可以进一步致使所述处理器:将第一优先级值分配给所述第一输出并且将第二优先级值分配给所述第三输出。所述指令在被执行时可以进一步致使所述处理器:基于所述第三输出的所述第二优先级值并基于所述相似度水平大于预定阈值来在所述多个词中包括来自所述第三输出的所述一个或多个词。所述指令在被执行时可以进一步致使所述处理器:基于所述第一输出的所述第一优先级值并基于所述相似度水平大于所述预定阈值来在所述多个词中排除来自所述第一输出的所述一个或多个词。所述指令在被执行时可以进一步致使所述处理器:识别所述第一输出中的所述一个或多个词的第一数据类型和所述第二输出中的所述一个或多个词的第二数据类型。所述指令在被执行时可以进一步致使所述处理器:基于所述第一输出中的所述一个或多个词的第一数据类型来在所述多个词中包括来自所述第一输出的所述一个或多个词。所述指令在被执行时可以进一步致使所述处理器:基于所述第三输出中的所述一个或多个词的第二数据类型来在所述多个词中排除来自所述第三输出的所述一个或多个词。

22、另一给出的实施方案包括一种非暂时性机器可读介质,其上存储有指令,所述指令在被至少一个计算设备执行时致使所述至少一个计算设备执行操作,所述操作包括。所述操作包括:接收包括信息和多个感兴趣区域(roi)的第一格式的文件;以及将所述文件转换成图像。所述操作进一步包括使用第一模型生成第一输出,所述第一输出包括从所述图像提取的第一信息集和所述图像中的所述第一信息集的第一坐标集。所述操作进一步包括使用第二模型生成第二输出,所述第二输出包括所述图像中的对于所述多个roi中的每个roi的第二坐标集。所述操作进一步包括使用第三模型生成第三输出,所述第三输出包括在所述图像中提取的第二信息集和所述图像中的所述第二信息集的第三坐标集。所述操作进一步包括合并所述第一输出和所述第三输出以生成所述文件中包括的信息和多个坐标。所述多个坐标包括所述图像中的对于所述信息的坐标。所述操作进一步包括使用所述第二输出生成包括多个区段的第二格式的输出文件。所述多个区段中的每个区段对应于所述多个roi中的一个roi,并且所述多个区段中的每个区段基于所述第二坐标集中的roi对应于相应区段的坐标而被包括在所述输出文件中。所述操作进一步包括向所述输出文件中的所述多个区段中的每个区段填充所述信息的一部分,所述部分基于与所述信息的所述部分对应的坐标以及相应区段的坐标而被确定成与相应区段对应。所述第二格式允许所述输出文件中的信息在其被呈现在图形用户界面(gui)上或被存储在数据存储设备中时是可搜索的。

23、在一些实施方案中,所述信息包括一个或多个词,并且生成所述第一输出或所述第三输出包括围绕所述图像中的所述一个或多个词中的每个词生成边界框。

24、在一些实施方案中,所述第三坐标集围绕所述多个roi中的每个roi形成边界框。

25、在一些实施方案中,所述第一输出是使用光学字符识别(ocr)来生成的。

26、在一些实施方案中,所述第三输出是使用神经网络来生成的。

27、在一些实施方案中,所述输出文件被一个或多个机器学习模型使用以生成知识库。

28、在一些实施方案中,所述信息在所述输出文件中是可选择的。

29、在一些实施方案中,所述操作进一步包括使所述输出文件显示。

30、在一些实施方案中,所述信息包括词和/或图像。合并所述第一输出与所述第三输出以生成所述信息包括保留被包括在所述第一输出中的图像。所述操作可以进一步包括:识别所述第一输出中的与所述第三输出中的一个或多个词共享相同坐标的一个或多个词;以及确定所述第一输出中的所述一个或多个词与所述第三输出中的所述一个或多个词之间的相似度水平。

31、在一些实施方案中,所述操作可以进一步包括将第一优先级值分配给所述第一输出并且将第二优先级值分配给所述第三输出。所述操作可以进一步包括基于所述第三输出的所述第二优先级值并基于所述相似度水平大于预定阈值来在所述多个词中包括来自所述第三输出的所述一个或多个词。所述操作可以进一步包括基于所述第一输出的所述第一优先级值并基于所述相似度水平大于所述预定阈值来在所述多个词中排除来自所述第一输出的所述一个或多个词。所述操作可以进一步包括识别所述第一输出中的所述一个或多个词的第一数据类型和所述第二输出中的所述一个或多个词的第二数据类型。所述操作可以进一步包括基于所述第一输出中的所述一个或多个词的第一数据类型来在所述多个词中包括来自所述第一输出的所述一个或多个词。所述操作可以进一步包括基于所述第三输出中的所述一个或多个词的第二数据类型来在所述多个词中排除来自所述第三输出的所述一个或多个词。

本文地址:https://www.jishuxx.com/zhuanli/20250110/353256.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。