技术新讯 > 计算推算,计数设备的制造及其应用技术 > 文本提取方法、装置、电子设备和存储介质与流程 > 正文

文本提取方法、装置、电子设备和存储介质与流程

国知局
2024-07-31 23:17:36

本公开涉及人工智能，尤其涉及深度学习、图像处理、ocr(opticalcharacter recognition，光学字符识别)。更具体地，本公开提供了一种文本提取方法、装置、电子设备、存储介质以及计算机程序产品。

背景技术：

1、文档内容提取广泛应用于各种领域，例如，各种专业文档(财报、论文等)大都是使用pdf格式保存的，从pdf中提取文本信息可以用于专业文档的分析。

技术实现思路

1、本公开提供了一种文本提取方法、装置、电子设备、存储介质以及计算机程序产品。

2、根据第一方面，提供了一种文本提取方法，该方法包括：识别文档图像中的多个文本块以及至少一个分割线；根据多个文本块以及至少一个分割线确定文档的版面结构；以及根据版面结构，确定多个文本块的识别顺序以及多个文本块的识别结果的输出顺序。

3、根据第二方面，提供了一种文本提取装置，该装置包括：识别模块，用于识别文档图像中的多个文本块以及至少一个分割线；版面结构确定模块，用于根据多个文本块以及至少一个分割线确定文档的版面结构；以及顺序确定模块，用于根据版面结构，确定多个文本块的识别顺序以及多个文本块的识别结果的输出顺序。

4、根据第三方面，提供了一种电子设备，包括：至少一个处理器；以及与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行根据本公开提供的方法。

5、根据第四方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，该计算机指令用于使计算机执行根据本公开提供的方法。

6、根据第五方面，提供了一种计算机程序产品，包括计算机程序，所述计算机程序存储于可读存储介质和电子设备其中至少之一上，所述计算机程序在被处理器执行时实现根据本公开提供的方法。

7、应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

技术特征：

1.一种文本提取方法，包括：

2.根据权利要求1所述的方法，其中，所述分割线包括上下文分割线；所述根据所述多个文本块以及所述至少一个分割线确定所述文档的版面结构包括：

3.根据权利要求2所述的方法，其中，所述列向排版结构包括多列；所述根据所述顶点位置确定所述文档的列向排版结构包括：

4.根据权利要求2或3所述的方法，其中，所述分割线还包括页眉分割线、页脚分割线、以及注释分割线中的至少之一；所述文本块包括页眉文本块、页脚文本块以及注释文本块中的至少之一；所述方法还包括：

5.根据权利要求1所述的方法，其中，所述根据所述版面结构，确定所述多个文本块的识别顺序以及所述多个文本块的识别结果的输出顺序包括：

6.根据权利要求5所述的方法，其中，所述确定所述目标文本块的识别结果的输出顺序包括：

7.根据权利要求6所述的方法，其中，所述输出目标文本块包括：

8.根据权利要求6所述的方法，还包括：

9.根据权利要求6所述的方法，还包括：

10.根据权利要求6至8中任一项所述的方法，其中，所述非正文类型包括注释、表格、表格标题、图像、图像标题以及公式中的至少之一。

11.一种文本提取装置，包括：

12.根据权利要求11所述的装置，其中，所述分割线包括上下文分割线；所述版面结构确定模块包括：

13.根据权利要求12所述的装置，其中，所述列向排版结构包括多列；所述列向排版结构确定单元包括：

14.根据权利要求12或13所述的装置，其中，所述分割线还包括页眉分割线、页脚分割线、以及注释分割线中的至少之一；所述文本块包括页眉文本块、页脚文本块以及注释文本块中的至少之一；所述装置还包括：

15.根据权利要求11所述的装置，其中，所述文本顺序确定模块包括：

16.根据权利要求15所述的装置，其中，所述输出顺序确定单元包括：

17.根据权利要求16所述的装置，其中，所述第二输出子单元，还用于输出所存储的所述目标文本块的识别结果。

18.根据权利要求16所述的装置，所述输出顺序确定单元还包括：

19.根据权利要求16所述的装置，所述输出顺序确定单元还包括：

20.根据权利要求16至18中任一项所述的装置，其中，所述非正文类型包括注释、表格、表格标题、图像、图像标题以及公式中的至少之一。

21.一种电子设备，包括：

22.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1至10中任一项所述的方法。

23.一种计算机程序产品，包括计算机程序，所述计算机程序存储于可读存储介质和电子设备其中至少之一上，所述计算机程序在被处理器执行时实现根据权利要求1至10中任一项所述的方法。

技术总结本公开提供了一种文本提取方法，涉及人工智能技术领域，尤其涉及深度学习、图像处理、OCR(Optical Character Recognition，光学字符识别)技术领域。具体实现方案为：识别文档图像中的多个文本块以及至少一个分割线；根据多个文本块以及至少一个分割线确定文档的版面结构；以及根据版面结构，确定多个文本块的识别顺序以及多个文本块的识别结果的输出顺序。本公开还提供了一种文本提取装置、电子设备和存储介质。技术研发人员：白宇,李玉伟受保护的技术使用者：北京百度网讯科技有限公司技术研发日：技术公布日：2024/7/29