技术新讯 > 计算推算,计数设备的制造及其应用技术 > PDF文本的文本块决定方法、装置、计算机设备及存储介质与流程  >  正文

PDF文本的文本块决定方法、装置、计算机设备及存储介质与流程

  • 国知局
  • 2024-09-14 14:23:25

本发明涉及一种文档处理,更特别涉及一种将便携式文档的每页文本分成多个文本块并转换为具有相同文本块分割效果的目标文件的方法、装置、计算机设备及存储介质。

背景技术:

1、pdf(便携式文档格式)文档与办公室软件(office)均为常用的电子文档。虽然pdf文档可以在任何操作系统上进行阅读,但是pdf文档中的内容仅包含文字信息。也就是说,如果想要进行编辑,通常需要将pdf文档转换成其它格式的文档。然而,pdf文档中的分节与分栏信息并未直接包含于文字信息中,因此想要在转换文档中得到相对应的分节与分栏结果,则需要对文字信息进一步分析。

技术实现思路

1、有鉴于此,本发明提供一种可通过分析pdf文本的文字信息来划分pdf文本中的文本块,并将其转换为其它的具有相对应的文本块分割效果的目标文件的方法、装置、计算机设备及存储介质。

2、本发明提供一种根据pdf文本中的文字信息的间隙离群值进行初步分割,接着再依序排除初步分割的错误字符(character)、误差行(line)和误差单词(word)以提高分割精度,最后再对文本块进行两两比较以确定是否进行二次合并和/或二次拆分,以达到正确分割效果的pdf文本的文本块决定方法、装置、计算机设备及存储介质。

3、本发明提供一种pdf文本的文本块决定方法,该方法包含:获取pdf文本的文字信息;根据所述pdf文本在横向及纵向上的间隙离群值进行初步分割并在所述文字信息增加第一文本块的区块标记;在每个第一文本块根据基线、字符长度、字符间距及字符索引依序处理误差行及误差字词;将所述pdf文本的文字行进行基线排序;比较基线排序后的两两所述文字行以形成第二文本块;以及两两比较所述第二文本块以判断是否进行二次合并和二次拆分。

4、本发明还提供一种决定pdf文本的文本块的装置。该装置包含非易失性存储介质、内存以及处理器。所述非易失性存储介质用于记录计算机程序。所述内存用于为所述非易失性存储介质的所述计算机程序的运行提供环境。所述处理器用于执行所述计算机程序以获取pdf文本的文字信息存储于所述内存,根据所述pdf文本在横向及纵向上的间隙离群值进行初步分割并在所述内存的所述文字信息增加第一文本块的区块标记,在每个第一文本块根据基线、字符长度、字符间距及字符索引依序处理误差行及误差字词并更新所述内存的所述文字信息的字符索引,将所述pdf文本的文字行进行基线排序;比较基线排序后的两两所述文字行以形成第二文本块;及两两比较所述第二文本块以判断是否进行二次合并和二次拆分。

5、本发明还提供一种计算机设备,该计算机设备包含存储器及处理器,所述存储器用于记录计算机程序,所述处理器用于运行所述存储器中的所述计算机程序,以执行本发明实施例的pdf文本的文本块决定方法。

6、本发明还提供一种可读存储介质,该可读存储介质记录有计算机程序,该计算机程序被处理器执行时,用于实现本发明实施例的pdf文本的文本块决定方法。

7、本发明中,所述pdf文本例如是指单页pdf文本。本发明实施例的方法、装置、计算机设备及存储介质是对pdf文檔的每页pdf文本进行分割处理,该处理可一次处理/转换单页pdf文本或一次处理/转换pdf文檔的全部页面,并无特定限制。

8、为了让本发明的上述和其他目的、特征和优点能更明显,下文将配合所附图示,详细说明如下。此外,于本发明的说明中,相同的构件以相同的符号表示,于此合先述明。

技术特征:

1.一种pdf文本的文本块决定方法,该方法包含:

2.根据权利要求1所述的方法,其中,

3.根据权利要求1所述的方法,在所述初步分割后还包含:

4.根据权利要求1所述的方法,其中,所述初步分割进行到所述间隙离群值为零时停止。

5.根据权利要求1所述的方法,其中,

6.一种决定pdf文本的文本块的装置,该装置包含:

7.根据权利要求6所述的装置,其中,所述处理器还用于

8.根据权利要求6所述的装置,其中,

9.一种计算机设备,该计算机设备包含存储器及处理器,所述存储器用于记录计算机程序,所述处理器用于运行所述存储器中的所述计算机程序,以执行如权利要求1-5任一项所述的方法。

10.一种可读存储介质,该可读存储介质记录有计算机程序,该计算机程序被处理器执行时,用于实现如权利要求1-5任一项所述的方法。

技术总结一种PDF文本的文本块决定方法,包含:获取PDF文本的文字信息;根据所述PDF文本在横向及纵向上的间隙离群值进行初步分割并在所述文字信息增加第一文本块的区块标记;在每个第一文本块根据基线、字符长度、字符间距及字符索引依序处理误差行及误差字词;将文字行进行基线排序;两两比较所述文字行以形成第二文本块;以及两两比较第二文本块以判断是否进行二次合并和二次拆分。技术研发人员:卢胜军,罗志鹏,王帅,苏柏州,林文玮受保护的技术使用者:凯钿行动科技股份有限公司技术研发日:技术公布日:2024/9/12

本文地址:https://www.jishuxx.com/zhuanli/20240914/293785.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。