技术新讯 > 计算推算,计数设备的制造及其应用技术 > 文档信息的处理方法、装置、设备及存储介质 > 正文

文档信息的处理方法、装置、设备及存储介质

国知局
2024-10-09 15:43:46

本发明涉及文档处理领域，尤其涉及一种文档信息的处理方法、装置、设备及存储介质。

背景技术：

1、传统的文档信息提取以及还原模式通常仅仅是基于规则的人工处理方式，无法操作批量文档，具有工作效率低下，而且易出错，操作繁琐等缺点。

2、传统的docx文档管理模式通常是将docx文件按照项目、部门或者日期等标准划分至不同的文件夹中，使用时只能通过人工方法进行提取或操作。

3、为了解决上述存在的问题，如公开号为cn106778292a(一种word加密文档的快速还原方法)的中国专利公开了一种word加密文档的快速还原方法。该装置完善了关于文档潜在的信息泄露的安全问题，但其无法满足现代数字化转型中文档数据云运用的问题。

技术实现思路

1、本发明提供了一种文档信息的处理方法、装置设备及存储介质，可以实现标准文件数据按照规则统一地提取、加工，从而实现智能化地自动、快速、准确的文档提取工作。

2、本发明第一方面提供了一种文档信息的处理方法，该方法包括：

3、获取目标原始文档，所述目标原始文档为docx格式的文档；

4、将所述目标原始文档导入数字化环境，以得到所述目标原始文档所对应的解析数据；

5、对所述解析数据进行预处理，以得到目标文档数据；

6、确定所述目标文档数据所对应的文字样式信息以及文字字段信息；

7、将所述文字样式信息以及所述文字字段信息以json格式进行存储，以得到所述目标原始文档所对应的json数据；

8、对所述json数据添加修饰，并根据添加修饰后的所述json数据生成所述目标原始文档所对应的xml文件。

9、本发明第二方面提供了一种文档信息的处理装置，包括：

10、获取模块，用于获取目标原始文档，所述目标原始文档为docx格式的文档；

11、导入模块，用于将所述目标原始文档导入数字化环境，以得到所述目标原始文档所对应的解析数据；

12、预处理模块，用于对所述解析数据进行预处理，以得到目标文档数据；

13、确定模块，用于确定所述目标文档数据所对应的文字样式信息以及文字字段信息；

14、存储模块，用于将所述文字样式信息以及所述文字字段信息以json格式进行存储，以得到所述目标原始文档所对应的json数据；

15、生成模块，用于对所述json数据添加修饰，并根据添加修饰后的所述json数据生成所述目标原始文档所对应的xml文件。

16、一种可能的设计中，所述确定模块具体用于：

17、通过python中的win32库对所述目标文档数据进行解析，以得到所述文字样式信息，所述文字样式信息包括所述目标原始文档所对应的段落样式、颜色以及字体；

18、通过自然语言处理nlp对所述目标文档数据进行解析，以得到所述文字字段信息。

19、一种可能的设计中，所述预处理模块具体用于：

20、提取所述解析数据中与所述目标原始文档对应的文档信息；

21、对所述文档信息中的文字格式进行清洗，并对清洗后的所述文档信息添加文字标签，以得到所述目标文档数据。

22、一种可能的设计中，所述存储模块还用于：

23、将所述json数据转化为关系型数据或非关系型数据；

24、将所述关系型数据存储至关系型数据库或将所述非关系型数据存储至非关系型数据库。

25、一种可能的设计中，所述生成模块还用于：

26、基于dom4j对目标xml文档进行解析，以得到所述目标xml文档所对应的数据结构，所述目标xml文档为待转换为docx格式的文档；

27、基于所述数据结构提取所述目标xml文档所对应的目标json数据；

28、对所述目标json数据添加标签，以构建所述目标xml文档所对应的文档结构；

29、根据所述文档结构将所述目标xml文档所对应的所有文档信息转化为目标数据流；

30、将所述目标数据流填充至预设文档模板以得到所述目标xml文档所对应的原始docx文档。

31、一种可能的设计中，所述生成模块还用于：

32、接收目标用户导入的所述目标xml文档；

33、或，

34、接收所述目标用户通过web端输入的文件信息；

35、根据所述文件信息获取所述目标xml文档。

36、一种可能的设计中，所述生成模块还用于：

37、基于所述文档结构以及所述所有文档信息构建实体类模型存储文档数据；

38、基于数据库链接将所述实体类模型存储文档数据存储至对应的关系型数据库或非关系型数据库。

39、本发明实施例第三方面提供了一种电子设备，包括存储器、处理器，所述处理器用于执行存储器中存储的计算机管理类程序时实现如上述第一方面所述的文档信息的处理方法的步骤。

40、本发明实施例第四方面提供了一种计算机可读存储介质，其上存储有计算机管理类程序，所述计算机管理类程序被处理器执行时实现如上述第一方面所述的文档信息的处理方法的步骤。

41、综上所述，可以看出，本申请提供的实施例中，通过将原始文档导入数字环境得到解析数据，并对解析数据进行预处理，对预处理后的数据提取文字样式以及文字字段，进而将文字样式以及文字字段以json格式进行存储得到原始文档的json数据，并为json数据添加修饰，最终根据修饰后的json数据生成xml文件，由此可以实现标准文件数据按照规则统一地提取、加工，从而实现智能化地自动、快速、准确的文档提取工作,实现文档的数字化存储和管理，以适应市场的变化和用户的需求，提高信息的获取和共享速度。

技术特征：

1.一种文档信息的处理方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述确定所述目标文档数据所对应的文字样式信息以及文字字段信息包括：

3.根据权利要求1所述的方法，其特征在于，所述对所述解析数据进行预处理，以得到目标文档数据包括：

4.根据权利要求1至3中任一项所述的方法，其特征在于，所述方法还包括：

5.根据权利要求1至3中任一项所述的方法，其特征在于，所述方法还包括：

6.根据权利要求5所述的方法，其特征在于，所述提取目标xml文档所对应的目标json数据之前，所述方法还包括：

7.根据权利要求1至3、6中任一项所述的方法，其特征在于，所述方法还包括：

8.一种文档信息的处理装置，其特征在于，包括：

9.一种电子设备，其特征在于，包括：

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机管理类程序，所述计算机管理类程序被处理器执行时实现如上述权利要求1至7中任一项所述的文档信息的处理方法的步骤。

技术总结本发明实施例提供了一种文档信息的处理方法、装置设备及存储介质。该方法包括：获取目标原始文档，目标原始文档为DOCX格式的文档；将目标原始文档导入数字化环境，以得到目标原始文档所对应的解析数据；对解析数据进行预处理，以得到目标文档数据；确定目标文档数据所对应的文字样式信息以及文字字段信息；将文字样式信息以及所述文字字段信息以JSON格式进行存储，以得到目标原始文档所对应的JSON数据；对JSON数据添加修饰，并根据添加修饰后的所述JSON数据生成目标原始文档所对应的XML文件，同时可以将XML文件还原为原始文档，以此来实现标准文件数据按照规则统一地提取、加工，从而实现智能化地自动、快速、准确的文档提取工作。技术研发人员：朱珣,李天宇,钱佳豪,何俊,姚朝晖受保护的技术使用者：江汉大学技术研发日：技术公布日：2024/9/26