技术新讯 > 计算推算,计数设备的制造及其应用技术 > 一种科技技术信息文档录入处理方法及系统 > 正文

一种科技技术信息文档录入处理方法及系统

国知局
2024-11-06 14:39:38

本发明申请涉及数据处理领域，尤其涉及一种科技技术信息文档录入处理方法及系统。

背景技术：

1、在科技技术信息文档录入处理的过程中，由于文档往往包含大量非结构化的文本信息、例如自然语言描述、图标和/或公式等，这些内容缺乏明确的语义结构和关联关系，难以直接应用于信息的提取、组织和检索。目前市面上的文档录入方法主要依赖文字识别或图像识别，科技技术文档中的关键信息分布不均，重要程度不同，如果按照统一的粒度进行处理，会导致关键信息丢失或非关键信息冗余，影响录入质量和效率。

技术实现思路

1、本发明申请提供了一种科技技术信息文档录入处理方法及系统，以解决如何提高录入质量和效率的技术问题。

2、为了解决上述技术问题，本发明申请提供了一种科技技术信息文档录入处理方法，包括：

3、采用自然语言处理技术，对目标文档的非结构化文本信息进行分析，得到内容文本；其中，所述目标文档为科技技术信息文档；

4、提取所述内容文本的局部语义特征；将所述局部语义特征输入预设长短时记忆网络，得到长距离语义特征；

5、基于所述长距离语义特征进行多尺度语义分割，获得多种粒度的信息单元；并识别各所述信息单元的单元信息，所述单元信息包括实体信息、属性信息和关系信息；

6、根据所述实体信息、属性信息和关系信息构建知识图谱，进而根据所述知识图谱和各所述单元信息，得到结构化表示信息；

7、提取所述目标文档的上下文信息和全局语义特征，利用所述上下文信息、全局语义特征和结构化表示信息，确定各信息单元在所述目标文档的权重；根据各所述信息单元在所述目标文档的权重，分别对各所述信息单元对应文档内容进行录入处理。

8、作为优选方案，所述采用自然语言处理技术，对目标文档的非结构化文本信息进行分析，得到内容文本，包括：

9、对所述非结构化文本进行分词处理，得到若干词语；

10、识别分词结果中每个词语的词性；根据各词语的词性，对各所述词语进行命名实体识别，得到特定实体信息；

11、获取各所述词语在所述目标文档中的词频，从而根据所述特定实体信息和所述词频，提取所述目标文档的关键词；

12、采用lda算法对所述目标文档的文本进行分析，确定所述目标文档的主题结构；采用snownlp分析库对所述目标文档的文本进行分析，得到情感倾向信息；

13、基于所述主题结构、情感倾向信息和各关键词，生成所述内容文本。

14、作为优选方案，所述采用lda算法对所述目标文档的文本进行分析，确定所述目标文档的主题结构，包括：

15、采用lda算法对所述目标文档的文本进行分析，获得主题概率分布情况，进而得到各主题词在所述目标文档中的概率值；

16、获取所述目标文档的业务领域信息，根据所述业务领域信息，通过双重点互信息方法，获取各所述主题词在目标业务领域的相关程度值；

17、根据所述相关程度值和所述主题词在所述目标文档中的概率值，对所述目标文档进行主题建模，得到所述目标文档的文本主题类别，进而得到所述目标文档的主题结构。

18、作为优选方案，所述根据所述实体信息、属性信息和关系信息构建知识图谱，包括：

19、根据所述实体信息，识别各所述信息单元的实体种类，获得每个种类的实体特征集合；

20、根据所述属性信息，对每个实体特征集合进行验证，在通过验证后得到实体间的初步关系链；

21、根据所述关系信息，获取关系强度和关系建立时间；根据关系强度、关系建立时间以及所述初步关系链，建立所述知识图谱。

22、作为优选方案，所述结构化表示信息包括层次权重；所述利用所述上下文信息、全局语义特征和结构化表示信息，确定各信息单元在所述目标文档的权重，包括：

23、通过所述上下文信息和所述全局语义特征，确定所述信息单元在语境中的关联权重；

24、获取所述信息单元的统计特征，根据所述统计特征，确定所述信息单元的位置权重；

25、根据所述层次权重、在语境中的关联权重和所述位置权重，计算得到所述信息单元在所述目标文档中的权重。

26、作为优选方案，所述根据各所述信息单元在所述目标文档的权重，分别对各所述信息单元对应文档内容进行录入处理：

27、获取第一权重阈值和第二权重阈值；其中，所述第一权重阈值小于所述第二权重阈值；

28、在所述信息单元在所述目标文档的权重大于所述第二权重阈值时，采用包含自动校验的录入方式对信息单元对应文档内容进行录入处理；

29、在所述信息单元在所述目标文档的权重大于所述第一权重阈值，并且小于等于所述第二权重阈值时，采用辅助录入的方式对信息单元对应文档内容进行录入处理；

30、在所述信息单元在所述目标文档的权重小于等于所述第一权重阈值时，采用批量录入的方式对信息单元对应文档内容进行录入处理。

31、相应的，本发明实施例还提供了一种科技技术信息文档录入处理系统，包括分析模块、特征提取模块、识别模块、表示模块和录入处理模块；其中，

32、所述分析模块，用于采用自然语言处理技术，对目标文档的非结构化文本信息进行分析，得到内容文本；其中，所述目标文档为科技技术信息文档；

33、所述特征提取模块，用于提取所述内容文本的局部语义特征；将所述局部语义特征输入预设长短时记忆网络，得到长距离语义特征；

34、所述识别模块，用于基于所述长距离语义特征进行多尺度语义分割，获得多种粒度的信息单元；并识别各所述信息单元的单元信息，所述单元信息包括实体信息、属性信息和关系信息；

35、所述表示模块，用于根据所述实体信息、属性信息和关系信息构建知识图谱，进而根据所述知识图谱和各所述单元信息，得到结构化表示信息；

36、所述录入处理模块，用于提取所述目标文档的上下文信息和全局语义特征，利用所述上下文信息、全局语义特征和结构化表示信息，确定各信息单元在所述目标文档的权重；根据各所述信息单元在所述目标文档的权重，分别对各所述信息单元对应文档内容进行录入处理。

37、作为优选方案，所述分析模块采用自然语言处理技术，对目标文档的非结构化文本信息进行分析，得到内容文本，包括：

38、所述分析模块对所述非结构化文本进行分词处理，得到若干词语；

39、识别分词结果中每个词语的词性；根据各词语的词性，对各所述词语进行命名实体识别，得到特定实体信息；

40、获取各所述词语在所述目标文档中的词频，从而根据所述特定实体信息和所述词频，提取所述目标文档的关键词；

41、采用lda算法对所述目标文档的文本进行分析，确定所述目标文档的主题结构；采用snownlp分析库对所述目标文档的文本进行分析，得到情感倾向信息；

42、基于所述主题结构、情感倾向信息和各关键词，生成所述内容文本。

43、作为优选方案，所述分析模块采用lda算法对所述目标文档的文本进行分析，确定所述目标文档的主题结构，包括：

44、所述分析模块采用lda算法对所述目标文档的文本进行分析，获得主题概率分布情况，进而得到各主题词在所述目标文档中的概率值；

45、获取所述目标文档的业务领域信息，根据所述业务领域信息，通过双重点互信息方法，获取各所述主题词在目标业务领域的相关程度值；

46、根据所述相关程度值和所述主题词在所述目标文档中的概率值，对所述目标文档进行主题建模，得到所述目标文档的文本主题类别，进而得到所述目标文档的主题结构。

47、作为优选方案，所述表示模块根据所述实体信息、属性信息和关系信息构建知识图谱，包括：

48、所述表示模块根据所述实体信息，识别各所述信息单元的实体种类，获得每个种类的实体特征集合；

49、根据所述属性信息，对每个实体特征集合进行验证，在通过验证后得到实体间的初步关系链；

50、根据所述关系信息，获取关系强度和关系建立时间；根据关系强度、关系建立时间以及所述初步关系链，建立所述知识图谱。

51、作为优选方案，所述结构化表示信息包括层次权重；所述录入处理模块利用所述上下文信息、全局语义特征和结构化表示信息，确定各信息单元在所述目标文档的权重，包括：

52、所述录入处理模块通过所述上下文信息和所述全局语义特征，确定所述信息单元在语境中的关联权重；

53、获取所述信息单元的统计特征，根据所述统计特征，确定所述信息单元的位置权重；

54、根据所述层次权重、在语境中的关联权重和所述位置权重，计算得到所述信息单元在所述目标文档中的权重。

55、作为优选方案，所述录入处理模块根据各所述信息单元在所述目标文档的权重，分别对各所述信息单元对应文档内容进行录入处理，包括：

56、所述录入处理模块获取第一权重阈值和第二权重阈值；其中，所述第一权重阈值小于所述第二权重阈值；

57、在所述信息单元在所述目标文档的权重大于所述第二权重阈值时，采用包含自动校验的录入方式对信息单元对应文档内容进行录入处理；

58、在所述信息单元在所述目标文档的权重大于所述第一权重阈值，并且小于等于所述第二权重阈值时，采用辅助录入的方式对信息单元对应文档内容进行录入处理；

59、在所述信息单元在所述目标文档的权重小于等于所述第一权重阈值时，采用批量录入的方式对信息单元对应文档内容进行录入处理。

60、相比于现有技术，本发明申请具有如下有益效果：

61、本发明实施例提供了一种科技技术信息文档录入处理方法及系统，所述科技技术信息文档录入处理方法包括：采用自然语言处理技术，对目标文档的非结构化文本信息进行分析，得到内容文本；其中，所述目标文档为科技技术信息文档；提取所述内容文本的局部语义特征；将所述局部语义特征输入预设长短时记忆网络，得到长距离语义特征；基于所述长距离语义特征进行多尺度语义分割，获得多种粒度的信息单元；并识别各所述信息单元的单元信息，所述单元信息包括实体信息、属性信息和关系信息；根据所述实体信息、属性信息和关系信息构建知识图谱，进而根据所述知识图谱和各所述单元信息，得到结构化表示信息；提取所述目标文档的上下文信息和全局语义特征，利用所述上下文信息、全局语义特征和结构化表示信息，确定各信息单元在所述目标文档的权重；根据各所述信息单元在所述目标文档的权重，分别对各所述信息单元对应文档内容进行录入处理。本发明实施例通过多尺度语义分割，得到多种粒度的信息单元，确定各信息单元在目标文档中的权重，可以按照不同的粒度进行对应的录入处理，避免关键信息丢失或非关键信息冗余，提高录入质量和效率；此外，通过识别信息单元的实体信息、属性信息和关系信息，构建知识图谱，可以得到不同层次的结构化表示信息，结合上下文信息、全局语义特征，确定信息单元的权重，可以进一步增强各信息单元之间的关联性，提高对信息单元重要性或权重识别的准确性，在录入过程中对关键信息实现准确识别，从而进一步提高了录入质量。