技术新讯 > 计算推算,计数设备的制造及其应用技术 > 知识图谱构建方法、系统、设备及存储介质与流程 > 正文

知识图谱构建方法、系统、设备及存储介质与流程

国知局
2024-07-31 22:41:24

本申请涉及人工智能，尤其涉及一种知识图谱构建方法、系统、设备及存储介质。

背景技术：

1、相关技术中，知识图谱的构建通常采用基于规则的方法、基于统计的方法和基于深度学习的方法。基于规则的方法依赖于人工编写规则，容易受到领域知识和专家经验的限制；基于统计的方法对大量标注数据的需求较高，而在实际应用中，标注数据往往难以获取；基于深度学习的方法虽然可以在一定程度上缓解了数据量不足的问题，但在少量标注样本情况下，模型性能下降，导致构建的知识图谱准确性低。

技术实现思路

1、本申请实施例的主要目的在于提出一种知识图谱构建方法、系统、设备及存储介质，旨在提高知识图谱构建的准确性。

2、为实现上述目的，本申请实施例的一方面提出了一种知识图谱构建方法，包括以下步骤：

3、获取第一文本样本数据；

4、根据所述第一文本样本数据中的标注数据进行文本分析，得到基础通用模板，其中，所述基础通用模板包括实体逻辑关系表达式；

5、将第二文本内容匹配到所述基础通用模板中，得到第二文本样本数据；

6、根据所述第一文本样本数据和所述第二文本样本数据对初始化后的实体关系抽取模型进行训练，得到训练好的实体关系抽取模型；

7、通过训练好的实体关系抽取模型对目标领域文本进行实体识别和关系抽取，得到知识图谱。

8、在一些实施例中，所述获取第一文本样本数据，包括以下步骤：

9、获取第一文本内容；

10、对所述第一文本内容进行词性标注、实体标注和情感标注，得到标注数据；

11、根据标注后的第一文本内容得到第一文本样本数据。

12、在一些实施例中，所述根据所述第一文本样本数据中的标注数据进行文本分析，得到基础通用模板，包括以下步骤：

13、对所述第一文本样本数据中的第一文本内容进行依存句法分析，得到句子的依存句法树；

14、根据所述依存句法树和所述标注数据对所述第一文本内容进行逻辑聚类分析，得到多个逻辑特征；

15、将所述逻辑特征转化为实体逻辑关系表达式，得到基础通用模板。

16、在一些实施例中，所述将第二文本内容匹配到所述基础通用模板中，得到第二文本样本数据，包括以下步骤：

17、获取第二文本内容；

18、对所述第二文本内容进行数据预处理操作，得到第二文本数据，其中，所述数据预处理操作包括去除停用词操作、词干提取操作、词性还原操作的至少其中一种；

19、将所述第二文本数据中的各个句子中的实体和属性写入基础通用模板，得到第二文本样本数据。

20、在一些实施例中，在所述将所述第二文本数据中的各个句子中的实体和属性写入基础通用模板，得到第二文本样本数据这一步骤之后，所述将第二文本内容匹配到所述基础通用模板中，得到第二文本样本数据，还包括以下步骤：

21、采用语义相似性度量方法，确定所述第二文本样本数据和所述第二文本内容的句子语义相似性；

22、当所述句子语义相似性小于预设值，则对所述第二文本样本数据中对应的句子进行语义调整。

23、在一些实施例中，所述根据所述第一文本样本数据和所述第二文本样本数据对初始化后的实体关系抽取模型进行训练，得到训练好的实体关系抽取模型，包括以下步骤：

24、将所述第一文本样本数据和所述第二文本样本数据合并，得到训练数据集；

25、根据卷积神经网络结构初始化实体关系抽取模型；

26、将所述训练数据集输入实体关系抽取模型进行预测，得到知识抽取三元组；

27、根据所述知识抽取三元组和所述训练数据集中的标签数据确定模型损失；

28、根据所述模型损失更新所述实体关系抽取模型，得到训练好的实体关系抽取模型。

29、在一些实施例中，所述通过训练好的实体关系抽取模型对目标领域文本进行实体识别和关系抽取，得到知识图谱，包括以下步骤：

30、获取目标领域文本；

31、将所述目标领域文本输入所述实体关系抽取模型，得到第一知识抽取数据集，其中，所述第一知识抽取数据集包括多个客服知识三元组；

32、根据所述第一知识抽取数据集的多个客服知识三元组进行知识融合，得到第二知识抽取数据集；

33、根据所述第二知识抽取数据集构建知识图谱。

34、为实现上述目的，本申请实施例的另一方面提出了一种一种知识图谱构建系统，包括：

35、第一模块，用于获取第一文本样本数据；

36、第二模块，用于根据所述第一文本样本数据中的标注数据进行文本分析，得到基础通用模板，其中，所述基础通用模板包括实体逻辑关系表达式；

37、第三模块，用于将第二文本内容匹配到所述基础通用模板中，得到第二文本样本数据；

38、第四模块，用于根据所述第一文本样本数据和所述第二文本样本数据对初始化后的实体关系抽取模型进行训练，得到训练好的实体关系抽取模型；

39、第五模块，用于通过训练好的实体关系抽取模型对目标领域文本进行实体识别和关系抽取，得到知识图谱。

40、为实现上述目的，本申请实施例的另一方面提出了一种电子设备，所述电子设备包括存储器、处理器、存储在所述存储器上并可在所述处理器上运行的程序以及用于实现所述处理器和所述存储器之间的连接通信的数据总线，所述程序被所述处理器执行时实现上述实施例所述的知识图谱构建方法。

41、为实现上述目的，本申请实施例的另一方面提出了一种存储介质，所述存储介质为计算机可读存储介质，用于计算机可读存储，所述存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现上述实施例所述的知识图谱构建方法。

42、本申请提出的知识图谱构建方法、系统、设备及存储介质，其通过利用第一文本样本数据中的标注数据进行文本分析得到表征实体逻辑关系的基础通用模板，然后将未标注的第二文本内容匹配到基础通用模板中以实现样本数据增强得到第二文本样本数据，再根据第一文本样本数据和第二文本样本数据对初始化后的实体关系抽取模型进行训练，通过训练好的实体关系抽取模型对目标领域文本进行实体识别和关系抽取，得到知识图谱。本申请挖掘已有标注数据中的通用逻辑构建基础通用模板，利用基础通用模板对未标注样本进行数据增强，能够在少样本数据下提高知识图谱构建的准确性。

技术特征：

1.一种知识图谱构建方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的知识图谱构建方法，其特征在于，所述获取第一文本样本数据，包括以下步骤：

3.根据权利要求1所述的知识图谱构建方法，其特征在于，所述根据所述第一文本样本数据中的标注数据进行文本分析，得到基础通用模板，包括以下步骤：

4.根据权利要求3所述的知识图谱构建方法，其特征在于，所述将第二文本内容匹配到所述基础通用模板中，得到第二文本样本数据，包括以下步骤：

5.根据权利要求4所述的知识图谱构建方法，其特征在于，在所述将所述第二文本数据中的各个句子中的实体和属性写入基础通用模板，得到第二文本样本数据这一步骤之后，所述将第二文本内容匹配到所述基础通用模板中，得到第二文本样本数据，还包括以下步骤：

6.根据权利要求1所述的知识图谱构建方法，其特征在于，所述根据所述第一文本样本数据和所述第二文本样本数据对初始化后的实体关系抽取模型进行训练，得到训练好的实体关系抽取模型，包括以下步骤：

7.根据权利要求1所述的知识图谱构建方法，其特征在于，所述通过训练好的实体关系抽取模型对目标领域文本进行实体识别和关系抽取，得到知识图谱，包括以下步骤：

8.一种知识图谱构建系统，其特征在于，包括：

9.一种电子设备，其特征在于，所述电子设备包括存储器、处理器、存储在所述存储器上并可在所述处理器上运行的程序以及用于实现所述处理器和所述存储器之间的连接通信的数据总线，所述程序被所述处理器执行时实现如权利要求1至7任一项所述的知识图谱构建方法的步骤。

10.一种存储介质，所述存储介质为计算机可读存储介质，用于计算机可读存储，其特征在于，所述存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现权利要求1至7中任一项所述的知识图谱构建方法的步骤。

技术总结本申请实施例提供了一种知识图谱构建方法、系统、设备及存储介质，属于人工智能技术领域。该方法通过利用第一文本样本数据中的标注数据进行文本分析得到表征实体逻辑关系的基础通用模板，然后将未标注的第二文本内容匹配到基础通用模板中以实现样本数据增强得到第二文本样本数据，再根据第一文本样本数据和第二文本样本数据对初始化后的实体关系抽取模型进行训练，通过训练好的实体关系抽取模型对目标领域文本进行实体识别和关系抽取，得到知识图谱。本申请挖掘已有标注数据中的通用逻辑构建基础通用模板，利用基础通用模板对未标注样本进行数据增强，能够在少样本数据下提高知识图谱构建的准确性。技术研发人员：李梓健,李廷威,许东武受保护的技术使用者：广东万丈金数信息技术股份有限公司技术研发日：技术公布日：2024/7/29