技术新讯 > 计算推算,计数设备的制造及其应用技术 > 一种构建领域多模态知识图谱方法及系统  >  正文

一种构建领域多模态知识图谱方法及系统

  • 国知局
  • 2024-09-05 14:52:17

本发明属于构建多模态知识图谱,尤其涉及一种构建领域多模态知识图谱方法。

背景技术:

1、我们今天想要制成的多模态知识图谱与传统知识图谱之间存在一些区别,传统知识图谱主要集中研究文本和数据库的实体和关系,而领域多模态知识图谱则在传统知识图谱的基础上,构建了多种模态下的实体,以及多种模态实体间的多模态语义关系。例如本文在构建古生物类知识图谱中,构建的三元组关系里面,岩层关系就属于视觉模态下的古生物实体。

2、现有技术在构建知识图谱,特别是针对古生物学领域的研究中,面临着几个主要的技术问题:

3、1.视觉数据整合的挑战

4、传统知识图谱主要集中在文本和数据库的实体及其关系上,对于包含丰富信息的视觉数据(如文献中的图片、图表等)的处理能力较弱。这些视觉数据往往包含关于古生物的关键属性信息(如地理坐标、所属地层等),对于古生物学领域的研究具有重要价值。然而,现有技术很难将这类视觉数据有效地转化为规范化的数据进行分析和利用。

5、2.大规模文献数据处理的困难

6、古生物学领域的研究人员需要从大量的学术论文中提取有用的信息。这些文献中的实体信息分布广泛,而且大量篇幅被用于描述古生物信息的样本采集、数据分析以及方法的运用总结,这对用户想要精准定位古生物信息造成了一定的干扰。手工筛选在面对大量资料时效率低下,而自动化处理方法在精确性和覆盖面上还存在不足。

7、3.多模态知识融合的复杂性

8、古生物学研究不仅需要处理文本数据,还需要整合图像、表格等多种模态的数据。这些不同模态的数据之间存在着复杂的语义关系,现有的知识图谱构建技术对于多模态语义关系的表示和融合处理能力有限,难以有效捕获和表达这些复杂的语义关系。

9、4.学科交叉的信息整合需求

10、古生物学作为生命科学和地球科学的交叉科学,其研究成果广泛分散在不同学科的文献中。现有的学术知识图谱大多依赖于特定领域的数据集合,缺乏跨学科信息整合的能力,无法全面反映古生物学研究的多学科特性和复杂性。

11、5.知识图谱的动态更新问题

12、古生物学研究是一个不断进步的领域,新的研究成果和数据持续产生。现有的知识图谱更新机制不够灵活,难以快速准确地反映最新的研究成果和学术动态。

13、解决上述技术问题,需要开发更先进的技术方法,能够有效整合多模态数据,提高大规模文献数据处理的效率和准确性,同时具备跨学科信息整合的能力和灵活的知识图谱更新机制。

技术实现思路

1、针对现有技术存在的问题,本发明提供了一种构建领域多模态知识图谱方法。

2、本发明是这样实现的,一种构建领域多模态知识图谱方法包括:

3、步骤一,通过web of science论文索引库根据关键词“寒武纪”“化石”“三叶虫”进行检索文献,用wos自带的下载工具以excel表格形式下载所有文献的doi号,接着使用爬虫技术联合url号与doi在sci-hub.se、sci-hub.ren等几个网站爬取;

4、步骤二,再对爬取文献进行数据处理,文本与图表对齐,通过对得到的精确古生物信息进行实体抽取与图表分离再提取两个重要剥离信息方法,形成古生物数据图谱库;

5、步骤三,选择关系-实体联合抽取模型tplinker作为文本的ner-re操作,在预训练学习方面,通过使用linux环境下的手工标注工具brat标注事先准备好的一千个txt文档中存放的句子,再对文本进行关系-实体抽取数据,形成特定关系的三元组集合;

6、步骤四,基于neo4j数据库构图制作详细可实的知识图谱。

7、为此,本发明提供了一种利用tplinker框架的领域多模态知识图谱构建系统,包括以下模块:

8、爬虫模块:由爬虫节点、控制节点和数据库组成,负责根据预设关键词爬取网络上的古生物学相关文献和数据;

9、数据处理模块:负责对pdf文献进行转换和文本与图表的对齐处理,实现实体抽取与图表信息提取;

10、实体与关系抽取模块:采用tplinker框架,通过联合学习方式整合实体与关系的信息,实现高效的实体和关系联合抽取;

11、知识图谱构建模块:基于neo4j数据库,利用抽取的实体和关系数据构建领域多模态知识图谱,支持图形界面展示。

12、进一步,所述爬虫模块具体实现包括:

13、控制节点子模块:负责分配工作线程,调用爬虫节点根据特定关键词进行信息爬取;

14、爬虫节点子模块:实现网站内容的下载及网页文本信息的预处理,保证信息的准确获取和有效存储;

15、数据库子模块:存储爬取的文献和数据,为实体与关系抽取提供数据支持,确保知识图谱的持续更新和扩展。

16、进一步,所述数据处理模块进一步细化为:

17、文本处理子模块:将pdf文件转换为html格式,提取文本数据并对其进行预处理;

18、图表提取子模块:识别并分离文档中的图表信息,提取图表内的关键数据和图注信息,为知识图谱构建提供辅助信息。

19、进一步,所述tplinker框架模块进一步包括:

20、握手标记方案子模块:负责将联合提取任务转换为令牌对链接问题,设计链接标签以实现实体与关系的一步联合提取;

21、解码子模块:根据握手标记方案得到的链接矩阵,解码出所有实体及其重叠关系,避免训练与测试的不一致性;

22、损失函数子模块:处理握手标记部分的损失函数,优化模型训练过程,提高实体与关系抽取的准确率。

23、结合上述的技术方案和解决的技术问题,本发明所要保护的技术方案所具备的优点及积极效果为:

24、第一,本发明创新点首先是利用ner(实体命名识别技术)在形成多模态古生物三叶虫知识图谱中用作实体抽取方向。因为多模态知识图谱并没有大量应用在古生物领域,由此诸多应用于古生物中的识别提取语料库存在部分缺漏。所以本发明创新点之一在于运用较先进的tplinker模型对古生物信息的实体-关系提取形成为下游任务充当语义库的知识图谱;本发明的优势在于集合文献中图表与内容有关古生物实体、关系,创建高效的多模态可视化知识图谱,一定程度上提高该方面研究人员针对古生物信息定位。本发明构建多模态知识图谱的重要作用在于充分提取文献中的文本数据与视觉数据,使知识图谱充分融合图表信息后增强科学性。最后,知识图谱的构建是在neo4j数据库的基础上完成的,它允许构建详细且可视化的知识结构。

25、本发明的技术方案填补了国内外业内技术空白:本发明提出的多模态知识图谱构建方法,填补了国内外采用科学文献自动构建领域(以古生物为例)多模态知识图谱的技术空白。

26、第二,在古生物研究领域,传统的知识积累方式主要依赖于文献的查阅和整理。然而,面对海量的pdf文献,如何高效地从中提取和整理出有价值的古生物信息,构建成易于查询和理解的知识图谱,一直是科研人员面临的挑战。传统的文献处理方法往往效率低下,且难以确保信息的准确性和完整性。

27、本发明提出了一种构建领域多模态知识图谱的方法,特别针对古生物领域。该方法首先通过web of science论文索引库检索并爬取相关文献,然后利用文本与图表对齐技术,对文献中的古生物信息进行实体抽取和图表分离。接着,选择关系-实体联合抽取模型tplinker对文本进行ner-re操作,形成特定关系的三元组集合。最后,基于neo4j数据库构建详细可实的知识图谱。这一方法不仅提高了信息提取的效率,还确保了信息的准确性和完整性,为古生物研究提供了强有力的支持。

28、本发明的技术创新主要体现在以下几个方面:一是通过web of science论文索引库和爬虫技术实现了文献的高效检索和下载,解决了传统文献查找和整理效率低下的问题;二是利用文本与图表对齐技术,实现了对文献中古生物信息的精确提取和整理,提高了信息的准确性和完整性;三是采用关系-实体联合抽取模型tplinker进行ner-re操作,形成了特定关系的三元组集合,为知识图谱的构建提供了有力的数据支持;四是基于neo4j数据库构建的知识图谱,具有详细可实的特点,方便用户进行查询和理解。这些技术创新不仅提高了古生物领域知识图谱的构建效率,还为科研人员提供了更加全面、准确、易于理解的知识支持。

29、本发明提出了一种构建领域多模态知识图谱的方法,并成功应用于古生物领域。该方法通过高效的文献检索、精确的信息提取、关系-实体联合抽取以及基于neo4j的数据库构图等技术手段,实现了对古生物领域知识的全面整合和可视化展示。未来,随着技术的不断发展和完善,该方法有望在更多领域得到应用和推广,为科研工作者提供更加便捷、高效的知识获取和整理工具。

本文地址:https://www.jishuxx.com/zhuanli/20240905/288607.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。