技术新讯 > 计算推算,计数设备的制造及其应用技术 > 一种生物医学数据集标准数据元的知识图谱构建方法及系统 > 正文

一种生物医学数据集标准数据元的知识图谱构建方法及系统

国知局
2024-07-31 23:22:09

本发明涉及医学数据处理，更具体的说是涉及一种生物医学数据集标准数据元的知识图谱构建方法及系统。

背景技术：

1、目前，生物医学数据共享可提高医学研究效率，增强医学研究透明性，学术领域对研究复现和数据的公开也提出了硬性要求，越来越多的医学研究人员选择将原始生物医学数据公开乃至共享，但生物医学数据有着高复杂性语义，容易出现同义、歧义等情况，而共享的生物医学数据缺乏在数据字段或值域层面的统一标准和规范，导致数据语义模糊、不同数据集间无法比对和联合分析，例如，数据集中字段或变量“性别”的英文名称可以用gender或sex表示，值域上可以直接用文字表示为男性、女性，也可以用数值0和1的表示，0表示男性、1表示女性。如果没有统一的数据元名称和值域规范，对于不同数据集的同一语义的字段或变量就没有办法进行集成整合或者联合分析，研究者也难以理解数据语义和进行分析利用，极大地阻碍了数据共享。由此，数据集的元数据和数据元标准非常重要，能够规范和统一数据结构及语义表达。但当前的数据标准多以标准规范形式发布为pdf等非结构化形式，很多临床专业领域的数据集标准中涉及的数据元达200-300多个，而且不同数据元可能定义或使用了不同的值域，现仅能提供文本查找阅读和理解，而在数据元数据创建时很难有效利用、机器可读、可处理性差，这也是标准难以被应用和实施的原因。

2、因此，如何在增强领域数据集元数据和数据元、分类、值域标准的可用性和利用率的基础上，提高机器可读性和语义互操作性是本领域技术人员亟需解决的问题。

技术实现思路

1、有鉴于此，本发明提供了一种生物医学数据集标准数据元的知识图谱构建方法及系统，收集生物医学科学数据领域的数据集标准和分类、值域标准，进行碎片化和规范化处理，并通过词性、语义计算等进行数据元语义归并建立有效关联。而后设计生物医学数据集数据元知识模式和构建知识图谱，用于支持领域数据字段/变量的标准化和其值域标准化。本发明以生物医学数据集标准数据元为例，方法可推广到其他领域数据集的数据元知识图谱的设计和实现。以此一方面可以增强领域数据集元数据和数据元、分类、值域标准的可用性和利用率，另一方面有助于实现数据元的统一和数据集创建的规范性、细化和丰富跨数据集标准、数据元集合、数据元、数据元概念、数据值域之间的关联，以及提高机器可读性和语义互操作性。

2、为了实现上述目的，本发明采用如下技术方案：

3、一种生物医学数据集标准数据元的知识图谱构建方法，包括：

4、收集不同类型的生物医学数据集数据元的相关标准文本和生物医学数据集相关标准的数据；

5、通过对收集数据元的相关标准文本和生物医学数据集相关标准的数据进行分析和归纳，用于支持构建生物医学数据集标准数据元知识图谱的知识模型和进行数据的解析和细粒度内容抽取；

6、构建生物医学数据集标准数据元知识图谱的知识模型，定义实体类型并同时建立各实体类的属性和实体类型之间的语义关联关系类型；

7、从结构化数据和结构化数据中的非结构化文本抽取实体类型数据及属性数据；

8、根据建立的实体类型之间的语义关联关系类型，进行多类数据的知识融合，得到生物医学数据集标准数据元知识图谱。

9、可选的，通过对不同类型的生物医学数据集数据元的相关标准文本，进行ocr识别+nlp自然语言处理方法解析文本，得到结构化数据和结构化数据中的非结构化文本。

10、可选的，还包括知识图谱的存储与质量检查；存储，建立多张实体属性表和实体三元组关系表，批量转换，三元组导入转换为utf-8，用neo4j图数据库来存储知识图谱；检查，将所有三元组数据导入neo4j之后，进行数据抽查，核对三元组数据的正确性，保证实体类型和关联关系的正确性。

11、可选的，所述从结构化数据抽取实体类型数据及属性数据的具体过程为：

12、通过人机结合的方式进行文本内容的识别和提取；提取后的内容需进行数据清洗、数据审核和数据质控，标识类数据结合明确规定的编码规则要求编写正则表达式，对不同编码进行拼写检查和质控，对于有问题的标识进行修正，并对标识进行统一；提取的内容中存在识别错误、无用空格和换行、乱码和遗漏的情况，由人工进行补充和修改，完成所有文本内容的提取和整理，形成初步的结构化数据。

13、可选的，所述从结构化数据中的非结构化文本抽取实体类型数据及属性数据的具体过程为：

14、从结构化数据中的非结构化文本中借助领域词表或机器学习方法识别抽取及标注，对实体类型进行人工标注和审核质控，用于丰富和增强数据集标准和数据元的领域特征和应用场景特征，进而实现更细粒度和更多维度内容的揭示。

15、可选的，实体类型之间的关联关系具体包括：数据标准之间的关系、数据元集和数据元之间的关系、数据元与数据元概念之间的关系、数据元之间的关系、数据元与值域之间的关系、数据集标准与医学量表/问卷的关系、数据元与医学量表/问卷的关系；其中数据标准层面的关系是多元的；数据标准与数据元集合是包含关系，数据元集合和数据元是包含关系，数据元集合下包含多个数据元；数据元之间的关系包括3类：同义关系、相关关系、无关关系；数据元值域根据值域来源和使用方式划分为枚举引它型、枚举自引型、枚举定义型和非枚举型四种类型；数据集标准中使用了医学量表，量表名称和信息从文本中提取，通过补足量表资源建立连接；数据元为医学量表规范化的数据库存储名称，建立数据元和特定医学量表之间的关联。

16、可选的，数据元之间的关系判断方法：

17、识别完数据元概念后，进行数据元同义关系识别，如果在任何同一医学领域主题词表中，数据元的概念相同，则两个数据元为同义关系，相似度标记为1；

18、如果非同义关系，则进入数据元相似度计算程序，两个标准编码和数据元标识完全不同的数据元进行相似度计算，计算方法采用了jaccard相似度，集合的交集和并集的比值，计算公式如下:

19、

20、其中e1，e2分别表示两个数据元，每个数据元的文本被进行分词处理，e为该数据元的数据元名称和数据元定义组成的分词文本，sim_ele_name()表示数据元相似度，a表示e1的分词文本，b表示e2的分词文本，最终相似度结果控制在[0，1]范围；

21、如果两个数据元非同义，则根据计算公式计算第一数据元和第二数据元的相似度值；如果两个数据元的相似度大于数据元同义阈值，二者为候选同义关系；

22、如果两个数据元的相似度大于数据元相关阈值，小于数据元同义阈值，二者为候选相关关系；

23、如果相似度小于数据元相关阈值，仅记录二者相似度值，则标记二者关系为无关。

24、可选的，判断数据元和值域的类型与关系方法如下：

25、a，数据元和对应值域，判断数据元的允许值是否包含标准号或值域代码表编号或名称，通过编码规则库进行判断，如果包括则为枚举引用；如果没有跳转进入下一条件判断；

26、b，如果为枚举引用，进一步判断是否当前引用值域的数据集标准编码或值域代码表编码是当前数据元的标准编号或包含的值域代码表编码，不同则为枚举引它，如果为相同为枚举自引；

27、c，如果允许值域不满足a且值包含“；”分割的数字项则为枚举定义；

28、d，如果不属于c则为非枚举型。

29、可选的，所述多类数据的知识融合具体包括：

30、(1)利用已有唯一编码进行消歧，但跨级别编号还是需要进一步处理；

31、(2)名称规范，通过《ws/t306卫生信息数据集分类与编码规则》、

32、《ws370-2012卫生信息基本数据集编制规范制定规则》规则标准、机构规范库和领域词表、相似度计算和人工核查质控实现命名和编码的归一；其中术语、缩略语也通过领域主题词表、通用主题词表进行语义归并；

33、(3)数据元名称通过数据元间的相似度计算、数据元概念归并和人工判别实现归并；

34、(4)数据值域表名称归并，数据集标准文本中值域表和数据元允许值中均涉及值域表相关名称，包括表号、表编码和表名称，需要结构化处理这三个部分、进行数据纠错、组合归并，并且融合标准号，实现值域表的归并和消除歧义。

35、另一方面，提供一种生物医学数据集标准数据元的知识图谱构建系统，包括以下模块：

36、数据收集模块，收集不同类型的生物医学数据集数据元的相关标准文本和生物医学数据集相关标准的数据；

37、数据分析模块，通过对收集数据元的相关标准文本和生物医学数据集相关标准的数据进行分析和归纳，用于支持构建生物医学数据集标准数据元知识图谱的知识模型和进行数据的解析和细粒度内容抽取；

38、知识模型构建模块，构建生物医学数据集标准数据元知识图谱的知识模型，定义实体类型并同时建立各实体类的属性和实体类型之间的语义关联关系类型；

39、实体类型抽取模块，从结构化数据和结构化数据中的非结构化文本抽取实体类型数据及属性数据；

40、知识图谱获取模块，根据建立的实体类型之间的语义关联关系类型，进行多类数据的知识融合，得到生物医学数据集标准数据元知识图谱。

41、经由上述的技术方案可知，与现有技术相比，本发明公开提供了一种生物医学数据集标准数据元的知识图谱构建方法及系统，收集不同类型的生物医学数据集数据元的相关标准文本和生物医学数据集相关标准的数据；通过对收集数据元的相关标准文本和生物医学数据集相关标准的数据进行分析和归纳，用于支持构建生物医学数据集标准数据元知识图谱的知识模型和进行数据的解析和细粒度内容抽取；构建生物医学数据集标准数据元知识图谱的知识模型，定义实体类型并同时建立各实体类的属性和实体类型之间的语义关联关系类型；从结构化数据和结构化数据中的非结构化文本抽取实体类型数据及属性数据；根据建立的实体类型之间的语义关联关系类型，进行多类数据的知识融合，得到生物医学数据集标准数据元知识图谱。本发明不仅可以增强领域数据集元数据和数据元、分类、值域标准的可用性和利用率，而且还有助于实现数据元的统一和数据集创建的规范性、细化和丰富跨数据集标准、数据元集合、数据元、数据元概念、数据值域之间的关联，以及提高机器可读性和语义互操作性。