技术新讯 > 医药医疗技术的改进,医疗器械制造及应用技术 > 一种基于知识图谱与大语言模型的医疗数据治理方法和系统与流程 > 正文

一种基于知识图谱与大语言模型的医疗数据治理方法和系统与流程

国知局
2024-07-11 17:37:03

本技术主要涉及医疗数据治理领域，具体而言，本技术涉及一种基于知识图谱与大语言模型的医疗数据治理方法和系统。

背景技术：

1、医疗数据，具体包括医疗文本、医学影像、电子病历等。这些数据普遍存在以下问题：其一，质量不高，存在数据缺失、错误、不一致、冗余等问题，影响数据的可信度和可靠性；其二，数据可用性低，缺乏有效的数据共享、交换、整合、分析机制，导致数据的孤岛现象，限制了数据的价值挖掘和应用。基于此，采集上云的医疗数据需要进行数据治理后克服上述问题从而被使用。

2、然而，目前医疗数据的治理主要还是采用基于规则库的方法对采集的医疗数据进行简单处理；例如，公开日为2022-03-29，公开号为cn114255839a的中国专利申请《一种医疗大数据治理系统及方法》记载了一种医疗大数据治理系统及方法，该方法通过处理器将采集到的医疗数据与所述数据库中存储的医疗数据做对比，将医务人员手动输入的医疗数据转化成数据库中存储的标准化的医疗数据，这样就能够将不同的医务人员输入的第一医疗数据转化成统一标准进行存储，能够对医疗数据进行标准化的治理。然而，这种方法依然是通过编辑标准化规则，生成规则库，将规则库封装成虚拟处理器进行统一治理，无法摆脱人为编辑规则的基本机制，此外，这种方法对数据治理任务的泛化能力很差，治理质量完全依赖规则库的质量及维护能力，治理成本高昂，治理效率一般。

技术实现思路

1、有鉴于此，本技术实施例提供了一种基于知识图谱与大语言模型的医疗数据治理方法和系统，通过基于医疗领域知识图谱和大语言模型的医疗领域的数据治理引擎，对采集接收的医疗数据质量进行自动诊断及自动治理；此外，协同具有医疗数据治理能力的智能体智能控制数据治理任务的执行步骤和执行质量，从而实现数据治理整体智能化，以解决现有技术依赖人工参与数据治理任务带来的问题。本技术具体技术方案如下：

2、根据本技术实施例的一个方面，提供了一种基于知识图谱与大语言模型的医疗数据治理方法，包括：接收目标医疗数据；判断目标医疗数据是否需要数据治理；若是，生成治理指令；根据治理指令，构造治理任务的提示词；将提示词输入数据治理引擎，获得目标医疗数据的数据治理结果；其中，数据治理引擎基于大语言模型和知识图谱实现，知识图谱为医疗领域知识图谱。

3、一示例性实施方式是：根据治理指令，构造治理任务的提示词，具体包括：根据治理指令，启动预先构建的第二智能体，使得第二智能体执行以下任务：接收并理解治理指令；对治理指令进行任务拆解，以获得针对目标医疗数据的数据治理任务的每一步子任务；基于每一步子任务，构造每一步子任务的提示词。

4、一示例性实施方式是：第二智能体的生成方法，具体包括：创建第二智能体实例；编辑并生成任务执行提示词；为第二智能体的工具模块配置外部工具调用接口。

5、一示例性实施方式是：编辑并生成任务执行提示词，具体包括：为第二智能体定义任务角色为医疗数据治理助手；编辑并生成第二智能体执行医疗数据治理任务的执行提示词；其中，执行提示词为对医疗数据治理任务的特点、功能、需求分析范围、具体实施方法的定义。

6、一示例性实施方式是：数据治理引擎基于大语言模型和知识图谱实现，知识图谱为医疗领域知识图谱，具体包括：基于知识图谱的三元组信息生成医疗信息文本；将医疗信息文本作为大语言模型的语料，对大语言模型进行领域微调，以生成能够处理医疗数据治理任务的数据治理引擎。

7、一示例性实施方式是：大语言模型在执行数据治理任务后，将数据治理结果进行三元组抽取，并将抽取的三元组与知识图谱进行知识融合。

8、一示例性实施方式是：数据治理引擎基于大语言模型和知识图谱实现，知识图谱为医疗领域知识图谱，具体包括：将知识图谱的访问接口配置到第二智能体的工具模块；大语言模型通过第二智能体调用知识图谱，执行数据治理任务，以实现数据治理引擎。

9、根据本技术实施例的另一个方面，提供了一种基于知识图谱与大语言模型的医疗数据治理系统，包括：接收模块，被配置用于接收目标医疗数据；判断模块，被配置用于判断目标医疗数据是否需要数据治理；若是，生成治理指令；构造模块，被配置用于根据治理指令，构造治理任务的提示词；治理模块，被配置用于将提示词输入数据治理引擎，获得目标医疗数据的数据治理结果；其中，数据治理引擎基于大语言模型和知识图谱实现，知识图谱为医疗领域知识图谱。

10、一示例性实施方式是：还包括第二智能体，根据治理指令，构造治理任务的提示词，具体包括：根据治理指令，启动预先构建的第二智能体；第二智能体执行以下任务：接收并理解治理指令；对治理指令进行任务拆解，以获得针对目标医疗数据的数据治理任务的每一步子任务；基于每一步子任务，构造每一步子任务的提示词。

11、根据本技术实施例的再一个方面，提供了一种电子设备，包括：至少一个处理器、至少一个存储器、以及至少一条通信总线，其中，该存储器上存储有计算机程序，该处理器通过该通信总线读取该存储器中的该计算机程序；该计算机程序被该处理器执行时实现上述的一种基于知识图谱与大语言模型的医疗数据治理方法。

12、根据本技术实施例的又一个方面，提供了一种存储介质，包括：其上存储有计算机程序，计算机程序被计算机处理器执行时实现上述的一种基于知识图谱与大语言模型的医疗数据治理方法。

13、本技术提供的技术方案带来的有益效果是：

14、1.本技术一实施例通过构造基于医疗领域的知识图谱和大语言模型实现医疗领域的数据治理引擎，利用数据治理引擎，对接收到的医疗数据质量进行智能监控、并对监控结果进行智能治理；提高医疗数据的质量、安全、可用性、可解释性，实现医疗数据的高效治理，避免依靠人工编辑治理规则引发的泛化能力差等问题。

15、2.本技术一实施例启用第二智能体，并为第二智能体设置医疗数据治理助手的角色和执行提示词，使得第二智能体能够理解并自主控制医疗数据治理任务的执行步骤和执行质量；无需人工干预，从而全面实现医疗数据治理的智能化。

16、3.本技术一实施例通过编辑并生成作为医疗数据治理助手的第二智能体处理数据治理任务的执行提示词；其中，执行提示词为对数据治理类型任务的特点、功能、需求分析范围、具体实施方法的定义，从而获得承袭了人工处理医疗数据治理任务的经验和逻辑的第二智能体，确保治理效果较好的迎合后端医疗数据使用的需求。

17、4.本技术一实施例通过将医疗领域知识图谱的三元组转化为医疗信息文本，自动生成丰富且专业的医疗领域语料库，为通识领域大语言模型向医疗领域迁移提供宝贵的训练语料，降低了训练生成具有专业的医疗领域知识的大语言模型的难度和成本。

18、5.本技术一实施例通过使用医疗领域的数据治理引擎对目标医疗数据进行治理，获得数据治理结果，并将数据治理结果进行三元组抽取，并将抽取的三元组与医疗领域知识图谱进行知识融合，不断优化该医疗领域知识图谱的信息完整性和可用性，并协同优化大语言模型，从而形成大语言模型和知识图谱之前的优化闭环，从而不断提升该医疗领域的数据治理引擎的治理能力、泛化能力、可持续性，以应对不断产生的新的治理问题。

19、6.本技术一实施例通过调用医疗领域知识图谱，为大语言模型提供丰富的医疗领域知识，增强其对医疗数据的语义理解、逻辑推理、知识融合等能力，从而为医疗数据治理提供质量保证。

20、上述概述仅仅是为了说明书的目的，并不意图以任何方式进行限制。除上述描述的示意性的方面、实施方式和特征之外，通过参考附图和以下的详细描述，本发明进一步的方面、实施方式和特征将会是容易明白的。