技术新讯 > 医药医疗技术的改进,医疗器械制造及应用技术 > 小模型训练方法、治理肿瘤临床记录数据的方法及其装置与流程  >  正文

小模型训练方法、治理肿瘤临床记录数据的方法及其装置与流程

  • 国知局
  • 2024-07-12 10:38:44

本公开涉及医疗数据处理领域,并且具体地,涉及小模型训练方法、治理肿瘤临床记录数据的方法及其装置。

背景技术:

1、肿瘤临床记录数据是医疗领域中的重要资料,它包含了患者的详细信息,如个人资料、病史、肿瘤的描述、治疗方案和随访信息等。由于这些数据的复杂性与多样性,其治理任务,如整合、分类、去重和质量检查,变得尤为关键和具有挑战性。

2、目前训练肿瘤临床记录数据的治理的专门模型,主要依赖于人工进行大量数据的结构化处理和标注。人工标注的流程如:数据→人工标注→训练专有模型。由于人工标注花费时间较长,成本高,导致训练专有任务模型花费时间长;同时,当需要构建处理不同任务的模型时,需要重新进行标注流程造成效率降低。因此,如何进一步提高标注效果和效率,这是目前需要解决的主要痛点。

3、在此背景下,深度学习已经证明是一种有效的工具来处理这些复杂的数据。特别是本文中提到的“具有肿瘤专业知识的定制大模型”,它是经过大量肿瘤专业数据训练的,具有出色的泛化能力和对肿瘤数据的深入理解。此模型可以为肿瘤领域的决策提供强大的支持和辅助。但是,尽管大模型在性能上有其优越性,其巨大的结构和计算需求却使得在实际应用中的部署变得困难。因此本公开从优化机器学习在肿瘤临床记录数据的治理业务过程中的使用,并且更高效的使用大模型和小模型进行推理,提出了一种结合大模型和小模型的策略:首先针对抽取/简单逻辑判断的业务场景,使用“小模型”进行推理,通过大模型对大量数据进行自动标注,随后利用这些标注数据训练一系列更为轻量化的专门模型。然后,针对复杂逻辑判断的业务场景,仍然使用大模型提供推理。

技术实现思路

1、针对上述技术问题,本公开提供了用于医疗数据处理与深度学习模型的知识蒸馏方法。具体来说,它涉及利用定制的肿瘤专业大模型对肿瘤临床记录数据进行结构化处理以及自动标注,并将这些知识迁移到一系列专门的小模型,以满足肿瘤临床记录数据治理的实际需求。

2、根据本公开的一方面,提供了一种用于处理肿瘤临床记录数据的小模型训练方法,该方法包括:获取肿瘤相关数据,并基于肿瘤相关数据对基座大模型进行预训练,以获得具有肿瘤专业知识的定制大模型;获取肿瘤临床记录数据,并通过定制大模型针对获取的肿瘤临床记录数据执行结构化处理任务和逻辑判断任务,以获得定制大模型的标注结果,定制大模型的标注结果包括结构化文本和推理文本,其中结构化处理任务包括对肿瘤临床记录数据中多种类别的信息进行理解抽取以获得结构化文本,逻辑判断任务包括结合肿瘤专业知识对肿瘤临床记录数据进行推理以获得针对肿瘤临床记录数据的推理文本;以及基于定制大模型生成的标注结果,分别以文本生成形式和分类形式将结构化文本和推理文本作为训练数据来训练多个小模型,其中,多个小模型包括结构化类小模型和推理类小模型,结构化类小模型用于执行结构化处理任务,并且推理类小模型用于执行逻辑判断任务。

3、根据本公开的实施例,文本生成形式包括以抽取肿瘤临床记录数据中的原始词语的形式来生成结构化文本,并且分类形式包括以对肿瘤临床记录数据进行逻辑判断的形式来生成推理文本。

4、根据本公开的实施例,对基座大模型进行预训练包括:使用肿瘤相关的医学知识对基座大模型进行无监督学习;以及通过人工标注的数据对基座大模型进行监督微调,获得能够分析肿瘤临床记录数据的定制大模型。

5、根据本公开的实施例,该方法还包括通过以下步骤对定制大模型进行微调:与肿瘤领域的专家协作,针对结构化处理任务和逻辑判断任务,对定制大模型的标注结果的一部分进行数据标注;并且根据专家标注的数据,对定制大模型进行进一步微调,使得定制大模型能够准确执行结构化处理任务和逻辑判断任务。

6、根据本公开的实施例,该方法还包括通过以下步骤对多个小模型进行微调:在对定制大模型进行进一步微调后,定制大模型针对多个小模型的输出结果的一部分进行数据标注;并且根据定制大模型标注的数据,对多个小模型进行微调。

7、根据本公开的实施例,基于专家标注的数据以第一频率对定制大模型进行微调,并且基于定制大模型标注的数据以第二频率对多个小模型进行微调,其中第一频率远小于第二频率。

8、根据本公开的实施例,多种类别的信息包括与手术名称相关的信息、与手术时间相关的信息、与手术原因和手术内容相关的信息、与并发症发生时间相关的信息以及与术后并发症相关的信息;并且其中,推理文本包括诊断诊疗结果和疗效评价结果。

9、根据本公开的实施例,结构化类小模型包括手术名称抽取模型、手术时间抽取模型、手术原因和手术内容抽取模型、并发症发生时间抽取模型以及术后并发症抽取模型。

10、根据本公开的实施例,推理类小模型包括诊断诊疗结果判断模型和疗效评价结果判断模型。

11、根据本公开的实施例,定制大模型和多个小模型的结构化处理能力和逻辑判断能力通过准确度、精确度、召回率、f1值以及人工标注的小部分数据来衡量。

12、根据本公开的实施例,肿瘤相关数据包括医学文献、患者记录数据以及放射学图像数据。

13、根据本公开的实施例,肿瘤临床记录数据包括患者的病历、查房记录、病程管理和检查记录。

14、根据本公开的实施例,基座大模型包括llama2大语言模型。

15、根据本公开的实施例,多个小模型能够支持hl7和dicom协议。

16、根据本公开的另一方面,提供了一种用于治理肿瘤临床记录数据的方法,其中,该方法包括通过以下步骤对肿瘤临床记录数据进行整合、分类、去重和质量检查:将肿瘤临床记录数据输入定制大模型,获得定制大模型的标注结果;以及将定制大模型的标注结果作为输入数据输入到多个小模型,获得多个小模型的输出结果,其中,多个小模型是基于上述用于处理肿瘤临床记录数据的小模型训练方法获得的。

17、根据本公开的又一方面,提供了一种用于处理肿瘤临床记录数据的小模型训练装置,其中,该装置包括:用于获取肿瘤相关数据,并基于肿瘤相关数据对基座大模型进行预训练,以获得具有肿瘤专业知识的定制大模型的部件;用于获取肿瘤临床记录数据,并通过定制大模型针对获取的肿瘤临床记录数据执行结构化处理任务和逻辑判断任务,以获得定制大模型的标注结果的部件,定制大模型的标注结果包括结构化文本和推理文本,其中结构化处理任务包括对肿瘤临床记录数据中多种类别的信息进行理解抽取以获得结构化文本,逻辑判断任务包括结合肿瘤专业知识对肿瘤临床记录数据进行推理以获得针对肿瘤临床记录数据的推理文本;以及用于基于定制大模型生成的标注结果,分别以文本生成形式和分类形式将结构化文本和推理文本作为训练数据来训练多个小模型的部件,其中,多个小模型包括结构化类小模型和推理类小模型,结构化类小模型用于执行结构化处理任务,并且推理类小模型用于执行逻辑判断任务。

18、根据本公开的另一方面,提供了一种用于治理肿瘤临床记录数据的装置,其中,该装置包括用于通过对肿瘤临床记录数据进行整合、分类、去重和质量检查的部件,该部件包括:用于将肿瘤临床记录数据输入定制大模型,获得定制大模型的标注结果的部件;以及用于将定制大模型的标注结果作为输入数据输入到多个小模型,获得多个小模型的输出结果的部件,其中,多个小模型是基于上述用于处理肿瘤临床记录数据的小模型训练方法获得的。

19、根据本公开的又一方面,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机可读指令,计算机可读指令在由处理器执行时实现上述用于处理肿瘤临床记录数据的小模型训练方法以及用于治理肿瘤临床记录数据的方法。

20、根据本公开的另一方面,提供了一种计算机可读存储介质,计算机可读存储介质上存储有计算机可读指令,计算机可读指令在由处理器执行时实现上述用于处理肿瘤临床记录数据的小模型训练方法以及用于治理肿瘤临床记录数据的方法。

21、因此,根据本公开实施例的用于处理肿瘤临床记录数据的小模型训练方法和装置、用于治理肿瘤临床记录数据的方法和装置、计算机设备以及计算机可读存储介质,通过结合专门定制的肿瘤专业大模型的能力,以生成大量的标注数据,并使用这些数据训练一系列专门的小模型,以满足肿瘤数据治理的实际需求。

本文地址:https://www.jishuxx.com/zhuanli/20240614/88257.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。