一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

可解释分层老年MODS早期死亡风险评估模型、装置及其建立方法与流程

2022-02-22 19:37:51 来源:中国专利 TAG:

可解释分层老年mods早期死亡风险评估模型、装置及其建立方法
技术领域
1.本发明涉及机器学习,尤其涉及针对两类老年人群体,基于可解释机器学习模型的老年多器官功能衰竭早期死亡风险评估模型、装置、及其建立方法。


背景技术:

2.老年人口目前呈指数级增长,且在医疗服务的费用支出比重逐年加重,重症监护室icu的监护压力也在不断增加。由于老年患者生理机能减退且存在多种慢性疾病,其icu期间的病死率相比于成年人要高很多。冠状病毒covid-19的大量研究表明,高龄是死亡的高风险因素,患者最终多因发生了多器官功能衰竭mods而失去生命。大量研究表明,随着年龄增长老年患者的临床特性会发生较大的改变。他们多表现出相比于成年患者的虚弱(即身体各种功能逐渐下降,应激期间储备减少)、认知能力减退和免疫老化。目前有部分研究表明,高龄患者较年轻患者的治疗效果较差且临床常用的疾病严重程度评分如序贯器官衰竭评分sofa、急性生理与慢性健康评分apache-ii等与老年患者真实的疾病严重程度存在较大的偏差。主要原因包含:参数异常范围的变化、未考虑表征老年患者特性的因素以及对复杂疾病的线性评估,且低龄老年患者(65-80岁)和高龄老年患者(80岁以上)存在一定的病理和生理变化。因而采用相同的评估标准可能会造成评估的偏差而导致忽略了疾病的凶险。
3.近年来基于电子健康档案的疾病预测模型研究极大的促进了开发更为精准的疾病风险早期评估模型/评分,但较多研究受限于有限的样本集(如单中心、小样本、来自一个国家)使得模型的普适性、鲁棒性无法得到保证。尽管有些基于深度学习的预测模型取得了良好的预测性能,但受限于其黑箱原理导致无法被医生理解和信任,也一定程度上影响了模型的推广和使用。


技术实现要素:

4.鉴于上述问题,本技术针对低龄和高龄的老年多器官功能衰竭患者,基于来自不同国家和多个地区医院的多中心数据集分别开发可早期评估icu住院期间死亡风险的预测模型,并同步呈现模型的推理分析原因便于医生的理解,以真正帮助医生进行辅助诊疗。
5.一方面,本技术提出一种可解释分层老年mods早期死亡风险评估模型,其包括评估模块;所述评估模块基于融合了shap方法的xgboost模型,所述评估模块包括多个特征;
6.所述评估模块分为针对年龄大于等于65岁但小于80岁的mods患者的低龄老年评估子模块和针对年龄大于等于80岁的mods患者的高龄老年评估子模块;
7.对于低龄老年评估子模块,所述多个特征中按照其重要性由高到低的前20个特征为:gcs、查尔森合并症指数、是否进行机械通气、呼吸频率、尿素氮、休克指数、心率、bmi、体温最低值、一天内的总尿量、体温最高值、年龄、使用去甲肾上腺素的速率、血氧饱和度、血钾、血糖、红细胞压积比、淋巴细胞、二氧化碳分压和肌酐;
8.对于高龄老年评估子模块,所述多个特征中按照其重要性由高到低的前20个特征为:是否进行机械通气、gcs、呼吸频率、查尔森合并症指数、血氧饱和度、心率、体温最低值、休克指数、一天内的总尿量、体温最高值、肌酐、谷草转氨酶、二氧化碳分压、code status、白蛋白、氧分压、bmi、乳酸、使用去甲肾上腺素的速率和淋巴细胞;
9.所述评估模块基于对应于所述多个特征中的至少一些特征的输入特征进行死亡风险评估;且所述评估模块对所述输入特征对评估结果的重要性进行排名并计算出每个所述输入特征对评估结果的贡献作为风险因素贡献程度。
10.优选地,所述多个特征来自于6类数据;该6类数据分别为:
11.个人信息,其包括:年龄、性别、bmi指数;
12.虚弱和神经,其包括:gcs、查尔森合并症指数、code status;
13.生命体征,其包括:心率、呼吸速率、平均动脉压、收缩压、舒张压、中心静脉压、体温、血氧饱和度、休克指数;
14.液体出量,其包括:尿量;
15.实验室检查,其包括:氧分压、吸入氧浓度、二氧化碳分压、氧合指数、白蛋白、碱性磷酸酶、丙氨酸转氨酶、天冬氨酸转氨酶、碱过量、凝血酶原时间、部分凝血活酶时间、碳酸氢盐、胆红素、脑钠肽、血尿素氮、肌酐、氯化物、纤维蛋白原、葡萄糖、血细胞比容、血红蛋白、国际标准化比率、乳酸、淋巴细胞、镁离子、中性粒细胞、血小板、钾离子、ph、钠离子、肌钙蛋白和白细胞;
16.治疗,其包括:是否进行机械通气、是否进行连续性肾脏替代治疗、去甲肾上腺素使用速率、是否使用多巴酚丁胺、是否使用多巴胺、是否使用肾上腺素。
17.优选地,对于低龄老年评估子模块,所述输入特征为其多个特征中按照其重要性由高到低的前10、15、20或79个特征;
18.对于高龄老年评估子模块,所述输入特征为其多个特征中按照其重要性由高到低的前10、15、20或79个特征。
19.优选地,包括数据处理模块;
20.数据处理模块自所述老年患者在icu中第一天的数据中经过处理获取输入特征,以输入所述评估模块。
21.另一方面,本技术提出一种可解释分层老年mods早期死亡风险评估装置,其包括计算单元,所述计算单元用于执行上述的可解释分层老年mods早期死亡风险评估模型;所述模型采用其所融合的shap方法获得单独患者的风险因素贡献程度评估;其中,采用第一颜色代表该因素当前处于异常状态对患者的结局产生危害影响,采用第二颜色代表该因素当前处于正常状态对患者的结局不产生危害影响,且shap值越大对结局的影响程度越大。该计算单元可以是cpu、单片机、计算机、智能设备等。
22.再一方面,本技术提出一种建立可解释分层老年mods早期死亡风险评估模型的方法,其包括:
23.数据集构建、数据处理、模型构建与评估;
24.在数据集构建中,根据序贯器官衰竭评分获取多个重症监护数据集中的低龄和高龄老年多器官功能衰竭患者的研究数据集;确定研究变量,所述研究变量包括个人信息、虚弱与神经、生命体征、尿量、实验室检查和治疗;
umc);
42.图10.在old-old群体中预测模型与基线模型和临床评分对比(外部验证,ams-umc);
43.图11.在young-old群体中预测模型与基线模型和临床评分对比(外部验证,mimic-iv);
44.图12.在old-old群体中预测模型与基线模型和临床评分对比(外部验证,mimic-iv);
45.图13.预测模型在young-old和old-old人群中的校准曲线;(a)young-old:cohort 1-2为内部验证,cohort 2-2为在ams-umc的外部验证,cohort 3-2为在mimic-iv的外部验证;(b)old-old:cohort 1-2为内部验证,cohort 2-2为在ams-umc的外部验证,cohort 3-2为在mimic-iv的外部验证;
46.图14.预测模型在外部验证中young-old和old-old人群的种族亚组分析.(a)young-old;(b)old-old;
47.图15.young-old预测模型的top20重要特征排名;
48.图16.old-old预测模型的top20重要特征排名;
49.图17.young-old预测模型的推理可解释分析呈现;(a)非存活患者;(b)存活患者;
50.图18.old-old预测模型的推理可解释分析呈现;(a)非存活患者;(b)存活患者;
51.图19.基于可解释机器学习的老年器官功能衰竭患者icu早期风险评估装置。
具体实施方式
52.本技术基于拥有患者海量且丰富维度信息的电子健康档案,采用融合可解释方法的机器学习模型,针对低龄(65~80岁)、高龄(80岁及以上)老年患者分别开发经过多中心训练、验证的具备普适性、鲁棒性和可解释性的老年多器官功能衰竭死亡风险预测模型,并获得与院内不良结局相关的危险因素和模型的推理过程,最终基于各自模型分别封装为可自动、早期评估老年患者死亡风险的装置。其开发过程如下:(1)构建可支持开发优良评估性能的模型的大样本多中心数据集,基于时间跨度大的单中心开源重症监护数据库medical information mart for intensive care iii(mimic-iii)和多中心开源重症监护数据库eicu collaborative research database(eicu-crd),根据临床诊断标准和临床以及文献知识分别构建针对低龄老年人、高龄老年人的研究数据集;(2)进行数据的清洗和整理,包含数据合并、数据采样、异常值去除、插值、构建统计特征,根据数据的采集和变化特性分别构建了个人信息、神经与虚弱的机体功能信息、生命体征、尿量、实验室检查和治疗6类数据;(3)基于4种机器学习模型(集成学习模型xgboost、逻辑回归lr、随机森林rf和朴树贝叶斯nb模型)分别训练和调优模型,通过7个评估指标(受试者工作特征曲线下面积auroc、特异性、敏感性、准确性、f1值、精准性、精准-召回曲线下面积aupr)和1个功能指标(可解释性)对模型的性能进行评估,获取性能最优模型。并与临床常用的3个评分(急性生理评估评分apsiii、全身性感染相关性器官功能衰竭评分sofa、简化急性生理评分saps)进行对比;(4)采用内部验证、外部验证(荷兰重症监护数据集amsterdamumcdb,ams-umc)、时序验证(mimic-iii的更新数据集mimic-iv 2014年~2019年)、校准曲线、亚组分析(白人、黑人与西班牙裔)和纳入部分特征(79~10个)的方式对预测模型的普适性、鲁棒性进行评
估;(5)基于可解释方法shap获得与低龄和高龄老年多器官功能衰竭患者出现院内不良结局相关联的风险评估因素。并将上述过程进行封装,获得便于医生理解、操作的可全自动早期评估重症监护室icu中老年多器官功能衰竭患者出现不良结局的风险。以帮助医生更加全面和早期的意识到患者的潜在机体状态,为下一步的决策治疗提供帮助。
53.本技术基于电子健康档案,采用集成学习方法评估老年多器官功能衰竭患者的早期死亡风险,具体包括以下几个步骤:
54.步骤1:数据集构建模块
55.获取mimic-iii,eicu-crd,ams-umc,mimic-iv数据库的使用权,利用上述的电子健康档案中详细记录的患者诊疗信息,获取4个数据库中研究的mods患者群体。依据临床的器官功能衰竭评估标准(全身性感染相关性器官功能衰竭评分,sofa)确定发生mods的老年患者。根据图2的纳入和排除标准获得mods患者。进一步结合临床医生的经验(老年患者的特性)和数据库中记录的患者信息,确定后续用于发展预测模型的特征。包括:人口统计学(共3维)、神经与虚弱(共3维)、生命体征(共9维)、实验室检查(共32维)、临床(干预:共6维)和尿量(共1维)。最后根据两个年龄范围(65~80岁和80岁以上)对研究人群和数据进行划分。并将院内死亡患者标注为正样本,其余为负样本。
56.步骤2:数据处理模块
57.针对步骤1确定的研究人群和研究数据集,分别对来自4个数据集的数据进行清理和合并。其中涉及到对稀疏、格式不统一数据的标准化、清洗、异常值去除、采样与插值。其中插值采用相应特征对应的人群中位数,若缺失比例》30%则加入标志特征flag,说明是否有记录(有:1,无:0);基于规整后的数据,进行模型输入特征的构建,即构建统计特征(原值、最大值、最小值、均值、总和),进而获得79个研究特征(个人信息3个、虚弱和神经3个、生命体征12个、尿量1个、实验室检查54个和治疗信息6个)。
58.步骤3:模型构建与评估模块
59.本方法采用融合了shapley additive explanations(shap)方法的集成学习xgboost模型对mods患者两个年龄阶段的死亡风险评估。两个预测模型分别通过将mimic-iii和eicu-crd融合(多中心和大样本)进行模型的训练和调优,并进行内部的验证评估;随后采用7个评估指标和1个功能指标auroc、特异性、敏感性、准确性、f1值、准确性、精准性、auprc和可解释性进行评估;进一步将ams-umc的全部数据用于模型的外部验证;mimic-iv的2014年至2019年数据用于模型的时序验证;我们同步纳入了3个机器学习模型(逻辑回归lr、随机森林rf和朴树贝叶斯nb模型)和3个常用的临床评分(急性生理评估评分apsiii、全身性感染相关性器官功能衰竭评分sofa、简化急性生理评分saps),与本技术选定的模型进行对比;同时基于shap方法获得和患有mods的低龄老年患者和高龄老年患者死亡相关的风险因素及排名;进一步获得模型的校准曲线和对临床重点关注的种族性能的评估(白人vs.非洲裔和西班牙裔);并评估模型减少纳入变量预测性能的改变(全部特征79个至10个特征)。最终将经过充分评估的模型和数据处理环节的相关模块进行封装获得针对两个年龄段的风险评估模型和装置。
60.本技术提供了具备可解释功能的针对进入icu发生器官功能衰竭的低龄老年患者和高龄老年患者的早期死亡风险评估模型和装置,具体包括以下步骤:获取患者住icu期间第一天的3个个人信息、评估与老年相关的虚弱和神经功能3个、生命体征11个、液体出量尿
量1个、实验室检查55个和治疗信息6个;上述存在多个累积数据的变量经过装置的数据处理模块获得了可以直接输入模型的特征,进一步经过风险评估模块的计算,和可解释方法对模型评估过程的可视化即重要的风险因素对患者结局的贡献比;最终获得两个年龄层早期预测老年患者发生不良结局(死亡)的风险和模型推理的解释。
61.下面将结合图1-19对本发明进行详细说明。
62.本发明提出的基于高质量、大样本和丰富维度的电子健康档案数据,发展用于早期评估和预测在icu场景中两类潜在危险群体(低龄和高龄的mods老年患者)在住院期间出现不良结局的风险,并经过全面的评估指标和外部验证获得鲁棒、普适、可被理解和信任、临床可落地的风险评估模型。结合老年患者的特性,全自动地对两个年龄分层的老年多器官功能衰竭患者的疾病严重程度进行及早的评估,以辅助医生对有恶化风险的患者及早干预和治疗。本发明利用了电子健康档案收集的丰富信息,这些立体的数据可表征患者住院期间的疾病发展轨迹,通过机器学习模型挖掘数据与目标之间的复杂非线性关联性,获得相比于临床使用的评分性能更为良好的预测模型。同时由于数据量非常庞大且来自多个中心,可开发更为普适通用的模型,这是传统的线性相加临床评分和耗费大量精力和财力开展临床随机对照研究所无法具备的优势。经过多中心和外部验证以及亚组分析等,最终将性能最优的模型和数据处理模型进行封装,可以集成到现有的ehr信息系统,可自动的获取分析结果和可视化的原因,为医生的治疗评估提供参考依据,且不增加医护人员的工作负荷。
63.本发明中提出的过程主要包括3个模型:(1)数据集构建模块,基于4个重症监护数据集,与临床医生共同确定的研究人群的纳入和排除标准以及研究变量,获取低龄和高龄mods老年患者的研究数据集;(2)数据处理模块:根据步骤(1)获取的两个年龄群分别4个原始研究数据集,对数据进行清洗、规则、采样和插值。进一步根据数据特性完成统计特征的构建,获得了6类研究特征数据;(3)基于(2)中获得的数据,将其输入选定的机器学习模型,基于选定的模型训练集完成模型的构建和参数调优,并进行内部验证的性能评估。随后基于选定的外部/时序验证数据集,确定的7个评估指标和1个功能指标以及亚组分析、纳入部分特征的内容,对模型的预测性能进行进一步的评估,以获取模型的可推广性、普适性和鲁棒性。进而将性能表现最为优良的模型和数据处理环节进行封装,获得可以全自动帮助医生早期获取患者死亡风险和危险因素排名,以辅助医生疾病诊断和治疗。
64.本发明中提出的源自多中心的电子健康档案数据集开发针对低龄和高龄老年多器官功能衰竭患者的icu早期死亡风险评估方法,其预测性能一致优于基线模型和临床评分,可为医生早期评估患者病情提供更加便捷、精确的评估方法。其首次针对低龄和高龄老年患者分别构建风险评估模型,采用了多中心、大样本的数据集(36185名患者)进行模型训练和经过多中心、多国家的外部验证(10595名患者),性能均表现出良好的普适性和鲁棒性;同时该方法获得了与低龄和高龄老年mods患者死亡风险相关联的危险因素排名,其中格拉斯哥评分、查尔森合并症指数、呼吸频率和是否进行机械通气对于两个年龄群体均十分关键且位于危险因素排名的前4位。其中对于高龄老年患者,患者的code status对于患者的结局也具有重要的评估作用;最后该方法将两个年龄分层的模型进行融合,内置了并行计算,可以自动化、便捷地早期评估老年mods患者出现院内不良结局(死亡)的风险。
65.本发明提出的一种基于电子健康档案的低龄和高龄老年多器官功能衰竭早期死
亡风险可解释评估和危险因素排名的方法。其具体的实现如图1所示,包括以下步骤:
66.本发明中的数据集构建模块过程如下:
67.将mimic-iii,eicu-crd,ams-umc和mimic-iv(2014-2019)根据sofa评分即至少两个器官系统发生衰竭的老年患者(年龄≥65岁)作为基础人群,进一步根据图2所示的筛选标准进一步获取本研究所涉及的群体(第一次入院,入icu的患者;icu时长≥24小时;入icu的第一天内存在测量心率、呼吸速率、平均动脉压、gcs、体温和氧饱和度)。图3-图6为各个数据集中患者的具体筛选流程。因此mimic-iii中低龄老年mods患者为9396名(12.4%mortality)和6338名的高龄老年mods患者(18.4%mortality)。eicu-crd中低龄老年mods患者为18287名(10.8%mortality)和11211名的高龄老年mods患者(13.8%mortality)。ams-umc中低龄老年mods患者为1297名(12.6%mortality)和608名的高龄老年mods患者(21.4%mortality)。mimic-iv中低龄老年mods患者为5517名(10.5%mortality)和3173名的高龄老年mods患者(16.1%mortality)。将mimic-iii和eicu-crd的数据进行融合用于获取模型。图2展示了合并后的3个研究数据集中研究样本集的大小和正样本的比例,来自mimic-iii和eicu-crd、ams-umc、mimic-iv的研究人群分别称为cohort1、cohort2、cohort3。低龄和高龄老年患者分别用

cohortn-1’和

cohortn-2’表示。表1为来自3个研究群体的2个年龄分层的患者的人口基线对比结果。表2为与医生共同确定的模型所需纳入的研究变量,包括3个人口统计学(年龄、性别、bmi)、3个神经与虚弱指标(格拉斯哥评分gcs、查尔森合并症指数、code status)、9个生命体征(心率、呼吸速率、平均动脉压、收缩压、舒张压、中心静脉压、体温、血氧饱和度、休克指数)、32个实验室检查(氧分压(pao2)、吸入氧浓度(fio2)、二氧化碳分压(paco2)、氧合指数、白蛋白、碱性磷酸酶、丙氨酸转氨酶(alt)、天冬氨酸转氨酶(ast)、碱过量(be)、凝血酶原时间(pt)、部分凝血活酶时间(ptt)、碳酸氢盐、胆红素、脑钠肽(bnp)、血尿素氮(bun)、肌酐、氯化物、纤维蛋白原、葡萄糖、血细胞比容、血红蛋白、国际标准化比率(inr)、乳酸、淋巴细胞、镁离子、中性粒细胞、血小板、钾离子、ph、钠离子、肌钙蛋白和白细胞)、1个液体出量(尿量)和6种治疗方式(机械通气、连续肾脏透析、多巴酚丁胺、多巴胺、肾上腺素和去甲肾上腺素)。
68.表1. 3个研究群体在两个年龄组中的人群基线对比
69.70.[0071][0072]
表2.预测模型纳入的研究变量
[0073]
[0074][0075]
本发明中的数据处理模块过程如下:
[0076]
通过过程(一)获得的3个研究群体和确定的研究变量的原始数据,输入到数据处理模块完成模型构建前的准备工作。

数据清洗,包括确定3个研究人群(4个数据集)各个变量的统一名称,同时也将同一数据集中的相同变量的多种表达方式进行合并。将各个变量基于生理边界范围的信息进行去除;

数据采样,将icu第一天内每小时存在多个值记录的变量(生命体征)进行降采样的处理(求均值处理);

数据插值,将变量整个人群中缺失比例低于30%的变量采用人群的中位数进行插补,超过30%的缺失比例的变量需要添加标签列,用于标识变量是否真实测量(如lactate和lactate_flag);

统计特征构建,将(一)中提及的变量在入icu的头24小时的数据进一步进行抽取统计特征,其抽取统计特征的名称如表2所示,最终获得的特征名称如表3所示。其中个人信息3个、神经与虚弱3个、生命体征11个、尿量1个、实验室检查55个、治疗信息6个。表3还同步呈现了各个研究人群中低龄和高龄组中所有研究变量的缺失比例。
[0077]
表3. 3个研究群体的变量缺失比例
[0078]
[0079]
[0080][0081]
本发明中的模型构建与评估模块过程如下:
[0082]

模型构建与训练,分别针对低龄和高龄患者构建模型。模型构建采用源自80%的
[0083]
cohort1-n人群,本研究选用集成学习模型xgboost,将(二)中获取的研究特征输入到预测模型中。在此基础上80%的数据集会进一步分为80%用于模型的训练和20%用于模型参数的调优。最终获得的模型运行函数和超参数设置为:
[0084]
params={'base_score':0.5,'booster':'gbtree','colsample_bylevel':1,'colsample_bynode':1,'colsample_bytree':1,'gamma':0,'learning_rate':0.025,'max_delta_step':0,'max_depth':7,'min_child_weight':4.0,'missing':1,'n_estimators':430,'n_jobs':-1,'nthread':none,'objective':'binary:logistic','random_state':0,'reg_alpha':0,'reg_lambda':1,'scale_pos_weight':1,'seed':none,'silent':none,'subsample':0.85,'verbosity':1}
[0085]
model_use=xgboost.xgbclassifier(**params)
[0086]
explainer=shap.treeexplainer(model_use)
[0087]
20%的cohort1-n人群用于模型的内部验证。为了后续对比模型的性能,我们同步
训练了3个机器学习模型(逻辑回归lr、随机森林rf和朴树贝叶斯nb模型)。图7和图8呈现了低龄和高龄模型的内部验证结果,xgboost(我们的模型)性能一致优于3个机器学习模型和3个临床评分。低龄老年人预测结果auroc:xgboost(0.866),lr(0.844),rf(0.792),nb(0.784),apsiii(0.753),saps(0.742),sofa(0.706)。高龄老年人预测结果auroc:xgboost(0.821),lr(0.793),rf(0.742),nb(0.731),apsiii(0.697),saps(0.708),sofa(0.673);

模型的性能评估,将cohort2和cohort3的所有患者均作为评估人群。采用3种方式(外部验证、时序验证、亚组分析)进行性能评估。将本研究选定模型分别与3个上述提及的机器学习模型(逻辑回归lr、随机森林rf和朴树贝叶斯nb模型)和3个常用临床评分(急性生理评估评分apsiii、全身性感染相关性器官功能衰竭评分sofa、简化急性生理评分saps)进行对比。选取了7个评估指标和1个功能指标用于定量和定性的评估模型和其他对比模型/评分的性能。图9和图10呈现两个年龄群体外部验证结果,xgboost一致优于其他模型和临床评分。低龄老年人预测结果auroc:xgboost(0.856),lr(0.836),rf(0.795),nb(0.767),apsiii(0.775),saps(0.766),sofa(0.628)。高龄老年人预测结果auroc:xgboost(0.853),lr(0.831),rf(0.796),nb(0.784),apsiii(0.732),saps(0.774),sofa(0.628)。图11和图12呈现两个年龄群体时序验证结果,xgboost一致优于其他模型和临床评分。低龄老年人预测结果auroc:xgboost(0.845),lr(0.822),rf(0.772),nb(0.772),apsiii(0.819),saps(0.733),sofa(0.689)。高龄老年人预测结果auroc:xgboost(0.776),lr(0.723),rf(0.701),nb(0.697),apsiii(0.819),saps(0.733),sofa(0.689)。图13呈现两个年龄群体的模型在内部验证、外部验证和时序验证的校准曲线性能,模型的结果与y=x曲线具有较好的贴近。图14呈现两个年龄群体预测模型在各个种族(白种人、黑人和西班牙裔)的偏倚情况,模型在各个种族性能的差别较小,其中黑人与西班牙裔的性能越低于白人。表4和表5呈现了模型在两个年龄群的内部验证、外部验证、时序验证7个指标的详细性能呈现。表6和表7呈现了详细地两个年龄群的模型与3个机器学习模型和3个临床评分的预测性能对比;

基于shap方法可以获得低龄老年mods和高龄老年mods预测模型在评估疾病风险的危险因素排名,图15和图16分别呈现了top20的重要特征。低龄老年mods风险因素排名为:gcs、查尔森合并症指数、是否进行机械通气、呼吸频率、尿素氮、休克指数、心率、bmi、体温最低值、一天内的总尿量、体温最高值、年龄、使用去甲肾上腺素的速率、血氧饱和度、血钾、血糖、红细胞压积比、淋巴细胞、二氧化碳分压和肌酐。高龄老年mods风险因素排名为:是否进行机械通气、gcs、呼吸频率、查尔森合并症指数、血氧饱和度、心率、体温最低值、休克指数、一天内的总尿量、体温最高值、肌酐、谷草转氨酶、二氧化碳分压、code status、白蛋白、氧分压、bmi、乳酸、使用去甲肾上腺素的速率和淋巴细胞。图17和图18为基于可解释预测模型呈现了两个年龄分层4个患者的疾病严重程度评估的分析原因,呈现了危险因素和保护因素以及各自在评估患者的结局所占的比重。表9为根据上述的特征排名,分别纳入前79个(全部)、前25个、前20个、前15个和前10个重要的特征模型的预测性能的结果,可以看出性能略有下降,但是模型的性能在各种方式的评估中绝大部分依旧优于常用的临床评分。最终,将上述提及的数据处理过程、两个预测模型(低龄和高龄老年人)、可解释功能进行封装,形成可以自动进行数据清洗、计算、评估和给出分析原因的装置,如图19所示。
[0088]
表4.young-old死亡风险预测模型验证结果
[0089]
指标(95%ci)内部验证外部验证,欧洲时序验证,美国
auroc0.866(0.849-0.881)0.856(0.82-0.888)0.845(0.828-0.862)敏感性0.816(0.781-0.848)0.847(0.786-0.906)0.821(0.786-0.856)特异性0.742(0.727-0.754)0.718(0.688-0.749)0.702(0.686-0.715)准确性0.748(0.736-0.761)0.733(0.706-0.761)0.713(0.7-0.726)f1值0.425(0.397-0.452)0.444(0.384-0.5)0.375(0.348-0.401)精准性0.287(0.263-0.31)0.301(0.252-0.349)0.243(0.223-0.264)auprc0.521(0.473-0.569)0.498(0.415-0.597)0.416(0.373-0.465)
[0090]
表5.old-old死亡风险预测模型验证结果
[0091][0092][0093]
表6.young-old预测模型与机器学习模型和临床评分的对比
[0094]
[0095][0096]
[0097]
表7.old-old预测模型与机器学习模型和临床评分的对比
[0098]
[0099][0100]
表8.young-old和old-old预测模型基于shap方法的特征排名
[0101]
[0102]
[0103][0104]
表9.young-old和old-old预测模型纳入部分特征模型性能
[0105][0106]
本发明的优点在于:
[0107]
(1)分别针对icu中的两个高危群体(低龄和高龄mods老年患者)可早期预测院内不良结局发生概率和风险因素的贡献程度,进而辅助医生对患者进行及早干预和治疗;
[0108]
(2)经过大样本、多中心数据集的训练,和外部、时序验证,校准曲线的对比以及关于种族的亚组分析,采用7个评估指标和1个功能指标对模型的性能进行评估,模型性能良
好和普适,且一致优于基线模型和临床现有评分;
[0109]
(3)可分别提供针对低龄和高龄老年患者与不良结局发生关联的重要因素和排名,帮助医生理解疾病的发展过程;
[0110]
(4)可根据实际应用场景选择输入数据的个数为10~79,均可获得满足临床需求的预测评估性能;
[0111]
(5)风险预测装置即可全自动输出早期对患者发生院内不良结局(死亡)的风险评估结果和可视化风险推理过程,可便捷部署于医院信息系统,便于医生的操作和使用。
[0112]
除非另有定义,本技术中使用的所有技术和/或科学术语具有与由本发明所涉及的领域的普通技术人员通常理解的相同含义。本技术中提到的材料、方法和实施例仅为说明性的,而非限制性的。
[0113]
虽然已结合具体实施方式对本发明进行了描述,在本技术的发明主旨下,本领域的技术人员可以进行适当的替换、修改和变化,这种替换、修改和变化仍属于本技术的保护范围。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献