技术新讯 > 医药医疗技术的改进,医疗器械制造及应用技术 > 一种基于KGLR模型进行输血概率预测的方法和系统 > 正文

一种基于KGLR模型进行输血概率预测的方法和系统

国知局
2024-09-11 14:47:15

本发明涉及数据分析和处理领域，尤其是涉及一种基于kglr模型进行输血概率预测的方法和系统。

背景技术：

1、血液短缺是一个全球性挑战问题，出血风险高的择期手术可能会因血液供应不足而被推迟。准确预测术中用血量、优化血液资源利用、确保择期手术患者及时、安全的救治已成为紧迫的问题。高风险手术患者通常面临术中大出血的风险，因此能否提供血液输注以维持术中失血患者的血液动力学稳定是决定手术能否开展的前提条件。然而，随着医疗技术进步，不是所有患者都需要术中用血。伴随全球血液资源紧张加剧，择期手术可能因缺血而不能如期开展。因此如何精准预测术中用血，最大化合理利用血液资源，保证高风险手术患者得到及时安全救治，成为用血预测中亟待解决的问题。

2、机器学习是一个基于计算建模从数据中学习的人工智能领域。机器学习作为人工智能的一种应用，可用于分析大数据并生成预测结果的算法。机器学习的优势在于个性化预测，能够实现同时处理大量的预测变量，从已知的数据中学习数据隐藏的规律，并以非线性和高度交互的方式将它们整合起来，从患者个体水平来预测结果。因此，基于机器学习算法建立的输血预测模型常用于预测各类手术患者的术中红细胞输血，根据预测结果可以对高危患者采取有针对性的预防措施，减少不必要的成本和副作用，有利于患者的治疗和预后。

3、目前已有大量利用深度神经网络和其他复杂的机器学习模型的研究去解决术中输血预测等相关问题。然而，这些模型的可解释性仍然是一个困难的问题，特别是对于涉及高风险决策的应用，比如临床输血预测问题。此外，当原数据本身没有得到很好地理解时，可解释的模型可以产生更深层次的见解并促进推断与决策。

4、然而，现有技术中的模型的可解释性通常是以模型精度损失作为代价的。比如简单的线性回归模型和基于树的模型可以很轻松地提供对模型做出的特定决策的解释，但通常会在模型性能方面做出一些牺牲，这种牺牲是由于它们各自固有的问题所致：线性模型可能会存在较高的偏差，而基于树的模型则可能出现较高的方差(完全成长的树模型)，导致模型过度拟合。相比之下，更复杂的模型，例如集成模型和近年来流行的深度学习模型，通常能够获得更好的性能，但它们往往被称为“黑盒模型”，因为难以解释模型如何真正做出决策。为了更好的可解释性与预测性能之间的权衡，在先研究提出了各种方法。例如，显著性方法被用于可视化单个输入特征的激活程度，而像lime和shap这样的归因方法则可以量化每个特征对模型输出的影响。然而，这些技术通常是事后解释性的方法，而非旨在简化模型本身。

5、其次，优秀的特征筛选策略能够提高可解释性模型的预测精确度。然而在现有的许多输血预测研究中，所使用的变量筛选方法通常是主观的、准确率低的，比如基于文献检索、临床经验和专家讨论等，还有一些研究通过计算p值、递归特征消除等方法来筛选具有统计显著性的特征，我们指出这些变量筛选方式是次优的。另外，大多数研究所采用的缺失数据推断方式仅使用对应变量的均值或众数，这种方式没有考虑到特征与特征之间的依赖性以及原数据的分布情况。

6、此外，如何进行缺失数据的推断同样是一个重要的问题。在生物医学领域中，数据缺失现象是十分普遍的。例如，临床医生在为患者安排实验室检测时需要考虑经济负担，通过进行最少数量的检测和诊断以有效治疗患者，这个过程中可能会造成数据缺失。对有缺失数据的数据集进行分析可能会导致统计功效的损失或结果出现偏差，因此需要一种可靠的、高效的缺失推断方法。过去大多数临床输血研究对于缺失数据的推断仅限于均值填充(连续型数据)、众数填充(类别型数据)或将缺失率超过给定阈值的样本删除。准确的缺失推断不仅需要建模特征之间的依赖关系，还要考虑原数据的分布，而这些预处理方式无法捕捉到特征与特征之间的依赖关系，甚至会改变原数据的分布，此外，直接删除缺失值样本可能会减少有效样本量，从而影响下游分析的质量。

7、基于深度学习方法的缺失推断是十分有吸引力的，因为神经网络有能力捕捉各变量之间的复杂依赖关系，同时也能学习到数据分布特点，另外，缺失数据可被看作是一种噪声，它对原始数据进行了干扰，利用神经网络自身的正则性，可以达到去噪目的(对原始数据进行重建)。已有各种工作利用深度学习框架探索了缺失推断的应用，但现有的这些方法存在效率较低、算法复杂、计算量大、结果不够精准等缺点。

技术实现思路

1、相比于现有技术，本发明为了解决上述技术问题提出一种基于kglr模型的风险因素分析方法和系统，用于利用该简单、透明、更稀疏和高精度的可解释模型进行快速精确的预测输血高危的样本，这样有助于术前对患者进行输血预测和评估。

2、一方面在本申请改进的方案中，基于所提出的复制掩码机制(copy-masking)方法，构建了一种轻量、高效的缺失推断框架用于推断和填充缺失数据。复制掩码机制(copy-masking)模拟了现实中的一种传播数据的缺失模式，可以在不减少有效样本量的条件下实现缺失推断，整个缺失推断模型是一个自动编码器，它将具有缺失值的原始数据映射到一个隐藏表示，然后再映射到原始的特征空间实现重建。该缺失推断方法在不减少有效样本量的同时，实现对缺失数据的高效且合理的推断。

3、另一方面，本发明改进一种基于knockoffgan框架的新模型kglr，在不假设任何特征分布情况下控制错误发现率(fdr)，挖掘出与响应变量有潜在因果关联的协变量，同时去除了其他冗余的协变量，再使用这些筛选后的特征拟合带有l1正则化的逻辑回归模型完成红细胞输血的预测。

4、综上所述，由于采用了上述技术方案，本发明的有益效果是：

5、本发明提出了一种基于knockoffgan框架的新模型kglr用于进行输血预测，在不假设任何特征分布情况下控制错误发现率，挖掘出与目标变量有潜在因果关联的协变量，同时去除了其他冗余的协变量，然后使用高度可解释的模型来预测手术期间为患者输注红细胞的可能性。改进方案的预测计算方法合理高效，适用于各种场合下的输血预测计算，可以有效提升临床可能的输血预测评估准确度，方案高效实用客观准确。

6、其次本发明还使用了一种深度学习缺失推断框架，弥补了现有技术中在过去临床输血研究中所使用的基于均值、众数缺失推断方式等预处理方式会无法捕捉到特征与特征之间的依赖关系、可能会改变原数据的分布，从而可能影响下游分析的效果等缺陷。相比于使用其他更复杂的机器学习算法，本发明将基于复制掩码机制的缺失推断方法和基于knockoffgan的控制变量选择相结合的kglr模型，提供了一个更简单、更透明、更稀疏的高精度模型，这对于临床输血研究或其他生物医学领域研究的开展有着重要意义。

技术特征：

1.一种基于kglr模型进行输血概率预测的方法，其特征在于，包括如下步骤：

2.如权利要求1所述的一种基于kglr模型进行输血概率预测的方法，其特征在于，所述步骤s01包括：

3.如权利要求1所述的一种基于kglr模型进行输血概率预测的方法，其特征在于，所述步骤s103中利用基于复制掩码机制的缺失推断框架对样本数据进行缺失判断包括：

4.如权利要求3所述的一种基于kglr模型进行输血概率预测的方法，其特征在于，所述步骤s103还包括：

5.如权利要求1所述的一种基于kglr模型进行输血概率预测的方法，其特征在于，所述步骤s102中的knockoffgan框架包含如下子网络：

6.如权利要求5所述的一种基于kglr模型进行输血概率预测的方法，其特征在于，步骤s02包括：

7.如权利要求1所述的一种基于kglr模型进行输血概率预测的方法，其特征在于，所述步骤s03中的同时控制错误发现率和统计功效包括：同时使错误发现率低且统计功效高。

8.如权利要求1所述的一种基于kglr模型进行输血概率预测的方法，其特征在于，所述步骤s03中的错误发现率fdr为：

9.如权利要求1所述的一种基于kglr模型进行输血概率预测的方法，其特征在于，所述步骤s03具体包括：

10.一种基于kglr模型进行输血概率预测的系统，其特征在于，所述系统是基于权利要求1-9中任一输血概率预测方法的步骤对应的模块单元组成的系统，以用于对输血概率进行自动预测和评估。

技术总结本发明提供了一种基于KGLR模型进行输血概率预测的方法和系统，涉及数据分析和处理领域。本发明提供的输血预测方法和系统，将基于复制掩码机制的缺失推断方法和基于knockoffGAN的控制变量选择相结合的KGLR模型，提供了一个更简单、更透明、更稀疏的高精度模型。通过结合改进的KGLR模型和深度学习缺失推断框架，能够在不假设任何特征分布情况下控制错误发现率，挖掘出与目标变量有潜在因果关联的协变量，去除了其他冗余的协变量，使用高度可解释的模型来预测手术期间为输注红细胞的可能性，同时弥补了现有技术中的缺陷，改进方案的预测计算方法合理高效，适用于各种场合下的输血预测计算，可以有效提升可能的输血预测评估准确度，方案高效实用客观准确。技术研发人员：杨亮,陈柏辉,陈春霞,张洺铨受保护的技术使用者：四川大学技术研发日：技术公布日：2024/9/9