技术新讯 > 计算推算,计数设备的制造及其应用技术 > 基于连续优化的因果发现方法、装置、设备及介质  >  正文

基于连续优化的因果发现方法、装置、设备及介质

  • 国知局
  • 2024-09-05 14:38:20

本发明涉及因果发现领域,具体涉及一种基于连续优化的因果发现方法、装置、设备及介质。

背景技术:

1、因果推断中,通常假设因果图是已知的,即我们知道变量之间可能存在怎样的因果关系,只是需要通过自然实验或观察数据,来判断因果关系是否成立。然而在真实世界中,因果链条往往并不是先验知识,因此需要寻找因果关系。

2、寻找因果关系,传统的方法是通过随机对照实验。但是这种实验方式在实际问题中可能涉及到一些伦理问题,并且通常需要花费大量的人力和物力。因此我们希望寻找一个更切实可行的方法:即因果发现,即从观测数据中发现因果关系。因果发现的主要目的是恢复潜在的因果结构和相关的条件概率分布。学习到的因果结构通常表现为有向无环图(directed acyclic graph, dag),dag表示为,其中表示节点(或特征)集合,是边集合,表示不同变量间的因果关系。

3、在过去的研究中,专家们主要通过领域知识和随机对照实验来构建dag,其缺点是主观性过强和时间成本较多。例如,在医学领域或者疾病诊断领域,基于大脑影像时序数据找出不同脑区之间的因果图、基于细胞内的蛋白质浓度变化推测基因调控网络等现实复杂场景。由于涉及的变量很多,如果通过传统的随机对照实验进行验证,所需做的实验数量是超指数增长的,在现实中是不可接受的。

4、相对来说,观测数据是更容易获取的,特别是在大数据时代。随着数据量的暴增,从纯粹的数据观测中学习因果结构起了相当大的关注。因果发现不同于找到数据间的依赖关系,如果通过观察,发现变量a的值不同时,变量b的分布也不同,那么这两个变量之间就存在依赖关系(相关性)。但只有在变量a能“主动”不同的选择后,变量b的分布发生改变,才能说变量a和b之间存在因果关系。

5、从观测数据中学习因果结构的方法主要包括两大类:

6、(1)基于约束的方法:表示为约束满足问题,主要通过条件独立性测试通过不同变量之间的条件独立性来挖掘因果骨架,然后定向边缘到马尔科夫等价类。这一类别中一些值得注意的算法是pc算法、ic算法和iamb算法。基于约束的方法可以处理更广泛的数据类型和分布,并且它们的计算效率很高,使其具有高度的可解释性。但是,学习过程的准确性取决于执行的条件独立性测试的数量和约束集的大小。它们对条件独立性测试和数据噪声很敏感,而高阶依赖关系对于大型网络和复杂数据来说是不可靠的。

7、(2)基于评分函数的方法:主要通过评分函数来判断网络结构与数据的拟合程度,通过搜索算法来搜索最优结构。常见的评分函数有bic、bdeu、mdl、aic等评分函数,基于评分搜索的结构学习算法主要由评分函数和搜索算法两部分组成。由评分函数来衡量结构与样本数据的拟合程度,结构拟合越好,所得到的评分值越高;通过搜索算法来搜索评分函数最高的网络结构,即通过学习观测数据集找最匹配数据集的结构,本质上是寻找到一个网络结构,使其满足:

8、

9、很多研究提出通过采用贪婪搜索和启发式搜索来解决组合性质的问题,改进算法效果,如遗传算法、粒子群算法、蚁群算法、蜂群算法等。由于这些算法的启发性,往往使算法陷入局部最优。

10、此外,基于观测数据的训练学习算法训练时都呈现出一种表现:随着样本量的增加和样本采样性能表现差异很大。可见数据质量和规模对于算法性能的影响较为严重。

技术实现思路

1、有鉴于此,本公开实施例提供一种基于连续优化的因果发现方法、装置、设备及介质,至少部分解决现有技术中存在的问题。

2、第一方面,本公开实施例提供了一种基于连续优化的因果发现方法,其包括:

3、s101,获取待学习的疾病诊断数据样本集;其中,所述疾病诊断数据样本集由结构方程模型建模得到,所述结构方程模型由权重矩阵决定。

4、s102,通过高斯混合核聚类的方法对所述疾病诊断数据样本集进行聚类,得到特征间相似度高的多个样本集;

5、s103,利用课程学习机制对样本集进行自适应训练,根据训练过程不同样本的表现,将样本分为课程样本和候选样本,并随着训练过程的迭代,根据每一课程学习阶段的候选样本表现不断更新并确定下一课程学习阶段的课程样本,最终学习到全部的训练样本;其中,在迭代过程中,通过动态权重剪枝,根据不同课程学习阶段的课程学习结果动态调整学习边的权重,并在迭代结束后得到最终的权重矩阵;

6、s104,根据最终的权重矩阵得到因果结构,根据所述因果结构,获取到与待诊断疾病相关的影响因素之间的因果关系,从而找到待诊断疾病的直接影响因素和间接影响因素,以辅助疾病的诊断过程。

7、根据本公开实施例的一种具体实现方式,所述因果学习样本为高维特征的数据集;则在步骤s102中,假设疾病诊断数据样本集为,其中,且是由c个高斯分量组成的混合密度中抽取的样本,则概率密度函数为:

8、

9、其中,为高斯参数,、和分别为第个高斯分量的混合系数、均值分量和协方差矩阵;为第个高斯分量的密度函数;

10、引入信息熵到扩展的高斯混合模型中,将高斯向量的协方差矩阵特例化:

11、

12、其中,表示对角元素分别为的矩阵,表示特征对簇的相关性;是簇的局部方差,则第个高斯分量的概率密度函数表示为:

13、

14、其中,p是特征j的个数,是第个特征维度上第个高斯分量的均值,表示样本中特征的值,为局部权向量,满足;

15、通过最小化kl散度估计参数,得:

16、

17、即得到特征间相似度高的样本集;其中,为模糊隶属度值组成的向量,是高斯分量的个数。

18、根据本公开实施例的一种具体实现方式,在步骤s103中,不同样本的表现通过基于无环性约束设计的的课程损失函数来评估;课程损失函数表示为:

19、

20、其中,表示第个课程学习阶段候选样本集中的第个样本,表示加权邻接矩阵,也代表样本在个节点上学习到的图,表示候选样本集中的样本数量,表示课程学习阶段,表示第个课程学习阶段的权重矩阵,表示第个课程学习阶段的课程样本集。

21、根据本公开实施例的一种具体实现方式,步骤s103具体包括:

22、根据课程损失函数获得样本训练过程中的损失,并根据损失更新调整样本学习次序,进而更新课程样本和候选样本;其中,将损失值最小的样本作为下一课程学习阶段的课程样本,并从候选样本集中剔除该样本:

23、

24、在课程样本的每个阶段,从课程样本集中学习,其约束方程如下:

25、

26、使用增广拉格朗日方法来转换约束方程为无约束方程序列,利用增广拉格朗日方法构造得分函数来优化上述约束方程,相应的增广拉格朗日公式如下:

27、

28、表示惩罚参数,表示拉格朗日乘数的估计;当趋于无穷大时,最小化需要满足,通过逐渐增加,最小化增广拉格朗日,并更新拉格朗日乘子以收敛到最优条件。

29、根据本公开实施例的一种具体实现方式,在增广拉格朗日公式中,在的特殊情况下,非光滑项消失,问题简化为无约束光滑最小化问题,用l-bfgs近似算法求解;当时,该问题用pqn方法近似求解。

30、根据本公开实施例的一种具体实现方式,步骤s103中,在迭代过程中,通过动态权重剪枝,根据不同课程学习阶段的课程学习结果动态调整学习边的权重,并在迭代结束后得到最终的权重矩阵,具体包括:

31、首先,计算边的权重和权重系数;其中,设置边的权重,则:

32、

33、其中,表示课程学习阶段的权重矩阵,表示总是出现在第阶段及之前边的权重矩阵;表示出现在下一课程学习阶段的新边的权重矩阵;表示具有在此之前课程学习阶段出现然后消失的边的权重矩阵;

34、计算分数,其中,bic评分函数如下:

35、

36、通过计算分数确定来更新和中边的权重:

37、

38、其中,s表示节点为的dag,是在s中增加了和中边权重不为0的额外边,u为权重更新矩阵,对应边的权重更新系数;

39、根据更新的和得到更新的权重矩阵,并在迭代结束后得到最终的权重矩阵。

40、根据本公开实施例的一种具体实现方式,在动态计算边的权重时,为新的边设置较大的权重,以避免瞬间被丢弃;对于出现之前和之后消失的边,分配较小的权重,以减少数据分布波动造成的误差,对于始终显示的边,不会更新相应的权重。

41、第二方面,本公开实施例提供了一种基于连续优化的因果发现装置,其包括:

42、样本集获取单元,用于获取待学习的疾病诊断数据样本集;其中,所述疾病诊断数据样本集由结构方程模型建模得到,所述结构方程模型由权重矩阵决定;

43、聚类单元,用于通过高斯混合核聚类的方法对所述疾病诊断数据样本集进行聚类,得到特征间相似度高的多个样本集;

44、自适应训练单元,用于利用课程学习机制对样本集进行自适应训练,根据训练过程不同样本的表现,将样本分为课程样本和候选样本,并随着训练过程的迭代,根据每一课程学习阶段的候选样本表现不断更新并确定下一课程学习阶段的课程样本,最终学习到全部的训练样本;其中,在迭代过程中,通过动态权重剪枝,根据不同课程学习阶段的课程学习结果动态调整学习边的权重,并在迭代结束后得到最终的权重矩阵;

45、因果发现单元,用于根据最终的权重矩阵得到因果结构,根据所述因果结构,获取到与待诊断疾病相关的影响因素之间的因果关系,从而找到待诊断疾病的直接影响因素和间接影响因素,以辅助疾病的诊断过程。

46、第三方面,本公开实施例提供了一种基于连续优化的因果发现设备,该设备包括:

47、至少一个处理器;以及,

48、与该至少一个处理器通信连接的存储器;其中,

49、该存储器存储有可被该至少一个处理器执行的指令,该指令被该至少一个处理器执行,以使该至少一个处理器能够执行上述的基于连续优化的因果发现方法。

50、第四方面,本公开实施例提供了一种非暂态计算机可读存储介质,该非暂态计算机可读存储介质存储计算机指令,该计算机指令用于使该计算机执行如上述的基于连续优化的因果发现方法。

51、综上所述,与现有技术相比,本实施例至少具有如下改进:

52、1、为了评估数据样本学习的难易程度,提出了一种基于样本特征的相似度聚类方法,结合了样本各特征之间的相似度和熵值来划分不同类型的样本。

53、2、为了减少数据噪声的干扰,设计了样本间的动态损失函数,通过不同类型样本的学习自适应的调整模型样本学习的顺序,在不同的阶段增量学习课程样本的因果结构。

54、3、通过动态权重剪枝,根据不同课程学习阶段的结果动态调整学习边的权重,过滤得到最终的因果结构。

55、本实施例已经在多个不同规模的疾病诊断数据集上进行了试验,试验结果表明,本实施例显著减少了数据中样本噪声的影响,在不同规模和复杂度的网络上具有良好的泛化能力和较高的准确度。

本文地址:https://www.jishuxx.com/zhuanli/20240905/287447.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。