技术新讯 > 计算推算,计数设备的制造及其应用技术 > 一致性约束下的记忆动态化医学图像问答分类系统及方法 > 正文

一致性约束下的记忆动态化医学图像问答分类系统及方法

国知局
2024-07-31 22:58:40

本发明涉及一种针对医学图像问答的深度神经网络，尤其涉及一种一致性约束下的记忆动态化医学图像问答分类系统及方法。

背景技术：

1、跨媒体技术的目标是克服不同媒体之间的"语义鸿沟"，实现跨媒体语义的统一表达。在深度学习出现之前，由于多媒体数据本身的语义复杂性，这一问题一直未能得到有效解决。近年来，随着深度学习在各个研究领域取得的惊人进展，它通过复杂的神经网络模型，可以端到端地对需要解决的任务进行建模，从而学习跨媒体数据的深度统一表达。基于深度模型强大的语义表达能力，深度跨媒体统一表达模型目前已成为主流方法。

2、这种进步使各种视觉语言任务取得了显著进展，如视觉检索、视觉字幕、视觉接地和视觉问答。在这些任务中，视觉问答是一个具有挑战性的任务，需要在高粒度水平上对单模态内容进行深入的理解，并强调建立跨模态关联以生成可靠的答案。

3、视觉问答技术的巨大潜力吸引了研究人员探索其在医学领域的应用,从而引发了医学视觉问答的兴起。医学视觉问答技术作为宝贵的医疗援助拥有巨大的前景，它可以及时呈现基于医学图像和相关问题的诊断结果，使患者可以更深入地了解其健康状况，并且协助医疗专业人员做出准确的临床决策，从而减轻医疗资源的压力。尽管此技术拥有巨大潜力，但医学视觉问题回答仍处于起步阶段，现有的解决方案很大程度上采用基础的视觉问答管道：从图像和问题中提取语义特征，将视觉特征和语言特征融合以形成多模态特征，和训练多类分类器来准确预测最好的答案。

4、医学视觉问答的一致性反映了从不同的语义角度回答关于特定视觉事实的问题而没有矛盾的能力。为了评估和衡量一致性，现有的工作提出了不同的数据集来探测模型的理解能力。具体来说分析了医学视觉问答模型的不一致性，并强调了考虑预测之间的关系来评估真实理解的必要性。尽管在管理问题之间不受限制的关系方面取得了进展，但在医学视觉模型中保持一致性仍然有限，这导致对整体性能产生负面影响。考虑到加入一致性约束，引入了一种新的损失函数，用于增强医学视觉问答模型中的一致性。认识到提供一致的医学问题的答案的能力是临床决策和诊断中最重要的。

5、综上所述，医学视觉问答的难点在于如何基于医学图像和伴随的问题提供基于模仿人类诊断过程的诊断结果和确保结果一致性方面的表现，从而支持医疗专业人员做出准确的临床决策。

技术实现思路

1、本发明的目的是真的现有技术的不足，提供一种一致性约束下的记忆动态化医学图像问答分类系统及方法。

2、本发明解决其技术问题所采用的技术方案如下：

3、步骤(1)、构建一种新的二元关系，在问题数据集中将推理问题和感知问题联系起来，通过文本编码器和视觉编码器获取文本特征和视觉特征，构建能够嵌入记忆空间的文本特征i和视觉特征i；

4、步骤(2)、构建动态记忆分类引擎：基于通过二元关系提取的文本特征i和视觉特征i，构建动态记忆分类引擎，根据主要问题和上下文问题更新关键的医学视觉线索来动态地升级模型的分类性能；

5、步骤(3)、构建一致性条件执行器，利用来自动态记忆分类引擎的最后一次推理迭代结果和相应的文本特征作为输入，并将迭代结果和相应的文本特征注入到两个多模态融合算子中，此外在候选答案中通过两个分类器来生成两组置信分数，通过两组置信分数和相应的真实答案构建两组交叉熵损失，之后通过自适应铰链损失来惩罚两组交叉熵损失来加强一致性；

6、进一步的，步骤(1)所述的构建一种新的二元关系，在问题数据集中将推理问题和感知问题联系起来，具体如下：

7、为了建立与统一医学事实对应的不同问题之间的关系，首先在问题集q＝{q(1)，...，q(i)，...，q(j)，...，q(n)}中抽取两个问题建立一个新的二元关系如果推理问题q(i)和感知问题q(j)来自同一个视觉事实，将其表示为在形式上，将推理问题定义为主要问题{q(m)}∈q，而将感知问题定义为上下文问题{q(c)}∈q。并且在训练时将具有关系的q(m)和q(c)绑在一起训练。之后通过文本编码器得到文本特征和通过视觉编码器得到视觉特征x＝x(1)，...，x(i)，...，x(k)。为了将文本特征和视觉特征x(i)输入到动态分类引擎中，通过一个前馈神经网络将文本特征和一个1×1的卷积神经网络将视觉特征x(i)嵌入转换到记忆空间中，如公式(1) (2) (3)所示：

8、

9、

10、fi＝relu(conv(x(i))) (3)

11、其中，fi表示视觉语义特征、qm表示主要问题语义特征、qc表示上下文问题语义特征；wq、bq表示权重参数。

12、步骤(2)具体如下：

13、2-1.在第t轮推理迭代中，视觉语义特征fi、主要问题语义特征qm和上一次迭代的主记忆片段的相似概率表示为如公式(4)所示：

14、

15、

16、

17、同样，在第t轮推理迭代中，视觉语义特征fi、主要问题语义特征qc和上一次迭代的上下文记忆片段的相似概率表示为如公式(5)所示：

18、

19、

20、

21、其中，γ(·)表示元素级乘积函数，γ(·)表示元素级相减取绝对值函数，[·；·]表示矩阵连接操作。

22、2-2.考虑到不同问题之间的本质关系，动态记忆分类引擎可以实现交互式推理，即支持主记忆和上下文记忆之间的动态交互。当模型读取主要问题引导的证据来更新主记忆片段时，上下文记忆为学习分类注意力提供了线索，同样，主记忆片段也帮助上下文片段引导更新，如公式(6) (7) (8) (9)所示：

23、

24、

25、

26、

27、其中，作为中间参数；表示第t轮中的交互式分类注意门，来自步骤2-1；ψ表示前馈神经网络，和分别表示tanh和softmax非线性激活层。

28、2-3.将交互式分类注意门和作为一个基于双向注意力的循环神经网络中的更新注意门来获得分类上下文和在第t轮推理迭代中，两个记忆被迭代更新的过程如公式(10) (11)所示：

29、

30、

31、其中，表示relu非线性函数。

32、步骤(3)所述的构建一致性条件执行器，利用来自动态记忆分类引擎的最后一次推理迭代结果和相应的文本信息作为输入，并将它们注入到两个多模态融合算子中，此外在候选答案中通过两个分类器来生成两组置信分数，通过两组置信分数和相应的真实答案构建两组交叉熵损失，之后通过自适应铰链损失来惩罚两组交叉熵损失来加强一致性，具体如下：

33、一致性条件执行器进一步加强了模型诊断的一致性，使用最小化预测答案和真实答案之间的交叉熵损失，如公式(12)所示，

34、lce(ρ，a)＝crossentropy(ρ，a) (12)

35、其中，ρ表示预测答案，a表示真实答案；

36、此外一致性体条件执行器利用来自步骤3-3的主记忆和上下文记忆，将他们放入两个多模态融合算子和中，其中分解池的因子为κ，通过两个分类器来得到每一个候选项的置信分数，如公式(14)(15)所示：

37、

38、

39、通过惩罚具有较高值的lce(ρm，am)和较低值的lce(ρc，ac)来加强一致性，当lce(ρc，ac)超过一定的阈值η时，一致性体条件执行器通过自适应铰链损失来使惩罚无效，否则，它将会惩罚较高值的lce(ρm，am)，如公式(15)所示：

40、lh(ρ，a)＝lce(ρm，am)max{0，η-lce(ρc，ac)} (15)

41、其中，am和ac分别表示存在关系的主问题的真实答案和上下文问题的真实答案。

42、最终的目标是最小化训练数据集样本的交叉熵损失的预期值和具有关系的相关问题训练样本对的自适应铰链损失，如公式(16)所示：

43、

44、其中d表示训练集，d2表示训练集的笛卡尔积。

45、进一步的，本发明还提供一种一致性约束下的记忆动态化医学图像问答分类系统，该系统主要包含：二元关系构建模块、动态记忆分类引擎构建模块、一致性条件执行器构建模块；

46、所述的二元关系构建模块：在问题数据集中将推理问题和感知问题联系起来，通过文本编码器和视觉编码器获取文本特征和视觉特征，构建能够嵌入记忆空间的文本和视觉特征。

47、动态记忆分类引擎构建模块：基于通过二元关系提取的文本信息和视觉信息，根据主要问题和背景问题更新关键的医学视觉线索来动态地升级模型的诊断性能。

48、一致性条件执行器构建模块：利用来自动态记忆分类引擎的最后一次推理迭代结果和相应的文本信息作为输入，并将它们注入到两个多模态融合算子中，此外在候选答案中通过两个分类器来生成两组置信分数，通过两组置信分数和相应的真实答案构建两组交叉熵损失，之后通过自适应铰链损失来惩罚两组交叉熵损失来加强一致性。

49、本发明有益效果：

50、本发明提出了一种一致性条件记忆诊断模型来模拟动态分类交互，在保持分类一致性的同时增强推理能力。它包括一个动态记忆分类引擎，模仿类人的动态诊断相互作用以增强推理能力，以及一致性条件执行器，强制执行一致的约束，以加强模型的诊断一致性。

标签：图像问答记忆技术资料下载

本文地址：https://www.jishuxx.com/zhuanli/20240730/195570.html

上一篇
行人检测警报方法、系统、装置及轮式装载机与流程

下一篇
返回列表

一致性约束下的记忆动态化医学图像问答分类系统及方法

相关技术

最新技术

技术分类