技术新讯 > 医药医疗技术的改进,医疗器械制造及应用技术 > 一种胸透诊断报告自动生成方法、装置、终端及存储介质 > 正文

一种胸透诊断报告自动生成方法、装置、终端及存储介质

国知局
2024-12-06 12:31:25

本发明公开了一种胸透诊断报告自动生成方法、装置、终端及存储介质，属于医学图像文本多模态处理。

背景技术：

1、胸透作为一种非侵入式的临床检查方法，已成为现代最常用的诊断技术之一。然而，撰写一份能够准确描述胸透图像中病理表现的诊断报告是一项耗时又费力的任务，并且需要放射科医生多年的学习和实践才能掌握。因此，可以显著减少放射科医生的工作量的胸透诊断报告自动生成任务已经成为人工智能和医疗实践交叉的关键研究领域。

2、胸透报告通常包含两个部分:“发现”和“印象”。“发现”部分主要提供对胸透图像病例观察结果的客观描述，包括正常和异常特征。“印象”部分则给出简要的总结和解释，通常会强调最重要的观察结果及其潜在临床意义。显然，自动生成这样一份包含大量医学术语并由多个句子组成的报告是相当困难的。近年来，由于transformer的出现和广泛使用，有效解决了曾经循环神经网络难以对长序列进行建模的问题。因此基于transformer的编码器-解码器架构被当下绝大多数方法所采用，并取得了巨大的成功。

3、然而，由于transformer最初是为单模态的机器翻译任务设计的，而放射学报告生成却是跨越图像和文本两个模态的多模态任务。通常，图像被送入编码器，文本被送入解码器。这就导致了一个问题：transformer的结构决定了图像和文本这两种模态的特征只能单向流动，即从图像特征到文本特征。文本特征可以根据输传来的视觉信息进行自我更新和丰富，但图像特征却不能根据文本语义进行自我调整。这就导致了信息的不对称性，即图像端不知道文本端需要什么，因此，它将所有的视觉信息，包括大量的异质噪声，都传递过去，下游解码网络不得不花费大量的精力从这些掺杂了噪声的视觉特征中提取有用信息，这严重限制甚至损害了模型的性能。因此，迫切需要研究一种方法，使文本特征与视觉特征平等流动，使视觉特征能够适应文本特征的需要，从而最大限度地减少对下游解码器的阻力，提高生成任务的整体性能。

技术实现思路

1、针对现有技术的缺陷，本发明提出一种胸透诊断报告自动生成方法、装置、终端及存储介质，解决目前胸透诊断报告自动生成方法存在的问题。

2、本发明的技术方案如下：

3、获取胸透图像，将所述胸透图像通过卷积特征提取模块得到图块级视觉特征；

4、将所述图块级视觉特征通过编码器进一步捕获并整合复杂映射得到最终视觉隐藏状态；

5、将所述最终视觉隐藏状态通过记忆驱动的视觉语义增强模块进行语义增强，得到增强后的视觉特征；

6、将所述增强后的视觉特征输入到解码器中得到最终生成的诊断报告。

7、优选的是，所述将所述胸透图像通过卷积特征提取模块得到图块级视觉特征，包括：

8、将所述胸透图像通过卷积特征提取模块中的resnet-101网络提取得到高维图像特征；

9、将所述高维图像特征通过卷积特征提取模块中的非线性投射层将特征维度映射到模型输入维度，得到图块级视觉特征；

10、优选的是，所述将所述图块级视觉特征通过编码器进一步捕获并整合复杂映射得到最终视觉隐藏状态，包括：

11、将所述图块级视觉特征通过编码器中的多头自注意力层捕获复杂关系映射得到初步视觉隐藏状态；

12、将所述初步视觉隐藏状态通过编码器中的前馈神经网络层进一步整合得到最终视觉隐藏状态。

13、优选的是，所述将所述最终视觉隐藏状态通过记忆驱动的视觉语义增强模块进行语义增强，得到增强后的视觉特征，包括：

14、通过历史诊断报告数据构建记忆序列，承载其中的重要语义信息；

15、将所述最终视觉隐藏状态利用构建得到的记忆序列进行语义增强，具体如公式(1)-(5)所示，得到增强后的视觉特征：

16、

17、mha(x,y)＝[att1(x,y),...,atth(x,y)]wo (7)

18、其中x表示查询矩阵，y表示键矩阵和值矩阵，wiq、wik、wiv和wo是可学习的线性变换矩阵，dk是每一个头的特征维度，[,]表示连接操作，atti表示第i个单头注意力的计算，mha表示多头注意力计算；

19、ffn(x)＝max(0,xw1+b1)w2+b2 (8)

20、其中w1和w2是可学习的参数，b1和b2是固定常数；

21、

22、其中，m0和s0分别表示输入的最终视觉隐藏状态和记忆序列，mn和sn表示他们经过n轮迭代后的产物，mha表示多头注意力机制，ffn是前馈神经网络；

23、ccra(m,s)＝ffn(layernorm(mn+sn))

24、 (10)

25、其中，layernorm表示层归一化操作，ccra表示我们的视觉语义增强模块。

26、根据本发明实施例的第二方面，提供一种胸透诊断报告自动生成装置，包括：

27、特征提取模块，用于获取胸透图像，将所述胸透图像通过卷积特征提取模块得到图块级视觉特征；

28、编码整合模块，用于将所述图块级视觉特征通过编码器进一步捕获并整合复杂映射得到最终视觉隐藏状态；

29、视觉语义增强模块，用于将所述最终视觉隐藏状态通过记忆驱动的视觉语义增强模块进行语义增强，得到增强后的视觉特征；

30、解码生成模块，用于将所述增强后的视觉特征输入到解码器中得到最终生成的诊断报告。

31、根据本发明实施例的第三方面，提供一种终端，包括：

32、一个或多个处理器；

33、用于存储所述一个或多个处理器可执行指令的存储器；

34、其中，所述一个或多个处理器被配置为：

35、执行本发明实施例的第一方面所述的方法。

36、根据本发明实施例的第四方面，提供一种非临时性计算机可读存储介质，当所述存储介质中的指令由终端的处理器执行时，使得终端能够执行本发明实施例的第一方面所述的方法。

37、根据本发明实施例的第五方面，提供一种应用程序产品，当应用程序产品在终端在运行时，使得终端执行本发明实施例的第一方面所述的方法。

38、本发明的有益效果在于：

39、本发明提供一种胸透诊断报告自动生成方法、装置、终端及存储介质，通过增强生成模型中的视觉语义理解，使得文本特征对等地流向图像特征，让图像特征与文本语义紧密联系起来，解决了主流模型架构的非对称特征流向性隐患，让下游解码器收到的视觉特征更加纯净且富含有价值信息，从而能够生成更准确更全面的诊断报告，协助医生做出临床决策。

40、应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本发明。

技术特征：

1.一种胸透诊断报告自动生成方法，其特征在于，包括：

2.根据权利要求1所述的一种胸透诊断报告自动生成方法，其特征在于，所述将所述胸透图像通过卷积特征提取模块得到图块级视觉特征，包括：

3.根据权利要求1所述的一种胸透诊断报告自动生成方法，其特征在于，所述将所述图块级视觉特征通过编码器进一步捕获并整合复杂映射得到最终视觉隐藏状态，包括：

4.根据权利要求1所述的一种胸透诊断报告自动生成方法，其特征在于，所述将所述最终视觉隐藏状态通过记忆驱动的视觉语义增强模块进行语义增强，得到增强后的视觉特征，包括：

5.一种胸透诊断报告自动生成装置，其特征在于，包括：

6.一种终端，其特征在于，包括：

7.一种非临时性计算机可读存储介质，其特征在于，当所述存储介质中的指令由终端的处理器执行时，使得终端能够执行如权利要求1至4任一所述的胸透诊断报告自动生成方法。

技术总结本发明公开了一种胸透诊断报告自动生成方法、装置、终端及存储介质，属于医学图像文本多模态处理技术领域，包括获取胸透图像，将所述胸透图像通过卷积特征提取模块得到图块级视觉特征；将所述图块级视觉特征通过编码器进一步捕获并整合复杂映射得到最终视觉隐藏状态；将所述最终视觉隐藏状态通过记忆驱动的视觉语义增强模块进行语义增强，得到增强后的视觉特征；将所述增强后的视觉特征输入到解码器中得到最终生成的诊断报告。本发明通过对视觉特征进行特别的语义增强，解决了主流模型架构的非对称特征流向性隐患，最终得以生成更准确更全面的诊断报告。技术研发人员：张小利,薄晓磊,杨飞扬受保护的技术使用者：吉林大学技术研发日：技术公布日：2024/12/2