技术新讯 > 医药医疗技术的改进,医疗器械制造及应用技术 > 一种3D影像的文本报告生成装置、设备和存储介质的制作方法 > 正文

一种3D影像的文本报告生成装置、设备和存储介质的制作方法

国知局
2024-07-12 10:39:40

本发明涉及图像处理，特别是涉及一种3d影像的文本报告生成装置、设备和存储介质。

背景技术：

1、大脑通常被认为是人类的中央处理单元，它会受到多种不同脑疾病的影响，例如脑肿瘤、脑血管疾病等。磁共振成像(magnetic resonance imaging，mri)凭借其无辐射、具有较高组织密度对比以及多参数多序列成像的优点被广泛应用于各种脑疾病的诊断。

2、不同医生对于mri影像的分析存在差异，使用人工智能(artificialintelligence，ai)辅助医生分析特定病灶可以有效减少医生间的阅片差异，解决基于医学影像的临床任务。当前ai辅助医生分析医学影像的方法大多基于深度卷积网络提取图像特征对特征进行分析，无法提供具有参考价值的文本报告。

3、可见，如何生成3d影像的文本报告，是本领域技术人员需要解决的问题。

技术实现思路

1、本发明实施例的目的是提供一种3d影像的文本报告生成装置、设备和存储介质，可以解决针对于3d影像无法提供具有参考价值的文本报告的问题。

2、为解决上述技术问题，本发明实施例提供一种3d影像的文本报告生成装置，包括获取单元、提取单元、映射单元、训练单元和分析单元；

3、所述获取单元，用于获取图像-文本数据集；其中，所述图像-文本数据集包含3d影像及其对应的文本报告；

4、所述提取单元，用于提取所述图像-文本数据集中的图像特征和文本特征；

5、所述映射单元，用于将所述图像特征映射到语言信息空间，以得到语言信息；

6、所述训练单元，用于基于所述语言信息与所述文本特征对视觉语言大模型进行训练，以得到训练好的视觉语言大模型；

7、所述分析单元，用于利用训练好的视觉语言大模型对新获取的目标3d影像进行分析，以得到目标文本报告。

8、一方面，所述提取单元用于利用视觉编译器提取所述图像-文本数据集中各图像包含的图像特征；利用文本编译器提取所述图像-文本数据集中各文本包含的文本特征。

9、一方面，所述图像-文本数据集包括第一数据集和第二数据集；其中，所述第一数据集包括各医疗影像及其对应的文本信息；所述第二数据集包括各磁共振影像及其对应的报告。

10、一方面，所述获取单元包括提取子单元、作为子单元、扩充子单元、第一对齐子单元、第一转换子单元、第一调整子单元、第一构建子单元、获取子单元、展示子单元、接收子单元、第二对齐子单元、第二调整子单元和第二构建子单元；

11、所述提取子单元，用于从生物医疗数据库中提取医疗影像及其对应的文本信息；

12、所述作为子单元，用于将所有所述医疗影像及其对应的文本信息作为初始数据集；

13、所述扩充子单元，用于依据医学三维图像数据集以及与所述医学三维图像数据集中各三维医疗影像匹配的文本信息，对所述初始数据集进行扩充以得到扩充数据集；

14、所述第一对齐子单元，用于根据设定的标准化图像信号强度，将所述扩充数据集中包含的所有医疗影像进行对齐，以得到对齐后的医疗影像；

15、所述第一转换子单元，用于将所述扩充数据集中所有对齐后的医疗影像中包含的2d医疗影像转换为3d医疗影像；

16、所述第一调整子单元，用于按照视觉编译器的图像输入尺寸对所有所述3d医疗影像的图像尺寸进行调整，以得到标准化的3d医疗影像；

17、所述第一构建子单元，用于基于所有所述标准化的3d医疗影像及其匹配的文本信息，构建所述第一数据集；

18、所述获取子单元，用于获取磁共振影像集；

19、所述展示子单元，用于展示所述磁共振影像集，以便于用户输入与所述磁共振影像集中各磁共振影像对应的医疗报告；

20、所述接收子单元，用于接收各磁共振影像对应的医疗报告；

21、所述第二对齐子单元，用于根据设定的标准化图像信号强度，将所述磁共振影像集中包含的所有磁共振影像进行对齐，以得到对齐后的磁共振影像；

22、所述第二调整子单元，用于按照视觉编译器的图像输入尺寸对所有所述磁共振影像的图像尺寸进行调整，以得到标准化的磁共振影像；

23、所述第二构建子单元，用于基于所有所述标准化的磁共振影像及其匹配的文本报告，构建所述第二数据集。

24、一方面，所述第一转换子单元，用于将所述扩充数据集中所有对齐后的医疗影像中包含的2d医疗影像通过复制的方式扩展为3d医疗影像。

25、一方面，所述训练单元包括预训练子单元和微调子单元：

26、所述预训练子单元，用于基于所述第一数据集中各医疗影像所对应的语言信息，以及所述第一数据集中各文本信息对应的文本特征，对视觉语言大模型进行预训练，以得到预训练好的视觉语言大模型；

27、所述微调子单元，用于基于所述第二数据集中各磁共振影像所对应的语言信息，以及所述第二数据集中各报告对应的文本特征，对视觉语言大模型的模型参数进行微调训练，以得到训练好的视觉语言大模型。

28、一方面，所述第二数据集还包括从文本放射学报告中提取出的对话式文本；所述对话式文本包括各类问题文本及其对应的答案文本；所述装置还包括应答单元；

29、所述应答单元，用于将接收到的目标问题文本输入至训练好的视觉语言大模型，以得到与所述目标问题文本匹配的目标应答文本。

30、一方面，所述分析单元包括影像获取子单元、图像特征提取子单元、映射子单元和得到子单元；：

31、所述影像获取子单元，用于获取目标3d影像；

32、所述图像特征提取子单元，用于利用视觉编译器提取所述目标3d影像包含的目标图像特征；

33、所述映射子单元，用于将所述目标图像特征映射到语言信息空间，以得到目标语言信息；

34、所述得到子单元，用于将所述目标语言信息输入至报告生成器，以得到目标文本报告。

35、本发明实施例还提供了一种3d影像的文本报告生成设备，包括：

36、存储器，用于存储计算机程序；

37、处理器，用于执行所述计算机程序以实现获取图像-文本数据集；其中，所述图像-文本数据集包含3d影像及其对应的文本报告；提取所述图像-文本数据集中的图像特征和文本特征；将所述图像特征映射到语言信息空间，以得到语言信息；基于所述语言信息与所述文本特征对视觉语言大模型进行训练，以得到训练好的视觉语言大模型；利用训练好的视觉语言大模型对新获取的目标3d影像进行分析，以得到目标文本报告的步骤。

38、本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现获取图像-文本数据集；其中，所述图像-文本数据集包含3d影像及其对应的文本报告；提取所述图像-文本数据集中的图像特征和文本特征；将所述图像特征映射到语言信息空间，以得到语言信息；基于所述语言信息与所述文本特征对视觉语言大模型进行训练，以得到训练好的视觉语言大模型；利用训练好的视觉语言大模型对新获取的目标3d影像进行分析，以得到目标文本报告的步骤。

39、由上述技术方案可以看出，获取单元，用于获取图像-文本数据集；其中，图像-文本数据集包含3d影像及其对应的文本报告。提取单元，用于提取图像-文本数据集中的图像特征和文本特征。图像特征和文本特征属于两种不同模态的特征，为了更好的挖掘图像特征和文本特征之间的关联性，可以通过映射单元将图像特征映射到语言信息空间，以得到语言信息。训练单元，用于基于语言信息与文本特征对视觉语言大模型进行训练，可以得到训练好的视觉语言大模型。分析单元可以利用训练好的视觉语言大模型对新获取的目标3d影像进行分析，从而得到目标文本报告。

40、本发明的有益效果在于，通过获取包含3d影像及其对应的文本报告的图像-文本数据集，使得依赖于该数据集训练得到的视觉大语言模型可以生成具有参考价值的文本报告。与传统技术基于深度卷积网络提取图像特征进行分析的方式相比，本发明通过提取图像特征和文本特征，并且将图像特征转换为与文本特征相同类型的语言信息，可以更好的挖掘图像特征和文本特征之间的关联性，并且降低了视觉大语言模型对不同模态数据进行处理的难度，无需设置复杂的模型架构便可以实现对图像特征和文本特征的分析，从而训练得到能够输出文本报告的视觉语言大模型。在获取到目标3d影像时直接将其输入至训练好的视觉语言大模型，便可以输出具有参考价值的文本报告，从而可以辅助医生分析3d影像、极大地提高了初步筛查疾病的效率，方便医生制定更加精确的诊断方案。