技术新讯 > 计算推算,计数设备的制造及其应用技术 > 医疗报告图像的标注方法和装置与流程 > 正文

医疗报告图像的标注方法和装置与流程

国知局
2024-07-31 22:46:26

本申请一个或多个实施例涉及人工智能，尤其涉及一种医疗报告图像的标注方法和装置。

背景技术：

1、在实际的医疗场景中，医疗报告是一种直接、简洁且易于理解的信息传递方式，其目的是为患者提供详细的医疗信息。医疗报告通常用于记录和报告患者的医疗状况、治疗过程、检查结果以及其他相关的医疗信息，例如：患者个人信息(如姓名、联系方式、医疗记录号等)、主诉、现病史、既往史(如以往的重大疾病、手术、药物使用、过敏反应等)、家族史、体格检查结果、辅助检查(如血液检查、尿液检查、ct、mri、心电图等)结果、诊断、治疗计划以及随访和建议等。

2、医疗场景中的多模态大模型在辅助临床决策、提高患者参与度、减轻医疗系统负担以及提高医疗专业人员效率等方面有许多潜在的益处。多模态大模型是是一种人工智能模型，它能够处理和理解多种不同类型的数据模态(如文本、图像、声音等)，并在这些不同模态的数据之间建立关联和理解。对于医疗场景中的多模态大模型而言，可以使用大量真实患者的医疗报告图像(即医疗报告的图像形式)来对该多模态大模型进行训练。这些医疗报告图像通常经过了人工标注，被标注了医疗报告图像中的文本内容和文本所在图像区域，或者被标注了用于识别和分割医疗报告图像中的表格的行和列的线条。

3、在实际应用中，大量真实患者的医疗报告通常具有类型多样化、结构多样化、质量多样化等特点，这就为对大量真实患者的医疗报告图像进行人工标注带来了一定的困难，导致针对医疗报告图像的标注效率和准确度较低，难以满足多模态模型在数据量和快速部署等方面的需求。因此，如何提高针对医疗报告图像的标注效率和准确度，就成为了亟待解决的问题。

技术实现思路

1、本申请一个或多个实施例提供技术方案如下：

2、本申请提供一种医疗报告图像的标注方法，所述方法包括：

3、对医疗报告图像进行光学字符识别，得到所述医疗报告图像上展示的各个文本片段，以及与所述各个文本片段对应的边界框；其中，所述边界框包括与文本片段所在图像区域对应的坐标；

4、基于与所述各个文本片段对应的边界框，确定识别出的文本片段展示在所述医疗报告图像上的布局信息，并根据所述布局信息，对所述识别出的文本片段进行连接处理，以生成具有所述布局信息的结构化文本；

5、基于预设的标注策略，以及所述结构化文本，对所述医疗报告图像进行自动化标注；其中，标注完成的所述医疗报告图像用于训练多模态大模型。

6、本申请还提供一种医疗报告图像的标注装置，所述装置包括：

7、识别模块，对医疗报告图像进行光学字符识别，得到所述医疗报告图像上展示的各个文本片段，以及与所述各个文本片段对应的边界框；其中，所述边界框包括与文本片段所在图像区域对应的坐标；

8、连接模块，基于与所述各个文本片段对应的边界框，确定识别出的文本片段展示在所述医疗报告图像上的布局信息，并根据所述布局信息，对所述识别出的文本片段进行连接处理，以生成具有所述布局信息的结构化文本；

9、标注模块，基于预设的标注策略，以及所述结构化文本，对所述医疗报告图像进行自动化标注；其中，标注完成的所述医疗报告图像用于训练多模态大模型。

10、本申请还提供一种电子设备，包括：

11、处理器；

12、用于存储处理器可执行指令的存储器；

13、其中，所述处理器通过运行所述可执行指令以实现如上述任一项所述方法的步骤。

14、本申请还提供一种计算机可读存储介质，其上存储有计算机指令，该指令被处理器执行时实现如上述任一项所述方法的步骤。

15、在上述技术方案中，可以先对医疗报告图像进行光学字符识别，得到该医疗报告图像上展示的各个文本片段，以及由与这各个文本片段所在图像区域对应的坐标指示的边界框，再基于与这各个文本片段对应的边界框，确定识别出的文本片段展示在该医疗报告图像上的布局信息，并根据该布局信息，对识别出的文本片段进行连接处理，以生成具有该布局信息的结构化文本，后续即可基于预设的标注策略，以及所生成的该结构化文本，对该医疗报告图像进行自动化标注，从而可以使用标注完成的该医疗报告图像来对医疗场景中的多模态大模型进行训练。

16、采用上述方式，通过对医疗报告图像进行自动化分析，识别出了该医疗报告图像上展示的文本片段以及与其中各个文本片段对应的边界框，并基于识别出的文本片段，生成了具有这些文本片段展示在该医疗报告图像上的布局信息的结构化文本，使得可以直接利用识别出的边界框并比照该结构化文本的文本结构和文本内容，对该医疗报告图像进行自动化标注。这样，不仅可以提高针对医疗报告图像的标注效率和准确度，还可以降低由人工标注带来的人力成本。

技术特征：

1.一种医疗报告图像的标注方法，所述方法包括：

2.根据权利要求1所述的方法，所述基于与所述各个文本片段对应的边界框，确定识别出的文本片段展示在所述医疗报告图像上的布局信息，并根据所述布局信息，对所述识别出的文本片段进行连接处理，以生成具有所述布局信息的结构化文本，包括：

3.根据权利要求2所述的方法，所述文本片段所在图像区域为矩形；所述边界框包括文本片段所在图像区域的左上角顶点和右下角顶点的坐标。

4.根据权利要求3所述的方法，如果所述识别出的文本片段中的第一文本片段和第二文本片段满足以下示出的两个条件中的任意一个条件，确定所述第一文本片段和所述第二文本片段为在所述医疗报告图像上展示在同一行上的文本片段：

5.根据权利要求2所述的方法，所述将在所述医疗报告图像上展示在同一行上的文本片段连接为结构化文本中同一行上的文本片段，包括：

6.根据权利要求5所述的方法，所述将所述水平距离转化为空格符号的数量，包括：

7.根据权利要求1所述的方法，所述基于预设的标注策略，以及所述结构化文本，对所述医疗报告图像进行自动化标注，包括：

8.根据权利要求1所述的方法，所述方法还包括：

9.一种医疗报告图像的标注装置，所述装置包括：

10.一种电子设备，包括：

11.一种计算机可读存储介质，其上存储有计算机指令，该指令被处理器执行时实现如权利要求1至8中任一项所述的方法。

技术总结本申请一个或多个实施例提供一种医疗报告图像的标注方法和装置，所述方法包括：对医疗报告图像进行光学字符识别，得到所述医疗报告图像上展示的各个文本片段，以及与所述各个文本片段对应的边界框；其中，所述边界框包括与文本片段所在图像区域对应的坐标；基于与所述各个文本片段对应的边界框，确定识别出的文本片段展示在所述医疗报告图像上的布局信息，并根据所述布局信息，对所述识别出的文本片段进行连接处理，以生成具有所述布局信息的结构化文本；基于预设的标注策略，以及所述结构化文本，对所述医疗报告图像进行自动化标注；其中，标注完成的所述医疗报告图像用于训练多模态大模型。技术研发人员：金从匀受保护的技术使用者：支付宝（杭州）信息技术有限公司技术研发日：技术公布日：2024/7/29