技术新讯 > 计算推算,计数设备的制造及其应用技术 > 视觉文本处理方法、装置、电子设备、介质及程序产品与流程 > 正文

视觉文本处理方法、装置、电子设备、介质及程序产品与流程

国知局
2024-10-15 10:12:01

本公开涉及计算机视觉，具体涉及视觉文本处理方法、装置、电子设备、介质及程序产品。

背景技术：

1、视觉文本是一种融合了视觉元素和文字信息的创意表达形式，它通过图像、色彩和文字的有机结合，将信息以更加直观、生动的方式进行显示。

2、相关技术中，针对视觉文本(文档、场景文本)进行处理的模型，所执行的功能相对单一，进而当需要执行大量且不同类型的视觉文本处理任务时，则需要利用多个模型共同处理，从而极大增加了模型的存储消耗。

技术实现思路

1、有鉴于此，本公开提供了一种视觉文本处理方法、装置、电子设备、介质及程序产品，以解决针对视觉文本进行处理的模型不具有通用性的问题。

2、第一方面，本公开提供了一种视觉文本处理方法，方法包括：

3、获取当前视觉任务的目标图像以及对应的提示文本；

4、提取目标图像的视觉特征以及提示文本的文本特征，得到待处理特征；

5、将待处理特征输入目标模型中，利用目标模型中的语言处理模块以及与当前视觉任务对应的目标任务处理子模块对待处理特征进行处理，得到当前视觉任务的处理结果。

6、第二方面，本公开提供了一种视觉文本处理装置，装置包括：

7、获取模块，用于获取当前视觉任务的目标图像以及对应的提示文本；

8、第一处理模块，用于提取目标图像的视觉特征以及提示文本的文本特征，得到待处理特征；

9、第二处理模块，用于将待处理特征输入目标模型中，利用目标模型中的语言处理模块以及与当前视觉任务对应的目标任务处理子模块对待处理特征进行处理，得到当前视觉任务的处理结果。

10、第三方面，本公开提供了一种电子设备，包括：存储器和处理器，存储器和处理器之间互相通信连接，存储器中存储有计算机指令，处理器通过执行计算机指令，从而执行上述第一方面或其对应的任一实施方式的视觉文本处理方法。

11、第四方面，本公开提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机指令，计算机指令用于使计算机执行上述第一方面或其对应的任一实施方式的视觉文本处理方法。

12、第五方面，本发明提供了一种计算机程序产品，包括计算机指令，计算机指令用于使计算机执行上述第一方面或其对应的任一实施方式的视觉文本处理方法。

13、本实施例提供的视觉文本处理方法，通过提取目标图像的视觉特征和提示文本的文本特征，并将其整合为待处理特征，有助于捕捉多模态输入数据中不同方面的信息，进而通过目标模型进行处理时，得到的待处理特征可以提供更全面和综合的描述，便于目标模型可以更好地理解和处理当前视觉任务，能够有效提高处理效率。并且，目标模型在处理待处理特征的过程中，是利用内置的语言处理模块以及与当前视觉任务对应的目标任务处理子模块进行处理，进而使得处理过程更灵活、更具有针对性，能够有效提高处理结果的准确性。

技术特征：

1.一种视觉文本处理方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述目标模型包括多个所述语言处理模块，以及与所述语言处理模块对应的任务处理模块，所述任务处理模块包括任务选择子模块、用于图像生成的第一任务处理子模块，用于图像理解的第二任务处理子模块以及用于图像生成与理解的第三任务处理子模块，所述任务选择子模块用于基于所述待处理特征确定所述目标任务处理子模块。

3.根据权利要求2所述的方法，其特征在于，所述任务处理模块与所述语言处理模块一一对应。

4.根据权利要求3所述的方法，其特征在于，在任意相邻的两个语言处理模块之间设置有所述任务处理模块。

5.根据权利要求2所述的方法，其特征在于，所述利用所述目标模型中的语言处理模块以及与当前视觉任务对应的目标任务处理子模块对所述待处理特征进行处理，得到所述当前视觉任务的处理结果，包括：

6.根据权利要求2所述的方法，其特征在于，所述目标模型还包括结果生成模块，所述结果生成模块与视觉任务对应，所述利用所述目标模型中的语言处理模块以及与当前视觉任务对应的目标任务处理子模块对所述待处理特征进行处理，得到所述当前视觉任务的处理结果，还包括：

7.根据权利要求6所述的方法，其特征在于，若所述当前视觉任务为图像生成任务，则所述目标结果生成模块为条件扩散模型；所述利用所述目标结果生成模块，对经过多个所述语言处理模块以及所述目标任务处理子模块处理后得到的目标特征进行处理，得到所述当前视觉任务的处理结果，包括：

8.根据权利要求6所述的方法，其特征在于，若所述当前视觉任务为图像理解任务，则所述目标结果生成模块为文本标记器；所述利用所述目标结果生成模块，对经过多个所述语言处理模块以及所述目标任务处理子模块处理后得到的目标特征进行处理，得到所述当前视觉任务的处理结果，包括：

9.根据权利要求6所述的方法，其特征在于，训练所述目标模型的方法包括：

10.根据权利要求1所述的方法，其特征在于，所述提取所述目标图像的视觉特征，包括：

11.一种视觉文本处理装置，其特征在于，所述装置包括：

12.一种电子设备，其特征在于，包括：

13.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机指令，所述计算机指令用于使计算机执行权利要求1至10中任一项所述的视觉文本处理方法。

14.一种计算机程序产品，其特征在于，包括计算机指令，所述计算机指令用于使计算机执行权利要求1至10中任一项所述的视觉文本处理方法。

技术总结本公开涉及计算机视觉技术领域，公开了视觉文本处理方法、装置、电子设备、介质及程序产品。本公开提供的视觉文本处理方法，包括：获取当前视觉任务的目标图像以及对应的提示文本；提取目标图像的视觉特征以及提示文本的文本特征，得到待处理特征；将待处理特征输入目标模型中，利用目标模型中的语言处理模块以及与当前视觉任务对应的目标任务处理子模块对待处理特征进行处理，得到当前视觉任务的处理结果。能够有效提高处理效率，并且使得处理过程更灵活、更具有针对性，能够有效提高处理结果的准确性。技术研发人员：赵震,唐景群,黄灿受保护的技术使用者：抖音视界有限公司技术研发日：技术公布日：2024/10/10