技术新讯 > 计算推算,计数设备的制造及其应用技术 > 一种图像处理方法、装置、设备及可读存储介质与流程 > 正文

一种图像处理方法、装置、设备及可读存储介质与流程

国知局
2024-07-31 22:45:21

本发明涉及计算机视觉，特别是涉及一种图像处理方法、装置、设备及可读存储介质。

背景技术：

1、图文多模态预训练模型逐渐成为各种自然语言处理和计算机视觉任务的重要基础。能够处理多模态数据，例如同时包含文本和图像信息的数据，是这些图文多模态预训练模型的一大特色。

2、为了训练这些模型，需要构建大规模的图文多模态预训练数据集（即图文数据集），以提供丰富的多模态数据样本。构建图文多模态预训练数据集，注意包括数据收集处理，数据对齐与对应。其中，最为关键是是数据对齐与对应，即将文本与图像之间建立对应关系，并确保它们在时间和空间上的一致性。

3、使用一个支持多模态的开源模型，设计提示语（prompt），然后由多模态模型对图片生成描述，最后将生成的文本和原始图片做关联。这种方式对提示语设计要求很高，不同来源的图片需要使用不同的提示语，不然生成的文本质量特别差，并且高质量的开源多模态模型较少，当前开源多模态模型的图生文能力都比较一般，而且容意产生幻觉。即，现有方案构建的图像数据集并不可靠，而不可靠的图文数据集严重影响模型训练。

4、综上所述，如何构建出可靠的图文数据集等问题，是目前本领域技术人员急需解决的技术问题。

技术实现思路

1、本发明的目的是提供一种图像处理方法、装置、设备及可读存储介质，能够构建出可靠的图文数据集。

2、为解决上述技术问题，本发明提供如下技术方案：

3、一种图像处理方法，包括：

4、获取图像数据集；其中，所述图像数据集中包括若干个原始图像；

5、对所述原始图像中的结构化信息进行识别，得到结构化数据；

6、利用所述结构化数据进行自然语言描述生成处理，得到描述文本；

7、将所述原始图像与对应的描述文本进行关联，得到与所述原始图像对应的图文样本；

8、利用若干个所述原始图像对应的图文样本，构建图文数据集。

9、优选地，对所述原始图像中的结构化信息进行识别，得到结构化数据，包括：

10、将所述原始图像输入至结构化模型进行结构化信息识别，得到所述结构化数据；其中，所述结构化信息包括对象、场景和情感中的至少一种；

11、相应地，利用若干个所述原始图像对应的图文样本，构建图文数据集之后，还包括：

12、利用所述图文数据集训练图像处理模型；其中，所述图像处理模型为对象识别、场景识别和情感识别中的至少一种。

13、优选地，利用所述结构化数据进行自然语言描述生成处理，得到描述文本，包括：

14、将所述结构化数据输入至文本生成模型进行描述生成处理，得到所述描述文本。

15、优选地，获取图像数据集，包括：

16、从不同数据源获取的图像；

17、清洗所获取的图像，将清洗后的图像存入新建数据集中，得到所述图像数据集。

18、优选地，将所述原始图像与对应的描述文本进行关联，得到与所述原始图像对应的图文样本，包括：

19、为所述原始图像创建空白标签；

20、在所述空白标签中写入所述原始图像对应的描述文本；

21、将具有非空标签的原始图像确定为所述图文样本。

22、优选地，利用所述结构化数据进行自然语言描述生成处理，得到描述文本之后，还包括：

23、判断所述描述文本中是否具有幻觉词汇；

24、如果是，则删除所述描述文本中的所述幻觉词汇；

25、如果否，则将所述原始图像与对应的描述文本进行关联，得到与所述原始图像对应的图文样本。

26、优选地，判断所述描述文本中是否具有幻觉词汇，包括：

27、对所述描述文本进行分词处理，得到组成词语；

28、从所述组成词语中提取出组成名词；

29、判断所述组成名词与所述结构化数据是否匹配；

30、如果是，则确定所述描述文本中无所述幻觉词汇；

31、如果否，则确定所述描述文本中具有所述幻觉词汇。

32、优选地，判断所述描述文本中是否具有幻觉词汇，包括：

33、对所述描述文本进行分词处理，得到组成词语；

34、从所述组成词语中提取出组成名词；

35、对所述原始图像进行识别检测，得到检查结果；

36、若所述检查结果与所述组成名词对应，则确定所述描述文本无幻觉词汇；

37、若所述检查结果与所述组成名词不对应，则确定所述描述文本具有幻觉词汇。

38、优选地，利用所述结构化数据进行自然语言描述生成处理，得到描述文本，包括：

39、将所述结构化数据输入至第一文本生成模型进行自然语言描述生成处理，得到第一描述文本；

40、将所述结构化数据输入至第二文本生成模型进行自然语言描述生成处理，得到第二描述文本；

41、在可视化界面输出所述第一描述文本和所述第二描述文本；

42、响应于所述可视化界面反馈的操作信息，从所述第一描述文本和所述第二描述文本确定出所述描述文本。

43、优选地，利用所述结构化数据进行自然语言描述生成处理，得到描述文本，包括：

44、将所述结构化数据输入至文本生成模型进行描述生成处理，得到输出文本；

45、对所述输出文本进行语病检测；

46、若所述输出文本存在语病，则将所述结构化数据输入至文本生成模型进行描述生成处理，得到新输出文本，并返回对所述输出文本进行语病检测；

47、若所述输出文本不存在语病，则将所述输出文本确定为描述文本。

48、优选地，对所述输出文本进行语病检测，包括：

49、将所述输出文本输入至语病检查模型进行语病检测，得到语病检测结果。

50、一种图像处理装置，包括：

51、图像获取模块，用于获取图像数据集；其中，所述图像数据集中包括若干个原始图像；

52、对象识别模块，用于对所述原始图像中的结构化信息进行识别，得到结构化数据；

53、文本描述模块，用于利用所述结构化数据进行自然语言描述生成处理，得到描述文本；

54、图文关联模块，用于将所述原始图像与对应的描述文本进行关联，得到与所述原始图像对应的图文样本；

55、数据集生成模块，用于利用若干个所述原始图像对应的图文样本，构建图文数据集。

56、一种电子设备，包括：

57、存储器，用于存储计算机程序；

58、处理器，用于执行所述计算机程序时实现上述图像处理方法的步骤。

59、一种可读存储介质，所述可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现上述图像处理方法的步骤。

60、一种计算机程序产品，包括计算机程序/指令，该计算机程序/指令被处理器执行时，实现上述图像处理方法的步骤。

61、应用本发明实施例所提供的方法，获取图像数据集；其中，图像数据集中包括若干个原始图像；对原始图像中的结构化信息进行识别，得到结构化数据；利用结构化数据进行自然语言描述生成处理，得到描述文本；将原始图像与对应的描述文本进行关联，得到与原始图像对应的图文样本；利用若干个原始图像对应的图文样本，构建图文数据集。

62、由于相关模型生成文本能力差以及提示语设计困难，导致生成图文数据集并不可靠。因而，在本发明中提供了另一种思路来构建图文数据集。具体的，在本发明中，直接对原始图像进行结构化信息识别，从而得到原始图像的结构化数据。然后，在生成原始图像对应的描述文本时，不是直接基于提示语针对原始图像进行文本生成处理，而是基于结构化数据来生成描述文本。最终，关联原始图像和描述文本，从而得到图文样本。基于图文样本最终构建出图文数据集。由此可见，在本发明中，并不需要设计提示语，而是直接从原始图像提取出结构化数据，然后基于结构化数据进行描述文本生成，如此，便可不再受限于提示语设计以及相关模型的限制，可以有效提升图文数据集可靠性。

63、技术效果：能够构建可靠的图文数据集，为基于图文数据集的后续应用打下坚实的基础。

64、相应地，本发明实施例还提供了与上述图像处理方法相对应的图像处理装置、设备、可读存储介质及计算机程序产品，具有上述技术效果，在此不再赘述。