图像理解方法、装置、设备、存储介质及程序产品
- 国知局
- 2024-10-09 16:35:47
本发明涉及人工智能,尤其涉及一种图像理解方法、装置、设备、存储介质及程序产品。
背景技术:
1、研究人员正在努力尝试让大语言模型(large language model,llm)去理解来自图像和视频等更多模态的数据,从而构建具有多模态信息理解能力的通用图文模型。一般而言,研究人员通过将提取的视觉特征经序列化后送入通用图文模型,从而实现通用图文模型对于输入图像的理解能力,并据此执行多模态对话。然而,通用图文模型往往会出现幻觉问题,即输出的内容与事实或提供的信息有明显的矛盾或伪造。
2、从通用图文模型的角度,这类问题往往被归因于提供的文本信息太少。然而,从提供的输入的角度考虑,图像本身具有极丰富的信息,这些信息能够用于执行检测、分割等十分细节的视觉任务。因此,通用图文模型无法准确进行多模态对话,只能是因为通用图文模型不具备足够强大的图像理解能力。
技术实现思路
1、本发明提供一种图像理解方法、装置、设备、存储介质及程序产品,用以解决现有技术中通用图文模型容易出现幻觉的缺陷,实现通用图文模型的准确对话能力。
2、第一方面,本发明提供一种图像理解方法,包括如下步骤:
3、将目标图像及对应的问题输入到目标通用图文模型中,得到所述目标通用图文模型输出的答案,所述答案包括所述目标图像的主体、客体以及主体与客体的关系;
4、其中,所述目标通用图文模型是通过如下方式训练的:
5、将训练样本输入到初始通用图文模型中,得到所述初始通用图文模型输出的主体特征向量、客体特征向量以及自回归损失函数;
6、将所述主体特征向量以及所述客体特征向量输入到分割模型中,得到所述分割模型输出的主体特征掩码和客体特征掩码;
7、基于所述主体特征掩码与主体的真实掩码、所述客体特征掩码与客体的真实掩码、所述自回归损失函数确定所述初始通用图文模型的目标损失函数;
8、在所述目标损失函数收敛时,将所述初始通用图文模型作为所述目标通用图文模型;
9、所述训练样本包括:样本图像、样本图像的主体与客体、样本图像的主体与客体的关系、样本图像的主体的真实掩码、样本图像的客体的真实掩码、样本图像对应的问题和答案。
10、在一个实施例中,所述基于所述主体特征掩码与主体的真实掩码、所述客体特征掩码与客体的真实掩码、所述自回归损失函数确定所述初始通用图文模型的目标损失函数,包括:
11、确定所述主体特征掩码与所述主体的真实掩码的第一损失函数、所述客体特征掩码与所述客体的真实掩码的第二损失函数;
12、基于所述第一损失函数、所述第二损失函数以及所述自回归损失函数确定所述目标损失函数。
13、在一个实施例中,所述方法还包括:
14、将所述样本图像以及种子注释输入到大语言模型中,得到所述大语言模型输出的所述样本图像对应的问题和答案;
15、其中,所述种子注释包括所述样本图像的主体与客体、所述样本图像的主体与客体的关系;
16、所述种子注释是根据提示模板输入到所述大语言模型中的;所述提示模板包括各种疑问句式中的至少一种。
17、在一个实施例中,所述种子注释还包括以下至少一项:
18、所述样本图像的标题;
19、所述样本图像的预定区域的描述信息;
20、所述样本图像内物体的列表;
21、所述样本图像内物体的边界框。
22、在一个实施例中,所述方法还包括:
23、根据所述目标损失函数的值,对所述初始通用图文模型的参数和所述分割模型的参数进行调整。
24、在一个实施例中,所述基于所述第一损失函数、所述第二损失函数以及所述自回归损失函数确定所述目标损失函数,包括以下任一项:
25、基于所述第一损失函数、所述第二损失函数以及所述自回归损失函数之和确定所述目标损失函数;
26、基于所述第一损失函数、所述第二损失函数以及所述自回归损失函数中最大者确定所述目标损失函数;
27、基于所述第一损失函数、所述第二损失函数以及所述自回归损失函数中任一个确定所述目标损失函数。
28、第二方面,本发明提供一种图像理解装置,包括:
29、处理模块,用于将目标图像及对应的问题输入到目标通用图文模型中,得到所述目标通用图文模型输出的答案,所述答案包括所述目标图像的主体、客体以及主体与客体的关系;
30、其中,所述目标通用图文模型是通过如下方式训练的:
31、将训练样本输入到初始通用图文模型中,得到所述初始通用图文模型输出的主体特征向量、客体特征向量以及自回归损失函数;
32、将所述主体特征向量以及所述客体特征向量输入到分割模型中,得到所述分割模型输出的主体特征掩码和客体特征掩码;
33、基于所述主体特征掩码与主体的真实掩码、所述客体特征掩码与客体的真实掩码、所述自回归损失函数确定所述初始通用图文模型的目标损失函数;
34、在所述目标损失函数收敛时,将所述初始通用图文模型作为所述目标通用图文模型;
35、所述训练样本包括:样本图像、样本图像的主体与客体、样本图像的主体与客体的关系、样本图像的主体的真实掩码、样本图像的客体的真实掩码、样本图像对应的问题和答案。
36、第三方面,本发明提供一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述任一种的图像理解方法。
37、第四方面,本发明提供一种非暂态计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一种的图像理解方法。
38、第五方面,本发明提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现上述任一种的图像理解方法。
39、本发明提供的图像理解方法、装置、设备、存储介质及程序产品,通过在通用图文模型的训练过程中利用分割模型来进行主客体掩码预测损失的辅助监督,从而引导通用图文模型去关注与问答高度相关的图像内容,以便让通用图文模型能显式地提取图像中关键信息的特征,确保模型在响应和回答问题之前,关注到和问题紧密相关的图像细节上,从而提升模型回复的准确度,减轻通用图文模型的幻觉问题,增强通用图文模型的准确对话能力。
技术特征:1.一种图像理解方法,其特征在于,包括:
2.根据权利要求1所述的图像理解方法,其特征在于,所述基于所述主体特征掩码与主体的真实掩码、所述客体特征掩码与客体的真实掩码、所述自回归损失函数确定所述初始通用图文模型的目标损失函数,包括:
3.根据权利要求1所述的图像理解方法,其特征在于,所述方法还包括:
4.根据权利要求3所述的图像理解方法,其特征在于,所述种子注释还包括以下至少一项:
5.根据权利要求2所述的图像理解方法,其特征在于,所述方法还包括:
6.根据权利要求2所述的图像理解方法,其特征在于,所述基于所述第一损失函数、所述第二损失函数以及所述自回归损失函数确定所述目标损失函数,包括以下任一项:
7.一种图像理解装置,其特征在于,包括:
8.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至6任一项所述的图像理解方法。
9.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述的图像理解方法。
10.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述的图像理解方法。
技术总结本发明提供一种图像理解方法、装置、设备、存储介质及程序产品,属于人工智能技术领域。方法包括:将目标图像及对应的问题输入到目标通用图文模型中,得到目标通用图文模型输出的答案;其中,目标通用图文模型是通过如下方式训练的:将训练样本输入到初始通用图文模型中,得到初始通用图文模型输出的主体特征向量、客体特征向量以及自回归损失函数;将主体特征向量以及客体特征向量输入到分割模型中,得到分割模型输出的主体特征掩码和客体特征掩码;基于主体特征掩码与主体的真实掩码、客体特征掩码与客体的真实掩码、自回归损失函数确定初始通用图文模型的目标损失函数。本发明提供的图像理解方法可以减轻通用图文模型的幻觉问题。技术研发人员:朱优松,陈志扬,王金桥受保护的技术使用者:中国科学院自动化研究所技术研发日:技术公布日:2024/9/26本文地址:https://www.jishuxx.com/zhuanli/20240929/313492.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。