技术新讯 > 计算推算,计数设备的制造及其应用技术 > 一种基于多模态的对比解码幻觉减轻方法、装置及终端  >  正文

一种基于多模态的对比解码幻觉减轻方法、装置及终端

  • 国知局
  • 2024-11-21 11:52:58

本发明涉及多模态大模型,特别涉及一种基于多模态的对比解码幻觉减轻方法、装置及终端。

背景技术:

1、在现有技术中,对比解码通常需要引入额外的模型来进行对比和验证。这意味着除了原本的大模型之外,还需要额外的计算资源和存储空间来运行这些辅助模型。这不仅增加了系统的复杂性,还会导致计算资源开销增大,从而降低整体性能。此外,对比解码最初作为自然语言处理领域的一项技术被提出,往往局限于单模态(例如文本模态)。在处理多模态大模型的幻觉时,单模态的对比解码方法无法充分利用多模态的特性。因此,需要一种更高效、更专业的方式来解决这个问题。

2、因此,现有技术还有待改进和提高。

技术实现思路

1、针对现有技术的上述缺陷,本发明提供一种基于多模态的对比解码幻觉减轻方法、装置及终端,旨在解决现有技术中对比解码方法需要引入额外的模型且无法充分利用多模态特性的问题。

2、为了解决上述技术问题,本发明所采用的技术方案如下:

3、本发明的第一方面,提供一种基于多模态的对比解码幻觉减轻方法、装置及终端,所述方法包括:

4、获取目标初始数据,对所述目标初始数据进行多模态扰动处理,得到目标扰动数据,所述目标初始数据包括目标高清图像及其对应的目标文本提示词;

5、将所述目标初始数据和所述目标扰动数据输入至目标模型,得到初始输出和幻觉输出,所述目标模型为大型视觉语言模型;

6、对所述初始输出和所述幻觉输出进行对比解码,得到目标输出。

7、在一种实现方式中,所述对所述目标初始数据进行多模态扰动处理,得到目标扰动数据,包括:

8、对所述目标初始数据的图像部分进行视觉扰动,得到目标视觉扰动数据;

9、对所述目标初始数据的文本部分进行语言扰动,得到目标语言扰动数据;

10、基于所述目标视觉扰动数据和所述目标语言扰动数据得到所述目标扰动数据。

11、在一种实现方式中,所述对所述目标初始数据的图像部分进行视觉扰动,得到目标视觉扰动数据,包括:

12、将所述目标初始数据中的所述目标高清图像替换为全白图像,得到目标扰动图像;

13、将所述目标扰动图像与所述目标初始数据中的所述目标文本提示词结合,得到所述目标视觉扰动数据。

14、在一种实现方式中,所述对所述目标初始数据的文本部分进行语言扰动,得到目标语言扰动数据,包括:

15、将所述目标初始数据中的所述目标文本提示词的目标部分替换为掩码标记,得到目标扰动文本;

16、将所述目标扰动文本与所述目标初始数据中的所述目标高清图像结合,得到所述目标语言扰动数据。

17、在一种实现方式中,所述将所述目标初始数据和所述目标扰动数据输入至目标模型,得到初始输出和幻觉输出,包括:

18、所述目标模型中的视觉编码器分别基于所述目标初始数据、所述目标视觉扰动数据和所述目标语言扰动数据中的图像提取高层次的视觉特征,得到初始视觉向量、视觉扰动视觉向量和语言扰动视觉向量;

19、将所述初始视觉向量、视觉扰动视觉向量和语言扰动视觉向量分别输入所述目标模型中的语言模型,得到所述初始输出、视觉幻觉输出和语言幻觉输出;

20、基于所述视觉幻觉输出和所述语言幻觉输出得到所述幻觉输出。

21、在一种实现方式中,所述对所述初始输出和所述幻觉输出进行对比解码,包括:

22、获取第一超参数和第二超参数,所述第一超参数为所述视觉幻觉输出对应的权重,所述第二超参数为所述语言幻觉输出对应的权重;

23、基于所述第一超参数和所述第二超参数对所述初始输出和所述幻觉输出进行对比解码。

24、在一种实现方式中,所述基于所述第一超参数和所述第二超参数对所述初始输出和所述幻觉输出进行对比解码,包括:

25、基于目标公式对所述初始输出和所述幻觉输出进行对比解码,所述目标公式为:

26、;

27、其中, x为所述初始输出、为所述目标输出、为所述视觉幻觉输出、为所述语言幻觉输出、和为超参数。

28、本发明的第二方面,提供一种基于多模态的对比解码幻觉减轻装置,包括:

29、扰动模块,用于获取目标初始数据,对所述目标初始数据进行多模态扰动处理,得到目标扰动数据,所述目标初始数据包括目标高清图像及其对应的目标文本提示词;

30、输出模块,用于将所述目标初始数据和所述目标扰动数据输入至目标模型,得到初始输出和幻觉输出,所述目标模型为大型视觉语言模型;

31、对比解码模块,用于对所述初始输出和所述幻觉输出进行对比解码,得到目标输出。

32、本发明的第三方面,提供一种终端,所述终端包括处理器、与处理器通信连接的计算机可读存储介质,所述计算机可读存储介质适于存储多条指令,所述处理器适于调用所述计算机可读存储介质中的指令,以执行实现上述任一项所述的基于多模态的对比解码幻觉减轻方法的步骤。

33、本发明的第四方面,提供一种计算机可读存储介质,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现上述任一项所述的基于多模态的对比解码幻觉减轻方法的步骤。

34、与现有技术相比,本发明提供了一种基于多模态的对比解码幻觉减轻方法、装置及终端,所述的基于多模态的对比解码幻觉减轻方法,通过获取目标初始数据,对所述目标初始数据进行多模态扰动处理,得到目标扰动数据,所述目标初始数据包括目标高清图像及其对应的目标文本提示词,然后将所述目标初始数据和所述目标扰动数据输入至目标模型,得到初始输出和幻觉输出,所述目标模型为大型视觉语言模型,最后,对所述初始输出和所述幻觉输出进行对比解码,得到目标输出。本发明所提出的基于多模态的对比解码幻觉减轻方法,通过向多模态输入中注入噪声以生成负样本,并将其与原始输出进行比较以校准模型输出,从而有效降低了错误信息产生的风险。显著缓解了大规模多模态模型中的幻觉问题,并证明了其在提升模型整体感知能力方面的巨大潜力。

技术特征:

1.一种基于多模态的对比解码幻觉减轻方法,其特征在于,所述基于多模态的对比解码幻觉减轻方法包括:

2.根据权利要求1所述的基于多模态的对比解码幻觉减轻方法,其特征在于,所述对所述目标初始数据进行多模态扰动处理,得到目标扰动数据,包括:

3.根据权利要求2所述的基于多模态的对比解码幻觉减轻方法,其特征在于,所述对所述目标初始数据的图像部分进行视觉扰动,得到目标视觉扰动数据,包括:

4.根据权利要求2所述的基于多模态的对比解码幻觉减轻方法,其特征在于,所述对所述目标初始数据的文本部分进行语言扰动,得到目标语言扰动数据,包括:

5.根据权利要求2所述的基于多模态的对比解码幻觉减轻方法,其特征在于,所述将所述目标初始数据和所述目标扰动数据输入至目标模型,得到初始输出和幻觉输出,包括:

6.根据权利要求5所述的基于多模态的对比解码幻觉减轻方法,其特征在于,所述对所述初始输出和所述幻觉输出进行对比解码,包括:

7.根据权利要求6所述的基于多模态的对比解码幻觉减轻方法,其特征在于,所述基于所述第一超参数和所述第二超参数对所述初始输出和所述幻觉输出进行对比解码,包括:

8.一种基于多模态的对比解码幻觉减轻装置,其特征在于,包括:

9.一种终端,其特征在于,所述终端包括:处理器、与处理器通信连接的计算机可读存储介质,所述计算机可读存储介质适于存储多条指令,所述处理器适于调用所述计算机可读存储介质中的指令,以执行实现上述权利要求1-7任一项所述的基于多模态的对比解码幻觉减轻方法的步骤。

10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现如权利要求1-7任一项所述的基于多模态的对比解码幻觉减轻方法的步骤。

技术总结本发明公开了一种基于多模态的对比解码幻觉减轻方法、装置及终端,方法包括:获取目标初始数据,对所述目标初始数据进行多模态扰动处理,得到目标扰动数据,所述目标初始数据包括目标高清图像及其对应的目标文本提示词;将所述目标初始数据和所述目标扰动数据输入至目标模型,得到初始输出和幻觉输出,所述目标模型为大型视觉语言模型;对所述初始输出和所述幻觉输出进行对比解码,得到目标输出。本发明通过添加多模态的噪声,并将其与初始输出进行对比,从而校准模型的预测,减少生产错误信息的可能性。技术研发人员:漆舒汉,蒋遇,王强,张加佳,王轩受保护的技术使用者:哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院)技术研发日:技术公布日:2024/11/18

本文地址:https://www.jishuxx.com/zhuanli/20241120/333171.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。