技术新讯 > 计算推算,计数设备的制造及其应用技术 > 多模态信息处理方法及装置与流程  >  正文

多模态信息处理方法及装置与流程

  • 国知局
  • 2025-01-10 13:33:40

本说明书实施例涉及机器学习,特别涉及多模态信息处理方法及装置。

背景技术:

1、随着计算机和互联网技术的发展,大语言模型的技术愈发成熟。而多模态大语言模型更是成为了现今着重发展的方向。当前的多模态大语言模型(mllms),如llava和blip-2,主要依赖于单一图像的输入。这些模型通常包括一个visual 编码器,用于将图像转换为visual token,并结合语言模型来处理和生成多模态输出。例如,llava模型使用预训练的visual 变换器(vision transformer, vit)从图像中提取特征,并将这些特征投影到visual token上,然后与语言token一起输入到语言模型中进行处理。在多模态学习中,核心问题在于如何有效地处理和整合大量的visual 信息与文本信息。现有技术中,多模态大语言模型在处理多图像输入时会产生大量的visual token,这不仅增加了内存开销,还可能导致模型性能的下降。此外,现有的多模态大语言模型(mllms)通常仅训练在单图像数据集上,无法从多模态instance中学习,这限制了其在复杂场景中的应用。因此亟需一种有效的方案以解决上述问题。

技术实现思路

1、有鉴于此,本说明书实施例提供了多模态信息处理方法。本说明书一个或者多个实施例同时涉及多模态信息处理装置,一种计算设备,一种计算机可读存储介质以及一种计算机程序产品,以解决现有技术中存在的技术缺陷。

2、根据本说明书实施例的第一方面,提供了一种多模态信息处理方法,包括:

3、获取多模态信息,并将所述多模态信息输入至语言模型,其中,所述语言模型包含特征提取层、线性投影层和生成子模型;

4、利用所述特征提取层对所述多模态信息进行处理,获得第一信息特征和第二信息特征,其中,所述第一信息特征和所述第二信息特征对应的信息类型不同;

5、通过所述线性投影层将所述第一信息特征和所述第二信息特征投影至融合虚拟单元,根据投影结果生成多模态融合特征;

6、将所述多模态融合特征和所述多模态信息输入至所述生成子模型进行处理,获得所述多模态信息对应的响应信息。

7、可选地,所述利用所述特征提取层对所述多模态信息进行处理,获得第一信息特征和第二信息特征,包括:

8、在所述多模态信息中提取图像信息和文本信息,以及在所述特征提取层中确定图像特征提取层和文本特征提取层;

9、利用所述图像特征提取层对所述图像信息进行处理,获得第一信息特征;

10、利用所述文本特征提取层对所述文本信息进行处理,获得第二信息特征。

11、可选地,所述通过所述线性投影层将所述第一信息特征和所述第二信息特征投影至融合虚拟单元,根据投影结果生成多模态融合特征,包括:

12、通过所述线性投影层将所述第一信息特征和所述第二信息特征投影至融合虚拟单元,根据投影结果生成融合虚拟单元序列;

13、针对所述融合虚拟单元序列中包含的目标融合虚拟单元进行水平拼接,获得所述多模态信息对应的多模态融合特征。

14、可选地,所述根据投影结果生成融合虚拟单元序列,包括:

15、根据投影结果生成多个初始融合虚拟单元;

16、针对所述多个初始融合虚拟单元进行图像隐藏状态调整处理,根据处理结果获得多个目标融合虚拟单元;

17、基于所述多个目标融合虚拟单元生成融合虚拟单元序列。

18、可选地,所述融合虚拟单元的确定,包括:

19、将所述第一信息特征通过前向传播处理与所述第二信息特征对应的特征空间进行融合;

20、根据融合结果生成与所述第二信息特征的特征长度相同的融合虚拟单元。

21、可选地,所述语言模型的训练,包括:

22、确定多模态信息数据集,并在所述多模态信息数据集中提取多模态样本信息;

23、将所述多模态样本信息输入至初始语言模型进行处理,获得所述多模态样本信息对应的预测响应信息;

24、基于所述多模态样本信息对应的样本响应信息和所述预测响应信息,对所述初始语言模型中的初始线性投影层进行优化;

25、根据所述初始线性投影层的优化结果生成所述语言模型。

26、可选地,所述根据所述初始线性投影层的优化结果生成所述语言模型步骤执行之前,还包括:

27、按照预设的模型学习率和模型优化器,检测所述初始线性投影层优化后的初始语言模型是否满足优化停止条件;

28、若否,在所述多模态信息数据集中提取候选多模态样本信息,将所述候选多模态样本信息作为所述多模态样本信息,并执行将所述多模态样本信息输入至初始语言模型进行处理的步骤;

29、若是,将所述初始线性投影层优化后的初始语言模型作为所述语言模型。

30、根据本说明书实施例的第二方面,提供了另一种多模态信息处理方法,应用于服务端,包括:

31、响应于客户端上传的多模态信息选择语言模型,并将所述多模态信息输入至语言模型,其中,所述语言模型包含特征提取层、线性投影层和生成子模型;

32、利用所述特征提取层对所述多模态信息进行处理,获得第一信息特征和第二信息特征,其中,所述第一信息特征和所述第二信息特征对应的信息类型不同;

33、通过所述线性投影层将所述第一信息特征和所述第二信息特征投影至融合虚拟单元,根据投影结果生成多模态融合特征;

34、将所述多模态融合特征和所述多模态信息输入至所述生成子模型进行处理,获得所述多模态信息对应的响应信息,并将所述响应信息反馈至所述客户端。

35、根据本说明书实施例的第三方面,提供了一种多模态信息处理装置,包括:

36、获取模块,被配置为获取多模态信息,并将所述多模态信息输入至语言模型,其中,所述语言模型包含特征提取层、线性投影层和生成子模型;

37、处理模块,被配置为利用所述特征提取层对所述多模态信息进行处理,获得第一信息特征和第二信息特征,其中,所述第一信息特征和所述第二信息特征对应的信息类型不同;

38、投影模块,被配置为通过所述线性投影层将所述第一信息特征和所述第二信息特征投影至融合虚拟单元,根据投影结果生成多模态融合特征;

39、生成模块,被配置为将所述多模态融合特征和所述多模态信息输入至所述生成子模型进行处理,获得所述多模态信息对应的响应信息。

40、根据本说明书实施例的第四方面,提供了另一种多模态信息处理装置,应用于服务端,包括:

41、输入模型模块,被配置为响应于客户端上传的多模态信息选择语言模型,并将所述多模态信息输入至语言模型,其中,所述语言模型包含特征提取层、线性投影层和生成子模型;

42、处理信息模块,被配置为利用所述特征提取层对所述多模态信息进行处理,获得第一信息特征和第二信息特征,其中,所述第一信息特征和所述第二信息特征对应的信息类型不同;

43、投影特征模块,被配置为通过所述线性投影层将所述第一信息特征和所述第二信息特征投影至融合虚拟单元,根据投影结果生成多模态融合特征;

44、反馈信息模块,被配置为将所述多模态融合特征和所述多模态信息输入至所述生成子模型进行处理,获得所述多模态信息对应的响应信息,并将所述响应信息反馈至所述客户端。

45、根据本说明书实施例的第五方面,提供了一种计算设备,包括:

46、存储器和处理器;

47、所述存储器用于存储计算机可执行指令,所述处理器用于执行所述计算机可执行指令,该计算机可执行指令被处理器执行时实现上述多模态信息处理方法的步骤。

48、根据本说明书实施例的第六方面,提供了一种计算机可读存储介质,其存储有计算机可执行指令,该指令被处理器执行时实现上述多模态信息处理方法的步骤。

49、根据本说明书实施例的第七方面,提供了一种计算机程序产品,包括计算机程序或指令,该计算机程序或指令被处理器执行时实现上述多模态信息处理方法的步骤。

50、本实施例提供的多模态信息处理方法,为了能够提高模型灵活性,且减少内存开销,可以在获取到多模态信息后,将多模态信息输入至语言模型,其中,语言模型包含特征提取层、线性投影层和生成子模型;此时可以先利用特征提取层对所述多模态信息进行处理,获得第一信息特征和第二信息特征,其中,第一信息特征和第二信息特征对应的信息类型不同;而后为了能够减少多模态信息在处理中消耗更多的内存开销,可以通过线性投影层将第一信息特征和第二信息特征投影至融合虚拟单元,实现通过融合虚拟单元同时表征两种不同的信息特征,以达到多模态信息中每种信息的语义融合。进而可以根据投影结果生成多模态融合特征;在此基础上,再将多模态融合特征和多模态信息输入至生成子模型进行处理,即可根据处理结果生成多模态信息对应的响应信息,实现在针对多模态信息进行处理时,可以通过特征映射的方式减少内存开销。并且可以通过融合的方式降低模型处理特征的数量,进而可以使得模型输出更加准确且质量更高的响应信息,以便于用户使用。

本文地址:https://www.jishuxx.com/zhuanli/20250110/353918.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。