技术新讯 > 计算推算,计数设备的制造及其应用技术 > 经由结构化模型间通信进行零样本多模态数据处理的制作方法  >  正文

经由结构化模型间通信进行零样本多模态数据处理的制作方法

  • 国知局
  • 2024-12-26 16:16:55

本公开总体上涉及用于机器学习模型的结构化模型间通信。更具体地,本公开涉及经由基础机器学习模型之间的结构化模型间通信对多模态数据进行上下文处理。

背景技术:

1、基础模型是在大规模的广泛数据上训练的模型,并且适用于各种各样的下游任务(例如,视觉语言模型(vlm)、大语言模型(lm)、音频语言模型(alm)等)。最近,基础模型已经针对各种机器学习任务实现了令人印象深刻的能力。然而,这些能力取决于训练数据的分布,训练数据的分布通常跨领域有很大不同。例如,vlm通常在图像和视频字幕上进行训练,而lm在其他数据的大语料库(例如,电子表格、虚构小说、标准化测试问题等)上进行训练。

技术实现思路

1、本公开的实施例的各方面和优点将在以下描述中部分地阐述,或者可从描述中学习,或者可通过实施例的实践来学习。

2、本公开的一个示例方面涉及一种用于经由机器学习模型之间的模型间通信进行上下文处理的计算机实现的方法。该方法包括由包括一个或多个计算装置的计算系统获得输入数据。该方法包括由计算系统用两个或更多个预训练模型来处理输入数据以生成输出数据,其中处理输入包括在两个或更多个预训练模型之间执行结构化模型间通信模式。该方法包括由计算系统提供输出数据作为输出。

3、本公开的另一个示例方面涉及一种用于用基础机器学习模型进行上下文处理的计算系统。该计算系统包括一个或多个处理器。该计算系统包括一个或多个非暂时性计算机可读介质,该一个或多个非暂时性计算机可读介质共同存储指令,这些指令在由一个或多个处理器执行时使该计算系统执行操作。这些操作包括获得输入数据。这些操作包括用两个或更多个预训练模型来处理输入数据以生成输出数据,其中处理输入包括在两个或更多个预训练模型之间执行结构化模型间通信模式。这些操作包括提供输出数据作为输出。

4、本公开的另一个示例方面涉及一个或多个非暂时性计算机可读介质,该一个或多个非暂时性计算机可读介质共同存储指令,这些指令在由一个或多个计算装置执行时使一个或多个计算装置执行操作。这些操作包括获得输入数据。这些操作包括用两个或更多个预训练模型来处理输入数据以生成输出数据,其中处理输入包括在两个或更多个预训练模型之间执行结构化模型间通信模式结构化对话。这些操作包括提供输出数据作为输出。

5、本公开的另一个示例方面涉及一种用于经由机器学习模型之间的结构化模型间通信进行上下文处理的方法。该方法包括由包括一个或多个计算装置的计算系统获得输入数据和上下文数据语料库,其中输入数据包括描述查询的数据,并且其中上下文数据语料库包括多模态数据。该方法包括由计算系统用两个或更多个预训练模型中的一者或多者来处理上下文数据语料库,以获得基于语言的上下文历史,其中一个或多个预训练模型包括语言模型。

6、本公开的其他方面涉及各种系统、设备、非暂时性计算机可读介质、用户接口和电子装置。

7、将参考以下描述和随附权利要求更好地理解本公开的各种实施例的这些和其他特征、方面和优点。并入本说明书中并且构成本说明书的一部分的附图示出了本公开的示例实施例,并且连同描述一起用于解释相关原理。

技术特征:

1.一种用于经由机器学习模型之间的结构化模型间通信进行上下文处理的计算机实现的方法,所述方法包括:

2.如权利要求1所述的计算机实现的方法,其中所述方法还包括:

3.如权利要求2所述的计算机实现的方法,其中所述上下文数据语料库包括多模态数据,所述多模态数据包括视频数据、音频数据和/或文本数据。

4.如权利要求1所述的计算机实现的方法,其中所述两个或更多个预训练模型包括以下中的两者或更多者:

5.如权利要求1所述的计算机实现的方法,其中:

6.如权利要求5所述的计算机实现的方法,其中:

7.如权利要求4所述的计算机实现的方法,其中所述输入数据包括多模态数据,所述多模态数据包括视频数据;并且

8.如权利要求7所述的计算机实现的方法,其中:

9.如权利要求1所述的计算机实现的方法,其中所述输出包括零样本处理输出。

10.一种用于经由预训练机器学习模型之间的模型间通信进行上下文处理的计算系统,所述计算系统包括:

11.一个或多个非暂时性计算机可读介质,所述一个或多个非暂时性计算机可读介质共同存储指令,所述指令在由一个或多个计算装置执行时使所述一个或多个计算装置执行操作,所述操作包括:

12.如权利要求11所述的一个或多个非暂时性计算机可读介质,其中所述上下文数据语料库包括多模态数据,所述多模态数据包括视频数据、音频数据和/或文本数据。

13.如权利要求11所述的一个或多个非暂时性计算机可读介质,其中所述两个或更多个预训练模型包括以下中的两者或更多者:

14.如权利要求11所述的一个或多个非暂时性计算机可读介质,其中:

15.如权利要求14所述的一个或多个非暂时性计算机可读介质,其中:

16.如权利要求13所述的一个或多个非暂时性计算机可读介质,其中所述输入数据包括多模态数据,所述多模态数据包括视频数据;并且

17.如权利要求16所述的一个或多个非暂时性计算机可读介质,其中:

18.如权利要求11所述的一个或多个非暂时性计算机可读介质,其中所述输出包括零样本处理输出。

19.一种用于经由预训练机器学习模型之间的模型间通信进行socratic上下文处理的方法,所述方法包括:

20.如权利要求19所述的方法,其中所述上下文数据语料库包括视频数据和对应的音频数据;

技术总结本公开的系统和方法涉及一种用于经由预训练机器学习模型之间的模型间通信进行上下文处理的计算机实现的方法。该方法包括由包括一个或多个计算装置的计算系统获得输入数据。该方法包括由计算系统用两个或更多个预训练模型来处理输入数据以生成输出数据,其中处理输入包括执行结构化模型间通信模式以通过通信信道在两个或更多个预训练模型之间进行模型间通信。该方法包括由计算系统提供输出数据作为输出。技术研发人员:A·曾,A·W·D·王,S·韦尔克,K·乔罗曼斯奇,F·汤巴里,A·R·普罗希特,M·S·刘,V·辛德瓦尼,J·C·李,V·O·范霍克,P·R·弗洛伦斯受保护的技术使用者:谷歌有限责任公司技术研发日:技术公布日:2024/12/12

本文地址:https://www.jishuxx.com/zhuanli/20241216/349064.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。