技术新讯 > 计算推算,计数设备的制造及其应用技术 > 多模态大模型训练方法、机器人动作预测方法及处理装置与流程 > 正文

多模态大模型训练方法、机器人动作预测方法及处理装置与流程

国知局
2024-08-22 15:06:50

本发明涉及人工智能，尤其涉及一种多模态大模型训练方法、机器人动作预测方法及处理装置。

背景技术：

1、随着人工智能技术的飞速发展，大模型作为研究热点持续升温，展现出强劲的发展势头和广泛的社会影响力。大模型是以基于自注意力机制的深度神经网络模型transformer模型作为基础架构，参数量通常达到数十亿乃至数万亿级别，并且支持多模态学习，即同时处理文本、图像、音频等多种类型的数据，通过跨模态交互学习，增强模型对复杂现实场景的理解和表达能力。

2、随着大模型技术的成熟及其在自然语言处理任务中展现出的卓越性能，研究人员开始积极探索其与机器人技术的深度融合，以提升机器人的智能化水平和应用场景适应性。

3、目前，大模型在应用于机器人的时候，可支持的输入模态比较单一，很难在复杂环境中达到令人满意的水平。

技术实现思路

1、本技术的目的在于提供一种多模态大模型训练方法、机器人动作预测方法及处理装置，以至少解决上述技术问题。本发明提供的诸多技术方案中的可选技术方案所能产生的诸多技术效果详见下文阐述。

2、为实现上述目的，第一方面，本技术提供一种用于机器人动作预测的多模态大模型训练方法，所述多模态大模型包括事件编码模块、图像编码模块、文字指令编码模块和特征融合编码模块，所述事件编码模块、图像编码模块、文字指令编码模块均与所述特征融合编码模块连接；所述用于机器人动作预测的多模态大模型训练方法包括：

3、获取第一事件相机的第一事件数据、第一rgb相机的第一图像数据及第一文字指令；

4、通过所述事件编码模块将获取的所述第一事件数据进行编码处理，获得预设长度的第一事件帧特征向量；通过图像编码模块将获取的所述第一图像数据进行编码处理，获得所述预设长度的第一图像特征向量；通过文字指令编码模块将获取的所述第一文字指令进行编码处理，获得所述预设长度的文本特征向量；

5、拼接所述第一事件帧特征向量和所述第一图像特征向量，以获得视觉特征向量；

6、在所述特征融合编码模块的交叉注意力结构和自注意力结构中，将所述视觉特征向量与所述文本特征向量进行特征融合及迭代训练，直至融合后的特征向量与机器人的动作样本之间的第一差异小于第一阈值，以得到多模态大模型。

7、在一些实施例中，所述将所述视觉特征向量与所述文本特征向量进行特征融合及迭代训练，直至融合后的特征向量与机器人的动作样本之间的第一差异小于第一阈值，以得到多模态大模型，包括：

8、利用第一损失函数计算所述融合后的特征向量与所述机器人的动作样本之间的差异，获得第一损失函数值；

9、基于所述第一损失函数值，调整所述事件编码模块及所述交叉注意力结构的权重，并冻结所述图像编码模块、文字指令编码模块及所述自注意力结构的权重，以进行迭代训练，直至所述第一差异小于所述第一阈值，得到所述多模态大模型。

10、在一些实施例中，所述用于机器人动作预测的多模态大模型训练方法还包括获得所述事件编码模块；

11、所述获得所述事件编码模块，包括：

12、将获取的第二事件数据压缩为事件帧的格式；

13、利用对比学习机制，对获取的第二图像数据进行编码，获得第二图像特征向量，对所述事件帧进行编码，获得第二事件特征向量；

14、利用所述第二图像特征向量及所述第二事件特征向量训练获得所述事件编码模块。

15、在一些实施例中，所述将获取的第二事件数据压缩为事件帧的格式，包括：

16、获取若干个第二事件数据，所述第二事件数据包括地址（x,y）、极性p和时间戳t，其中，所述地址标识发生事件的像素位置；所述极性指示亮度变化的方向；所述时间戳记录亮度变化的时间节点；

17、确定同一个时间戳的各个所述第二事件数据；

18、利用格式转换器将同一个时间戳的所述第二事件数据的格式转换为事件帧的格式。

19、在一些实施例中，所述确定同一个时间戳的各个所述第二事件数据，包括：

20、对各个所述第二事件数据按照时间戳进行排序；

21、将排序后的所述第二事件数据放入先进先出队列中，并通过计数器和计时器，统计各个不同时间戳下的第二事件数据的数量，以及同一时间戳下的第二事件数据的数量。

22、在一些实施例中，所述利用所述第二图像特征向量及所述第二事件特征向量训练获得所述事件编码模块，包括：

23、对所述第二图像特征向量和第二事件特征向量分别进行归一化处理，获得归一化图像向量和归一化事件向量；

24、将所述归一化图像向量和所述归一化事件向量做矩阵乘法，获得余弦相似度矩阵；

25、在所述余弦相似度矩阵的横向，计算所述归一化图像向量相对于所述归一化事件向量的第一softmax结果，以及在所述余弦相似度矩阵的纵向，计算所述归一化事件向量相对于所述归一化图像向量的第二softmax结果，并基于所述第一softmax结果和所述第二softmax结果，获得概率相似度矩阵；

26、在所述概率相似度矩阵中计算横向损失值和纵向损失值，获得第二损失函数值，直至所述第二损失函数值与图像样本之间的第二差异小于第二阈值，获得所述事件编码模块。

27、在一些实施例中，所述在所述概率相似度矩阵中计算横向损失值和纵向损失值，获得第二损失函数值，包括：

28、获取位于所述概率相似度矩阵中主对角线的第一softmax结果和第二softmax结果；

29、将位于所述主对角线的所述第一softmax结果和所述第二softmax结果分别代入交叉熵损失函数公式中的预测概率q，并将所述交叉熵损失函数公式中的真实概率p设为1，获得横向损失值和纵向损失值；

30、所述交叉熵损失函数的公式为：

31、；

32、所述交叉熵损失函数的公式为：

33、其中，表示交叉熵损失函数，p表示第一softmax结果和第二softmax结果相等的真实概率，q表示第一softmax结果和第二softmax结果相等的预测概率；n表示第一softmax结果或第二softmax结果的个数；

34、将所述横向损失值和纵向损失值相加，获得所述第二损失函数值。

35、在一些实施例中，所述获得第二损失函数值，直至所述第二损失函数值与图像样本之间的第二差异小于第二阈值，获得所述事件编码模块，包括：

36、基于所述第二损失函数值，调整对所述事件帧编码的权重，并冻结对所述第二图像数据编码的权重，以进行迭代训练，直至所述第二差异小于所述第二阈值，得到所述事件编码模块。

37、第二方面，本技术提供一种机器人动作预测方法，所述机器人包括第二事件相机及第二rgb相机，所述机器人动作预测方法包括：

38、将所述第二事件相机在当前时刻获取的第三事件数据、所述第二rgb相机在当前时刻获取的第三图像数据以及第二文字指令输入训练好的多模态大模型中，获得机器人当前预测的动作信息；所述多模态大模型通过第一方面任一项所述的用于机器人动作预测的多模态大模型训练方法训练获得；

39、将所述当前预测的动作信息输入长短期记忆网络，所述长短期记忆网络基于所述当前预测的动作信息及所述机器人的历史状态信息，输出所述机器人当前时刻的最终动作。

40、第三方面，本技术提供一种处理装置，包括：一个或多个处理器；存储器，用于存储一个或多个计算机程序，一个或多个所述处理器用于执行所述存储器存储的一个或多个计算机程序，以使一个或多个所述处理器执行如第一方面任一项所述的一种用于机器人动作预测的多模态大模型训练方法及第二方面所述的机器人动作预测方法。

41、第四方面，本技术提供一种电子设备，所述电子设备包括第三方面所述的处理装置。

42、实施本技术上述技术方案中的一个技术方案，具有如下优点或有益效果：

43、本技术的多模态大模型训练方法、机器人动作预测方法及处理装置，在训练多模态大模型的时候，事件编码模块使得第一事件数据可以转换为多模态大模型可以理解的输入，将第一事件相机的第一事件数据、第一rgb相机的第一图像数据及第一文字指令分别编码处理，提取出同一预设长度的第一事件帧特征向量、第一图像特征向量及文本特征向量，从而可以将第一事件数据、第一图像数据及第一文字指令映射到同一高维空间，为后续多模态融合提供基础，可支持多模态输入，可以在复杂环境中使得机器人工作更精准，达到令人满意的工作，且可以降低数据要求和成本。

44、机器人在动作预测的时候，由于第二事件相机具有高动态范围、低延迟的特性，可以对机器人高速运动以及所处的高低光照环境具有很好的响应，多模态大模型支持多模态学习，即同时处理第二文字指令、第三事件相机的第三事件数据、第二rgb相机的第三图像数据，通过跨模态交互学习，令机器人具备在复杂场景（高速运动，光照条件差）下更强的感知能力，同时利用多模态大模型的强大背景知识，使得机器人可以在具备更加灵活合理的决策能力。