技术新讯 > 计算推算,计数设备的制造及其应用技术 > 多模态数据融合控制方法、装置、设备及介质 > 正文

多模态数据融合控制方法、装置、设备及介质

国知局
2024-10-15 10:21:07

本发明涉及计算机，特别是涉及一种多模态数据融合控制方法、装置、设备及介质。

背景技术：

1、随着人工智能技术的快速发展，以及多模态数据在现实世界中的广泛存在，构建能够有效理解和生成跨模态信息的智能系统，成为了自然语言处理和人工智能领域的一个重要课题。近年来，大型语言模型（large language model，llm）以其强大的语言理解和生成能力，为实现这一目标提供了新的思路和方法。

2、然而，现有的多模态llm虽然在跨模态理解和生成任务上展现出了良好的性能，但仍存在一些局限和不足：通常大多采用浅层的特征级融合或简单的注意力交互，难以充分挖掘不同模态信息在深层语义上的关联和互补性，这导致模型无法形成全面、准确的多模态语义理解，在处理复杂场景时表现欠佳；大多数多模态llm采用固定的特征融合方式，这使得模型难以适应不同场景下对多模态信息的动态需求，影响了其泛化和迁移能力；模型主要通过隐式的特征交互来学习不同模态信息的对齐，导致会产生与输入信息不相关、甚至相矛盾的输出，影响了结果的可靠性和可用性等。多模态llm存在的上述局限和不足会导致在处理更加复杂和开放的多模态场景时，生成内容效果不佳，造成硬件处理效率不高。

技术实现思路

1、本发明的目的是提供一种多模态数据融合控制方法、装置、设备及介质，可以形成富有层次性和语义交互性的多模态表示，实现灵活、动态的跨模态信息交互，显著提升模型在跨模态理解和生成任务中的性能表现，提高硬件处理效率。

2、为了解决上述技术问题，本发明提供一种多模态数据融合控制方法，所述方法包括：

3、将至少两种模态数据输入至预训练语言模型的输入层中，对至少两种模态数据分别进行特征提取和嵌入映射，得到初始的不同模态嵌入表示；

4、在embedding层使用跨模态注意力对初始的不同模态嵌入表示进行交互融合，得到跨模态融合特征，在transformer编码器的每一层中使用跨模态注意力对所述跨模态融合特征进行融合，得到多层次跨模态融合特征；

5、根据所述多层次跨模态融合特征和当前解码隐藏状态，动态预测不同模态在当前时间步的重要性权重，并利用所述重要性权重结合所述多层次跨模态融合特征，得到自适应多模态融合特征；

6、通过最小化不同模态特征之间的对比损失以及所述自适应多模态融合特征与各模态特征之间的对比损失，学习跨模态的语义对齐，并实时评估生成内容与其中一种模态数据之间的相关性，过滤掉不相关或不一致的生成结果；

7、采用多任务联合训练策略将多个任务的相应损失函数进行加权求和，形成统一的训练目标，利用所述训练目标对所述预训练语言模型进行训练；

8、将至少两种待处理模态数据输入至训练好的所述预训练语言模型，解码生成与其中一种待处理模态数据语义一致的目标模态数据。

9、第一方面，在本发明提供的上述多模态数据融合控制方法中，当至少两种模态数据包含文本和图像时，对至少两种模态数据分别进行特征提取和嵌入映射，得到初始的不同模态嵌入表示，包括：

10、使用词嵌入矩阵将输入的文本映射为实值向量表示：

11、；

12、其中，表示输入的文本序列，为序列长度，为文本特征的维度；

13、使用预训练的卷积神经网络提取输入的图像的高层语义特征，并通过线性变换层将所述高层语义特征映射到与文本特征相同的维度，得到图像特征表示：

14、；

15、其中，表示输入的图像，为图像特征的数量，为线性变换矩阵。

16、另一方面，在本发明提供的上述多模态数据融合控制方法中，在embedding层使用跨模态注意力对初始的不同模态嵌入表示进行交互融合，得到跨模态融合特征，包括：

17、使用文本特征作为查询，图像特征作为键值，计算文本特征和图像特征之间的注意力权重：

18、；

19、；

20、其中，为表示文本特征对图像特征的关注程度，分别为查询、键、值的线性变换矩阵，表示图像特征的第行，为缩放因子，表示文本特征和图像特征之间的注意力权重；

21、将注意力权重与原始的文本嵌入相加，并通过layernorm和残差连接，得到融合后的多模态嵌入表示作为跨模态融合特征。

22、另一方面，在本发明提供的上述多模态数据融合控制方法中，在transformer编码器的每一层中使用跨模态注意力对所述跨模态融合特征进行融合，得到多层次跨模态融合特征，包括：

23、在transformer编码器的每一层中，通过自注意力机制对文本特征进行语义编码：

24、；

25、；

26、；

27、其中，、、分别表示自注意力机制中的查询、键和值的矩阵；

28、引入跨模态注意力子层，用于将图像特征动态地融入到文本特征中；以作为查询，图像特征作为键值，计算和图像特征之间的注意力权重：

29、；

30、；

31、其中，为表示对图像特征的关注程度，，，分别为查询、键、值的线性变换矩阵，表示和图像特征之间的注意力权重；

32、将跨模态注意力输出与文本特征相加，并经过layernorm和前馈神经网络，得到当前层的多模态融合特征：

33、；

34、；

35、其中，表示当前层的多模态融合特征；

36、在transformer解码器的每一层中，通过掩码自注意力对已生成的文本序列进行特征提取；

37、使用编码-解码注意力机制，将编码器输出的多模态特征融入到解码器的隐藏状态中；

38、将融合后的特征输入到线性层和softmax层中，得到当前位置的词汇分布，并采样生成下一个目标词。

39、另一方面，在本发明提供的上述多模态数据融合控制方法中，根据所述多层次跨模态融合特征和当前解码隐藏状态，动态预测不同模态在当前时间步的重要性权重，并利用所述重要性权重结合所述多层次跨模态融合特征，得到自适应多模态融合特征，包括：

40、给定一个多模态输入序列，并使用一个多层感知机对每个时间步的输入进行编码，得到其隐藏表示；

41、使用一个注意力机制来聚合整个序列的隐藏表示，形成一个全局的上下文向量；

42、将上下文向量输入到另一个多层感知机，预测不同模态在当前上下文下的重要性权重；

43、将每个时间步的输入分解为不同模态的特征表示，并使用所述重要性权重对不同模态的特征表示进行加权融合；

44、将融合后的表示输入至transformer编码器中，与多层次跨模态交互过程相结合，得到自适应多模态融合特征。

45、另一方面，在本发明提供的上述多模态数据融合控制方法中，通过最小化不同模态特征之间的对比损失，包括：

46、在训练阶段，假设有一个由图文对组成的训练集，其中表示第个样本的图像，表示相应的文本描述；目标是学习一个跨模态匹配模型，使得匹配的图文对之间的相似度高于不匹配的图文对；

47、构建正负样本对进行训练，对于每个正样本对，从训练集中随机选择个负样本，使得；

48、最小化对比损失函数；所述对比损失函数为：

49、；

50、其中，表示第i个样本的图像特征向量和文本特征向量，表示匹配的图文对之间的相似度函数，表示不匹配的图文对之间的相似度函数，为温度超参数，用于控制softmax分布的平滑程度。

51、另一方面，在本发明提供的上述多模态数据融合控制方法中，实时评估生成内容与其中一种模态数据之间的相关性，包括：

52、当生成内容为文本时，对于给定的图像和生成的文本，使用跨模态匹配模型计算给定的图像和生成的文本之间的相似度得分；

53、将所述相似度得分与预设阈值进行比较，以判断生成内容是否与图像语义一致。

54、为了解决上述技术问题，本发明还提供一种多模态数据融合控制装置，所述装置包括：

55、多模态输入编码模块，用于将至少两种模态数据输入至预训练语言模型的输入层中，对至少两种模态数据分别进行特征提取和嵌入映射，得到初始的不同模态嵌入表示；

56、多层次跨模态交互模块，用于在embedding层使用跨模态注意力对初始的不同模态嵌入表示进行交互融合，得到跨模态融合特征，在transformer编码器的每一层中使用跨模态注意力对所述跨模态融合特征进行融合，得到多层次跨模态融合特征；

57、动态模态重要性调控模块，用于根据所述多层次跨模态融合特征和当前解码隐藏状态，动态预测不同模态在当前时间步的重要性权重，并利用所述重要性权重结合所述多层次跨模态融合特征，得到自适应多模态融合特征；

58、跨模态一致性约束模块，用于通过最小化不同模态特征之间的对比损失以及所述自适应多模态融合特征与各模态特征之间的对比损失，学习跨模态的语义对齐，并实时评估生成内容与其中一种模态数据之间的相关性，过滤掉不相关或不一致的生成结果；

59、多任务联合训练模块，用于采用多任务联合训练策略将多个任务的相应损失函数进行加权求和，形成统一的训练目标，利用所述训练目标对所述预训练语言模型进行训练；

60、跨模态推理生成模块，用于将至少两种待处理模态数据输入至训练好的所述预训练语言模型，解码生成与其中一种待处理模态数据语义一致的目标模态数据。

61、为了解决上述技术问题，本发明还提供一种多模态数据融合控制设备，所述设备包括：

62、存储器，用于存储计算机程序；

63、处理器，用于执行所述计算机程序时实现上述的多模态数据融合控制方法的步骤。

64、为了解决上述技术问题，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现上述的多模态数据融合控制方法的步骤。

65、从上述技术方案可以看出，本发明所提供的一种多模态数据融合控制方法，该方法包括：将至少两种模态数据输入至预训练语言模型的输入层中，对至少两种模态数据分别进行特征提取和嵌入映射，得到初始的不同模态嵌入表示；在embedding层使用跨模态注意力对初始的不同模态嵌入表示进行交互融合，得到跨模态融合特征，在transformer编码器的每一层中使用跨模态注意力对跨模态融合特征进行融合，得到多层次跨模态融合特征；根据多层次跨模态融合特征和当前解码隐藏状态，动态预测不同模态在当前时间步的重要性权重，并利用重要性权重结合多层次跨模态融合特征，得到自适应多模态融合特征；通过最小化不同模态特征之间的对比损失以及自适应多模态融合特征与各模态特征之间的对比损失，学习跨模态的语义对齐，并实时评估生成内容与其中一种模态数据之间的相关性，过滤掉不相关或不一致的生成结果；采用多任务联合训练策略将多个任务的相应损失函数进行加权求和，形成统一的训练目标，利用训练目标对预训练语言模型进行训练；将至少两种待处理模态数据输入至训练好的预训练语言模型，解码生成与其中一种待处理模态数据语义一致的目标模态数据。

66、本发明的有益效果在于，本发明提供的上述多模态数据融合控制方法，通过在预训练语言模型的embedding层和transformer编码器层引入跨模态注意力，实现模态间信息在不同语义层次上的充分融合，形成富有层次性和语义交互性的多模态表示，从而显著提升模型的多模态理解能力；并且让模型能够自适应地调节不同模态信息在多模态融合过程中的重要性权重，实现灵活、动态的跨模态信息交互，提高模型在不同场景下的适应能力和泛化能力；另外可以显式地转化生成内容与源输入在语义层面的一致性，并实时评估生成内容与其中一种模态数据之间的相关性，提高模型输出内容的准确性、相关性和可靠性，且让模型的决策过程更加透明和可理解，为其在实际场景中的应用奠定基础。这样通过多层次跨模态交互机制、动态模态重要性调控机制和跨模态一致性约束机制，不仅显著提升预训练语言模型在跨模态理解和生成任务中的性能表现，扩大其应用范围和领域，提高硬件处理效率，也为探索多模态人工智能系统提供了重要的理论和方法支撑。

67、此外，本发明还针对多模态数据融合控制方法提供了相应的多模态数据融合控制装置、多模态数据融合控制设备及计算机可读存储介质，与上述提到的多模态数据融合控制方法具有相同或相对应的技术特征，效果同上。