技术新讯 > 计算推算,计数设备的制造及其应用技术 > 基于大语言模型的多模态识别方法、装置、电子设备和存储介质与流程 > 正文

基于大语言模型的多模态识别方法、装置、电子设备和存储介质与流程

国知局
2024-08-05 12:02:30

本技术属于人工智能信息处理，具体地说，涉及基于大语言模型的多模态识别方法、装置、电子设备和存储介质。

背景技术：

1、大语言模型是指具有大规模参数的语言模型，具备了强大的语言理解和生成能力，通过深度学习技术训练，使用大量的文本数据进行训练，生成连贯、有逻辑的高质量文本内容。

2、多模态识别是通过计算机视觉和自然语言处理等多种模态信息的融合，将不同的模态信息进行关联，实现对多种媒体数据的理解和分析，提供全面、准确的理解和分析结果。

3、多模态数据的数量和种类在不断增加，现有的多模态识别模型难以发现不同模态数据之间可能存在着潜在的语义关联，再进行问答时，对于用户提出的问题，缺乏语义理解和回答能力，仅能提供简单的预设信息，无法实现智能化的交流沟通，满足不了用户的个性化需求，同时缺乏与用户进行视觉交互的能力，缺乏对针对图片上物体的理解、推理能力，无法满足用户在图像方面的使用需求。

技术实现思路

1、为解决上述问题和技术缺陷，本技术实施例采用如下的技术方案，基于大语言模型的多模态识别方法，包括以下步骤：

2、步骤1、收集文本数据和不同类型的模态数据，对数据进行预处理，将文本数据与模态数据结合统一，使文本数据和模态数据在格式与表示上一致；

3、步骤2、使用大语言模型提取文本数据的语义表示特征，并对模态数据进行特征提取，使不同类型数据的特征表示在同一空间中具有统一性；

4、步骤3、进行多阶段多模态融合，将不同类型数据的特征进行融合；

5、步骤4、选择多模态识别任务模型架构，再结合大语言模型的输出结果和模态数据的特征，构建多模态识别模型；

6、步骤5、设计损失函数，使用损失函数和优化器对多模态识别模型进行模型训练，使用验证集和测试集评估对多模态识别模型进行性能评估，评估多模态识别模型模型在多种数据类型上的性能，根据评估结果，调整模型超参数和架构，优化模型。

7、优选地，所述步骤3中进行多阶段多模态融合共五个阶段：

8、第一阶段，在输入层将多个模态的特征直接融合，将大语言模型的输出结果作为一个额外的特征，与模态数据的特征合并为一个更大的单一特征向量；

9、第二阶段，将大语言模型的输出结果和模态数据的特征进行单独处理，分别输入到不同的神经网络中，然后在神经网络的输出层进行融合；

10、第三阶段，使用注意力机制将大语言模型的输出结果和模态数据的特征进行动态融合，根据任务的需求，使用注意力权重调整大语言模型输出结果和模态数据特征在融合过程中的重要程度；

11、第四阶段，根据模态数据之间的关联关系，使用跨模态嵌入技术将大语言模型的输出结果与模态数据的特征映射到一个共享的嵌入空间中，然后在嵌入空间中进行融合；

12、第五阶段，将第一阶段和第二阶段的融合结果进行整合，再根据第三阶段和第四阶段的融合结果分步对整合结果进行调整优化。

13、优选地，所述步骤4中多模态识别模型需要确定多模态识别任务的具体类型，根据实际情况设计合适的任务模块，包括：图像生成任务模块、问答任务模块、图像分析任务模块、视频生成任务模块；

14、图像生成任务模块，用于将语言特征和图像特征进行关联，使用注意力机制指导生成过程，生成的图像内容与描述相关联，包括语言特征提取器、视觉特征提取器和生成器；

15、问答任务模块，用于将问题特征与文本特征进行关联，使用注意力机制动态生成回答文本中与问题相关的部分，包括语言特征提取器和文本分类器；

16、图像分析任务模块，用于提取图像特征，输出图像所表达的内容表达，包括视觉特征提取器和图像分类器；

17、视频生成任务模块，用于提取语言特征，将语言特征和图像特征进行关联，先生成视频图像帧，在根据时间序列信息生成视频片段，包括语言特征提取器、视觉特征提取器、图像生成器、时间序列模型和视频生成器。

18、优选地，所述步骤5中设计损失函数时，需要根据多个模态数据的信息和任务需要进行优化，同时考虑多模态识别模型的泛化能力和效率，防止出现过拟合。

19、基于大语言模型的多模态识别装置，包括：

20、数据收集预处理模块，用于收集文本数据和不同类型的模态数据，对数据进行预处理，将文本数据与模态数据结合统一，使文本数据和模态数据在格式与表示上一致；

21、特征提取模块，用于使用大语言模型提取文本数据的语义表示特征，并对模态数据进行特征提取，使不同类型数据的特征表示在同一空间中具有统一性；

22、特征融合模块，用于进行多阶段多模态融合，将不同类型数据的特征进行融合；

23、模型构建模块，选择多模态识别任务模型架构，再结合大语言模型的输出结果和模态数据的特征，构建多模态识别模型；

24、训练优化模块，设计损失函数，使用损失函数和优化器对多模态识别模型进行模型训练，使用验证集和测试集评估对多模态识别模型进行性能评估，评估多模态识别模型模型在多种数据类型上的性能，根据评估结果，调整模型超参数和架构，优化模型。

25、优选地，所述特征融合模块进行多阶段多模态融合共五个阶段：

26、第一阶段，在输入层将多个模态的特征直接融合，将大语言模型的输出结果作为一个额外的特征，与模态数据的特征合并为一个更大的单一特征向量；

27、第二阶段，将大语言模型的输出结果和模态数据的特征进行单独处理，分别输入到不同的神经网络中，然后在神经网络的输出层进行融合；

28、第三阶段，使用注意力机制将大语言模型的输出结果和模态数据的特征进行动态融合，根据任务的需求，使用注意力权重调整大语言模型输出结果和模态数据特征在融合过程中的重要程度；

29、第四阶段，根据模态数据之间的关联关系，使用跨模态嵌入技术将大语言模型的输出结果与模态数据的特征映射到一个共享的嵌入空间中，然后在嵌入空间中进行融合；

30、第五阶段，将第一阶段和第二阶段的融合结果进行整合，再根据第三阶段和第四阶段的融合结果分步对整合结果进行调整优化。

31、优选地，所述模型构建模块中多模态识别模型需要确定多模态识别任务的具体类型，根据实际情况设计合适的任务模块，包括：图像生成任务模块、问答任务模块、图像分析任务模块、视频生成任务模块；

32、图像生成任务模块，用于将语言特征和图像特征进行关联，使用注意力机制指导生成过程，生成的图像内容与描述相关联，包括语言特征提取器、视觉特征提取器和生成器；

33、问答任务模块，用于将问题特征与文本特征进行关联，使用注意力机制动态生成回答文本中与问题相关的部分，包括语言特征提取器和文本分类器；

34、图像分析任务模块，用于提取图像特征，输出图像所表达的内容表达，包括视觉特征提取器和图像分类器；

35、视频生成任务模块，用于提取语言特征，将语言特征和图像特征进行关联，先生成视频图像帧，在根据时间序列信息生成成视频片段，包括语言特征提取器、视觉特征提取器、图像生成器、时间序列模型和视频生成器。

36、优选地，所述训练优化模块，设计损失函数时，需要根据多个模态数据的信息和任务需要进行优化，同时考虑多模态识别模型的泛化能力和效率，防止出现过拟合。

37、一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上所述的基于大语言模型的多模态识别方法的步骤。

38、一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上所述的基于大语言模型的多模态识别方法的步骤。

39、相比于现有技术，本技术实施例的有益效果为：

40、本技术通过大语言模型提取文本数据的语义表示特征，再对模态数据进行特征提取，进行多阶段多模态融合，将不同类型数据的特征进行融合，结合大语言模型的输出结果和模态数据的特征，生成的多模态识别模型不仅能够满足用户的文本问答任务，还能根据用户的文本需求生成图像和视频片段，同时对用户的输入图像进行分析，输出图像所表达的内容表达，实现智能化交流沟通的同时，还能与用户进行视觉交互，满足用户的使用需求。