技术新讯 > 计算推算,计数设备的制造及其应用技术 > 用于增强大语言模型多模态长上下文对话能力的记忆检索方法与流程 > 正文

用于增强大语言模型多模态长上下文对话能力的记忆检索方法与流程

国知局
2025-01-17 13:02:23

本发明属于自然语言处理领域，尤其是一种用于增强大语言模型多模态长上下文对话能力的记忆检索方法。

背景技术：

1、近年来，大语言模型在多模态对话领域取得了显著进展，展现出强大的跨模态理解和生成能力。在实际应用场景中，用户往往需要与模型进行持续的多轮对话，这些对话可能跨越较长时间跨度，涉及文本、图像等多种模态的信息交互。提升模型在长对话场景下的多模态信息检索和理解能力，对于增强人机交互的自然性和连贯性具有重要意义。特别是在教育辅导、技术支持、医疗咨询等专业领域，用户可能需要与模型进行持续深入的讨论，这要求模型能够准确理解和回溯前文提到的关键信息，并将多模态信息有机结合，提供连贯且专业的回应。

2、目前的研究主要集中在几个方向：基于注意力机制的上下文编码方法，通过计算注意力权重来捕获对话中的关键信息；基于层次化记忆网络的长程依赖建模，通过构建多层记忆单元来存储历史信息；基于检索增强的知识整合方法，通过外部知识检索来补充模型的理解能力。在多模态信息处理方面，主要采用预训练的视觉-语言模型进行特征提取，通过简单的特征拼接或注意力融合来实现跨模态信息的整合。这些方法在处理短期对话和单一模态信息时表现较好，但在复杂的长对话场景中仍存在诸多限制。

3、然而，现有技术还面临着多个具体的技术挑战：首先，在处理长对话序列时，简单的固定长度切分策略容易导致语义单元的割裂，影响上下文理解的准确性；其次，传统的特征提取方法往往采用单一尺度的表示，难以同时捕获局部细节和全局语义信息；再次，现有的时序建模方法多基于简单的位置编码或递归结构，未能充分利用对话中的长程依赖关系；此外，在特征存储方面，缺乏有效的记忆优化机制，容易造成冗余信息的累积和关键信息的遗忘；最后，检索结果的排序往往只考虑单一维度的相似度，忽视了多模态信息的互补性和上下文连贯性。这些技术问题严重制约了模型在实际应用中的表现，特别是在需要长期记忆和深度理解的专业对话场景中。

技术实现思路

1、发明目的，提供一种用于增强大语言模型多模态长上下文对话能力的记忆检索方法，以解决现有技术存在的上述问题。

2、技术方案，用于增强大语言模型多模态长上下文对话能力的记忆检索方法，包括如下步骤：

3、s1、接收原始多模态对话序列，并将其按照预设长度进行切分，得到预处理序列集合；基于预处理序列集合中的每个子序列，提取文本和图像特征，构建局部特征关联图，得到局部特征集合；对局部特征集合进行层次化特征融合，得到多层次特征表示；

4、s2、基于多层次特征表示，计算每个特征向量的重要性得分并进行特征选择，得到压缩特征向量；基于压缩特征向量，构建时序依赖图并通过图神经网络更新节点表示，得到时序增强特征；基于时序增强特征，计算稳定性矩阵；基于稳定性矩阵，对时序增强特征进行筛选，得到记忆向量序列；

5、s3、读取用户输入的多模态查询数据，进行特征提取，得到原始查询特征；基于原始查询特征，提取查询意图，构建结构图，得到结构化查询表示；将结构化查询表示与记忆向量序列进行交互计算，得到交互特征；对交互特征进行多尺度整合和变换，得到融合特征向量；

6、s4、基于融合特征向量，构建多层索引结构并生成检索候选集；基于检索候选集，计算多维度相似度并验证上下文一致性，得到排序候选集；对排序候选集进行信息过滤和相关性优化，得到检索结果序列。

7、有益效果，本发明通过多层次的特征表示和时序增强学习，提升了模型对长对话上下文的理解能力；通过结构化的查询表示和多维度的相似度计算，确保了检索结果的准确性和相关性；通过周期性的记忆优化机制，实现了系统性能的持续提升，具有较强的扩展性和适应性。

技术特征：

1.用于增强大语言模型多模态长上下文对话能力的记忆检索方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的用于增强大语言模型多模态长上下文对话能力的记忆检索方法，其特征在于，步骤s1进一步为：

3.根据权利要求2所述的用于增强大语言模型多模态长上下文对话能力的记忆检索方法，其特征在于，步骤s2进一步为：

4.根据权利要求3所述的用于增强大语言模型多模态长上下文对话能力的记忆检索方法，其特征在于，步骤s3进一步为：

5.根据权利要求4所述的用于增强大语言模型多模态长上下文对话能力的记忆检索方法，其特征在于，步骤s4进一步为：

6.根据权利要求5所述的用于增强大语言模型多模态长上下文对话能力的记忆检索方法，其特征在于，步骤s11进一步为：

7.根据权利要求5所述的用于增强大语言模型多模态长上下文对话能力的记忆检索方法，其特征在于，步骤s13进一步为：

8.根据权利要求5所述的用于增强大语言模型多模态长上下文对话能力的记忆检索方法，其特征在于，步骤s22进一步为：

9.根据权利要求5所述的用于增强大语言模型多模态长上下文对话能力的记忆检索方法，其特征在于，步骤s31进一步为：

10.根据权利要求5所述的用于增强大语言模型多模态长上下文对话能力的记忆检索方法，其特征在于，还包括：

技术总结本发明公开了一种用于增强大语言模型多模态长上下文对话能力的记忆检索方法，包括对原始多模态对话序列进行基于信息密度的自适应切分并提取局部特征；构建三层特征金字塔结构实现多尺度特征表示；通过特征压缩和时序依赖图建模增强特征的时序表达能力；基于特征稳定性评估构建记忆向量序列；对查询数据进行结构化表示并与记忆向量进行多层次交互；通过层次化索引和多维度相似度计算实现高效检索；基于用户反馈定期优化记忆序列。本发明能够有效提升模型在长对话场景下的多模态信息理解和检索能力，具有重要的实践应用价值。技术研发人员：张钏钰,李成华,张一帆,胡庆浩,王培松受保护的技术使用者：中科南京人工智能创新研究院技术研发日：技术公布日：2025/1/13