技术新讯 > 计算推算,计数设备的制造及其应用技术 > 一种基于多代理系统和大模型生成文档的方法与流程 > 正文

一种基于多代理系统和大模型生成文档的方法与流程

国知局
2024-08-30 14:33:59

本发明涉及基于多代理系统和大模型生成文档，提出一种视觉-文本-布局架构模型，该模型生成文档模版，提出一种基于多代理系统和大模型生成文档的方法，通过基于大模型构建多代理系统来解决无法直接采用基于模版生成符合特定结构要求的新文档的问题。背景技术：：：1、自从公开发布以来，大型语言模型在广泛的日常任务中展示了巨大的潜力，特别是在文档编辑和生成的应用场景中。这些模型在零样本和少样本任务中表现尤为出色，其中仅需少量的示例和明确的任务指令，便可提供令人满意的结果。2、通过应用提示工程指南，已证明可以获得更优的结果。在实践中，这通常涉及一个试错的过程，用户根据生成的输出，逐步优化初始提示，从而改进最终结果。特别是在处理半结构化文档时，这种提示工程设计显得尤为关键，原始结构需通过不断试错调整。这种及时调整不仅提升了输出质量，也增强了内容与所需风格的匹配度。然而，在集成大型语言模型到工作流程中时，主要挑战之一是使缺乏经验的用户能够快速创建有效的提示，并尽可能减少优化时间。尽管大型语言模型功能强大，但它们在生成较长内容时可能出现幻觉问题，导致与原始请求有偏差的结果，特别是在长文本生成任务中。在这种情况下，文档生成的提示往往需要长且信息丰富，增加了产生幻觉的风险。当前研究主要集中于使用大型语言模型进行结构化数据提取、文本摘要和内容定制，旨在提高管理效率和用户参与度。实时提示技术已在增强大型语言模型的生成能力方面取得了显著成果，能够在遵循指导原则的前提下，满足特定需求并提升响应质量。在非结构化文档信息提取方面，利用基于嵌入的检索系统和大型语言模型问答功能的系统，已能有效从文档中自动提取实体和属性，并将其转换为结构化数据。这些系统展示了大型语言模型在文档处理中的应用潜力。3、同时，检索增强生成方法允许大型语言模型在处理新文档时检索相关知识，这在减轻幻觉和提升响应质量方面展现了巨大潜力，促进了其在实践中的采用。尽管现有的检索增强生成系统在处理多跳查询时常显不足，需要迭代检索和推理，但近期有研究在此方向上取得了进展，通过引入多跳推理步骤，显著提升了系统的复杂推理能力。当处理需要生成复杂、结构化输出的任务时，如语义相似实例生成半结构化文档，这些挑战依然突出。为解决这一问题，已提出多种方法，包括使用定向刺激提示技术来调节大型语言模型输出，生成包含特定关键词的结果。此外，采用多智能体方法，如aiaas，已证实能够增强问题解决能力，克服单一模型的局限，提供模块化和可扩展性，适合处理多种文档类型。4、最近，有关统一多模式学习中模型架构的研究取得了进展，这些模型架构整合了视觉、语言和语音等不同模式，启发于自然语言处理、计算机视觉和语音处理的成功案例。例如，有模型将文本标记嵌入与投影图像块结合，作为多模态transformer的输入。统一不同任务和领域的训练流程也是近期研究的重点。相关工作通过将训练目标转换为序列生成，将图像及边界框转换为离散标记，实现了任务的统一。此外，layoutlm模型通过在文档数据上的预训练，整合了2d位置信息和图像嵌入，增强了对文档的语义理解和分类能力，显示出跨模态学习的巨大潜力。技术实现思路1、本发明针对现有解决方案的局限性和挑战，提出了一种基于多代理系统和大模型生成文档的方法，针对现有半结构化形式的文档缺乏统一格式，无法直接采用基于模版生成符合特定结构要求的新文档的问题，本方法提出了一种结合大语言模型、提示工程以及多代理系统的方法，开发了一个流程及交互框架，用于生成符合特定结构要求的新文档。具体来说，本方法提出一种利用大语言模型辅助的多代理系统来生成半结构化文档的流程及交互框架，通过对初始提示的迭代细化，确保各代理角色能够准确提取和理解文档结构，并根据这些结构逐节输出文档。该方法有效减轻人工专家的工作负担，增强了自动生成文档灵活性和效率，实现了根据具体需求生成结构化和半结构化的文档。2、本发明的一种基于多代理系统和大模型生成文档的方法，包含以下步骤：3、s1、一种包括大型语言模型及用于从该大型语言模型中提取和处理数据结构的代理的文档生成系统，其中所述大型语言模型根据用户提供的半结构化数据生成文本输出，所述代理识别并处理来自大型语言模型的输出，以形成满足特定格式要求的文档结构；所述系统处理半结构化文档，这些文档不遵循固定格式但包含固定的数据集；4、其中所述的大语言模型利用一种新型视觉-文本-布局transformer架构的vtlt模型，用于从文档图像中通过光学字符识别ocr技术提取文本标记及其边界框，并将图像划分为块以编码为向量序列；该架构包括文本布局解码器和视觉解码器，分别负责生成带布局信息的文本标记和图像像素；通过自监督学习和多种预训练任务，如文档分类、布局分析、信息提取、问答和文档自然语言推理，模型能够在未标记的数据上学习文本和布局信息，从而有效地理解和重建文档内容；这些功能集成使得该架构能够在处理文档时动态整合视觉、文本和布局信息，提高了文档生成和理解的精度与效率；5、在文档图像处理中，首先对给定的文档图像v进行光学字符识别ocr，以从中提取文本标记{si}及其对应的边界框{(xi1,yi1,xi2,yi2)}；每个边界框通过其左上角和右下角的坐标(xi1,yi1)和(xi2,yi2)来描述，这些坐标记录了每个文本标记的布局信息；假设文档中包含m个单词令牌，输入数据结构可表示为三元组6、本发明提出了一种新型视觉-文本-布局transformer架构的vtlt模型，它能够根据布局信息动态地整合和统一图像像素与文本标记；具体地，给定文档图像v，其维度为v∈rh×w×c，以及图像中的m个单词标记和提取的布局结构其中，h是图像的高度，w是图像的宽度，c是图像的通道数；首先将图像v划分为个图像块，每个图像块的大小为p×p×c，其中，p表示图像被划分的块的大小；随后，使用d-维向量对每个块进行编码，从而将所有块嵌入成一个向量序列其中7、文本标记同样通过词汇查找转换为数值型的d-维嵌入；定义一个布局指示函数φ(si,vj)，如果标记si与图像块vj相关，则φ(si,vj)＝1；否则，为φ(si,vj)＝0；每个文本标记的嵌入si与其相对应的图像块特征vj相加，形成联合表示s'i＝si+vj，当且仅当φ(si,vj)＝1；对于没有任何文本标记的图像块vj，即它的联合表示v'j保持不变，即v'j＝vj；8、接下来，{s'i}和{v'j}传递到视觉-文本-布局transformer编码器；这种处理方式通过显式地利用空间相关性，极大地增强了模型在输入阶段视觉、文本和布局信息之间的交互；同时，将布局模式即连续坐标的文本边界框离散化为布局标记，以便于在后续处理中使用；假设边界框在[0,1]范围内标准化后，每个坐标乘以词汇量大小后再四舍五入到最接近的整数；例如，对于边界框(0.1,0.2,0.5,0.6)与词汇量大小为500，相应的布局标记将为<50><100><250><300>；这些布局标记可以方便地嵌入到文本中，并用于诸如位置检测等布局生成任务；9、在处理2d文本标记位置时，本方法采用相对注意偏差的编码方式，类似于t5中使用的相对注意机制，但在视觉-文本-布局transformer架构中，由于已通过联合嵌入和2d位置偏差充分捕获了输入文档的布局结构，本方法不采用1d位置嵌入；10、该架构包含一个由文本布局解码器和视觉解码器组成的视觉-文本-布局transformer解码器；文本布局解码器是一个单向transformer解码器，负责以序列到序列的方式生成文本和布局标记；视觉解码器则采用mae的解码策略，直接生成包含文本和布局信息的图像像素；文本布局解码器和视觉解码器都将与视觉-文本-布局transformer编码器进行交叉参与；11、针对未标记的文档，本方法提出多种自监督学习目标；这些未标记的文档通常包含ocr提取的文本输入和带有标记级边界框的文档图像；联合文本布局重建任务要求模型重建被遮盖的文本并在文档图像中定位它们；具体操作是屏蔽约15％的文本标记，然后让模型预测这些标记及其边界框即布局标记；这可以视为一个类似于屏蔽语言模型的任务；12、布局建模任务则要求模型预测给定文档图像和上下文文本中的文本标记位置；与联合文本布局重建任务不同，此任务使用不同的哨兵标记<layout_sent_0>，并采用高达75％的掩蔽率，因为较低的掩蔽率可能会简化任务的复杂度；13、视觉文本识别任务专注于识别图像中特定位置的文本；此任务使用50％的掩蔽率，并设立特定的哨兵标记<text_0>以区分任务，并设置边界框布局，这有助于模型学习联合视觉文本嵌入；14、带有文本和布局的蒙版图像重建任务采用mae方法进行视觉自监督学习；初始步骤中，mae会屏蔽一定比例的图像块，并将未屏蔽的块送入视觉编码器；随后，将编码器的输出送入视觉解码器以重建屏蔽的图像块，mae使用均方误差并仅对屏蔽块应用损失；在解码过程中，本方法增加了与字符嵌入的交叉注意力机制，此举虽增加了线性计算复杂性，但显著提升了图像生成的质量；此外，视觉解码器采用一系列可训练的占位符嵌入序列来处理编码器输出，这些占位符指示图像块是否在输入文档中被屏蔽；15、自监督任务利用大规模未标记数据来学习稳健的表示，而监督任务则利用标记数据进行更细致的模型训练，包括文档分类、布局分析、信息提取、问答和文档自然语言推理等多种预训练任务；16、分类任务：目的是预测文档的类型；任务说明为“在rvl-cdip上进行文档分类”，涉及的文本标记是文档类别；该任务使用rvl-cdip数据集，涵盖16个不同的文档类别；17、布局分析：该任务旨在预测文档中的实体位置，如标题和段落；任务说明为“在publaynet上进行布局分析”，并包括实体名称；目标是确定覆盖给定实体的所有边界框；此任务使用publaynet数据集；18、信息提取：此任务预测与特定文本查询相关的实体类型和位置，例如“摘要段落”；任务说明为“在docbank上进行信息提取”，目标是标识实体标签并为查询中的每个标记确定边界框；使用的数据集包括docbank、kleister charity、pwc和deepform；19、问答：任务是回答与文档图像相关的特定问题；任务说明为“针对websrc进行问答”，随后是问题和所有文档标记；目标是找到问题的答案；此任务使用的数据集包括websrc、visualmrc、docvqa、infographicsvqa和wikitablequestions；20、文档自然语言推理：预测文档中两个句子之间的蕴含关系；任务提示为“在tabfact上进行自然语言推理”，后跟句子对；目标是判断句子之间的关系是“蕴含”还是“非蕴含”；此任务使用tabfact数据集完成；21、最终，构建了视觉-文本-布局的vtlt大模型，此大模型对不同文档进行分类，分析每个文档的布局，提取相应的信息，生成不同类型文档的模板文件，此模板文件用于后续生成文档时的参照；22、s2：根据权利要求1所述的vtlt大模型，生成不同类型文档的模板文件；在文档生成过程中，用户首先需要提供一个初始提示，包含文档的总体描述和生成所需的具体信息；如果未提供初始提示，过程将要求更多用户干预；整个流程由三个基于大型语言模型的智能代理组成，分别负责部分语义识别、信息检索和内容生成；在语义识别模块，代理从vtlt大模型构建好的模板文档库中，自动提取当前章节的语义内容和必须替换的标记，如“姓名”和“申请日期”；接着，在信息检索模块，第二个代理利用已识别的语义线索从累积的提示中检索所需数据，若数据不全，则需用户输入缺失的信息；最后，在内容生成模块，第三个内容生成代理使用所有收集的信息和指令生成文本内容；此过程确保了生成文档的完整性和准确性，减少了用户需要直接干预的环节，使文档生成更为高效和精准；23、s3：本方法通过一种新的迭代工作流程，旨在最大程度减少用户在生成文档时的干预；用户首先提供一个初始提示，描述所期望的总体结果；这个提示在整个文档生成过程中不断被细化，将用户的干预结果累积，以便用作数据源；基于用户提供的模板文档结构，文档按阅读顺序逐节生成，每个代理根据提供的模板语义和累积的信息解决细粒度任务；这种多代理框架设计避免了在信息不足时产生错误结果，通过特定策略确保输出质量，并允许用户在需要时调整文档生成的各个部分，从而增强了系统的灵活性和稳健性。24、根据本发明实施例的一种具体实现方式，所述s2的具体步骤为：25、s2、根据权利要求1所述的vtlt大模型，生成不同类型文档的模板文件；在文档生成过程中，用户首先需要提供一个初始提示，包含文档的总体描述和生成所需的具体信息；如果未提供初始提示，过程将要求更多用户干预；整个流程由三个基于大型语言模型的智能代理组成，分别负责部分语义识别、信息检索和内容生成；在语义识别模块，代理从vtlt大模型构建好的模板文档库中，自动提取当前章节的语义内容和必须替换的标记，如“姓名”和“申请日期”；接着，在信息检索模块，第二个代理利用已识别的语义线索从累积的提示中检索所需数据，若数据不全，则需用户输入缺失的信息；最后，在内容生成模块，第三个内容生成代理使用所有收集的信息和指令生成文本内容；此过程确保了生成文档的完整性和准确性，减少了用户需要直接干预的环节，使文档生成更为高效和精准；26、用户在生成文档时首先需要提供一个初始提示，这包括文档的总体描述和具体指令，如文本的风格和语气，以及生成文档所需的具体信息和数据；如果用户选择不提供初始提示，整个生成过程将需要用户进行较多的干预；27、当前的工作流程由三个基于大型语言模型的代理组成，每个代理负责文档生成过程中的一个阶段；这些模块为：部分语义识别、信息检索和内容生成；28、在部分语义识别模块，代理从文档模板中识别出当前章节的语义内容；如果模板中的某些部分含有需要替换的标记，如“姓名”、“申请日期”、“申请单位”和“合作单位”，这些标记将被展示为占位符，并标注上已经填充的数据，例如“小明”、“2024年1月1日”、“公司”、“大学”；在实际进行语义标记之前，常规的自然语言处理流程会先执行多个预备任务，如词性标注、命名实体识别和关系提取，以构建足够好的句子语义表示；大型语言模型的使用可以利用其常识知识来完成这些任务；因此，这一步骤由语义识别代理自动管理，它从提供的模板文档中识别出当前部分的语义和可替换数据；29、此代理的输出包括一系列关于如何重现相应模板语义的指令和说明，这些将作为内容生成阶段的输入，同时还包括已识别的可替换数据列表；如果识别出任何此类数据的语义，指令列表还将包括如何将它们整合进最终文档的具体指令；30、在信息检索模块，第二个代理根据先前提取的语义线索，从累积的提示中检索当前文档部分所需的特定数据；如果根据语义识别代理的指令未能找到所有所需数据，将需要用户通过文本提示提供缺失数据的实际替换值；这些交互的结果将被添加到累积的提示中，供内容生成代理使用，和保存以供后续迭代使用；31、在内容生成模块，内容生成代理将使用累积的提示，现已包含所需信息及来自语义识别代理的指令，来生成当前文档部分的文本内容；32、最终，输出的文档和经过改进的提示将包含在整个生成过程中识别出的所有缺失数据，从而确保文档的完整性和准确性。33、根据本发明实施例的一种具体实现方式，所述s3的具体步骤为：34、s3、本方法通过一种新的迭代工作流程，旨在最大程度减少用户在生成文档时的干预；用户首先提供一个初始提示，描述所期望的总体结果；这个提示在整个文档生成过程中不断被细化，将用户的干预结果累积，以便用作数据源；基于用户所需的模板文档结构，基于视觉-文本-布局transformer架构的模型提取相似类型的模板文档，文档按阅读顺序逐节生成，每个代理根据提供的模板语义和累积的信息解决细粒度任务；这种多代理框架设计避免了在信息不足时产生错误结果，通过特定策略确保输出质量，并允许用户在需要时调整文档生成的各个部分，从而增强了系统的灵活性和稳健性；35、通常在使用大型语言模型和缺乏经验的用户之间生成文档的交互模型中，会出现一种试错的过程，目标是通过不断完善提示直至达到满意的结果；对于较长的文档，由于需要更详细的提示，这一过程尤为困难；当文档内容细节丰富且需要完成多个任务时，大型语言模型代理的性能可能会受到影响；36、鉴于这种试错过程往往需要用户密集地监督，本方法提出了一种新的工作流程，旨在最大程度地减少用户的干预；这一流程是迭代的，基于用户提供的预先存在的模板文档来构建整个文档的结构；37、在这个过程中，用户首先提供一个初始提示，描述期望的总体结果；随后，这个初始提示会在整个迭代过程中被细化，以包括生成文档所需的所有信息，并将用户在代理请求时的干预结果累积在原始提示中；这个累积的提示随后被用作整个文档生成过程的数据源；38、根据模板文档的结构，文档将按阅读顺序逐节生成；在通用的生成步骤中，每个代理接受先前设计的提示的指导，并根据模板中相应部分提供的语义以及从累积的提示中提取的信息，解决细粒度任务，完成其责任；39、此多代理框架设计，允许尽可能多的专门代理介入，以防止在上下文信息不足时产生不期望的结果，这种情况可能发生在提供的上下文非常短和文本过于示意性时；通过在必要时要求大语言模型代理返回包含特定令牌的输出，作为一种确保它们不产生幻觉并遵循角色的策略，本流程可以进一步优化输出的质量；检测这些标记有助于管理可能破坏工作流程的极限情况，从而提升系统的整体稳健性；40、用户只有在累积的提示中检索到的信息不足以满足当前文档部分的语义需求时才需要干预；因此，用户干预的频率依赖于初始提示的质量；优点是，累积的提示作为数据源，可以减少由于用户提示不完整和不清晰而导致的幻觉风险；用户干预后，提供的新数据被添加到累积的提示中，以供未来使用；41、为了保证原始文档模板模拟的灵活性，用户可以随时选择性地跳过某些文档部分的生成，同时保持累积的提示不变；所提出的交互模型也允许根据文档的结构化程度和代理所需的专业知识，集成其他代理来管理文档编辑的不同方面。当前第1页12当前第1页12