技术新讯 > 计算推算,计数设备的制造及其应用技术 > 一种基于大语言模型增强文档处理流程的方法与流程 > 正文

一种基于大语言模型增强文档处理流程的方法与流程

国知局
2024-08-30 14:34:00

本发明涉及基于大型语言模型和transforemer架构，提出一种基于大语言模型增强文档处理流程的方法，通过构建一个智能化、自动化的文档处理系统来解决处理大量文档的效率和准确性低的问题。

背景技术：

1、智能文档处理彻底改变了应用程序与大量数据交互的方式。通过利用大型语言模型的先进功能，它超越了传统界限，能够自动提取数据并理解复杂内容的细微差别。随着数字化转型在各个行业的推进，从非结构化文档中提取有价值见解的需求呈指数级增长。得益于其深度学习的基础，大型语言模型使机器能够以无与伦比的速度实现类似人类的文本理解。

2、大型语言模型主要基于transformer架构构建，该架构由vaswani等人首次提出，已成为处理自然语言任务的基础。这些架构特别擅长理解序列数据的上下文和语义，不仅限于文本。一个典型的transformer网络包括多个块或层，每个层都对模型的整体功能有所贡献。这些层包括自注意力机制、前馈神经网络和归一化层，其中自注意力机制允许模型评估输入中不同部分的重要性。通过这些层的堆叠，可以构建越来越深入和强大的模型，从而执行更复杂的任务，增强模型的学习能力，并在推理过程中实现更精确的预测和解释。

3、在数据需求方面，传统的机器学习模型通常需要数千到数百万的数据点。与此相比，深度学习和大型语言模型的数据需求显著增加，扩展到数十亿个数据点。与需要手动特征工程的传统机器学习不同，深度学习和大型语言模型能够自动提取有意义的特征。虽然传统的机器学习计算成本较低，适合实时应用，但深度学习和大型语言模型由于计算量更大，不太适合实时任务。然而，它们的适应性更强，通常能在不同研究之间转移学习，这使得它们更灵活，适用于更广泛的应用。

4、数据增强是一种已知的方法，可以帮助有效地扩展训练数据集。早期的数据增强工作主要在字符和单词级别上进行，例如使用词级增强来提高文本分类的性能：同义词替换、随机插入、交换和删除。近年来，一种流行的新方法是使用大型语言模型本身合成新的训练数据，例如auggpt利用chatgpt重新措辞文本以增强文本分类任务。

5、此外，一些研究工作通过重新排序段落、选择仅包含证据性的段落或仅在生成模型需要帮助时检索段落来优化内容的提供。还有通过整合周围上下文来去除文本中的上下文化，尽管这需要大量的人工注释，并且可能会受到分散注意力的内容的影响。基于transformer的模型，如longformer和bigbird，通过引入对传统注意力机制的改变，减少了处理广泛上下文的计算负担，尽管这些改进经常需要对现有模型进行重大更改并进行大量的再培训工作。

6、与严格定义的文本提示不同，软提示包含与模型一起优化的可训练嵌入，以提高目标任务的性能。这种适应性有助于大语言模型的有效微调，无需进行详尽的再培训，从而使其能够适应不同的应用场景。尽管如此，以增强大语言模型内的上下文压缩和效率为目标的软提示的融合仍然是一个相对未充分开发的领域。文本摘要方法，包括提取和抽象方法，已被用来将冗长的文档压缩成简洁的表示，同时保留显着信息。这些技术的进步(如以bart模型为代表)在生成连贯且简洁的摘要方面展现出巨大的前景。尽管这些模型能够熟练地提取冗长文本，但将其直接用作在需要细致理解扩展上下文的任务中的大型语言模型的预处理步骤尚未得到广泛研究。软提示与摘要技术的融合增强了大语言模型对冗长上下文的处理，体现了这些研究轨迹的新颖融合。

技术实现思路

1、本发明针对现有解决方案的局限性和挑战，提出了一种基于大语言模型增强文档处理流程的方法，针对处理大量文档的效率和准确性低的问题，本发明采用基于transformer网络的深度学习架构，构建了一个智能化、自动化的文档处理系统。具体而言，该系统在文档分类、提取、审核、丰富及数据集成各阶段集成了大型语言模型，使其能够理解文档内容、自动提取关键数据，并进行上下文丰富和数据合成。该系统不仅显著提升了处理速度和数据准确性，还能自动适应不同的数据结构。本发明能有效管理海量文档，提高操作效率和决策质量。

2、本发明的一种基于大语言模型增强文档处理流程的方法，包含以下步骤：

3、s1、整个文档管理流程从文档捕获开始，利用amazon simple storage service为多种格式如pdf、jpeg、png和tiff提供高效、可扩展且可靠的存储解决方案；amazon simplestorage service不仅存储数据，也优化了文档的管理和检索过程；接下来，文档通过amazon textract和amazon comprehend进行自动分类和处理，其中textract负责从文档中提取文本和数据，而comprehend则分析这些文本的上下文和语义，两者协作通过机器学习模型进行精确分类；此外，本系统还结合了大型语言模型来增强文档分类，采用自上而下的搜索策略和多标签分类框架，通过标记“核心类”并追溯其祖先来优化分类；这一过程不仅包括初步分类，还通过使用基于嵌入的相似性得分进一步细化和丰富分类，最终实现动态和精确的文档管理；

4、文档捕获：基于amazon simple storage service，简称s3，用户可以将pdf、jpeg、png和tiff等多种格式的文档上传到s3存储桶中，amazon s3是一种高度可扩展、可靠且低延迟的数据存储服务，能够安全地存储大量数据；其架构支持高速从多种来源摄取文档，无论是通过自动数据管道、手动上传还是与其他平台的集成，这种灵活性确保组织能够高效管理文档接收，无需担心基础设施限制和瓶颈；s3存储桶不仅仅是存储，它还充当文档的集中式存储库，促进了更简便的管理和后续处理；单页和多页的不同类型文档可以集中存储，简化了分类和检索过程；

5、文档分类：基于amazon textract和amazon comprehend的自动化工具，可以高效地对不同类型的文档进行排序和处理；amazon textract利用其机器学习模型从扫描的文档中提取文本和其他数据，该模型能够识别多种格式和布局，从而准确捕获关键数据点；而amazon comprehend则运用自然语言处理技术，理解提取文本的上下文和语义细节；这两种服务都支持训练机器学习模型，允许组织根据具体需求定制分类；这种训练功能能够创建出高度准确的分类模型，一旦训练阶段完成，推理阶段便开始发挥作用；amazon textract和amazon comprehend协同工作，自动对传入的文档进行分类；textract负责提取必要的文本和数据，然后将其输入到comprehend进行深入的上下文分析和分类；

6、在此过程中，用户将提取的文本数据提交给amazon comprehend以进行主要的文档分类；一旦激活，comprehend会根据预设的分类将文档分门别类，然后将初步分类结果返回给用户；此后，amazon comprehend的任务即告完成，它会被停用，从而结束其在该工作流程中的参与；

7、在增强文档分类中，本发明引入了一种结合大型语言模型的多标签文本分类框架；任务的输入包括一个未标记的文本语料库d＝{d1,...,d|d|}和一个作为标签体系的有向无环图t＝(c,r)；其中，d是文档集合，包含了所有待分类和待处理的文档，di表示集合中的每个文档；t是一个有向无环图，用于表示分类标签之间的层级和关系，c表示分类标签的集合，每个分类标签可以代表一个主题、类别和属性，r代表标签间关系的集合；在这个图中，每个ci∈c代表一个分类目标类，每个类都有一个独特的文本表面名称si；图中的每条边<ci,cj>∈r表示一种层级关系，其中ci是cj的子类；

8、分类任务的核心目标是训练一个能将文档d映射到其相应类别的二进制编码的多标签分类器f(·)，形式为f(d)＝[y1,…,y|c|]，其中yi＝1表示文档d属于类ci，反之yi＝0；

9、在大型语言模型增强的文档分类过程中，需要为每个文档di∈d分配一组初始核心类；首先，通过标记每个文档的“核心类”来定义能最准确描述文档内容的类集合；选择文档的一组最重要的类，然后通过追溯它们的祖先类来完成分类标记；

10、在大语言模型注解之前，采用自上而下的候选搜索策略，该策略依赖于文本蕴涵模型；对于每个文档di，从属于分类级别0的根节点开始，将其加入队列；对于队列中第l层的每个类，选择与文档di相似度最高的l+3个子类，其中相似度得分simentail(c,di)是从文本蕴涵模型获得的；在第l+1层，保留路径相似度得分最高的前(l+2)2个子类，并将它们加入队列；路径相似度simpath(c,di)递归定义如下：

11、simpath(root,d)＝1,

12、其中，simpath是计算文档与分类标签之间路径相似性的函数，表示文档d与分类标签之间的路径相似性；root表示分类标签的根节点，即整个分类标签层级结构的顶层节点；

13、

14、其中，c表示具体的分类标签；par(c)表示分类标签c的所有父节点的集合，即所有直接连接到c的上一级节点的集合；simentail(c,d)表示文档d与分类标签c之间的蕴含相似性；

15、当队列中没有更多类时，此过程结束，所有进入队列的节点，除了根节点都被视为文档的候选核心类；

16、为了利用大型语言模型来注解核心类，首先为每个文档构建一条指令，指导语言模型从候选核心类中为文档选择最合适的类；然后，将文档作为查询输入到大型语言模型中，该模型将根据文档内容和候选核心类生成一个核心类列表；这样，通过结合传统的文本分类方法和大型语言模型的先进能力，能够实现更精确和动态的文档分类；

17、该模块通过细化初始核心类别，利用基于嵌入的相似性得分，这些得分提高了文档间的可比性，进而丰富了分类的精确度；在文档已被初步核心类标记的基础上，使用这些类别作为粗略的分类结果，并据此为每个类别形成文档簇，以便进一步的细化和丰富；

18、针对给定的类别c∈c，及其在有向无环图中对应的父级类别之一的兄弟姐妹sib(c,cp)＝{c′∈c|<cp,c′>∈r}，其中cp∈par(c)，sib(c,cp)表示在分类标签层级结构中，与分类标签cp具有相同父节点的所有兄弟节点的集合，c表示分类标签的集合，<cp,c′>表示分类标签c′是分类标签cp的子节点，r表示分类标签之间的关系集合，包括子父节点关系；首先确定一组表征c的类指示性主题术语t(c,cp)＝{t1,t2,...,tk}；其中，t(c,cp)表示从分类标签cp到分类标签c的转换路径集合，t1,t2,…,tk表示路径集合t(c,cp)中的各个路径；这些术语能够清晰地表示类别c并将其与兄弟姐妹类cp下的其他类别区分开来；

19、为了识别这些类指示性术语，构造了一组文档其中包括所有初始核心类别包含c和其后代的文档，定义如下：

20、

21、其中，des(c)表示c的所有后代的集合；

22、在选择类别指示术语时，考虑以下三个因素：流行度、独特性和语义相似性；

23、流行度：类别c的指示术语应在相关文档中频繁出现，计算术语t在类别c中的流行度，表示为：

24、

25、其中，pop(t,c)表示词项t在分类标签c中的流行度，文档频率df(t,d)表示在文档集d中提及t的文档数量；

26、独特性：类别c的指示术语t在其兄弟姐妹中应较为罕见，从而说明包含t的文档更可能描述c而非其他兄弟姐妹；定义t的独特性得分如下：

27、

28、其中，dist(t,c,cp)表示词项t在分类标签c中与其父标签cp的相关性，bm25(·,·)表示词项t在与分类标签c相关联的文档集合上的bm25分数，用于衡量词项在文档中的重要性；

29、语义相似性：类指示术语在语义上应与类名c相似；使用预训练的语言模型bert-base-uncased来编码每个术语和类名；将术语t和类名c分别输入模型，计算得到的嵌入后，使用余弦相似度衡量t和c之间的语义相似性；

30、最终，定义术语t和其对应父类p的亲和度得分为上述得分的几何平均值，权重参数为α：

31、aff(t,c,cp)＝pop(t,c)α·dist(t,c,cp)1-α·cos(t,c).

32、其中，aff(t,c,cp)表示词项t与分类标签c及其父标签cp的相关性得分，即关联度；dist(t,c,cp)表示词项t在分类标签c中与其父标签cp的相关性；cos(t,c)表示词项t和分类标签c之间的余弦相似度，用于衡量它们之间的语义相似性；

33、通过这种方法，可以精确地识别和利用类指示性术语来优化和丰富基于语料库的文档分类；

34、分类学丰富：首先应用短语挖掘工具autophrase，从语料库中提取高质量的单标记和多标记短语，作为候选短语以丰富分类；接着，对于每个类别c及其父类p，选择亲和力得分最高的前k个术语t(c,cp)，这些术语将用于进一步丰富类别c的描述；然后，通过聚合与c的每个父代相关的术语，形成类别c的最终丰富的类指示性主题术语集合

35、为细化核心类，采用基于嵌入的文档类匹配方法；每个类已有一组粗略分类的文档集，可以直接基于文档级嵌入进行匹配；利用预训练的sentence transformer模型对整个文档进行编码，得到文档的向量表示随后，对于每个类别c，识别一组明确提及至少一个类指示关键词的文档这些文档被视为高度相关于类别c；使用这些文档的嵌入的平均值作为类别的表示

36、文档与类别的匹配得分通过它们之间的余弦相似度计算；基于这些匹配得分，核心类通常与其文档有更高的匹配得分；通过计算每个文档与最相关类别间的“相似性差距”，可以识别文档的细化核心类；对于每个文档di∈d，根据匹配得分生成一个类别排序列表找到最大相似度差异的位置mi，随后，将排名在该位置之前的类别视为文档的细化核心类并将相应的相似度差异视为置信度估计confi＝diffi(mi)，其中

37、选择置信度得分最高的50％的文档集及其细化核心类作为分类器训练的最终细化核心类集d core＝{di}，其中每个di∈d core满足当用户向amazon textract提交文档进行文本提取时，工作流程启动；amazon textract接收文档，执行文本提取任务，成功提取后将信息发送回用户，并随即停用，表明其在该过程中的角色结束；

38、利用大语言模型的生成能力，提出了一种基于路径的文档生成方法，以增强分类过程；从1级节点到叶节点的每条路径都会生成增强文档，这些文档被添加到伪标记数据中，以确保数据的全面覆盖；此外，使用路径而非单个类别来指导大语言模型的生成，因为较低级别类别的含义往往依赖于其父类；

39、更具体地说，在分类中1级节点到叶节点的每条路径上，查询大型语言模型以生成少量的文档，用于模拟路径p的文本特征；生成的文档表示为其中i＝1,...,q；这样，每条路径的所有类别都视为生成文档的伪标签，从而构成一组生成数据其中path(t)表示分类树中的所有路径，是路径p中的类集；这些生成数据可以作为增强数据，与选定的细化核心类dcore一起用于训练文本分类器；

40、为了应对基于静态关键词特征获取的核心类可能导致的伪数据匹配过程中的偏差，并影响学习过程，生成每条路径的伪文档可以作为潜在偏差的正则化手段；

41、使用标准架构作为文本分类器，包括文档编码器、类嵌入和匹配网络：

42、文档编码器：使用预训练的bert基础模型初始化文档编码器g(·)，并使用最后一层的[cls]标记的隐藏表示作为文档编码，表示为di＝g(di)；

43、类嵌入：使用预训练bert模型获得的类表面名称嵌入来初始化类嵌入，表示为cj；嵌入在训练过程中与基础模型分离，仅更新嵌入，而不反向传播到骨干模型；

44、匹配网络：利用对数双线性匹配网络来计算文档di属于类cj的概率：

45、

46、其中，σ代表sigmoid函数，w是可学习的交互矩阵；cj表示类别cj对应的向量表示和权重；表示类别cj的权重向量的转置；

47、训练过程：对于每个用核心类标记的文档，构造其正类作为其核心类及其在标签分类中的祖先的并集，而其负类为非正类的任何核心类的类和后代；表示为如下：

48、

49、其中，anc(c)表示类c的所有祖先类别的集合，∪表示集合的并运算，即将多个集合中的元素合并成一个集合；

50、

51、其中，des(c)表示类c的所有后代类别的集合；

52、对于大语言模型生成的文档，将相应路径中的所有类视为正类，所有其他类视为负类：

53、

54、使用二元交叉熵损失训练多标签分类器：

55、

56、其中，lcore表示核心类别的损失函数，用于衡量核心类别的分类准确性；p(cj|di)表示在给定文档di的情况下，类别cj的概率；

57、

58、其中，lgen表示泛化类别的损失函数，用于衡量泛化类别的分类准确性；表示在给定文档的情况下，类别cj的概率；

59、

60、其中，用作平衡两组伪数据的比例因子，可以精确计算为

61、最终，得到多层分类大语言模型；

62、完成这些高级分类任务后，多层分类大语言模型将丰富的分类结果发送回用户；然后，大语言模型将被停用，结束其在文档分类中的作用；

63、s2：整个文档提取和处理流程开始于使用amazon textract的api，它使组织能够从各种类型的文档中提取结构化和非结构化数据，如日期、项目编号等特定数据字段；为了进一步增强功能，amazon comprehend补充了textract，通过自然语言处理技术识别文本中的实体并理解其上下文，使得可以识别特定行业的术语；这种结合使用的协同效应确保了数据的全面性和相关性；在提取数据后，这些数据通常需要转换成适合不同应用程序的格式，例如表格和json对象，这一转化过程可由大型语言模型自动完成；工作流程从向amazontextract提交文档开始，经过数据提取、实体检测，并最终通过大型语言模型的进一步处理以增强数据的可用性和理解度，整个过程结束于模型的停用，实现了数据处理的高效率和增强了信息的准确性；

64、s3：在文档管理和处理的审核验证阶段，amazon a2i强化了人工审核工作流程，允许审核员验证和纠正信息，确保所提取信息的准确性和完整性；此服务与aws的其他服务如lambda无缝集成，后者自动执行后处理任务，如验证符合预定义标准的数据；此外，大型语言模型在此阶段提供实时建议和更正，帮助最小化人为错误，提高审核速度和准确性；在amazon a2i审核数据后，数据发送到aws lambda进行进一步的规则基础验证；同时，文档丰富模块通过amazon comprehend进行高级分析和特定操作，如情绪分析和主题标记，以提高数据的实用性和合规性；最终，这些处理过的数据被存储和集成到amazon s3和其他数据库中，确保了数据的一致性和可用性，为后续的分析和应用提供支持。

65、根据本发明实施例的一种具体实现方式，所述s2的具体步骤为：

66、s2、文档提取：使组织能够从机密文档中收集有价值的信息以进行进一步处理和分析；

67、amazon textract提供了一个应用程序编程接口api，该api有助于从各种文档类型中提取结构化和非结构化数据；通过textract的api，用户可以针对特定查询从文档中提取特定数据字段，如日期、项目编号和行项目等；这些功能使用户能够精确地归类和分析关键数据；

68、为了进一步增强文档处理功能，amazon comprehend通过自己的api集补充了textract的服务；amazon comprehend擅长实体检测，能够识别文本中的特定元素，例如名称、日期和单位；此外，它还提供了培训和部署自定义实体识别器的工具，这使得组织能够识别特定行业的专有术语和代码，这些可能不被通用语言模型所覆盖；通过将amazoncomprehend与amazon textract结合使用，用户不仅能够提取原始文本，还能理解所提取数据的上下文和含义；这种协同作用为文档提取阶段提供了一个强大且多功能的解决方案，确保提取的数据既全面又与上下文相关；

69、提取数据后，通常需要将其转换成不同的格式和叙述形式，以便适用于不同的应用程序；大型语言模型可以自动化这一过程，将提取的数据转换为各种形式，例如表格、json对象，甚至生成摘要，以便更轻松地集成到数据库和其他系统中；

70、工作流程从用户向amazon textract提交文档开始；一旦激活，amazon textract便开始从文档中提取结构化和非结构化数据，这可能包括来自特定查询的文本、项目编号和日期等各种类型的信息；提取完成后，amazon textract将提取的数据返回给用户并停用服务；随后，用户将提取的数据发送到amazon comprehend；激活后，amazon comprehend进行数据的实体检测，识别文本中的特定项目和概念；完成此任务后，它将实体检测结果返回给用户并停用；用户最后将提取的数据提交给语言学习模型，以进一步增强数据的可用性和理解度；

71、过滤检索增强：在检索增强生成中，首先从示例e＝{q,o}中获得一个输入查询q和相关的带注释输出o，目标是改善生成模型mgen的输出；假设检索到一组段落p＝{pi},i∈k，其中每个段落pi包含ni个文本单位，表示为在生成输出o时，可以为模型提供一个和多个选定的文本范围即mgen(o∣q,t)；

72、本文提出一种方法，用于选择可用于训练上下文过滤模型的预选文本跨度；使用过滤函数f(·)来选择这些跨度，表达式为f(t|e,p)，其中文本跨度是由基础评分函数根据不同过滤方法选出的；在使用预言机过滤时，选择一个最佳跨度其中

73、采用上下文机器翻译中的条件交叉互信息cxmi分数来衡量fcxmi：给定一对有和没有上下文增强的输入序列和q，此分数测量模型mgen生成预期输出o的概率差异，表示为选择具有高于预设阈值λ＝0.0的最高cxmi分数的文本范围其中且

74、尽管fcxmi能克服词汇障碍并适用于所有任务，它的计算成本较高；因此，使用cxmi度量进行上下文过滤，以训练上下文过滤模型mctx；为了创建mctx的训练数据，对于每个带有查询q的训练示例，将检索到的段落p和查询q连接起来作为输入，并使用过滤器方法f来获取过滤后的上下文tsilver作为输出；通过输入查询q和检索到的段落p来训练mctx，并要求它生成过滤后的上下文tsilver，表示为

75、在测试阶段，给定每个测试查询q以及检索到的段落集合p，使用上下文过滤模型mctx预测过滤后的上下文tpred，表示为然后，将这个过滤后的上下文tpred与查询q一起提供给生成模型mgen，以生成预期的输出；

76、在训练过程中，对于每个训练示例(q,o)，将过滤上下文tsilver添加到查询q中，得到模型的输入此输入随后输入到生成模型mgen，并训练该模型以输出规范的响应o，表达为

77、在推理阶段，使用模型mctx过滤后的上下文tpred来生成输出，表示为与添加所有检索到的文本范围相比，仅包含选定的文本范围可以在训练和推理时有效地减少计算成本，表现在比例的显著降低；

78、最终，得到过滤检索增强大语言模型；

79、大型语言模型在改进文档提取过程中起着关键作用；一旦激活，它将提供两个主要的增强功能：一是大型语言模型可以为提取的不明确和模糊的数据提供必要的上下文，加深了对提取数据的理解和利用；二是交叉引用数据：大型语言模型还可以关联和链接从不同文档部分提取的数据，从而提供对信息更有凝聚力的理解；

80、在提供过滤检索增强的提取功能后，大型语言模型将被停用，标志着其在此过程中角色的结束；这种方法不仅提高了数据处理的效率，也增强了信息的可用性和准确性。

81、根据本发明实施例的一种具体实现方式，所述s3的具体步骤为：

82、s3、审核和验证阶段：amazon a2i，又称augmented ai增强了人工审核工作流程，允许人工检查员验证和纠正提取的信息；这项服务与其他aws服务无缝集成，使组织能够轻松地将手动审核步骤纳入其自动化文档处理管道；amazon a2i提供任务分配、数据注释和审查结果等功能，旨在确保提取的信息达到所需的准确性和完整性；

83、除了人工验证，aws lambda也用于执行后处理活动；lambda是一种无服务器计算服务，使用户能够在无需配置和管理服务器的情况下执行代码；在信息数据提取环境中，一旦数据提取和人工审核阶段完成，lambda函数即自动触发，执行各种任务，如后处理检查和基于规则的验证，确保提取的数据符合预定义标准和业务规则；

84、在亚马逊的增强人工智能工作流中，大型语言模型可以在审核和验证阶段引入多种功能；例如，当人工审查者评估文档时，大型语言模型生成的实时建议和更正可以极大地帮助整个过程；大型语言模型有助于最大限度地减少人为错误，提高审查速度，并提高整体准确性；

85、具体地说，aws lambda首先将提取的数据发送到amazon a2i进行审核；在审核阶段，amazon a2i可直接将数据展示给人工审核员，使用大型语言模型进行自动检查；在人工审查工作流程中，审稿人可以向大型语言模型请求实时建议；然后，大型语言模型提供这些建议来协助人工审核员验证并提交审核结果；另外，amazon a2i会请求大型语言模型进行异常检测，大型语言模型标记潜在的异常情况并将此信息返回给a2i，然后再提交给人工审核员进行确认；审核流程完成后，amazon a2i将验证过的数据发送回aws lambda进行后处理检查和基于规则的验证；

86、文档丰富模块：通过采用高级分析和特定操作，为提取的数据增加价值；amazoncomprehend常用于一般数据丰富，利用其自然语言处理功能对文本进行分析和分类；而amazon comprehend medical专门处理医疗保健等领域的敏感且复杂的医疗数据；这些服务可以快速准确地分析大量文档，提供对内容的深入洞察，无论是识别客户反馈中的情绪，还是从临床记录中提取医疗实体，丰富阶段都使组织能够从其数据语料库中获得更有意义的信息；

87、通过实施各种操作来保护、标记和管理文档，这些措施可能包括编辑个人身份信息和受保护的健康信息；此外，该阶段通常涉及标记文档以便分类和检索、添加元数据以增强可搜索性，这些丰富操作提高了提取的数据的实用性，并有助于满足合规性和治理要求；通过将amazon comprehend和amazon comprehend medical集成到此阶段，组织可以有效管理各种数据类型和复杂性；

88、大型语言模型可以提供超出基本数据提取和验证的增强功能；其中一项功能是上下文丰富，大型语言模型可以利用其广泛的知识库为提取的数据提供背景和额外的见解；例如，如果大型语言模型从历史文档中提取一组日期和名称，它还可以提供上下文信息，例如这些日期的重要性和提到的个人的角色，从而使数据更有价值和信息更丰富；对于理解情绪基调至关重要的文档，例如客户评论和员工调查，大型语言模型可以自动评估文本中表达的情绪；情绪分数和标签可以作为附加元数据包含在内，从而有意义地丰富文档；

89、明确文件中的总体主题和主题是一种重要的文档丰富形式，这不仅有助于更有效地对文档进行分类，而且对于需要快速信息检索的大型文档库来说至关重要；

90、该过程可以从使用amazon comprehend的一般数据丰富过程开始；决策点用于确定是否需要额外的丰富步骤，如上下文丰富、主题建模和情感分析；如果需要这些，amazoncomprehend会向大型语言模型请求这些服务并接收处理后的信息；完成这些步骤后，amazon comprehend会添加元数据并对特定文档实施合法保留，从而完成文档丰富阶段；

91、数据集成阶段涉及提取、验证和丰富后的数据存储和集成；amazon simplestorage service通常用作存储最终数据的目的地，其优势在于可扩展性、安全性以及与各种数据类型和格式的兼容性；组织可以在s3存储桶中组织这些数据，以满足其运营和分析需求；

92、另外，数据也可以集成到数据库中，无论是关系数据库如amazon rds、nosql数据库如amazon dynamodb，还是数据仓库解决方案如amazon redshift；这允许更容易的查询和数据操作，为需要此数据的下游应用程序提供坚实的基础；

93、提取和验证的数据的用途不仅仅限于存储；它也可以作为分析和第三方集成的宝贵输入；数据分析平台可以使用这些数据执行大量分析以获得见解，这些平台包括从用于商业智能的amazon quicksight到为特定行业和用例设计的更专业的分析软件；

94、数据合成阶段，从多个文档和来源提取的数据通常必须集成到单一数据库和分析平台中；大型语言模型可以通过综合数据来促进这一过程，确保一致性和连贯性；例如，如果从不同类型的合同中提取相似的数据点，大型语言模型可以协调这些数据点以创建适合集成的标准化数据集；这种集成数据分析可以产生更可靠、更实用的见解；

95、此外，大型语言模型对于分析平台特别有用，它可以根据集成和分析的数据生成摘要和叙述，帮助决策者更容易理解从数据中得出的见解；例如，在使用分析平台评估数据的情况下，大型语言模型可以自动生成描述关键趋势、异常值和值得注意事件的摘要，这些叙述可以补充可视化分析，如图表和图形，并对可能不是数据分析专家的利益相关者特别有用；

96、摘要大语言模型：本发明构建了一个整体的框架，展现了摘要向量与自然语言格式提示的结合、效用保留与信息压缩的整合，以及软提示；该框架包括以下组件：原始文档d；函数fnl，用于生成自然语言提示，产生pnl；函数fs，用于生成摘要向量，产生vs；软提示的参数矩阵s；以及语言模型的预测函数，表示为flm；

97、综合模型的表达式定义为：

98、

99、其中，fnl(d)将原始文档d转换为自然语言格式的提示，记为pnl；fs(pnl)将pnl进一步压缩成摘要向量vs；s代表经过训练的软提示的参数矩阵，经过精心优化，以增强模型在不同任务中的多功能性；表示级联操作，将软提示向量与摘要向量vs合并；flm代表语言模型的预测能力，它以级联向量作为输入并生成最终的压缩表示c；

100、在这个框架中，效用保存通过fs和fnl的战略设计来实现，以最大限度地保留信息；信息压缩通过函数fs执行，将自然语言格式的提示pnl压缩到摘要向量vs中；在训练过程中优化软提示，以学习如何最有效地利用压缩信息vs来提高模型在特定任务上的性能；

101、利用这种方法，自然语言格式提示和摘要向量的强大信息压缩潜力被充分利用；此外，通过集成软提示，增强了模型对特定下游任务的适应性和有效性，从而增强了其泛化能力；最终，构建了摘要大语言模型；

102、该序列首先将提取并验证的数据存储在amazon s3和数据库中；接下来，数据被发送到数据分析平台进行分析；在进行研究之前，大语言模型会综合数据，确保一致性和连贯性；数据分析平台在分析数据以获得见解后还要求大语言模型提供自动叙述，这提供了分析的自然语言摘要和解释，增加了额外的丰富层；然后将数据集成到saas和erp系统中；与分析平台一样，这些系统也依赖于大语言模型在使用和处理数据之前进行数据的合成。