技术新讯 > 计算推算,计数设备的制造及其应用技术 > 一种基于大语言模型的多智能体生化信息提取模型及训练方法与流程 > 正文

一种基于大语言模型的多智能体生化信息提取模型及训练方法与流程

国知局
2024-10-09 16:04:01

本发明涉及大语言模型领域和生物化学信息领域，更具体地，涉及一种基于大语言模型的多智能体生化信息提取模型及训练方法。

背景技术：

1、基于大语言模型的信息提取方法在提取一般信息时，有通用性和准确性高，人力成本低的优点，但是在应用于提取生物和化学领域的关键信息，如实验条件和数据时，使用基于一般大语言模型的信息提取方法在提取其专业领域词汇上的准确度有限，通常需要人为限定、搭建提示词与案例，以提升信息提取的准确性。直接使用一般的大语言模型进行实验信息提取时会发生幻觉，得到错误的信息与不标准的格式等情况，准确率通常仅有40%-60%。因此，在使用大模型用于挖掘信息时仍需要进行提示词和案例搭建等工作以用于模型的微调。对于生物和化学等专业词汇多、数据庞大复杂、知识体系复杂、内容日新月异的学科，能够有效地、有针对性地提取信息对于了解行业、创建数据库、训练模型、预测趋势等尤为重要。但正因庞大且复杂的数据和知识，在挑选生物和化学领域的关键词，并以此生成合适的提示词及案例时的技术难度大，通常需要专业人士耗费大量时间完成模型的训练与准备工作。由此可见，在提取有效的生物和化学领域的关键信息时，无法使用基于一般大语言模型的信息提取方法，而是需要多领域专家对模型进行人为补充、调整、筛选和搭建。这不仅增加了时间和经济成本，而且获得的信息的体量和类别可能会因主观的关键词选择的变化而变化。

2、现有技术如专利号为“cn118210914a ”的中国专利公开了一种基于llm大模型的信息挖掘及分析方法。该方法包括以下步骤：大语言模型可以根据研究人员的关键词、主题或问题，从图书馆知识库中检索出相关文献，包括图书、期刊论文、会议论文等，还能根据摘要或全文内容对文献进行评估，筛选出最相关的资源，包含最新研究论文、顶级会议收录论文等并提交给研究人员，交互简单易上手，提示工程具有普遍性。通用型大语言模型可以应用于各个领域的文本分析，包括教育领域的访谈文本，它的推广也意味着可以广泛应用于不同的教育研究和实践场景；同时，自然语言指令的交互方式使分析过程更加直观和对用户友好，每一个人都可以借鉴这套提示工程框架指导大语言模型个性化地执行私人文本分析任务。

3、上述现有技术存在的问题是：

4、1.研究人员输入的关键词和主题可能不够精确或全面，导致遗漏重要的相关文献。

5、2.尽管大模型能够评估文献的相关性，但可能无法深入理解文献中的复杂概念和理论，从而影响筛选的质量。

6、3.通用型大语言模型无法进行数据层面准确的信息挖掘任务，难以完成对于构建特定领域的知识图谱、数据库、训练数据集等任务。

7、4.单一通用型大模型在完成生物化学领域的信息提取时容易产生错误生成与幻觉相关的情况。在复杂的生物化学信息提取任务场景下与多智能体系统相比准确性与生成质量较低，无法完成复杂且系统化的信息提取工作。

技术实现思路

1、为了解决上述现有技术中存在的问题，本发明提出了一种基于大语言模型的多智能体生化信息提取模型及训练方法。

2、本发明技术方案如下：

3、一方面，本发明提出一种基于大语言模型的多智能体生化信息提取模型训练方法，包括以下具体步骤：

4、步骤s1、部署用于文本生成任务的大语言模型，作为智能体的核心输入输出模块；构建包含任务智能体、数据生成智能体和信息挖掘智能体的多智能体生化信息提取模型；

5、步骤s2、从目标数据库中获取多个包含生物或化学信息的文本训练集；目标数据库为生物或化学领域期刊论文、专利与数据库；

6、步骤s3、将搭建的第一提示词与若干包含生物或化学信息的文本的训练集作为任务智能体的输入；训练任务智能体从训练集中提取有关生物或化学领域的重要关键词；并通过专家对提取结果进行校验，将校验结果反馈给任务智能体进行强化学习；

7、步骤s4、将搭建的第二提示词与随机抽取的包含生物或化学信息的文本作为数据生成智能体的输入，第二提示词包含任务智能体提取的关键词；训练数据生成智能体以任务智能体提取的重要关键词为提取目标，从若干生物或化学信息的文本内容中提取出关键词对应内容，生成供信息挖掘智能体学习的关键样例；并通过专家对生成结果进行校验，将校验结果反馈给数据生成智能体进行强化学习；

8、步骤s5、将搭建的第三提示词与若干包含生物或化学信息的文本作为信息挖掘智能体输入，第三提示词包含任务智能体提取的关键词、数据生成智能体生成的关键样例；训练信息挖掘智能体从训练集文本中挖掘提取相关的生物或化学信息，并按照关键样例的格式输出信息挖掘结果；通过专家对提取结果进行校验，将校验结果反馈给生成信息挖掘智能体进行强化学习；

9、步骤s6、输入提示词至训练好的多智能体生化信息提取模型；多智能体生化信息提取模型根据提示词在包含生物或化学信息目标数据库中提取输出对应的信息挖掘结果。

10、作为优选实施方式，所述将搭建的第一提示词与若干包含生物或化学信息的文本的训练集作为任务智能体的输入，能够根据提取目标的复杂程度，通过调整第一提示词限制对输出的重要关键词数量进行调整。

11、作为优选实施方式，在所述将搭建的第三提示词与若干包含生物或化学信息的文本作为信息挖掘智能体输入的步骤中：

12、信息挖掘智能体根据大语言模型输入输出的token限制，将输入内容分为多个子内容后执行输入操作；

13、信息挖掘智能体在输出信息挖掘结果时，将对应多个子内容的输出的信息挖掘结果进行合并。

14、作为优选实施方式，所述第二提示词还包括对输出文本格式的限定，所述数据生成智能体将提取出的关键词对应内容按照输出文本格式的限定生成相应的关键案例。

15、另一方面，本发明还提供一种基于大语言模型的多智能体生化信息提取模型，包括：

16、模型部署模块，部署用于文本生成任务的大语言模型，作为智能体的核心输入输出模块；构建包含任务智能体、数据生成智能体和信息挖掘智能体的多智能体生化信息提取模型；

17、训练集构建模块，从目标数据库中获取多个包含生物或化学信息的文本训练集；目标数据库为生物或化学领域期刊论文、专利与数据库；

18、关键词生成模块，将搭建的第一提示词与若干包含生物或化学信息的文本的训练集作为任务智能体的输入；训练任务智能体从训练集中提取有关生物或化学领域的重要关键词；并通过专家对提取结果进行校验，将校验结果反馈给任务智能体进行强化学习；

19、关键样例生成模块，将搭建的第二提示词与随机抽取的包含生物或化学信息的文本作为数据生成智能体的输入，第二提示词包含任务智能体提取的关键词；训练数据生成智能体以任务智能体提取的重要关键词为提取目标，从若干生物或化学信息的文本内容中提取出关键词对应内容，生成供信息挖掘智能体学习的关键样例；并通过专家对生成结果进行校验，将校验结果反馈给数据生成智能体进行强化学习；

20、信息挖掘模块，将搭建的第三提示词与若干包含生物或化学信息的文本作为信息挖掘智能体输入，第三提示词包含任务智能体提取的关键词、数据生成智能体生成的关键样例；训练信息挖掘智能体从训练集文本中挖掘提取相关的生物或化学信息，并按照关键样例的格式输出信息挖掘结果；通过专家对提取结果进行校验，将校验结果反馈给生成信息挖掘智能体进行强化学习；

21、模型使用模块，输入提示词至训练好的多智能体生化信息提取模型；多智能体生化信息提取模型根据提示词在包含生物或化学信息目标数据库中提取输出对应的信息挖掘结果。

22、作为优选实施方式，所述关键词生成模块，将搭建的第一提示词与若干包含生物或化学信息的文本的训练集作为任务智能体的输入，能够根据提取目标的复杂程度，通过调整第一提示词限制对输出的重要关键词数量进行调整。

23、作为优选实施方式，所述信息挖掘模块，在所述将搭建的第三提示词与若干包含生物或化学信息的文本作为信息挖掘智能体输入的步骤中：

24、信息挖掘智能体根据大语言模型输入输出的token限制，将输入内容分为多个子内容后执行输入操作；

25、信息挖掘智能体在输出信息挖掘结果时，将对应多个子内容的输出的信息挖掘结果进行合并。

26、作为优选实施方式，所述关键样例生成模块，第二提示词还包括对输出文本格式的限定，所述数据生成智能体将提取出的关键词对应内容按照输出文本格式的限定生成相应的关键案例。

27、再一方面，本发明还提供一种电子设备，其上存储有计算机程序，所述计算机程序被处理器执行时实现如本发明任一实施例所述的一种基于大语言模型的多智能体生化信息提取模型训练方法。

28、再一方面，本发明还提供一种计算机可读介质，用于存储一个或者多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如本发明任一实施例所述的一种基于大语言模型的多智能体生化信息提取模型训练方法。

29、本发明具有如下有益效果：

30、相比于现有的需要上千或上万例标注后数据的数据挖掘方法相比，本发明通过多智能体的大语言模型仅需对一百例以内的数据完成校验即可完成复杂的生物与化学方向的数据挖掘任务，并且显著减少了在对相关生物和化学数据进行数据挖掘时所需的时间、人工和知识成本，最终达到机器自动挑选相关关键词、自动搭建提示词后，自动进行信息挖掘的目的。

31、同时与其他提取方法相比，该框架在少量训练后对于关键词提取的准确性也有显著优势。与其他大语言模型的信息提取方法相比，该框架在生物化学领域的信息提取和专业词汇识别方面的准确率、精确率、召回率，以及bleu和rouge等评估指标上均表现出显著优势。与直接使用大模型的40%-60%的准确率相比，通过该框架训练后的多智能体系统可以达到90%以上的准确性。此外，由于提取的关键词会随着文本的不断更新而迭代，使用本框架提取的信息也会不断更新。因此，该框架有助于更全面、客观地从大量文本中提取信息。