训练数据增强方法、大模型训练方法及其装置、计算设备与流程
- 国知局
- 2024-07-31 22:38:38
本申请涉及机器学习领域,更具体地,涉及一种用于大模型的训练数据的增强方法及其装置、用于大模型的训练方法及其装置、计算设备以及介质。
背景技术:
1、大语言模型(llm,后文可以简称为大模型)是基于深度学习技术,例如llama模型,通过在大规模文本数据上进行训练而得到的参数规模庞大的自然语言处理模型。目前,基础大模型展现了较强智能的自然语言处理能力,能够学习语言的上下文信息、语法结构以及丰富的语义知识。随着大型模型技术和开源大型模型的不断发展,开源社区涌现出越来越多而且更强大的通用大型模型。这些通用大型模型通常具备出色的泛化特性,已经在通用语言逻辑理解方面取得了显著的成就。
2、然而,目前大模型在特定领域的应用仍然存在较大的阻拦和困难。目前针对大语言模型如何微调/训练的研究越来越多,以尽量能够适用于各种特定的领域,但是依照现有的微调/训练方式优化方向,仍然无法满足特定应用场景对于准确度和可靠性的高要求。例如,以肿瘤医学领域为例,大语言模型已经逐步应用到该领域,例如,进行医学命名实体识别以及智能医疗对话系统等等,但尚存在对深度肿瘤医学知识和专业业务场景逻辑/知识的需求,大语言模型在这方面的支持仍然相对不足;此外,针对该肿瘤医学类应用的训练数据较少,因此如何准备训练数据以及训练过程中数据如何进行变换,此类研究仍然十分匮乏。
3、因此,需要一套针对垂类场景(例如肿瘤医学场景)增强训练数据的方法以增强垂类大模型的定制和微调效果,从而使得为垂类场景(例如肿瘤医学场景)所定制的大语言模型能够满足该场景对于识别结果的准确度和可靠性的高要求。
技术实现思路
1、根据本申请的一方面,提供了一种用于增强大模型的训练数据的方法,该方法可以包括:获取针对特定领域的原始训练数据集的一个或多个数据质量衡量标准,其中每个数据质量衡量标准与多种类型的关键信息相关联;基于所述一个或多个数据质量衡量标准,对所述原始训练数据集中的原始训练数据的关键信息进行识别,确定具有第一质量等级 的第一训练数据集以及具有第二质量等级的第二训练数据集,其中,具有所述第一质量等级的训练数据包括与相应的数据质量衡量标准相关联的所有关键信息;以及将所述第一训练数据集和/或所述第二训练数据集中的训练数据的关键信息进行组合,得到具有所述第一质量等级的新的训练数据。根据实施例,所述原始训练数据集包括不同数据主题类别的训练数据,并且每个数据主题类别下的训练数据特定于相应的数据质量衡量标准。根据实施例,将所述第一训练数据集和/或所述第二训练数据集中的训练数据的关键信息进行组合,包括:在所述原始训练数据集中包括数量小于第一阈值的第一数据主题类别的训练数据和/或所述第一训练数据集中包括小于第二阈值的所述第一数据主题类别的训练数据的数量的情况下,确定所述第二训练数据集中的所述第一数据主题类别的第一训练数据缺乏特定类型的关键信息,将所述第一训练数据集中的第二训练数据的所述特定类型的关键信息与所述第一训练数据的关键信息进行补充组合,以得到具有所述第一质量等级的新的训练数据,其中,所述第一训练数据和第二训练数据具有相同或相似的数据主题类型。
2、根据本申请的一方面,提供了一种用于大模型的训练方法,该方法可以包括:获取增强训练数据集,所述增强训练数据集是利用如上所述的方法得到的,并且每条训练数据具有满足相应的数据质量衡量标准的多种类型的关键信息;以及基于所述增强训练数据集对所述大模型进行训练。
3、根据本申请的一方面,提供了一种用于增强大模型的训练数据的装置,该装置可以包括:获取模块,用于获取针对特定领域的原始训练数据集的一个或多个数据质量衡量标准,其中每个数据质量衡量标准与多种类型的关键信息相关联;识别模块,用于基于所述一个或多个数据质量衡量标准,对所述原始训练数据集中的原始训练数据的关键信息进行识别,确定具有第一质量等级的第一训练数据集以及具有第二质量等级的第二训练数据集,其中,具有所述第一质量等级的训练数据包括与相应的数据质量衡量标准相关联的所有关键信息;以及增强模块,用于将所述第一训练数据集和/或所述第二训练数据集中的训练数据的关键信息进行组合,得到具有所述第一质量等级的新的训练数据。根据实施例,所述原始训练数据集包括不同数据主题类别的训练数据,并且每个数据主题类别下的训练数据特定于相应的数据质量衡量标准。根据实施例,将所述第一训练数据集和/或所述第二训练数据集中的训练数据的关键信息进行组合,包括:在所述原始训练数据集中包括数量小于第一阈值的第一数据主题类别的训练数据和/或所述第一训练数据集中包括小于第二阈值的所述第一数据主题类别的训练数据的数量的情况下,确定所述第二训练数据集中的所述第一数据主题类别的第一训练数据缺乏特定类型的关键信息,将所述第一训练数据集中的第二训练数据的所述特定类型的关键信息与所述第一训练数据的关键信息进行补充组合,以得到具有所述第一质量等级的新的训练数据,其中,所述第一训练数据和第二训练数据具有相同或相似的数据主题类型。
4、根据本申请的一方面,提供了一种用于大模型的训练装置,该装置可以包括:获取模块,用于获取增强训练数据集,所述增强训练数据集是利用如上所述的方法得到的,并且每条训练数据具有满足相应的数据质量衡量标准的多种类型的关键信息;以及训练模块,用于基于所述增强训练数据集对所述大模型进行训练。
5、通过本申请的实施例,通过基于用于特定领域的高质量训练数据的关键信息组合的方式,可以生成用于该特定领域的具有足够数量的高质量训练数据,因此可以实现训练数据集的增强,此外,在生成过程中,还通过以动态组合生成的方式结合特定知识库(例如,所涉及的医学场景逻辑和医学判断逻辑,作为外挂知识库提供参考)生成新的训练数据,不仅仅增加了训练数据多样性,同时增加了训练数据中的逻辑链,使得大模型可以学习出该特定场景下的逻辑知识。因此,当将增强训练数据集用于训练大模型时,可以提高大模型在该特定场景(垂类场景)下的准确度和可靠性的高要求。
技术特征:1.一种用于增强大模型的训练数据的方法,包括:
2.根据权利要求1所述的方法,其中,所述特定领域为肿瘤医学领域,所述不同数据主题类别之一包括特定肿瘤类型疗效评价,并且
3.根据权利要求1所述的方法,其中,将所述第一训练数据集和/或所述第二训练数据集中的训练数据的关键信息进行组合,还包括:
4.根据权利要求1所述的方法,其中,将所述第一训练数据集和/或所述第二训练数据集中的训练数据的关键信息进行组合,还包括:
5.根据权利要求1-4中任一项所述的方法,还包括:
6.根据权利要求5所述的方法,还包括:
7.根据权利要求1所述的方法,还包括:
8.根据权利要求1所述的方法,其中,基于所述一个或多个数据质量衡量标准,对所述原始训练数据集中的原始训练数据的关键信息进行识别,包括:
9.根据权利要求1所述的方法,其中,所述原始训练数据集中的原始训练数据包括原始病历文本。
10.根据权利要求1所述的方法,还包括:将所述第一训练数据集以及具有所述第一质量等级的所述新的训练数据包括在增强训练数据集中,用于所述大模型的训练。
11. 一种用于大模型的训练方法,包括:
12.根据权利要求11所述的方法,其中,所述大模型经训练以执行多个任务,所述增强训练数据集包括所述第一训练数据集以及一个或多个生成数据子集。
13.根据权利要求12所述的方法,其中,基于所述增强训练数据集对所述大模型进行训练,包括:在每个迭代轮次,
14. 根据权利要求13所述的方法,其中,基于所述第一损失和所述一个或多个第二损失,更新所述大模型的当前模型参数,包括:
15.一种用于增强大模型的训练数据的装置,包括:
16.根据权利要求15所述的装置,其中,所述特定领域为肿瘤医学领域,所述不同数据主题类别之一包括特定肿瘤类型疗效评价,并且
17. 一种计算设备,包括:
18.一种非暂时性计算机可读存储介质,其上存储由计算机程序或指令集,当被执行时,使得一个或多个处理器执行如权利要求1-14中任一项所述的方法。
技术总结提供了训练数据的增强方法、大模型训练方法及其装置、计算设备。数据增强方法包括:获取针对特定领域的原始训练数据集的一个或多个数据质量衡量标准,每个数据质量衡量标准与多种类型的关键信息相关联;基于数据质量衡量标准,对所述原始训练数据集中的原始训练数据的关键信息进行识别,确定具有第一质量等级的第一训练数据集以及具有第二质量等级的第二训练数据集,其中,具有第一质量等级的训练数据包括与相应的数据质量衡量标准相关联的所有关键信息;以及将第一训练数据集和/或第二训练数据集中的训练数据的关键信息进行组合,得到具有第一质量等级的新的训练数据。技术研发人员:刘晓华,张程剀,刘泽恩,陈小梅受保护的技术使用者:北京壹永科技有限公司技术研发日:技术公布日:2024/7/25本文地址:https://www.jishuxx.com/zhuanli/20240730/193965.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。
下一篇
返回列表