技术新讯 > 计算推算,计数设备的制造及其应用技术 > 一种适用于招投标业务的预训练大语言模型参数高效微调方法及系统与流程 > 正文

一种适用于招投标业务的预训练大语言模型参数高效微调方法及系统与流程

国知局
2024-09-11 14:39:21

本发明属于人工智能，尤其涉及一种适用于招投标业务的预训练大语言模型参数高效微调方法及系统。

背景技术：

1、随着大语言模型(如bert、chatgpt、claude)的兴起，自然语言处理范式发生转变。这些模型首先在大规模的数据集上进行预训练，以学习通用的语言特征和模式。然后，预训练的模型在具体的下游任务上进行微调，以适应特定应用的需求和特性。全量微调是最常见的预训练模型微调方法，即微调所有的模型参数。但是，随着模型规模的持续增加，全量微调面临诸多挑战：1.计算资源需求增加：更大的模型意味着需要更多的计算资源进行训练，这可能导致成本显著增加；2.过拟合风险增加：在全量微调大型模型时，如果下游任务的数据集相对较小，可能会出现过拟合的问题，即模型在训练数据上表现良好，但在实际应用中的泛化能力较弱。因此，在一些数据敏感且具有高效率、高精度要求的垂直领域，比如招投标，全量微调方法难以满足使用要求。

2、招投标是一个涉及大量的文本处理和数据分析的行业。借助预训练大语言模型先进的文本分析能力，能够显著改善和简化业务流程，提高业务效率。然而，使用全面参数微调难以将预训练的大语言模型应用于招投标业务，主要原因包括：1.微调数据稀缺：招投标文档充斥着敏感商业信息，如价格和技术规格，这些信息的敏感性使得数据收集工作变得复杂。这种情况限制了可用于微调的数据资源，导致高质量、相关性强的训练材料不足；2.领域信息差异大：招投标文件包含特定的行业术语和语言，它们可能不在预训练大模型的初始词汇表和预训练信息中。这些差异使得预训练信息和招投标信息之间存在知识鸿沟，提升了微调的复杂性。

技术实现思路

1、为解决上述技术问题，本发明提出一种适用于招投标业务的预训练大语言模型参数高效微调方法及系统，实现了在招投标文本数据稀缺的情况下对预训练大语言模型的高效微调。

2、本发明第一方面公开了一种适用于招投标业务的预训练大语言模型参数高效微调方法，所述方法包括：

3、步骤s101：收集招投标业务文件，并对其进行数据清洗和脱敏处理；

4、步骤s102：根据招投标业务需求，设计指令模版，对收集的数据进行标注，根据指令数据格式构建指令数据集，并将其划分为训练数据集和测试数据集；

5、步骤s103：选择合适的预训练大语言模型中作为基座模型，通过残差连接方式在transformer模块中添加带有空间注意力机制的并行适配器；

6、步骤s104：冻结预训练大语言模型的原始参数，使用训练数据集对并行适配器参数进行微调训练，使用测试数据集评估微调效果，当评估结果满足业务要求时，微调完成。

7、根据本发明第一方面的方法，在所述步骤s101中，所述数据清洗主要包括对日期、货币单位等数值数据进行规范格式化处理，对使用不同术语或缩写表示相同概念的情况进行统一，对文件中的表格和列表进行标准化处理；所述脱敏处理主要对价格信息、技术规格、合同条款以及供应商信息进行加噪或数据替换。

8、根据本发明第一方面的方法，在所述步骤s102中，所述指令数据格式为{“instruction”:,“input”:,“output”:.}。其中，instruction为要执行的操作或命令；input为执行instruction时需要的输入；output为执行instruction后应得到的输出。

9、根据本发明第一方面的方法，在所述步骤s103中，所述并行适配器采用残差连接的方式并联于多头注意力机制模块和全连接模块。所述并行适配器的结构包括卷积层、空间注意力机制、第一全连接层以及第二全连接层四部分。其中，空间注意力机制采用残差连接方式并联于卷积层和全连接层之间。运算时，并行适配器的输入数据进入所述卷积层，卷积层的输出分别进入所述注意力机制和所述第一全连接层，注意力机制的输出和全连接层输出经过拼接运算，输出到所述第一全连接层，第一全连接层的输出进入所述第二全连接层。所述空间注意力机制的结构包括通道最大池化层和通道平均池化层。所述通道最大池化层和所述平均池化层采用并联方式连接。运算时，空间注意力机制的输入分别经过所述通道最大池化层和所述平均池化层，通道最大池化层和通道平均池化层的输出经过拼接运算后输出。

10、根据本发明第一方面中的方法，在所述步骤s103中，所述卷积层为1×3卷积。

11、本发明第二方面公开了一种适用于招投标业务的预训练大语言模型参数高效微调系统，所述系统包括：

12、模块201：数据收集与处理模块，被配置为，收集招投标业务文件，并对其进行数据清洗和脱敏处理；

13、模块202：指令数据集构建模块，被配置为，根据招投标业务需求，设计指令模版，对收集的数据进行标注，根据指令数据格式构建指令数据集，并将其划分为训练数据集和测试数据集；

14、模块203：预训练大语言模型微调模块，被配置为，选择合适的预训练大语言模型中作为基座模型，通过残差连接方式在transformer模块中添加带有空间注意力机制的并行适配器；

15、模块204：微调后大语言模型微调模块，被配置为，冻结预训练大语言模型的原始参数，使用训练数据集对并行适配器参数进行微调训练，使用测试数据集评估微调效果，当评估结果满足业务要求时，微调完成。

16、本发明第三方面公开了一种电子设备。电子设备包括存储器和处理器，存储器存储有计算机程序，处理器执行计算机程序时，实现本公开第一方面中任一项的一种适用于招投标业务的预训练大语言模型参数高效微调方法中的步骤。

17、本发明第四方面公开了一种计算机可读存储介质。计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时，实现本公开第一方面中任一项的一种适用于招投标业务的预训练大语言模型参数高效微调方法中的步骤。

18、综上，本发明提出的方案能够实现在招投标文本数据稀缺的情况下对预训练大语言模型的高效微调，降低大语言模型应用于招投标领域时的训练成本。

技术特征：

1.一种适用于招投标业务的预训练大语言模型参数高效微调方法，其特征在于，所述方法包括：

2.根据权利要求1所述的一种适用于招投标业务的预训练大语言模型参数高效微调方法，其特征在于，在所述步骤s101中，所述数据清洗主要包括对日期、货币单位等数值数据进行规范格式化处理，对使用不同术语或缩写表示相同概念的情况进行统一，对文件中的表格和列表进行标准化处理；所述脱敏处理主要对价格信息、技术规格、合同条款以及供应商信息进行加噪或数据替换。

3.根据权利要求1所述的一种适用于招投标业务的预训练大语言模型参数高效微调方法，其特征在于，在所述步骤s102中，提取招投标文件的摘要、供应商的资格条件等信息时，指令模版包括：

4.根据权利要求1所述的一种适用于招投标业务的预训练大语言模型参数高效微调方法，其特征在于，在所述步骤s103中，所述并行适配器采用残差连接的方式并联于多头注意力机制模块和全连接模块。所述并行适配器的结构包括卷积层、空间注意力机制、第一全连接层以及第二全连接层四部分。其中，空间注意力机制采用残差连接方式并联于卷积层和全连接层之间。运算时，并行适配器的输入数据进入所述卷积层，卷积层的输出分别进入所述注意力机制和所述第一全连接层，注意力机制的输出和全连接层输出经过拼接运算，输出到所述第一全连接层，第一全连接层的输出进入所述第二全连接层。

5.根据权利要求1所述的一种适用于招投标业务的预训练大语言模型参数高效微调方法，其特征在于，在所述步骤s103中，所述空间注意力机制的结构包括通道最大池化层和通道平均池化层。所述通道最大池化层和所述平均池化层采用并联方式连接。运算时，空间注意力机制的输入分别经过所述通道最大池化层和所述平均池化层，通道最大池化层和通道平均池化层的输出经过拼接运算后输出。

6.根据权利要求1所述的一种适用于招投标业务的预训练大语言模型参数高效微调方法，其特征在于，在所述步骤s103中，所述卷积层为1×3卷积。

7.一种适用于招投标业务的预训练大语言模型参数高效微调系统，其特征在于，所述系统包括：

8.一种电子设备，其特征在于，所述电子设备包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行计算机程序时，实现权利要求1至6中任一项所述的一种适用于招投标业务的预训练大语言模型参数高效微调方法中的步骤。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时，实现权利要求1至6任一项的一种适用于招投标业务的预训练大语言模型参数高效微调方法中的步骤。

技术总结本发明提出一种适用于招投标业务的预训练大语言模型参数高效微调方法及系统。其中，方法包括：收集招投标业务文件，并对其进行数据清洗和脱敏处理；根据招投标业务需求，设计指令模版，对收集的数据进行标注，根据指令数据格式构建指令数据集，并将其划分为训练数据集和测试数据集；选择合适的预训练大语言模型中作为基座模型，通过残差连接方式在transformer模块中添加带有空间注意力机制的并行适配器；冻结预训练大语言模型的原始参数，使用训练数据集对并行适配器参数进行微调训练，使用测试数据集评估微调效果，当评估结果满足业务要求时，微调完成。本发明提出的方法实现了在招投标文本数据稀缺的情况下对预训练大语言模型的高效微调，降低了大语言模型应用于招投标领域时的训练成本，使招投标业务的处理更加便捷和智能化。技术研发人员：张镇鑫,任晓军,叶培根,陈鹏羽受保护的技术使用者：广州数志科技有限公司技术研发日：技术公布日：2024/9/9