用于公文写作的大语言模型训练方法、计算机装置和存储介质与流程
- 国知局
- 2024-08-05 11:37:40
本发明涉及公文写作,尤其是一种用于公文写作的大语言模型训练方法、计算机装置和存储介质。
背景技术:
1、公文是政府、事业单位、企业、团体组织等机构内部和对外进行信息传递和决策执行的重要工具,对保障机构的工作运转和科学决策具有重要意义。传统的公文写作由工作人员亲自执行,然而由于公文的数量庞大、种类繁多,以及公文写作过程具有繁琐和复杂性,受制于工作人员的写作水平和精力,撰写出的公文容易存在信息不准确和表达不清晰等问题。这些问题导致了公文写作的效率低下和质量不稳定。
技术实现思路
1、针对目前的公文写作存在的效率低下和质量不稳定等技术问题,本发明的目的在于提供一种用于公文写作的大语言模型训练方法、计算机装置和存储介质。
2、一方面,本发明实施例包括一种用于公文写作的大语言模型训练方法,所述用于公文写作的大语言模型训练方法包括以下步骤:
3、获取公文数据集和奖励数据集;所述公文数据集包括多个公文写作指令提示语和公文文本,所述奖励数据集包括多个公文写作指令提示语;
4、获取预训练模型;
5、在所述预训练模型的权重矩阵并行增加低秩矩阵,使用所述公文数据集对所述预训练模型和所述低秩矩阵执行第一训练过程,获得基底模型;在所述第一训练过程中,固定所述权重矩阵的参数,对所述低秩矩阵进行更新,在所述第一训练过程完成后,将所述低秩矩阵的参数合并至所述权重矩阵;
6、使用所述奖励数据集对所述基底模型执行基于人类反馈强化学习的第二训练过程,获得奖励模型;
7、对所述奖励模型执行近端策略优化,获得大语言模型。
8、进一步地,所述获取公文数据集和奖励数据集,包括:
9、从公开来源获取公文语料;所述公文语料具有公文内容;
10、获取通用语料;
11、对所述公文语料和所述通用语料进行预处理;
12、以所述公文语料和所述通用语料以一定比例进行组合,获得各所述公文文本;
13、分别对各所述公文文本进行撰写提示词标注,获得所述公文文本对应的所述公文写作指令提示语。
14、进一步地,所述获取预训练模型,包括:
15、获取通用大模型qwen-72b,作为所述预训练模型。
16、进一步地,所述使用所述公文数据集对所述预训练模型和所述低秩矩阵执行第一训练过程,获得基底模型,包括:
17、设置降维矩阵和升维矩阵,作为所述低秩矩阵;
18、采用高斯随机分布对所述降维矩阵进行随机化,将所述升维矩阵初始化为零矩阵;
19、将所述公文写作指令提示语输入至增加所述低秩矩阵后的所述预训练模型,所述公文写作指令提示语分别经过所述权重矩阵处理以及所述降维矩阵和所述升维矩阵连续处理,融合所述权重矩阵的处理结果和所述低秩矩阵的处理结果获得第一输出结果,固定所述权重矩阵的参数,根据所述第一输出结果和所述公文文本对所述降维矩阵和所述升维矩阵的参数进行更新;
20、将参数更新后的所述降维矩阵和所述升维矩阵相乘的结果,与所述权重矩阵叠加,从而对所述权重矩阵进行更新;
21、以权重矩阵参数更新后的所述预训练模型,作为所述基底模型。
22、进一步地,所述使用所述公文数据集对所述预训练模型和所述低秩矩阵执行第一训练过程,获得基底模型,包括:
23、将所述预训练模型拆分为多个子模型,将各个子模型分别发放至相应的子进程中;
24、分别在每个子进程中,对所述子模型并行增加相应的低秩矩阵,使用所述公文数据集对所述子模型和所述低秩矩阵执行第一训练过程;
25、将各个子进程训练后的所述子模型合并,获得所述基底模型。
26、进一步地,所述使用所述奖励数据集对所述基底模型执行基于人类反馈强化学习的第二训练过程,获得奖励模型,包括:
27、将所述公文写作指令提示语输入至所述基底模型;
28、获取所述基底模型响应所述公文写作指令提示语生成的多个待评分文本;
29、获取各所述待评分文本各自的评分值;
30、根据各所述评分值中的最高评分值和最低评分值,确定损失函数的值;
31、根据所述损失函数的值对所述基底模型进行参数更新;
32、以参数更新后的所述基底模型,作为所述奖励模型;
33、其中,所述损失函数为
34、lranking=-log(σ(rθ(x,yc)-rθ(x,yr)-m(r)))
35、lranking为所述损失函数的值,rθ(x,y)表示所述基底模型的权重矩阵参数为θ时,根据公文写作指令提示语x以及所述基底模型响应于x生成的待评分文本y对应的评分值,yc为最高评分值,yr为最低评分值,σ为sigmoid函数,即σ(z)=sig(z)=(1+e-z)-1,m(r)为yc对应的文本与yr对应的文本的边际(margin)标签修正,用于描述yc对应的文本与yr对应的文本之间的差距,如果yc对应的文本与yr对应的文本有“显著差距”(例如yc对应的文本与yr对应的文本之间的曼哈顿距离大于预设阈值),则可以调节m(r)的值,从而增加梯度值,加快参数更新速度。
36、进一步地,所述对所述奖励模型执行近端策略优化,获得大语言模型,包括:
37、设定优化目标;
38、根据所述优化目标,对所述奖励模型执行近端策略优化算法,从而对所述奖励模型的参数进行迭代更新;
39、以参数更新后的所述奖励模型,作为所述大语言模型;
40、其中,所述优化目标为
41、argmaxπep~d,g~π[r(g|p)]
42、p为公文写作指令提示语,d为公文写作指令提示语p所在的数据集,g为所述近端策略优化算法所使用的策略,π为策略g所在的数据集,e表示期望函数,r(g|p)表示g策略下p提示语的奖励(reward)函数。整个公式表示优化一个策略集π,使得当提示语p符合数据集分布d时,该策略下的总奖励期望值最大。
43、进一步地,所述用于公文写作的大语言模型训练方法还包括:
44、使用vllm和fschat搭建所述大语言模型的模型接口。
45、另一方面,本发明实施例还包括一种计算机装置,包括存储器和处理器,存储器用于存储至少一个程序,处理器用于加载至少一个程序以执行实施例中的用于公文写作的大语言模型训练方法。
46、另一方面,本发明实施例还包括一种计算机可读存储介质,其中存储有处理器可执行的程序,处理器可执行的程序在由处理器执行时用于执行实施例中的用于公文写作的大语言模型训练方法。
47、本发明的有益效果是:实施例中的用于公文写作的大语言模型训练方法,能够训练得到大语言模型,可以向大语言模型输入公文写作指令提示语,其中公文写作指令提示语的内容可以是需要生成的公文文本的内容摘要或关键词,或者要求进行公文文本写作的指令,大语言模型生成符合人类写作和阅读习惯的公文。通过使用大语言模型生成公文,可以辅助进行公文写作,从而有利于提高公文写作效率,保持公文写作质量稳定。
本文地址:https://www.jishuxx.com/zhuanli/20240802/258491.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。
下一篇
返回列表