基于强化学习训练文本生成模型的方法和装置与流程
- 国知局
- 2024-08-30 14:34:19
本说明书实施例属于计算机,尤其涉及一种基于强化学习训练文本生成模型的方法和装置。
背景技术:
1、智能客服、问答系统、或者商品推荐系统等可能会使用文本生成模型进行语言生成。用户输入自然语言形式的问题,文本生成模型给出自然语言形式的回复来回答用户的问题。文本生成模型通常是transformer架构的神经网络。检索增强模式,即首先检索与问题相关的支持文本,然后让文本生成模型根据支持文本给出的信息来回答给定问题,如此可以提升文本生成模型输出的可验证性和正确性。但是检索增强的文本生成模型中依然存在幻觉问题,即不根据检索得到的信息回答问题、而是输出不相关或者虚假的内容的现象。例如:
2、[问题]:我想要一件印花宽松款型的t恤,最好图案是哈利波特主题,去哪家店可以买到?
3、[检索支持文本]:商品信息uid:****;品牌:第二品牌;种类:t恤;版型:宽松;尺码:xxl;颜色:白色;其他:印花、哈利波特、魔法、奇幻;
4、[输出回复]:根据检索得到的信息,第一品牌编号为****的商品符合要求,您可以去第一品牌的商店浏览印花宽松款型、主题为哈利波特的t恤。
5、在上述例子中,虽然检索到了相关的信息,但是文本生成模型在生成时依然没有完全根据检索得到的相关信息来回答“第二品牌”,而是回答了检索支持文本中并未出现的“第一品牌”。出现幻觉问题的原因是,文本生成模型在之前的训练中,遇到过类似的问题,并且训练文本对应的回复包括第一品牌,在该情况下,文本生成模型在再次输入该问题时,有可能基于已有的记忆输出第一品牌,而不是输出支持文本中的第二品牌。
6、业界已有的缓解大语言模型幻觉问题主要解决方案包括监督微调和外部幻觉检测器。
7、监督微调指通过构造无幻觉现象的监督数据,通过这些数据对大语言模型进行监督微调。例如在检索增强大语言模型中,给定问题和参考文本,提取参考文本中的问题答案作为监督数据。然而这种方法对大语言模型的输出影响较大,监督微调之后的大语言模型的输出格式会趋向于与数据中的输出格式相同,因此,收集的监督微调数据质量对结果影响很大。而收集数据需要耗费大量人力物力,成本高昂。
8、另一种方法为固定大语言模型的参数不动,训练一个外部的幻觉检测器。当幻觉检测器检测到大语言模型输出中包含幻觉,即不符合输入、无法判断真伪的信息时则采用丢弃、替换或重新输出的策略。这种方法在推理时需要额外的幻觉检测步骤,增加了计算代价,并且只是检测到幻觉,并没有给出解决幻觉的方法,即只能检测到错误答案,并不能输出正确答案。
技术实现思路
1、本发明的目的在于提供一种基于强化学习训练文本生成模型的方法,以更优地解决检索增强的文本生成模型存在的幻觉问题。
2、本说明书第一方面提供一种基于强化学习训练文本生成模型的方法,包括:
3、基于第一训练样本生成第二训练样本,所述第一训练样本包括问题、第一支持文本和第一答案,所述第一答案包含所述第一支持文本中的第一实体,所述第二训练样本包括:所述问题和第二支持文本,所述文本生成模型已在先基于所述第一训练样本得到训练,所述第二支持文本包含与所述问题对应的第二实体;
4、将所述问题和所述第二支持文本输入所述文本生成模型,获取所述文本生成模型输出的回复;
5、根据所述回复确定第一反馈值,所述第一反馈值与所述回复与所述第二实体的关联性对应;
6、通过强化学习算法基于所述第一反馈值和所述回复调整所述文本生成模型的参数。
7、在一种实施方式中,所述第二训练样本还包括第二答案,所述第二答案包含所述第二实体,所述根据所述回复确定第一反馈值包括:根据所述回复与所述第二答案的关联性,确定第一反馈值。
8、在一种实施方式中,所述第二训练样本中还包括所述第一答案,所述方法还包括:其中,在所述回复包括所述第二答案的情况下,确定所述第一反馈值为用于奖励的奖励值,在所述回复包括所述第一答案的情况下,确定所述第一反馈值为用于惩罚的第一惩罚值。
9、在一种实施方式中,所述方法还包括,在所述回复不包括所述第一答案和所述第二答案的情况下,确定所述第一反馈值为用于惩罚的第二惩罚值,其中,所述第一惩罚值小于所述第二惩罚值。
10、在一种实施方式中,所述基于第一训练样本生成第二训练样本包括:
11、将第一支持文本中的所述第一实体替换为所述第二实体,得到所述第二支持文本,所述第二实体与所述第一实体为同类型实体。
12、在一种实施方式中,所述根据所述回复确定第一反馈值包括,将所述问题、所述第二支持文本和所述回复输入预先训练的检测模型,根据所述检测模型的输出确定所述第一反馈值,其中所述检测模型基于第三训练样本训练得到,所述第三训练样本包括问题、第三支持文本、第二回复和标签值,所述标签值用于指示所述第二回复的正确性。
13、在一种实施方式中,所述回复中包括多个文本单元,一个文本单元对应所述文本生成模型的一次决策,所述方法还包括:针对所述回复中的第一文本单元在所述回复中的位置,根据当前所述文本生成模型与所述经预训练的文本生成模型在所述位置的输出的差异性,确定与所述第一文本单元对应的第二反馈值,其中,所述第二反馈值与所述差异性负相关,
14、所述通过强化学习算法基于所述第一反馈值调整所述文本生成模型的参数包括:通过强化学习算法基于所述第一反馈值和所述第二反馈值调整所述文本生成模型的参数。
15、在一种实施方式中,所述方法还包括:在判断所述回复存在崩溃模式的情况下,确定第三惩罚值,所述通过强化学习算法基于所述第一反馈值和所述第二反馈值调整所述文本生成模型的参数包括:通过强化学习算法基于所述第一反馈值、所述第二反馈值和所述第三惩罚值调整所述文本生成模型的参数。
16、在一种实施方式中,所述方法还包括:基于预设的检测算法,判断所述回复是否存在崩溃模式,所述检测算法中包括对重复的多个无意义字符的检测。
17、在一种实施方式中,所述通过强化学习算法基于所述第一反馈值和所述回复调整所述文本生成模型的参数包括:
18、基于所述第一反馈值和所述回复获取与多个时间步对应的多个三元组的序列,每个三元组包括状态、动作、反馈值,所述动作为所述第二训练样本中的回复中的一个文本单元,所述状态包括所述问题、所述第二支持文本、及所述文本生成单元在所述回复中在输出所述动作之前已经输出的文本;
19、基于所述多个三元组调整所述文本生成模型的参数。
20、在一种实施方式中,所述通过强化学习算法基于所述第一反馈值和所述回复调整所述文本生成模型的参数包括:基于预先训练的价值模型、所述第一反馈值、所述回复调整所述文本生成模型的参数,基于所述第一反馈值、和所述回复调整所述价值模型的参数。
21、在一种实施方式中,所述基于第一训练样本生成第二训练样本包括:基于多个第一训练样本生成多个第二训练样本,
22、所述基于预先训练的价值模型、所述第一反馈值、所述回复调整所述文本生成模型的参数包括:
23、基于多个第二训练样本对应的第一反馈值、第二反馈值、第三反馈值和回复,得到所述文本生成模型的多条轨迹,其中每条轨迹包括与该条轨迹的多个时间步对应的多个所述三元组的序列;
24、对于每条轨迹,通过将该条轨迹中的各个状态输入所述价值模型,得到各个状态对应的状态价值,基于各个状态价值和该条轨迹中包括的各个反馈值,计算各个时间步的优势值;
25、基于各条轨迹包括的与多个时间步对应的多个动作、多个状态和多个优势值,调整所述文本生成模型的参数。
26、在一种实施方式中,所述基于第一训练样本生成第二训练样本包括:通过使用第二文本生成模型,基于第一训练样本生成第二训练样本。
27、本说明书第二方面提供一种基于强化学习训练文本生成模型的装置,包括:
28、生成单元,用于基于第一训练样本生成第二训练样本,所述第一训练样本包括问题、第一支持文本和第一答案,所述第一答案包含所述第一支持文本中的第一实体,所述第二训练样本包括:所述问题和第二支持文本,所述文本生成模型已在先基于所述第一训练样本得到训练,所述第二支持文本包含与所述问题对应的第二实体;
29、输入单元,用于将所述问题和所述第二支持文本输入所述文本生成模型,获取所述文本生成模型输出的回复;
30、确定单元,用于根据所述回复确定第一反馈值,所述第一反馈值与所述回复与所述第二实体的关联性对应;
31、训练单元,用于通过强化学习算法基于所述第一反馈值和所述回复调整所述文本生成模型的参数。
32、本说明书第三方面提供一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行第一方面所述的方法。
33、本说明书第四方面提供一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现第一方面所述的方法。
34、本说明书第五方面提供一种计算机程序产品,包括计算机程序/指令,该计算机程序/指令被处理器执行时实现第一方面所述方法的步骤。
35、在本说明书实施例中的对文本生成模型的训练中,通过使用强化学习算法惩罚大语言模型的幻觉问题,并奖励包含正确答案的回复,从而缓解大语言模型的幻觉问题,由于在强化学习算法中只对模型的训练提供奖励或惩罚信息,而没有提供指示模型如何输出的显示监督信息,从而使得文本生成模型的输出可以保持原有的输出格式,从而提高了用户体验。
本文地址:https://www.jishuxx.com/zhuanli/20240830/282764.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。
下一篇
返回列表