技术新讯 > 计算推算,计数设备的制造及其应用技术 > 可控文案生成模型的训练方法、文案生成方法及系统与流程 > 正文

可控文案生成模型的训练方法、文案生成方法及系统与流程

国知局
2024-08-22 14:26:56

本说明书涉及人工智能，尤其涉及一种可控文案生成模型的训练方法、文案生成方法及系统。

背景技术：

1、用户在支付收银台发起支付后，可能会选择退出。在用户退出时，客户端一般会弹窗显示一些个性化文案，提醒用户，以期望用户继续完成支付，提高产品的支付成功率。上述用户发起支付后又退出的场景可以称为“支付退回场景”，该场景下为用户显示的个性化文案可以称为“支付挽回文案”。

2、支付退回场景下的文案会受到一些限制，目前亟需提供一种方法，能够训练出一个文案生成模型，以生成满足限制条件的支付挽回文案。

3、背景技术部分的内容仅仅是发明人个人所知晓的信息，并不代表上述信息在本公开申请日之前已经进入公共领域，也不代表其可以成为本公开的现有技术。

技术实现思路

1、本说明书提供一种可控文案生成模型的训练方法、文案生成方法及系统，能够生成满足限制条件的支付挽回文案，从而有利于提高产品的支付成功率。

2、第一方面，本说明书提供一种可控文案生成模型的训练方法，所述可控文案生成模型用于生成支付退回场景下的支付挽回文案，所述方法包括：基于基础文案和用户的历史点击数据，确定控制元素，所述控制元素用于表示所述支付挽回文案需满足的目标属性和/或目标格式，所述基础文案包括预先生成的可用支付挽回文案；确定训练样本及其对应的训练标签，所述训练样本包括支付退回时对应的产品描述文本样本，所述训练标签包括满足所述目标属性和/或所述目标格式的支付挽回文案；以及将所述训练样本和所述控制元素作为输入，在预训练语言模型的基础上进行微调训练，得到所述可控文案生成模型，所述微调训练的训练目标包括最小化所述预训练语言模型的输出结果与所述训练标签之间的差异。

3、在一些实施例中，所述基础文案是通过以下方式得到的：对文本库中的文案执行文本预处理、分词、词性标注、规则拆解或者关键词抽取中的至少一项操作，得到多个句式；遍历词库中的词汇，对所述多个句式分别进行文案组装，得到多个组装文案；以及对所述多个组装文案进行筛选，得到所述基础文案。

4、在一些实施例中，所述目标属性包括下列至少一个：包含曝光点击率大于第一阈值的目标词汇；包含曝光点击率大于第二阈值的目标句式；或者，包含曝光点击率大于第三阈值的目标词性。

5、在一些实施例中，所述用户的历史点击数据包括用户对所述基础文案的曝光点击率；所述基于基础文案和用户的历史点击数据，确定控制元素，包括：基于用户对所述基础文案的曝光点击率，确定所述目标词汇、所述目标句式或者所述目标词性中的至少一个；以及基于所述目标词汇、所述目标句式或者所述目标词性中的至少一个，确定所述目标属性。

6、在一些实施例中，所述目标属性还包括：满足基于专家经验得到的约束条件，所述约束条件包括以下至少一个：不包含禁用词汇和/或禁用句式；采用通俗易懂的表达方式；或者，包含的字数在第一预设范围内。

7、在一些实施例中，所述目标格式包括下列至少一个：包括预设数量的至少一个文本，且所述至少一个文本中的每个文本的长度在第二预设范围内，所述预设数量在第三预设范围内；或者，包括一个长度在第四预设范围内的文本。

8、在一些实施例中，所述用户的历史点击数据包括用户基于所述基础文案重新进行支付的支付挽回成功率；所述基于基础文案和用户的历史点击数据，确定控制元素，包括：基于用户基于所述基础文案重新进行支付的支付挽回成功率，确定所述第二预设范围、所述第三预设范围或者所述第四预设范围中的至少一个；以及基于所述第二预设范围、所述第三预设范围或者所述第四预设范围中的至少一个，确定所述目标格式。

9、在一些实施例中，所述确定训练样本及其对应的训练标签，包括：基于历史支付退回场景中的历史产品确定所述产品描述文本样本，并将所述产品描述文本样本作为所述训练样本；从所述基础文案中确定满足所述目标属性和/或所述目标格式的第一文案；基于所述目标属性和/或所述目标格式对所述第一文案进行数据增强，得到第二文案；以及将所述第一文案和所述第二文案作为所述训练标签。

10、在一些实施例中，所述预训练语言模型包括大语言模型。

11、在一些实施例中，所述将所述训练样本和所述控制元素作为输入，在预训练语言模型的基础上进行微调训练，得到所述可控文案生成模型，包括：在所述预训练语言模型中加入适配器模块，得到第一模型；以及将所述训练样本和所述控制元素输入至所述第一模型，基于所述训练目标对所述适配器模块的参数进行训练，基于训练好的适配器模块和所述预训练语言模型得到所述可控文案生成模型。

12、在一些实施例中，所述将所述训练样本和所述控制元素作为输入，在预训练语言模型的基础上进行微调训练，得到所述可控文案生成模型，包括：将所述控制元素加入所述训练样本之前作为所述训练样本的控制码，输入至所述预训练语言模型，基于所述训练目标对所述预训练语言模型的参数进行训练，得到所述可控文案生成模型。

13、在一些实施例中，所述将所述训练样本和所述控制元素作为输入，在预训练语言模型的基础上进行微调训练，得到所述可控文案生成模型，包括：在所述预训练语言模型的输出层连接属性判别器，所述属性判别器用于判断所述预训练语言模型输出的文本满足所述控制元素的概率；以及将所述训练样本和所述控制元素输入至所述预训练语言模型，基于所述训练目标对所述预训练语言模型的参数进行训练，得到所述可控文案生成模型，所述训练目标还包括最小化所述属性判别器的输出结果与所述属性判别器的标签之间的差异，所述属性判别器的标签包括所述预训练语言模型输出的文本完全满足所述控制元素。

14、在一些实施例中，所述训练目标还包括以下至少一种：通过重复分类器最小化所述预训练语言模型的输出结果与已有同类别文案之间的重复度；通过句法分类器最大化所述预训练语言模型的输出结果的句法与已有标准文案的句法之间的相似度，所述已有标准文案满足所述目标属性；或者通过类别分类器最大化所述预训练语言模型的输出结果与所述训练样本之间的差异。

15、第二方面，本说明书还提供一种文案生成方法，用于生成支付退回场景下的支付挽回文案，所述方法包括：确定目标产品的产品描述文本；以及将所述产品描述文本和控制元素输入至可控文案生成模型，得到所述目标产品的支付挽回文案，其中，所述控制元素用于表示所述支付挽回文案需满足的目标属性和/或目标格式，所述可控文案生成模型是采用第一方面中任一项所述的方法训练得到的。

16、第三方面，本说明书还提供一种可控文案生成模型的训练系统，包括：至少一个存储介质以及至少一个处理器，其中，所述至少一个存储介质存储有至少一个指令集，用于进行可控文案生成模型的训练，所述可控文案生成模型用于生成支付退回场景下的支付挽回文案；所述至少一个处理器同所述至少一个存储介质通信连接，其中，所述至少一个处理器读取所述至少一个指令集，并且根据所述至少一个指令集的指示执行第一方面中任一项所述的方法。

17、第四方面，本说明书还提供一种文案生成系统，包括至少一个存储介质以及至少一个处理器，其中，所述至少一个存储介质存储有至少一个指令集，用于生成支付退回场景下的支付挽回文案；所述至少一个处理器同所述至少一个存储介质通信连接，其中，所述至少一个处理器读取所述至少一个指令集，并且根据所述至少一个指令集的指示执行第二方面中任一项所述的方法。

18、由以上技术方案可知，本说明书提供的可控文案生成模型的训练方法、文案生成方法及系统，可以将训练样本和控制元素都作为输入，以最小化预训练语言模型的输出结果与训练标签之间的差异为目标，在预训练语言模型的基础上进行微调训练，从而得到可控文案生成模型。由于增加了控制元素，预训练语言模型能够在微调训练过程中学习到控制元素的约束条件，使得最终得到的可控文案生成模型能够生成满足控制元素的限制的文案。在本说明书提供的训练方法中，训练样本包括支付退回时对应的产品描述文本样本，控制元素包括支付挽回文案需满足的目标属性和/或目标格式，训练标签包括满足目标属性和/或目标格式的支付挽回文案。由此可见，可控文案生成模型是基于支付退回场景下的相关数据训练得到的，因此，可控文案生成模型能够生成支付退回场景下满足限制条件的支付挽回文案。本说明书实施例生成的支付挽回文案能够满足支付退回场景下的要求，从而有利于提高产品的支付成功率。

19、本说明书提供的可控文案生成模型的训练方法、文案生成方法及系统的其他功能将在以下说明中部分列出。根据描述，以下数字和示例介绍的内容将对那些本领域的普通技术人员显而易见。本说明书提供的可控文案生成模型的训练方法、文案生成方法及系统的创造性方面可以通过实践或使用下面详细示例中所述的方法、装置和组合得到充分解释。