一种基于规划大语言模型的数据到文本的生成方法与流程
- 国知局
- 2024-09-19 14:41:27
本发明涉及自然语言处理和深度学习,特别涉及一种基于规划大语言模型的数据到文本的生成方法。
背景技术:
技术实现思路
1、结构化数据到文本生成作为自然语言生成的子领域之一,旨在将表格、知识图谱、代码等结构化的数据转化为相应的文本描述,适用于现实世界中涉及处理大量结构化数据的各种场景,例如自动生成新闻报道、天气预报和健康报告等。一个结构化数据到文本生成系统要解决内容选择和表层实现两个问题。内容选择决定了系统要说什么,即从给定结构化数据中选择合适的信息;表层实现决定系统要怎么说,即根据选定内容生成完整的句子。一个成熟的系统可以仅根据关键数据批量产生新闻、报告等信息,从而极大地节省人工分析转化数据的时间和成本,具有很高的研究价值和应用价值。
2、现有的结构化数据到文本生成的方法通常基于传统的规则和模板或基于深度学习方法。基于规则和模板的方法通常以流水线的方式将结构化数据转为对应的文本描述,通过将系统进行模块化分解,逐步完成文本生成。同时系统可会根据不同语境提前设计和编撰相应的规则和模板,包括固定成分和可变成分两部分,并根据结构化数据的特征选择合适的模板,将可变成分填充后得到对应的文本描述。这类方法的缺点在于,一方面流水线模型的生成文本在流畅性、多样性上会有所欠缺,另一方面固定的模板很难做到领域之间的移植,因此只适用于逻辑简单的场景。
3、基于深度学习的方法往往会模糊结构化数据到文本生成任务中两个问题的界限,以条件语言模型的形式进行端到端的训练。随着近些年预训练模型的兴起,目前效果最好的基于深度学习的方法可以分为基于预训练微调的方法和基于预训练提示预测的方法。基于预训练微调的方法首先在大规模无监督数据上进行预训练,之后以微调的方式适配各种下游任务。基于预训练提示预测的方法在更新少量参数的情况下,选取合适的提示引导预训练模型适配下游任务。这类方法的缺点在于,在长文本生成的场景下生成文本仍不够流畅连贯,文本内容的忠实性也有很大提升空间。另外领域内也缺乏足够的高质量标注数据,通过互联网爬取的数据未经过人工筛选会出现数据和文本描述不对应的情况。
4、为了解决上述问题,可以引入大语言模型和小样本学习优化结构化数据到文本生成方法。继openai发布chatgpt后,国内外涌现出许多大语言模型,例如国内有百度的文心一言,国外有google的gemini等。这些模型可以凭借优秀的自然语言理解和生成能力,有望成为解决包括结构化数据到文本生成等各种实际应用的有效工具。小样本学习是指在训练数据极其有限的情况下,快速学习新任务的机器学习方法,由于其训练数据稀缺的条件更贴合实际应用场景,近年来小样本结构化数据到文本生成引起越来越多关注,并得到广泛研究。
5、然而,直接利用大语言模型生成结构化数据的文本表述无法满足结构化数据到文本生成任务的高可控性要求。首先,直接使用大语言模型生成文本描述时,大语言模型会详细描述结构化数据中的所有属性和属性值,导致生成的文本缺乏重点;其次,大语言模型也容易生成与提供源内容不符或没有意义的内容,即幻觉问题;此外,直接使用大语言模型难以实现对诸如属性在文本中的生成顺序等方面的细粒度控制。
6、在新一代大语言模型蓬勃发展的背景下,如何减少模型的幻觉,并以更加可控的方式生成更加忠实于结构化数据内容的文本描述具有很高的理论研究和实际应用价值。对这一问题的研究不仅有助于推动结构化数据到文本生成领域的发展,也能够为其他相关领域提供有价值的参考。
7、技术实现要素:
8、本发明的目的是利用新一代大语言模型加强结构化数据到文本生成内容的可控性,并避免大语言模型生成与结构化数据不一致的文本描述。一方面通过参数高效微调训练规划生成模块,以结构化数据的特征为依据对生成内容进行规划;另一方面使用规划内容引导生成模块提示大语言模型,以实现更加可控的文本生成。
9、为实现上述目的,本发明提供一种基于规划大语言模型的数据到文本的生成方法,包括:
10、s1、以结构化数据输入bart模型,生成规划序列;
11、s2、将任务描述、生成实例、控制指令以及结构化数据组成综合提示;
12、s3、将综合提示输入大语言模型,生成与结构化数据对应的文本描述。
13、进一步地,s2包括:
14、s21、针对结构化数据的领域构建描述性文字,用于明确结构化数据到文本生成任务的输入和输出形式;
15、s22、根据结构化数据-文本描述对形成生成实例,用于为大语言模型提供范例;
16、s23、设计控制指令实现对生成内容的细粒度控制;
17、s24、将描述性文字、生成实例、控制指令以及输入的结构化数据拼接成综合提示。
18、进一步地,s22包括:
19、(1)按照结构化数据d对应的文本描述r中属性名出现的顺序,选取结构化数据中重要属性的属性名,组合成对应的规划序列p;
20、(2)构成示例集s,其中每个示例为(d、r、p)的三元组形式;
21、(3)以完全匹配策略将s1中得到的规划序列pred与s中每一项三元组的p做匹配,若存在完全匹配的p,则将三元组中对应的(d、r)作为生成示例,若不存在,则将示例集s中包含pred中属性名最多的p对应的三元组(d、r)作为生成示例。
22、进一步地,s22中,对结构化数据进行处理,将未出现在对应文本描述中的属性过滤,得到精简的结构化数据,用于代替结构化数据形成三元组。
23、进一步地,s23中,控制指令包含三种类型:长度指令用于将生成内容限制为单句形式;形式指令用于激发大语言模型的学习能力,使其学习样本示例中精简数据和文本描述的对应关系,并模仿生成文本描述;覆盖指令用于利用大语言模型自身的理解能力要求生成的内容能覆盖规划序列提及的所有属性。
24、进一步地,对bart模型进行改进,将bart模型中所有transformer块的多头注意力模块的k矩阵和v矩阵首部嵌入可训练向量,将第i个头headi的注意力得分计算过程改为:
25、
26、其中,分别表示ki、vi矩阵片段的前缀,[:]表示矩阵的拼接操作。
27、进一步地,改进的bart模型的训练包括:
28、s41、使用prefix-tuning方式为bart模型中的所有transformer块的多头注意力模块的k矩阵和v矩阵首部嵌入可训练向量;
29、s42、以输入的结构化数据对应领域相关的真实短语的向量表征对该领域前缀进行初始化;
30、s43、采用重新参数化,将初始领域前缀向量映射为领域前缀向量;
31、s44、比较改进的bart模型生成的规划序列与输入的结构化数据的真实规划序列之间的差异,迭代更新领域前缀向量。
32、进一步地,在s43中,重新参数化为使用多层感知机mlp将初始化的前缀向量进行映射为可训练向量,重新参数化的过程为:
33、pk=mlpλ(p′k)
34、pv=mlpλ(p′v)
35、其中,pk、pv表示经过mlp映射后的k、v矩阵片段的领域前缀,λ表示mlp引入的参数。
36、进一步地,在s44中,使用交叉熵作为学习目标判断生成规划序列与真实规划序列之间的差距,公式为:
37、
38、其中,φ表示prefix-tuning引入的参数,在训练过程中迭代更新,d表示结构化数据,p表示规划序列,i表示第i个属性名。
39、进一步地,根据规划序列明确原始结构化数据中的重要属性名,得到保留了重要属性名-属性值对的精简数据,用于代替结构化数据参与后续步骤。
40、本发明提供的基于规划引导大语言模型的数据到文本的生成方法,与现有的数据到文本生成方法,具有如下有益效果:
41、(1)本发明将复杂的结构化数据到文本生成任务拆分成规划生成和文本生成两部分,使大语言模型能够胜任,并减轻了大语言模型的幻觉现象,增强生成结果的可控性;
42、(2)本发明设计了允许人为干预和定制规划的细节,实现了对生成内容的细粒度控制,进一步提升了生成的灵活性和可控性。
43、(3)本发明无需耗费大量资源,相较于直接微调大模型或者使用思维链方法和提示词挖掘工作更加简单且有效。
本文地址:https://www.jishuxx.com/zhuanli/20240919/299648.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。
下一篇
返回列表