大语言模型黑盒溯源方法、系统及存储介质与流程
- 国知局
- 2024-07-31 23:06:43
本发明涉及计算机领域,特别是涉及一种文生文语言模型溯源技术方案,本发明所述溯源技术方案,是指根据大模型生成的文本,判断是何种大模型生成了该段文本。
背景技术:
1、申请人没有检索到本发明所涉及的技术方案,根据检索结果,申请人发现现有技术采用以下二种方案进行溯源。
2、第一种,以gptzero为代表的文本级特征判定器,以困惑度(即文本的随机性)以及一致性(即困惑度的变化)作为之指标进行判断:人类写出的句子前后过度会有随机跳跃,句子长短错落,而语言模型生成的语言随机性更小,句子长短更一致。
3、第二种,以sniffer为代表的模型级特征判定器,其主要原理与文本级特征判定工具类似,都是计算出目标文本的困惑度和一致性,不同的是该类工具会利用不同模型之间语言的对比特征,即构造一个线性分类器,设计出相应的启发式特征对模型进行分类,但其本质还是利用困惑度进行分类。
4、现有技术,除了大模型生成的文本以外,还需要困惑度参数来进行溯源。但在实际运用场景中,一般只能获得大模型输出的文字,而不能获得困惑度参数,导致溯源困难。
5、因此,亟需一种摒弃困惑度参数方案,能单纯依据文字通过语言模型实现文本溯源的方案。
技术实现思路
1、在技术实现要素:部分中引入了一系列简化形式的概念,该简化形式的概念均为本领域现有技术简化,这将在具体实施方式部分中进一步详细说明。本发明的发明内容部分并不意味着要试图限定出所要求保护的技术方案的关键特征和必要技术特征,更不意味着试图确定所要求保护的技术方案的保护范围。
2、本发明要解决的技术问题是提供一种基于模型调整和提示词引导,不需要依赖困惑度参数,单纯依据文字能实现文本溯源的大语言模型黑盒溯源方法、系统及存储介质。所述黑盒是指能对未知类别的模型进行文本溯源。
3、预训练大语言模型:一个经过预训练的大语言模型。
4、量化后大语言模:量化预训练大语言模型的模型。
5、溯源用大语言模型:由量化后大语言模型训练而来的模型。使用时,输入装有文字的提示词,输出溯源结果(哪个大模型/或者是人类生成了这段文本)
6、被测大语言模型:生成待测文字的大语言模型。
7、为解决上述技术问题,本发明提供的大语言模型黑盒溯源方法,包括以下步骤:
8、s1,获取各个被测模型数据并形成指定格式,指定提示词模版,获得先验数据;
9、需要说明的是,被测模型数据数据量越大本发明相对现有技术而言,结果溯源越准确,溯源效率越高,技术效果越显著;
10、s1,获取各个被测大模型数据并形成指定格式,指定提示词模版,获得先验数据;
11、s2,模型训练,包括:
12、加载预训练大语言模型、先验数据和提示词,量化预训练大语言模型获得量化权重和量化常数;
13、在量化后大语言模型的(此处的“量化后基模型”指由量化权重和量化常数组成的新模型)若干个transformer结构的自注意力层的通路输入和输出端,额外并接一个低秩矩阵αl1l2,l1的维度是h*r,l2的维度是r*o,其中h是输入特征的维度,o是输出特征的维度,r是适配器的秩,α表示权重调节参数;
14、冻结量化后大语言模型权重参数,使用先验数据集训练由新增的低质矩阵所形成的网络结构;
15、训练的输出y如式子(b)所示,式中x表示输入矩阵,w0表示原始权重,权重更新时,只更新由至少一个新增低秩矩阵αl1l2所形成的网络参数;
16、y=xw0+αxl1l2 (b)
17、训练时的损失函数的为如式子(c)所示,n是样本数量,c是类别数量,yi,c是实际类别c是否是样本i的标签,i表示样本的索引,通常用来表示数据集中的第i个样本,pi,c是模型对样本i属于类别c的预测概率;
18、
19、对原始自注意力层进行反量化并和额外并接的低秩矩阵进行加权形式的权重融合;
20、s3,使用提示词模板输入溯源用大语言模型,对未知类别的模型文字预测,得到待测文字的模型溯源结果。
21、需要说明的是,本发明所述优选是提供一种申请人认为的最优方案,不应理解为对于该步骤实施的限定。相应的,通过更复杂的算法或步骤也可以实现下述优选方案相同的功能/目的,只是相对申请人提供的方案技术效果略差。
22、优选的,进一步改进所述的大语言模型黑盒溯源方法,被测模型数据指定格式如下:
23、被测模型数据指定格式如下:
24、每条数据应该是一个json对象,包含text和label两个字段;
25、text字段表示单个句子的内容;
26、label字段为该句子的标签,标签用于标注句子是ai模型生成的还是人类生成的。
27、优选的,进一步改进所述的大语言模型黑盒溯源方法,量化权重包括,将模型权重按式(a)进行量化到2字节式(a)中xfp32表示量化前的4字节权重参数,xint8表示量化后的2字节权重参数,round表示对数字进行四舍五入。
28、
29、量化常数包括,对量化常数按式(a)进行量化到2字节,量化常数指式(a)中的
30、优选的,进一步改进所述的大语言模型黑盒溯源方法,对原始自注意力层按式(d)进行反量化,由2字节反量化到4个字节,式(d)中xint8表示2字反节量化前权重参数,xfp32表示4字节反量化后权重参数,q表示在式(a)所描述的量化步骤中,经过量化后的量化常数;
31、xfp32=xint8*1/q (d)
32、额外并接的低秩矩阵按照公式(e)进行加权形式的权重融合,获得溯源用大语言模型的权重w;
33、w=w0+αl1l2 (e)。
34、优选的,进一步改进所述的大语言模型黑盒溯源方法,提示词模板包括对模型的角色进行定义,角色定义中应包含角色类别、角色能力和角色行为三个要素。
35、优选的,进一步改进所述的大语言模型黑盒溯源方法,提示词模板还包括至少一一个示例。
36、在训练时,提示词模板如下:
37、{
38、"system":"{角色定义}+{角色能力}+{角色行为}",
39、"text":"{输入待测文本}",
40、"label":"{输出模型类别}"
41、}
42、在推理时,提示词模板如下:
43、{
44、"system":"{角色定义}+{角色能力}+{角色行为}+{引导语}+{推理示例}",
45、"text":"{输入待测文本}",
46、}
47、为解决上述技术问题,本发明提供一种计算机可读存储介质,其内部存储有一计算机程序,所述计算机程序被执行时用于实现上述任意一项所述大语言模型黑盒溯源方法中的步骤。
48、为解决上述技术问题,本发明提供一种大语言模型黑盒溯源系统,其运行于计算机中,即其能通过计算机编程技术手段和现有的计算机硬件设备实现,包括:
49、先验数据准备模块,其获取各个被测模型数据并形成指定格式,指定提示词模版,获得先验数据;
50、模型训练模块,其执行以下训练,包括:
51、加载预训练大语言模型、先验数据和提示词,量化预训练大语言模型获得量化权重和量化常数;
52、在量化后大语言模型的(此处的“量化后基模型”指由量化权重和量化常数组成的新模型)若干个transformer结构的自注意力层的通路输入和输出端,额外并接一个低秩矩阵αl1l2,l1的维度是h*r,l2的维度是r*o,其中h是输入特征的维度,o是输出特征的维度,r是适配器的秩,α表示权重调节参数;
53、冻结量化后大语言模型权重参数,使用先验数据集训练由新增的低质矩阵所形成的网络结构;
54、训练的输出y如式子(b)所示,式中x表示输入矩阵,w0表示原始权重,权重更新时,只更新由至少一个新增低秩矩阵αl1l2所形成的网络参数;
55、y=xw0+αxl1l2 (b)
56、训练时的损失函数的为如式子(c)所示,n是样本数量,c是类别数量,yi,c是实际类别c是否是样本i的标签,i表示样本的索引,通常用来表示数据集中的第i个样本,pi,c是模型对样本i属于类别c的预测概率;
57、
58、对原始自注意力层进行反量化并和额外并接的低秩矩阵进行加权形式的权重融合;
59、执行模块,其使用提示词模板对未知类别的模型文字预测,得到待测文字的模型溯源结果。
60、优选的,进一步改进所述的大语言模型黑盒溯源系统,先验数据准备模块获取被测模型数据并指定格式如下:
61、每条数据应该是一个json对象,包含text和label两个字段;
62、text字段表示单个句子的内容;
63、label字段为该句子的标签,标签用于标注句子是ai模型生成的还是人类生成的。
64、优选的,进一步改进所述的大语言模型黑盒溯源系统,量化权重包括,将模型权重按式(a)进行量化到2字节式(a)中xfp32表示量化前的4字节权重参数,xint8表示量化后的2字节权重参数,round表示对数字进行四舍五入。
65、
66、量化常数包括,对量化常数按式(a)进行量化到2字节,量化常数指式(a)中的
67、优选的,进一步改进所述的大语言模型黑盒溯源系统,对原始自注意力层按式(d)进行反量化,由2字节反量化到4个字节,式(d)中xint8表示2字反节量化前权重参数,xfp32表示4字节反量化后权重参数,q表示在式(a)所描述的量化步骤中,经过量化后的量化常数;
68、xfp32=xint8*1/q (d)
69、额外并接的低秩矩阵按照公式(e)进行加权形式的权重融合,获得溯源用大语言模型的权重w;
70、w=w0+αl1l2 (e)。
71、优选的,进一步改进所述的大语言模型黑盒溯源系统,提示词模板包括对模型的角色进行定义,提示词模板还包括至少一个示例。
72、本发明至少能实现以下技术效果;
73、1、本发明采用大语言模型微调以及双量化后权重冻结的模型训练再进行反量化的方案,能提高模型训练效率,提高准确度。
74、2、本发明摒弃了现有技术依赖困惑度的大模型溯源方案,解决了现有技术不能单纯依据文字进行大模型溯源的技术问题,采用模型调整和提示词模板装入被溯源文本,实现单纯依据文字进行大模型溯源。
75、3、本发明在提示词模板中增加部分溯源示例,能提高准确性和溯源效率。
本文地址:https://www.jishuxx.com/zhuanli/20240730/196010.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。