一种基于集成学习的AI生成新闻鉴别方法
- 国知局
- 2024-12-06 13:05:22
本发明实施例涉及数据处理,尤其涉及一种基于集成学习的ai生成新闻鉴别方法。
背景技术:
1、目前,基于生成式的大型语言模型显示出前所未有的能力,如chatgpt已经席卷了世界,它能够编写连贯和相关的长篇文本,以响应用户指定的提示。然而,由于ai生成的文本可能缺乏真实的事实依据,其中的信息可能是虚假或误导性的,这可能会导致读者被误导或产生错误的认知。例如,不法分子使用chatgpt生成相关民生方面新闻,制造假消息以散播谣言等,这些行为会对社会和谐造成不良的影响。此外,由于在线新闻门户和社交媒体网站上的信息呈现爆炸式增长,辨别真假新闻已经变得更加困难,虚假新闻的广泛传播可能会引发社会恐慌、不安和混乱,对整个社会造成严重的负面影响。现有的人工智能文本检测方案的检测效率和结果并不理想。
2、可见,亟需一种识别效率、精准度和适应性强的基于集成学习的ai生成新闻鉴别方法。
技术实现思路
1、有鉴于此,本发明实施例提供一种基于集成学习的ai生成新闻鉴别方法,至少部分解决现有技术中存在识别效率、精准度和适应性较差的问题。
2、本发明实施例提供了一种基于集成学习的ai生成新闻鉴别方法,包括:
3、步骤1,将样本新闻文本集输入随机森林模块,分别进行tf-idf向量化、bert向量化和附加特征提取;
4、步骤2,将tf-idf向量化、bert向量化和附加特征提取后的特征向量进行拼接,得到拼接特征向量;
5、步骤3,利用拼接特征向量训练随机森林模块;
6、步骤4,将待检测新闻文本输入训练好的随机森林模块,得到第一概率值;
7、步骤5,将待检测新闻文本输入基于首段续写的文本一致性模块,计算第一平均相似度和第一平均对数概率比;
8、步骤6,将待检测新闻文本输入基于中心句重写的文本一致性验证模块,计算第二平均相似度和第二平均对数概率比;
9、步骤7,根据第一概率值、第一平均相似度、第一平均对数概率、第二平均相似度和第二平均对数概率进行加权求和,得到综合评分并据此生成待检测新闻文本的鉴别结果。
10、根据本发明实施例的一种具体实现方式,所述步骤1具体包括:
11、步骤1.1,统计样本新闻文本集中文本的每个单词的词频,然后乘以一个逆文档频率的权重,最终将每个文本表示为一个稀疏的特征向量,其中特征向量每个维度对应一个单词,值表示该单词在文本中的重要程度;
12、步骤1.2,使用bert模型将样本新闻文本集中文本转换成固定维度的特征向量;
13、步骤1.3,提取样本新闻文本集中与文本结构和内容信息相关的文本特征。
14、根据本发明实施例的一种具体实现方式,所述步骤3具体包括:
15、步骤3.1,利用拼接特征向量训练随机森林模块,并计算随机森林模块的损失函数,其中,所述损失函数的表达式为
16、
17、其中,是随机森林模块的总损失函数n为样本总数,是每个单独样本的损失函数,其中是第i个样本的实际标签,是随机森林模块对第i个样本输入的预测输出,使用参数集合;
18、步骤3.2,基于损失函数,采用网格搜索策略找寻随机森林模块的最优参数集合,其中,所述网格搜索策略的表达式为
19、
20、其中,表示在k折交叉验证过程中对于给定的参数集合计算得到的平均损失;
21、步骤3.3,采用k折交叉验证方法验证最优参数集合,得到训练好的随机森林模块,其中,所述k折交叉验证方法的表达式为
22、
23、其中,k表示交叉验证中的折数,表示在第k折数据上,使用参数集合的损失。
24、根据本发明实施例的一种具体实现方式,所述第一概率值的表达式为
25、
26、其中,代表待检测新闻文本为ai生成的第一概率值,代表随机森林模型在训练中得到的最佳模型,用于将待检测新闻文本转换成一个向量。
27、根据本发明实施例的一种具体实现方式,所述步骤5具体包括:
28、步骤5.1,提取待检测新闻文本的首段内容,并将其输入到大语言模型中,生成续写文本;
29、步骤5.2,计算续写文本与待检测新闻文本的内容相似度和词汇相似度,其中,所述内容相似度的表达式为
30、
31、所述词汇相似度的表达式为
32、
33、其中,与分别代表与的词汇集合;
34、步骤5.3,根据内容相似度和词汇相似度计算综合相似度,其中,所述综合相似度的表达式为
35、
36、其中,与分别代表内容相似度和词汇相似度的权值;
37、步骤5.4,利用大语言模型计算续写文本相对于待检测新闻文本的对数概率比
38、
39、其中,是续写文本的概率,是待检测新闻文本的概率;
40、步骤5.5,分别调用多个大语言模型执行步骤5.1至步骤5.3,得到第一平均相似度,以及,分别调用多个大语言模型执行步骤5.4,得到第一平均对数概率比,其中,所述第一平均相似度的表达式为
41、
42、所述第一平均对数概率比的表达式为
43、
44、其中,n表示所使用大语言模型的个数。
45、根据本发明实施例的一种具体实现方式,所述步骤6具体包括:
46、步骤6.1,利用大型语言模型提取待检测新闻文本的中心句,然后据此重新生成字数相近的重写文本;
47、步骤6.2,计算重写文本与待检测新闻文本的内容相似度和词汇相似度,其中,所述内容相似度的表达式为
48、
49、所述词汇相似度的表达式为
50、
51、其中,与分别代表与的词汇集合;
52、步骤6.3,根据内容相似度和词汇相似度计算综合相似度,其中,所述综合相似度的表达式为
53、;
54、步骤6.4,利用大语言模型计算重写文本相对于待检测新闻文本的对数概率比
55、
56、其中,是重写文本的概率,是待检测新闻文本的概率;
57、步骤6.5,分别调用多个大语言模型执行步骤6.1至步骤6.3,得到第二平均相似度,以及,分别调用多个大语言模型执行步骤6.4,得到第二平均对数概率比,其中,所述第二平均相似度的表达式为
58、
59、所述第二平均对数概率比的表达式为
60、
61、其中,n表示所使用大语言模型的个数。
62、根据本发明实施例的一种具体实现方式,所述综合评分的表达式为
63、
64、其中,代表综合评分,、、、、分别代表第一概率值、第一平均相似度、第一平均对数概率、第二平均相似度和第二平均对数概率各自的权值。
65、本发明实施例中的基于集成学习的ai生成新闻鉴别方案,包括:步骤1,将样本新闻文本集输入随机森林模块,分别进行tf-idf向量化、bert向量化和附加特征提取;步骤2,将tf-idf向量化、bert向量化和附加特征提取后的特征向量进行拼接,得到拼接特征向量;步骤3,利用拼接特征向量训练随机森林模块;步骤4,将待检测新闻文本输入训练好的随机森林模块,得到第一概率值;步骤5,将待检测新闻文本输入基于首段续写的文本一致性模块,计算第一平均相似度和第一平均对数概率比;步骤6,将待检测新闻文本输入基于中心句重写的文本一致性验证模块,计算第二平均相似度和第二平均对数概率比;步骤7,根据第一概率值、第一平均相似度、第一平均对数概率、第二平均相似度和第二平均对数概率进行加权求和,得到综合评分并据此生成待检测新闻文本的鉴别结果。
66、本发明实施例的有益效果为:通过本发明的方案,基于续写和生成预测的自一致性,结合了随机森林、文本特征提取、大模型生成、相似度计算、平均对数概率比、tf-idf和bert等多种技术手段,整合多个基础分类器的预测结果,利用集成学习的协同效应,提高了对ai生成文本识别的准确率与鲁棒性。
本文地址:https://www.jishuxx.com/zhuanli/20241204/343200.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。