技术新讯 > 计算推算,计数设备的制造及其应用技术 > 一种基于集成学习的AI生成新闻鉴别方法 > 正文

一种基于集成学习的AI生成新闻鉴别方法

国知局
2024-12-06 13:05:22

本发明实施例涉及数据处理，尤其涉及一种基于集成学习的ai生成新闻鉴别方法。

背景技术：

1、目前，基于生成式的大型语言模型显示出前所未有的能力，如chatgpt已经席卷了世界，它能够编写连贯和相关的长篇文本，以响应用户指定的提示。然而，由于ai生成的文本可能缺乏真实的事实依据，其中的信息可能是虚假或误导性的，这可能会导致读者被误导或产生错误的认知。例如，不法分子使用chatgpt生成相关民生方面新闻，制造假消息以散播谣言等，这些行为会对社会和谐造成不良的影响。此外，由于在线新闻门户和社交媒体网站上的信息呈现爆炸式增长，辨别真假新闻已经变得更加困难，虚假新闻的广泛传播可能会引发社会恐慌、不安和混乱，对整个社会造成严重的负面影响。现有的人工智能文本检测方案的检测效率和结果并不理想。

2、可见，亟需一种识别效率、精准度和适应性强的基于集成学习的ai生成新闻鉴别方法。

技术实现思路

1、有鉴于此，本发明实施例提供一种基于集成学习的ai生成新闻鉴别方法，至少部分解决现有技术中存在识别效率、精准度和适应性较差的问题。

2、本发明实施例提供了一种基于集成学习的ai生成新闻鉴别方法，包括：

3、步骤1，将样本新闻文本集输入随机森林模块，分别进行tf-idf向量化、bert向量化和附加特征提取；

4、步骤2，将tf-idf向量化、bert向量化和附加特征提取后的特征向量进行拼接，得到拼接特征向量；

5、步骤3，利用拼接特征向量训练随机森林模块；

6、步骤4，将待检测新闻文本输入训练好的随机森林模块，得到第一概率值；

7、步骤5，将待检测新闻文本输入基于首段续写的文本一致性模块，计算第一平均相似度和第一平均对数概率比；

8、步骤6，将待检测新闻文本输入基于中心句重写的文本一致性验证模块，计算第二平均相似度和第二平均对数概率比；

9、步骤7，根据第一概率值、第一平均相似度、第一平均对数概率、第二平均相似度和第二平均对数概率进行加权求和，得到综合评分并据此生成待检测新闻文本的鉴别结果。

10、根据本发明实施例的一种具体实现方式，所述步骤1具体包括：

11、步骤1.1，统计样本新闻文本集中文本的每个单词的词频，然后乘以一个逆文档频率的权重，最终将每个文本表示为一个稀疏的特征向量，其中特征向量每个维度对应一个单词，值表示该单词在文本中的重要程度；

12、步骤1.2，使用bert模型将样本新闻文本集中文本转换成固定维度的特征向量；

13、步骤1.3，提取样本新闻文本集中与文本结构和内容信息相关的文本特征。

14、根据本发明实施例的一种具体实现方式，所述步骤3具体包括：

15、步骤3.1，利用拼接特征向量训练随机森林模块，并计算随机森林模块的损失函数，其中，所述损失函数的表达式为

16、

17、其中，是随机森林模块的总损失函数n为样本总数，是每个单独样本的损失函数，其中是第i个样本的实际标签，是随机森林模块对第i个样本输入的预测输出，使用参数集合；

18、步骤3.2，基于损失函数，采用网格搜索策略找寻随机森林模块的最优参数集合，其中，所述网格搜索策略的表达式为

19、

20、其中，表示在k折交叉验证过程中对于给定的参数集合计算得到的平均损失；

21、步骤3.3，采用k折交叉验证方法验证最优参数集合，得到训练好的随机森林模块，其中，所述k折交叉验证方法的表达式为

22、

23、其中，k表示交叉验证中的折数，表示在第k折数据上，使用参数集合的损失。

24、根据本发明实施例的一种具体实现方式，所述第一概率值的表达式为

25、

26、其中，代表待检测新闻文本为ai生成的第一概率值，代表随机森林模型在训练中得到的最佳模型，用于将待检测新闻文本转换成一个向量。

27、根据本发明实施例的一种具体实现方式，所述步骤5具体包括：

28、步骤5.1，提取待检测新闻文本的首段内容，并将其输入到大语言模型中，生成续写文本；

29、步骤5.2，计算续写文本与待检测新闻文本的内容相似度和词汇相似度，其中，所述内容相似度的表达式为

30、

31、所述词汇相似度的表达式为

32、

33、其中，与分别代表与的词汇集合；

34、步骤5.3，根据内容相似度和词汇相似度计算综合相似度，其中，所述综合相似度的表达式为

35、

36、其中，与分别代表内容相似度和词汇相似度的权值；

37、步骤5.4，利用大语言模型计算续写文本相对于待检测新闻文本的对数概率比

38、

39、其中，是续写文本的概率，是待检测新闻文本的概率；

40、步骤5.5，分别调用多个大语言模型执行步骤5.1至步骤5.3，得到第一平均相似度，以及，分别调用多个大语言模型执行步骤5.4，得到第一平均对数概率比，其中，所述第一平均相似度的表达式为

41、

42、所述第一平均对数概率比的表达式为

43、

44、其中，n表示所使用大语言模型的个数。

45、根据本发明实施例的一种具体实现方式，所述步骤6具体包括：

46、步骤6.1，利用大型语言模型提取待检测新闻文本的中心句，然后据此重新生成字数相近的重写文本；

47、步骤6.2，计算重写文本与待检测新闻文本的内容相似度和词汇相似度，其中，所述内容相似度的表达式为

48、

49、所述词汇相似度的表达式为

50、

51、其中，与分别代表与的词汇集合；

52、步骤6.3，根据内容相似度和词汇相似度计算综合相似度，其中，所述综合相似度的表达式为

53、；

54、步骤6.4，利用大语言模型计算重写文本相对于待检测新闻文本的对数概率比

55、

56、其中，是重写文本的概率，是待检测新闻文本的概率；

57、步骤6.5，分别调用多个大语言模型执行步骤6.1至步骤6.3，得到第二平均相似度，以及，分别调用多个大语言模型执行步骤6.4，得到第二平均对数概率比，其中，所述第二平均相似度的表达式为

58、

59、所述第二平均对数概率比的表达式为

60、

61、其中，n表示所使用大语言模型的个数。

62、根据本发明实施例的一种具体实现方式，所述综合评分的表达式为

63、

64、其中，代表综合评分，、、、、分别代表第一概率值、第一平均相似度、第一平均对数概率、第二平均相似度和第二平均对数概率各自的权值。

65、本发明实施例中的基于集成学习的ai生成新闻鉴别方案，包括：步骤1，将样本新闻文本集输入随机森林模块，分别进行tf-idf向量化、bert向量化和附加特征提取；步骤2，将tf-idf向量化、bert向量化和附加特征提取后的特征向量进行拼接，得到拼接特征向量；步骤3，利用拼接特征向量训练随机森林模块；步骤4，将待检测新闻文本输入训练好的随机森林模块，得到第一概率值；步骤5，将待检测新闻文本输入基于首段续写的文本一致性模块，计算第一平均相似度和第一平均对数概率比；步骤6，将待检测新闻文本输入基于中心句重写的文本一致性验证模块，计算第二平均相似度和第二平均对数概率比；步骤7，根据第一概率值、第一平均相似度、第一平均对数概率、第二平均相似度和第二平均对数概率进行加权求和，得到综合评分并据此生成待检测新闻文本的鉴别结果。

66、本发明实施例的有益效果为：通过本发明的方案，基于续写和生成预测的自一致性，结合了随机森林、文本特征提取、大模型生成、相似度计算、平均对数概率比、tf-idf和bert等多种技术手段，整合多个基础分类器的预测结果，利用集成学习的协同效应，提高了对ai生成文本识别的准确率与鲁棒性。