基于结构对抗网络的传播冷启动虚假新闻检测方法及系统
- 国知局
- 2024-07-31 23:15:27
本发明涉及数据挖掘,具体涉及一种基于结构对抗网络的传播冷启动虚假新闻检测方法及系统。
背景技术:
1、近年来,社交平台的飞速发展为新闻的快速传播提供了便利,但同时也滋生了大量的虚假新闻及其广泛传播,为网络生态带来了巨大的危害和负面影响,严重影响了社会安定和人们日常生活。因此,面对海量的新闻,如何实现自动化的虚假新闻检测是社交网络分析领域中一个迫切需要的研究课题,有重要的研究意义和现实应用意义。
2、信息内容为识别虚假新闻提供了语义级别的线索,有研究表明,虚假新闻相比真实新闻具有更快、更广的传播,因此,许多研究者结合信息在社交媒体的传播信息(如转发、评论等),通过挖掘其中的时序或拓扑结构特征,实现更准确的虚假新闻检测。相比仅利用信息内容的检测方法,提取相关的结构拓扑属性,有利于挖掘更多具有辨识力的特征提升虚假新闻检测性能。
3、然而,在实际应用时,当传播结构数据的获取通常需要大量的人力和计算资源,并且在新突发事件中,很难得到信息的传播结构数据。面向传播结构完全缺失即仅包含信息内容的极端情况,这些融合传播结构的检测模型因无法捕捉有效的结构特征,其识别虚假新闻的性能将受到极大制约。
4、本发明的主要针对的是传播结构完全缺失的冷启动条件下的虚假新闻检测,即在训练阶段充分利用可用的多源信息如信息源和传播树学习通用传播结构知识,在测试阶段利用训练好的模型,能够成功识别传播结构完全缺失的冷启动信息。现有的虚假新闻检测系统在训练阶段往往会从传播树中捕获了信息丰富的序列和拓扑结构特征。这种特定的结构特征虽然可以结合传播树和内容更准确地识别虚假新闻,但对传播树完全缺失的目标信息会产生误判影响。
技术实现思路
1、本发明的目的是提出一种基于结构对抗网络的传播冷启动虚假新闻检测方法及系统,学习传播结构与内容之间的可迁移特征,以提升仅含内容样本的虚假新闻检测性能。
2、为实现上述目的,本发明提供的技术方案如下:
3、一种基于结构对抗网络的传播冷启动虚假新闻检测方法,包括以下步骤:
4、获取社交网络的新闻内容数据及其传播结构数据,构建训练数据集;
5、将训练数据集的新闻内容数据通过内容编码模块提取得到语义级隐表示;
6、将训练数据集的新闻内容数据及其传播结构数据通过传播结构编码模块提取得到结构级隐表示;
7、将得到的语义级隐表示、结构级隐表示通过结构判别模块预测当前的隐表示是否包含结构属性的概率;
8、将得到的语义级隐表示、结构级的隐表示通过虚假新闻分类模块预测新闻的类别标签概率;
9、对抗训练内容编码模块、传播结构编码模块、结构判别模块和虚假新闻分类模块的网络参数;
10、训练完成后,将待检测的新闻内容数据通过内容编码模块提取得到语义级隐表示,将语义级隐表示通过虚假新闻分类模块预测是否为虚假新闻。
11、进一步地,内容编码模块选用预训练语言模型bert。
12、进一步地,传播结构编码模块选用图卷积神经网络模型gcnfn、双向图卷积网络模型bigcn或不确定性感知传播结构重建模型upsr。
13、进一步地,以传播结构对抗联合损失作为优化目标进行对抗训练,该传播结构对抗联合损失的计算步骤包括:
14、计算虚假新闻分类模块对应的虚假新闻分类损失其中y是真实的虚假新闻标签分布,为目标新闻的类别标签概率,θ是内容编码模块和传播结构编码模块的网络参数,θcls是虚假新闻分类模块的网络参数;
15、计算结构判别模块对应的结构判别损失其中yd是真实的表示是否包含结构属性的标签分布,为当前隐表示是否包含结构属性的概率,θ是内容编码模块和传播结构编码模块的网络参数,θd是结构判别模块的网络参数;
16、根据上述两种损失计算传播结构联合对抗损失lsan=lcls(θ,θcls)-ld(θ,θd)。
17、进一步地,在对抗训练时,在内容编码模块、传播结构编码模块与结构判别模块之间添加梯度反转层。
18、进一步地,在对抗训练时,将训练数据集分成两个子集,一个子集dtrain包含新闻内容数据和传播结构数据的完整样本,另一个子集只包含新闻内容数据的冷启动样本,优化的目标函数为其中λ是一个权衡超参数,分别表示基于子集dtrain、计算的传播结构对抗联合损失。
19、一种基于结构对抗网络的传播冷启动虚假新闻检测系统,包括:
20、数据采集与预处理模块,用于在训练阶段从社交网络获取新闻内容数据和传播结构数据,在使用阶段从社交网络获取新闻内容数据;
21、特征编码模块,包括内容编码模块和传播结构编码模块,内容编码模块用于从新闻内容数据提取得到语义级隐表示,传播结构编码模块用于从传播结构数据提取结构级隐表示;
22、结构判别模块,用于根据语义级隐表示、结构级的隐表示预测是否包含结构属性的概率;
23、虚假新闻分类模块,用于根据语义级隐表示、结构级的隐表示预测新闻的类别标签概率;
24、传播结构对抗训练模块,用于对抗训练内容编码模块、传播结构编码模块、结构判别模块和虚假新闻分类模块中的网络参数;
25、其中,传播结构编码模块、结构判别模块和传播结构对抗训练模块仅参与训练阶段。
26、进一步地,内容编码模块选用预训练语言模型bert,传播结构编码模块选用图卷积神经网络模型gcnfn、双向图卷积网络模型bigcn或不确定性感知传播结构重建模型upsr。
27、进一步地,传播结构对抗训练模块以传播结构对抗联合损失为优化目标来训练各个模块的网络参数。
28、进一步地,在训练阶段,特征编码模块与结构判别模块之间还设有梯度反转层。
29、本发明的技术方案具有以下优点:
30、1、本发明无需针对新闻传播构建完整可用的传播树,更适用于真实世界的检测需求。
31、2、本发明在各个模块训练完成后,在进行虚假新闻检测时,不再依赖于传播结构数据,可以在不存在传播结构的情况下及时识别虚线新闻信息,能够突破现有虚假新闻检测系统需获取传播结构数据的技术瓶颈。
32、3、本发明能够利用训练数据所包含的以往信息传播中隐含的结构知识,增强传播结构冷启动样本的检测,对历史数据的利用率更高。
33、4、本发明引入结构判别模块,通过对抗训练结构判别模块和虚假新闻分类模块,能够提高整个检测系统对于传播结构特征和语义特征的泛化能力,提升在传播冷启动场景中的检测性能。
技术特征:1.一种基于结构对抗网络的传播冷启动虚假新闻检测方法,其特征在于,包括以下步骤:
2.如权利要求1所述的方法,其特征在于,内容编码模块选用预训练语言模型bert。
3.如权利要求1所述的方法,其特征在于,传播结构编码模块选用图卷积神经网络模型gcnfn、双向图卷积网络模型bigcn或不确定性感知传播结构重建模型upsr。
4.如权利要求1所述的方法,其特征在于,以传播结构对抗联合损失作为优化目标进行对抗训练,该传播结构对抗联合损失的计算步骤包括:
5.如权利要求4所述的方法,其特征在于,在对抗训练时,在内容编码模块、传播结构编码模块与结构判别模块之间添加梯度反转层。
6.如权利要求4所述的方法,其特征在于,在对抗训练时,将训练数据集分成两个子集,一个子集dtrain包含新闻内容数据和传播结构数据的完整样本,另一个子集只包含新闻内容数据的冷启动样本,优化的目标函数为其中λ是一个权衡超参数,分别表示基于子集dtrain、计算的传播结构对抗联合损失。
7.一种基于结构对抗网络的传播冷启动虚假新闻检测系统,其特征在于,包括:
8.如权利要求7所述的系统,其特征在于,内容编码模块选用预训练语言模型bert,传播结构编码模块选用图卷积神经网络模型gcnfn、双向图卷积网络模型bigcn或不确定性感知传播结构重建模型upsr。
9.如权利要求7所述的系统,其特征在于,传播结构对抗训练模块以传播结构对抗联合损失为优化目标来训练各个模块的网络参数,该传播结构对抗联合损失的计算步骤包括:
10.如权利要求8所述的系统,其特征在于,在训练阶段,特征编码模块与结构判别模块之间还设有梯度反转层。
技术总结本发明公开了一种基于结构对抗网络的传播冷启动虚假新闻检测方法及系统,涉及数据挖掘技术领域。本发明获取社交网络的新闻内容数据和传播结构数据,通过内容编码模块、传播结构编码模块分别提取得到语义级隐表示、结构级隐表示,再通过结构判别模块预测当前的隐表示是否包含结构属性的概率,通过虚假新闻分类模块预测新闻的类别标签概率;基于传播结构对抗联合损失优化目标对抗训练各个模块的网络参数,训练完成后用于传播冷启动的虚假新闻检测。本发明拜托了对传播结构数据的依赖,能够利用以往信息传播中隐含的结构知识增强传播冷启动新闻检测能力,更适用于实际场景的虚假新闻检测。技术研发人员:卫玲蔚,胡斗,周薇,虎嵩林受保护的技术使用者:中国科学院信息工程研究所技术研发日:技术公布日:2024/7/29本文地址:https://www.jishuxx.com/zhuanli/20240730/196656.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。
下一篇
返回列表