author:魏静崎
2024年2月20日
研究方向:虚假信息检测
本周工作内容:
1、阅读论文[1] Liu Y , Wu Y F B .FNED: A Deep Network for Fake News Early Detection on Social Media[J].ACM Transactions on Information Systems, 2020, 38(3):1-33.DOI:10.1145/3386253.
三个主要组成部分:
状态敏感的反馈特征提取器
一个位置感知注意机制
一个多区域均值池化机制
在文章的早期阶段,社交行为有限,因此将任务规定为基于前k个交互进行检测,k是截止时间。使用恰当的填充可将绝对时间的检测截止时期转换为社交交互度量的截止日期。
为了研究用户特征是否能够反映用户传播虚假新闻的倾向,将所有社交媒体用户分为六组:
源用户是最初在社交媒体上发布新闻文章的用户
欺诈性源用户是最初发布过一个或多个虚假新闻文章的源用户
合法的源用户是从未发布任何虚假新闻文章的源用户
转发者是在社交媒体上转发新闻文章的用户
欺诈性转发者是转发过一个或多个虚假新闻文章的转发者
合法的转发者是从未转发过任何虚假新闻文章的转发者
状态敏感的反馈特征提取器:
在给定的文章中,先收集其状态敏感的社交评论,每个评论都是文本和用户资料的组合。然后特征提取器从状态敏感的社交交互中提取文本和用户特征,每个社交交互都与发起的用户资料相关联,社交反应和其对应的用户资料组合形成状态敏感的社交交互。对于每个社交交互,用Text-CNN提前文本特征,并从用户状态中通过嵌入快提取用户特征,然后将其连接形成特征图。
![[1706537899436.png]]
一个位置感知注意机制:
特定用户在特定位置上的特殊评论可以更显著地反应一篇文章的真实性,检测模型学习如何给于每个状态敏感的用户评论多少关注。方法考虑了数据序列中每个数据点的排列位置。
多区域平均池化:
可以从整个特征图中捕捉不同粒度的聚合特征,如果真实可用的社交评论数小于k,要进行零填充,多区域平均池化只有非零的中间特征向量会被平均,平均池化后m个中间特征向量会被展平,然后连接成一个单一的中间特征向量。
PU-Learning Framework:
在该框架中,训练数据包括一系列正样本(假新闻)和远多于正样本的未标记样本,在未标记样本中,正未标记样本应小于负样本数量。
首先对未标记的新闻样本进行欠采样,从未标记的新闻样本中随机选择一组伪真新闻样本,其数量与正样本的数量相同。在伪真新闻样本和正样本的组合训练新闻分类模型的一个实例,训练过程中,我们将伪真新闻样本视为真实新闻样本。模型训练过程的结果是一个弱分类器。我们重复这个欠采样和模型训练过程k次,产生k个弱分类器。平均它们的输出来集成这k个弱分类器,以生成一个强分类器。
然后,使用这个强分类器来对未标记的新闻样本进行分类。将机器标记的假新闻样本追加到正标记的假新闻样本中,以更新正标记的假新闻样本的集合,再次重复欠采样、弱分类器训练、集成分类和正样本更新的过程。通过将具有高置信度的机器标记的假新闻与正(假)新闻样本扩展,可以构建一个更大的训练数据集,以在下一次迭代中训练更好的分类器。
![[1706540944188 1.png]]
但是由于一些错误的标签会带来噪声,因此当在验证集上五次准确率没有提升则提前停止。
结果:![[1706541144555 1.png]]
- 本文作者: 魏静崎
- 本文链接: https://slightwjq.github.io/2024/03/04/周报15/
- 版权声明: 该文章来源及最终解释权归作者所有