author:魏静崎
2023年12月4日
研究方向:虚假信息检测
本周工作内容:
1、阅读论文Jamshidi B, Hakak S, Lu R. A Self-Attention Mechanism-Based Model for Early Detection of Fake News[J]. IEEE Transactions on Computational Social Systems, 2023.
文章针对新闻的早期检测,具体而言是4h。
在新闻的传播树中,每个新闻及其转发引用回复视为一个级联。
传播特征:
节点级特征:
基于用户:是否已验证(无效用户更容易传播虚假新闻)、粉丝量、关注量。
基于推文:用户内容撰写的差异,对假新闻和真实新闻的反应。
基于时间:用户注册时间,发布推文或转发时间。
累积特征:必须截断传播树分支,会丢失传播信息,为弥补将这些信息以累计特征的形提供给模型。
累计用户特征:包含参与新闻文章传播的所有用户信息。
累计文本特征:推文的语言和书写风格信息。
累计时间特征:代表了新闻的时间传播模式特性。
基于内容特征:从新闻内容中提取代表真假新闻的语言差异。
在截断传播网络过程中:若模型传播网络超过一百个级联,则选择最短的100个认为其更有价值(以往认为越长包含的信息越多)。
最终,生成的传播网络序列长为500,每个元素11个值,之后累计特征和基于内容的特征形成两个具有11个值的向量替换序列的最后两个元素,通常为无效元素。
自注意力分类器:
利用位置编码为每个元素的投影添加一个位置向量。因此,模型可以看到输入序列中存在的时间顺序。Transformer位置编码更改以便添加到每个级联节点的地址向量从头开始。
就其余节点而言,越具有信息性,这个机制(在有位置嵌入的输入序列发到编码层之前,生成一个掩码,使注意力机制不将注意力分配给值为-1的填充节点)分配的注意力越多。
实验使用了两个数据集,三个混合模型进行对比,效果优于绝大部分,三个基准模型使用了全部的传播网络。
![[1701698696427.png]]
下周研究内容:
- 本文作者: 魏静崎
- 本文链接: https://slightwjq.github.io/2023/12/11/周报11/
- 版权声明: 该文章来源及最终解释权归作者所有