author:魏静崎
2024年3月4日
研究方向:虚假信息检测
本周工作内容:
1、阅读论文de Souza M C, Gôlo M P S, Jorge A M G, et al. Keywords attention for fake news detection using few positive labels[J]. Information Sciences, 2024: 120300.
文章提出了在PU-LP中整合一个关注机制,可以定义网络中哪些术语对假新闻检测更相关,使用了最新的图注意网络GNEE,降低了正标签和无标签学习的标记成本。
关键词关注PU-LP:
1、使用PU-LP算法获取网络和一组真实和虚假标记的节点
2、通过简单词袋策略和关键词摘要工具Yake!提取相关术语
3、使用GNEE进行新闻分类,使用统计量选择网络包含相关关键词
GNEE专注于网络的正则化,其根据所有相关新闻的连接计算术语节点的嵌入,在正则化过程结束时,网络中的所有节点将在相同的特征空间内具有表示。最后GAT通过利用网络结构、相关术语的特征和最初的标记集,学习高质量低维度的嵌入。GAT隐含地学习哪些相邻节点的表示将在分类特定新闻时更为重要,并用其进行假新闻表示。
![[1709558470512.png]]
本文模型KAFN-PULP:用Doc2Vec预处理,创建K-NN矩阵,表示新闻间的连接,用余弦相似度确定了在图中直接连接时,两顶点时候属同类,使用Katz指数,考虑相似度来分配标签。然后利用相似性矩阵和数据集计算出结果传给二院半监督传导算法。
katz指数:Katz 指标可以区分不同的邻居节点不同的影响力。Katz 指标给邻居节点赋予不同的权重, 对于短路径赋予较大的权重, 而长路径赋予较小的权重。
在网络中添加相关的关键词:以往的论文表明,通过简单词袋策略选择术语,PU-LP分类性能有所提高。关键词提取使用Yake!,其根据文档的统计信息评估术语的重要性,它可能特别适用于减少插入网络的关键词数量,更准确地选择术语并降低成本。该算法生成一个关键词列表,得分越低,相关性越大。因此,要在文档和术语之间插入新的连接,对权值进行归一化。最后,将归一化的网络传给GNEE(基于与之相关的新闻计算术语的表示),后用GAT进行分类。
用GNEE进行半监督分类:在多样的网络中,GNEE利用图正则化来创建组件嵌入。它将事件的文本特征传播到这些新表示中,同时确保所有节点存在于相同的特征空间中。此外,GNEE利用图拓扑结构、特征向量和标签信息,通过图注意力网络GAT促进低维度嵌入学习。正则化阶段的主要思想是所有的特征向量将位于相同的F空间中。然后利用注意力机制在半监督图中学习嵌入,图注意力网络的一个重要步骤是在注意力机制中考虑新闻和术语之间的关系。最后由GNEE生成的低维嵌入送到最终层。
该文章的数据集使用了包含英语、葡萄牙语的数据集。
最终结果表明,包含许多词汇并因此增加网络中的关系数量并不总会提高性能。
真实新闻倾向于提供更丰富的具体数据信息。
注意力机制和术语结合可以很好地在特征空间上区别真假新闻。
必须针对每个数据集调整关注头的数量才能更好地适应每种类型新闻的复杂性。
- 本文作者: 魏静崎
- 本文链接: https://slightwjq.github.io/2024/03/04/周报17/
- 版权声明: 该文章来源及最终解释权归作者所有