author:魏静崎
2024年5月22日
研究方向:虚假信息检测
本周工作内容:
1、阅读论文 Koloski B , Perdih T S , Robnik-Sikonja M ,et al.Knowledge graph informed fake news classification via heterogeneous representation ensembles[J].Neurocomputing, 2022.
该论文是通过知识图谱的异构表示对假新闻检测进行增强。(周报12的论文也是知识图谱增强)
该论文先对已有文本的文体特征和语义分析特征以及文本特征进行提取。
语义特征:对预处理后的文本生成词性标签,然后使用两种不同的n-gram进行加权得到特征表示并通过SVD进行特征降维。
文本特征:基于Transformer架构的RoBERTa进行嵌入表示。
然后对使用RotatE进行知识图的嵌入表示。
RotatE可以将知识图中的实体和关系映射到低维的向量空间,其可以通过旋转来捕捉关系之间的复杂性和非线性特征。
然后使用GraphVite库对概念和实体进行映射,将数据中出现的概念C以K-G图的形式结合起来,最后使用等权重的聚合构建最终表示。
![[1716351754103.png]]
![[1716352371617.png]]
2、阅读论文 Paka W S , Bansal R , Kaushik A ,et al.Cross-SEAN: A Cross-Stitch Semi-Supervised Neural Attention Model for COVID-19 Fake News Detection[J]. 2021.DOI:10.48550/arXiv.2102.08924.
该论文收集了有标签和无标签的两种数据集,然后分析了文章中存在的tag、情感、点赞数对新闻真假的影响。
![[1716352502773.png]]
该模型使用的数据考虑了推文和用户的附加特征,如:
推文:tag数量、收藏转发数,URL数等
用户:认证状态,关注/被关注数,推文数等
Cross-SEAN:
![[1716352688059.png]]
文本数据编码:文本表示为一个one-shot向量,然后通过词嵌入转换为一个稠密张量,使用双向LSTM进行编码。
推文和用户特征的编码:先通过单独线性并插值到高维密集向量,然后通过cross-stitch单元进行组合,并在网络中共享。
训练时的损失是有监督和无监督的加权和:
![[1716353018650.png]]
然后通过对抗性训练,使模型具有一定鲁棒性,提高其泛化性能。
Cross-stitch模块:- 《Cross-stitch Networks for Multi-task Learning》2016
性能比较:
![[1716353086261.png]]
半监督和有监督的比较:
![[1716353097339.png]]
传播特征和文本特征先融合(融合后使用注意力机制的效果更好),最后再和用户特征进行融合效果更好
![[1716353155537.png]]
- 本文作者: 魏静崎
- 本文链接: https://slightwjq.github.io/2024/09/26/周报22/
- 版权声明: 该文章来源及最终解释权归作者所有