author:魏静崎
2023年11月27日
研究方向:虚假信息检测
本周工作内容:
1、阅读论文Farhangian F, Cruz R M O, Cavalcanti G D C. Fake news detection: Taxonomy and comparative study[J]. Information Fusion, 2023: 102140.
文章是一篇对虚假新闻检测任务中基于文本内容的方法进行比较的综述性文章。
文章将假新闻分为纯粹的假新闻和故意且可验证虚假的文章,定义2是存在误导性的。
新闻特征分为内容特征和社交特征
内容特征:基于文本、基于风格、基于视觉、基于知识。
社交特征:基于用户、基于帖子、基于网络。
语言特征:单词、词组、句子与真实新闻不同的特征
低秩文本特征:使用张量或矩阵分解,从大规模特征矩阵中提取小规模文本表示
神经文本特征:依赖于密集向量表示
完整过程
预处理
主要步骤:
标准化:文本中术语转为标准形式
去除停用词:去除无用的词
去除标点:
词干提取:
特征提取
基于计数的方法:
无法捕获具有意义的信息。
BOW:仅描述词频
TF-IDF:有额外的重要性权重分配
基于预测的方法:
独立上下文的:
Word2Vec、
FastText:使用N-gram将每个句子表示为一组字符,得到每个词的嵌入向量,可以更好地处理词汇表外的词语。
依赖上下文的:
上下文预训练模型的最大优势是无监督的双向系统。
ELMO:基于双向LSTM模型
BERT:BERT预训练过程包括MLM和NSP
MLM预测了一定比例的随机屏蔽输入的token,因此可捕捉屏蔽词的句法和语义含义,减少pre-training与fine-tuning阶段的差异
NSP:用于理解句子间的关系
RoBERTa:是BERT经过优化的鲁棒预训练方法,移除了对下一个句子的预测
ALBERT:是BERT的轻量版,通过词嵌入将参数分解为两个较小的矩阵;通过交叉层参数共享,减少了参数的数量;引入SOP句子顺序预测,用于衡量句子一致性。
XLNet:是Transformer-XL的扩展,基于广义的自回归预训练语言模型,避免了BERT的缺陷(自注意力机制中的信息流动限制、掩码语言模型训练时的信息遮蔽)
分类算法
基于传统机器学习的:
KNN:对无关特征和数据集大小都很敏感
SVM:有良好的泛化性能,通过核Kernal将点线性可分
NB:无法对文本中单词交互进行建模
集成模型:最常用的是Bagging的变体和Boosting
RandomForest:每个模型使用不同的样本(带替换地抽取),最终产生一组不同的模型,以减少模型的方差,提高性能。
AdaBoost:每个分类器都基于先前的分类器进行迭代。
XBGoost:是用于学习端到端可拓展树增强系统的梯度增强算法的优化实现。
深度学习模型:
CNN:卷积神经网络(卷积、非线性、池化))
LSTM:创建一个任时间长度的记忆单元解决RNN长序列的梯度消失和梯度爆炸问题
Transformers:使用自注意力机制对输入数据加权,通过并行计算对单词之间的重要性和关系建模从而计算注意力分数。
比较研究
四个基准数据集(Liar、ISOT、GM、COVID)都转化为二分类。
Q1:特征提取方法对模型性能的影响是什么
Q2:使用Transformer作为特征学习比微调是否能获得更好地性能
Q3:结合特征提取方法会提高检测任务的性能吗
Q4:哪种方法更有成本效益
![[1701087873603.png]]
使用LLaMA作为特征向量的SVM最佳,基于特征的方法好过基于微调的
![[1701087990894.png]]
具有上下文相关特征表示的BiLSTM在二分类中最优,再多类别的Liar中,SVM最优。
用Transformer作为特征表示技术比微调的性能更好
![[1701088602549.png]]
除BiLSTM外,使用不同的特征提取方法不能降低误分类率,BiLSTM有更好地区分能力,BiLSTM随着特征提取的增加,误差减少最为明显。
![[1701088628762.png]]
结合不同的特征表示技术训练具有提高检测性能的潜力
![[1701088878320.png]]
左上角的成本效益最高。
虚假消息检测方法面临的一个重大挑战是内容的多样性。换句话说,虚假消息以各种内容格式呈现,包括文本、照片、视频和语音。因此,这种多样性需要灵活的检测方法。快速传播是虚假消息检测面临的另一个重大挑战。因此,鉴于虚假消息在社交媒体平台上的迅速传播速度,迅速识别的需求是显而易见的。此外,现在使用人工智能技术创造虚假消息的人具有创新能力和适应能力,这增加了另一层困难。不充足的训练数据、在识别虚假消息时的上下文敏感性的复杂性、语言和文化多样性,以及算法中存在的偏见,进一步加剧了困难。此外,多类虚假消息检测的挑战仍然存在,特别是当类别重叠时。
下周研究内容:
- 本文作者: 魏静崎
- 本文链接: https://slightwjq.github.io/2023/12/11/周报10/
- 版权声明: 该文章来源及最终解释权归作者所有