论文阅读:Fake News Detection on Social Media:A Data Mining Perspective

问题背景

当前的社交媒体由于具有成本低、访问易、传播快、社交参与度高等特点,吸引着越来越多的人从中获取和消费新闻,但这也同时给假新闻的快速传播创造了条件。对于社会,假新闻会扰乱整个新闻系统的生态,使得偏见深入人心;而对于每个个体,假新闻和真新闻的交织会让人感到困惑,逐渐丧失分辨真伪的能力。为了尽量减少假新闻给个人和社会带来的消极影响,社交媒体上的假新闻检测这一新兴研究领域得到了越来越多的关注。

问题难点

和依靠传统媒体进行传播的假新闻相比,社交媒体上的假新闻具有一些全新的特点,这使得传统的检测算法难以高效地完成任务。这些挑战一方面来源于新闻内容的刻意诱导,比如具有多样的主题、风格、发布平台,甚至会假信息中带真事实,极大地增加了检测的难度,这使得检测时不能仅仅基于传统的文本特征检测方法,还要依赖于一些辅助信息例如知识库和用户的社交活动来做出判断;另一方面,利用辅助信息本身也并不是一件容易的事情,因为虚假新闻针对的往往是时效性极强的新鲜新闻,相关的知识可能还没来得及在知识库中得到更新,并且社交活动产生的数据本身就是庞大、易于缺失、充满噪声的非结构化数据,从中提取到有效特征,充分利用网络结构中的信息是非常有挑战性的一件事。

假新闻重定义

传统上来说,假新闻的定义有狭义和广义之分,狭义的假新闻有真实性和意图这两个主要特征,分别从内容和动机上做了规定,真实性指的是新闻内容是不真实的,是假的信息,而意图指的是编造者有着误导读者的不诚实意图。而广义上的假新闻并不要求同时满足这两个特征,只需要满足一个即可,比如说讽刺文学或者恶作剧等等。论文针对的对象是狭义的假新闻,其定义为**“假新闻是蓄意编造出来的不满足真实性的新闻文章”**。按照此定义,讽刺新闻、谣言、阴谋论、无意产生的错误信息、恶作剧等等都被排除在假新闻之外。

引入符号和公式

  • a a 代表一篇新闻,它可以看做由发布者信息和具体内容两部分构成,分别用 p a \vec{p_a} c a \vec{c_a} 来表示,前者包含姓名、领域、年龄等用来描述作者个人信息的特征,后者则包含了标题、正文图片等用来描述新闻内容的信息。

  • 对于新闻 a a ,定义传播它的n个用户构成的集合为 U = { u 1 , u 2 , , u n } U=\{u_1, u_2, \dots,u_n\} , 他们对应发出的帖子集合为 P = { p 1 , p 2 , , p n } P=\{p_1, p_2, \dots,p_n\} ,每一个传播事件用元组 e i t = { u i , p i , t } e_{it}=\{u_i, p_i, t\} 来表示,含义为用户 u i u_i 在时间 t t 发布了帖子 p i p_i 来传播新闻 a a 。如果未被传播,则 t = N u l l t=Null u i u_i 代表新闻的发布者。论文用元组构成的集合$ \varepsilon = {e_{it}} 来表示新闻 a$的传播过程。

  • ϝ \digamma 为需要学习的检测函数,则检测目标可写为下图公式所示的二分类任务:

在这里插入图片描述

检测框架

假新闻检测的通用数据挖掘架构可以分为特征提取和模型构建两个部分。

特征提取
  • 语言层面(Linguistic-based)

    • 写作风格:一般采取具有煽动性的语言。
    • 语言特征:标题党,标题具有诱惑性,吸引读者点击。
    • 词法特征(lexical features):包含了字母层次和词层次,比如所有单词、每个单词的字母、常见单词的出现频率、独特的单词等。
    • 语法特征(syntactic features):句子层面,比如功能词和短语的频率或标点符号和词性标记。
    • 新闻领域的语言特征(domain-speci c linguistic features):引用词、外部链接、图片数量、图片的平均数量等等。
  • 视觉层面(Visual-based)

    • 视觉特征(visual features):清晰度,相干性,相似性分布直方图,多样性值和聚类值。

    • 统计特征(statistical features):计数,图像比,多图像比,热图像比,长图像比。

  • 社交层面(Social Context Features)

    • 用户特征(User-based)
      • 个人级别(individual level):通过注册年龄,关注者/被跟随者的数量,用户创作的推文的数量等来推断用户的可信度(是真人还是机器人)。
      • 群组级别(group level):捕获与新闻相关的用户组的整体特征,通常通过聚合来得到,比如跟随者的平均数量等等。
    • 发帖特征(Post-based)
      • 帖级别(post level):利用主题模型发掘帖子中体现的发帖人对于新闻的立场和态度。
      • 组级别(group level):聚合与新闻相关的所有帖子的特征,比如计算平均可信度。
      • 时间级别(temporal level):捕捉随着时间变化,帖子各项指标的变化情况。
    • 网络特征(Network-based):在发帖用户中构建网络来提取相关特征。
模型构建
  • 新闻内容模型(News Content Models)

    • 基于知识(Knowledge-based)
      • expert-oriented:依赖于特定的人类领域专家来调查(对智力水平要求较高且效率低,不切合实际)。
      • crowdsourcing-oriented:众包方法,利用群众的智慧,允许普通人对新闻进行注释,并进行汇总和评估。
      • computational-oriented:面向算法的方法,首先提取新闻中的知识,然后判断是否能够由已有的知识图谱推导出来。
    • 基于风格(Style-based)
      • Deception-oriented:面向欺骗性的深层语法检测(PCFG)或者是修辞结构检测,深层网络结构例如CNN有时也会应用到。
      • Objectivity-oriented:面向客观性的基于语言特征的极端党派风格检测或者从标题入手的黄色新闻(耸人听闻的新闻)检测。
  • 社交背景模型(Social Context Models)

    • 基于立场(Stance-based)
      • 利用来自相关帖子内容的**明确的(explicit)**用户观点来推断原始新闻文章的准确性。明确的立场是情感或观点的直接表达,例如赞或者踩。
      • 利用LDA模型从用户帖子中提取出**潜在的(implicit)**立场,具体可分为支持、中立和反对。
    • 基于传播(Propagation-based)
      • 同质可信网络(homogeneous credibility networks):由单一类型的实体组成,例如帖子或事件
      • 异质可信网络(heterogeneous credibility networks):涉及不同类型的实体,例如帖子,子事件和事件

可用数据集

共有四个公开可用的数据集:BuzzFeedNews, LIAR, BS Detector, CREDBANK,并且它们每一个都存在着自己的局限性,比如BuzzFeedNews只包含标题和正文内容且来自数目有限的几个新闻机构;LIAR 只有个人言论而不是正规的新闻;BS Detector 的标签是模型预测得出,而不是专家评估,因此准确性存疑;CREDBANK 是有关推特的数据集而不是新闻。除此之外,正如图一所示,并没有一个数据集能够提供论文中提到的所有潜在特征。

在这里插入图片描述

图1:不同数据集的特征比较

作者正在开发一个全新的称之为 F a k e N e w s N e t 20 FakeNewsNet^{20} 的数据集,它将具有可靠的真假新闻标签,并具有作者在文中提到的所有与新闻内容和社交背景相关的特征。

评估指标

可以把虚假新闻检测看成是一个二分类问题,其四个基础的评估指标为

  • 真阳性(True Positive/TP):预测为fake news 且实际是fake news
  • 真阴性(True Negative/TN):预测为true news 且实际是true news
  • 假阳性(False Positive/FP):预测为fake news 但实际是true news
  • 假阴性(False Negative/FN):预测为true news 但实际是fake news

从这些指标出发,可以进一步推导出如下评估指标,这几种预测指标都是数值越大,预测效果就越好

  • 精确率(Precision):计算预测出来的某类样本中,有多少是被正确预测的,针对预测样本而言

在这里插入图片描述

  • 召回率(Recall):计算预测出来的某类样本中,有多少是被正确预测的,针对原先实际样本而言

在这里插入图片描述

  • F1值(F1 Score):统计学中用来衡量二分类模型精确度的一种指标。它同时兼顾了分类模型的精确率和召回率。F1分数可以看作是模型精确率和召回率的一种加权平均,它的最大值是1,最小值是0

在这里插入图片描述

  • 准确率(Accuracy):预测正确的样本数与总样本数之比

在这里插入图片描述

还可以使用ROC曲线与AUC值作为评估标准

  • ROC曲线(Receiver Operating Characteristics curve)提供了一种通过查看负正类率(false postive rate FPR)和真正类率(true postive rate TPR)来衡量分类器好坏的依据。其中FPR沿X轴绘制,TPR沿Y轴绘制。ROC曲线越靠拢(0,1)点,越偏离45度对角线越好。

在这里插入图片描述

  • AUC(Area Under the Curve)值为ROC 曲线所覆盖的区域面积,显然,AUC越大,分类器分类效果越好。 并且AUC常用于不平衡的分类问题上,很实用于虚假新闻检测。

    • AUC = 1,是分类完全准确
    • 0.5 < AUC < 1,AUC 越大,分类效果较好,有预测价值。
    • AUC = 0.5,跟随机分类一样,模型没有预测价值。
    • AUC < 0.5,比随机分类还差;但只要将分类结果调转,则优于随机分类。

相关领域

谣言检测(Rumor Classification)

主要可分为谣言检测(判断是否是谣言),谣言追踪(收集和追踪讨论特定谣言的帖子),立场分类(确定相关帖子的立场)和真实度分类这四个子任务, 与假新闻检测最相关的任务是谣言真实度分类(其实我感觉谣言检测更相关一些)。

真相发现(Truth Discovery)

从多个新闻来源中分辨出正确的信息源。但依赖于多角度信息源的采集,如果假新闻发布时间早,或者只有少数新闻媒体新发布和发布假新闻,则难以检测。

标题党检测(Clickbait Detection)

往往文不对题,可以通过假新闻检测中的语言特征学习来识别标题和新闻内容之间的不一致性。

垃圾邮件和机器人检测(Spammer and Bot Detection)

垃圾邮件发送者检测的现有方法主要依赖于从用户活动和社交网络信息中提取特征,而机器人检测方法基于社交网络信息,差异特征。而这与假新闻检测中用到的特征相一致。

未来研究

面向数据
  • 数据集(dataset):现有的基准数据集没有一个拥有所有类型的特征,因此创建一个全面的,大规模的假新闻基准数据集很有必要。
  • 时间(temporal):进行早期假新闻检测,在传播过程中提供假新闻的早期警报,防止其在社交媒体上进一步传播
  • 心理学(psychological):社会心理学相关的定性研究很成熟,但定量研究尚不充分,比如回音室效应就可以进一步研究如何利用。此外许多已有算法仅关注新闻的真实性,忽视了新闻发布者的意图,因此可以探究如何使用数据挖掘方法捕捉心理学意图。
面向特征
  • 新闻内容(news content):使用基于语言和基于视觉的特征,前者已经在相关领域应用地非常广泛,但后者还有待进一步研究。
  • 社交背景(social context):前文分别引入了用户特征、发帖特征和网络特征。其中现有的用户特征抽取方法主要关注普通的用户文档,以后可以进一步按类型区分用户再分别提取特征。发帖特征可以用CNN来抽取。网络特征的发展方向之一是根据相关用户和发帖之间关系的不同方面来构建其他网络;另一方面是使用网络嵌入等等更为先进的方法。
面向模型
  • 有监督(supervised):提取到的有效特征经过聚合或投影之后用于有监督分类模型中,比如朴素贝叶斯、决策树、逻辑回归、k 近邻(KNN)和支持向量机(SVM),然后选出表现最好的分类器或者通过模型集成获得更好的结果。
  • 半监督(semi-supervised)或无监督(unsupervised):有监督方法需要人工标注样本,费时费力,为了更实用可以考虑应用半监督或者无监督模型。
面向应用
  • 虚假新闻传播(fake news diffusion):描述了社交媒体网站上假新闻的传播路径和模式,并发现它与真新闻传播过程中的不同之处,需要考虑的特征有社会维度,生命周期,传播者身份等。
  • 虚假新闻干预(fake news intervention):通过主动干预方法减少假新闻的影响,比如删除发布假新闻的恶意账户,或者是推送相关的真新闻,修正读者已经被假新闻影响的思想。

读后个人思考

在阅读这篇论文之前,我以为里面的主要内容就是单纯的文本处理,介绍一些自然语言处理相关的模型之类。但它实际的广度和深度远远超过了我的想象,作者从传播学、社会学、心理学等角度旁征博引,论证了社交领域上的假新闻与传统假新闻在内容、传播、影响等方面完全不可等同视之,因此也不能照搬后者仅仅基于文本的检测方法,而要从多方面着手,从用户的社交信息,新闻的标题、传播事件的网络特征等充分发掘信息,对新闻的真假进行判断,令人耳目一新,既有创新性又有说服力。由此看来,要写出一篇优秀的论文,有时仅仅懂得本专业的知识是不够的,还要将不同专业的知识深刻理解融会贯通。

除此之外,作者的写作思路也很值得学习,逻辑严谨层次清晰,对假新闻检测做了非常全面的分析,读完之后结构就印在了脑子里,不像以前读的某些论文分层混乱,同一种东西翻来覆去在不同地方说。

当然作者写这篇文章的出发点可能在于从理论上提出一种全新的思路,因此并没有做一些细节上的解释或者论证。比如说在一开始就给出了一系列和新闻传播相关的符号表示,但是之后就再也没提起过,有种虎头蛇尾的感觉。而且虽然看起来作者提出的特征更加全面更加有效,但他毕竟没有和传统的模型做过定量的比较,因此在说服力上还是欠缺了一点。除此之外,作者在有些地方详略不当,比如关于模型的度量指标就完全没必要写得太细,像ROC和AUC已经是学界非常熟悉的指标,没有必要从头开始太过详细地说明和推导。

当然,论文中提出的一些方法在我看来还是有着改进的余地的,比如说有一些特征是分割开来考虑的,在我看来完全可以合并考虑,比如用户特征和发帖特征就可以综合考虑,对于某个帖子,既要对它本身的立场和态度进行分析,也要对发布它的用户进行可信度判断。

再比如,任何一个平台上,真新闻肯定都是占绝大多数的,因此数据集很可能会出现样本不均衡的状况,因此有必要在训练时对此做一些调整和优化。

除此之外,论文中对人工审核持否定态度,其实小范围的人工审核是完全可以的,比如预测模型会输出新闻是假的概率,如果概率值和0.5很接近,就可以把这种数据交给人工判断,打完标签之后再加入训练的数据集中,加强模型对这种新闻的判断能力。

最后我有一个不成熟的新想法,就是能否训练一个生成新闻的GAN,它由生成新闻的生成器和识别是否为假新闻的判别器组成,然后就可以把判别器拿出来单独作为假新闻的检测模型。这样还可以有效地起到扩充数据集,为以后的研究打好数据基础的作用。

猜你喜欢

转载自blog.csdn.net/jining11/article/details/103077966