1. 首页 > 热点

奇葩新闻真实 2021.数据集申请表单:Forms

单位:中国科学院计算技术研究所、中国科学院大学

会议:ACM CIKM 2021

类型:Full Paper

预印版: - and Fact-based Fake News via Model

正式版: - and Fact-based Fake News via Model

代码库: - /Pref-FEND: to the code and in the paper, " - and Fact-based Fake News via Model ", CIKM 2021.

数据集申请表单: Forms一、背景介绍

在过去的十多年中,社交媒体出现的虚假信息造成了政治、经济和社会层面的诸多危害,最近的例子莫过于2020年伴随COVID-19蔓延的“信息疫情”()。在这种严峻的形势下,检测虚假新闻对维护可信的在线新闻生态至关重要。

现有的自动虚假新闻检测方法主要利用内容(文本或图像)和社交上下文(如用户信息、群众反馈、传播模式等)区分虚假新闻与真实新闻。本文主要关注基于文本内容的虚假新闻检测,这些方法可以被大致分为两类:

这两类模型的本质区别在于对文本线索的利用角度不同,即它们拥有不同的文本偏好。下图展示了一条关于“上海12331接受狗肉馆举报”的不实信息。

理想情况下,基于模式信息的模型会更多地关注到这条消息的写法,比如频繁、连续地使用叹号,使用“好消息”或“¥500”这种容易吸引读者的字眼,而不关心这条消息中的新闻要素(如地点、事件等)。换言之,将上海换成北京,或狗肉换成猫肉,基于模式信息的模型应当保持预测的准确性。

相反,基于事实信息的模型会关注到这段话究竟说了什么,而不关心这条消息是怎么写的。它需要利用其中的关键要素(如“上海”、“12331”、“狗肉馆”)来搜寻相关证据,并根据证据中提到的“12331不接受狗肉馆举报”[1],进行综合判断。即便这条消息平铺直叙,不使用情绪化的字眼,基于事实信息的模型也应当保持预测的准确性。

从上述示例来看,这两类方法从不同的角度观察了互联网虚假新闻,其捕捉的信息具有互补性,如果将它们结合起来,可以涵盖更多的情形,提高整体检测性能。然而,目前还没有工作考虑将这两种方法整合起来。在本文中,我们首次尝试“整合模式和事实信息的虚假新闻检测”。整合中最大的挑战在于,现实模型很难避免受到非偏好信息的干扰:一个基于模式信息的模型可能“记住”了某些事件相关的用词,一个基于事实的模型也可能因为格式的相似性(部分假新闻有装作正规新闻的倾向)而被误导。

本文主要考虑了两个问题:

为此,本文提出了模型偏好感知的虚假新闻检测框架Pref-FEND(-aware Fake News )。该框架通过异构动态图卷积网络( GCN)生成词项级模式偏好分布( Map)和事实偏好分布(Fact Map),并使用生成的分布引导对应偏好的检测模型。模型输出的偏好感知特征最终被融合,用于预测给定帖子是否是虚假新闻。

二、Pref-FEND1.整体框架

给定待检测消息 P ,Pref-FEND首先根据预定义的词典或模型将P中的词项分为三组:风格词、实体词和其它词。这三组词被送入偏好学习器( ),即异构动态图卷积网络,分别生成模式偏好分布和事实偏好分布。完整消息P和模式偏好分布被一同送入基于模式信息的模型(-based Model),产生偏好感知特征 \{\{p}} 。类似地,P和事实偏好分布被一同送入基于事实信息的模型(Fact-based Model),产生特征 \{\{f}} 。 \{\{p}}和 \{\{f}}拼接后经过最后的MLP层,即得到Pref-FEND对P是否是假新闻的预测结果。

2.偏好分布生成

假设 P 中有 n 个词项,偏好分布被定义为一个含有 n 个 [0,1] 内实数的序列,其中第 i 个数表示i个词项被对应检测模型偏好的程度。本文中,我们希望通过基于图神经网络的方法得到模式偏好分布和事实偏好分布

\{\{m_P}}=[\{m_{P}}_i]_{i=1}^n,\{\{m_F}}=[\{m_{F}}_i]_{i=1}^n.

由于偏好分布本质是一个词项级权重分配,故其所有偏好得分总和为1。

2.1 引入先验知识

尽管我们一直在提“模式信息”和“事实信息”,动机案例也给出了对这两类信息具象的认识,但实践中仍然缺少一套广泛适用的操作步骤奇葩新闻真实,来从文本中找出模式信息和事实信息。一种直接的方法便是直接从模型中学习,靠真假新闻分类标签“远程监督”,端到端搞定。但这样做存在一定的过拟合风险:我们先前讨论的模型均为理想模型——基于模式便“坚决”基于模式,能够做到对事实信息的天然免疫。但实际中的模型难免数据集偏差造成的干扰,面对训练集偏差造成的捷径很难“抵抗诱惑”。因此,我们决定在端到端学习之外,加入先验知识,给偏好分布的生成提供一个好的起点,在此基础上针对两类方法的实际情况进行细调。

模式信息往往体现在抽象表达要素上,如风格、情感等。我们将这类特征词统称为风格词( )作为模式信息先验。具体地,我们基于大连理工大学情感本体库[2]等公开资源,匹配了$P$​中的否定词、程度词、情感词、主张词、表情符、情绪本体词、标点符号、人称代词等,用这些词构成了风格词集合 S=\{s_i\}_{i=1}^{n_s} ​。而事实信息的体现更加直接:一个可以验证的说法一般都含有实体词(人造事实核查数据集FEVER的众包标注流程中也有类似的规范要求)。因此,我们使用了百度LAC[3]和腾讯[4]这两个公开工具提取了 P ​中的实体词,构成了实体词集合 E=\{e_i\}_{i=1}^{n_e} 。不属于上述两个集合的词构成了其它词集合 T=\{t_i\}_{i=1}^{n_t} ​。

2.2 动态图卷积网络

基于上述三个集合,我们需要做到:(1)根据风格词和实体词,为其它词生成偏好得分;(2)根据语境调整所有词项的偏好得分。为做到上述两点,我们需要让文本中所有词项与其它词项尽可能产生联系和交互。此时我们想到了图神经网络:将词项作为结点,边权就可以代表词项之间联系的紧密程度。如果边权是动态可学习的,那么这种紧密程度就可以根据语境进行调整。此外,我们希望风格词和实体词在交互中能“知晓并保持自身身份”,需要把分组信息体现在图上学习中。

为此,我们基于已有工作[5],设计了异构动态图卷积网络( GCN,):每一层图卷积操作都是分组操作的,体现了异构性;词项之间的连边权重会根据最新的表示进行调整,体现了动态性。

我们使用BERT获取了词项表达,用于初始化节点表示。连边权重的初始化使用了余弦相似度(约束到[0,1]区间)。此外,我们对图的关联矩阵进行了行规范化并计算了度矩阵。

异构性:假设 \{\{H}}_\tau^{(l)} ​是类型 \tau ​(即风格、实体、其它)节点第 l ​层的表示,那么第 l+1 ​层特征为

\{\{H}}^{(l+1)} = \{ReLU}\left(\sum_{\tau \in \{T}} \{\{\hat{A}}}^{(l)}_{\tau}\{\{H}}^{(l)}_{\tau}\{\{W}}^{(l)}_{\tau}\right)

其中 \{\{\hat{A}}}^{(l)}_{\tau} 是规范化关联矩阵 \{\{\hat{A}}}^{(l)} 的子矩阵奇葩新闻真实,包含所有节点与类型 \tau 节点的关联度。

动态性:计算得到第l+1 ​层特征后,我们使用以下公式更新关联矩阵

\Delta\{\{A}}^{(l+1)} = \sigma\left(\{\{H}}^{(l+1)}\{\{W}}_A^{(l+1)}\{\{H}}^{(l+1)T}\right), \{\{A}}^{(l+1)} = \alpha \{\{A}}^{(l)} + (1-\alpha) \Delta\{\{A}}^{(l+1)}

其中 \{W}_A^{(l+1)} 是可学习矩阵,用于将特征转换为关联矩阵更新量 \Delta\{\{A}}^{(l+1)} ,为了保证关联度的稳定性,我们使用了移动平均来更新关联矩阵。

2.3 读出偏好分布

在经过 L 层计算后,我们得到关联矩阵 \{\{A}}^{(L)} ​。我们期望该矩阵可以反映各个词项之间在该上下文中的关联程度。对于第 i 个节点,其模式偏好得分 \{m_{P}}_i ​是该节点与所有非实体词节点关联度之和

\{m_{P}}_i=\sum_{j=1}^{n}\{\{A}}^{(L)}(i,j) - \sum_{k=1}^{n_e}\{\{A}}^{(L)}_E(i,k)

类似地,其事实偏好得分 \{m_{F}}_i 是与所有非风格词节点的关联度之和

\{m_{F}}_i=\sum_{j=1}^{n}\{\{A}}^{(L)}(i,j) - \sum_{k=1}^{n_s}\{\{A}}^{(L)}_S(i,k)

最终,约束得到的偏好得分序列和为1,即得到我们需要的模式偏好分布和事实偏好分布

\{\{m_{P}}} = \bigg[\frac{\{m_{P}}_i}{\sum_j{\{m_{P}}_j}}\bigg]_{i=1}^n, \{\{m_{F}}} = \bigg[\frac{\{m_{F}}_i}{\sum_j{\{m_{F}}_j}}\bigg]_{i=1}^n

3.偏好感知的联合虚假新闻检测

Pref-FEND使用注意力机制将偏好分布信息注入检测模型中。基于模式信息的模型的基础结构如一般的文本分类模型相同(易扩展到更复杂的方法),我们只需要将BERT或LSTM的输出 [\{\{p}}_1;\ldots;\{\{p}}_{n}] 使用模式偏好分布加权求和,得到偏好感知向量

\{\{p}} = \sum_{i=1}^n \{m_{P}}_i\{\{p}}_i

基于事实信息的模型输入为 P 和检索得到的相关文档 D (文档序列表示为 [\{\{d}}_1;\ldots;\{\{d}}_{n_f}] ),我们使用事实偏好分布对 P 的表示进行加权

\{\{q}} = \sum_{i=1}^n \{m_{F}}_i\{\{q}}_i

之后将该向量与文档序列表示一同送入模型的推理模块(该模块的实现大多参照NLI任务)

\{\{f}} = \{}(\{\{q}}, [\{\{d}}_1;\ldots;\{\{d}}_{n_f}])

最后,将模式分支得到的 \{\{p}} 和事实分支得到的 \{\{f}} 拼接通过最后的分类器(这里使用MLP实现),即得到联合检测的预测值

\hat{y}=\{MLP}([\{\{p}};\{\{f}}])

4.训练策略

在训练中,我们使用3个损失函数。首先使用了常用的交叉熵,作为二分类问题的监督信号

\{L}_{cls}(y,\hat{y})= \{}(y, \hat{y})

此外,由于模式偏好与事实偏好应当是不太一致的,我们最小化两个偏好分布之间的余弦相似度,即

\{L}_{cos}= \frac{\{\{m_P}}\cdot\{\{m_F}}}{\Vert\{\{m_P}}\Vert\Vert\{\{m_F}}\Vert}

最后,我们设计了一个“反向监督信号”,即将-truth标签进行翻转,同时交换输入两种偏好分布。该函数希望检测模型在收到与自身偏好“背道而驰”的偏好分布时,能够表现得更差,即

\{L}_{cls}(y_{rev},\hat{y}^\prime)= \{}(y_{rev}, \hat{y}^\prime)

其中 y_{rev}=|1-y| ,预测值 \hat{y}^\prime=\{MLP}([\{\{p}^\prime};\{\{f}}^\prime]) 。 \{\{p}^\prime} 和 \{\{f}}^\prime 分别是交换偏好分布后两种检测模型输出的“反向”偏好感知向量。

最后,我们最小化上述三个损失函数的加权和

\{L} = \\{L}_{cls}(y,\hat{y}) + \\{L}_{cos} + \\{L}_{cls}(y_{rev},\hat{y}^\prime)

三、实验1.数据集

由于当前的数据集无法同时提供社交媒体帖子和相关文章,我们基于已有资源整合构建了两个数据集,分别根据帖子来源命名为Weibo和。在Weibo数据集中,我们使用了Weibo-20[6]中的微博文本和检测已核查消息任务数据[7]中的辟谣文章作为相关文档。同时我们还是用百度新闻搜索结果扩充了相关文档集。经过后处理的数据集包含6,362条微博和17,849篇文章。在数据集中,我们合并了三篇文章中的数据(Shaar et al.[8],Vo and Lee[9]和PHEME[10])并使用谷歌新闻接口对相关文档进行了扩充,得到了14,709条推文和12,419篇相关文章。

2.基础模型

我们使用了六种基于文本的方法作为基础模型。基于模式信息的模型包括Bi-LSTM(作为文本编码器广泛出现在本任务模型中,如[11-13])、EANN-Text[14]和BERT-Emo[6],基于事实信息的模型包括[15]、EVIN[16]和MAC[17]。当这些模型被作为Pref-FEND内的检测模型时,我们会使用保留了适当维度的高层特征作为其输出。

3.性能比较

3.1 单偏好比较

为了与上述基础模型公平比较,我们使用了一个简化版本\text{Pref-FEND}_S ,即保留部分和两个偏好分布读出,但是检测部分只有一个分支。由表可知, \text{Pref-FEND}_S 能够提高上述模型的性能,这说明引入偏好信息可以减缓原始基础模型被非偏好信息干扰导致的泛化性问题。

3.2 融合模型比较

我们提出Pref-FEND的最终目的还是希望整合两类模型。我们的实验基于两种组合:Bi-LSTM+(基础组合)、BERT-Emo+MAC(进阶组合)。由于本领域还没有这类组合式基线,我们比较了常见的最后一层融合(Last-layer )和预测值平均( )。由表可知,相比于基本融合方法,Pref-FEND可以带来更好的性能。同时,与单偏好模型比较可知,融合模型可以进一步提升检测效果。

4.偏好分布分析

4.1 哪些词项更受青睐?

为了观察两种偏好分布有何不同,我们分析了分布中常被青睐的高频词。对每个帖子(来自Weibo验证和测试集),我们首先根据偏好得分,将词项分入模式偏好组和事实偏好组,并找出所有帖子中各组高频出现的词项进行人工分析。我们观察到:

模式偏好词集中,标点符号和否定词非常重要,其它词项多与自我表达有关(“认为”、“可能”、“有点”)。事实偏好词集中,证据相关词和实体相关词更容易被关注,例如表示材料和动作的“视频”、“网页”、“图片”、“声明”、“揭露”,以及表示城市或位置的词。两种偏好分布在人称代词的选择上非常不同:这可能是最有趣的一点。模式偏好分布更关注复数人称代词(“我们”、“他们”、“你们”),而事实偏好分布更关注单数人称代词(“他”、“它”、“你”)。我们推测,这是因为拥有明显假新闻模式的帖子经常讨论某些群体或怂恿读者行动起来,而进行事件描述的帖子通常会与具体的人或事物有关。

4.2 案例分析

我们观察了三条被Pref-FEND(使用Bi-LSTM和作为基础模型)成功判断的假新闻。第一条传达了强烈的情绪信号(如“”和“”),更容易被模式偏好模型关注,因此Bi-LSTM判断正确,而判断错误。第二条包含了大量的地点信息和事件描述,对使用了证据文本的事实偏好模型更加友好,因此判断正确,而Bi-LSTM判断错误。两种单偏好模型都将第三条预测为真新闻,这可能是由于非偏好信息对这些模型的负面影响,而Pref-FEND通过偏好建模,对单偏好模型(模块)进行了一定的引导,有效缓解了上述现象。

四、结论与未来工作展望

本文提出了偏好感知框架Pref-FEND,用于整合基于模式信息和事实信息的虚假新闻检测模型。学习得到的偏好分布可以引导模型更加关注其理想情形下的偏好部分,并减轻非偏好部分的干扰。在新构建的中文微博和英文数据集上的实验表明,Pref-FEND中的偏好学习可以帮助模型更加聚焦,既能提高单偏好(-based or fact-based)模型的性能,也能提高联合(-and-fact-based)模型的性能。在下一步工作中,我们将关注如何增强偏好分布生成与具体检测模型之间的交互,以及如何将该框架扩展到多类、多偏好情景中。此外,寻找更好的先验或脱离手工设计先验的引导,也有希望提高模型的泛化性和灵活性。

[1] "国家食品药品监督局集中受理狗肉馆举报"是谣言--社会--人民网

[2] Xu et al. the . of the China for and , 2008.

[3] - baidu/lac: 百度NLP:分词,词性标注,命名实体识别,词重要性

[4] : A Text and

[5] Hu et al. Graph for Semi- Short Text . EMNLP- 2019.

[6] Zhang et al. Dual for Fake News . WWW 2021.

[7] Qiang Sheng et al. by - Key for Fact- . ACL- 2021.

[8] Shaar et al. That is a Known Lie: Fact- . ACL 2020.

[9] Vo and Lee. Where Are the Facts? for Fact- to the of Fake News. EMNLP 2020.

[10] Elena et al. All-in-one: Multi-task for . 2018.

[11] Han Guo et al. Rumor with . CIKM 2017.

[12] Hamid and Tang. -level for Fake News . NAACL 2019.

[13] et al. Truth of : in Fake News and Fact-. EMNLP 2017.

[14] Wang et al. EANN: Event for Multi-Modal Fake News . KDD 2018.

[15] Popat et al. : Fake News and False using -Aware Deep . EMNLP 2018.

[16] Wu et al. for Claim . AAAI 2021.

[17] Vo and Lee. Multi-head for -aware Fake News . EACL 2021.

专栏相关文章:

本文采摘于网络,不代表本站立场,转载联系作者并注明出处:http://www.9iwh.cn/redian/35321.html