论文阅读 - FedACK: Federated Adversarial Contrastive Knowledge Distillation for Cross-Lingual

论文:FedACK: Federated Adversarial Contrastive Knowledge Distillation for Cross-Lingual and Cross-Model Social Bot Detection

论文链接:https://arxiv.org/pdf/2303.07113.pdf

代码链接:GitHub - 846468230/FedACK: The code for paper "Cross Platforms Linguals and Models Social Bot Detection via Federated Adversarial Contrastive Knowledge Distillation." on Web Conference 2023 (WWW).

摘要

        社交机器人检测对于在线社交平台的弹性和安全性至关重要。最先进的检测模型是孤立的,在很大程度上忽略了来自多个跨语言平台的各种数据特征。同时,数据分布和模型结构的异构性使得设计一个有效的跨平台和跨模型检测框架变得非常复杂。

        在本文中,我们提出了一个新的联邦对抗性对比知识提取框架 FedACK,用于社交机器人检测。

        我们设计了一种基于 GAN 的联邦知识蒸馏机制,用于在客户端之间有效地传输数据分布的知识。特别是,全局生成器用于提取全局数据分布的知识,并将其提炼到每个客户端的本地模型中。

        我们利用本地鉴别器来实现定制模型设计,并使用本地生成器对难以判定的样本进行数据增强。

        局部训练作为多阶段对抗和对比学习进行,以在客户端之间实现一致的特征空间并约束局部模型的优化方向,减少局部和全局模型之间的差异。实验表明,FedACK 在准确性、通信效率和特征空间一致性方面优于最先进的方法。

1 简介

        社交机器人模仿 Twitter、Facebook、Instagram 等社交网络上的人类行为 [43]。数以百万计的机器人,通常由自动化程序或平台 API [1] 控制,试图伪装成潜入真实用户以追求恶意目标,例如积极参与选举干扰 [11、17]、错误信息传播 [8]、和隐私攻击 [37]。机器人还参与传播极端意识形态 [3、18],对在线社区构成威胁。社交媒体平台上的用户体验受到损害,并且会引发不利的社会影响,因此需要有效的机器人检测。

        机器人检测中存在一个尚未被充分研究的新问题——机器人社会往往会暴露在多个社交平台上,并表现为协作群体。现有的机器人检测解决方案在采用基于图形的技术探索邻域信息之前,很大程度上依赖于从元数据 [9, 41] 中提取的用户属性特征,或从文本数据(例如推文 [15, 39])中提取的特征[ 14 , 42 , 46 ]。虽然此类模型可以揭示伪装行为,但它们是孤立的,并且受平台特定数据的数量、形状和质量的影响。为此,在不公开本地私有数据集的情况下,联邦学习 (FL) 已成为跨异构平台进行模型训练的主要驱动力。一些研究 [32、44、45、49] 通过生成对抗网络 (GAN) 和知识蒸馏 (KD) 以无数据的方式增强 FL,以保护隐私免受入侵。但是,它们具有以下限制:

        i) 对同构模型架构的限制。由于 FL 模型在每个客户端的基础上假设同质模型架构——但不再适用——严格要求参与者遵守由中心服务器管理的相同模型架构。因此,当务之急是使每个单独的平台能够根据独特的数据特征定制异构模型;

        ii) 不一致的特征学习空间。最先进的联帮 KD 方法主要基于图像样本并假定一致的特征空间。然而,全局和局部数据分布之间的差异往往会导致不可忽略的模型漂移和不一致的特征学习空间,进而导致性能损失。非常希望在不同客户端之间对齐特征空间以提高全局模型性能.

        iii) 对内容语言的敏感性。迄今为止,基于文本数据的异常检测方法对模型所基于的语言很敏感。在线社交网络中跨语言内容检测的现有解决方案要么大幅提高计算成本 [10、13、50],要么需要劳动密集型特征工程来识别跨语言不变特征 [7、12、36].可以说,如何将各种具有不同语言的异构数据的定制模型纳入协同模型以实现一致的特征学习空间仍未得到充分探索。

        本文提出了 FedACK,一种通过联合对抗学习、对比学习和知识蒸馏的新型机器人检测框架。FedACK 设想在不同语言的一致特征空间中实现本地模型的个性化(见图 1)。

(将多个社交平台与异构语言、上下文空间和模型架构结合起来)

         我们提出了一种新的基于联合 GAN 的知识蒸馏架构——一个全局生成器用于提取全局数据分布的知识,并将知识提取到每个客户端的本地模型中。

        我们精心设计了两个鉴别器——全局共享的和本地的——以实现定制模型设计,并使用本地生成器对难以确定的样本进行数据增强.

        具体来说,每个客户端的局部训练被视为一个多阶段的对抗性学习过程,以有效地将数据分布知识传递给每个客户端并学习一致的特征空间和决策边界。

        我们进一步利用对比学习来约束局部模型的优化方向,并减少局部模型和全局模型之间的差异。

        为了跨多平台复制非 IID 数据分布,我们使用了两个真实世界的 Twitter 数据集,按 Dirichlet 分布划分。

        实验表明,FedACK 在准确性方面优于最先进的方法,并实现了有竞争力的通信效率和一致的特征空间.

贡献

        据我们所知,FedACK 是第一个基于联邦知识蒸馏的社交机器人检测解决方案,它设想跨语言和跨模型机器人检测。

        对比和对抗性学习机制,用于在处理非独立同分布数据和客户之间的数据稀缺时实现一致的特征空间,以实现更好的知识转移和表示.

        FedACK 优于其他基于 FL 的方法,在高异质性场景中准确率提高了 15.19%,并且相对于第二快的方法实现了高达 4.5 倍的收敛加速。

2 预处理

2.1 背景

联合学习 (FL)。

        FL是一种分布式学习范例,允许客户端在聚合之前执行本地训练,而无需共享客户端的私人数据 [4,22,27,28,30]。

        虽然很有前途,但 FL 的性能可能较差,尤其是在训练数据时在本地设备上不是独立同分布的 (Non-IID) [25, 47],这可能会使模型偏向局部最优 [20]

        大多数现有作品主要分为两类。

        首先是引入额外的数据或使用数据增强来解决由非 IID 数据引起的模型漂移问题。FedGAN [32] 训练GAN以有效的通信方式解决非IID数据问题,但不可避免地会产生偏差。FedGen [49]和 FedDTG [45]利用生成器来模拟全局数据分布,以提高性能。

        第二类主要关注局部正则化。 FedProx [25] 在本地训练中添加了一个优化项,SCAFFOLD [20] 使用控制变体来纠正本地更新中的客户端漂移,同时保证更快的收敛速度。FedDyn [2] 和 MOON [24] 通过比较模型表示之间的相似性来约束局部模型更新的方向,以对齐局部和全局优化目标。然而,这些方法要么直接模型聚合以获得导致不可忽略的性能恶化的全局模型[35],要么忽略数据异质性的影响,这可能导致模型聚合过程中局部数据分布的知识丢失。

联合知识蒸馏 (KD)。        

        首先引入KD, 使用紧凑模型来近似较大模型学习的功能 [5]。知识正式称为软化逻辑,在典型的 KD 中,学生模型吸收并模仿教师模型的知识 [19]。KD天生对FL是有益的,因为它需要更少或不需要数据就能使模型可以阐明数据分布。Feddistill [33]共同完善了通过模型向前传播获得的用户数据的逻辑,并形成了全局知识蒸馏,以减少全局模型漂移问题。FedDF [26]提出了用于模型fusion的集合蒸馏,并通过本地模型的平均逻辑来训练全局模型。FedGen [49] 结合每个本地模型的平均logit作为KD中的老师来训练全局生成器。FedFTG [44]使用每个局部模型的logit作为教师来训练全局生成器并通过使用全局生成器生成的伪数据来提炼知识以微调全局模型。然而,它们都没有专注于实现一致的特征空间,这将导致无效的知识传播。迄今为止,FL 和 KD 在社交机器人检测中基本上被忽视了,这是以孤立的方式进行调查的 [8]。FedACK 可以通过使用共享鉴别器和独占鉴别器增强对抗性学习来填补这一空白,以支持指定的跨模型机器人检测。

社交网络中的跨语言内容检测。

        通过社交机器人在不同语言的社交网络上发布虚假或误导性内容已成为常态而非例外。[7, 12] 通过寻求跨语言不变特征探索了跨语言内容检测的可能性。还有大量关于跨语言文本嵌入和模型表示的研究 [10、13、29、31、50],用于检测仇恨言论、假新闻或异常事件。这些工作通常需要付出巨大的努力来寻找数据中的跨语言不变量,因此计算效率低下。虽然Infoxlm [6]可以在FedAck中应用于我们的跨语言模块,但它可能仅在社交平台中仅几个主流语言来涉及额外的开销。 FedAck通过将跨语性文本映射到相同的上下文空间中实现了文本嵌入。

2.2 问题范围

        我们考虑联合社交机器人检测设置,其中包括一个中央服务器和 K 个持有私有数据集 {D1, . . . , DK }。这些私人数据集包含良性账户和不同代的机器人。据推测,不同的客户端存在不同的模型架构或参数。 FedACK 专注于元数据和文本数据,而不是多模态数据。该服务器没有收集原始客户端数据,而是解决了跨客户端的异质数据分布,并汇总了共享网络的模型参数。目标是最大限度地减少所有客户之间的总体误差:

其中 L 是损失函数,用于评估 的数据样本上的预测模型k个客户端。

3 方法论

        如图 2 所示,FedACK 由跨语言映射、主干模型和联邦对抗性对比 KD 组成。

猜你喜欢

转载自blog.csdn.net/qq_40671063/article/details/130658984
今日推荐