Lecture d'articles - Découvrir des réseaux coordonnés sur les médias sociaux : méthodes et études de cas

Lien : https://arxiv.org/pdf/2001.05658.pdf

Table des matières

Résumé:

introduction

Méthodes

Étude de cas 1 : Partage de pseudonyme de compte

 Détection de coordination

analyser

Étude de cas 2 : Coordination des images

Détection de coordination

Analyse

Étude de cas 3 : Séquences de hashtag

 Détection de coordination

Analyse

Étude de cas 4 : Co-retweets、

Détection de coordination

Analyse

 Étude de cas 5 : Actions synchronisées

 Détection de coordination

Analyse

Discussion


Résumé:

        Des campagnes coordonnées sont utilisées pour influencer et manipuler les plateformes de médias sociaux et leurs utilisateurs, un sérieux défi pour le libre échange d'informations en ligne.

Approche non supervisée basée sur le réseau

        Ici, nous introduisons une approche générale basée sur un réseau non supervisé pour découvrir des groupes de comptes potentiellement coordonnés. La méthode proposée construit un réseau de coordination basé sur des trajectoires de comportement arbitraires partagées entre les comptes.

Détecter les comptes Twitter coordonnés

        Nous fournissons cinq études de cas de campagnes d'influence, dont quatre ont été menées dans le contexte des élections américaines, des manifestations à Hong Kong, de la guerre civile syrienne et de la manipulation de crypto-monnaie. Dans chaque cas, nous détectons les réseaux de comptes Twitter coordonnés en examinant les identités des comptes Twitter, les images, les séquences de hashtag, les retweets ou les modèles temporels . Il s'avère que la méthode proposée est largement applicable pour découvrir différents types de coordination entre les scénarios de guerre de l'information.

introduction

statut d'arrière-plan

        Les médias sociaux en ligne ont révolutionné la façon dont les gens obtiennent des nouvelles et des informations et se forgent une opinion. En permettant une communication sans entraves géographiques et en réduisant le coût de la production et de la consommation d'informations, les médias sociaux ont considérablement élargi la participation au discours civique et politique.

        Bien que cela puisse renforcer les processus démocratiques, il est de plus en plus évident que des acteurs malveillants polluent l'écosystème de l'information par la désinformation et la manipulation (Lazer et al., 2018 ; Vosoughi, Roy et Aral, 2018 ; Bessi et Ferrara, 2016 ; Shao et al., 2018 ; Ferrara 2017 ; Stella, Ferrara et De Domenico 2018 ; Deb et al. 2019 ; Bovet et Makse 2019 ; Grinberg et al. 2019).

        Alors que les campagnes d'influence, la désinformation et la propagande ont toujours existé (Jowett et O'Donnell 2018), les médias sociaux ont créé de nouvelles vulnérabilités et opportunités d'abus. Tout comme les utilisateurs partageant les mêmes idées peuvent facilement se connecter pour soutenir des causes légitimes, les groupes aux convictions marginales, conspiratrices ou extrémistes peuvent atteindre une masse critique et être à l'abri des opinions d'experts ou modérées. Les API de plate-forme et les faux comptes banalisés facilitent le développement de logiciels pour se faire passer pour les utilisateurs et masquer l'identité de ceux qui contrôlent ces robots sociaux, qu'il s'agisse de fraudeurs diffusant du spam, de politiciens amplifiant des récits trompeurs ou lançant des États-nations dans la guerre en ligne (Ferrara et al., 2016). Les biais cognitifs et sociaux nous rendent plus vulnérables à la manipulation par les robots sociaux : une durée d'attention limitée facilite la propagation d'affirmations non examinées, le biais de confirmation nous amène à ignorer les faits, la pensée de groupe et les chambres d'écho déforment les perceptions des normes, et l'effet de train en marche nous amène à nous concentrer sur la robotique. mèmes amplifiés (Weng et al. 2012 ; Hills 2019 ; Ciampaglia et al. 2018 ; Lazer et al. 2018 ; Pennycook et al. 2019).

        Malgré les progrès des contre-mesures telles que les plateformes de médias sociaux utilisant des algorithmes d'apprentissage automatique et des vérificateurs de faits humains pour détecter la désinformation et les comptes non authentiques, les acteurs malveillants continuent de tromper efficacement le public, d'amplifier la désinformation et de favoriser la polarisation (Barrett 2019) . Nous observons une course aux armements dans laquelle la sophistication des attaques évolue pour échapper à la détection.

        La plupart des outils d'apprentissage automatique pour lutter contre les abus en ligne ciblent la détection des robots sociaux et utilisent principalement des méthodes ciblant les comptes individuels (Davis et al. 2016 ; Varol et al. 2017 ; Yang et al. 2019 ; 2020 ; Sayyadiharikandeh et al. 2020)). Cependant, les groupes malveillants peuvent employer des tactiques coordonnées qui semblent inoffensives au niveau individuel, et leur comportement suspect ne peut être détecté qu'en observant le réseau d'interactions entre les comptes . Par exemple, il peut être normal qu'un compte change de pseudo, mais il est peu probable qu'un groupe de comptes change de nom à tour de rôle.

matrice de similarité creuse

        Ici, nous proposons une méthode pour révéler un comportement coordonné entre plusieurs acteurs, indépendamment de leur nature automatisée/organique ou de leurs intentions malveillantes/bénignes. L'idée est d'extraire des caractéristiques des données des médias sociaux pour créer des réseaux de coordination, où deux comptes sont fortement connectés s'ils présentent un comportement similaire de manière inattendue. Ces similitudes peuvent provenir de n'importe quelle métadonnée, comme les entités de contenu et les caractéristiques de profil . Les réseaux fournissent des représentations efficaces pour les matrices de similarité clairsemées, ainsi que des méthodes naturelles pour détecter d'importants groupes de comptes coordonnés. Nos principaux apports sont :

        Nous proposons une méthode générale de détection de coordination qui peut en principe être appliquée à toute plateforme de médias sociaux pour laquelle des données sont disponibles. Étant donné que la méthode est complètement non supervisée, aucune donnée de formation étiquetée n'est requise.

        À partir des données de Twitter, nous présentons cinq études de cas en instanciant des méthodes de détection de différents types de coordination basées sur (i) le traitement des changements, (ii) le partage d'images, (iii) l'utilisation séquentielle de hashtags, (iv) les co-retweets Synchroniser avec (v ).

        Une étude de cas illustre la généralité et l'efficacité de notre approche : nous sommes capables de détecter une activité coordonnée basée sur la présentation de l'identité, l'affichage d'images, l'écriture de texte, le retweet ou le moment de ces actions.

        Nous montrons que le comportement coordonné n'implique pas nécessairement l'automatisation. Dans des études de cas, nous avons détecté d'éventuels comptes robots et humains travaillant ensemble dans des campagnes malveillantes.

        • Le code et les données sont disponibles sur github.com/IUNetSci/coordination-detection pour reproduire les résultats actuels et appliquer notre méthode à d'autres cas.

Méthodes

        La méthode proposée pour détecter les comptes qui coordonnent les actions sur les médias sociaux est illustrée à la figure 1. Elle peut être divisée en quatre étapes :

 (Figure 1 : Approche de détection coordonnée. Sur la gauche, nous voyons des traces comportementales qui peuvent être extraites des profils et des messages des réseaux sociaux. Les quatre étapes décrites dans le document identifient les groupes de comptes suspects.)

        Extraction de traces de comportement :

        Le point de départ d'une détection coordonnée devrait être la suspicion d'un comportement suspect. En supposant que les utilisateurs réels sont en quelque sorte indépendants les uns des autres, nous considérons le surprenant manque d'indépendance comme une preuve de coordination. La mise en œuvre de cette approche est guidée par la sélection de traces qui capturent de tels comportements suspects. Par exemple, si nous supposons qu'un compte est contrôlé par une entité dans le but d'amplifier l'exposition d'une source de désinformation, nous pouvons extraire des URL partagées sous forme de traces. Les scénarios de coordination peuvent être associés à plusieurs grandes catégories de traces suspectes :

        a) Contenu : Si la coordination est basée sur un contenu partagé, les traces suspectes peuvent inclure des mots, des ngrams, des hashtags, des médias, des liens, des mentions d'utilisateurs, etc.

         (b) Activité : La coordination peut être révélée par des schémas spatio-temporels d'activité. Les exemples de traces pouvant révéler un comportement suspect incluent les horodatages, les emplacements et les coordonnées géographiques.

         (c) Identité : les comptes peuvent être coordonnés en fonction des rôles ou des groupes. Des traces de descripteurs d'identité permettent de détecter ces types de coordination : nom, pseudo, description, photo de profil, page d'accueil, date de création du compte, etc.

        (d) Combinaison : La détection coordonnée peut nécessiter la combinaison de plusieurs dimensions. Par exemple, au lieu de simplement suivre quels hashtags sont utilisés ou quand un compte est actif, on pourrait combiner les deux types de suivi dans une méthode de détection de contenu ad hoc, comme dans le suivi suspect basé sur le contenu ou sur l'activité. La version combinée est plus restrictive et réduit ainsi le nombre de faux positifs.

        Une fois les traces d'intérêt identifiées, nous pouvons construire un réseau de comptes basé sur les traces de comportements similaires. Un nettoyage préliminaire des données peut être appliqué, filtrant les nœuds qui manquent de support - faible activité ou peu d'interaction avec la trace choisie - car il n'y a pas suffisamment de preuves pour établir leur coordination. Par exemple, le partage d'un petit nombre d'images ne calculera pas de manière fiable la similarité basée sur l'image.

        2. Construction d'un réseau bidirectionnel :

        L'étape suivante consiste à construire un réseau bidirectionnel, reliant les comptes et les fonctionnalités extraites de leurs profils et messages .

        A ce stade, nous pouvons utiliser des traces comportementales comme fonctionnalités, ou concevoir de nouvelles fonctionnalités dérivées de traces . Par exemple, l'analyse de contenu peut produire des fonctionnalités basées sur le sentiment, la position et le cadre narratif .

        Les caractéristiques temporelles telles que l'heure du jour et le jour de la semaine peuvent être déduites des métadonnées d'horodatage.

        Les fonctionnalités peuvent être conçues en agrégeant des traces, telles que la combinaison d'emplacements en pays ou d'images en profils de couleurs. Des caractéristiques plus complexes peuvent être conçues en considérant des ensembles ou des séquences de trajectoires.

        Les réseaux bipartites peuvent être pondérés en fonction de la force de l'association entre les comptes et les fonctionnalités - partager la même image plusieurs fois est un signal plus fort que de la partager une seule fois. Les pondérations peuvent intégrer une normalisation (par exemple IDF) pour tenir compte des caractéristiques populaires ; il n'est pas suspect que de nombreux comptes mentionnent la même célébrité.

        

        3. Réseau du projet au compte :

        Projetez le réseau bipartite sur un réseau qui contient des nœuds de compte et ajoutez des arêtes entre les nœuds en fonction d'une certaine mesure de similarité des fonctionnalités. Les poids des arêtes dans le réseau de coordination non orienté résultant peuvent être calculés par simple cooccurrence, coefficient de Jaccard, similarité cosinus ou mesures statistiques plus complexes telles que l'information mutuelle ou χ 2 . Dans certains cas, chaque arête d'un réseau de coordination est suspecte par construction.

        Dans d'autres cas, les bords peuvent fournir des signaux bruyants sur la coordination entre les comptes, entraînant des faux positifs.

        Par exemple, un compte partageant plusieurs du même mème n'est pas nécessairement suspect si ces mèmes sont très populaires. Dans ces cas, une curation manuelle peut être nécessaire pour filtrer les bords de faible poids dans le réseau de coordination afin de se concentrer sur les interactions les plus suspectes. Une façon de procéder consiste à conserver les arêtes avec le centile de poids le plus élevé. La section Discussion présente la distribution des poids de bord dans certaines études de cas, illustrant comment le filtrage agressif permet de donner la priorité à la précision par rapport au rappel, minimisant ainsi les faux positifs.

        4. Analyse groupée :

        La dernière étape consiste à trouver des groupes de comptes dont le comportement est susceptible d'être coordonné à travers le réseau de comptes. Les algorithmes de détection de communauté de réseau qui peuvent être utilisés à cette fin incluent les composants connectés, le k-core, les k-cliques, la maximisation de la modularité et la propagation des étiquettes, entre autres (Fortunato 2010). Dans les études de cas présentées ici, nous utilisons des composants connectés car nous ne considérons que les arêtes suspectes (soit par conception, soit par filtrage).

        En résumé, les quatre phases de la méthode de coordination de détection proposée se traduisent en huit étapes actionnables : (i) formuler des conjectures sur les comportements suspects ; (ii) sélectionner des traces de ces comportements, ou (iii) concevoir des signatures si nécessaire ; (iv) -filtrer le jeu de données en fonction du support ; choisir (v) le poids du réseau bipartite et (vi) la mesure de similarité comme poids du réseau de coordination des comptes ; (vii) filtrer les arêtes de faible poids ; enfin, (viii ) extraire le groupe de coordination. Bien que la méthode proposée ne soit pas supervisée et ne nécessite donc pas de données de formation étiquetées, nous recommandons une inspection manuelle des grappes suspectes et de leur contenu . Une telle analyse fournira une validation de la méthode et des preuves indiquant si le groupe de coordination est malveillant et/ou automatisé. Dans les sections suivantes, nous présentons cinq études de cas dans lesquelles nous mettons en œuvre la méthode proposée pour détecter la coordination à travers des identités partagées, des images, des séquences de hashtag, des co-retweets et des modèles d'activité.

Étude de cas 1 : Partage de pseudonyme de compte

        Sur Twitter et certaines autres plateformes de médias sociaux, bien que chaque compte d'utilisateur ait un identifiant immuable, de nombreuses relations sont basées sur des identifiants de compte (appelés noms d'écran) qui sont modifiables et souvent réutilisables. Une exception est que les identifiants des comptes suspendus ne peuvent pas être réutilisés sur Twitter. Les utilisateurs peuvent avoir des raisons légitimes de changer de pseudo. Cependant, la possibilité de changer et de réutiliser les identifiants expose les utilisateurs à des abus tels que le squattage de nom d'utilisateur1 et l'usurpation d'identité (Mariconti et al. 2017). Dans un exemple récent, le même compte Twitter a utilisé des identifiants Twitter associés à différents personnages pour diffuser le nom d'un lanceur d'alerte ukrainien lors du procès de destitution du président américain. 2

        Pour un exemple concret de la façon dont les changements de poignée peuvent être exploités, considérez les événements chronologiques suivants : 1. L'utilisateur 1 (nommé @super cat) suit l'utilisateur 2 (nommé @kittie) qui publie des photos de félins.

         2. L'utilisateur 3 (nommé @superdog) publie des photos de chiens.

        3. Le tweet de l'utilisateur 1 mentionne l'utilisateur 2 : "J'aime @kittie". Les mentions sur Twitter créent un lien vers le profil du compte mentionné. Ainsi, à l'étape 3, le tweet de l'utilisateur 1 renvoie à la page de profil de l'utilisateur 2.

         4. L'utilisateur 2 renomme son identifiant en @tiger.

        5. L'utilisateur 3 renomme son pseudo en @kittie, en réutilisant le pseudo de l'utilisateur 2.

        Bien que le réseau social de l'utilisateur 1 ne changera pas quel que soit le changement de nom (l'utilisateur 1 suit toujours l'utilisateur 2), le changement de nom ne sera pas reflété dans les messages précédents, donc toute personne qui clique sur le lien à l'étape 3 sera redirigée vers le profil de l'utilisateur3 au lieu de backsquatting User2 à User2 comme prévu à l'origine par User1. Ce type de squattage, associé à plusieurs comptes, peut être utilisé pour promouvoir des entités, lancer des campagnes de « suivi », infiltrer des communautés et même favoriser la polarisation (Mariconti et al., 2017). Étant donné que les publications sur les réseaux sociaux sont souvent indexées par les moteurs de recherche, ces actions peuvent être utilisées pour promouvoir le contenu au-delà des frontières des réseaux sociaux.

        Pour détecter une telle coordination sur Twitter, nous avons appliqué une approche utilisant le suivi d'identité (c'est-à-dire les identifiants Twitter) . Nous avons commencé avec les journaux de requêtes vers Botometer.org, le service de détection de bots sociaux de l'Observatoire des médias sociaux de l'Université de l'Indiana (Yang et al., 2019). Chaque enregistrement de journal contient un horodatage, un identifiant et un identifiant d'utilisateur Twitter, ainsi qu'un score de bot. Nous suivons les utilisateurs avec au moins dix entrées (requêtes) afin que plusieurs changements de poignée puissent être observés. Cela a donné 54 millions d'enregistrements et 1,9 million de poignées. Voir le tableau 1 pour plus de détails.

 Détection de coordination

        Nous avons créé un réseau bidirectionnel de noms d'utilisateur et de comptes suspects. Nous considérons qu'un identifiant est suspect s'il est partagé par au moins deux comptes, et nous considérons qu'un compte est suspect s'il utilise au moins un identifiant suspect. Ainsi, aucun contour n'est filtré. Des mesures plus restrictives peuvent être prises, telles que le traitement d'un compte comme suspect s'il acquiert plusieurs identifiants suspects.

        Pour détecter les clusters suspects, nous projetons le réseau, connectant les comptes en fonction du nombre de fois qu'ils partagent un identifiant . Cela équivaut à utiliser la cooccurrence , la mesure de similarité la plus simple. Chaque composant connecté dans le réseau résultant identifie un ensemble de comptes de coordination et l'ensemble de descripteurs qu'ils partagent. Le tableau 1 résume les choix méthodologiques.

analyser

        La figure 2 montre le réseau de partage de poignée. Il s'agit d'un réseau pondéré non orienté de 7 879 nœuds (compte Twitter). Nous pouvons diviser les composants en trois catégories :

         1. Le composant hub-and-spoke capture le compte principal (nœud central) pour le cybersquattage et/ou le piratage . Pour confirmer cela, nous avons analysé la série chronologique des transitions de poignée impliquant des composants en étoile. En règle générale, la poignée est transférée du compte (vraisemblablement la victime) au hub, puis (vraisemblablement après une forme de paiement de rançon) elle est basculée du hub vers le compte d'origine. Ces types d'interconversions se produisent 12 fois plus fréquemment dans les étoiles que dans tout autre composant.

 (Figure 2 : Réseau de partage de pseudo. Un nœud représente un compte Twitter et sa taille est proportionnelle au nombre de comptes qui partagent un pseudo avec lui. Le poids d'un arc est le nombre de pseudo uniques partagés par deux comptes. Coordination suspecte les groupes sont identifiés par des couleurs différentes. Nous illustrons les caractéristiques de plusieurs groupes synergiques, à savoir le nombre de comptes, le nombre de descripteurs partagés, le nombre moyen de comptes partageant un descripteur, et le nombre maximal et médian de fois que les descripteurs sont commutés entre les comptes . Le nombre de commutateurs est une limite inférieure estimée à partir de notre échantillon de données . Nous montrons également des tweets d'individus indépendants qui ont exposé des activités malveillantes , qui sont discutés dans le texte principal)

        2. Cet assemblage massif comprend 722 comptes partageant 181 noms (groupe orange au centre de la figure 2). En utilisant l'algorithme de détection de communauté de Louvain (Blondel et al. 2008), nous classons en outre les mégacomposants en 13 sous-groupes. Nous soupçonnons qu'ils représentent des clusters temporels correspondant à des activités coordonnées distinctes d'un même groupe . Cette enquête est laissée pour de futures recherches.

        3. D'autres composants peuvent représenter différentes situations qui nécessitent une enquête plus approfondie, comme décrit ci-dessous. La figure 2 présente plusieurs histoires de comportement malveillant correspondant à deux groupes de partage de descripteur de coordination qui ont été découverts par d'autres. En juin 2015, le compte @GullyMN49 a fait la une des journaux pour des tweets attaquant le président Obama. 3 Plus d'un an plus tard, le même compte publie toujours un contenu similaire. En mars 2017, nous avons observé 23 comptes différents prenant le contrôle du compte dans les 5 jours. Nous supposons qu'il s'agit peut-être d'une tentative de maintenir en vie le personnage créé en 2015 et d'échapper à la suspension de Twitter suite à des signalements d'abus sur la plateforme. Actuellement, le compte @GullyMN49 est interdit, mais 21 des 23 comptes sont toujours actifs.

        Le deuxième exemple de la figure 2 montre un cluster de six comptes partageant sept identifiants. Ils ont tous été suspendus depuis. Fait intéressant, le cluster partage des poignées qui semblent appartenir à des groupes politiques en conflit tels que @ProTrumpMvmt et @AntiTrumpMvmt. Au fil du temps, certains comptes douteux ont continué à changer de position. Une enquête plus approfondie a révélé que les comptes étaient très actifs ; ils ont créé l'apparence d'une collecte de fonds politique dans le but d'extraire de l'argent des deux parties.

Étude de cas 2 : Coordination des images

        Les images constituent une grande partie du contenu des médias sociaux. Un groupe de comptes publiant de nombreuses images identiques ou similaires peut révéler un comportement coordonné suspect . Dans cette étude de cas, nous utilisons des images médiatiques comme traces de contenu pour identifier ces groupes sur Twitter dans le contexte du mouvement de protestation de 2019 à Hong Kong. Nous avons utilisé l'outil BotSlayer (Hui et al. 2019) pour collecter des tweets correspondant à des dizaines de hashtags liés à des manifestations en six langues, puis avons téléchargé toutes les images et vignettes dans les tweets collectés. Nous nous concentrons sur 31 772 tweets contenant une ou plusieurs images et supprimons tous les retweets pour éviter la duplication triviale de la même image. Voir le tableau 2 pour plus d'informations sur les sources de données.

 (Fig. 3 : Réseau de coordination des comptes sur Twitter à propos des manifestations de Hong Kong. Les nœuds représentent des comptes dont la taille est proportionnelle à leur degré. A gauche, les comptes sont colorés en bleu s'ils sont susceptibles de se coordonner, sinon ils sont colorés en gris. Sur sur le côté droit, nous nous concentrons sur les composants connectés correspondant à d'éventuels groupes de coordination. Les trois plus grands composants sont colorés en fonction du contenu de leurs images : un cluster pro-manifestation et deux clusters anti-manifestation, respectivement violet et orange. Nous montrons quelques exemples d'images partagées par ces groupes, et le nombre correspondant d'URL différentes)

Détection de coordination

        Chaque fois qu'une image est publiée, une URL différente lui est attribuée. Par conséquent, détecter des images identiques ou similaires n'est pas aussi simple que de comparer des URL ; il est nécessaire d'analyser le contenu réel de l'image. Nous représentons chaque image avec un histogramme de couleurs RVB , divisons chaque canal en 128 cases et générons un vecteur de 384 dimensions. Les histogrammes groupés permettent des variantes d'appariement : les images avec le même vecteur sont soit identiques, soit similaires, et correspondent aux mêmes caractéristiques. Bien que l'agrandissement des bacs fournisse plus de correspondances de variantes, nous voulons nous assurer que l'espace est suffisamment clairsemé pour maintenir une précision de correspondance élevée.

        Nous avons exclu les comptes qui ont tweeté moins de cinq images pour réduire le bruit généré par un support insuffisant. On peut régler la précision et le rappel en ajustant ce seuil de support. Nous fixons des seuils pour maximiser la précision tout en maintenant un rappel raisonnable. La sensibilité de la précision pour prendre en charge les paramètres de seuil est analysée dans la section Discussion. Nous construisons ensuite un réseau bipartite non pondéré composé de caractéristiques de compte et d'image en reliant les comptes avec leurs vecteurs d'images partagées. Nous projetons le réseau bipartite pour obtenir un réseau de coordination des comptes pondéré dont les poids des arêtes sont calculés par les coefficients de Jaccard. Nous considérons que les comptes très similaires partageant les mêmes images doivent être coordonnés . Pour cela, nous gardons les 1% d'arêtes avec le plus grand poids (voir Figure 11). En excluant les singletons (ne tenant compte d'aucune preuve de coordination), nous classons les composants connectés du réseau par taille. Le tableau 2 résume les décisions méthodologiques dans cet exemple.

        

 

 (Fig. 11 : Distributions coordonnées des pondérations du réseau pour les trois études de cas. Les lignes en pointillés représentent les filtres de bordure : nous conservons les 1 % supérieurs des arêtes pondérées dans le cas 2 et les 0,5 % supérieurs des arêtes pondérées dans les cas 4 et 5)

Analyse

        La figure 3 montre le réseau de coordination des comptes. Nous avons trouvé trois clusters suspects impliquant 315 comptes publiant des images soutenant ou s'opposant aux manifestations . Les groupes anti-manifestants ont partagé des images avec du texte chinois, ciblant un public de langue chinoise, tandis que les groupes pro-manifestants ont partagé des images avec du texte anglais. Nous observons que certaines caractéristiques d'image partagées correspondent exactement à la même image, tandis que d'autres sont légèrement différentes . Par exemple, 59 URL d'images correspondant à la même fonctionnalité dans le cluster de protestation pris en charge contiennent de subtiles variations de luminosité et de recadrage. Il en était de même pour les 61 images de contre-manifestation correspondantes.

        Bien que cette approche ait identifié la coordination des comptes, elle n'a pas qualifié la coordination de malveillante ou bénigne, ni d'automatique ou organique. En fait, il existe de nombreux comptes coordonnés qui se comportent comme des humains (voir Discussion). Ces groupes ont été identifiés parce que leurs comptes constitutifs diffusent plus souvent le même contenu graphique que les autres groupes.

Étude de cas 3 : Séquences de hashtag

        Un élément clé d'une campagne de désinformation est d'atteindre un large public . Pour se propager au-delà des abonnés, les acteurs malveillants peuvent utiliser des hashtags pour cibler d'autres utilisateurs intéressés par un sujet et susceptibles de rechercher des tweets connexes.

        Si un groupe de comptes automatisés publie des messages avec le même texte, cela semblera suspect et sera facilement détecté par les mesures anti-spam de la plateforme. Il est facile d'imaginer des utilisateurs malveillants exploitant des modèles de langage (tels que GPT-2) pour interpréter leurs messages. La détection peut être rendue plus difficile car l'application publie un texte paraphrasé au nom de l'utilisateur. Un exemple de ce type de comportement est l'application Twitter "Backfire Trump", qui tweete le président Trump chaque fois que la violence armée entraîne un décès. Cependant, nous supposons que même les textes paraphrasés peuvent contenir les mêmes hashtags en fonction des objectifs de la campagne coordonnée . Par conséquent, dans cette étude de cas, nous explorons comment identifier les comptes coordonnés qui publient des séquences de hashtag très similaires sur plusieurs tweets .

        Nous évaluons cette approche sur un ensemble de données de tweets bruts (sans retweets) collectés autour des élections américaines de mi-mandat de 2018 . Voir le tableau 3 pour plus d'informations sur les sources de données. Avant d'appliquer notre cadre, nous divisons l'ensemble de données en intervalles quotidiens pour détecter le moment où les comptes sont réconciliés.

 Détection de coordination

        Une étape de prétraitement des données filtre les comptes avec peu de tweets et de hashtags . Le seuil dépend de la période de l'évaluation. Dans ce cas, nous utilisons au moins 5 tweets et 5 hashtags uniques dans une période de 24 heures pour assurer un soutien suffisant pour une éventuelle coordination. Un filtrage plus strict peut être appliqué pour réduire la probabilité que deux comptes produisent accidentellement des séquences similaires.

        Dans ce cas, nous avons conçu une fonctionnalité qui combine le suivi du contenu (hashtags) et de l'activité (horodatage) . En particulier, nous utilisons une séquence ordonnée de hashtags pour chaque utilisateur (Fig. 4). Un réseau bipartite se compose de comptes dans une couche et de séquences de hashtags dans une autre couche. Dans la phase de projection, nous dessinons une arête entre deux comptes avec la même séquence de hashtags. Ces bords ne sont pas pondérés et nous n'appliquons aucun filtrage, en partant du principe qu'il est peu probable que deux utilisateurs indépendants publient la même séquence de cinq hashtags ou plus le même jour . Nous avons également envisagé une approche floue pour faire correspondre des comptes avec des séquences légèrement différentes et avons trouvé des résultats similaires.

 (Figure 4 : Fonctionnalités de la séquence de hashtags. Les hashtags et leurs positions sont extraits des métadonnées des tweets. Les comptes tweetant la même séquence de hashtags sont facilement identifiables.)

Analyse

        Nous avons identifié 617 instances de coordination quotidienne effectuées par 1 809 comptes uniques. La figure 5 montre les 32 groupes suspects identifiés en une journée. Le composant le plus important consistait en 404 nœuds qui ont envoyé une série de tweets plaidant pour des lois plus strictes sur le contrôle des armes à feu via l'application Twitter "Backfire Trump". Cette demande n'est plus valide. Certaines des affirmations de ces tweets étaient en contradiction avec un rapport de l'organisation à but non lucratif Gun Violence Archive. Les plus petits groupes se composent uniquement de paires de comptes. L'un des deux a tweeté un lien vers une page aujourd'hui disparue qui annonçait des bonus de casino en ligne. Une autre paire de comptes a également fourni un lien vers une liste de candidats élus qui ont été approuvés par le fonds législatif de la Humane Society. Bien sûr, nous pouvons utiliser des fenêtres temporelles plus longues et potentiellement révéler des réseaux de coordination plus importants. Par exemple, le cluster Backfire Trump de la figure 5 fait partie d'un réseau plus vaste de 1 175 comptes.

Étude de cas 4 : Co-retweets、

        L'amplification des sources d'information est peut-être la forme de manipulation la plus courante. Sur Twitter, un groupe de comptes retweetant le même tweet ou le même groupe de comptes peut indiquer un comportement coordonné. Par conséquent, nous nous concentrons sur le retweet dans cette étude de cas.

        Nous appliquons la méthode proposée pour détecter les récits coordonnés qui amplifient les récits liés aux "Casques blancs", une organisation bénévole qui a été ciblée par des campagnes de désinformation pendant la guerre civile syrienne. Des rapports récents ont identifié des sources russes derrière ces activités (Wilson et Starbird 2020). Les données ont été collectées sur Twitter à l'aide de mots clés en anglais et en arabe. Voir le tableau 4 pour plus de détails sur les données.

Détection de coordination

        Nous construisons un réseau bipartite entre les comptes de retweet et les messages de retweet, à l'exclusion des comptes qui se retweetent et ont moins de 10 retweets. Le réseau utilise TF-IDF pour la pondération afin de réduire la contribution des tweets populaires. Ainsi, chaque compte est représenté comme un vecteur TFIDF d'identifiants de tweet retweeté. Ensuite, le réseau de co-transfert projeté est pondéré par la similarité cosinusoïdale entre les vecteurs de compte. Enfin, nous ne conservons que les 0,5 % d'arêtes les plus suspectes afin de nous concentrer sur les preuves d'une coordination potentielle (voir Figure 11) . Ces paramètres peuvent être réglés pour échanger la précision et le rappel ; l'effet du seuil sur la précision est analysé dans la section Discussion. Le tableau 4 résume les choix méthodologiques.

Analyse

        La figure 6 montre le réseau de co-transfert et met en évidence deux ensembles de comptes coordonnés. Les comptes des groupes orange et violet ont retweeté respectivement des messages soutenant et s'opposant aux « casques blancs » . L'exemple de tweet montré dans l'image n'est plus accessible au public.

 Étude de cas 5 : Actions synchronisées

        Un "pump and dump" est un stratagème louche visant à gonfler le prix d'une action en faisant une fausse déclaration (une pompe) pour simuler une augmentation de l'intérêt des acheteurs et vendre une action achetée à bas prix à un prix plus élevé (une décharge). Les investisseurs sont vulnérables à cette manipulation car ils veulent agir rapidement lorsqu'ils achètent des actions qui semblent promettre des bénéfices futurs élevés. En exposant les investisseurs à des informations provenant de sources apparemment disparates dans un court laps de temps, les fraudeurs créent un faux sentiment d'urgence qui incite les victimes à agir. Les médias sociaux offrent un terrain fertile pour de telles escroqueries (Mirtaheri et al., 2019). Nous étudions l'efficacité de notre méthode pour détecter l'activité coordonnée de pompe et de vidage de crypto-monnaie sur Twitter. Les données ont été collectées à l'aide de mots-clés liés à 25 crypto-monnaies vulnérables et étiquettes de trésorerie (par exemple, $ BTC) comme termes de requête. Nous considérons à la fois les tweets originaux et les retweets, car ils s'ajoutent tous deux au flux considéré par les acheteurs potentiels. Voir le tableau 5 pour plus de détails sur l'ensemble de données.

 Détection de coordination

        Nous supposons une campagne de pompage et de vidage coordonnée utilisant un logiciel pour avoir plusieurs comptes postant des pompes à proximité dans le temps. Par conséquent, les horodatages des tweets sont utilisés comme traces comportementales des comptes . Plus le temps entre deux tweets est court, moins ils sont susceptibles d'être une coïncidence. Cependant, des intervalles de temps plus courts entraînent beaucoup moins de correspondances et un temps de calcul accru. D'un autre côté, un intervalle plus long (comme tous les jours) produit de nombreuses correspondances de faux positifs. Pour équilibrer ces problèmes, nous utilisons un intervalle de 30 minutes. Intuitivement, deux utilisateurs peuvent publier un ou deux tweets à n'importe quel intervalle de temps ; cependant, ce n'est pas le cas pour un plus grand nombre de tweets. Afin de nous concentrer sur les comptes disposant d'un support de coordination suffisant, nous ne conservons que les comptes ayant posté au moins 8 messages. Ce seuil de prise en charge particulier a été choisi pour minimiser les fausses correspondances positives, comme indiqué dans la section Discussion.

        Les tweets sont ensuite classés en fonction des intervalles de temps au cours desquels ils ont été publiés. Ces fonctionnalités temporelles sont utilisées pour créer un réseau bipartite de compte et de synchronisation des tweets. Les bords sont pondérés à l'aide de TF-IDF. Comme dans le cas précédent, le réseau de coordination de compte projeté est pondéré par la similarité cosinusoïdale entre les vecteurs TF-IDF. Après une inspection manuelle, nous avons constaté que de nombreux tweets partagés sur ce réseau n'avaient rien à voir avec la crypto-monnaie, alors que seul un petit pourcentage était marginalement lié au sujet. Ces bords partagent également de grandes similitudes et génèrent de forts signaux de coordination. Par conséquent, nous ne conservons que les arêtes à 0,5 % avec la plus grande similitude de cosinus (voir la figure 11). Le tableau 5 résume les choix méthodologiques.

Analyse

        La figure 7 montre le réseau d'action synchrone. Analyse qualitative des composants connectés dans le réseau pour évaluer la précision. La sous-parcelle violette marque des groupes de comptes coordonnés où des schémas de pompage et de vidage suspects ont été observés. Nous avons trouvé de nombreux schémas de crypto-monnaie avec différents exemples.

 (Figure 7 : Réseau de coordination du temps. Les nœuds (comptes) sont connectés s'ils publient ou retweetent dans les mêmes 30 minutes. Les singletons sont omis. Comptes dans le groupe violet et comptes dans le petit groupe jaune à 8 heures Très suspect de courir un système de pompe et de vidage. Certains extraits de tweet sont affichés ; ces tweets ne sont plus publics.)

        Les changements sur le marché boursier, en particulier les crypto-monnaies qui se concentrent sur le trading à court terme, peuvent être difficiles à saisir en raison de la volatilité du marché. De plus, il est difficile d'attribuer les changements de prix à une seule cause, telle que l'activité de Twitter liée aux push-ups et aux ventes. Cela rend difficile la vérification quantitative de nos résultats. Cependant, au cours de la semaine du 15 au 21 décembre 2017, les jetons Verge (XVG), Enjin (ENJ) et DigiByte (DGB) étaient tous sur une tendance quotidienne à la hausse. Chaque jour, le prix grimpe après un flot de tweets simultanés commentant son déménagement. Ces tendances précèdent les prix records de ces jetons à ce jour, avec XVG le 23 décembre 2017, et ENJ et DGB le 7 janvier 2018. Les groupes de comptes avec d'importants retraits de ces trois jetons sont surlignés en jaune dans la figure 7.

Discussion

        Les cinq études de cas présentées dans cet article illustrent simplement comment notre méthode proposée peut être mise en œuvre pour trouver la coordination. L'approche pourrait en principe être appliquée à d'autres plateformes de médias sociaux en plus de Twitter. Par exemple, les méthodes de coordination d'images peuvent être appliquées à Instagram, tandis que la coordination entre les pages Facebook peut être découverte à travers le contenu qu'elles partagent.

        Plusieurs des méthodes non supervisées discutées dans la section des travaux connexes, comme les cinq applications de notre méthode présentées ici, se concentrent sur différents types de coordination. Ces méthodes ne sont donc pas directement comparables. Une contribution clé de cet article est de fournir une approche flexible et générale pour décrire ces différentes approches dans un schéma unifié. Par exemple, Debot (Chavoshi, Hamooni et Mueen 2016) peut être décrit comme un cas particulier de notre méthode basée sur un schéma de hachage temporel complexe qui préserve les distances dynamiques de déformation temporelle (Keogh et Ratanamahatana 2005), tandis que SynchroTrap (Cao et al. 2014 ) ) exploitent des informations synchrones en faisant correspondre des actions dans une fenêtre temporelle. La méthode de Giglietto et al. (2020) et Chen et Subramanian (2018) sont des cas particuliers utilisant la similarité basée sur des liens partagés. La méthode d'Ahmed et Abuaish (2013) utilise une table de comptes de contingence avec des caractéristiques équivalentes à notre réseau bipartite.

        Notre approche vise à identifier la coordination entre les récits, mais elle ne caractérise pas l'intention ou l'authenticité de la coordination, ni ne permet de découvrir les mécanismes sous-jacents . Des reportages récents ont mis en évidence un exemple d'intention malveillante dans lequel un réseau coordonné d'adolescents a publié de faux récits sur l'élection. Cependant, il est important de se rappeler qu'une activité coordonnée peut être initiée par de vrais utilisateurs avec des intentions bienveillantes. Par exemple, les participants aux mouvements sociaux utilisent des hashtags de manière coordonnée pour sensibiliser à leurs causes.

        La figure 8 montre la distribution des scores des robots dans les études de cas 1-3. (En raison de l'anonymisation dans l'ensemble de données, nous n'avons pas été en mesure d'analyser les scores des robots dans les cas 4 et 5.) Nous avons observé que si les comptes de coordination étaient plus susceptibles d'avoir des scores de bot élevés, de nombreux comptes de coordination avaient des scores faibles (semblables à humains) - principalement dans deux des trois cas . Par conséquent, la détection des bots sociaux n'est pas suffisante pour détecter les activités coordonnées.

 (Nombre de bots pour les comptes suspects et non suspects. Histogramme des scores des bots pour les comptes suspects identifiés par notre méthode par rapport aux autres comptes. Les panneaux du haut, du milieu et du bas représentent le partage du compte (étude de cas 1), la coordination des images (étude de cas 2 , ) et les séquences de hashtag (étude de cas 3). Les scores du bot pour l'étude de cas 1 ont été obtenus à partir de la version 3 du Botometer (Yang et al., 2019), collectée de mai 2018 à avril 2019. Pour les deux autres cas , les scores du bot sont obtenus de BotometerLite (Yang et al., 2020). L'ensemble de données peut inclure plusieurs scores pour le même compte.)

        Bien que les études de cas présentées ici soient basées sur des données provenant de différentes sources, elles ne visent pas à exagérer l'efficacité de la méthode proposée ni à se concentrer sur les comptes malveillants. La figure 9 montre que la distribution des scores des bots pour les ensembles de comptes analysés dans les études de cas 1 et 3 est cohérente avec la distribution des scores obtenus à partir d'un échantillon aléatoire de tweets . Nous notons qu'il ne s'agit pas d'un échantillon aléatoire de comptes : il s'agit d'une activité de compte biaisée. L'étude de cas 2 est une exception ; nous supposons que des bots ont été utilisés pour publier un grand nombre d'images lors des manifestations à Hong Kong.

 (Distribution des scores des bots. Le graphique QQ compare la distribution des scores des bots dans les trois études de cas à la distribution des scores obtenus à partir d'un échantillon aléatoire de 1 % de tweets sur 24 heures. Les sources des scores des bots sont présentées dans la figure 8. Tous les distributions sont fortement biaisées vers les valeurs de score de bot inférieures (c'est-à-dire plus d'humains que de bots), sauf pour l'étude de cas 2, où les bots ont obtenu un score plus élevé et la distribution était presque uniforme.)

Je suppose que tu aimes

Origine blog.csdn.net/qq_40671063/article/details/132075747
conseillé
Classement