Partage : Zhang Zhiqiang, étudiant au doctorat au Laboratoire d'analyse et d'exploration de données volumineuses de l'Université de la communication de Chine

Comme nous le savons tous, nous sommes à l'ère de l'explosion de l'information sur les réseaux. L'Internet moderne a produit une grande quantité d'informations sur l'opinion publique, dont beaucoup ne sont pas des informations normales, car il existe un grand nombre de trolls ou de rumeurs malveillantes sur Internet. L'État attache une grande importance à la gouvernance de l'opinion publique, qui est étroitement liée à la sécurité de l'ensemble du pays. De nombreux sujets d'actualité apparemment inutiles sur Internet sont également étroitement liés à notre vie quotidienne, attirant l'attention du public et, dans un sens, affecteront également tous les aspects de la vie sociale.

Certaines plateformes ont la fonction de surveillance de l'opinion publique en réseau ou de gestion de l'opinion publique

Pendant tout le processus de diffusion de l'information, les sujets qui attirent l'attention des gens sont souvent diffusés selon une certaine règle. Ici, je me concentre sur la diffusion d'informations sur Weibo sur Internet. Ici, j'emprunte le livre "Modélisation et analyse de la diffusion de l'information sur le réseau" publié par le professeur Yin Fulian en 2020, qui résume l'ensemble du processus de diffusion de l'information sur le réseau en un seul modèle de diffusion de l'information. Par exemple, dans Weibo, un grand V publie un message, ce qui générera beaucoup de données de commentaires et de données de transfert cumulées.

Dans ce contexte, l'ensemble de la diffusion d'informations sur le réseau peut être résumé sous la forme illustrée sur la figure.

Ce formulaire imite la base de recherche sur la dynamique des maladies infectieuses dans le domaine médical et divise les internautes en quatre groupes : le premier groupe est le groupe sensible, qui n'a pas été exposé à l'information ; le deuxième groupe est le groupe qui a été exposé à l'information ; Il y aura des personnes dans ce groupe qui republieront, et ce groupe de personnes s'appelle les reposteurs. Après la transmission, certaines personnes perdent tout intérêt parce qu'elles ont été exposées à l'information et deviennent ainsi immunisées.

Modèle dynamique SFI de diffusion unique de l'information

Modèle dynamique SFI de diffusion unique de l'information

Une modélisation simple de ce processus unique de diffusion de l'information peut être représentée par le modèle dynamique SFI. Il existe trois groupes principaux dans le modèle, à savoir S, F et I, qui représentent respectivement la population sensible, la population en propagation et la population immunitaire d'information.

La différence entre ce modèle et le modèle de dynamique des maladies infectieuses est que dans le domaine des maladies infectieuses, le statut de chaque groupe peut être obtenu en temps réel, par exemple, un individu est dans un état d'être infecté par un virus ou immunisé contre un virus. Mais dans le domaine de la diffusion de l'information, souvent seules les données des groupes qui ont reçu l'information peuvent être obtenues. Par exemple, le nombre de retweets dans le microblog peut être utilisé comme le nombre de groupes qui ont reçu les informations. La difficulté réside dans l'obtention de données sur les populations immunisées contre l'information. Par conséquent, une nouvelle variable C est introduite ici pour représenter la population de transmission cumulée. En prenant Weibo comme exemple, le groupe peut être représenté par le volume de transfert cumulé d'un certain message Weibo. Certains paramètres, tels que Beta, Alpha et P, sont similaires au modèle de dynamique des maladies infectieuses, et chacun d'eux a une signification particulière. De cette manière, la modélisation dynamique de l'ensemble de la propagation de l'information unique est terminée.La figure 3 montre la forme d'équation différentielle de base du modèle. Introduisant la quantité cumulée de retweeting, la méthode du crawler peut être utilisée pour obtenir la foule de retweeting cumulée d'une certaine information ou opinion publique, ou la situation spécifique de la foule qui a été exposée à l'information.

Intégrer des réseaux de neurones physiques

Ma méthode consiste à introduire la méthode PINN dans le processus de diffusion de l'information, en me concentrant sur les changements du nombre de chaque groupe dans le contexte de l'avancement du temps. Les données d'entrée ici ne sont que le temps, et les données d'entrée peuvent également inclure d'autres variables, telles que la distance, mais ce n'est pas la distance physique dans la vie réelle, il peut s'agir de la distance entre deux nœuds du réseau ou du réseau social, tels que comme relation d'amitié. Distribuez la distance d'une manière ou d'une autre et devez également obtenir la valeur initiale de chaque groupe.

Grâce à la méthode PINN, l'ensemble du processus de propagation d'une information unique peut être modélisé. Lors du processus de modélisation, on souhaite principalement obtenir la tendance d'évolution future d'une information diffusée par l'opinion publique, ce comportement est d'un grand intérêt pour explorer la loi de diffusion, de contrôle et de gouvernance de l'information d'opinion publique, etc.

Résultats expérimentaux basés sur Paddle

Effet d'ajustement basé sur la méthode classique des moindres carrés et la méthode d'échantillonnage de Monte Carlo

Ces méthodes sont très dépendantes de la situation réelle des données. En même temps, il est également très sensible à la valeur initiale de chaque état.

Basé sur la plate-forme de pagaie volante, l'effet de l'utilisation de la méthode PINN pour s'adapter au modèle de propagation d'informations unique

La méthode basée sur PINN, tout d'abord, son effet d'ajustement global est souvent meilleur que la méthode traditionnelle. Deuxièmement, la méthode utilisant PINN peut incorporer d'autres variables. Dans le processus d'expérimentation, j'ai ajouté quelques variables de distance sociale, et vérifié que par rapport à la méthode classique, l'effet d'ajustement de la différentielle partielle est plus important. Enfin, cette méthode est insensible aux valeurs initiales et aux bornes. Indépendamment de la dynamique des maladies infectieuses ou de la dynamique de diffusion de l'information, l'importance des valeurs initiales et des limites pour les résultats globaux est évidente.Dans de nombreux cas, la déviation des résultats est causée par des valeurs initiales et des choix de limites déraisonnables.

De plus, j'ai également fait d'autres recherches sur la diffusion de l'information : introduire des variables émotionnelles et classer les émotions des retweeteurs, y compris les émotions positives, les émotions négatives ou les émotions neutres.

Sur la base de la situation appropriée des méthodes traditionnelles, en particulier lorsque l'opinion publique se développe au stade de la diffusion rapide, l'effet d'ajustement n'est pas idéal. En ce qui concerne les deux étapes des rumeurs très classiques, l'une est l'étape de diffusion des rumeurs et l'autre est l'étape de diffusion des informations sur les rumeurs. Les résultats de diffusion de ces informations doivent être ajustés dynamiquement par étapes. Cependant, l'utilisation de la méthode PINN peut be L'ensemble du processus est modélisé.

Résumé et perspectives

1. L'utilisation de la méthode PINN peut obtenir de meilleurs résultats d'ajustement que les méthodes traditionnelles sur plusieurs modèles de dynamique de propagation ;

2. Par rapport aux méthodes purement basées sur les données, les modèles cinétiques combinés peuvent prédire des étapes plus longues et réduire l'accumulation d'erreurs ;

3. La méthode PINN n'est pas significativement affectée par la valeur initiale ou la valeur limite dans la résolution du problème inverse, et l'ajustement est plus efficace ;

4. Traiter les problèmes à entrées multiples (tels que les équations aux dérivées partielles), ajuster les paramètres et obtenir la sortie de chaque valeur d'état en même temps, la méthode PINN est plus efficace ;

5. Dans la dynamique de diffusion de l'information, les variables indépendantes autres que le temps t sont relativement difficiles à déterminer, et l'ajustement des équations aux dérivées partielles dans la dynamique de diffusion reste à vérifier expérimentalement.

Recherche sur la dynamique de propagation basée sur PINN

Modèle dynamique SFI de diffusion unique de l'information

Intégrer des réseaux de neurones physiques

Résultats expérimentaux basés sur Paddle

Je suppose que tu aimes