Compréhension approfondie de l'apprentissage fédéré - Private Set Intersection (PSI) : connaissances de base

Catalogue de catégories : "Compréhension approfondie de l'apprentissage fédéré" Catalogue général


L'intersection d'ensembles privés (PSI) est une étape préalable clé dans l'apprentissage fédéré vertical. Elle est utilisée pour trouver des échantillons de données partagés par plusieurs fournisseurs avant un calcul conjoint par plusieurs fournisseurs sans exposer les échantillons uniques de chaque fournisseur.

Supposons que deux entreprises, A et B, espèrent unir leurs forces pour former un modèle d'apprentissage automatique afin de prédire si un utilisateur est intéressé par des produits technologiques. La société A dispose des données d'historique d'achat de trois utilisateurs A, B et C, tandis que la société B dispose des données de navigation d'articles de flux d'informations de trois utilisateurs B, C et D. En utilisant l'apprentissage fédéré vertical, en partant du principe que la société A et la société B ne divulguent pas leurs données utilisateur respectives, nous pouvons intégrer les caractéristiques des données de la société A et de la société B de deux utilisateurs, B et C, et former conjointement un modèle de prédiction. deux catégories sont utilisées Pour la formation utilisant des données, en théorie, les résultats devraient être plus précis que les modèles formés respectivement par l'entreprise A ou l'entreprise B.

Étant donné que la formation du modèle nécessite l'utilisation de données de la société A et de la société B, et que l'utilisateur A dispose uniquement des données de la société A mais pas de celles de la société B, l'utilisateur A ne peut pas être utilisé comme échantillon de formation. De même, l'utilisateur D de la société B ne peut pas participer à la formation. Par conséquent, avant l'apprentissage fédéré vertical, les deux parties doivent calculer les échantillons communs, c'est-à-dire les deux utilisateurs B et C, et les calculs ultérieurs sont effectués autour de B et C. Private Set Intersection (PSI) est une méthode dans laquelle les deux parties obtiennent les ensembles de B et C via des calculs cryptés sans exposer leurs ensembles d'origine.

L'intersection des ensembles de confidentialité signifie que les deux parties participantes obtiennent l'intersection des données détenues par les deux parties sans révéler aucune information supplémentaire, c'est-à-dire l'intersection des ensembles de confidentialité :

  • Il existe de nombreuses parties, chacune détenant ses propres données privées
  • J'espère trouver l'intersection de toutes les données grâce au protocole
  • Ne divulguez aucune information sauf intersection

Ici, les informations supplémentaires font référence à toute information autre que l'intersection des données des deux parties. L'intersection d'ensembles privés est très utile dans des scénarios réels, tels que l'alignement de données dans l'apprentissage fédéré vertical, ou dans les logiciels sociaux, pour découvrir des amis via des carnets d'adresses. Par conséquent, un algorithme sûr et rapide pour l’intersection des ensembles de confidentialité est très important.

Nous pouvons utiliser une méthode très intuitive pour croiser des ensembles privés, qui est la méthode de hachage naïf. Autrement dit, les deux parties A et B utilisent la même fonction de hachage HHH , calculez la valeur de hachage de chaque donnée séparément, puis envoyez-vous les données hachées pour trouver l'intersection. Cette méthode semble très simple et rapide, mais elle n’est pas sécurisée et peut divulguer des informations supplémentaires. Si les données elles-mêmes que les deux parties doivent croiser ont un espace de données relativement petit, comme les numéros de téléphone portable, les numéros d'identification, etc., alors pour un participant malveillant, une collision de hachage peut être utilisée pour générer les données dans un temps limité. La valeur de hachage transmise par l'autre partie, volant ainsi des informations supplémentaires. Par conséquent, nous devons concevoir une méthode plus sécurisée pour l’intersection des ensembles de confidentialité.

Il existe de nombreuses méthodes différentes dans la théorie actuelle pour réaliser l'intersection des ensembles de confidentialité, telles que les méthodes basées sur l'échange de clés Diffie-Hellman, les méthodes basées sur la transmission par inadvertance, etc. Jusqu’à présent, le moyen le plus rapide d’interconnecter des postes privés repose sur la transmission par inadvertance. Dans les articles suivants, nous présenterons divers algorithmes d’intersection d’ensembles de confidentialité.

Références :
 [1] Yang Qiang, Liu Yang, Cheng Yong, Kang Yan, Chen Tianjian, Yu Han. Federated Learning [M], Electronic Industry Press, 2020. [2] WeBank, FedAI. Livre blanc sur l'apprentissage fédéré V2.0. Tencent
. Institut de recherche, etc., 2021

Je suppose que tu aimes

Origine blog.csdn.net/hy592070616/article/details/132815425
conseillé
Classement