Apprentissage fédéré différentiellement privé: une perspective au niveau du client

Robin Geyer, Tassilo Klein et Moin Nabi (ML Research Berlin)

En règle générale, les approches classiques d’apprentissage automatique créent le besoin de stocker les données de formation dans un emplacement central. Cependant, avec la montée en puissance récente de la protection de la vie privée dans l'apprentissage automatique, un nouveau domaine de recherche, appelé apprentissage fédéré, a suscité un intérêt mondial. Dans ce billet de blog, nous présentons nos premiers résultats en matière d’apprentissage automatique collaboratif préservant la confidentialité des données, dans le prolongement de notre billet de blog précédent présentant trois approches différentes pour résoudre les problèmes de confidentialité dans ce domaine.

Cependant, avant d’approfondir notre approche, reprenons les points principaux du concept. L'idée de l'apprentissage fédéré est de former des modèles d'apprentissage automatique sans partager explicitement des données ni dissimuler la participation à une formation. Ce scénario est pertinent tant pour l’industrie que pour le personnel et revêt une importance particulière dans les scénarios dans lesquels des clients malveillants peuvent vouloir déduire la participation d’un autre client.

Prenons un exemple simple: considérons une collaboration entre plusieurs hôpitaux et assurances formant un modèle universel avec les données de chaque patient et client afin d’avoir une meilleure vue d’ensemble des maladies, diagnostics et coûts médicaux actuels. Imaginons maintenant qu’une des assurances participantes souhaiterait rejoindre cette collaboration dans l’espoir de trouver des détails spécifiques sur les patients appartenant à l’ensemble de données d’un hôpital participant. Si l’hôpital révélait des données confidentielles au cours du processus général d’apprentissage automatique, la vie privée de ses patients serait violée, tandis que l’assurance pourrait utiliser ces motifs pour faire payer à certains patients un prix plus élevé.

Une autre situation possible se présente lorsque les clients cherchent à se désabonner d'un service auquel ils ont contribué en termes de formation de modèle sans laisser derrière eux une empreinte de données trop spécifique sur le modèle. Pour revenir à l'exemple des hôpitaux et des assurances, si une assurance voulait cesser de contribuer à la formation du modèle, son retrait révélerait des informations confidentielles sur le client qui pourraient être utilisées à l'avantage d'autres assurances concurrentes du modèle.

En bref, afin de protéger la vie privée dans le contexte de l’apprentissage automatique, nous devons empêcher la possibilité de retracer les clients individuels ayant contribué au modèle. Cela devient particulièrement crucial lorsque le nombre d'instances de formation pour le modèle n'est pas exorbitant. Nos conclusions sont donc particulièrement préoccupantes pour des institutions telles que les hôpitaux ou les assurances qui souhaitent bénéficier de modèles de prévision généralisés, mais qui connaissent une forte fluctuation de clientèle et sont en même temps soumises à de fortes exigences en matière de confidentialité.

Apprentissage fédéré - quelques détails

Nous considérons un paramètre d’apprentissage fédéré, dans lequel un conservateur de confiance collecte des paramètres optimisés de manière décentralisée par plusieurs clients dont les données sont généralement non iid, non équilibrées et massivement distribuées. Le modèle résultant est ensuite redistribué à tous les clients, pour ensuite converger vers un modèle de représentant commun sans que les clients n'aient à partager explicitement les données.

Pour chaque nouveau cycle de communication et attribution d’un nouveau modèle central, des informations sur les données des clients sont divulguées. Par conséquent, les informations divulguées et, partant, les atteintes à la vie privée s’accumulent au cours de la formation. Bien que cette probabilité puisse être infiniment petite, un modèle d’apprentissage automatique est généralement formé au cours de plusieurs rounds, ce qui signifie que de telles fuites dans la vie privée pourraient s’ajouter considérablement.

Dans ce contexte, la communication entre le conservateur et les clients peut être limitée et / ou vulnérable à l’interception. C’est pourquoi l’apprentissage fédéré vise à déterminer un modèle avec une surcharge d’information minimale entre le client et le conservateur. Toutefois, malgré la réduction de cette surcharge, le protocole reste vulnérable aux attaques différentielles, qui pourraient provenir de toute partie ayant contribué au processus d’apprentissage fédéré. Lors d’une telle attaque, l’analyse des paramètres distribués permet de révéler la contribution d’un client pendant la formation ainsi que des informations sur son ensemble de données.

Compte tenu de ce problème, nous proposons un algorithme pour la confidentialité différentielle côté client afin de préserver l'apprentissage fédéré. L’objectif est de dissimuler les contributions des clients pendant la formation, en équilibrant l’équilibre entre perte de confidentialité et performance du modèle. Les résultats de notre première étude de faisabilité suggèrent que, avec un nombre croissant de clients participants, notre procédure proposée peut optimiser davantage la confidentialité différentielle au niveau du client.

Notre approche

Ce qui rend les algorithmes d’apprentissage automatique si attrayants est qu’ils tirent leur modèle de prédiction en déduisant des modèles à partir de données sans être explicitement programmés. Par conséquent, ces algorithmes dépendent fortement des informations encodées dans les données, ce qui crée la nécessité de les associer à certaines propriétés afin de préserver la confidentialité.

C’est là que la définition de la confidentialité différentielle entre en jeu. Cela peut être considéré comme une mesure de sensibilité aux changements dans les données. En particulier, cela donne une garantie sur les limites de l’effet de présence ou d’absence d’une donnée individuelle sur la sortie finale de l’algorithme. Intuitivement, une approche d’apprentissage automatique qui est différentiellement privée ne modifiera pas de manière significative son comportement prédictif dans le cas où un élément serait retiré de l’ensemble d’apprentissage. En se référant au premier exemple, cela signifierait que toutes les assurances contributives et les hôpitaux pourraient toujours compter sur la haute performance et la précision des informations du modèle universel, bien qu'un des hôpitaux évite de fournir ou de retirer des informations sur un patient donné.

Dans l'approche proposée, nous cherchons à porter la confidentialité différentielle à un nouveau niveau, en considérant les données au-delà d'un élément de données unique et en renforçant ainsi la sensibilité. Notre objectif est de garantir que la suppression d'un client avec toutes ses données élémentaires n'affecte pas de manière significative le résultat de l'algorithme. Dans notre exemple, cela signifie que si un hôpital comptant un grand nombre de patients décide de ne plus contribuer à la formation du modèle central, cela ne nuira pas au travail des autres institutions participantes.

Relier les points - confidentialité confidentielle préservant l'apprentissage fédéré

Pour protéger le protocole d'apprentissage fédéré contre d'éventuelles attaques différentielles, un dit comptable en matière de confidentialité conserve une trace de la perte de confidentialité subie et arrête l'entraînement une fois qu'un seuil défini est atteint.

Dans ce contexte, nous proposons d’appliquer un mécanisme aléatoire, qui comprend deux étapes: Au début de chaque tour de communication, un sous-ensemble aléatoire de clients est choisi pour contribuer. Seuls ces clients reçoivent le modèle central et partagent leurs mises à jour. Ensuite, un mécanisme gaussien est utilisé pour fausser la moyenne des mises à jour avant d'affecter le nouveau modèle central. Ceci est fait pour masquer la contribution d’un seul client au sein de l’agrégation et donc de l’ensemble de la procédure d’apprentissage décentralisée.

La figure 2 illustre un cycle de communication adoptant l'approche proposée. Dans ce paramètre d'apprentissage fédéré optimisé, un client aléatoire cesse de contribuer pendant la phase de communication, tandis que les autres clients continuent de mettre à jour le modèle. Cependant, le retrait d'un contributeur n'entraîne ni la révélation de données, ni ne nuit à la performance du modèle.

Le montage expérimental

Nous simulons un paramètre décentralisé pour tester notre algorithme proposé. Notre choix de former un modèle de classificateur d'images permet de comparer le protocole aux techniques de pointe en matière d'apprentissage centralisé. La configuration fédérée, non iid, garantit que chaque client ne reçoit qu'un nombre limité d'échantillons, les échantillons de chaque client n'étant associés qu'à une fraction de l'ensemble des classes. Dans une telle configuration, un seul client ne pourrait jamais former un modèle capturant toutes les classes à partir des données individuelles. Nous définissons deux exigences pour le processus d’apprentissage fédéré différentiellement privé:

  • Permettre aux clients d'apprendre conjointement un modèle qui atteint une précision de classification élevée
  • Pendant l'apprentissage, masquez les données d'un client individuel pour préserver la confidentialité.

Nos découvertes

En fin de compte, notre travail propose deux contributions. Tout d'abord, nous montrons que, lorsqu'un nombre suffisant de parties est impliqué, notre algorithme atteint une précision de modèle élevée, comparable à celle d'une configuration d'apprentissage centralisée. Dans le même temps, le modèle que nous proposons reste essentiellement privé au niveau du client. Bien que d'autres études montrent des résultats similaires, notre configuration expérimentale diffère en raison de son intégration distincte des mesures de confidentialité au niveau des éléments. Deuxièmement, nous suggérons une adaptation dynamique du mécanisme de préservation de la confidentialité différentielle au cours du processus d'apprentissage décentralisé afin d'accroître davantage les performances du modèle. Bien que cela modifie les derniers résultats en appliquant une confidentialité différentielle dans les paramètres centralisés, nous soutenons que, dans un environnement d'apprentissage fédéré, les gradients affichent des sensibilités différentes au bruit et à la taille du lot.

En général, nos résultats s’appliquent à diverses industries. Un jour, l’approche de cette étude pourrait permettre aux entreprises d’apprendre ensemble des modèles de prévision ou, comme dans notre exemple, aider plusieurs hôpitaux à former des modèles de diagnostic. L'algorithme proposé permettrait à ces divers acteurs de bénéficier d'un modèle universel appris avec les données de nombreux contributeurs sans avoir besoin de centraliser les données ni de prendre le risque de révéler des informations privées.

Nous avons présenté nos avancées en matière de protection de la vie privée dans l'apprentissage décentralisé lors de l'atelier NIPS 2017: Apprentissage automatique au téléphone et autres appareils grand public. Ci-dessous, vous pouvez voir notre affiche présentée au NIPS. Plus d'informations peuvent être trouvées ici.

Pour plus de détails sur notre travail, veuillez vous reporter à l'étude originale: https://arxiv.org/abs/1712.07557