Tromper une machine en pensant que vous êtes Milla Jovovich

Et d'autres types d'attaques contradictoires en apprentissage automatique

Qu'est-ce qu'un attentat contradictoire?

Début 2014, Szegedy et al. (2014) ont montré qu'une modification minimale des entrées dans les modèles d'apprentissage automatique peut conduire à une classification erronée. Ces entrées sont appelées exemples contradictoires: des éléments de données délibérément conçus pour tromper un modèle.

Cette image d'un poisson (à gauche) est correctement classée, mais l'ajout d'une petite perturbation (au milieu) générée par la méthode du signe à gradient rapide (FGSM) provoque la classification par un classificateur de l'image résultante (à droite) en tant que chat.

Depuis lors, nous avons assisté à une course aux armements entre attaques contradictoires et défenses. Par exemple, un mécanisme de défense appelé distillation défensive (Papernot et al., 2015), considéré à la pointe de la technologie en 2015, a été attaqué avec succès par les méthodes de Carlini & Wagner (C & W) avec un taux de réussite de 100% en 2016. De plus, sept nouvelles Les mécanismes de défense acceptés à la sixième Conférence internationale sur les représentations d'apprentissage (ICLR) 2018 ont été contournés avec succès (Athalye et al., 2018) quelques jours à peine après la décision d'acceptation. Cela montre à quel point il est difficile de se défendre efficacement contre les attaques contradictoires.

Pourquoi devrais-je me préoccuper des attaques contradictoires?

Les implications de l’existence d’exemples contradictoires dans le monde réel ne peuvent être sous-estimées. Prenons l'exemple d'un propriétaire qui utilise un système de reconnaissance faciale comme élément de sécurité. Nous pouvons maintenant générer des lunettes contradictoires (Sharif et al., 2016) qui peuvent être imprimées et placées sur une vraie monture de lunettes afin de tromper les modèles de reconnaissance faciale.

Un homme qui porte des lunettes contradictoires (en haut) est grossièrement mal classé en tant que Milla Jovovich (en bas) (Sharif et al., 2016).

Un autre exemple concret où des exemples contradictoires pourraient être dangereux est la manipulation de panneaux de signalisation. Evtimov et al. (2017) ont généré un panneau d'arrêt contradictoire qui est toujours classé à tort comme un panneau de limitation de vitesse même lorsqu'il est vu à des distances et des angles différents. Les implications pour les véhicules autonomes sont claires.

Exemples de panneaux d'arrêt contradictoires classés à tort dans les panneaux de limitation de vitesse (Evtimov et al., 2017).

De plus, Carlini et Wagner (2018) ont montré qu'un modèle de reconnaissance vocale peut également être trompé en ajoutant du bruit de fond à une entrée. Ils modifient le fichier audio correspondant à la phrase «sans le jeu de données, l'article est inutile» pour que le modèle de reconnaissance vocale le transcrit en «ok google browse to evil dot com». Le son modifié, que vous pouvez écouter ici, sonne presque identique à l’être humain. Un tel son contradictoire est susceptible de causer de graves dommages lorsqu'il est utilisé sur des interfaces de parole sans méfiance dans les smartphones, les maisons intelligentes ou les voitures autonomes.

Un glossaire rapide

Examinons plusieurs termes fréquemment utilisés dans le domaine de l’apprentissage par la machine contradictoire:

  • Whitebox attack: scénario d'attaque dans lequel les attaquants ont un accès complet au modèle qu'ils veulent attaquer. En tant que tels, ils connaissent l'architecture et les paramètres du modèle.
  • Attaque de boîte noire: scénario d'attaque dans lequel les attaquants peuvent uniquement observer les sorties d'un modèle qu'ils tentent d'attaquer. Par exemple, attaquer un modèle d'apprentissage automatique via une API est considéré comme une attaque de type boîte noire, car on ne peut fournir que des entrées différentes et observer les sorties.
  • Attaque ciblée: scénario d'attaque dans lequel les assaillants conçoivent les adversaires de manière à ce qu'ils soient mal prédits. Par exemple, notre exemple audio plus tôt: de «sans jeu de données, l'article est inutile» à «ok google browse to evil dot com». L'alternative est une attaque non ciblée, dans laquelle les attaquants ne se soucient pas du résultat tant que l'exemple est mal prédit.
  • Attaque universelle: scénario d'attaque dans lequel les attaquants conçoivent une transformation unique, telle qu'une perturbation d'image, qui confond le modèle de manière adverse pour toutes les valeurs d'entrée ou la plupart des valeurs (agnostique d'entrée). Pour un exemple, voir Moosavi-Dezfooli et al. (2016).
  • Transférabilité: un phénomène dans lequel des exemples contradictoires générés pour duper un modèle spécifique peuvent être utilisés pour duper un autre modèle formé sur les mêmes jeux de données. C'est ce que l'on appelle souvent la propriété de transférabilité des exemples contradictoires (Szegedy et al., 2014; Papernot et al., 2016).

Nous allons maintenant examiner plusieurs méthodes intéressantes pour générer des attaques contradictoires basées sur la connaissance des attaquants, c’est-à-dire les boîtes blanches ou les boîtes noires, dans le domaine de la vision par ordinateur (les modèles de classification pour être exact), en traçant l’évolution du champ. Dans le prochain article, nous examinerons l'autre côté de la course aux armements: l'arsenal de mécanismes de défense contradictoire.

Chronologie des attaques contradictoires décrites dans cet article.

Comment les exemples contradictoires sont-ils générés?

Ontologie d'attaques contradictoires basée sur la connaissance des attaquants abordés dans cet article. Notez que cela ne représente pas nécessairement toutes les méthodes d'attaque existantes.

Perturbations adversaires additives de Whitebox basées sur dL / dx

Cette famille d'attaques est basée sur l'idée de perturber l'entrée de manière à modifier au maximum la fonction de perte du modèle. Dans le cas de réseaux de neurones, cela signifie que nous devons effectuer une propagation en arrière pour calculer la dérivée de la fonction de perte en fonction de son entrée (par opposition aux paramètres habituels lors de la formation des réseaux de neurones). Plus précisément, un attaquant cherche à trouver la direction optimale pour la perturbation et à pousser l’entrée dans cette direction, dans l’espoir que le modèle ne classera pas correctement l’entrée perturbée.

Illustration des attaques par boîte blanche pour les perturbations contradictoires additives basées sur dL / dx et les attaques basées sur l'optimisation itérative. Une fois que dL / dx est calculé (étape 1), le processus d’attaque peut être considéré comme un jeu dans lequel un joueur (l’attaquant) peut ajuster les valeurs en pixels (étape 2) de l’entrée en fonction de quelques indices, c’est-à-dire le gradient dL / dx. , pour tromper un modèle (étape 3).

Méthode de signe de gradient rapide (FGSM)

FGSM (Goodfellow et al., 2014) recherche le sens dans lequel la fonction de perte augmente le plus rapidement pour un modèle d'apprentissage machine cible. FGSM est un exemple d’attaque par Whitebox car l’attaquant doit connaître l’architecture du modèle et les paramètres pour effectuer la propagation en arrière. Une fois que le gradient est calculé, on peut pousser l'entrée vers le gradient accusatoire par une petite quantité.

Formulation FGSM. Ici, x ’est l’exemple contradictoire qui devrait ressembler à x lorsque ϵ est petit et y à la sortie du modèle. est une petite constante qui contrôle l'ampleur de la perturbation, et J désigne la fonction de perte du modèle.

Rien ne garantit que les exemples contradictoires générés par cette méthode sont similaires à sa contrepartie réelle. Pratiquement, il faut faire un compromis entre de petites perturbations qui sont visuellement similaires à l'entrée d'origine et si le modèle ne classifie pas correctement l'entrée perturbée.

Méthode itérative de base (BIM)

La BIM (Kurakin et al., 2017) est une extension du FGSM dans laquelle on effectue plusieurs fois le FGSM avec une taille de pas réduite. Dans d’autres documents, le BIM est également appelé FGSM itératif (I-FGSM).

Formulation BIM où J désigne la fonction de perte du modèle, N le nombre d'itérations et α une constante contrôlant l'ampleur des perturbations (Kurakin et al., 2017). La fonction Clip {} garantit que l’exemple contradictoire généré se situe toujours dans les limites de la ϵ balle (c’est-à-dire [x-ϵ, x + ϵ]) et de l’espace d’entrée (c.-à-d. [0, 255] pour les valeurs en pixels).

(R) andom + FGSM (R + FGSM)

Dans R + FGSM, Tramer et al. (2017) suggèrent d'ajouter quelques perturbations aléatoires échantillonnées à partir d'une distribution gaussienne avant de calculer la première dérivée de la perte par rapport à l'entrée.

Formulation R + FGSM où α est une autre constante qui contrôle l'amplitude des perturbations aléatoires échantillonnées à partir d'une distribution normale (Tramer et al., 2017).

La motivation de R + FGSM est de contourner les défenses reposant sur le masquage de gradient (Papernot et al., 2016), concept très important dans l’apprentissage automatique par confrontation. Les techniques de masquage de dégradé cherchent à masquer ou masquer le dégradé du modèle afin que l'attaquant ait plus de difficultés à calculer le dL / dx exact. Nous traiterons de cela dans le prochain article sur les défenses contradictoires.

Alerte spoiler: il a été démontré que les sept défenses acceptées dans l'ICLR 2018 qui ont été attaquées reposaient sur des gradients obfusqués (Athalye et al., 2018), qui constituent une forme de masquage de gradient.

Attaques Whitebox basées sur l'optimisation itérative de fonctions objectives de substitution

Ces attaques sont également des boites blanches et reposent sur dL / dx. Cependant, ils n'essayent pas d'utiliser naïvement le gradient calculé directement comme perturbation ajoutée. Au lieu de cela, ces attaques définissent l'attaque contradictoire comme un problème d'optimisation permettant de trouver une mise à jour d'une entrée qui optimise une fonction objective. Modéliser cela comme un problème d'optimisation permet de faire preuve de souplesse en incorporant des critères plus contradictoires dans la fonction objectif.

L-BFGS Attaque

Szegedy et al. (2014) ont défini un exemple contradictoire comme des entrées qui ressemblent beaucoup à leurs équivalents réels selon une métrique de distance (par exemple, distance L2 par exemple, distance euclidienne ou erreur quadratique moyenne), mais qui a pour effet qu'un classifieur la classifie de manière erronée. Le Broyden-Fletcher-Goldfarb-Shanno (L-BFGS) à mémoire limitée est un algorithme d'optimisation numérique à gradient non linéaire. Cependant, depuis Szegedy et al. (2014) ont défini le problème comme un problème d'optimisation pouvant être résolu à l'aide de L-BFGS, l'attaque étant désormais souvent appelée attaque L-BFGS. L’attaque de L-BFGS vise à trouver une perturbation r qui minimise:

L'attaque de L-BFGS cherche à résoudre ce problème d'optimisation où r est la perturbation (Szegedy et al., 2014).

Dans la formulation ci-dessus, l'objectif est de faire en sorte que le classifieur f classifie mal x + r en tant que classe l. La fonction de perte utilisée ici est la perte d'entropie croisée, mais elle peut être remplacée par d'autres fonctions de substitution, comme nous le verrons lors de la prochaine attaque. Ici, la recherche de ligne est utilisée pour trouver la constante minimale c où c> 0 jusqu'à ce qu'un adversaire soit trouvé.

Carlini & Wagner Attack (C & W)

Carlini & Wagner (2016) ont étendu l'attaque L-BFGS en modifiant la fonction objectif au lieu d'utiliser la perte par entropie croisée standard:

La fonction de perte utilisée dans l'attaque C & W. Notez le changement de notation où f représente maintenant la fonction de perte du classificateur, pas le classificateur lui-même. Ici, Z (x ') désigne les logits (les sorties d'un réseau de neurones avant la couche softmax) lors du passage de l'entrée accusatoire (x') et t représente l'étiquette de classification erronée cible (l'étiquette que nous voulons que l'adversaire soit classé de manière erronée). , tandis que κ est une constante qui contrôle le niveau de confiance souhaité (Carlini & Wagner, 2016).

L'intuition de cette fonction objectif est d'optimiser la distance entre la classe cible t et la classe la plus probable. Si t a actuellement la valeur logit la plus élevée, la différence entre les logits sera négative et l'optimisation cessera dès que la différence logit entre t et la classe suivante sera au plus égale à κ. En d'autres termes, κ contrôle la confiance souhaitée pour l'exemple accusatoire (par exemple, lorsque κ est petit, l'exemple accusatoire généré sera un exemple accusatoire à faible confiance). D'autre part, si t n'a pas le logit le plus élevé, minimiser f rapproche ainsi l'écart entre le logit de la classe la plus élevée et le logit de la classe cible, c'est-à-dire soit en réduisant la confiance de la classe la plus élevée et / ou en augmentant la classe cible. 'confiance. Enfin, l'objectif du problème d'optimisation consiste maintenant à minimiser:

Objectif d'optimisation légèrement modifié. Ici, w est la variable sur laquelle nous voulons optimiser (Carlini & Wagner, 2016).

Carlini & Wagner (2016) ont en fait proposé trois attaques différentes sous trois mesures de similarité perceptuelle différentes (L0, L2 et L∞). Pour simplifier, je ne fais que montrer l’attaque L2 dans cet article, mais n'hésitez pas à consulter leurs autres attaques dans le journal. Comme mentionné précédemment, ces attaques ont réussi à contourner la distillation défensive.

Réseau de transformation contradictoire (ATN)

L'idée d'ATN (Baluja & Fischer, 2017) est d'utiliser un autre réseau de neurones dont l'objectif est de générer (1) des exemples contradictoires qui ressemblent aux entrées valides (Adencarial Autoencoding ou AAE) ou (2) des perturbations contradictoires qui, lorsqu'elles sont ajoutées. à l’instance originale produira des exemples contradictoires (Perturbation ATN ou P-ATN). L’objectif du générateur est de minimiser la perte de similarité entre l’image générée et l’entrée valide (par exemple, la perte L2), tout en essayant également de minimiser la perte de classification entre les prédictions du classifieur et les fausses cibles.

Illustration de AAE. Notez que cette figure ne provient pas du papier, mais a été créée à des fins de visualisation uniquement. Baluja & Fischer (2017) ont utilisé la perte L2 pour les deux termes de perte dans leur papier pour plus de simplicité.Illustration de P-ATN. Notez que cette figure ne provient pas du papier, mais a été créée à des fins de visualisation uniquement. Baluja & Fischer (2017) ont utilisé la perte L2 pour les deux termes de perte dans leur papier pour plus de simplicité.

Notez qu'un générateur ne peut être formé que pour générer des exemples contradictoires (ou des perturbations) qui seront classés à tort dans une certaine classe par le classifieur cible. Par conséquent, il est nécessaire de former différents ATN afin de générer des exemples contradictoires classés à tort dans différentes classes. Bien que cela ne soit pas mentionné ici, Baluja et Fischer (2017) ont également proposé une fonction de «réenregistrement» pour modifier le libellé de la formation afin que les exemples contradictoires générés ne modifient que de manière minime la sortie du classifieur cible. Les lecteurs curieux sont invités à consulter leur journal :)

Réseau transformé spatialement (stAdv)

L'idée derrière l'attaque stAdv (Xiao et al., 2018) est très similaire à celle des attaques L-BFGS et C & W. En fait, stAdv utilise la fonction de perte dans l'attaque C & W pour l'objectif de classification. La différence entre les attaques stAdv et C & W L2 réside dans le fait qu'au lieu d'essayer d'optimiser la distance L2 en tant que métrique de similarité perceptuelle, stAdv vise à obtenir une similarité perceptuelle en optimisant la similarité géométrique. En d'autres termes, plutôt que de modifier directement les valeurs des pixels, ils ont modifié de manière minimale la localisation spatiale des pixels. Cela se fait en dérivant des champs de flux, décrivant le mouvement effectué sur chaque pixel.

stAdv suggère de minimiser cette fonction de perte en tant que métrique de similarité perceptuelle plutôt que de minimiser la distance L2. Ici, (u, v) désigne l'emplacement spatial de chaque pixel (p), N (p) désigne les pixels voisins autour de p dans un rayon spécifié et q est l'un des pixels voisins. Enfin, f est le champ de flux qui indique la quantité de transformation spatiale (Xiao & Zhu et al., 2018).

L’exemple contradictoire résultant peut alors être calculé à l’aide de la formulation suivante:

Comment calculer l'exemple contradictoire à partir des mises à jour de localisation spatiale de chaque pixel (Xiao & Zhu et al., 2018).

La motivation derrière cette attaque est que les métriques de distance telles que la distance L2 ne représentent pas nécessairement de bonnes métriques de perception. Inversement, la limitation de la déformation spatiale dans une image produit généralement une image perturbée qui ressemble à l'image d'origine. Nous pouvons voir les résultats dans la figure ci-dessous où les pixels ont été déplacés. Les flèches rouges indiquent comment les pixels sont déplacés d'une image bénigne à une image contradictoire.

Résultats de stAdv. L'image contradictoire à droite est classée à tort comme un chiffre «2» au lieu de «0» (Xiao et al., 2018).

Adversaires de la boîte noire basés sur le rapprochement des limites de décision

Dans un contexte de boîte noire, les attaquants n’ont pas accès à la structure du modèle et ne peuvent donc pas calculer directement dL / dx. Par conséquent, cette famille d’attaques repose sur diverses méthodes permettant de déterminer le comportement d’un modèle en fonction des entrées fournies. Cela peut être considéré comme un scénario entre un psychologue (un agresseur) et un patient (un modèle), où le psychologue pose de nombreuses questions à un patient et analyse le comportement d'une patiente en fonction de ses réponses.

Substitute Blackbox Attack

L'intuition derrière l'attaque de substitution de la boîte noire (Papernot et al., 2016) est d'approcher la limite de décision du modèle de la boîte noire que nous voulons attaquer. Pour ce faire, l'approche consiste à former un modèle de substitution sur un jeu de données synthétique similaire au jeu de données sur lequel le modèle de boîte noire est formé. Par exemple, supposons que nous voulions attaquer un modèle de boîte noire formé sur MNIST pour effectuer une reconnaissance manuscrite. Dans le cas le plus simple, nous pouvons générer les données synthétiques manuellement à l'aide de notre propre écriture. L’astuce ici est que l’étiquette de l’ensemble de données synthétiques doit provenir de la prédiction du modèle de boîte noire.

Illustration de l'attaque de substitution par la boîte noire. L’attaque se déroule en quatre étapes principales: 1) former le modèle de substitution pour qu’il se rapproche de la décision du modèle de boîte noire, 2) générer des exemples contradictoires en effectuant une attaque par boîte blanche (par exemple, FGSM) sur le modèle de substitution, 3) valider le fait que les exemples contradictoires tromper le modèle de substitution, et 4) les exemples contradictoires générés devraient être transférables pour tromper le modèle de la boîte noire.

Papernot et al. (2016) ont noté qu'un attaquant est souvent empêché de faire une requête illimitée au modèle cible dans le monde réel. Pour que cette méthode soit modifiable, une technique d’extension de jeu de données appelée augmentation d’ensembles de données basée sur Jacobian a été introduite. Cette technique d’augmentation repose sur le calcul des gradients de l’étiquette attribuée par le modèle cible par rapport aux entrées afin de générer plusieurs échantillons supplémentaires autour d’un petit jeu de données synthétiques initial. Cependant, l'attaquant ne connaissant rien du modèle cible, les gradients sont calculés via les paramètres du modèle de substitution. Papernot et al. (2016) ont fait valoir que cette technique d'augmentation rend cette méthode plus efficace pour approcher la limite de décision du modèle cible sans avoir à effectuer un grand nombre de requêtes.

La procédure de formation pour le modèle de substitution utilisant la méthode d’augmentation de données proposée est la suivante. L’attaquant a d’abord créé un petit ensemble d’entraînement initial, dans lequel il peut être initialisé en sélectionnant un échantillon dans chaque classe possible dans un ensemble de données représentant le domaine en entrée du modèle cible. Le modèle de substitution est ensuite formé sur l'ensemble de données synthétiques à l'aide d'étiquettes fournies par le modèle cible (par exemple, en interrogeant le modèle cible). Une fois le processus de formation terminé, de nouveaux points de données sont générés en perturbant chaque échantillon du jeu de données existant en fonction des gradients calculés. Enfin, les nouvelles entrées sont ajoutées à l'ensemble de données existant, c'est-à-dire que la taille de l'ensemble de données synthétiques augmente par itération. Ce processus est ensuite répété plusieurs fois.

Une fois que le modèle de substitution est formé, nous pouvons générer des exemples contradictoires qui trompent le modèle de substitution à l'aide des méthodes de boîte blanche, car nous avons un accès complet au modèle de substitution. Comme démontré par Papernot et al. (2016), les exemples contradictoires générés de cette manière peuvent ensuite être utilisés pour tromper le modèle de boîte noire grâce à la propriété de transférabilité. De plus, cette attaque peut souvent être utilisée pour contourner les défenses reposant sur le masquage de gradient, telles que la distillation défensive (Papernot et al., 2015).

Adversaires Blackbox basés sur une recherche heuristique

Contrairement aux autres attaques qui utilisent explicitement dL / dx, des exemples contradictoires peuvent également être trouvés en effectuant une recherche heuristique. Par exemple, vous pouvez créer un ensemble de règles qui caractérisent les exemples contradictoires et utiliser des algorithmes de recherche pour trouver une entrée qui satisfait à ces règles.

Attaque de frontière

L'attaque par la frontière (Brendel et al., 2018), également une forme d'attaque par la boîte noire, fonctionne en évaluant une séquence d'images perturbées à travers le modèle. Pour une attaque non ciblée, l'image de départ peut être échantillonnée à partir d'un bruit uniforme. Dans le cas d'une attaque ciblée, l'image de départ est un exemple tiré de la classe de classification erronée cible. La méthode modifie ensuite l'image de manière itérative pour ressembler davantage à un exemple d'une autre classe tout en préservant sa nature contradictoire. L'intuition derrière l'attaque de frontière est de se déplacer lentement dans la direction de la frontière de décision et de marcher au hasard le long de la frontière.

Algorithme simplifié de l'attaque limite non ciblée (adapté du document). L’attaquant ayant seulement besoin d’évaluer la prédiction du modèle, cette attaque entre dans la catégorie des attaques par boîte noire.

En pratique, Brendel et al., 2018, ont défini certaines contraintes qui doivent être satisfaites après l'échantillonnage du bruit η dans l'algorithme ci-dessus. Les première et seconde contraintes garantissent que l'image est toujours dans [0, 255] (par exemple, pour une image RVB 8 bits) lorsque η est ajouté à l'image et que la perturbation est faible, respectivement. La dernière contrainte est de s'assurer que η réduira la distance entre l'image perturbée et l'entrée d'origine tout en restant contradictoire. Nous renvoyons les lecteurs à leur document pour les détails de la mise en œuvre.

Illustration de l'attaque de frontière ciblée. On peut générer un exemple contradictoire en continuant d’ajouter du bruit ηspecté à partir d’un «banc de bruit» (par exemple, un bruit gaussien) à un exemple bénin jusqu’à ce que l’image ressemble à une autre image d’une autre classe, tout en restant classée comme la vraie classe de l’original. image (à t = 0).

La figure ci-dessus illustre l’attaque-frontière ciblée, dans laquelle nous partons d’une image valide d’une classe pour laquelle nous voulons que l’adversaire soit classé à tort dans la catégorie (un poisson), puis nous nous dirigeons vers la direction de l’entrée valide d’une autre classe (un chat) sur plusieurs cibles). itérations.

Conclusion

Résumons les différents types d’attaques abordés ici:

  • Certaines attaques reposent sur la dérivée du premier ordre en calculant la dérivée de la perte par rapport à une entrée et en poussant cette entrée dans la direction où la perte augmentera (FGSM, BIM, R + FGSM).
  • D'autres attaques sont basées sur un processus d'optimisation itératif sur différentes fonctions objectives (L-BFGS, C & W, stAdv), qu'elles utilisent L-BFGS, Adam (Kingma & Ba, 2014) ou d'autres méthodes d'optimisation. L'avantage de la modélisation de l'attaque contradictoire en tant que problème d'optimisation est de permettre à un attaquant de incorporer des critères plus contradictoires à la fonction objectif. En outre, des exemples contradictoires peuvent également être générés en formant un modèle de transformation générative à optimiser pour les fonctions objectives (ATN).
  • Nous pouvons nous appuyer sur la propriété de transférabilité des exemples contradictoires et attaquer un modèle de boîte noire en attaquant un modèle de substitution formé aux jeux de données synthétiques étiquetés par le modèle de boîte noire (attaque par substitution de boîte noire).
  • Enfin, une autre attaque de type blackbox peut être réalisée en partant d'un point de données situé en dehors de la variété de données de la classe cible et en essayant de se rapprocher de la limite de décision entre classe accusatoire et non-accusatoire, en effectuant une marche aléatoire le long de la limite de décision via la méthode d'échantillonnage par rejet. (attaque de frontière).

J'espère que cet article sera utile à lire et qu'il suscitera davantage d'intérêt dans le domaine de l'apprentissage automatique contradictoire. Dans le prochain post, nous verrons plusieurs méthodes de défense et comment la plupart de ces défenses peuvent être contournées («apprentissage méta-contradictoire»; apprendre à générer des techniques d’attaque contradictoires qui déjouent les défenses adverses!). N'hésitez pas à fournir des suggestions dans la section commentaire si je manque quelque chose ou si vous avez des demandes spécifiques pour le prochain post. Jusqu'à la prochaine fois!

Merci à Anqi Xu, Archy de Berker, Morgan Guegan et Wei-Wei Lin pour leurs précieux commentaires et illustrations!