Une nouvelle compréhension de la normalisation par lots

La normalisation par lots (BN) a été introduite par [1] en 2015. Depuis lors, elle a été utilisée dans les modèles d'apprentissage les plus approfondis pour améliorer la formation et la robustesse permettant de sélectionner le taux d'apprentissage ainsi que l'initialisation des paramètres.

BN a été conçu pour réduire le décalage de la covariable interne (ICS) de chaque couche en normalisant les deux premiers moments - moyenne et variance. Dans le même temps, cela n’affecte pas la capacité du réseau à produire la distribution d’activation souhaitée en utilisant une paire de paramètres pouvant être appris (gamma et bêta).

Un article récent [2] jette un nouvel éclairage sur le BN et le gain de performance obtenu en utilisant la technique de normalisation. Basé sur des expériences, il rapporte:

  • L'ICS n'est pas un bon prédicteur des performances d'entraînement
  • Le gain de performance obtenu en utilisant le BN ne découle pas d'une réduction du SCI
  • BN fournit plutôt un effet de lissage sur le paysage d'optimisation, ce qui améliore la robustesse des modèles à l'hyperparamètre tel que le taux d'apprentissage.

Expérience 1

La figure 1 ci-dessous (tirée de [2]) montre trois ensembles d'apprentissage d'un réseau VGG. Le premier réseau est formé sans BN, le second est formé avec BN; enfin, le troisième réseau se voit injecter une instabilité de distribution après chaque BN utilisé en ajoutant du bruit de variance moyen non différent et variant dans le temps. Le bruit provoque essentiellement un ICS élevé, éventuellement supérieur au réglage standard.

Figure 1 [2], résultats de l'expérience 1

Les résultats démontrent que même avec une augmentation du CSI par addition de bruit, le gain de performance est toujours obtenu (trait rose). Cela indique que la réduction du SCI ne constitue pas le facteur d'amélioration des performances.

Expérience 2

ICS capture, pour chaque couche de réseau neuronal, la modification du problème d'optimisation en raison des modifications apportées aux entrées de chaque couche lorsque les paramètres des couches précédentes sont mis à jour à l'aide de la descente de gradient. En réaction à ce "décalage", chaque couche doit ajuster ses paramètres, provoquant souvent la disparition ou l’explosion de gradients [1].

Cette idée de changement dans le paysage d’optimisation serait également reflétée par les changements de gradients des paramètres de la couche. Un changement de gradient plus élevé refléterait un changement plus important dans le paysage d'optimisation. [2] en tient compte en mesurant la différence entre les gradients de chaque couche avant (G) et après la mise à jour de toutes les couches précédentes (G ’). Une valeur inférieure de la différence l2 indiquerait un ICS plus petit, car le paysage reste similaire.

Figure 2 [2], résultats de l'expérience 2

[2] étudie en outre le lien entre le SCI et le BN en traçant la différence (et l'angle cosinus) de l2 des deux gradients (voir la figure 2). On peut voir sur la figure ci-dessus que l'utilisation de BN n'indique pas une réduction du SCI.

Alors, que fait la normalisation par lots?

Le paysage d’optimisation d’un réseau de neurones profonds peut être constitué de nombreuses régions plates et de points d’accroche, ce qui rend le problème non convexe. De telles régions entraînent une disparition du gradient (régions plates) ou une explosion du gradient (pentes abruptes). Cela augmente la sensibilité au taux d'apprentissage et à l'initialisation des paramètres, rendant l'optimisation instable.

[2] fait référence à une lipchitzness plus élevée des gradients utilisant BN, ce qui signifie effectivement une plus grande douceur du paysage d'optimisation. Ceci peut être observé à la figure 3, qui trace la pente de la perte lors d’une étape d’entraînement et mesure l’évolution de la perte dans cette direction.

Figure 3 [2]

De la figure 3, BN donne un profil plus lisse. Cela rend le gradient plus prévisible, c'est-à-dire qu'à chaque étape, il est plus probable que le gradient reste similaire pour les prochaines étapes. Cette prévisibilité permet de faire des pas plus importants dans la direction du gradient sans perte de stabilité.

Enfin, [2] conclut également que l'effet de lissage de BN peut être la raison d'une meilleure généralisation des réseaux. C’est parce que le BN pousse l’optimisation vers des minima plats.

Références:
[1] Ioffe S, Szegedy C. Normalisation des lots: accélération de la formation réseau approfondie en réduisant le décalage de covariable interne. préimpression arXiv arXiv: 1502.03167. 11 février 2015.
[2] Santurkar S, D Tsipras, Ilyas A, Madry A. Comment la normalisation par lots aide-t-elle à l'optimisation? (Non, il ne s'agit pas d'un décalage de covariable interne). préimpression arXiv arXiv: 1805.11604. 2018 29 mai.