PAPIERS 101 - Comment une IA a-t-elle appris à voir dans le noir?

Bonjour, je suis Nishank et je suis le bienvenu à PAPERS 101, une série de discussions sur les nouvelles et passionnantes recherches en cours dans le domaine de l'apprentissage automatique et de l'intelligence artificielle!

Je voudrais remercier Two Minute Papers et Károly Zsolnai-Fehér de m'avoir présenté ce document via leur chaîne YouTube.

Avant de commencer, n’oubliez pas de vous abonner à notre newsletter pour ne jamais manquer une histoire de clickbait!

Que diable?

À l'ère des caméras pour smartphones, la photographie en basse lumière est un must. Tous les téléphones phares prennent en charge la photographie en basse lumière, mais comme vous l'avez sûrement remarqué, les résultats ne sont pas très bons.

En effet, ils utilisent principalement des techniques de débruitage et de réduction de bruit traditionnelles qui sont efficaces pour éliminer certains bruits mais échouent lamentablement dans des conditions extrêmes telles que la noirceur, ce qui représente un gros défi.

Ce document est une solution à ce défi.

La vision par ordinateur est un domaine de l'intelligence artificielle qui consiste à obtenir une entrée visuelle et à donner un sens à l'entrée reçue ou à la manipuler d'une manière ou d'une autre pour obtenir le résultat souhaité. Le document qui nous intéresse ici fonctionne sur le deuxième cas d'utilisation.

Dans leur article «Apprendre à voir dans le noir», les chercheurs Chen Chen (UIUC), Qifeng Chen (Intel Labs), Jia Xu (Intel Labs) et Vladlen Koltun (Intel Labs) ont proposé un modèle qui permet de voir sous un éclairage extrêmement faible. conditions presque comparables à l'obscurité à l'aide d'un nouveau pipeline de traitement d'images utilisant le réseau de neurones à convolution.

Les résultats sont stupéfiants!

Si vous prenez une photo en utilisant un appareil photo sans photographie en basse lumière (ISO faible), cela ressemblera à quelque chose comme ceci-

Si vous cliquez sur la même image avec un appareil photo basse lumière comme dans les smartphones phares, le résultat serait similaire à celui présenté ci-dessous. Remarquez le grain de la photo à cause des filtres de redimensionnement tels que BM3D et ISO inférieur.

Mise à l'échelle + Denoisement BM3D

Le réseau entièrement convolutionnel prend maintenant la première image et la traite pour obtenir l'image ci-dessous (oui! Je ne plaisante pas.)

Image après traitement via CNN

Attends quoi!

Le modèle utilisé ici utilise un réseau entièrement convolutionnel formé de bout en bout, qui utilise un jeu de données d'images brutes de nuit à exposition courte, avec les images de référence à longue exposition correspondantes. Il est ainsi très facile d’obtenir des résultats de scénarios extrêmes, tels que la photographie de nuit, par rapport aux techniques traditionnelles de débruitage et de débruitage.

Comment le CNN est-il formé?

Le CNN est formé sur deux séries d'images.

  1. Une scène faiblement éclairée (presque sombre) ou une image à exposition courte en tant qu'entrée.
  2. Scène d'éclairage normal correspondante ou image à longue exposition de la même scène que la cible.

Le réseau neuronal est formé sur un jeu de données contenant 5094 images brutes d'exposition courte et leurs images correspondantes d'exposition longue.

Donc, si vous souhaitez former le réseau, vous devez d'abord cliquer sur une photo dans des conditions d'éclairage normales qui sera utilisée comme variable cible pour obtenir une erreur du réseau.

Ensuite, vous devrez cliquer sur une photo à faible exposition de la même scène pour qu’elle ait l’air sombre. Ceci sera donné comme entrée au réseau pendant la formation.

La paire de ces deux photographies produira une paire (entrée, sortie) pour le réseau sur lequel elle sera formée pour être utilisée sur des images test à faible luminosité.

FCN Pipeline

La formation a été réalisée à l'aide de la perte L1 et d'un Adam Optimizer, ce qui a donné des résultats d'une qualité exceptionnelle et rend le modèle plus efficace jusqu'à maintenant!

C'est bon?

Ce modèle fait honte aux méthodes traditionnelles de réduction et de réduction du bruit. Voici une comparaison avec le débruitage traditionnel BM3D -

Image utilisant la mise à l'échelle traditionnelleImage utilisant Scaling + BM3D DenoisingImage après traitement via CNN

Vous pouvez immédiatement remarquer la différence.

Si nous comparons les performances du CNN avec des caméras mobiles phares utilisant différents paramètres tels que l'exposition et l'éclairage, les résultats risquent de vous surprendre!

Prenons un scénario où 8 bougies sont allumées dans une pièce sombre et que des modifications sont observées sur la photographie d’un mannequin par différentes caméras, le nombre de bougies étant divisé par 2 en chaque fois.

8 bougies4 bougies

Notez que la qualité de la photo diminue avec iPhone X et Google Pixel 2 par rapport à Sony a7S. Cela s'explique par le fait qu'une caméra Sony a un meilleur ISO que les deux caméras mobiles. Ces dernières utilisent des techniques traditionnelles d'élimination du flou et de réduction du bruit pour obtenir une photo à faible luminosité à partir de données brutes.

2 bougies1 bougie

Maintenant, la photo est presque noire dans les deux caméras de smartphone et il est concluant qu'elles ont échoué dans des conditions extrêmes, telles que la noirceur.

Cependant, la photo de la caméra Sony est toujours nette, car, comme vous l’auriez peut-être remarqué, le temps d’exposition est passé de 0,8 seconde à 1,6 seconde, ce qui permet à plus de lumière d'entrer et d'obtenir une meilleure photo.

Cela n’est pas pratique pour les caméras de smartphone car cela donnerait une image floue et ne peut donc être utilisé que sur des caméras coûteuses et haut de gamme qui ont un objectif plus réfléchissant et un capteur très efficace.

Mais voyons ce qui se passera si nous réduisons le temps d’exposition à 1/30 de seconde, c’est-à-dire la qualité de fonctionnement des appareils photo dans des conditions de lumière extrêmement faible et avec un temps d’exposition faible.

1 bougie - faible exposition

Comme vous pouvez le voir à ce stade, toutes les caméras ont échoué et nous observons une obscurité totale. Ceci est dû à deux raisons différentes -

  1. Dans les caméras mobiles, cela s’est produit parce qu’elles utilisent des techniques traditionnelles de réduction du flou et de réduction du bruit, telles que la réduction du bruit BM3D, qui échouent lorsque la quantité de lumière est très réduite et qu’elle n’a rien à faire.
  2. Dans l’appareil photo Sony, cela s’est produit en raison de la réduction du temps d’exposition, ce qui a permis à la caméra de recevoir moins de lumière, d’où une image sombre.

Mais attendez. Pouvons-nous faire quelque chose pour obtenir une meilleure image en 1/30 de seconde de temps d'exposition et dans des conditions de lumière extrêmement faible (<0,1 lux)?

Soyez prêt à être surpris, car ce document a fait exactement ce que nous voulons!

Si les données de capteur brutes de l'image ci-dessus (celle avec les photos les plus sombres) avec 1 bougie et une exposition faible sont introduites dans le réseau entièrement convolutif, nous obtiendrons un résultat qui ressemble à ceci!

Quoi! Vous plaisantez j'espère!

Surpris? Moi aussi!

J'espère que cette technologie sera très bientôt implémentée dans les caméras pour smartphones et que vous commencerez à profiter de la photographie extrêmement faible en lumière offerte par l'apprentissage automatique!

Et c’est le pouvoir de l’apprentissage automatique et des réseaux de neurones.

Ce sont de telles applications qui motivent de plus en plus de personnes à étudier le Machine Learning et les réseaux de neurones. C'est précisément la raison pour laquelle j'ai lancé clickbait et la raison pour laquelle PAPERS 101 a vu le jour!

N'hésitez pas à poster dans les commentaires ce que vous pensez de ce document.

De plus, les commentaires sont les bienvenus pour les commentaires sur PAPERS 101 et ClickBait.

Eh bien, c’est tout pour cette semaine et jusqu’à la prochaine fois!

Adios!