Une année en vision par ordinateur - Partie 2 de 4

- Deuxième partie: Segmentation, super-résolution / colorisation / transfert de style, reconnaissance des actions

Remarque: si vous voulez des robots chez vous et que vous souhaitez que cela se produise plus tôt que prévu, veuillez répondre à notre très bref sondage. Vos réponses aident à orienter nos projets de recherche et de robotique en environnement simulé

Donnez 3 minutes de votre temps: https://forms.gle/hPiP1p3sJ734Hzk19
Merci de bien vouloir!
Le texte suivant est tiré d'une publication récente de notre équipe de recherche dans le domaine de la vision par ordinateur. Les parties 1 et 2 sont actuellement disponibles sur notre site Web, les parties restantes (trois et quatre) devant être publiées dans un proche avenir.

La publication intégrale sera disponible gratuitement sur notre site web dans les prochaines semaines. Les parties 1 et 2 sont disponibles dès maintenant sur: www.themtank.org

Nous encourageons les lecteurs à consulter l'article sur notre propre site Web, car nous intégrons du contenu intégré et des fonctions de navigation simples pour rendre le rapport aussi dynamique que possible. Notre site Web ne génère aucun revenu pour l'équipe et vise simplement à rendre le matériel aussi attrayant et intuitif que possible pour les lecteurs. Tous les commentaires sur la présentation sont les bienvenus!

Suivez, partagez et soutenez notre travail, quels que soient vos canaux préférés (et applaudissez à votre coeur!). N'hésitez pas à contacter les éditeurs pour toute question ou pour savoir si vous pourriez contribuer aux travaux futurs: info@themtank.com

Segmentation

Le processus de segmentation consiste à diviser des images entières en groupes de pixels pouvant ensuite être étiquetés et classés. De plus, la segmentation sémantique va plus loin en essayant de comprendre sémantiquement le rôle de chaque pixel dans l'image, par ex. Est-ce un chat, une voiture ou un autre type de cours? La segmentation d'instances va encore plus loin en segmentant différentes instances de classes, par exemple. étiqueter trois chiens différents avec trois couleurs différentes. C'est l'une des nombreuses applications de Computer Vision actuellement utilisées dans les suites de technologies de conduite autonome.

Peut-être que certaines des meilleures améliorations dans le domaine de la segmentation proviennent de FAIR, qui continue de s'appuyer sur son travail DeepMask de 2015 [46]. DeepMask génère des «masques» approximatifs sur les objets en tant que forme initiale de segmentation. En 2016, Fair a introduit SharpMask [47], qui affine les ‘masques’ fournis par DeepMask, corrigeant la perte de détails et améliorant la segmentation sémantique. En plus de cela, MultiPathNet [48] identifie les objets délimités par chaque masque.

«Pour capturer la forme générale d'un objet, vous devez avoir une compréhension de haut niveau de ce que vous regardez (DeepMask), mais pour placer avec précision les limites, vous devez regarder en arrière les entités de niveau inférieur jusqu'aux pixels ( SharpMask). ”- Piotr Dollar, 2016. [49]
Figure 6: Démonstration des techniques FAIR en action
Remarque: Les images ci-dessus illustrent les techniques de segmentation utilisées par FAIR. Celles-ci incluent l'application des techniques DeepMask, SharpMask et MultiPathNet qui sont appliquées dans cet ordre. Ce processus permet une segmentation et une classification précises dans diverses scènes. Source: dollar (2016) [50]

Les réseaux de propagation vidéo [51] tentent de créer un modèle simple pour propager des masques d'objet précis, attribués à la première image, dans toute la séquence vidéo ainsi que des informations supplémentaires.

En 2016, les chercheurs ont travaillé à la recherche de configurations de réseau alternatives pour résoudre les problèmes d'échelle et de localisation susmentionnés. DeepLab [52] en est un exemple qui donne des résultats encourageants pour les tâches de segmentation d’images sémantiques. Khoreva et al. (2016) [53] s’appuient sur les travaux antérieurs de Deeplab (vers 2015) et proposent une méthode de formation faiblement supervisée qui permet d’obtenir des résultats comparables à ceux des réseaux entièrement supervisés.

Computer Vision a encore affiné l’approche de partage d’informations utiles en réseau grâce à l’utilisation de réseaux de bout en bout, qui permettent de réduire les besoins informatiques en matière de sous-tâches omnidirectionnelles multiples pour la classification. Les deux principaux documents utilisant cette approche sont:

  • 100 couches Le tiramisu [54] est un réseau DenseNet entièrement convolutionnel qui connecte chaque couche, une couche sur deux, de manière rétroactive. Il réalise également SOTA sur plusieurs jeux de données de référence avec moins de paramètres et de formation / traitement.
  • La segmentation sémantique entièrement compatible avec les instances [55] effectue conjointement la prédiction et la classification des masques d'instances (deux sous-tâches).
    Gagnant du défi de segmentation COCO, MSRA. 37,3% AP.
    Saut absolu de 9,1% par rapport au MSRAVC en 2015 dans le challenge COCO.

ENet [56], une architecture DNN pour la segmentation sémantique en temps réel, ne fait pas partie de cette catégorie, mais elle démontre les avantages commerciaux de la réduction des coûts de calcul et de l’élargissement de l’accès aux appareils mobiles.

Notre travail souhaite relier le plus grand nombre possible de ces avancées à des applications publiques tangibles. Dans cet esprit, ce qui suit contient certaines des applications de segmentation les plus intéressantes pour la santé en 2016;
  • Un repère pour la segmentation de scènes endoluminales d'images de coloscopie [57]
  • Réseaux 3D entièrement convolutifs pour la segmentation sous-corticale en IRM: une étude à grande échelle [58]
  • Apprentissage semi-supervisé à l'aide d'auto-encodeurs dénoisants pour la détection et la segmentation des lésions cérébrales [59]
  • Segmentation d'images par ultrasons 3D: une enquête [60]
  • Une approche de prédiction structurée basée sur un réseau de neurones entièrement convolutionnelle vers la segmentation du vaisseau rétinien [61]
  • Réseaux De Neurones De Convolution 3-D Pour La Segmentation De Glioblastome [62]

Une de nos applications de segmentation quasi médicales préférées est FusionNet [63] - un réseau de neurones convolutionnels totalement résiduels pour la segmentation d'images en connectomique [64] comparée aux méthodes de segmentation par microscopie électronique (EM) SOTA.

Super résolution, transfert de style et colorisation

Toutes les recherches dans Computer Vision ne servent pas à étendre les capacités pseudo-cognitives des machines et, souvent, la malléabilité légendaire des réseaux de neurones, ainsi que d'autres techniques de ML, se prêtent à de nombreuses autres applications novatrices qui se répandent dans l'espace public. Les progrès de l’an dernier en matière de super-résolution, de transfert de couleurs et de colorisation ont occupé cet espace pour nous.

La super-résolution fait référence au processus d'estimation d'une image haute résolution à partir d'une contrepartie basse résolution, ainsi qu'à la prédiction de caractéristiques d'image à différents grossissements, ce que le cerveau humain peut faire presque sans effort. À l'origine, la super-résolution était réalisée à l'aide de techniques simples telles que l'interpolation bicubique et les voisins les plus proches. En ce qui concerne les applications commerciales, le désir de surmonter les contraintes de faible résolution liées à la qualité de la source et à la réalisation d’une amélioration de l’image de style «CSI Miami» a motivé la recherche sur le terrain. Voici quelques-unes des avancées de l’année et de leur impact potentiel:

  • Neural Enhance [65] est une idée originale d'Alex J. Champandard. Il combine les approches de quatre documents de recherche différents pour réaliser sa méthode de super-résolution.

La super résolution vidéo en temps réel a également été tentée en 2016 dans deux cas notables; [66], [67]

  • RAISR: La super-résolution rapide et précise des images [68] de Google évite les exigences coûteuses en matière de mémoire et de rapidité des approches utilisant des réseaux neuronaux en formant des filtres avec des paires d'images en basse résolution et en haute résolution. RAISR, en tant que cadre basé sur l'apprentissage, est deux fois plus rapide que les algorithmes concurrents et a des besoins en mémoire minimaux par rapport aux approches basées sur un réseau de neurones. Par conséquent, la super-résolution peut être étendue aux appareils personnels. Un blog de recherche est disponible ici. [69]
Figure 7: exemple SRGAN super-résolution
Remarque: De gauche à droite: interpolation bicubique (objectif le moins performant pour le focus), réseau résiduel profond optimisé pour MSE, réseau accusatoire résiduel profond optimisé pour une perte plus sensible à la perception humaine, image originale en Haute Résolution (HR). Le rapport signal sur bruit (PSNR) et la similarité structurelle (SSIM) correspondants sont indiqués entre deux crochets. [4 x upscaling] Le lecteur voudra peut-être zoomer sur les deux images du milieu (SRResNet et SRGAN) pour voir la différence entre le lissage de l'image et des détails plus réalistes.
Source: Ledig et al. (2017) [70]

L’utilisation des réseaux d’adversaire génératif (GAN) représente la SOTA actuelle pour la super-résolution:

  • SRGAN [71] fournit des textures photo-réalistes à partir d'images fortement sous-échantillonnées sur des points de repère publics, en utilisant un réseau de discrimination formé pour différencier les images photo-réalistes super résolues des images photo-réalistes originales.

Sur le plan qualitatif, SRGAN donne les meilleurs résultats, bien que SRResNet fonctionne mieux avec une mesure de rapport signal sur bruit (PSNR), mais SRGAN obtient les détails de texture les plus fins et réalise le meilleur score d'opinion moyen (MOS). «À notre connaissance, il s'agit du premier cadre capable de déduire des images naturelles photo-réalistes pour 4 × facteurs de redimensionnement.» [72] Toutes les approches précédentes ne permettent pas de récupérer les détails de texture plus fins avec des facteurs de redimensionnement supérieurs.

  • Inférence MAP amortie pour la super-résolution d'image [73] propose une méthode de calcul de l'inférence MAP (Maximum a Posteriori) utilisant un réseau de neurones convolutionnels. Cependant, leurs recherches présentent trois approches d'optimisation, pour lesquelles les GAN fonctionnent nettement mieux sur des données d'image réelles à l'heure actuelle.
Figure 8: Transfert de style de Nikulin et Novak
Remarque: Transférer différents styles sur une photo de chat (original en haut à gauche).
Source: Nikulin et Novak (2016)

Sans aucun doute, Style Transfer incarne une nouvelle utilisation des réseaux de neurones qui est passée dans le domaine public, en particulier grâce aux intégrations Facebook de l’année dernière et à des sociétés comme Prisma [74] et Artomatix [75]. Le transfert de style est une technique plus ancienne mais convertie en réseaux de neurones en 2015 avec la publication d'un algorithme neuronal de style artistique [76]. Depuis lors, les concepts de transfert de style ont été développés par Nikulin et Novak [77], mais également appliqués à la vidéo [78], comme c'est le cas de la progression courante au sein de Computer Vision.

Figure 9: Autres exemples de transfert de style
Remarque: la rangée supérieure (de gauche à droite) représente le style artistique qui est transposé sur les images originales qui sont affichées dans la première colonne (Woman, Golden Gate Bridge et Meadow Environment). À l'aide de la normalisation d'instance conditionnelle, un réseau de transfert de style unique peut capturer 32 styles simultanément, dont cinq sont affichés ici. La suite complète d’images est disponible dans l’annexe du document source. Ce travail sera présenté à la Conférence internationale sur les représentations d'apprentissage (ICLR) 2017.
Source: Dumoulin et al. (2017, p. 2) [79]

Le transfert de style en tant que sujet est assez intuitif une fois visualisé; prenez une image et imaginez-la avec les caractéristiques stylistiques d'une image différente. Par exemple, dans le style d'un tableau ou d'un artiste célèbre. Cette année, Facebook a lancé Caffe2Go [80], son système d’apprentissage en profondeur qui s’intègre aux appareils mobiles. Google a également publié un travail intéressant qui visait à mélanger plusieurs styles pour générer des styles d'image totalement uniques: Research blog [81] et full paper [82].

Outre les intégrations mobiles, style transfer a des applications dans la création d'actifs de jeux. Les membres de notre équipe ont récemment assisté à une présentation du fondateur et directeur technique d'Artomatix, Eric Risser, qui a présenté l'application nouvelle de la technique pour la génération de contenu dans les jeux (mutation de texture, etc.) et minimise ainsi considérablement le travail d'un artiste en texture conventionnel. .

La colorisation consiste à transformer les images monochromes en nouvelles versions en couleurs. A l'origine, cette opération était effectuée manuellement par des personnes qui avaient minutieusement sélectionné des couleurs pour représenter des pixels spécifiques dans chaque image. En 2016, il est devenu possible d'automatiser ce processus tout en maintenant une apparence de réalisme révélateur du processus de colorisation centré sur l'homme. Bien que les humains puissent ne pas représenter avec précision les vraies couleurs d’une scène donnée, leur connaissance du monde réel permet d’appliquer les couleurs d’une manière compatible avec l’image et avec une autre personne les visualisant.

Le processus de colorisation est intéressant en ce que le réseau attribue la couleur la plus probable aux images en fonction de sa compréhension de l'emplacement, des textures et de l'environnement des objets, par exemple. il apprend que la peau est rosâtre et que le ciel est bleuâtre.

À notre avis, trois des œuvres les plus influentes de l'année sont les suivantes:
  • Zhang et al. produit une méthode capable de tromper les humains avec succès dans 32% de leurs essais. Leur méthodologie est comparable à un «test de Turing de colorisation». [83]
  • Larsson et al. [84] automatise entièrement leur système de coloration de l'image en utilisant Deep Learning pour l'estimation par histogramme.
  • Enfin, Lizuka, Simo-Serra et Ishikawa [85] démontrent un modèle de colorisation également basé sur les CNN. Le travail a dépassé le SOTA existant, nous [l’équipe] avons le sentiment que ce travail est qualitativement meilleur également, en semblant être le plus réaliste. La figure 10 fournit des comparaisons, mais l'image est extraite de Lizuka et al.
Figure 10: Comparaison de la recherche sur la colorisation
Remarque: de haut en bas - la première colonne contient l’entrée monochrome originale qui est ensuite colorisée par diverses techniques. Les colonnes restantes affichent les résultats générés par d'autres recherches de premier plan sur la colorisation menées en 2016. Vus de gauche à droite, il s'agit de Larsson et al. [84] 2016 (deuxième colonne), Zhang et al. [83] 2016 (troisième colonne) et Lizuka, Simo-Serra et Ishikawa. [85] 2016, également appelée «la nôtre» par les auteurs (colonne quatre). La différence de qualité dans la colorisation est plus évidente dans la troisième rangée (en partant du haut), qui représente un groupe de jeunes garçons. Nous estimons que les travaux de Lizuka et al. Sont qualitativement supérieurs (quatrième colonne). Source: Lizuka et al. 2016 [86]

"En outre, notre architecture peut traiter des images de toute résolution, contrairement à la plupart des approches existantes basées sur CNN."

Lors d'un test visant à déterminer à quel point leur colorisation était naturelle, les utilisateurs ont reçu une image aléatoire de leurs modèles et on leur a demandé: «Cette image vous semble-t-elle naturelle?

Leur approche a atteint 92,6%, la base de référence environ 70% et la vérité au sol (les photos couleur réelles) étaient considérées comme naturelles 97,7% du temps.

Action Reconnaissance

La tâche de reconnaissance d'action fait référence à la fois à la classification d'une action dans une image vidéo donnée et, plus récemment, à des algorithmes permettant de prédire les résultats probables des interactions pour quelques images seulement avant que l'action ne se produise. À cet égard, nous voyons des recherches récentes visant à intégrer le contexte dans les décisions algorithmiques, à l’instar d’autres domaines de Computer Vision. Quelques articles clés dans cet espace sont:

  • Les convolutions temporelles à long terme pour la reconnaissance d’action [87] exploitent la structure spatio-temporelle des actions humaines, c’est-à-dire le mouvement et la durée particuliers, pour reconnaître correctement les actions utilisant une variante de CNN. Pour surmonter la modélisation temporelle sous-optimale des actions à plus long terme par les CNN, les auteurs proposent un réseau de neurones à convolutions temporelles à long terme (LTC-CNN) pour améliorer la précision de la reconnaissance des actions. En termes simples, les SLD peuvent examiner de plus grandes parties de la vidéo pour reconnaître les actions. Leur approche utilise et étend les CNN 3D «pour permettre la représentation d’action à une échelle temporelle plus complète».

«Nous présentons des résultats à la pointe de la technique concernant deux critères de référence difficiles pour la reconnaissance de l’action humaine UCF101 (92,7%) et HMDB51 (67,2%).»

  • Les réseaux spatio-temporels résiduels pour la reconnaissance d’actions vidéo [88] appliquent une variante de la chaîne de reconnaissance CNN à deux flux, qui combine des techniques issues à la fois des approches CNN traditionnelles et des réseaux résiduels récemment popularisés (ResNets). L’approche en deux flux s’inspire d’une hypothèse neuroscientifique sur le fonctionnement du cortex visuel, c’est-à-dire que des voies distinctes reconnaissent la forme / couleur et le mouvement de l’objet. Les auteurs combinent les avantages de la classification des ResNets en injectant des connexions résiduelles entre les deux flux CNN.

«Chaque flux exécute initialement la reconnaissance vidéo seul et pour la classification finale, les scores softmax sont combinés par fusion tardive. À ce jour, cette approche est la plus efficace pour appliquer un apprentissage en profondeur à la reconnaissance d’action, en particulier avec des données de formation limitées. Dans notre travail, nous convertissons directement les ConvNets d'images en architectures 3D et affichons des performances considérablement améliorées par rapport au scénario de base à deux flux. ”- 94% sur UCF101 et 70,6% sur HMDB51. Feichtenhofer et al. a apporté des améliorations par rapport aux méthodes traditionnelles à trajectoire dense améliorée (iDT) et a généré de meilleurs résultats grâce à l'utilisation des deux techniques.

  • Anticiper les représentations visuelles à partir de la vidéo non étiquetée [89] est un article intéressant, mais pas strictement une classification d'action. Le programme prédit l'action qui est susceptible de se produire avec une séquence d'images vidéo pouvant aller jusqu'à une seconde avant une action. Cette approche utilise des représentations visuelles plutôt que la classification pixel par pixel, ce qui signifie que le programme peut fonctionner sans données étiquetées, en tirant parti des propriétés d'apprentissage des fonctions des réseaux neuronaux profonds [90].

«L'idée clé de notre approche est que nous pouvons former des réseaux profonds pour prédire la représentation visuelle des images dans le futur. Les représentations visuelles sont une cible de prédiction prometteuse, car elles codent des images à un niveau sémantique supérieur à celui des pixels, mais leur calcul est automatique. Nous appliquons ensuite des algorithmes de reconnaissance sur notre représentation prédite pour anticiper les objets et les actions ».

Les organisateurs du Thumos Action Recognition Challenge [91] ont publié un document décrivant les approches générales adoptées pour la reconnaissance de l'action au cours des dernières années. Le document fournit également un aperçu des défis de 2013-2015, des orientations futures du défi et des idées sur la manière de donner aux ordinateurs une compréhension plus globale de la vidéo par le biais de la reconnaissance d’action. Nous espérons que le Thumos Action Recognition Challenge reviendra en 2017 après son (apparemment) hiatus inattendu.

Suivez notre profil sur support pour le prochain versement - Partie 3 de 4: Vers une compréhension 3D du monde.
N'hésitez pas à placer tous les commentaires et suggestions dans la section des commentaires et nous reviendrons à cela dès que possible. Alternativement, vous pouvez nous contacter directement via: info@themtank.com

Le texte intégral est disponible sur: www.themtank.org/a-year-in-computer-vision

Merci beaucoup,

Le char M

Références par ordre d'apparition

[46] Pinheiro, Collobert et Dollar. 2015. Apprendre à segmenter les candidats aux objets. [En ligne] arXiv: 1506.06204. Disponible: arXiv: 1506.06204v2

[47] Pinheiro et al. 2016. Apprendre à affiner les segments d'objets. [En ligne] arXiv: 1603.08695. Disponible: arXiv: 1603.08695v2

[48] ​​Zagoruyko, S. 2016. Un réseau MultiPath pour la détection d'objets. [En ligne] arXiv: 1604.02135v2. Disponible: arXiv: 1604.02135v2

[49] Dollar, P. 2016. Apprendre à segmenter. [Blog] FAIR. Disponible: https://research.fb.com/learning-to-segment/

[50] Dollar, P. 2016. Segmentation et affinage d'images avec SharpMask. [En ligne] Code Facebook. Disponible: https://code.facebook.com/posts/561187904071636/segmenting-and-refining-images-with-sharpmask/

[51] Jampani et al. 2016. Réseaux de propagation vidéo. [En ligne] arXiv: 1612.05478. Disponible: arXiv: 1612.05478v2

[52] Chen et al., 2016. DeepLab: Segmentation d'images sémantiques avec des réseaux de convolution profonds, une convolution atrous et des CRF entièrement connectés. [En ligne] arXiv: 1606.00915. Disponible: arXiv: 1606.00915v1

[53] Khoreva et al. 2016. Simple Does It: Instance faiblement supervisée et segmentation sémantique. [En ligne] arXiv: 1603.07485v2. Disponible: arXiv: 1603.07485v2

[54] Jégou et al. 2016. Tiramisu des cent couches: réseaux denses entièrement convolutifs pour la segmentation sémantique. [En ligne] arXiv: 1611.09326v2. Disponible: arXiv: 1611.09326v2

[55] Li et al. 2016. Segmentation sémantique entièrement compatible avec les instances. [En ligne] arXiv: 1611.07709v1. Disponible: arXiv: 1611.07709v1

[56] Paszke et al. 2016. ENet: Architecture de réseau de neurones profonds pour la segmentation sémantique en temps réel. [En ligne] arXiv: 1606.02147v1. Disponible: arXiv: 1606.02147v1

[57] Vázquez et al. 2016. Un repère pour la segmentation de scènes endoluminales d'images de coloscopie. [En ligne] arXiv: 1612.00799. Disponible: arXiv: 1612.00799v1

[58] Dolz et al. 2016. Réseaux entièrement convolutionnels 3D pour la segmentation sous-corticale en IRM: une étude à grande échelle. [En ligne] arXiv: 1612.03925. Disponible: arXiv: 1612.03925v1

[59] Alex et al. 2017. Apprentissage semi-supervisé à l'aide d'auto-encodeurs Denoising pour la détection et la segmentation des lésions cérébrales. [En ligne] arXiv: 1611.08664. Disponible: arXiv: 1611.08664v4

[60] Mozaffari et Lee. 2016. Segmentation d'images par ultrasons 3D: une enquête. [En ligne] arXiv: 1611.09811. Disponible: arXiv: 1611.09811v1

[61] Dasgupta et Singh. 2016. Une approche de prédiction structurée basée sur un réseau de neurones entièrement convolutionnelle vers la segmentation du vaisseau rétinien. [En ligne] arXiv: 1611.02064. Disponible: arXiv: 1611.02064v2

[62] Yi et al. 2016. Réseaux neuronaux convolutionnels 3-D pour la segmentation du glioblastome. [En ligne] arXiv: 1611.04534. Disponible: arXiv: 1611.04534v1

[63] Quan et al. 2016. FusionNet: réseau de neurones convolutionnels totalement résiduels pour la segmentation d'images en connectomique. [En ligne] arXiv: 1612.05360. Disponible: arXiv: 1612.05360v2

[64] La connectomique fait référence à la cartographie de toutes les connexions au sein du système nerveux d’un organisme, c’est-à-dire les neurones et leurs connexions.

[65] Champandard, A.J. 2017. Neural Enhance (dernier commit du 30/11/2016). [En ligne] Github. Disponible: https://github.com/alexjc/neural-enhance [Date de consultation: 11/02/2017]

[66] Caballero et al. 2016. Super-résolution vidéo en temps réel avec réseaux spatio-temporels et compensation de mouvement. [En ligne] arXiv: 1611.05250. Disponible: arXiv: 1611.05250v1

[67] Shi et al. 2016. Image unique en temps réel et super-résolution vidéo utilisant un réseau de neurones de convolution sous-pixel performant. [En ligne] arXiv: 1609.05158. Disponible: arXiv: 1609.05158v2

[68] Romano et al. 2016. RAISR: Super résolution d'image rapide et précise. [En ligne] arXiv: 1606.01299. Disponible: arXiv: 1606.01299v3

[69] Milanfar, P. 2016. Améliorer! RAISR Images nettes avec apprentissage automatique. [Blog] Blog de recherche Google. Disponible à l'adresse: https://research.googleblog.com/2016/11/enhance-raisr-sharp-images-with-machine.html [consulté le: 20/03/2017].

[70] ibid.

[71] Ledig et al. 2017. Super-résolution d'une image unique photoréaliste à l'aide d'un réseau contradictoire génératif. [En ligne] arXiv: 1609.04802. Disponible: arXiv: 1609.04802v3

[72] ibid.

[73] Sønderby et al. 2016. Inférence MAP amortie pour la super résolution de l'image. [En ligne] arXiv: 1610.04490. Disponible: arXiv: 1610.04490v1

[74] Prisma. 2017. [Site Web] Prisma. Disponible à l'adresse: https://prisma-ai.com/ [consulté le: 01/04/2017].

[75] Artomatix. 2017. [Site Web] Artomatix. Disponible sur: https://services.artomatix.com/ [Date de consultation: 01/04/2017].

[76] Gatys et al. 2015. Un algorithme neural de style artistique. [En ligne] arXiv: 1508.06576. Disponible: arXiv: 1508.06576v2

[77] Nikulin et Novak. 2016. Exploration de l'algorithme neural du style artistique. [En ligne] arXiv: 1602.07188. Disponible: arXiv: 1602.07188v2

[78] Ruder et al. 2016. Transfert de style artistique pour les vidéos. [En ligne] arXiv: 1604.08610. Disponible: arXiv: 1604.08610v2

[79] ibid.

[80] Jia et Vajda. 2016. Fournissez une IA en temps réel dans la paume de votre main. [En ligne] Code Facebook. Disponible à l'adresse: https://code.facebook.com/posts/196146247499076/delivering-real-time-ai-in-the-palm-of-your-hand/ [consulté le: 20/01/2017].

[81] Dumoulin et al. 2016. Transfert de style de suralimentation. [En ligne] Blog de recherche Google. Disponible: https://research.googleblog.com/2016/10/supercharging-style-transfer.html [Date de consultation: 20/01/2017].

[82] Dumoulin et al. 2017. Une représentation apprise pour le style artistique. [En ligne] arXiv: 1610.07629. Disponible: arXiv: 1610.07629v5

[83] Zhang et al. 2016. Colorisation d'images colorées. [En ligne] arXiv: 1603.08511. Disponible: arXiv: 1603.08511v5

[84] Larsson et al. 2016. Apprentissage des représentations pour la colorisation automatique. [En ligne] arXiv: 1603.06668. Disponible: arXiv: 1603.06668v2

[85] Lizuka, Simo-Serra et Ishikawa. 2016. Que la couleur soit présente: Apprentissage conjoint des preneurs d'image au niveau local et mondial pour la colorisation automatique des images avec classification simultanée. [En ligne] Transaction ACM sur graphique (Proc. De SIGGRAPH), 35 (4): 110. Disponible à l'adresse suivante: http://hi.cs.waseda.ac.jp/~iizuka/projects/colorization/en/

[86] ibid.

[87] Varol et al. 2016. Reconnaissance des convolutions temporelles pour l'action à long terme. [En ligne] arXiv: 1604.04494. Disponible: arXiv: 1604.04494v1

[88] Feichtenhofer et al. 2016. Réseaux résiduels spatio-temporels pour la reconnaissance d'action vidéo. [En ligne] arXiv: 1611.02155. Disponible: arXiv: 1611.02155v1

[89] Vondrick et al. 2016. Anticiper les représentations visuelles à partir d'une vidéo sans étiquette. [En ligne] arXiv: 1504.08023. Disponible: arXiv: 1504.08023v2

[90] Conner-Simons, A., Gordon, R. 2016. Machines à enseigner pour prédire l'avenir. [En ligne] MIT NEWS. Disponible à l'adresse suivante: https://news.mit.edu/2016/teaching-machines-to-predict-the-future-0621 [Consulté: 03/02/2017].

[91] Idrees et al. 2016. Le défi THUMOS sur la reconnaissance d'action pour les vidéos «dans la nature». [En ligne] arXiv: 1604.06182. Disponible: arXiv: 1604.06182v1