Description
Date depot: 16 novembre 2022
Titre: Few-Shot GAN pour la compression sémantique de vidéos
Directeur de thèse:
Nicolas THOME (ISIR (EDITE))
Domaine scientifique: Sciences et technologies de l'information et de la communication
Thématique CNRS : Images et vision
Resumé: Ces dernières décennies, les travaux sur la transmission vidéo n’ont cessé d’évoluer pour proposer de nouveaux codecs de compression qui maximisent la qualité des images pour un débit cible. Il existe un compromis entre le taux de compression et la qualité de restauration. En général, plus les données sont compressées, plus il est difficile de les restaurer. Pour de très bas débit, les codecs peuvent générer des images ininterprétables. Pour certaines applications (par exemple théâtre d’opération), la bande passante des canaux de communication attribuable à la transmission d’images ou de vidéos est très faible, mais il est critique d’obtenir des images utilisables, compréhensibles et exploitables. Dans ce contexte de bandes passantes réduites, Thales étudie des approches basées information sémantique, qui reste interprétable par un opérateur humain et permet de comprendre la scène. Ces données sémantiques sont extraites par segmentation sémantique sur chaque trame et sont très peu coûteuses pour la compression. Néanmoins, bien qu’elles suffisent à comprendre le contexte de l’image, nous souhaitons avoir un rendu plus réaliste dans le but de faciliter la lecture et la compréhension des images par un humain. Par ailleurs, la possibilité de transmettre une partie ou la totalité d’une trame originale est envisageable. Par exemple, pour garder l’apparence d’un véhicule sur une image décrivant un paysage urbain.
Nous souhaitons étudier l’efficacité d’une approche par synthèse basée GANs (Generative Adversarial Networks) pour la transmission de données vidéos.
Les GANs ont connu au cours de ces dernières années un essor important dans le domaine de l’apprentissage profond. Ce modèle génératif permet de générer des données en introduisant deux réseaux de neurones concurrents : un générateur et un discriminateur. Durant la phase d’apprentissage le rôle du générateur est de générer des données qui ressemblent aux données réelles afin de tromper le discriminateur tandis que ce dernier doit distinguer les deux types de données (images générées ou réelles). De nombreuses applications ont vu le jour comme la génération d’images de visages ou de scènes variées, le changement du style d'une image ou encore de l'inpainting. Le modèle pix2pix a connu un vif succès avec les réseaux adverses génératifs conditionnels (cGAN). Le générateur se présente sous la forme d'un Auto-encodeur ouvrant la possibilité de lui fournir en entrée une image qui sert de condition et non plus un vecteur aléatoire comme pour le GAN traditionnel. Une évolution de pix2pix, appelée pix2pixHD, a été proposée. Elle offre de nouvelles fonctionnalités et une meilleure qualité visuelle avec une architecture "coarse-to-fine" permettant de traiter les images à différentes résolutions. Les mêmes auteurs ont ensuite fait évolué ce modèle vers un modèle appelé vid2vid, adapté aux contraintes et caractéristiques de la vidéo. Enfin, très récemment, une amélioration de pix2pixHD a été proposée qui consiste à remplacer l’architecture coarse-to-fine par un nouveau type de normalisation appelé Spatially Adaptive DE-normalization (SPADE). L'architecture du générateur prend la forme d'un GAN traditionnel partant d'un vecteur de bruit. Le choix du style s'effectue à l'aide d'un auto-encodeur variationnel proposé par. Ces choix conduisent à une meilleure qualité visuelle, surtout lorsqu'il s’agit de paysages naturels.
Les deux principaux problèmes de Vid2vid sont : l’importance d’une large base de données d’apprentissage et la difficulté à généraliser sur de nouvelles données. Dans les contextes d’applications de Thales, l’accès aux données et les objets d’intérêts (par exemple catégorie de chars, catégories d’avions, ….) dans les vidéos peuvent être limités et rares. De plus, le développement de l’intelligence artificielle dans le domaine de la défense est encore limité par manque de transparence. Les besoins de transparence et de confiance dans ces nouvelles approches sont actuellement abordés par deux concepts : l’interprétabilité et l’explicabilité. Les pistes suivantes seront explorées : GAN et données frugales, GAN et explicabilité/interprétabilité, et modèles de prédiction guidés par la physique et GAN.
Doctorant.e: Couairon Paul