Description
Date depot: 2 avril 2025
Titre: Inpainting vidéo par modèles profonds de diffusion
Directeur de thèse:
Alasdair NEWSON (ISIR (EDITE))
Directeur de thèse:
Andres ALMANSA (LTCI (EDMH))
Directeur de thèse:
Yann GOUSSEAU (LTCI (EDMH))
Domaine scientifique: Sciences et technologies de l'information et de la communication
Thématique CNRS : Images et vision
Resumé: "L'inpainting" consiste à remplir une zone inconnue ou endommagée d'une image ou d'une vidéo de manière visuellement convaincante. C'est une technique souvent employée pour la retouche d'images personnelles ou la postproduction cinématographique professionnelle. Un bon algorithme d'inpainting doit atteindre plusieurs objectifs :
- une inpainting correcte de la structure et de la texture ;
- garantir une inpainting sémantiquement significative : si l'on inpaint l'image d'un bâtiment, il doit y avoir des fenêtres, des portes, etc.
À cela s'ajoutent des défis supplémentaires dans le cas de la vidéo :
- la taille importante des données vidéo, entraînant une complexité mémoire et temporelle prohibitive ;
- garantir la cohérence temporelle, à laquelle l'œil humain est particulièrement sensible.
La grande difficulté du cas de la vidéo a pour conséquence un nombre d'algorithmes bien plus faible que dans le cas de l'image. Cependant, compte tenu de l'omniprésence des vidéos dans le monde moderne, il est clair que des outils de montage et de postproduction légers sont essentiels. Ainsi, cette thèse cherche à créer un ou plusieurs algorithmes d'inpainting vidéo qui sont à la fois rapides et qui tirent profit de la puissance des modèles de diffusion, qui représentent l'état de l'art dans la synthèse de vidéos.
Résumé dans une autre langue: Inpainting involves filling an unknown or damaged area of an image or video in a visually convincing way. It is a technique often used for personal image retouching or professional film post-production. A good inpainting algorithm must achieve several objectives:
- Correct inpainting of structure and texture;
- Guarantee semantically meaningful inpainting: if we are inpainting an image of a building, it must have windows, doors, etc.
In addition, video presents additional challenges:
- The large size of video data, resulting in prohibitive memory and time complexity;
- Guarantee temporal coherence, to which the human eye is particularly sensitive.
The high difficulty of video results in a much smaller number of algorithms than in the case of images. However, given the ubiquity of videos in the modern world, it is clear that lightweight editing and post-production tools are essential. Thus, this thesis seeks to create one or more video inpainting algorithms that are both fast and leverage the power of diffusion models, which represent the state of the art in video synthesis.