Description
Date depot: 7 mars 2019
Titre: Réseaux Profonds Multimodaux pour l’Analyse et la Classification de documents audio-visuels
Directrice de thèse:
Maria Alejandra ZULUAGA (Eurecom)
Domaine scientifique: Sciences et technologies de l'information et de la communication
Thématique CNRS : Non defini
Resumé:
Cette thèse s'inscrit dans le cadre du développement de fonctionnalités nouvelles pour une
plateforme d’indexation, de recherche et de liage d’informations multimodales. L’étude
s'intéresse à l’utilisation de méthodes dites d’apprentissage profond pour l'analyse et la
classification de documents audio-visuels, principalement à l’information visuelle (image et
vidéo), mais aussi au texte qui s’y rapporte (articles, rapport, transcription automatique de
la bande audio, etc..). L’objectif est de permettre l’analyse automatique de documents
audio-visuels pour en extraire le contenu à des fins d’indexation et pour la création de liens
sémantiques entre documents. La thèse se concentrera sur les aspects d'analyse vidéo,
de fusion multimodale et de construction automatique d’index à partir de ces données. Les
travaux construiront de nouveaux modèles multimodaux en s’appuyant d’abord sur les
architectures les plus récentes de Réseaux Neuronaux Profonds, puis en les étendant afin
de repousser l’état de l’art.
Doctorant.e: Pascal Lucas