Projet de recherche doctoral numero :5772

Description

Date depot: 7 mars 2019
Titre: Réseaux Profonds Multimodaux pour l’Analyse et la Classification de documents audio-visuels
Directrice de thèse: Maria Alejandra ZULUAGA (Eurecom)
Domaine scientifique: Sciences et technologies de l'information et de la communication
Thématique CNRS : Non defini

Resumé: Cette thèse s'inscrit dans le cadre du développement de fonctionnalités nouvelles pour une plateforme d’indexation, de recherche et de liage d’informations multimodales. L’étude s'intéresse à l’utilisation de méthodes dites d’apprentissage profond pour l'analyse et la classification de documents audio-visuels, principalement à l’information visuelle (image et vidéo), mais aussi au texte qui s’y rapporte (articles, rapport, transcription automatique de la bande audio, etc..). L’objectif est de permettre l’analyse automatique de documents audio-visuels pour en extraire le contenu à des fins d’indexation et pour la création de liens sémantiques entre documents. La thèse se concentrera sur les aspects d'analyse vidéo, de fusion multimodale et de construction automatique d’index à partir de ces données. Les travaux construiront de nouveaux modèles multimodaux en s’appuyant d’abord sur les architectures les plus récentes de Réseaux Neuronaux Profonds, puis en les étendant afin de repousser l’état de l’art.

Doctorant.e: Pascal Lucas