Description
Date depot: 7 mars 2019
Titre: Modèles multimodaux profonds pour faciliter la narration audio-visuelle
Directeur de thèse:
Ulrich FINGER (Eurecom)
Encadrant :
Raphael TRONCY (Eurecom)
Domaine scientifique: Sciences et technologies de l'information et de la communication
Thématique CNRS : Non defini
Resumé:
L'objectif
global de ce programme de recherche est de développer de nouvelles méthodes et
outils pour la narration numérique de documents audio-visuels. À cette fin, une
meilleure compréhension scientifique de l'analyse multimodale du contenu des
médias, des liens et de leur consommation sera développée. Ce programme de
thèse aborde plus spécifiquement les sujets suivants:
•
Combiner
les meilleures techniques disponibles pour l’analyse, l'apprentissage
automatique et l'édition de descriptions textuelles, pour industrialiser le
processus de narration numérique et réutiliser les médias existants comme ressources
nouvelles par les producteurs et les consommateurs de médias.
•
Développer
des techniques de pointe pour analyser le contenu audiovisuel (y compris le
texte), afin que les données multimodales puissent être largement décrites. Les
descriptions extraites serviront à structurer et à annoter sémantiquement des
archives de données audiovisuelles importantes et à mieux comprendre leur
contenu et leur évolution.
•
Étudier
et mettre en œuvre des approches de segmentation temporelle qui prennent en
compte le contexte et le contenu afin de définir de façon précise et localisée
(temporellement et éventuellement spatialement) la fragmentation sémantique des
documents audiovisuels
•
Étudier
et évaluer les méthodes automatiques de détection des moments clés et
d'identification des hyperliens pertinents dans les contenus audiovisuels dans
le contexte du projet et dans les campagnes d’évaluations comparatives
internationales.
Doctorant.e: Reboud Alison