Projet de recherche doctoral numero :4787

Description

Date depot: 1 janvier 1900
Titre: Apprentissage profond d'espaces multimodaux pour la classification cross modale
Directeur de thèse: Michel CRUCIANU (CEDRIC)
Encadrant : Hervé LE BORGNE (CEA)
Domaine scientifique: Sciences et technologies de l'information et de la communication
Thématique CNRS : Non defini

Resumé: La vision par ordinateur a connu une rupture significative de la qualité des résultats de reconnaissance visuelle faisant suite au retour en grâce des réseaux de neurones sous forme d’architectures profondes. Cette rupture résulte de la conjonction d’avancées théoriques permettant la mise en œuvre de la rétro-propagation pour des réseaux avec beaucoup de couches (Hinton et al., 2006), et de deux aspects pratiques : la montée en puissance du développement basé GPGPU1 et la disponibilité de nombreuses données annotées, notamment visuelles. De plus, au-delà de ces très bons résultats sur diverses tâche de vision par ordinateur, il est intellectuellement satisfaisant de constater que ces systèmes sont plus plausibles biologiquement que les méthodes statistiques qui avaient court durant les années 90 et 2000, mettant notamment en œuvre une structure hiérarchique des niveaux de représentation, allant de motifs bas niveaux reflétant les statistiques des images naturelles jusqu’à des concepts de haut niveau proches de la sémantique. L’apprentissage profond a également eu un impact significatif dans le domaine du traitement des langues naturelles. En particulier les modèles de word embeddind tel celui de (Mikolov et al., 2013) offrent une représentation des mots qui ont permis des avancées dans plusieurs tâches. A la croisée de la vision par ordinateur et du traitement du langage naturel, des travaux se sont intéressés à fabriquer des espaces communs aux deux média texte et image. En particulier, l’analyse par composantes canonique (CCA : canonical component analysis) (Hotelling, 1936) et sa version non linéaire (KCCA : kernel CCA) apparue au début des années 2000 (Akaho, 2001, Hardoon et al., 2004) permettent de déterminer un sous espace commun aux deux modalités qui permettent de maximiser la corrélation entre les représentations visuelles et textuelles. La recherche cross modale consiste à rechercher une image à partir de mots ou inversement. Dès lors que les documents sont décrits dans un espace commun, la tâche est réalisée directement (Hardoon et al., 2004 ; Hwang et Grauman, 2012). Divers raffinements sont possibles, tels que la prise en compte des concepts des documents par une vue supplémentaire (Gong et al., 2014) ou d’autre moyens (Rasiwasia et al., 2014 ; Ranjan et al., 2015 ) ou encore la possibilité de gérer plusieurs labels (Sharma et al., 2012). Il a toutefois été montré que l’apprentissage d’un tel sous espace par (K)CCA pouvait engendrer de forts biais. Ceux-ci peuvent alors être corrigés au moyen de procédés spécifiques (Tran et al., 2015) ou encore par des représentations robustes s’appuyant sur une quantification vectorielle (Tran et al., 2016a). Au-delà de la recherche cross-modale, il est aussi envisageable de s’attaquer à la tâche de classification cross-modale. Le principe est d’apprendre un modèle de classification à partir de document monomédia d’un type donné (par exemple des textes) et de les appliquer à des documents d’un autre type (par exemple des images). L’application directe de ce principe ne fonctionne pas très bien, du fait des biais d’apprentissage évoqués plus haut. Toutefois (Tran et al., 2016b) a proposé de s’appuyer sur un ensemble auxiliaire pour rendre les représentations plus robustes dans l’espace commun et ainsi obtenir des résultats de classification approchant ceux résultant de classification multimodale (i.e utilisant les deux média simultanément). Ce champs de recherche a très peu été abordé à ce jour, les travaux de T.Q.N. Tran ayant été précédés de ceux de (Ngiam et al., 2011) avec des média image et de parole. Ils se rapprochent toutefois de la problématique du zero-shot learning (Palatucci et al., 2009). Pourtant, les applications potentielles sont très prometteuses, puisque cela ouvre par exemple la voie à la possibilité de décrire un concept par des mots puis de chercher à le reconnaître dans des images (ou inversement). En pratique, de multiples industriels spécialisés sur une modalité particulière pourraient aussi apprécier de pouvoir appliquer leur savoir-faire à une autre modalité à moindre coût. Akaho, S. (2001). A kernel method for canonical correlation analysis. International Meeting of Psychometric Society (IMPS2001) Ba, J. L., Swersky, K., Fidler, S., Salakhutdinov, R. (2015) Predicting Deep Zero-Shot Convolutional Neural Networks using Textual Descriptions. International Conference on Computer Vision (ICCV). Frome, A., Corrado, G. S., Shlens, J., Bengio, S., Dean, J., Mikolov, T.,(2013). Devise: A deep visual-semantic embedding model. In Advances in neural information processing systems, pages 2121–2129. Gong, Y., Ke, Q., Isard, M., and Lazebnik, S. (2014). A multi-view embedding space for modeling Internet images, tags, and their semantics. International Journal of Computer Vision, 106(2):210–233. Hardoon, D.R., Szedmak, S. and Shawe-Taylor, J. (2004). Canonical correlation analysis: an overview with application to

Doctorant.e: Le_Cacheux Yannick