Projet de recherche doctoral numero :8213

Description

Date depot: 1 octobre 2021
Titre: Transposition de données de gestion à grande échelle vers des images structurées pour l’application de réseaux de neurones convolutif
Directeur de thèse: Laurent WENDLING (LIPADE)
Domaine scientifique: Sciences et technologies de l'information et de la communication
Thématique CNRS : Images et vision

Resumé: L’objectif de cette thèse est de proposer des développements méthodologiques et théoriques pour trouver comment rester exhaustif dans l’exploitation des dimensions tout en optimisant la complexité du modèle utilisé. L’idée sous-jacente est de définir une nouvelle approche pour projeter des données traditionnellement utilisées en 1 dimension dans un espace à 2 dimensions puis d’y appliquer des modèles performants de la vision par ordinateur. De nombreuses pistes seront ensuite à explorer via cette représentation originale (classification, reconnaissance, extraction de connaissances…). Dans le cadre des données du SNDS, l’idée est de regrouper, à l’aide d’une image, les données relatives au parcours médical d’un individu afin de pouvoir y appliquer des modèles de la vision par ordinateur et donc d’exploiter toutes les variables. La démarche de travail se focalisera naturellement tout d’abord sur les travaux précurseurs dans le processus de génération d’images (étude de l’état de l’art). Par exemple des travaux de ce type se sont révélés très prometteurs pour la détection du cancer du sein, en transformant des vecteurs de données 1-D en images graphiques bidimensionnelles avec des corrélations appropriées entre les pixels, ou encore pour la détection de virus informatique, où les exécutables à analyser sont transformés en fichier image (les octets d’un exécutable deviennent des pixels). Puis cette thèse se fondera en partie sur l’étude des réseaux de neurones à convolutions qui prennent en compte la totalité des pixels en entrée du modèle, et dont la dimension des tenseurs de caractéristiques diminue au fur et à mesure des couches. Transposer les données de cette façon permettrait d’adresser le problème autrement d’un point de vue calculatoire. En effet, la complexité temporelle théorique d’un réseau de neurones à convolution simple offre des possibilités réalistes pour l’exploitation de telles données. L’utilisation de tels réseaux est souvent associée à une difficulté d’interprétation des prédictions du modèle. Les couches consécutives se comportent comme une boite noire dont le raisonnement est en pratique impossible à interpréter manuellement. La suite de cette thèse portera donc sur l’étude et l’adaptation à cette problématique des approches révélant les zones de l’image qui ont permis au modèle de lui attribuer une classe [4, 5]. Ces méthodes « d’explications visuelles » sont un des challenges actuels de la communauté car elles permettent des interprétations très intuitives des prédictions du modèle. Ainsi, pour la classification d’images on peut espérer disposer de nouveaux modèles qui conservent les dimensions du jeu de données tout en produisant des prédictions interprétables. Une autre approche envisageable se fonde sur la création de goulots d’étranglement sémantiques. Ceux-ci peuvent permettre de projeter des données complexes dans un espace sémantique de faible dimension et objectif avant une prise de décision simple [6]. Enfin, ce nouveau paradigme sera sûrement applicable sur d’autres cas d’usage car il répond à un problème omniprésent. Nous sommes en effet de plus en plus amenés à traiter des données aux volumes et dimensions considérables. L’objet de cette thèse sera de développer de telles approches, et de les appliquer, dans un premier temps, aux données du SNDS précitées puis éventuellement de l’étendre à d’autres bases pour montrer la généricité de modèles. Financement Ministère des Armées. Encadrement: Laurent Wendling et Sylvain Lobry (LIPADE), Dr. Guillaume Vimont (MNA)

Doctorant.e: Leygonie Rebecca