Description
Date depot: 16 octobre 2019
Titre: Découverte de motifs exceptionnels locaux et apprentissage profond pour l’analyse de données biomédicales massives cliniques et omiques
Directeur de thèse:
Jean-Daniel ZUCKER (UMMISCO)
Directeur de thèse:
Edi PRIFTI (UMMISCO)
Domaine scientifique: Sciences et technologies de l'information et de la communication
Thématique CNRS : Non defini
Resumé:
Le domaine de l’apprentissage automatique (Machine Learning) vient de rencontrer une formidable médiatisation notamment de par le succès du deep learning qui a permis d’améliorer les performances des machines dans de nombreuses tâches liées à la reconnaissance automatique. La méthode des réseaux de neurones se distingue d’autres méthodes de fouille de données ou d’apprentissage en ce que ses résultats sont des modèles très difficilement interprétables. D’autres méthodes comme les arbres de décision, les règles de décision ou encore les règles d’association permettent au contraire de fournir des modèles compréhensibles. Les méthodes dites de découverte de modèles exceptionnels locaux (subgroup discovery) permettent de découvrir des descriptions compréhensibles expliquant chacune une partie des observations données. L’algorithme Q-Finder de la société Quinten fait parti de cette catégorie.
La thèse se déroulera au sein d’UMMISCO (laboratoire de SU/IRD) et de l’Institut Hospitalo-Universitaire ICAN, dans l’équipe INTEGROMICS de l’Institut du Cardio-métabolisme et de la Nutrition. Un fort accent y est mis sur l'analyse de grands ensembles de données biologiques à l'échelle générés par l'utilisation de technologies à haut débit. D’un point de vue applicatif on s’intéressera dans cette thèse en particulier à l’identification de signatures partielles de phénotypes d’intérêt médical lié aux maladies Cardio-Métaboliques en général. Le premier objectif du travail sera de proposer d’une part une typologie des problèmes à résoudre, et d’autre part une carte de compétences des différents outils de machine learning de l’état de l’Art, et notamment des techniques de subgroup discovery, dont l’algorithme Q-Finder. Un second objectif sera d’expérimenter comment ce type de méthode passe à l’échelle seul, ou en combinaison avec d’autres méthodes (et notamment le deep learning) en fonction des différentes typologies de besoins. On s’intéressera notamment aux représentations du type Deep Patient et de l’aller-retour entre les représentations profondes et les représentations symboliques. Un autre aspect concerne l’apprentissage de bout-en-bout à partir des lectures issues des séquenceurs de modèles de prédiction des maladies cardiométaboliques.
Doctorant.e: Queyrel Maxence Paul Vincent