Projet de recherche doctoral numero :8239

Description

Date depot: 6 décembre 2021
Titre: Apprentissage supervisé interprétable multi-classe et non-commensurable -applications dans le cadre du microbiote intestinal
Directeur de thèse: Edi PRIFTI (UMMISCO)
Encadrant : Idy DIOP (Université Cheikh Anta Diop de Dakar)
Domaine scientifique: Sciences et technologies de l'information et de la communication
Thématique CNRS : Intelligence artificielle

Resumé: Contexte Le microbiome intestinal est impliqué dans un nombre croissant de maladies humaines [1]. Le développement rapide de la métagenomique a permis de mieux comprendre l’écosystème microbien, notamment ses fonctions en lien avec l’hôte. Les nouvelles technologies de séquençage génèrent des quantités astronomiques de données, et la recherche active en bio-informatique permet aujourd’hui de les traiter, malgré le besoin de nouvelles approches plus performantes [2, 3]. Des données sous forme de tables d’abondance sont enfin utilisées par des approches d’apprentissage statistique (IA) afin d’apprendre des modèles permettant de classer les échantillons/individus, mais aussi de prédire des évènements futurs à partir du microbiome. La plupart des méthodes d’IA restent des boites noires et sont peu interprétables. Or dans le contexte médical, surtout, l’interprétabilité des modèles est un prérequis important [4]. C’est dans ce contexte que des chercheurs d’UMMISCO ont proposé une nouvelle méthode d’IA interprétable qui s’inspire des relations entre espèces bactériennes, compétition, symbiose, etc. [5]. L’approche nommée predomics est composée de plusieurs langages (bin, ter, ratio) et de plusieurs heuristiques permettant de découvrir des modèles simples qui généralisent aussi bien ou mieux que les méthodes de l’état de l’art [6]. Problématique Predomics permet de trouver de modèles performant pour classer les métagénomes en deux classes, voir même pour faire de la régression avec une variable quantitative. Cependant, l’approche à l’état actuel ne peut pas classer les données en plusieurs classes. Enfin, par sa conception, cette méthode permet de trouver des modèles à partir de données commensurables. La recherche de modèles plus complexes en intégrant des données cliniques avec les données métagenomiques n’est actuellement pas possible, au-delà de l’application technique. La problématique de recherche de ce projet doctoral consiste à proposer un cadre méthodologique qui permet d’étendre les concepts de l’approche predomics, afin de construire et apprendre des modèles à partir de données non commensurables. Ces modèles devant pouvoir faire de la classification multiclasse. Cette approche sera testée avec des données métagenomiques issues de simulation de type CAMISIM [7], mais aussi sur des données réelles issues de l’étude MetaCardis [8]. Un autre objectif est de tester la méthode plus largement sur d’autres types de données non médicales. Compétences Le candidat devra démontrer une très grande motivation pour le sujet de recherche, une grande autonomie et être proactif. Des compétences fortes en apprentissage statistique, programmation en R et python, calcul scientifique à haute performance sont nécessaires. En outre le candidat devra avoir un excellent niveau d’anglais et en communication scientifique. Informations administratives Thèse en cotutelle :OUI / Nord-Sud Directeur de thèse (Nord) : Edi Prifti (IRD/UMMISCO) Directeur de thèse (Sud) : Idy Diop (UCAD/UMMISCO) Co-encadrant (Nord) : Jean-Daniel Zucker (IRD/UMMISCO) Références bibliographiques 1. Walsh, C.J., et al., Beneficial modulation of the gut microbiota. FEBS Letters, 2014. 588(22): p. 4120-4130. 2. Nielsen, H.B., et al., Identification and assembly of genomes and genetic elements in complex metagenomic samples without using reference genomes. Nat Biotechnol, 2014. 32(8): p. 822-8. 3. Li, J., et al., An integrated catalog of reference genes in the human gut microbiome. Nat Biotechnol, 2014. 32(8): p. 834-41. 4. Bryce, G. and F. Seth, European Union Regulations on Algorithmic Decision-Making and a “Right to Explanation”. AI Magazine, 2017. 38(3). 5. Faust, K. and J. Raes, Microbial interactions: from networks to models. Nature Reviews Microbiology, 2012. 10(8): p. 538-550. 6. Prifti, E., et al., Interpretable and accurate prediction models for metagenomics data. Gigascience, 2020. 9(3). 7. Fritz, A., et al., CAMISIM: simulating metagenomes and microbial communities. Microbiome, 2019. 7(1): p. 1-12. 8. Vieira-Silva, S., et al., Statin therapy is associated with lower prevalence of gut microbiota dysbiosis. Nature, 2020. 581(7808): p. 310-315.

Doctorant.e: Kambu Mbuangi Fabien