Description
Date depot: 1 janvier 1900
Titre: Analyses à large échelle des populations via la détection et l'association de toutes les variations génomiques
Directeur de thèse:
Rayan CHIKHI (G5- institut Pasteur)
Directeur de thèse:
Hugues RICHARD (LCQB)
Domaine scientifique: Sciences et technologies de l'information et de la communication
Thématique CNRS : Non defini
Resumé:
Nous proposons un doctorat en algorithmes et méthodes statistiques pour l'analyse de données de séquençage de populations. Le séquençage ADN permet, depuis une dixaine d'années, de connaitre le patrimoine génétique de populations entières. Cela a amené un vaste programme de recherche à l'échelle mondiale, encore incomplètement résolu, visant à élucider l'association des variations génétiques (génotype) avec les traits observés (phénotypes). Les méthodes GWAS ont permis de déterminer de nombreuses associations (ex: variations liées à Alzheimer, autisme, cancer du sein, etc), mais sont limitées par différents facteurs. Nous proposons dans cette thèse le développement de méthodes algorithmiques et statistiques nouvelles pour l'analyse d'échantillons humains, animaux, ou microbiens, visant à détecter tout type de variations, conjointement avec test d'association. Pour cela, nous mettrons en oeuvre une méthodoloigie nouvelle basée sur des outils de construction de matrices de kmers et des résultats de machine learning. Nous appliquerons ces méthodes sur des données synthétiques (génomes complets, ou données de séquençage) et des données réelles (publiques, ou provenant de collaborations au sein de l'Institut Pasteur).
Doctorant.e: Duitama Gonzalez Camila