Projet de recherche doctoral numero :8348

Description

Date depot: 24 mai 2022
Titre: An end-to-end transformer-based architecture for disease prediction from metagenomic data
Directeur de thèse: Jean-Daniel ZUCKER (UMMISCO)
Directeur de thèse: Edi PRIFTI (UMMISCO)
Domaine scientifique: Sciences et technologies de l'information et de la communication
Thématique CNRS : Intelligence artificielle

Resumé: Context Improving patient characterization through high resolution omics technologies (genomics, transcriptomics, metagenomics, metaproteomics, etc.) (Petrosino, 2018) is of major interest in the field of Precision Medicine (PM). Metagenomics in particular, providing a highly resolutive caractérisation of the human microbiome over millions of dimensions, has been demonstrated to improve patient-stratification, diagnosis and prognosis (Jobin, 2018). Deep learning (DL) has brought up a radical change in the field of pattern recognition and ML itself, improving most of earlier models devoted to learning tasks such as image classification and natural language processing. DL ca, be applied directly to raw metagenomics data generated by high throughput shotgun sequencing. By analogy with natural language processing (NLP), sequencing reads can be seen as sentences and k-mers as words. There is a growing number of studies applying DL techniques to explore various biological processes with promising results (Nguyen, 2018). Objectives The main scientific goal of this doctoral project is to significantly improve DL methodological framework using metagenomics data. This will allow us to explore research questions regarding a DL architecture for end-to-end disease prediction directly from microbiome raw sequenced data (such as Nanopore). This novel approach will be compared with state-of-the-art (SOTA) methodology based on quantification of microbiome features from references catalogs. The approach will be validated on both real and simulated data. An application will be to predict cardiometabolic disease (CMD) stages and progression from a uniquely phenotyped database of 2200 patients (one of the largest existing dataset from the EU H2020 project Metacardis). Altogether these objectives aim to support translational and precision medicine (i.e. classification into disease groups) while deploying the models for routine use in clinical centers. Methodology We will capitalize on a preliminary proof of concept that has been recently published by the (Queyrel, 2020) to develop an End-to-End DL architecture to classify disease from raw data and train them on several public datasets (e.g. Pasoli 2017). SOTAwork on learning embeddings from DNA sequences include (Menegaux, 2019) where authors have demonstrated the interest of learning embeddings on k-mers to classify sequence reads onto the species from which they originated (i.e. binning). To build an accurate embedding adapted to the metagenomic setting, first we need to take into account the fact that metagenomic data can be seen as bags of DNA sequences belonging to different species. Next, we make the hypothesis that we can use such embeddings as entry for more complex networks that would learn representations integrating the lower level embeddings to represent a metagenome. Such an approach would allow us to bypass the time consuming projection to reference catalogs. From an experimental and applicative perspective, we will evaluate the classification performance of the DL integration architecture to predict the eight CMD groups (including control) to which the 1844 patients belong. We will assess the prognostic value of the stratification to predict CMD progression for 807 patients from the 1844 for whom we have characterized their evolution (clinical changes) during 10 years. Altogether, these objectives will support translational and precision medicine (i.e. classification and novel stratification of patients) in the perspective of deploying these models for routine use in clinical centers. From a translational perspective, the expected results in both stratification of patients in MetaCardis, biomarkers signatures and the ability to predict transition in disease progression are key outcomes that could help improve the management of patients with cardiometabolic diseases (CMD). Expected results From a methodological perspective, the expected result is both a framework of DL architectures for shotgun metagenomics data and open sourced embeddings. We will also explore the underlying mechanisms from reads to taxonomic embeddings to metagenome representation, while proof testing the approach for robustness, representativity and interpretability. In terms of impact, the classification based on the new gut microbiota-derived markers could generate novel therapeutic targets, while being useful in point-of-care applications when combined with portable sequencing technologies such as Nanopore . This may have an impact on patient management and the patients themselves.

Résumé dans une autre langue: Contexte L'amélioration de la caractérisation des patients grâce aux technologies omiques à haute résolution (génomique, transcriptomique, métagénomique, métaprotéomique, etc.) (Petrosino, 2018) présente un intérêt majeur dans le domaine de la médecine de précision (MP). La métagénomique en particulier, fournissant une caractérisation hautement résolutive du microbiome humain sur des millions de dimensions, a été démontrée pour améliorer la stratification, le diagnostic et le pronostic des patients (Jobin, 2018). L'apprentissage profond (Deep Learning, DL) a apporté un changement radical dans le domaine de la reconnaissance des formes et de la ML elle-même, en améliorant la plupart des modèles antérieurs consacrés à des tâches d'apprentissage telles que la classification des images et le traitement du langage naturel. DL ca, être appliqué directement aux données brutes de métagénomique générées par le séquençage shotgun à haut débit. Par analogie avec le traitement du langage naturel (NLP), les lectures de séquençage peuvent être considérées comme des phrases et les k-mers comme des mots. Il existe un nombre croissant d'études appliquant les techniques de DL pour explorer divers processus biologiques avec des résultats prometteurs (Nguyen, 2018). Objectifs L'objectif scientifique principal de ce projet de doctorat est d'améliorer de manière significative le cadre méthodologique DL en utilisant des données métagénomiques. Cela nous permettra d'explorer des questions de recherche concernant une architecture DL pour la prédiction de maladies de bout en bout directement à partir de données brutes de séquençage du microbiome (comme Nanopore). Cette nouvelle approche sera comparée à une méthodologie de pointe (SOTA) basée sur la quantification des caractéristiques du microbiome à partir de catalogues de références. L'approche sera validée sur des données réelles et simulées. Une application consistera à prédire les stades et la progression des maladies cardiométaboliques (CMD) à partir d'une base de données phénotypée unique de 2200 patients (l'un des plus grands ensembles de données existants provenant du projet européen H2020 Metacardis). L'ensemble de ces objectifs vise à soutenir la médecine translationnelle et de précision (c'est-à-dire la classification en groupes de maladies) tout en déployant les modèles pour une utilisation de routine dans les centres cliniques. Méthodologie Pour construire un embedding précis et adapté au contexte métagénomique, nous devons d'abord prendre en compte le fait que les données métagénomiques peuvent être vues comme des sacs de séquences d'ADN appartenant à différentes espèces. Ensuite, nous faisons l'hypothèse que nous pouvons utiliser de tels enchâssements comme entrée pour des réseaux plus complexes qui apprendraient des représentations intégrant les enchâssements de plus bas niveau pour représenter un métagénome. Une telle approche nous permettrait d'éviter la projection fastidieuse vers des catalogues de référence. D'un point de vue expérimental et applicatif, nous évaluerons la performance de classification de l'architecture d'intégration DL pour prédire les huit groupes de DMC (y compris le contrôle) auxquels appartiennent les 1844 patients. Nous évaluerons la valeur pronostique de la stratification pour prédire la progression de la DMC chez 807 patients parmi les 1844 pour lesquels nous avons caractérisé leur évolution (changements cliniques) pendant 10 ans. Dans l'ensemble, ces objectifs soutiendront la médecine translationnelle et de précision (c'est-à-dire la classification et la nouvelle stratification des patients) dans la perspective du déploiement de ces modèles pour une utilisation de routine dans les centres cliniques. Résultats attendus D'un point de vue méthodologique, le résultat attendu est à la fois un cadre d'architectures DL pour les données métagénomiques shotgun et des embeddings en source ouverte. Nous explorerons également les mécanismes sous-jacents, depuis les lectures jusqu'à la représentation du métagénome en passant par les intégrations taxonomiques, tout en vérifiant la robustesse, la représentativité et l'interprétabilité de l'approche. En termes d'impact, la classification basée sur les nouveaux marqueurs dérivés du microbiote intestinal pourrait générer de nouvelles cibles thérapeutiques, tout en étant utile dans les applications de point-of-care lorsqu'elle est combinée avec des technologies de séquençage portables telles que Nanopore . Cela pourrait avoir un impact sur la prise en charge des patients et sur les patients eux-mêmes.

Doctorant.e: Roy Gaspar