Description
Date depot: 12 avril 2023
Titre: Modeling the gut microbial ecosystem from shotgun metagenomics data
Directeur de thèse:
Edi PRIFTI (UMMISCO)
Encadrant :
Eugeni BELDA (UMMISCO)
Domaine scientifique: Sciences et technologies de l'information et de la communication
Thématique CNRS : Intelligence artificielle
Resumé: Résumé
Contexte. Les réseaux sont des abstractions très puissantes. Ils peuvent fournir une représentation holistique des relations (arêtes) entre des objets (nœuds), tout en rendant visibles des modèles et des propriétés émergentes, comme des modules ou des nœuds centraux, qui ne seraient pas visibles autrement. Les nœuds correspondent généralement à des variables observées sur un grand nombre d'échantillons (observations). Les relations peuvent être déduites à l'aide de différentes fonctions, basées sur des connaissances externes mais aussi estimées à partir des données, telles que l'information mutuelle, la corrélation ou même les mesures de distance. Une arête peut représenter par exemple un lien entre deux produits achetés ensemble, ou entre deux auteurs qui ont cosigné un article. Il peut également représenter deux gènes fréquemment coexprimés ensemble ou deux espèces bactériennes dépendantes l'une de l'autre. Différents seuils sont généralement choisis pour limiter le nombre d'arêtes aux plus fortes. Une fois la topologie du réseau définie, différentes métriques peuvent être calculées, telles que l'identification des modules, les mesures de centralité, les chemins les plus courts, etc. Le réseau est ensuite visualisé à l'aide de différentes techniques et algorithmes. Les nœuds et les bords peuvent être annotés à l'aide d'informations externes, afin d'illustrer l'enrichissement des modules ou des modèles donnés.
Cependant, la topologie du réseau dépend fortement des données et des paramètres du pipeline (distance, seuils, ...). Ce problème est d'autant plus important dans les systèmes biologiques que les technologies de quantification à haut débit sont très sensibles. C'est le cas pour l'expression des gènes, l'abondance des métabolites et même l'abondance des espèces du microbiome. Il existe une multitude d'informations biologiques sur ces objets moléculaires, généralement structurées sous forme d'ontologies dans des bases de données de connaissances spécifiques. Dans le contexte des réseaux, ces informations peuvent être utilisées pour annoter les nœuds et les arêtes, mais aussi pour déduire d'autres types de réseaux où les nœuds peuvent être annotés, comme c'est le cas dans l'approche FunNet (Prifti et al 2008). De tels réseaux multicouches peuvent être importants pour comprendre les mécanismes et les propriétés émergentes des phénomènes étudiés.
Objectifs. Une approche basée sur la propagation dynamique des annotations a été précédemment introduite dans le contexte des réseaux de co-expression (Prifti et al 2008 ; Prifti et al 2010). L'objectif principal de ce projet doctoral est de proposer une nouvelle méthode, qui intègre les annotations dans une topologie de réseau existante, et permet de générer des réseaux multicouches basés sur ces annotations ontologiques. Différentes approches, y compris l'algorithme de propagation de l'état de l'art, seront explorées et évaluées. L’implémentation qui sera faite devra être capable de traiter tous les types de réseaux et d'annotations et différents jeux de données du référentiel SNAP seront explorés (http://snap.stanford.edu). Cependant, un focus particulier sera mis sur l'utilisation des jeux de données du microbiome avec leurs annotations taxonomiques et fonctionnelles. Plus spécifiquement, nous explorerons le contexte des signatures prédictives du microbiome à l'aide de l'approche predomics (Prifti et al., 2020), dans une perspective d'écosystème global.
Résultats attendus. D'un point de vue méthodologique, le résultat attendu est à la fois un cadre de reconstruction de réseau et de nouvelles méthodes algorithmiques qui permettent d'intégrer la topologie du réseau avec les annotations pour inférer des réseaux multicouches. L’implémentation permettra la visualisation et la manipulation des réseaux. Cette approche sera largement évaluée sur des données simulées pour tester sa robustesse au bruit, mais aussi sur différents types de données réelles provenant du dépôt SNAP de Stanford. Une analyse approfondie des données sur le microbiome provenant de différentes études publiques telles que la cirrhose du foie sera effectuée (Qin et al., 2014). Pour les plus grands réseaux, une attention particulière sera accordée à l'efficacité de calcul et éventuellement au calcul par GPU.
Résumé dans une autre langue: Context. Networks are very powerful abstractions. They can provide a holistic representation of relations (i.e., edges) between objects (i.e., nodes), while making visible patterns and emerging properties such as modules or special central nodes that wouldn’t be seen otherwise. Nodes usually correspond to variables observed on a large number of samples (i.e., observations). Relations can be inferred using a plethora of functions, based on external knowledge but also estimated from the data such as mutual information, correlation or even distance metrics. An edge can represent for instance a link between two products bought together, or between two authors who have co-signed a paper. It can also represent two genes that are co-expressed frequently together or two bacterial species that are dependent on one another. Different thresholds are usually chosen to limit the number of edges to the stronger ones. Once the network topology is defined, different metrics can be computed such as the identification of modules, centrality measures, shortest paths, etc. The network is then visualized using different techniques and algorithms. Nodes and edges can be annotated using external information, to illustrate enrichment in modules or given patterns.
However, the topology of the network is highly dependent on the data and on the pipeline parameters (distance, thresholds, ...). This is even more of an issue in biological systems as the high throughput quantification technologies are very sensitive. Such is the case for gene expression, metabolite abundance and even microbiome species abundance. There is a wealth of biological information on such molecular objects, usually structured as ontologies on specific knowledge databases. In the context of networks, this information can be used to annotate the nodes and edges, and also to infer other types of networks where the nodes are can be annotations as is the case in the FunNet approach (Prifti et al 2008). Such multi-layer networks can be important in understanding the mechanisms and emergent properties of the studied phenomena.
Objectives. An approach based on the dynamic propagation of annotations was previously introduced in the context of co-expression networks (Prifti et al 2008; Prifti et al 2010). The main objective of this doctoral project, is to propose a novel method, which integrates annotations into an existing network topology, and allows to generate multi-layer networks based on such ontology-based annotations. Different approaches including the state-of-the-art propagation algorithm will be explored and evaluated. The framework should be able to process all types of networks and annotations and different dataset from the SNAP repository will be explored (http://snap.stanford.edu). However, a special focus will be put to the use of microbiome datasets along with their taxonomic and functional annotations. More specifically, we will explore the context of predictive microbiome signatures using the predomics approach (Prifti et al., 2020), from a perspective of the whole ecosystem.
Expected results. From a methodological perspective, the expected result is both a framework of network reconstruction as well as novel algorithmic methods which allow integrating network topology along with annotations to infer multi-layer networks. The framework will allow network visualization and manipulation. This approach will be largely benchmarked on simulated data to test for its robustness to noise, but also on different types of real datasets from the SNAP Stanford repository. An in-depth analysis of microbiome data from different public studies such as liver cirrhosis will be performed (Qin et al., 2014). For larger networks, special attention will be given to computational efficiency and eventually GPU computing.