Projet de recherche doctoral numero :8513

Description

Date depot: 12 avril 2023
Titre: Modélisation multi-agents des capacités fonctionnelles des communautés microbiennes
Directeur de thèse: Jean-Daniel ZUCKER (UMMISCO)
Encadrant : Eugeni BELDA (UMMISCO)
Directeur de thèse: Alexis DROGOUL (UMMISCO)
Domaine scientifique: Sciences et technologies de l'information et de la communication
Thématique CNRS : Sciences de l’information et sciences du vivant

Resumé: Le microbiote intestinal (l'ensemble des micro-organismes qui peuplent le tube digestif) joue un rôle essentiel dans notre santé. Il participe à la digestion de nutriments complexes, façonne notre réponse immunitaire et synthétise des molécules qui interagissent avec l'hôte humain. La diversité de cet écosystème est énorme, et son répertoire génétique est de plusieurs ordres de grandeur supérieur à celui du génome humain. Les technologies omiques, en particulier le séquençage massif, ont permis d'étudier son rôle dans des pathologies telles que l'obésité, le diabète de type 2 (T2D) ou les maladies coronariennes. Ces études ont montré que la composition du microbiote intestinal peut être plus prédictive de l'état de santé que la variation génétique du génome humain. Cela ouvre la porte à la médecine personnalisée ou prédictive en combinant le profil clinique de l'individu avec la composition de son microbiote intestinal. Le problème majeur qui ressort de ces études est le manque d'explication biologique ou mécanistique derrière les associations qui émergent de l'analyse statistique. C'est le principal problème des algorithmes de machine learning, connus comme des "boîtes noires" car bien qu'ils soient très performants ils sont extrêmement complexes, ce qui rend les modèles difficiles à interpréter biologiquement. L'interprétabilité est également nécessaire pour l’acceptabilité par la communauté des cliniciens afin que ces modèles puissent être utilisés dans le cadre de la médecine personnalisée. C'est pourquoi il est nécessaire de développer des méthodes d'analyse qui explorent les mécanismes biologiques à l'origine des variations de composition du microbiome intestinal en lien avec les pathologies complexes humaines. C'est dans ce contexte qu'une approche systémique basée sur la modélisation de différents réseaux moléculaires (métaboliques, régulateurs, interaction protéine-protéine) qui intègre des données omiques pourrait contribuer à ces besoins. La modélisation à base de contraintes (méthodes COBRA) utilisant les réseaux métaboliques à l'échelle du génome (GSMN) et techniques d'optimisation linéaire (FBA, FVA, pFBA) permet de simuler in-silico le comportement des écosystèmes microbiens en termes d’activités cellulaires individuelles, ainsi que ses interaction. Néanmoins, sont limitées dans le sens où elles fournissent un instantané de l'état métabolique défini par la topologie du réseau en termes de réactions biochimiques. Dans ce contexte, la modélisation à base les agents (ABM) est une approche de modélisation qui, appliquée aux communautés microbiennes, permet de représenter chaque microbe comme une entité qui peut évoluer dans un environnement simulé, fournissant une plateforme pour modéliser les interactions entre différents microbes et entre les microbes et l'environnement. GAMMA (GIS Agent-based Modelling Architecture) est une plateforme open-source pour la GPA développée depuis 2007 à UMMISCO-IRD qui fournit un environnement intégré pour le développement de modèles hétérogènes à grande échelle avec un fort support de la dimension spatiale et son propre langage de modélisation qui a été utilisé dans domaines comme la modélisation du trafic et des problèmes de transport, l'atténuation des risques, et la gestion des ressources dans les systèmes socio-environnementaux. L'objectif du présent projet de thèse est dans un premier temps d'étendre la plateforme GAMA à la modélisation 3D des communautés microbiennes de l'intestin humain. Il s’agira d’abord de concevoir des skills pour représenter le comportement d’un agent microbien. Dans un second temps il s’agira d’intégrer des données métagénomiques quantitatives avec GSMM des microbes intestinaux provenant de différents espaces génomiques, des méthodes COBRA comme cadre de simulation des activités métaboliques, et des données environnementales (alimentation, pH, température, densités cellulaires, etc.) et OMIC (protéomique, métabolomique, transcriptomique) comme variables pour paramétrer le comportement de la communauté. Les défis en termes de modélisation sont liés à la représentation d’une bactérie comme un agent informatique spatialisé. Cet environnement de modélisation sera utilisé pour modéliser la dynamique microbienne décrite par des ensembles de données métagénomiques longitudinales publiques afin d'évaluer les résultats des simulations et d'apprendre des paramètres supplémentaires sur le comportement du système. Enfin, le cadre de simulation sera intégré à des modèles prédictifs de maladies dérivés d'algorithmes d'apprentissage automatique pour aider à l'interprétabilité fonctionnelle des relations écologiques entre les entités microbiennes de ces modèles et proposer des stratégies d'intervention (consortiums microbiens nutritionnels, thérapeutiques) vers des résultats ciblés.

Résumé dans une autre langue: The intestinal microbiota (all the microorganisms that inhabit the digestive tract) plays an essential role in our health. It participates in the digestion of complex nutrients, shapes our immune response and synthesizes molecules that interact with the human host. The diversity of this ecosystem is enormous, and its genetic repertoire is several orders of magnitude larger than the human genome. Omics technologies, in particular next-generation sequencing (NGS), have made it possible to study its role in pathologies such as obesity, type 2 diabetes (T2D) or coronary heart disease. These studies have shown that the composition of the gut microbiota may be more predictive of health status than genetic variation in the human genome. This opens the door to personalized or predictive medicine approaches by combining an individual's clinical profile with the composition of their gut microbiota. The major problem that emerges from these studies is the lack of biological or mechanistic explanation behind the associations that emerge from the statistical analysis. This is the main problem with machine learning algorithms, known as "black boxes'' because although they are very powerful they are extremely complex, making models difficult to interpret biologically. Interpretability is also necessary for acceptability by the clinical community so that these models can be used in personalized medicine. Therefore, there is a need to develop analytical methods that explore the biological mechanisms behind variations in gut microbiome composition in relation to complex human pathologies. Is in this context that a systemic approach based on the modeling of different molecular networks (metabolic, regulatory, protein-protein interaction) that integrates OMICS data could contribute to these needs. Constraint-based modeling (COBRA methods) using genome-wide metabolic networks (GSMN) and linear optimization techniques (FBA, FVA, pFBA) allows to simulate in-silico the behavior of microbial ecosystems in terms of individual cellular activities, as well as its interaction. Nevertheless, they are limited in the sense that they provide a snapshot of the metabolic state defined by the network topology in terms of biochemical reactions. In this context, agent-based modeling (ABM) is a modeling approach that, when applied to microbial communities, allows to represent each microbe as an entity that can evolve in a simulated environment, providing a platform to model interactions between different microbes and between microbes and the environment. GAMMA (GIS Agent-based Modelling Architecture) is an open-source platform for ABM developed since 2007 at UMMISCO-IRD that provides an integrated environment for the development of large-scale heterogeneous models with strong support for the spatial dimension and its own modelling language that has been used in areas such as modelling of traffic and transportation problems, risk mitigation, and resource management in socio-environmental systems. The objective of this thesis project is to extend the GAMA platform to the 3D modeling of human gut microbial communities. In a first step, it will be necessary to design skills to represent the behavior of a microbial agent. In a second step, we will integrate quantitative metagenomic data with GSMM of gut microbes from different genomic spaces, COBRA methods as a framework for simulating metabolic activities, and environmental data (food, pH, temperature, cell densities, etc.) and OMIC data (proteomics, metabolomics, transcriptomics) as variables to parameterize the behavior of the community. The modeling challenges are related to the representation of a bacterium as a spatialized computing agent. This modeling environment will be used to model the microbial dynamics described by public longitudinal metagenomic datasets to evaluate the results of the simulations and learn additional parameters about the behavior of the system. Finally, the simulation framework will be integrated with disease predictive models derived from machine learning algorithms to aid in the functional interpretability of ecological relationships between microbial entities in these models and propose intervention strategies (nutritional, therapeutic microbial consortia) towards targeted outcomes.