Projet de recherche doctoral numero :3816

Description

Date depot: 1 janvier 1900
Titre: Modèles vectoriels de documents pour la fouille de textes bio-médicaux : Application à l'identification de relations gènes-maladies
Directeur de thèse: Mohamed NADIF (Centre Borelli (EDITE))
Domaine scientifique: Sciences et technologies de l'information et de la communication
Thématique CNRS : Non defini

Resumé: {{Contexte}} Le volume des publications bio-médicales augmente à un rythme sans précédent. A titre d'exemple, la base PubMed contient 20 millions d'articles et ce nombre augmente d'environ 50 000 par mois . Il est maintenant reconnu que des outils avancés de text mining sont nécessaires pour extraire automatiquement les riches informations bio-médicales contenues dans ces nombreuses publications. Des techniques de traitement du langage et de fouille de textes ont donc été appliquées à des tâches aussi diverses que la reconnaissance d'entités nommées, l'annotation fonctionnelle des gènes, les interactions entre protéines, la construction automatique d'ontologies. Krallinger [4] fournit une synthèse récente de ce domaine en pleine évolution. Au delà de leurs différences, les applications évoquées ci-dessus visent fondamentalement à utiliser des descriptions textuelles pour : -# regrouper entre elle des entités de même nature (par exemple, effectuer un clustering de gènes), -# identifier des relations entre des entités de nature différente (par exemple, mettre en relation un ensemble de gènes et de protéines). L'identification de groupes de gènes est un problème qui est étudié depuis les débuts de la bio-informatique. Plus récemment, la recherche médicale a mis en évidence l'intérêt qu'il y a également à pouvoir regrouper automatiquement des maladies que l'on avait cru jusqu'ici sans rapport les unes avec les autres. De plus, les groupes de maladies et des groupes de gènes ainsi identifiés peuvent entretenir entre eux des relations identifiables en utilisant des techniques d'analyse exploratoire. La constitution de groupes de gènes ou de maladies fait appel à des techniques de clustering tandis que l'identification des relations entre groupes peut s'appuyer soit sur des techniques de co-clustering [1] soit sur des techniques relevant de l'analyse de graphes et de réseaux [2]. Cependant, quelle que soit la technique utilisée, la qualité des résultats obtenus dépend en grande partie de la richesse des représentations informatisées initiales. La recherche médicale en génomique utilise depuis longtemps de nombreuses bases de données structurées qui peuvent être interrogées en utilisant des langages de requêtes sophistiqués pour retrouver des informations sur les entités à étudier (gènes, protéines, SNPs, maladies génétiques, etc.) Les méthodes permettant d'intégrer ces bases non textuelles dans des processus de text mining ont encore été peu étudiées. Il s'agit d'un enjeu important qui sera au coeur des recherches menées dans le cadre de cette thèse dont le but est de construire, de valider et d'exploiter des representations multiples d'entités comme les gènes et les maladies. {{Travail à effectuer}} Le premier axe du travail de thèse consistera à représenter les entités à étudier (gènes, maladies) sous forme de vecteurs dans différents espaces. Ces espaces pourront être dérivés de corpus d'articles (représentation d'un gène dans l'espace des mots contenus dans les articles) mais également de bases de données génomiques (par exemple, représentation d'un gène dans l'espace des séquences de nucléotides). La qualité des différentes représentations vectorielles obtenues sera évaluée sur la base de leur capacité à apparier des groupes de maladies et des groupes de gènes apparentés. Différentes combinaisons de représentations vectorielles et de mesures de similarité seront expérimentées et comparées en termes de rappel et de précision. Le scénario applicatif suivant servira de fil conducteur aux études menées : à partir d'un ensemble de gènes connus pour être liés à l'asthme on identifiera des maladies pouvant être liées à l'asthme. Pour construire les représentations des gènes et des maladies, on combinera les informations génétiques contenues dans la base GenBank avec les informations issues de l'analyse du texte d'articles contenus dans Pubmed et des descripteurs MESH correspondant à la catégorie “maladie”. La seconde phase des travaux exploitera les multi-représentions les plus performantes identifiées lors de l'étape précédente, le but étant de créer des matrices de similarité utilisées dans deux contextes : -# clustering de gènes et clustering de maladies, en mettant en oeuvre des méthodes d'ensemble (ensemble methods) [5], -# co-clustering de gènes et de maladies, -# analyse de réseaux regroupant gènes et maladies, en utilisant des mesures de centralité, notamment les mesures d'autorité (hub and authority) [3]. L'évaluation des résultats obtenus durant cette phase portera sur la qualité des regroupements d'entités similaires (clusters de gènes, clusters de maladies) ainsi que sur la qualité des mises en relation d'entités de nature différente (gènes potentiellement liés à des maladies).

Doctorant.e: Ailem Melissa