Projet de recherche doctoral numero :8504

Description

Date depot: 12 avril 2023
Titre: Beyond Automatic Systematic Literature Review (ASR) using Natural Language Processing (NLP) based on Large Language Models (LLM)
Directeur de thèse: Jean-Daniel ZUCKER (UMMISCO)
Encadrant : Aman BERHE (UMMISCO)
Domaine scientifique: Sciences et technologies de l'information et de la communication
Thématique CNRS : Intelligence artificielle

Resumé: Systematic review is an important process in evidence-based medicine and scientific research, where a comprehensive and unbiased search is conducted to identify and evaluate all relevant literature on a specific topic. However, this process —also called literature screening— is time-consuming and resource-intensive, especially for large-scale literature reviews that involve a daily increasing vast amount of publications. In recent years, natural language processing (NLP) techniques have shown promising results in automating some aspects of the systematic review process, such as literature screening and knowledge extraction. However, they are limited in their ability to capture and analyse complex contextual information and hyper intertwined relationships between (bio) concepts. Recent large language models such as GPT3, LLAMA, etc. have achieved extra ordinary results. LLM can represent articles with more robust and contextually complex representation, and which might be used to fully automate systematic review and develop approaches beyond the ASR. PMC (PubMed central) articles (>30 million articles) have been downloaded on local machines. Annotation of datasets for different extraction and classification purposes can also be done via prompt engineering of results from LLMs. An ASLR pipeline has been developed in UMMISCO in the context of generating evidence for bacteria signatures rules for detecting healthy and unhealthy liver cirrhosis in human microbiome which were constructed using different machine learning algorithms from an abundance of bacteria species proposed by E. Prifti et al, (2019). The pipeline focused on screening articles according to different inclusion criteria then extracted (bio) concepts such as Chemical, Disease, Gene, and Species. Furthermore, a relation between these entities have been identified as positive, negative, and neutral. These entities and their relations are then used to build a knowledge graph that provides evidence to a set of bacteria signature rules. However, more research and rigorous investigation is necessary to build a general and robust ASLR using LLM for applying it on different specific domains of biomedicine, beyond metagenomic signatures.PhD steps will include:1) Reviewing NLP methods for literature review in biomedicine and in particular in Metagenomics.2) Collecting and preparing a biomedical literature corpus related to Metagenomics.3) Developing an LLM-based approach to perform an ASR of metagenomics signatures.4) Evaluating and validating LLM-based approach against traditional methods.6) Applying the ASLR pipeline for article screening and concept extraction from the Predomics ApproachBibliography:- Prifti, E., Chevaleyre, Y., Hanczar, B., Belda, E., Danchin, A., Clément, K., & Zucker, J. D. (2020). Interpretable and accurate prediction models for metagenomics data. GigaScience, 9(3), giaa010.- van Dinter, R., et al.. (2021). Automation of systematic literature reviews: A systematic literature review. Information and Software Technology, 136, [106589]. https://doi.org/10.1016/j.infsof.2021.106589- Marshall, I, et al. RobotReviewer: Evaluation of a System for Automatically Assessing Bias in Clinical Trials. Journal of the American Medical Informatics Association (JAMIA), 23 (1): 193-201. 2016- Marshall, I, et al., 'Trialstreamer: a living, automatically updated database of clinical trial reports', Journal of the American Medical Informatics Association : JAMIA. https://doi.org/10.1101/2020.05.15.20103044- Cohen AM, et al. Reducing workload in systematic review preparation using automated citation classification. J Am Med Inform Assoc. 2006 Mar-Apr;13(2):206-19. doi: 10.1197/jamia.M1929. Epub 2005 Dec 15. PMID: 16357352; PMCID: PMC1447545.- Zhang, Y.,  et al. Automation of literature screening using machine learning in medical evidence synthesis: a diagnostic test accuracy systematic review protocol. Syst Rev 11, 11 (2022). https://doi.org/10.1186/s13643-021-01881-5- Feng, Y. et al. Automated medical literature screening using artificial intelligence: a systematic review and meta-analysis. J Am Med Inform Assn 29, 1425–1432 (2022).- Chen, X., et al. Leveraging deep learning for automatic literature screening in intelligent bibliometrics. Int. J. Mach. Learn. & Cyber. 14, 1483–1525 (2023). https://doi.org/10.1007/s13042-022-01710-8

Résumé dans une autre langue: La revue systématique est un processus important en médecine basée sur les preuves et la recherche scientifique, où une recherche complète et impartiale est menée pour identifier et évaluer toute la littérature pertinente sur un sujet spécifique. Cependant, ce processus, également appelé dépistage de la littérature, est long et nécessite beaucoup de ressources, en particulier pour les revues de littérature à grande échelle impliquant un nombre croissant de publications. Ces dernières années, les techniques de traitement du langage naturel (NLP) ont montré des résultats prometteurs dans l'automatisation de certains aspects du processus de revue systématique, tels que le dépistage de la littérature et l'extraction de connaissances. Cependant, ils sont limités dans leur capacité à capturer et analyser des informations contextuelles complexes et des relations étroitement imbriquées entre les (bio) concepts. Les modèles de langage récents tels que GPT3, LLAMA, etc. ont obtenu des résultats extraordinaires. Les LLM peuvent représenter des articles avec une représentation plus robuste et contextuellement complexe, et pourraient être utilisés pour automatiser entièrement la revue systématique et développer des approches au-delà de l'ASR. Les articles PMC (PubMed Central) (> 30 millions d'articles) ont été téléchargés sur des machines locales. L'annotation des ensembles de données pour différentes fins d'extraction et de classification peut également être effectuée via l'ingénierie de prompts des résultats des LLM.Un pipeline ASLR a été développé à UMMISCO dans le contexte de la génération de preuves pour les règles de signatures bactériennes pour détecter la cirrhose du foie saine et malsaine dans le microbiome humain, construites à l'aide de différents algorithmes d'apprentissage automatique à partir d'une abondance d'espèces bactériennes proposées par E. Prifti et al, (2019). Le pipeline se concentrait sur le dépistage des articles selon différents critères d'inclusion puis extrayait des (bio) concepts tels que produits chimiques, maladies, gènes et espèces. De plus, une relation entre ces entités a été identifiée comme positive, négative et neutre. Ces entités et leurs relations sont ensuite utilisées pour construire un graphe de connaissances qui fournit des preuves à un ensemble de règles de signatures bactériennes. Cependant, des recherches et des investigations rigoureuses sont nécessaires pour construire une architecture générale d'ASLR général qui soit robuste en utilisant LLM pour l'appliquer à différents domaines spécifiques de la biomédecine.Bibliography:- Prifti, E., Chevaleyre, Y., Hanczar, B., Belda, E., Danchin, A., Clément, K., & Zucker, J. D. (2020). Interpretable and accurate prediction models for metagenomics data. GigaScience, 9(3), giaa010.- van Dinter, R., et al.. (2021). Automation of systematic literature reviews: A systematic literature review. Information and Software Technology, 136, [106589]. https://doi.org/10.1016/j.infsof.2021.106589- Marshall, I, et al. RobotReviewer: Evaluation of a System for Automatically Assessing Bias in Clinical Trials. Journal of the American Medical Informatics Association (JAMIA), 23 (1): 193-201. 2016- Marshall, I, et al., 'Trialstreamer: a living, automatically updated database of clinical trial reports', Journal of the American Medical Informatics Association : JAMIA. https://doi.org/10.1101/2020.05.15.20103044- Cohen AM, et al. Reducing workload in systematic review preparation using automated citation classification. J Am Med Inform Assoc. 2006 Mar-Apr;13(2):206-19. doi: 10.1197/jamia.M1929. Epub 2005 Dec 15. PMID: 16357352; PMCID: PMC1447545.- Zhang, Y.,  et al. Automation of literature screening using machine learning in medical evidence synthesis: a diagnostic test accuracy systematic review protocol. Syst Rev 11, 11 (2022). https://doi.org/10.1186/s13643-021-01881-5- Feng, Y. et al. Automated medical literature screening using artificial intelligence: a systematic review and meta-analysis. J Am Med Inform Assn 29, 1425–1432 (2022).- Chen, X., et al. Leveraging deep learning for automatic literature screening in intelligent bibliometrics. Int. J. Mach. Learn. & Cyber. 14, 1483–1525 (2023). https://doi.org/10.1007/s13042-022-01710-8