Description
Date depot: 9 novembre 2022
Titre: Exploration de Méthodes d’Adaptations pour des Modèles Neuronaux dans le Domaine Clinique Français
Directeur de thèse:
Laurent ROMARY (Inria-Paris (ED-130))
Encadrant :
Eric DE LA CLERGERIE (Inria-Paris (ED-130))
Domaine scientifique: Sciences et technologies de l'information et de la communication
Thématique CNRS : Traitement automatique des langues et de la parole
Resumé: L'objectif de cette thèse est d’étudier et de mettre en place des méthodes d’adaptation pour des modèles neuronaux dans le domaine clinique français.
Les méthodes d’extraction d’information par apprentissage profond en traitement automatique des langues sont généralement efficaces dans le domaine de la langue générale, mais moins performantes dans des domaines de langages spécialisés comme celui de la santé. Ceci peut induire une mauvaise interprétation des données et peut avoir un impact négatif sur la qualité de soin des patients. L’une des raisons majeures est l’accessibilité très restreinte aux données d’apprentissage dans le domaine de la santé, en raison notamment de la confidentialité des données médicales mais aussi au coût important que peut engendrer l’annotation manuelle réalisée par des experts.
De ce constat, nous voulons explorer et concevoir des méthodes d’adaptation et d’apprentissage à faible coût qui nécessiteraient moins de données annotées par rapport à des méthodes d’apprentissage classiques. Ces méthodes doivent être également robustes, car les données patients sont hétérogènes et fortement bruitées. Afin de garantir l’efficacité de nos méthodes, l'un des objectifs de ce projet de thèse est de concevoir un jeu de test (benchmark) permettant d’évaluer les performances des modèles proposés, leur robustesse ainsi que leur capacité à généraliser à partir d’un petit nombre d’exemples.
Le principal champ d’application de ces méthodes concernera la pseudonymisation, qui correspond à une première tâche importante pour réduire les barrières à la diffusion et par conséquent la réutilisation de données médicales.
Doctorant.e: Meoni Simon