Informations professionnelles
Statut: Docteur ED
ED: EDITE
Unité de recherche: ISIR (EDITE)
Employeur: BNP Date de debut de thèse: 18 juillet 2018 Date soutenance de thèse: 11 mars 2022 Directeur de thèse: Patrick GALLINARI (ISIR (EDITE)) Directeur de thèse: Vincent GUIGUE (ISIR (EDITE)) Sujet de thèse: Extraction d'information faiblement supervisée
Employeur: BNP Date de debut de thèse: 18 juillet 2018 Date soutenance de thèse: 11 mars 2022 Directeur de thèse: Patrick GALLINARI (ISIR (EDITE)) Directeur de thèse: Vincent GUIGUE (ISIR (EDITE)) Sujet de thèse: Extraction d'information faiblement supervisée
Soutenance de thèse
Données générales
Titre : Contextualization and Generalization in Entity and Relation Extraction
Date : 11 mars 2022
Heure: 09:00
Résumé : In this thesis, we study the behaviour of state-of-the-art models regarding generalization to facts unseen during training in two important Information Extraction tasks: Named Entity Recognition and Relation Extraction. Indeed, traditional benchmarks present important lexical overlap between mentions and relations used for training and evaluating models, whereas the main interest of Information Extraction is to extract previously unknown information. We propose empirical studies to separate performance based on mention and relation overlap with the training set and find that pretrained Language Models are mainly beneficial to detect unseen mentions, in particular out-of-domain. While this makes them suited for real use cases, there is still a gap in performance between seen and unseen that hurt generalization to new facts.
In particular, even state-of-the-art ERE models rely on a shallow retention heuristic, basing their prediction more on arguments surface forms than context.
Lieu : 4, place Jussieu
75005 Paris
Rapporteurs/ Rapporteuses
Personne | Qualité | Etablissement |
---|---|---|
M. Bellot Patrice | Professeur des universités | Laboratoire d'Informatique et systèmes, Univ. d'Aix-Marseilles |
M. Doucet Antoine | Professeur des universités | Laboratoire Informatique, Image et Interaction, Univ. La Rochelle |
Composition du jury
Personne | Qualité | Etablissement |
---|---|---|
M. Gallinari Patrick | Professeur des universités | Institut des Systèmes Intelligents et de Robotique, Sorbonne Université |
M. Guigue Vincent | Maître de Conférences (HDR) | Institut des Systèmes Intelligents et de Robotique, Sorbonne Université |
M. Bellot Patrice | Professeur des universités | Laboratoire d'Informatique et systèmes, Univ. d'Aix-Marseilles |
M. Doucet Antoine | Professeur des universités | Laboratoire Informatique, Image et Interaction, Univ. La Rochelle |
Mme. Ehrmann Maud | Maîtresse de Conférences | EPFL (Suisse) |
M. Tannier Xavier | Professeur des universités | Laboratoire d'Informatique Médicale et d'Ingénierie des Connaissances en e-Santé, Sorbonne Université |