Projet de recherche doctoral numero :8562

Description

Date depot: 20 juillet 2023
Titre: Evaluer la qualité de la traduction des documents scientifiques
Directeur de thèse: François YVON (ISIR (EDITE))
Encadrante : Rachel BAWDEN (Inria-Paris (ED-130))
Domaine scientifique: Sciences et technologies de l'information et de la communication
Thématique CNRS : Traitement automatique des langues et de la parole

Resumé: La traduction automatique au niveau du document (DLMT) vise à aller au-delà de la traduction de phrases isolées. L'un des principaux obstacles à la réalisation de cet objectif est l'absence de mesures appropriées permettant de d'évaluer précisément les progrès réalisés et d'identifier les développements les plus prometteurs. En particulier, les mesures (automatiques) existantes ne parviennent pas à évaluer correctement des aspects importants de la traduction de documents complets, tels que la cohérence lexicale et la cohésion des textes générés. L'évaluation de la traduction automatique de documents scientifiques pose des défis supplémentaires, l'un d'entre eux étant la fréquente utilisation de termes spécifiques au domaine, qui, s'ils sont traduits de manière incorrecte, entraînent des fortes dégradation de la qualité de traduction. Les métriques d'évaluation doivent donc également être sensibles aux défis spécifiques rencontrés par l'évaluation de la traduction de documents scientifiques : (i) la correction de la traduction des termes, (ii) la cohérence de la traduction des termes au sein d'un document (en ce qui concerne les variantes de termes, l'utilisation d'acronymes, etc.) et (iii) la capacité à maintenir une argumentation logique entre les phrases et les sections. Cette thèse étudiera comment prendre en compte ces différentess facettes d'une bonne traduction, et proposera de nouvelles métriques et protocoles d'évaluation, prenant en compte à la fois des scores de qualité spécifiques (c'est-à-dire dédiés à un phénomène) et globaux.

Résumé dans une autre langue: Document-level Machine Translation (DLMT) aims to go beyond the translation of isolated sentences. One of the main barrier to progress towards this goal is the lack of proper metrics to precisely measure progresses and help identify the most promising developments. Existing (automatic) metrics notably fail to correctly evaluate important facets of full document translations, eg. the coherence and cohesion of generated texts. The evaluation of the MT of scientific documents poses additional challenges, one of them being the heavy use of domain-specific terms, which, if translated incorrectly, severely impact the quality of the translation. Evaluation metrics should therefore also be sensitive to specific challenges faced by the evaluation of scientific document translation : (i) the correct translation of terms, (ii) the coherent translation of terms within a document (with respect to term variants, use of acronyms, etc.) and (iii) the capacity to maintain a logical argument between sentences and sections. This thesis will study how to take these various aspects of a good translation into account, and propose new metrics and evaluation protocols, considering both specific (ie. dedicated to one phenomena) and global quality scores.



Doctorant.e: Dahan Nicolas