Description
Date depot: 7 avril 2025
Titre: une approche hybride basé sur l’IA générative pour la transcription des documents français en FALC/A Hybrid Approach Based on Generative AI for Transcribing French Documents into Easy-to-Read Language (FALC)
Directeur de thèse:
Lionel TROJMAN (LISITE)
Encadrante :
Amel YESSAD (LIP6)
Domaine scientifique: Sciences et technologies de l'information et de la communication
Thématique CNRS : Traitement automatique des langues et de la parole
Resumé: Les personnes en situation de handicap mental ou de déficience intellectuelle (DI) rencontrent d'importantes difficultés pour accéder à une information claire, selon l'Unapei. Cette barrière linguistique concerne aussi plus de 2,5 millions de Français en situation d'illettrisme, limitant leur pleine participation citoyenne. Le manque de solutions adaptées aggrave leur exclusion sociale, créant un besoin urgent d'outils accessibles.
Le standard FALC (Unapei, 2009) s'impose comme une réponse concrète, déjà mise en œuvre par des structures spécialisées (ESAT, APEI). Cependant, la transcription manuelle reste longue et coûteuse, retardant l'accès à l'information. Des projets européens basés essentiellement sur la simplification automatique du texte comme Simplext (Saggion et al. 2015) ou français comme Cap'FALC (Martin, 2021), « Alector » (Gala et al. 2020), ainsi que le projet belgo-français « AMesure » (François et al. 2020) ont exploré des solutions technologiques, mais avec des limites dans la gestion des documents complexes. La méthode de simplification de texte FALC se divise principalement en trois niveaux : 1) la simplification au niveau des mots, 2) la simplification au niveau des phrases, et 3) la simplification au niveau des documents.
Les récentes avancées en IA, notamment les LLMs (modèles de langage) et l'IA générative, offrent des perspectives prometteuses. Le Prompt Engineering (PE), le Fine-Tuning (FT) et le RAG (Retrieval Augmented Generation) (Ding et al. 2024) permettent d'adapter automatiquement les textes aux règles FALC. Ces méthodes réduisent les hallucinations des IA tout en accélérant considérablement le processus de simplification (Wang et al. 2024). L’IA générative comprend généralement deux phases :
(i) Extraire et comprendre les informations sur l'intention de l'utilisateur,
(ii) Produire le contenu souhaité en fonction des intentions extraites (Wang et al. 2023).
En 2009, « Inclusion Europe » a développé un projet de type « Pathways » qui avait pour thème « L’information pour tous » (Gangloff 2015). Le document « Grille d'évaluation des documents FALC » traite principalement de la transcription de documents en FALC sous quatre aspects principaux :
• Choix de l'information,
• Construction des phrases et choix des mots, le remplacement des métaphores,
• Illustrations, l'utilisation d'images pour aider les gens à comprendre,
• Mise en page.
Les trois premiers aspects principaux peuvent être réalisés grâce à l’AI générative (Cao et al. 2023), (Wang et al. 2023).
Pour le choix de l'information, cela concerne principalement la classification de texte et la rédaction de résumés de documents dans les sous-domaines de TALN (Zhang et al. 2017), (Xu et al. 2024). La construction des phrases et le choix des mots relèvent de la génération automatique de texte en TALN (Zhao et al. 2020), tandis que les illustrations concernent la création d'images à partir du texte.
Pour être efficace, cette automatisation doit résoudre plusieurs problèmes : convertir les règles FALC en une Ontologie exploitable par l'IA, combiner ces connaissances avec les capacités des LLMs, et garantir la conformité aux standards européens. L'optimisation des prompts et l'intégration de mécanismes de vérification restent des chantiers prioritaires pour assurer la qualité des transcriptions.
Une solution automatisée et fiable permettrait de diffuser largement l'information en FALC, bénéficiant non seulement aux personnes avec DI mais aussi à d'autres publics vulnérables (dyslexiques, migrants, personnes âgées). Cela représenterait une avancée majeure pour l'inclusion numérique et l'exercice des droits fondamentaux, tout en réduisant les coûts et délais de transcription.
3. Objectif général
Le FALC simplifie les textes pour les rendre accessibles aux personnes avec des difficultés cognitives, comme la DI (Gangloff, 2015). Cependant, son adoption reste limitée par la complexité de sa mise en œuvre au quotidien. Cette thèse poursuit trois objectifs principaux :
A. OG1 : Automatiser la transcription de documents français vers le FALC en exploitant les dernières avancées en IA (LLMs, PE, FT et RAG).
B. OG2 : Concevoir une Ontologie alignée sur les standards européens du FALC pour guider la simplification des mots et des phrases (Unapei, 2009).
C. OG3 : Evaluer sur le terrain l’apport réel des documents transcrits via des analyses quantitatives et qualitatives
La méthodologie s’appuiera sur une approche de recherche-action participative, intégrant les besoins des utilisateurs concernés.
Résumé dans une autre langue: People with intellectual disabilities or cognitive impairments face major difficulties accessing clear information, according to Unapei. This linguistic barrier also affects more than 2.5 million French citizens facing illiteracy, limiting their full civic participation. The lack of adapted solutions increases social exclusion, creating an urgent need for accessible tools.
The FALC standard (Unapei, 2009) provides a concrete response and has already been implemented by specialized organizations (ESAT, APEI). However, manual transcription remains time-consuming and costly, delaying access to information.
Several European and French projects such as Simplext (Saggion et al. 2015), Cap'FALC (Martin, 2021), Alector (Gala et al. 2020), and AMesure (François et al. 2020) have explored technological solutions, mostly through automatic text simplification. Nevertheless, these approaches remain limited in handling complex documents.
FALC simplification involves three main levels: 1) word-level simplification, 2) sentence-level simplification, and 3) document-level simplification.
Recent advances in AI, including large language models (LLMs) and generative AI, offer new perspectives. Prompt engineering (PE), fine-tuning (FT), and retrieval-augmented generation (RAG) (Ding et al. 2024) enable automatic adaptation of texts to FALC guidelines. These methods reduce AI hallucinations and significantly speed up the simplification process (Wang et al. 2024).
Generative AI typically involves two phases:
(i) extracting and understanding the user's intent,
(ii) generating the desired content based on that intent (Wang et al. 2023).
In 2009, Inclusion Europe developed a “Pathways” project under the theme “Information for All” (Gangloff 2015). The “FALC Document Evaluation Grid” addresses four main transcription aspects:
- Information selection,
- Sentence structure and word choice, including metaphor replacement,
- Use of illustrations to aid understanding,
- Page layout.
The first three aspects can be addressed using generative AI (Cao et al. 2023, Wang et al. 2023).
Information selection involves text classification and document summarization within NLP (Zhang et al. 2017, Xu et al. 2024). Sentence construction and word selection are part of automatic text generation (Zhao et al. 2020), while illustrations relate to image generation from text.
For effective automation, several challenges must be addressed: translating FALC rules into a machine-readable ontology, combining this knowledge with LLM capabilities, and ensuring compliance with European standards. Optimizing prompts and integrating verification mechanisms are key areas of development to ensure transcription quality.
A reliable and automated solution would enable widespread dissemination of FALC information, benefiting not only people with intellectual disabilities but also other vulnerable populations (dyslexic individuals, migrants, older adults). This would represent a major step forward in digital inclusion and the exercise of fundamental rights, while reducing transcription costs and time.
General Objective
FALC simplifies texts to make them accessible to people with cognitive challenges, such as intellectual disabilities (Gangloff, 2015). However, implementation remains limited due to its complexity. This PhD project pursues three main goals:
A. OG1: Automate the transcription of French documents into FALC by leveraging the latest AI advances (LLMs, PE, FT, and RAG)
B. OG2: Design an ontology aligned with European FALC standards to guide word and sentence simplification (Unapei, 2009)
C. OG3: Evaluate in real-world settings the actual impact of transcribed documents through both quantitative and qualitative analyses
The methodology will follow a participatory action-research approach, integrating the needs of the target users.