Projet de recherche doctoral numero :8060

Description

Date depot: 4 mars 2021
Titre: Analyse Intelligente de Documents avec des Approches Neuronales
Directeur de thèse: Benjamin PIWOWARSKI (ISIR (EDITE))
Domaine scientifique: Sciences et technologies de l'information et de la communication
Thématique CNRS : Intelligence artificielle

Resumé: Les documents d’entreprise ({business documents}), tels que les bilans financiers, contrats de travail ou accords de vente, jouent un rôle central dans le fonctionnement d’une entreprise. L’information y est généralement présentée sous forme de texte écrit en langage naturel, mais elle est structurée et organisée de multiples façons (sections, colonnes, tables, figures...). Outre les formats très différents (contrats, factures, formulaires...), ces documents varient aussi par leur type (d’origine numérique ou scannés). De plus, ils fournissent souvent un ensemble de règles et se situent dans un contexte restreint (par exemple, la jurisprudence pour les contrats). Aujourd'hui, nombreuses sont les entreprises ayant recours à des experts pour extraire l’information de leurs documents. Pour chaque type de document, des règles sont définies et doivent être mises à jour lors de changements de format, ce qui résulte en un procédé coûteux et chronophage. Afin d’extraire automatiquement ces règles, un domaine de recherche dédié, dénommé Document Intelligence, a récemment vu le jour et a fait l'objet d'un atelier de travail à NeurIPS, la conférence phare dans le domaine de l'IA. Il regroupe les modèles et algorithmes conçus pour lire, comprendre, interpréter et structurer l’information provenant de documents d'entreprise. Il s'agit d’une application critique de l’Intelligence Artificielle (IA), dont les défis majeurs ont pour source la complexité des documents, des tâches associées (questions-réponses factuelles ou subjectives, analyses à l'échelle document ou du corpus...) et la mise en oeuvre des systèmes (interprétabilité des résultats, contraintes business...). Les documents d’entreprise sont des documents bureautiques. En plus du texte, les documents bureautiques possèdent des éléments structurels: une mise en page (représentée à travers la position des mots) et des éléments typographiques (style, couleur, police du texte). Afin d’exploiter de tels documents, il est nécessaire de tenir compte de toutes ces informations. L’objectif scientifique de cette thèse est de proposer et développer des méthodes permettant de produire des représentations textuelles performantes tenant compte de la structure des documents. L’enjeu de la thèse est de proposer des approches neuronales pour améliorer l’analyse de documents bureautiques. Afin de prendre en compte les dépendances dans un document ainsi que la nature multimodale des documents bureautiques, nous nous baserons sur des modèles multimodaux combinant représentations de graphe et architectures Transformers, ces dernières étant les plus prometteuses à l'heure actuelle. Cette approche permet de résoudre les limites des modèles actuels en capturant le contexte global d'un document et en considérant conjointement les différentes modalités. En particulier, notre méthode sera conçue pour traiter des documents multipages et sera appliquée aux tâches d'extraction d'information et d'analyse de mise en page.

Doctorant.e: Nguyen Kim-Anh Laura