Description
Date depot: 29 juin 2021
Titre: Modèles de génération de synthèses structurées conditionnées par des données faiblement structurées
Directrice de thèse:
Laure SOULIER (ISIR (EDITE))
Directeur de thèse:
Vincent GUIGUE (ISIR (EDITE))
Domaine scientifique: Sciences et technologies de l'information et de la communication
Thématique CNRS : Intelligence artificielle
Resumé: Le projet de la société Upskills R&D s'inscrit dans un contexte de support et d'innovation dans le secteur bancaire permettant 1) de manipuler/traiter des données complexes et hétérogènes et 2) de raisonner sur ces données pour l'aide à la prise de décision. Les banques d'investissement vendent et achètent des produits financiers, échangés sur les marchés de capitaux. Ces produits financiers sont multiples, mais ont pour fonction essentielle la maîtrise des risques (e.g., des risques de taux de changes, de contrepartie, ou de taux d'intérêts). Afin de prendre des décisions, les entreprises, les banques, ont besoin de comprendre ces informations complexes, composées et hétérogènes. Il est donc nécessaire de dépasser l'analyse quantitative souvent trop difficile à traiter par l'humain pour fournir à l'utilisateur final une synthèse des informations. Cette synthèse peut prendre par exemple la forme de texte en langage naturel ou d'un graphe de connaissances déduit à partir des documents. En particulier, dans le cas de la société Upskills R\&D, les données à traiter sont des produits financiers, appelés produits structurés. Un produit structuré est un produit financier complexe permettant de protéger le capital investi tout en s'exposant à des risques de manière finement contrôlée, afin de calibrer sa rentabilité. Les produits structurés peuvent être considérés comme des assemblages de produits financiers simples (action, obligation, options, etc). Cependant, il n'existe aucune règle sur la manière de créer ces assemblages et les seules limites de conception sont l'imagination du banquier et sa capacité à calculer un prix adapté à ces produits. Pour les produits structurés simples, des systèmes d'extraction d'informations basés sur des règles explicites peuvent être mis en oeuvre, mais cette approche se révèle difficile à maintenir et peu évolutive pour de nouveaux types de produits. Ainsi, des approches par apprentissage statistique sont pertinentes pour analyser des documents et extraire des informations utiles, de manière robuste, tout en tenant compte de la variabilité et de l'évolutivité du support.
L'objectif de la thèse est d'automatiser l'analyse d'un corpus de documents structurés hétérogènes dans le secteur bancaire. Pour cela, nous nous appuierons sur deux approches :
- l'extraction d'information qui vise à extraire des entités (lieu, date, nom propres, ...) dans un document,
- le "data-to-text" qui a pour objectif de générer des résumés textuels à partir de données numériques.
Les deux approches combinées (extraction d'information et génération de textes) permettront de mettre en oeuvre des modèles dits "de bout-en-bout" (end-to-end) capables de comprendre les informations essentielles à l'humain pour la prise de décision.
Nous nous appuierons sur des avancées récentes dans le domaine de l'apprentissage automatique et plus particulièrement du Deep Learning.
Doctorant.e: Luiggi Tristan