Projet de recherche doctoral numero :8575

Description

Date depot: 12 septembre 2023
Titre: Interfaces en langage naturel pour l'analyse des données
Directeur de thèse: Paolo PAPOTTI (Eurecom)
Encadrante : Olena KUSHAKOVSKA (SAP)
Domaine scientifique: Sciences et technologies de l'information et de la communication
Thématique CNRS : Non defini

Resumé: La thèse vise à faire progresser la recherche sur les approches automatiques combinant données structurées et textuelles. Il a trois objectifs principaux : le profilage des données à l'aide du traitement du langage naturel (NLP) pour comprendre les relations entre les variables dans de grandes collections de données ; l'inférence de contrôle automatisée, qui exploite les informations provenant de documents textuels pour guider l'exploration de modèles à partir de données structurées ; et des démonstrations de cas d'utilisation réels des méthodes développées. L'accent principal sera mis sur le développement de modèles NLP basés sur l'architecture du transformateur pour prendre en charge des tâches telles que la détection de modèles de données problématiques sur les données structurées et l'exploration des données. La thèse envisage également de former un réseau critique pour évaluer la qualité des modèles découverts. La dernière étape consiste à démontrer ces avancées dans des cas d’utilisation réels.

Résumé dans une autre langue: The thesis aims to advance research on automatic approaches that combine structured and text data. It has three main objectives: data profiling using Natural Language Processing (NLP) to understand relationships among variables in large data collections; automated check inference, which leverages information from textual documents to guide the mining of patterns from structured data; and real use-case demonstrations of the developed methods. The main focus will be on developing NLP models based on the transformer architecture to support tasks such as detection of problematic data patterns over structured data and data exploration. The thesis also envisions training a critic network to evaluate the quality of the discovered patterns. The final stage involves demonstrating these advancements in real use cases.



Doctorant.e: Corallo Giulio