Projet de recherche doctoral numero :8693

Description

Date depot: 4 avril 2024
Titre: Table representation learning for data set discovery and data integration in datalakes
Directeur de thèse: Bernd AMANN (LIP6)
Encadrant : Rafael ANGARITA AROCHA (LIP6)
Directeur de thèse: Hubert NAACKE (LIP6)
Domaine scientifique: Sciences et technologies de l'information et de la communication
Thématique CNRS : Données et connaissances

Resumé: L'objectif de cette proposition de thèse est de définir et de développer de nouvelles solutions pour la découverte de données tabulaires structurées en apprenant des représentations de tableaux à l'aide de grands modèles de langage (Large Language Models, LLM) et de réseaux neuronaux pour les graphes (Graph Neural Networks, GNN). L'approche proposée suggère que les capacités d'apprentissage par transfert sous-jacentes et la capacité à traiter des données basées sur des graphes fournissent un cadre robuste pour les défis de l'intégration de données moderne, permettant une analyse plus profonde et des modèles précis pour découvrir et intégrer des ensembles de données hétérogènes dans un lac de données. L'approche scientifique nécessite une expérience théorique et pratique en traitement de données structurées et en apprentissage profond.

Résumé dans une autre langue: The aim of this thesis proposal is to define and develop new solutions for structured tabular data discovery by learning table representations using Large Language Models (LLMs) and Graph Neural Networks (GNNs). The proposed approach suggests that the underlying transfer learning capabilities and the ability to handle graph-based data provide a robust framework for the challenges of modern data integration, enabling deeper analysis and accurate models for discovering and integrating heterogeneous datasets in a data lake. The scientific approach requires theoretical and practical experience in structured data processing and deep learning.