Description
Date depot: 13 septembre 2022
Titre: GraphologIA : Actionner les méga-graphes de données dans les dataflows d’apprentissage automatique
Directeur de thèse:
Hubert NAACKE (LIP6)
Encadrante :
Camelia CONSTANTIN (LIP6)
Domaine scientifique: Sciences et technologies de l'information et de la communication
Thématique CNRS : Données et connaissances
Resumé: Ce projet aborde la préparation et la transformation des grands graphes de données destinées à entrainer des modèles d’apprentissage automatique. Cette étape est d’autant plus difficile que les données à transformer sont volumineuses, hétérogènes et dynamiques. Les nœuds représentent des concepts variés et possèdent des propriétés dont la sémantique n’est pas alignée sur un référentiel commun. Les liens entre nœuds sont eux-mêmes hétérogènes. L’analyse de ces très grands graphes nécessite le développement d’algorithmes distribués qui exploitent au mieux les infrastructures big data pour passer à l’échelle. De plus, la préparation de ces graphes doit être extensible pour s’adapter aux nouveaux modèles d’apprentissage automatique.
L’objectif de cette thèse est de concevoir un framework efficace qui permettra d'exécuter plus efficacement à la fois la préparation des données d’apprentissage et l'entraînement d’un modèle d’apprentissage.
La méthode consistera à définir un langage pour décrire de manière logique et déclarative le processus qui transforme les données initiales vers un graphe, avec unification et alignement.
Puis des nouvelles solutions d'indexation d’agrégation et seront étudiées pour accéder de manière aléatoire et rapide au graphe ainsi que pour le mettre à jour incrémentalement.
Doctorant.e: Bai Yuhe