Projet de recherche doctoral numero :4371

Description

Date depot: 1 janvier 1900
Titre: Filtrage sémantique distribué et génération de résumés à partir de flux de données massives
Directrice de thèse: Elisabeth MÉTAIS (CEDRIC)
Domaine scientifique: Sciences et technologies de l'information et de la communication
Thématique CNRS : Non defini

Resumé: Contexte Cette thèse s’inscrit dans le cadre du projet FUI 17 WAVES qui a pour objectif la conception et le développement d’une plateforme de supervision des réseaux de transport et de distribution d’eau potable et/ou usagée au niveau d’un territoire donné. Le but est l’élaboration d’une solution pertinente pour la réalisation d’un système d’aide à la décision pour les opérateurs et les exploitants des réseaux. Nous souhaitons ainsi, par exemple, détecter au plus tôt les phénomènes anormaux (micro-variations de certains paramètres qui ont une incidence en termes de risques, variation ou fréquence non-nominale, etc.), ce qui permet d’économiser des quantités considérables d’eau potable. La télé-relève des consommations en eau, les nombreux capteurs communicants récemment déployés dans le réseau hydraulique, ainsi que les données émanant de réseaux sociaux génèrent de nouveaux flux de données qui permettront de diagnostiquer beaucoup plus rapidement et plus précisément les fuites, les pannes ou les accidents. Problématique générale Les données en entrée du système de prise de décision sont hétérogènes (différents formats bruts tels que CSV, XML, RSS, ou encore JSON) car elles proviennent de différentes sources (capteurs, réseaux sociaux, compteur, plaintes clients, descriptions statiques du réseau et des capteurs, etc.). Afin de pouvoir traiter et raisonner de façon optimale sur ces données, nous allons dans le cadre de cette thèse utiliser les outils du Web sémantique tels que RDF [1], OWL [2], ou SPARQL [3]. L’objectif est ainsi la conception et le développement d’une plateforme qui «sémantise » des données statiques et dynamiques provenant de plusieurs sources hétérogènes, les filtre, les résume et propose des raisonnements. Cette plateforme offrira une solution d’aide à la décision aux exploitants afin de piloter les réseaux en temps réel et d’enrichir leurs bases de connaissance grâce au raisonnement (inférence). A titre d’exemples, cela peut permettre d’envoyer des exploitants sur un site avant qu’un phénomène ne s’aggrave, de lancer la maintenance d’un capteur qui dérive, ou de diagnostiquer un capteur qui ne communique plus. Les flux de données considérés étant permanents et arrivant à une grande vitesse, ils produisent une gigantesque masse de données, impossible à stocker entièrement en temps voulu. Il est donc primordial de filtrer à la volée ces données et de ne stocker que celles qui sont pertinentes en réalisant des résumés (par exemple, par extraction d’un échantillon représentatif du flux en utilisant des approches statistiques). Une étude complète des techniques de filtrage existantes dans la littérature (les ondelettes, l’échantillonnage, les sketchs, le clustering, etc.) permettra de sélectionner les méthodes les plus adaptées à notre cas d’étude. Le filtrage peut se faire à différents niveaux. Ainsi, il peut être natif lorsqu’il est réalisé sur des données brutes ou sémantiques s’il traite des données « sémantisées » (au format RDF). Ce dernier type de filtrage sera réalisé au moyen de requêtes SPARQL continues (Streaming SPARQL) prenant en compte les paramètres temporels et en phase avec les technologies du Web sémantique. Il faudra alors étendre le langage SPARQL au même titre que les extensions apportées au langage SQL dans les systèmes de gestion des flux de données classiques.

Doctorant.e: Dia Amadou Fall