Projet de recherche doctoral numero :3241

Description

Date depot: 1 janvier 1900
Titre: Résumés de flux de données spatio-temporelles
Encadrante : Christine POTIER (LTCI (EDMH))
Directeur de thèse: Georges HEBRAIL ()
Domaine scientifique: Sciences et technologies de l'information et de la communication
Thématique CNRS : Non defini

Resumé: La production rapide et massive de données sous la forme de flux s’est récemment révélée être une source de sujets de recherche majeurs. Ce phénomène de production, qui concerne un nombre grandissant de sources de données, se retrouve sous le nom de « flux de données » ou « flots de données », ou encore « data streams ». Les flux de données peuvent être issus de l’activité d'opérateurs téléphoniques, de la surveillance de patients, du trafic routier, de réseaux de capteurs, GPS, etc. Les flux de données nous confrontent à deux défis principaux : 1. Comment représenter un flux de manière fidèle sans le stocker exhaustivement ? 2. Comment extraire de la connaissance depuis un flux, sans le bloquer par des opérations coûteuses ? {{Les résumés de flux de données}} : l’idée principale en gestion de flux de données est qu’un flux ne peut pas être stocké, mais doit être traité « à la volée ». Que ce soit pour répondre à des requêtes ou pour exécuter une opération de fouille. Le traitement « à la volée » implique de mettre en place et de maintenir des résumés des données qui sont passées dans le flux. Ces résumés sont une représentation approximative du flux de données, qui permet d’estimer les résultats attendus d’une requête ou d’un processus de fouille. {{La fouille de flux de données}} : dans les applications traditionnelles, le processus de fouille était prévu pour fonctionner sur des données stockées et statiques ou peu mises à jour. L’extraction de connaissances pouvait alors prendre des heures, des jours, mais la nature statique des données ne perturbait pas le déroulement de l’extraction. Dans le cas des flux, on n’observe les données qu’une seule fois. Dans le cadre de cette thèse on s’intéressera à des {{flux de données spatio-temporelles}} (ou données de trajectoire). En effet de plus en plus d’appareils (téléphones mobiles, PDA, GPS, etc) sont capables de transmettre leur position aux systèmes d’information sous forme de flux continus et à une granularité très fine. Ces données, décrivant les trajectoires d’objets mobiles, ont donné naissance à une nouvelle classe d’applications (services géo-localisés, gestion et monitoring du trafic routier,..). A titre d’exemple dans le cas d’une application de trafic routier, des requêtes type peuvent porter sur : le nombre de véhicules qui étaient présents dans une certaine zone géographique à une date donnée, les n carrefours les plus encombrés à une période donnée, etc. Afin de répondre à ce genre de requêtes, il est impératif d’avoir une vision historique des données passées. Le traitement des données de trajectoires en tant que flux de données soulève donc la même problématique que citée auparavant : des résumés doivent être construits afin de maintenir une trace des trajectoires des différents objets mobiles. Ici, l’enjeu est double : (i) il faut respecter les contraintes générales imposées sur la construction des résumés et (ii) il faut que la construction du résumé tienne compte de la richesse et des particularités de l’information transmise par le flux (la dimension spatiale et la dimension temporelle). De ce fait, les techniques de résumés classiques trouvent leur limite dans ce cas là. De nouvelles approches de résumés doivent donc être développées.

Doctorant.e: El Mahrsi Mohamed Khalil