Projet de recherche doctoral numero :6208

Description

Date depot: 24 juillet 2019
Titre: Détection distribuée d’anomalies dans les flux de données
Encadrante : Yousra CHABCHOUB (LISITE)
Directrice de thèse: Raja CHIKY (LISITE)
Domaine scientifique: Sciences pour l'ingénieur
Thématique CNRS : Non defini

Resumé: Suite à l’émergence des objets connectés, nous sommes aujourd’hui face à de nombreux flux de données produits en continu, à des vitesses de plus en plus grandes, par des sources hétérogènes comme les capteurs environnementaux ou les systèmes de supervision d’installations industrielles. Ces données, structurées et non structurées sont collectées en continu et traitées en temps réel afin d’en extraire de nouvelles connaissances et des informations pertinentes utiles à la prise de décision. Un objectif majeur de la fouille de données est la détection en temps réel de singularités ou d’anomalies. Plusieurs domaines d’applications peuvent être considérés comme la détection des cyberattaques par analyse de trafic internet ou l’identification de déséquilibre dans le réseau de transport. L’exploitation rapide d’une telle information permet d’éviter la défaillance de production en arrêtant une cyberattaque ou en changeant une pièce usée par exemple. Le but de cette thèse est d’étudier et d’améliorer les méthodes de détection d’anomalies (outliers) dans le contexte des flux de données massives. Différents types de méthodes seront considérés (unidimensionnelle/multidimensionnelle, supervisée/non supervisée, paramétrique/non paramétrique). Parmi ces méthodes on peut citer les forêts aléatoires, les algorithmes de clustering (K-means, hierarchical clustering…), CUSUM, EWMA, Concept drift… Un état de l’art sur les méthodes de détection d’outliers sera réalisé dans le cadre de cette thèse. Afin d’améliorer l’efficacité de la détection, les flux de données peuvent être enrichis par des informations statiques ou dynamiques externes au système supervisé comme des connaissances sur l’urbanisme ou des évènements externes pouvant impacter les valeurs des données collectées, ou les capteurs mesurant l’observable en question. Plusieurs données présentent des périodicités liées à l’activité humaine ou à des phénomènes naturels répétitifs. Ces périodicités peuvent être utilisées pour l’élaboration d’un modèle prédictif permettant d’isoler les anomalies. En outre, les données issues de capteurs géographiquement rapprochés présentent souvent des corrélations qui peuvent être exploitées pour la détection d’anomalies en utilisant des algorithmes collaboratifs. Les données issues des capteurs sont en général envoyées à un système central qui les agrège et les traite afin d’en extraire de nouvelles connaissances comme les anomalies.

Doctorant.e: Togbe Mahougbe Maurras Ulbricht Elisée