Projet de recherche doctoral numero :7569

Description

Date depot: 1 octobre 2020
Titre: Analyse automatique des logs pour la détection des anomalies dans les infrastructures IT
Directrice de thèse: Raja CHIKY (LISITE)
Encadrante : Yousra CHABCHOUB (LISITE)
Domaine scientifique: Sciences pour l'ingénieur
Thématique CNRS : Non defini

Resumé: Dans un contexte où les infrastructures et architectures IT subissent de plus en plus de changements et d’évolutions, ce qui produit des quantités volumineuses de logs. Il devient important et vital d’exploiter ces logs et de les valoriser en vue de mieux comprendre le fonctionnement des infrastructures, de les sécuriser et d’optimiser le travail des administrateurs IT. Les fichiers de logs générés sont de différents formats (structurés et non structurés) et collectent différents types d’informations. Par exemple : - « Transaction Log » provenant des systèmes de gestion de bases de données collectent des informations sur les transactions non exécutées, les changements non répercutées sur la base de données, les annulations, etc. - « Syslog » collectent les informations sur l’activité des systèmes et réseaux etc. Traditionnellement, les développeurs (ou administrateurs) inspectent souvent les logs manuellement en recherche de mots clés. Il existent également de nombreux outils de surveillance des logs, tels que Swatch [1] et LogSurfer [2], qui sont basés sur des règles et supposent qu'un expert humain définisse des modèles (par exemple, des expressions régulières à appliquer aux logs). L'augmentation de la taille et de la complexité des systèmes et infrastructures modernes, rend infaisable l'inspection manuelle. De plus, ces outils ne permettent pas d'identifier des anomalies non prévues ou inconnues dans le passé. Pour résoudre ce problème, diverses méthodes de détection d'anomalies basés sur l’analyse automatique des logs ont été suggérées, notamment les modèles de Markov cachés [3], les arbres de décision [4], les support vector machines (SVM) [6], réseaux de neurones [7] et régression logistique [8]. La majorité de ces algorithmes supposent travailler sur des données de logs qui sont épurés et ne prennent pas en compte la qualification de la donnée (une donnée de bonne qualité) avant de l’injecter dans les modèles choisies. De plus, ces méthodes ne considèrent pas l’aspect flux de ces données logs qui nécessitent des algorithmes performants en terme de temps d’exécution, de consommation mémoire et qui doivent prendre en compte des données qui arrivent en continu.

Doctorant.e: Vervaet Arthur