Description
Date depot: 1 janvier 1900
Titre: Fouille visuelle et interactive de flux d'événements
Directeur de thèse:
Mohamed NADIF (Centre Borelli (EDITE))
Domaine scientifique: Sciences et technologies de l'information et de la communication
Thématique CNRS : Non defini
Resumé:
{{Contexte}}
À l'ère du tout numérique, de plus en plus de données sont produites et sont accessibles en flux. Dans de nombreux domaines d'activité, on cherche à les exploiter. Les acteurs des domaines du journalisme, de la sociologie, ou de l'épidémiologie, s'intéressent de près à l'analyse textuelle des flux d'actualité et des réseaux sociaux. Dans d'autres domaines, les flux de données analysés sont plus structurés comme en sécurité informatique via l'analyse de log de serveur, ou en science de l'environnement via l'analyse de production de bio-gaz ou l'analyse de la prolifération d'insectes dans les productions agricoles.
Devant l'importance des volumes de données produites, les outils d'analyse et de visualisation d'information deviennent indispensables. De nombreuses techniques analytiques sont disponibles mais nécessitent une expertise difficile d'accès pour beaucoup d'analystes. Ces techniques, incluant le Data Mining, le Text Mining ou les modèles statistiques, exploitent, pour la plupart, des données statiques et connues d'avance. D'importants travaux de recherche visent à améliorer ces techniques pour qu'elles soient adaptées aux changements imprévisibles des flux de données, à leur volume et leur analyse en temps réel [12]. Nous utiliserons ou adapterons les modèles, les résultats scientifiques ou les librairies logicielles disponibles comme base pour nos traitements analytiques de flux de données.
La fouille visuelle et interactive de données vise à utiliser les techniques les plus récentes en visualisation d'information pour permettre à l'utilisateur d'explorer les données, de les comprendre et ainsi de rendre plus efficaces ses prises de décision. L'approche standard s'inscrit dans un processus linéaire d'acquisition de connaissance, qui commence par une étape de traitement des données, puis qui se termine par la visualisation et l'exploration interactive des résultats, suivant le principe 'Vue d'ensemble, zoom et filtrage, détail à la demande' [5].
En suivant cette approche linéaire, les résultats affichés risquent d’apporter peu d’intérêt. En effet, les besoins de l’utilisateur peuvent s’écarter de ses choix initiaux, du fait que les données évoluent, ou que certaines caractéristiques des données ne sont pas connues a priori. L’approche Visual Analytics vise à introduire l’expertise de l’utilisateur dans un processus itératif, lui permettant ainsi d'ajuster progressivement les configurations, le choix des techniques analytiques et les visualisations jusqu’à l’obtention de résultats utiles.[3,6]
Figure - a) Processus linéaire d'acquisition de connaissance - b) Processus itératif d'acquisition de connaissance [6]
Dans le cadre de cette thèse, nous souhaitons contribuer à l’avancement du domaine de la Visual Analytics en nous intéressant plus précisément à l’analyse de flux d’événements dénombrables. Cela trouve des applications dans différents domaines. Il s'agit, par exemple, d'analyser la fréquence des mots à travers le temps pour les flux textuels ou d'analyser le nombre de connexions établies entre les ordinateurs d’un réseau informatique. L'outil logiciel de Visual Analytics réalisé dans le cadre de cette thèse devra proposer de nouvelles visualisations ou de nouveaux modes d'interaction entre l'utilisateur, les visualisations et les algorithmes de fouille de données.
Travail à fournir
Les travaux seront ancrés dans plusieurs cas d'utilisation réels spécifiés et évalués par des acteurs de différents domaines tels que le journalisme, la sécurité informatique et les sciences de l'environnement. Des interviews seront donc réalisées en amont des travaux pour identifier les besoins et les tâches réalisées par les acteurs des métiers visés. Des expériences utilisateurs seront conduites en aval afin de mesurer l'utilité et l'utilisabilité du logiciel.
Un fois les tâches et les besoins des utilisateurs identifiés, un framework sera conçu spécifiquement pour la fouille visuelle et interactive de flux d'événements. L’analyse de flux de données est un défi scientifique d’actualité aussi bien en IHM qu’en fouille de données. Sa spécificité vient de l'affluence ininterrompue des données et de la nécessité d'analyser le flux en temps réel. Dans ce but, l’analyste doit pouvoir, dans un premier temps, définir et organiser les caractéristiques des données qui l’intéressent. Dans un deuxième temps, il doit caractériser selon ses besoins les aspects temporels ou structurels des données qui peuvent constituer des événements à analyser en temps réel. Enfin, les visualisations doivent aller au-delà des habituelles listes d’alertes. Nous visons une exploration des données à travers des vues dynamiques permettant d’observer les événements prédéfinis ou de détecter des événements inattendus. Ces trois phases de l’analyse du flux de données doivent être intégrées dans un seul et même outil permettant ainsi une exploration progressive des données et le pilotage par l’intermédiaire de vue
Doctorant.e: Medoc Nicolas