Description
Date depot: 16 avril 2021
Titre: Détection d’anomalies et de controverses en finance
Directeur de thèse:
Mohamed NADIF (Centre Borelli (EDITE))
Encadrant :
Labiod LAZHAR (Centre Borelli (EDITE))
Domaine scientifique: Sciences et technologies de l'information et de la communication
Thématique CNRS : Données et connaissances
Resumé: La détection des tendances anormales dans le domaine financier s'est largement concentrée sur la détection des fraudes, la modélisation des risques et l'analyse prédictive. Les données utilisées dans la majorité de ces études sont de nature chronologique, transactionnelle, graphique ou généralement quantitative ou structurée. Cependant l'importance cruciale des corpus de textes semi-structurés ou non structurés dont les praticiens du domaine financier tirent des informations --corpus tels que les rapports financiers, les communiqués de presse, les articles de presse, les journaux d'interaction avec les clients et les données sociales-- n'est plus à démontrer. Dans la détection des anomalies à partir du texte a évolué largement indépendamment des applications financières. Des méthodes de clustering non supervisées ont été appliquées aux documents afin d'identifier les valeurs aberrantes et les sujets émergents. L'analyse des écarts a été appliquée au texte afin d'identifier les erreurs d'orthographe et de balisage des documents. La popularité récente de la sémantique distributionnelle a conduit à de nouvelles avancées dans l'analyse de la déviation sémantique. Cependant, la recherche actuelle reste largement séparée des applications spécifiques dans le domaine de la finance.
Dans cette thèse, comme nous nous plaçons dans un cadre d'apprentissage non supervisé voire semi-supervisé. Nous nous appuierons sur des approches de type co-clustering qui est un processus de partitionnement simultané des documents et des mots. D'autre part, cette approche est aussi adaptée lorsqu'on dispose de peu d'observations (small data). Parmi le large éventail d'approches de co-clustering, la tri-factorisation à matrice non négative (NMTF) est reconnue pour ses hautes performances, sa flexibilité et ses fondements théoriques. Un aspect important lors du traitement de données textuelles est de capturer les relations sémantiques entre les mots. Cependant, cet aspect a été négligé par les modèles de co-clustering précédents, y compris NMTF. Dans notre problématique nous disposons des ensembles de documents (nouvelles/news) et de leur type (types des news définis par Datalab) ainsi que des entités nommées.
L'objectif de cette thèse est de développer des algorithmes online innovants non supervisés et semi-supervisés de text mining en vue de la détection d'anomalies et de controverses à partir de de données massives ou pas (small data) dans divers domaines dont la finance et d'autres secteurs d'activités (formation, santé, processus).
Doctorant.e: Fettal Chakib