Projet de recherche doctoral numero :8568

Description

Date depot: 31 juillet 2023
Titre: Analyses statistiques des distributions lexicales: application à la détection d'anomalies dans les textes naturels
Directeur de thèse: François YVON (ISIR (EDITE))
Domaine scientifique: Sciences et technologies de l'information et de la communication
Thématique CNRS : Traitement automatique des langues et de la parole

Resumé: Les textes falsifiés, la désinformation et les mécanismes d'enfermement dans des bulles informationnelles apparaissent des problèmes de plus en plus critiques posés par l'algorithmisation de notre accès à l'information numérique. Des algorithmes de traitement automatique des langues médiatisent notre accès aux informations, en les triant, les classant, les filtrant selon des procédures opaques, avec pour objectif de susciter des réactions émotionnelles et conforter nos opinions. Sur les plateformes de médias sociaux, ces méthodes sont utilisées par des États, des entreprises et des particuliers malveillants pour produire des informations erronées, amplifier les doutes sur des données factuelles ou ternir la réputation de leurs concurrents ou adversaires, renforçant ainsi leurs propres positions stratégiques ou économiques. Ces pratiques de désinformation généralisées peuvent être le résultat de différents facteurs et incitations; cependant, toutes posent le même problème fondamental à l'humanité en brouillant la compréhension de ce qui est vrai et de ce qui est faux. L'utilisation de modèles d'apprentissage profond, comme le modèle GPT-3 de OpenAI, pour la génération de textes à grande échelle, s'est généralisée ces dernières années. Avec ces méthodes, la génération du texte est effectuée par le biais d'une procédure autorégressive qui échantillonne des suites de mots à partir d'une distribution apprise pour imiter la "vraie" distribution de textes naturels. Ces modèles s'avèrent très supérieurs aux méthodes de génération traditionnelles, et ont démontré leur capacité à produire des textes cohérents et pertinents, parfois difficiles à distinguer de productions humaines. Employées de manière malveillante ou criminelle, elles sont donc susceptibles de constituer des armes de désinformation massive. Pour lutter contre ces phénomènes, la première étape est le repérage des contenus les plus problèmatiques; nous nous focalisons dans cette thèse sur les contenus générés automatiquement. La détection de textes artificiels peut être considérée comme un cas particulier de la détection d'anomalies, définie au sens large comme la tâche consistant à identifier des exemples qui s'écartent des exemples habituels à un degré tel qu'ils éveillent les soupçons. Les recherches actuelles en matière de détection d'anomalies se concentrent en grande partie sur les classificateurs profonds (par exemple, la détection de points abberants, les attaques adverses) ou s'appuient sur la sortie de grands modèles de langue (LM) lorsque les étiquettes ne sont pas disponibles. Bien que ces axes de recherche soient attrayants, les faire passer à l'échelle exige une très grande quantité de calculs. En outre, ces méthodes reposent sur les hypothèses fondamentales suivantes : (1) les informations statistiques nécessaires à l'identification des anomalies sont disponibles dans le modèle entraîné, (2) l'incertitude du modèle est fiable, ce qui n'est généralement pas le cas, comme l'illustre la présence d'un petit changement dans la distribution des données d'entrée. Les approches basées sur les LMs ne sont pas performantes lorsqu'elles sont utilisées sur des grands fragments de texte, comme cela peut être nécessaire dans des applications pratiques (par exemple, la génération de longs documents, d'histoires ou de nouvelles), en raison du contexte de longueur fixe utilisé lors de l'entraînement du modèle de langue. Cette thèse de doctorat se concentre sur le développement de méthodes hybrides de détection des anomalies en utilisant des techniques basées sur des réseaux de neurones profonds et des distributions de fréquence de mots qui sont linguistiquement fondées. La plupart des recherches menées à ce jour sur les modèles de langue se concentrent sur le traitement au niveau de la phrase et ne parviennent pas à capturer les dépendances à long terme au niveau du discours. Pour pallier ce problème, nous nous appuierons sur les distributions de fréquence de mots et les mesures d'information pour caractériser les longs documents, en modélisant des phénomènes tels que le très grand nombre de mots rares, ce qui conduit souvent à des phénomènes statistiques étranges comme les variations systématiques des fréquences moyennes lorsque le nombre d'observations augmente. Des concepts avancés de statistiques et de mesures d'information sont nécessaires pour comprendre l'analyse des distributions de fréquences de mots et pour capturer l'information au niveau du document. Des expériences approfondies sur des ensembles de données du monde réel seront réalisées pour démontrer la viabilité de notre approche.

Résumé dans une autre langue: Forged texts and misinformation are ongoing issues and are in existence all around us in biased softwares that amplifies only our opinions for a “better” more seamless user experience. On social media platforms, these are used by rogue states, businesses and individuals to create misinformation, amplify doubts about factual data or to tarnish their competitors or adversaries, thereby enhancing their own strategic or economic positions. This spread may be the result of different factors and incentives; however, each pose the same fundamental issue to humanity: the misunderstanding of what is true and what is false. Leveraging deep learning models for large-scale text generation such as GPT-3 has seen widespread use in recent years due to superior performance over traditional generation methods, demonstrating an ability to produce text of great quality, coherence and relevance that are sometines hard to distinguish from human productions. These models generate text via an autoregressive procedure that samples from a distribution learnt to mimic the "true" distribution of human written texts. Malecious uses of these technologies thus constitute a major threat to a truthful information. Artificial text detection can viewed as a special case of anomaly detection, broadly defined as the task of identifying examples that deviate from regular ones to a degree that arouses suspicion. Current research in anomalies detection largely focuses either on deep classifiers (e.g., out-of-distribution detection, adversarial attack) or rely on the output of large language models (LMs) when label are unavailable. Although these lines of research are appealing, they do not scale without requiring large amount of compute. Additionally, these methods make the fundamental assumptions that (1) the statistical information needed to identify anomalies is available in the trained model, (2) the model uncertainty can be trusted, which is typically not the case as illustrated in presence of a small shift in the input distribution. LM-based approaches do not perform well when used on large text fragments, as may be needed in practical applications (e.g. novel, story or news generation), because of the fixed length context used when training the language model. This PhD thesis focuses on developing hybrid anomaly detection methods using deep neural network based techniques and word frequency distributions that are linguistically inspired. Most of the research on language models to date focus on sentence-level processing and fail to capture long-range dependencies at the discourse level. Instead, we will leverage on word frequency distributions and information measures to characterize long documents, incorporating a very large number of rare words, which often leads to strange statistical phenomena such as mean frequencies that systematically keep changing as the number of observations is increased. Advanced concepts from statistics and information measures are necessary to understand the analysis of word frequency distributions and to capture the document level information. Extensive experiments on real-world datasets will be executed to showcase t viability of our approach.



Doctorant.e: Dubois Matthieu