Description
Date depot: 8 novembre 2022
Titre: Catégorisation automatique des contenus textuels performatifs fondée sur l’apprentissage et la fusion symbolique
Directeur de thèse:
Jean-Gabriel GANASCIA (LIP6)
Domaine scientifique: Sciences et technologies de l'information et de la communication
Thématique CNRS : Intelligence artificielle
Resumé: L’actualité sur internet est polluée par des contenus partisans qui cherchent à influencer le lecteur. Nous sommes tous confrontés à des campagnes de dénigrement qui visent à modifier la compréhension des événements de leurs lecteurs pour les inciter à agir dans un certain sens. Ce phénomène s’amplifie chaque jour en tirant avantage tant des technologies de mise à disposition des contenus textuels en ligne que de la création de textes avec des modèles de langage de type BERT ou GPT.
L’objectif de ce travail de recherche est l’automatisation de la détection de contenus d’information performatifs trompeurs en ce qu'ils poussent intentionnellement à l’action tout en biaisant le jugement. En d’autres termes, il s’agit de détecter toutes les formes de tromperies, de désinformations, de rumeurs, de fausses nouvelles, d’attaques informationnelles et de fake news. Le travail se focalise sur les articles d’actualité du web, sites d’information et blogs, en français. Il fera appel à la fois à de l’apprentissage machine sur des données textuelles, à des analyses sémantiques et à de la fusion symbolique d’informatique.
Résumé dans une autre langue: The news on the internet is polluted by partisan content that seeks to influence the reader. We are all confronted with smear campaigns that aim to change their readers' understanding of events in order to incite them to act in a certain direction. This phenomenon is growing every day, taking advantage of both the technologies for making textual content available online and the creation of texts with language models such as BERT or GPT.
The objective of this research work is to automate the detection of deceptive performative information contents in that they intentionally push to action while biasing the judgment. In other words, the aim is to detect all forms of deception, misinformation, rumors, fake news, informational attacks and fake news. The work focuses on news articles on the web, news sites and blogs, in French. It will use a combination of machine learning on textual data, semantic analysis and symbolic computer fusion.
Doctorant.e: Maine Francois