Projet de recherche doctoral numero :8674

Description

Date depot: 27 mars 2024
Titre: Prédiction automatisée de tensions sémantiques à partir de contenus textuels et des graphes de réseaux sociaux
Directeur de thèse: Jean-Gabriel GANASCIA (LIP6)
Directeur de thèse: Gauvain BOURGNE (LIP6)
Domaine scientifique: Sciences et technologies de l'information et de la communication
Thématique CNRS : Intelligence artificielle

Resumé: Dans un monde où les plateformes de médias sociaux facilitent la diffusion rapide d'informations de toutes sortes, identifier et mesurer les tensions sémantiques entre des contenus qui portent sur le même objet devient essentiel pour comprendre et naviguer dans le paysage informationnel d'aujourd’hui. Plutôt que de caractériser un contenu comme une infox, c’est-à-dire comme une nouvelle fausse, ce qui présuppose une définition du vrai, il s’agit d’alerter lorsque des contenus textuels apparaissent s’écarter des normes usuelles afin, ensuite, de déceler d’éventuelles tentatives de désinformation. Ce projet de recherche se penche sur cette problématique, en se centrant sur l'utilisation de l'intelligence artificielle, des techniques de traitement automatique des langues et des grands modèles de langues pour détecter les écarts. À titre d’illustration, nous examinons la façon dont certaines nouvelles proposent des perspectives différentes de celles qu’on retrouve dans les rapports scientifiques du GIEC. De même, certaines sources proposent des informations sur des grandes entreprises qui s’écartent de la communications officielles de ces mêmes entreprises, ce qui peut correspondre à une volonté de désinformation. Dans tous les cas, il faut identifier les divergences, qu'elles concernent le contenu, le style, la thématique, le ton, la factualité ou la véracité des informations. Le projet se concentrera sur l’écosystème des informations institutionnelles (ex. organisations, ONG, entreprises) qui est aujourd’hui très peu exploré. Il portera sur des contenus en différentes langues, en particulier trois, le français, l’anglais et une autre langue de la communauté européenne. La détection des contradictions sera complétée par une analyse des dynamiques de réseaux sociaux afin de repérer d’éventuelles sources de désinformation.

Résumé dans une autre langue: In a world where social media platforms facilitate the rapid dissemination of information of all kinds, identifying and measuring semantic tensions between content on the same topic becomes essential to understanding and navigating today's information landscape. Rather than characterizing content as infox, i.e. as false news, which presupposes a definition of what is true, the aim is to alert us when textual content appears to deviate from the usual norms, and then to detect any attempts at disinformation. This research project addresses this issue, focusing on the use of artificial intelligence, natural language processing techniques and large language models to detect deviations. As an illustration, we look at how some news items propose different perspectives from those found in the IPCC's scientific reports. Similarly, some sources provide information on major companies that deviates from the official communications of the same companies, which may reflect to a desire to misinform. In all cases, discrepancies need to be identified, whether in terms of content, style, subject matter, tone, factuality or veracity. The project will focus on the ecosystem of institutional information (e.g. organizations, NGOs, companies), which is currently little studied. It will focus on content in different languages, in particular three: French, English and another European Community language. The detection of contradictions will be complemented by an analysis of social network dynamics to identify possible sources of misinformation.



Doctorant.e: Zve Evangelia