Projet de recherche doctoral numero :3766

Description

Date depot: 1 janvier 1900
Titre: Stylistique automatique et identification d'auteurs
Directeur de thèse: Jean-Gabriel GANASCIA (LIP6)
Domaine scientifique: Sciences et technologies de l'information et de la communication
Thématique CNRS : Non defini

Resumé: Cette thèse porte sur la {{stylistique automatique}} à l'aide de techniques d'apprentissage automatique. Il s'agit de caractériser l'auteur, le genre ou l'époque. Dans le passé, beaucoup de travaux ont porté sur l'attribution de paternité de textes. Il s'agit de reprendre ces études avec deux ambitions: -* {{renouveler les méthodes}}: à la différence des méthodes classique fondée sur la lexicométrie, l'approche proposée fera appel à une extraction de motifs syntaxiques. -* {{identifier les caractéristiques du style}}: les motifs syntaxiques devraient aider à expliciter les caractéristiques du style de tel auteur, de tel type de texte ou de telle époque. Pour mener à bien ce travail, on aura recours à -* des techniques de {traitement automatique des langues} (étiquetage syntaxique, analyse syntaxique, etc.) -* de la {fouille de textes} (extraction de motifs récurrents) -* de l'{apprentissage supervisé} Les recherches se poursuivrons dans le cadre du {{Labex OBVIL}} qui fait collaborer l'équipe ACASA du LIP6 avec les équipes de littérature de l'université Paris-Sorbonne. Cela permettra de valider les approches proposées en contact avec des équipes de littérature. Cela fournira aussi des corpus pertinents. A titre d'illustration, une première validation doit porter sur les romans érotiques du XIXe siècle, dont les auteurs sont en partie anonymes.

Doctorant.e: Boukhaled Mohamed Amine