Description
Date depot: 1 janvier 1900
Titre: Stylistique automatique: extraction automatique de structure syntaxiques
Directeur de thèse:
Jean-Gabriel GANASCIA (LIP6)
Domaine scientifique: Sciences et technologies de l'information et de la communication
Thématique CNRS : Non defini
Resumé:
De manière générale, dans l’esthétique littéraire, le « style » peut être défini comme la manière caractéristique dont un auteur utilise la langue pour exprimer sa pensée. Notion à l’origine uniquement rattachée à la rhétorique, le terme « style » a été utilisé tour à tour par les critiques pour désigner la « norme », un « ornement », un « écart » de langage, un « symptôme » reflétant la singularité d’un individu ou encore une « signature » propre à un auteur, une école ou un mouvement (Canvat, 1990). Plus concrètement, l’étude du style d’un auteur s’intéressera aux procédés langagiers qu’il emploie, à l’usage qu’il fait entre autres des classes grammaticales, de la ponctuation, des temps verbaux, de la syntaxe et des figures de style.
Ces dernières décennies, en marge de l’analyse traditionnelle des textes littéraires, se sont développées différentes disciplines comme l’attribution d’auteur qui, en s’appuyant sur des méthodes informatiques et statistiques, ont permis d’ouvrir de nouvelles perspectives à la recherche littéraire et de jeter un regard neuf sur les textes existants. Dans la pratique, l’attribution d’auteur cherche à identifier l’auteur d’un texte en se basant sur la distribution de traits stylistiquement saillants prédéfinis et préalablement extraits dans des textes provenant de deux ou plusieurs auteurs. Différents marqueurs ont ainsi été proposés pour distinguer le style d’un auteur spécifique de celui d’un autre : les marqueurs lexicaux (fréquence des mots, n-grammes de mots, taille du vocabulaire, longueur moyenne des mots ou des phrases), syntaxiques (classes grammaticales, constituants grammaticaux, structure des phrases et des constituants grammaticaux), sémantiques (synonymes, dépendances sémantiques), textuels (police et couleur de caractère, éléments HTML) et les caractères (n-grammes de caractères) (Stamatatos, 2009).
=
D’un point de vue littéraire, la validité de ces méthodes reste cependant sujette à caution car elles sont pour la plupart uniquement quantitatives, manquent de fondements linguistiques et se focalisent principalement sur les formes utilisées en surface au détriment du langage réellement employé dans le texte ainsi que du processus de création de l’auteur (Olsson, 2004). Dans cette optique, le travail de recherche s’intéressera à deux figures de style, plus explicitement aux métaphores et aux comparaisons présentes dans un corpus de différents auteurs afin de comparer leur structure syntaxique, leur emploi et leur capacité à prédire adéquatement l’auteur d’un texte.
Selon Lakoff et Johnson (1980), notre système conceptuel est essentiellement métaphorique, ce qui tendrait à expliquer l’omniprésence de la métaphore tant dans le langage oral que dans les blogs, les articles de journaux et les textes littéraires. Bien plus qu’une simple figure de style, la métaphore joue un rôle fondamental dans notre façon de percevoir le monde qui nous entoure, d’agir et de parler. En effet, le langage humain se composant majoritairement de signes abstraits renvoyant bien souvent à des réalités concrètes, on a très souvent recours à des expressions imagées pour mieux communiquer nos pensées. La métaphore ainsi décrite permettrait donc, au moyen de l’analyse de la relation entre les différents domaines source et cible utilisés dans un texte, de définir le système conceptuel d’un auteur.
Tout comme la métaphore, la comparaison est une figure d’analogie qui associe deux concepts appartenant à deux domaines sémantiques différents. Même si ces deux figures possèdent des structures grammaticales différentes, le fait que certaines de métaphores puissent être reformulées au moyen d’une comparaison et vice versa a poussé certains chercheurs à les considérer comme étant équivalentes. Cependant, contrairement aux métaphores, les comparaisons ont surtout un rôle descriptif et contribuent à la narration (Israel, Riddle Harding et Tobin, 2004). De plus, le lien entre le comparant et le comparé étant explicite, elles sont plus accessibles aux lecteurs (Hanks, 2005). A ce titre, elles pourraient donc être considérées comme une volonté pour l’auteur de mieux se rapprocher d’une réalité familière à son lectorat.
Le travail s’articulera autour de trois phases distinctes. Dans un premier temps, on se consacrera à l’extraction automatique des métaphores et des comparaisons utilisées dans le corpus de textes choisi. Pour se faire, on s'inspirera des travaux de recherche précédents menés sur la détection automatique des métaphores, notamment grâce à l’analyse sémantique latente (Kintsch, 2000 ; Bestgen et Cabiaux, 2002), et sur les indices linguistiques dénotant les comparaisons en français (Ferrari, 1996, 1997).
Par la suite, on analysera les structures syntaxiques et les contextes d’emploi des figures extraites pour trouver des motifs récurrents qui permettront ultérieurement de caractériser un auteur, un genre littéraire ou une époque spécifique. L’analyse sémantique latente ét
Doctorant.e: Mpouli Njanga Seh Suzanne Patience