Description
Date depot: 1 janvier 1900
Titre: Résumés linguistiques de données numériques
Directrice de thèse:
Bernadette BOUCHON-MEUNIER (LIP6)
Directrice de thèse:
Marie-Jeanne LESOT (LIP6)
Domaine scientifique: Sciences et technologies de l'information et de la communication
Thématique CNRS : Non defini
Resumé:
** Contexte
La fouille de données permet d'extraire automatiquement des
connaissances à partir d'ensembles de données, selon divers
algorithmes d'apprentissage, qui suivent des principes et des
objectifs variés. La question de la présentation de ces connaissances
à l'utilisateur est centrale et peut influencer dans une large mesure
l'appréciation des outils qui lui sont offerts.
Une forme particulièrement interprétable et naturelle pour les
analystes est constituée de résumés linguistiques, définis comme des
textes de quelques phrases en langage naturel. Ainsi, des données
portant sur les ventes de livres peuvent conduire à des connaissances
présentées sous la forme de phrases comme ``la plupart des ventes sont
des romans policiers'' ou ``la moitié des ventes de romans policiers
ont lieu dans des gares''.
A côté de systèmes basés sur des approches linguistiques, comme
EasyText ou BT45, une approche courante est basée sur l'utilisation de
la logique floue et en particulier des quantificateurs flous : elle
repose sur la construction de phrases qui suivent des formes
schématiques appelées protoformes, dont les plus courants sont ``QX sont A'' ou ``QBX sont A''. Dans de telles phrases, Q représente un quantificateur (la plupart ou la moitié dans les exemples de ventes de livres cités ci-dessus), X l'ensemble de données à résumer (les ventes de livres), A et B des attributs descriptifs (roman policier, vendu en gare).
Les travaux existants sur les quantificateurs flous portent à la fois
sur leur définition, d'un point de vue analytique général et d'un
point de vue expérimental, en accord avec la perception linguistique ,
et sur leur exploitation par la sélection du quantificateur appropriée
pour un ensemble de données fixé.
Doctorant.e: Moyse Gilles