Projet de recherche doctoral numero :3617

Description

Date depot: 1 janvier 1900
Titre: Résumés linguistiques de données numériques
Directrice de thèse: Bernadette BOUCHON-MEUNIER (LIP6)
Directrice de thèse: Marie-Jeanne LESOT (LIP6)
Domaine scientifique: Sciences et technologies de l'information et de la communication
Thématique CNRS : Non defini

Resumé: ** Contexte La fouille de données permet d'extraire automatiquement des connaissances à partir d'ensembles de données, selon divers algorithmes d'apprentissage, qui suivent des principes et des objectifs variés. La question de la présentation de ces connaissances à l'utilisateur est centrale et peut influencer dans une large mesure l'appréciation des outils qui lui sont offerts. Une forme particulièrement interprétable et naturelle pour les analystes est constituée de résumés linguistiques, définis comme des textes de quelques phrases en langage naturel. Ainsi, des données portant sur les ventes de livres peuvent conduire à des connaissances présentées sous la forme de phrases comme ``la plupart des ventes sont des romans policiers'' ou ``la moitié des ventes de romans policiers ont lieu dans des gares''. A côté de systèmes basés sur des approches linguistiques, comme EasyText ou BT45, une approche courante est basée sur l'utilisation de la logique floue et en particulier des quantificateurs flous : elle repose sur la construction de phrases qui suivent des formes schématiques appelées protoformes, dont les plus courants sont ``QX sont A'' ou ``QBX sont A''. Dans de telles phrases, Q représente un quantificateur (la plupart ou la moitié dans les exemples de ventes de livres cités ci-dessus), X l'ensemble de données à résumer (les ventes de livres), A et B des attributs descriptifs (roman policier, vendu en gare). Les travaux existants sur les quantificateurs flous portent à la fois sur leur définition, d'un point de vue analytique général et d'un point de vue expérimental, en accord avec la perception linguistique , et sur leur exploitation par la sélection du quantificateur appropriée pour un ensemble de données fixé.

Doctorant.e: Moyse Gilles