Projet de recherche doctoral numero :3954

Description

Date depot: 1 janvier 1900
Titre: Modeling language with structured penalties
Directeur de thèse: Francis BACH (DIENS)
Domaine scientifique: Sciences et technologies de l'information et de la communication
Thématique CNRS : Non defini

Resumé: La modélisation de la langue naturelle est l'un des défis fondamentaux de l'intelligence artificielle et de la conception de systèmes interactifs. Ses applications s'étendent à travers divers domaines, tels que les systèmes de dialogue, la génération de texte et la traduction automatique, et a été largement étudié au cours des derni ères décennies. Le problème commun à la plupart des applications du langage est la modélisation de la distribution d'un mot étant donné son contexte, généralement constitué d'une séquence de mots voisins dans le texte. Les modèles de langue les plus simples sont basés sur la fréquence d'apparition de mots ou de séquences de mots. Comme la taille du vocabulaire est en genérale importante, de nombres occurences de phrase probables ne sont jamais observées dans un corpus de textes, donnant lieu a un un problème d'estimation ou le nombre de paramètres est largement supérieur à la taille de l'échantillon d'apprentissage. Cela entraine une surestimation de la probabilité des séquences observées et une sous-estimation des séquences non observées. Ainsi, il est nécessaire d'utiliser des connaissances {a priori} avant de modifier de maniére appropriée la distribution. Les fréquences empiriques sont souvent corrigées grâce à des techniques de lissage. Les méthodes d'apprentissage statistiques basées sur la minimisation d'un coût empirique correspondent à un modèle approprié aux données et sont une alternative interessante aux méthodes basés sur les fréquences. De nombreuses techniques d'apprentissage ont été appliquées à la construction de modèles de langue; modèles génératifs (Dirichlet, Pitman-Yor et les processus Pitman-Yor hiérarchiques), les modèles discriminants (entropie maximale, {conditional random fields}) et les représentations de distribution (réseaux de neurones, machines de Boltzman, modéles log-bilinéaire). Nous proposons un modèle log-linéaire discriminatif donnant la distribution des mots qui suivent un contexte donné. En raison de la parcimonie des données, il est nécessaire de régulariser de manière approprièe le modèle en utilisant un terme de pénalité. Cependant, des choix simples de régularisation (comme $ell_2^2$ et $ell_1$ pénalités) ne parviennent pas à capturer les dépendances longues: ils {sur-apprennent} sur les données lorsqu'on augmente de la longueur de contexte, car ils sont agnostiques à la structure séquentielle du problème. Nous montrons qu'il est nécessaire de concevoir un terme de pénalité qui code correctement la structure de l'espace fonctionnel pour éviter le sur-apprentissage et d'améliorer la généralisation, tout en capturant de manière appropriée les dépendances à long terme. Quelques propriétés intéressantes de pénalités structurés spécifiques peuvent être utilisés pour réduire le nombre de paramètres requis pour coder le modèle. Le résultat est un modèle efficace qui capte suffisamment les dépendances longues sans occasionner une forte augmentation des resources en espace ou en temps. Dans un modèle log-linéaire, les phases d'apprentissage et de tests deviennent de plus en plus chères avec un nombre croissant de classes. Cela est dû au fait que le facteur de normalisation impliqué dans le calcul des probabilités croît linéairement avec le nombre de classes ou de catégories dans le problème. Le nombre de classes dans un modèle de langue est la taille du vocabulaire, qui est généralement très importante. Une astuce courante consiste à appliquer le modèle en deux étapes: la première étape identifie le cluster le plus probable et la seconde prend le mot le plus probable du cluster choisi. Cette idée peut être généralisée à une hiérarchie de plus grande profondeure avec plusieurs niveaux de regroupement. Cependant, la performance du système de classification hiérarchique qui en résulte dépend du domaine d'application et de la construction d'une bonne hiérarchie n'est pas triviale. Nous étudions différentes stratégies pour construire la hiérarchie des catégories de leurs observations. Nous observons que le choix de l'algorithme pour construire une hiérarchie devrait dépendre des données et que, dans certaines situations, un classificateur hiérarchique peut améliorer les performances par rapport à un classificateur multi-classe simple. - Summary in English - Modeling natural language is among fundamental challenges of artificial intelligence and the design of interactive machines. It has applications spanning across various domains, such as dialogue systems, text generation and machine translation among others and has been studied extensively in the past decades. The central problem common to most applications of language is to model the distribution over a vocabulary of words that could follow a given sequence of words or the context. The simplest of models in the literature are based on frequency counts. Since the size of the vocabulary is large, many possible sentences are never observed leading to sparse sampling

Doctorant.e: Nelakanti Anil Kumar