Description
Date depot: 1 janvier 1900
Titre: Interprétation automatisée des relations temporelles dans les énoncés en langue naturelle
Directeur de thèse:
Jean-Louis DESSALLES (LTCI (EDMH))
Domaine scientifique: Sciences et technologies de l'information et de la communication
Thématique CNRS : Non defini
Resumé:
=== Résumé
La quasi-totalité des énoncés en langue naturelle portent des indications de temps. La compréhension des relations temporelles ainsi exprimées est indispensable à la compréhension du sens, notamment dans ses aspects narratifs et logiques. Nous ne disposons pas, actuellement, de modèle correct permettant la compréhension des relations temporelles.
Or, l’interprétation des indications temporelles est un problème 'bien posé' du point de vue de l’ingénierie. Les locuteurs compétents d’une langue donnée interprètent la temporalité (temps et aspect) sans effort et de manière systématique, repérant même les ambiguïtés lorsqu’elles sont présentes.
Nous disposons d’un modèle procédural (partiel) qui permet l’interprétation automatique de relations temporelles à partir d’indications lexicales minimales et d’un ensemble réduit et systématique d’opérations topologiques. L’objectif de la thèse et d’augmenter ce modèle et de le valider, tant sur le plan linguistique et cognitif que sur le plan de l’efficacité. Ce travail devra déboucher sur des avancées théoriques et sur la réalisation d’un outil opérationnel.
=== Contexte
Dans la quasi-totalité des approches traditionnelles de la logique et de l’intelligence artificielle, le temps est représenté sous forme d’un ensemble d’instants ou d’intervalles, supposé //fini// (modèles granulaires) ou //dense//. Ces deux options sont irréalistes, tant cognitivement que techniquement. Par exemple, l’énoncé suivant est interprété naturellement par quiconque comprend le français. Pourtant, il tient en échec la quasi-totalité des modèles de la temporalité.
//Il y a quatorze milliards d’années, trois picosecondes après le Big-bang,
l’Univers a connu une brisure de symétrie.//
Il serait absurde de vouloir positionner le Big-bang à la picoseconde près par rapport au présent, sur une structure de mémoire qui, à défaut d’être dense, devrait permettre au moins de distinguer 10^30 unités indépendantes ! Le lecteur humain construit le sens en se situant successivement à deux échelles différentes. Ces deux échelles restent //incommensurables//, ce qui signifie qu’//il faut abandonner l’idée d’une ontologie temporelle// (instants ou intervalles).
Le modèle développé à Telecom ParisTech offre une solution prometteuse pour le traitement de la temporalité. Il adopte une stratégie minimaliste et retient le caractère essentiellement topologique des relations temporelles en évitant toute utilisation d’ontologie temporelle. L’exemple du Big-bang est traité comme un enchaînement de deux cartes topologiques de séparation (le présent est séparé du Big-bang, puis le Big-bang est séparé de la brisure de symétrie). Chaque carte topologique, dans un tel enchaînement, reprend un élément de la carte précédente. Cette reprise empêche que les différentes cartes s’écroulent sur une seule carte globale, ce qui évite une représentation dense infiniment précise.
Le modèle agit comme une interface entre la langue (lexique et syntaxe) et la mémoire (ou la simulation) épisodique. L’interface consiste en un nombre limité de registres, appelés //moments// et //époques//, mis en œuvre par des opérateurs topologiques. Les deux principaux sont l’opérateur d’inclusion et l’opérateur de séparation. Les cartes imposent des contraintes d’échelle sur leurs éléments. Ainsi, la phrase qui suit sera ainsi sémantiquement incorrecte dans la plupart des contextes.
* //Il a vendu son vélo trois minutes après son voyage en Chine//
Les cartes temporelles offrent un moyen de raisonner sur la mémoire temporelle. Ce mécanisme à base de registres et d’opérateurs permet d’utiliser la mémoire épisodique de manière systématique sans tomber dans l’absurdité d’une représentation atomiste ou d’une représentation dense. La figure suivante montre, de manière schématique, le traitement d’une phrase comme :
//Je n’avais jamais entendu parler de Goffman avant d’étudier la linguistique//
{{Goffman.jpg|Exemple}}
[[http://www.telecom-paristech.fr/~jld/theses/Goffman.jpg|FIGURE]]
Cette représentation a l’avantage de reproduire fidèlement les ambiguïtés de l’énoncé : on ne sait pas combien de temps la méconnaissance de Goffman a perduré après le début des études en linguistique (la carte associée à //jamais// n’est pas bornée) et on ne sait pas si ces études sont terminées ou durent encore (la carte associée à //commencer// n’est pas bornée). Ces ambiguïtés ne sont possibles que //parce que les cartes sont incommensurables//. Là où les autres modèles de la temporalité sont obligés de lever toutes les ambiguïtés de manière arbitraire pour représenter le sens, le modèle des cartes temporelles offre une représentation cognitivement plausible dans laquelle seul le sens exprimé est représenté.
=== Travail à réaliser au cours de la thèse
Le doctorant devra comparer le modèle des cartes temporelles aux modèles computationnels existants. Il sera ainsi amené à proposer une architecture, en précisant notamment les
Doctorant.e: Munch Damien