Description
Date depot: 1 janvier 1900
Titre: Réseaux profonds pour le traitement de données complexes évoluant dans le temps
Directeur de thèse:
Thierry ARTIÈRES (LIS)
Domaine scientifique: Sciences et technologies de l'information et de la communication
Thématique CNRS : Non defini
Resumé:
De multiples données se présentent sous la forme de données multidimensionnelles complexes et dépendantes évoluant dans le temps. On peut citer les informations provenant de capteurs de mouvement fixés sur une personne et obéissant à certaines contraintes relationnelles, des informations de type appartenance à une communauté d’un ensemble d’individus, ou un graphe d’objets présents sur une image et évoluant durant une scène, etc.
Pour traiter ce type de données divers travaux ont cherché à mélanger des techniques de réduction de dimension, le plus souvent non linéaire, et des modèles d’apprentissage de phénomènes séquentiels (de type markovien par exemple) [4], [5]. La réduction de dimension permet de passer d’un espace d’observation de grande dimension à un espace plus restreint et plus informatif, dans laquelle la modélisation séquentielle peut opérer plus efficacement. On obtient des modèles à états dans lesquels l’état est défini comme une transformation non linéaire de l’observation, et devant obéir à une certaine dynamique. Parmi les multiples techniques de réduction de dimension peu peuvent être couplées et apprises facilement et efficacement simultanément à une modélisation séquentielle.
Depuis deux ou trois ans on assiste à un regain d’intérêt pour des réseaux de type perceptrons multi-couches, sous la forme de réseaux dits profonds ou deep [1, 2], du fait de la proposition récente d’approches algorithmiques simples permettant de tirer partie de la capacité de modélisation de tels modèles. Un des intérêts des modèles profonds vient de leur capacité à extraire dans leurs couches cachées successives des informations de plus en plus haut niveau sur l’entrée du système. Les applications en image sont impressionnantes avec l’extraction de primitives visuellement très pertinentes et appropriées pour les types d’images utilisées en apprentissage.
Les modèles profonds ont pour le moment été utilisés comme classifieurs opérant sur des données statiques, souvent images. Leur apprentissage est un problème complexe car les techniques usuelles comme la rétropropagation du gradient sont inefficaces. Des stratégies alternatives simples ont été proposées, ce sont des solutions pratiques à un problème d’optimisation très difficile. Elles ont en commun une initialisation par l’apprentissage successif des couches d’extraction, suivi d’un léger réapprentissage par optimisation globale.
On distingue aujourd’hui les réseaux profonds de type perceptrons [2] et de type machines de Boltzman profondes qui sont des empilements de machines de Boltzman [6]. Ces deux modélisations sont en fait proches. Ainsi une méthode utilisée pour l’apprentissage des couches d’extracteur d’un réseau profond de type perceptron multi-couches consiste à apprendre des modèles de type Machine de Boltzman ou Machine de Boltzman restreintes, chacune pouvant ensuite être transformée en une des couches du réseau [1].
La problématique de la thèse est d’explorer et d’étendre les techniques de réduction de dimension complexes réalisées par des réseaux profonds pour les combiner à des approches statistiques de modélisation séquentielle afin de concevoir des systèmes de modélisation, prédiction, segmentation, et génération de données complexes évolutives. On envisagera les différentes possibilités offertes par des modèles profonds à la fois de type Boltzman et de type perceptron. Une première piste sera d’adapter les réseaux de neurones à poids partagés, assez populaires il y a une dizaine d’années pour la reconnaissance de la parole. L’extension de ce type de modèles par la multiplication des couches est assez naturelle, bien qu’elle pose des questions non triviales. Egalement, on peut envisager des modèles hybrides Markovien et réseaux profonds, ces derniers calculant un état du processus par une réduction de dimension non linéaire, les modèles Markoviens modélisant la dynamique de cet état. Dans ce cadre on pourra exploiter de multiples variantes de modèles Markoviens [3], pour la modélisation fine de trajectoires dans l’espace d’état.
Bien entendu la mise en œuvre de modèles profonds pour le traitement de séquences pose des questions algorithmiques et théoriques complexes que ce soit du point de vue de la compréhension du fonctionnement et du pouvoir d’expression de ces modèles ou de la qualité des algorithmes des algorithmes d’apprentissage utilisés qui restent jusqu’ici assez relativement naifs.
**Références**
[1] Yoshua Bengio, Learning deep architectures for AI, technical report number 1312, 2007.\
[2] Deep Learning Workshop: Foundations and Future Directions. \
[3] Kim, S. and Smyth, P. 2006. Segmental Hidden Markov Models with Random Effects for Waveform Modeling. Journal of. Machine Learning Research 7 (Dec. 2006), 945-969.\
[4] Ali Rahimi, Benjamin Recht, and Trevor Darrell, Learning to Transform Time Series with a Few Examples, IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29, n
Doctorant.e: Vinel Antoine Raymond Roger