Description
Date depot: 29 août 2023
Titre: Système intelligent de décision de feedbacks au sein de plateformes d’entraînement à la programmation : une approche apprentissage par renforcement pour approximer une politique de décision de feedbacks adaptatifs
Directrice de thèse:
Vanda LUENGO (LIP6)
Domaine scientifique: Sciences et technologies de l'information et de la communication
Thématique CNRS : Intelligence artificielle
Resumé: Ce projet est dans le cadre d'une thèse CIFRE avec l'entreprise Génération 5
Mots-clés : Système de décision, Apprentissage par renforcement, Feedbacks épistémiques, Apprentissage de la programmation, Didactique de l’informatique
Ce projet de recherche doctorale a pour objectif de proposer un système de décision de feedbacks adaptatifs en boucles courte et longue, i.e, pendant la résolution d’un problème et à la fin d’un problème ou parcours, pour soutenir l’activité des élèves travaillant au sein de plateformes d’apprentissage de la programmation. Des techniques d’apprentissage par renforcement seront étudiées et adaptées pour permettre l’optimisation de la décision des feedbacks. Elles seront également évaluées pour mesurer l’impact de la décision sur la progression en programmation des élèves.
Enjeux et retombées scientifiques
Les plateformes d’apprentissage et d'entraînement à la programmation sont une réelle opportunité mais nécessitent pour être utiles et pertinentes la mise en place de parcours différenciés et de feedbacks adaptés aux élèves. Les exercices de programmation sont des problèmes à résoudre où l’espace des résolutions et des erreurs possibles des élèves est difficile à prédire et à modéliser en amont. Un enjeu majeur est de décider en temps réel, pour un élève, les feedbacks qui lui permettent une progression optimale dans son parcours d’apprentissage.
Pour cela, le problème de décision des feedbacks adaptatifs peut être modélisé comme un problème de décision dans l’incertain puisque les données sur l’état de l’environnement (l’élève, la résolution de l’élève, les caractéristiques de l’exercice etc.) sont imprécises, bruitées et incertaines. La décision est également incertaine due à l’absence de consensus entre les experts en didactique sur le feedback le plus adapté pour un élève donné dans une situation donnée.
Le travail de thèse s’appuiera sur les travaux menés dans le cadre du projet MindMath (FUI, 2017-2021) (Jolivet et al., 2022, Jolivet et al., 2021) et qui ont permis d’explorer différentes pistes de recherche. Nous travaillerons sur la décision des feedbacks adaptatifs en adaptant des algorithmes d’apprentissage par renforcement grâce à l’expertise didactique. Plusieurs travaux (He-Yueya and al., 2021, Efremov et al., 2020, Bassen and al. 2020, Chi and al. 2011, Doroudi et al. 2019) ont montré l’intérêt de l'apprentissage par renforcement pour l'élaboration de politiques pédagogiques, car les modèles d’apprentissage par renforcement peuvent apprendre des relations complexes et souvent latentes entre les tâches pédagogiques, les actions des élèves et leurs acquis en termes de connaissances.
Il s’agit ici d’apprendre une politique de décision de feedbacks qui maximise les gains d’apprentissage des élèves, tout en permettant à l’apprenant de progresser dans les exercices. Pour celà, la modélisation du problème et le choix de la fonction de récompense sont déterminants. Un travail d’explicitation des connaissances des experts en didactique est nécessaire en amont de l’apprentissage automatique du modèle de décision sur les données des élèves (Luengo 2009).
Nous faisons l’hypothèse que l’association entre des connaissances symboliques issues de l’expertise didactique et des connaissances apprises implicitement par l’algorithme de renforcement permettrait une décision des feedbacks, d’une part, mieux adaptée aux élèves et facilitant leur progression dans le domaine à enseigner et, d’autres part, explicable pour les enseignants. Nous visons également l’exploration des techniques d’approximation des algorithmes d’apprentissage par renforcement pour apprendre certains paramètres de la décision des feedbacks qui sont difficiles à expliciter par les experts et qui probablement dépendent du profil des élèves et de leur rapport à la matière enseignée.
Nous appliquerons la recherche menée dans le cadre de ce projet doctoral à la plateforme AlgoPython.
Les résultats obtenus suite à l’utilisation du ou des algorithmes retenus, fourniront aussi des données importantes pour permettre de construire ou réinterroger les connaissances expertes issues de la didactique de l’informatique sur les premiers apprentissages de la programmation.
Enfin, le travail mené sur les feedbacks épistémiques dans le cadre d’un environnement d’apprentissage de la programmation, va alimenter le travail plus général sur les feedbacks épistémiques mené par plusieurs membres de l’équipe Mocah dans des domaines divers (mathématiques, médecine…).
Doctorant.e: Kirouchenassamy Badmavasan