Projet de recherche doctoral numero :8533

Description

Date depot: 4 mai 2023
Titre: Apprentissage de la représentation des brevets pour la génération d'innovations et l'analyse des tendances techniques
Directeur de thèse: Benoit SAGOT (Inria-Paris (ED-130))
Encadrant : Eric DE LA CLERGERIE (Inria-Paris (ED-130))
Domaine scientifique: Sciences et technologies de l'information et de la communication
Thématique CNRS : Traitement automatique des langues et de la parole

Resumé: Cette proposition de recherche, qui sera réalisée dans le cadre d'une CIFRE avec la start-up qatent, concerne l'application et l'analyse des modèles linguistiques (LM) aux textes de brevets. Nous souhaitons explorer la façon dont les brevets, dans leur intégralité, pourraient être représentés (« embedded ») sous forme de vecteurs dans un « patent embedding space », en nous inspirant, tout en les généralisant et les adaptant, de certaines approches utilisées pour construire des représentations vectorielles de phrases voire de documents. Nous étudierons dans quelle mesure de telles représentations permettent ou non d'améliorer des tâches déjà bien étudiées comme la classification de brevets, la recherche d'antériorité, la génération de brevets, etc. Nous tenterons également d'explorer l'interprétabilité de l'espace vectoriel breveté, afin de comprendre la signification des différentes régions de l'espace et des différentes directions. Cela nous aidera peut-être à mieux explorer si un tel espace vectoriel représentant des brevets peut être modélisé pour des tâches plus innovantes, comme l'adaptation d'un brevet d'un domaine à un autre, ou si une région de l'espace vectoriel présente un grand potentiel d'innovation. En nous inspirant des travaux sur les embeddings dynamiques, ou les graphes de citations, nous intégrerons en outre la dimension temporelle pour tenter de prédire l'évolution des tendances en matière de brevets et d'innovation dans la recherche.

Doctorant.e: Zuo You