Projet de recherche doctoral numero :8870

Description

Date depot: 26 mars 2025
Titre: Identification of image circulation in large collections of historical photographs
Directrice de thèse: Florence CLOPPET (LIPADE)
Domaine scientifique: Sciences et technologies de l'information et de la communication
Thématique CNRS : Images et vision

Resumé: La croissance exponentielle des images numériques pose des défis à la vision par ordinateur, notamment dans des domaines d'expertise tels que les humanités numériques. Cette thèse porte sur l'amélioration de la recherche d'images par le contenu (CBIR) et de l'apprentissage de représentations visuelles pour les photographies historiques. Les techniques de CBIR actuelles s'appuient sur des descripteurs d'images fondés sur l'apprentissage profond pour l'extraction de caractéristiques. Dans ce projet, nous explorerons des modèles de fondation multimodaux utilisant l'apprentissage contrastif pour améliorer l'alignement image-texte et ainsi apprendre des représentations visuelles discriminantes pour différentes tâches. Plus précisément, nous poserons les bases d'un nouveau paradigme d'apprentissage exploitant la cohérence cyclique pour la génération bidirectionnelle image-texte. En partenariat entre le laboratoire d'informatique LIPADE et le laboratoire ECHELLES d'Université Paris Cité, le cas d'usage sera de permettre aux historiens de la photographie de retracer le parcours des photographies historiques à travers les agences de presse et la presse illustrée du début du XIXe siècle.

Résumé dans une autre langue: The exponential growth of digital images poses challenges for computer vision, particularly in areas of expertise such as digital humanities. This thesis focuses on improving content-based image retrieval (CBIR) and representation learning for historical photographs. Current CBIR techniques rely on deep learning based image descriptors for feature extraction. In this project, we will explore multimodal foundation models using contrastive learning to improve image-text alignment and thus learn discriminative visual representations for different tasks. Specifically, we will lay the foundations of a new learning paradigm exploiting cyclic consistency for bidirectional image-text generation. Jointly between the LIPADE computer science laboratory and the ECHELLES laboratory of the Université Paris Cité, the use case will be to allow photography historians to retrace the journey of historical photographs through the press agencies and the illustrated press of the early 19th century.