Responsable de l’équipe : Anissa MOKRAOUI
L’équipe « Multimédia » compte 3 professeurs, 5 maîtres de conférences, des doctorants, des stagiaires de master 2 de recherche et plusieurs chercheurs invités par an.
Les recherches de l’équipe s’inscrivent dans le domaine des Sciences et Technologies de l’Information et de la Communication (STIC) en se focalisant sur le traitement et l’analyse de données multimédia. L’équipe conçoit et développe des méthodes innovantes, intégrant des aspects tant théoriques que pratiques, sur des sujets porteurs en vue de leur valorisation à travers des publications et/ou des projets académiques/industriels. Une attention particulière est accordée au développement de méthodes d’apprentissage automatique spécifiques à la vision par ordinateur, adaptées aux données issues de différentes modalités telles que les images médicales, les images aériennes, les images hyperspectrales et les vidéos.
Les domaines d’application sont variés, englobant l’imagerie médicale, la vidéo-surveillance, la reconnaissance aérienne, la conduite autonome et la cartographie.
L’activité scientifique de l’équipe se déploie autour de quatre thèmes majeurs interdépendants décrits ci-dessous. Le fil conducteur unique demeure le « traitement et l’analyse de données multimédia », avec une attention particulière portée au développement de méthodes d’apprentissage automatique.
Thème 1 : Amélioration et évaluation de la qualité de données visuelles
Ce thème s’intéresse plus précisément à l’estimation et au rehaussement de la qualité des images et vidéos. L’idée directrice est de combiner l’approche perceptuelle, basée sur la modélisation des mécanismes rétino-corticaux, et les techniques de l’apprentissage profond. Un des objectifs visés est de redéfinir les fonctions de perte et les différentes architectures connexionnistes en s’inspirant des connaissances suffisamment établies sur l’architecture et le fonctionnement du cortex visuel. Les méthodes développées seront plus particulièrement évaluées et validées sur des cas concrets tels que le diagnostic dans le contexte de l’imagerie médicale, la chirurgie guidée par ordinateur et la sécurité basée sur la vidéo-surveillance.
Thème 2 : Reconnaissance de formes pour la détection et la classification
L’objectif de ce thème est de concevoir des méthodes intelligentes afin d’optimiser les performances des différentes tâches envisagées. Diverses modalités d’images sont prises en compte en fonction du domaine spécifique d’application.
Une activité récente a démarré dans le cadre du projet ANR LabCom IRISER (https://www-l2ti.univ-paris13.fr/iriser/). Cette activité s’intéresse aux problèmes de détection d’objets dans des images aériennes de très grande taille. Les verrous scientifiques et technologiques sont nombreux : la détection en mode few-shot, le cross-domain… Il s’agit d’améliorer les pistes de recherche déjà explorées et de développer des outils essentiels à la recherche mais aussi pour le déploiement et l’intégration des solutions développées.
Une activité porte également sur la détection, l’identification et la classification des anomalies dans des images médicales notamment endoscopiques acquises par capsule ou vidéocapsule endoscopique. La classification des anomalies sera basée sur des réseaux convolutifs profonds pour les avantages qu’ils offrent notamment la modélisation de la représentation de données complexes et de grand volume.
Une activité porte également sur la classification d’images hyperspectrales.
Les données de terrain sont difficiles à réaliser, coûteuses, pas forcément exactes, elles peuvent être moins disponibles pour certaines classes. Il s’agit de proposer des techniques d’apprentissage qui soient robustes vis-à-vis de ces difficultés.
Thème 3 : Codage source (données visuelles)
Dans ce thème, il s’agit de proposer des méthodes dites intelligentes afin d’optimiser les performances du codage source appliqué aux données visuelles.
Cela implique le développement d’approches nouvelles de codage basées sur des solutions de bout en bout notamment pour la vidéo, en prenant en compte le compromis débit-distorsion. Ces approches se démarquent des stratégies classiques de codage prédictif et de compensation de mouvement.
Thème 4: Fouille de données et analyse de réseaux sociaux
Dans ce thème, il s’agit de développer des méthodes pour exploiter les données issues des graphes sociaux afin de construire des modèles : prévoir le comportement des acteurs, leur recommander des ressources, identifier et caractériser des groupes d’acteurs. Des travaux ont récemment démarré sur le développement de méthodes d’obtention de garanties, avec un cas d’usage sur les images issues de leurs véhicules autonomes.