3. 3
LA DÉTECTION DES USAGERS VULNÉRABLES
21/11/2021
● Premiers travaux de VEDECOM en IA
● Fonction parmi les plus critiques pour
la conduite autonome
● Etat de l’art
▪ D’abord des modèles spécifiques (généralement morphologique)
▪ Plus récemment des modèles d’apprentissage profond
DL + tracker
2013
2019
=FP/P
4. 4
DÉTECTION DE PIÉTONS PAR APPRENTISSAGE PROFOND
VERS UN TRAITEMENT MULTI-ECHELLE TEMPS-RÉEL
21/11/2021
● Approche multi-échelle
▪ Sur la base d’un faster-RCNN (2-stages)
▪ Exploitation des informations des premières échelles
Améliore la detection des piétons éloignés
et/ou partiellement cachés
Mais: impact fort sur les temps de calcul
● Equilibre performance/rapidité
▪ pseudo-segmentation sémantique
Accélération substantielle des traitements
Résultats
obtenus sur
Caltech-R
Ujjwal, U., Dziri, A., Leroy, B., & Bremond, F. (2020). A one-and-half stage pedestrian detector. In Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision
SSD/Yolo
Region
Propos
al
Networ
k
Region
Propos
al
Networ
k
Region
Propos
al
Networ
k
Region
Propos
al
Networ
k
Region
Propos
al
Networ
k
Gradient
Boosted
Tree
Gradient
Boosted
Tree
Gradient
Boosted
Tree
Gradient
Boosted
Tree
Gradient
Boosted
Tree
Non-
Maximal
suppression
Final
detections
Feature
detection
Classification
Our add-on
Standard
5. 5
● Problème rencontré avec les méthodes de l’état de l’art
● Taille de modèle importante
● Vitesse d’inférence lente
● Extraction de squelette
- Pas de contexte (background)
+ Représentation compacte et invariante du piéton
● Modèle hybride:
● Représentation 2D
● Le squelette sous forme de pseudo-image
● Prise en compte de la position dans l’espace et du mouvement dans le temps
● Utilisation des modèles de type CNN
● Représentation géométrique
● Prise en compte des distances relatives entre des point spécifiques
● Utilisation de modèles denses
● Intégration d’un mécanisme d’attention
● Performances comparées à l’état de l’art
datasets: JAAD (acc=85%) and PIE (acc=88%)
▪ 2-3% de gain de précision
▪ Taille des modèles 20 fois plus petite inférence accélérée
▪ 3ème place au Workshop Multi-Agent Interaction and Relational Reasoning (ICCV 2021)
PREDICTION D’INTENTION DU PIÉTON PAR APPRENTISAGE PROFOND
COMPACITÉ DE MODÈLE ET RAPIDITÉ DE TRAITEMENT
21/11/2021
A
B
●Asymmetrical Bi-RNN for pedestrian trajectory encoding Raphaël Rozenberg, Joseph Gesnouin, Fabien Moutarde https://arxiv.org/abs/2106.04419v1
6. 6
ENJEU: LA CONSTITUTION DE “VERITÉ TERRAIN”
21/11/2021
● Utilisation massive de l’apprentissage profond par les systèmes de perception
des véhicules autonomes
● Performances de l’apprentissage profond
▪ Le modèle (architecture, optimisation,…)
▪ La qualité d’annotation des données (vérité terrain)
▪ La représentativité des données par rapport aux cas d’usage (ODD: Operational Design Domain)
● La collecte de données de roulage génère des jeux de données démesurés
▪ Projet MOOVE de VEDECOM > 15 000 heures de roulage enregistrées x 25 images/sec
▪ Coût de l’annotation manuelle d’une image : quelques dizaines de centimes à plus d’1€
Impossibilité économique de tout annoter
● Comment sélectionner les échantillons ayant le plus d’impact sur la performance?
7. 7
APPRENTISSAGE ACTIF
PRINCIPES
21/11/2021
● L’annotation automatique n’existe pas mais…
● Il est possible de diminuer sensiblement les coûts d’annotation
▪ En s’appuyant sur des modèles de détection par apprentissage profond
▪ En utilisant un mécanisme d’apprentissage actif
● Méthode incrémentale
À chaque étape
• Inférence sur l’ensemble des données
• Sélection des données les plus informatives
• Annotation manuelle des données sélectionnées
• Apprentissage des données sélectionnées
● Plusieurs applications
▪ Annotation du jeu de données à budget fixe
Obtenir l’annotation la plus fiable dans le budget considéré
▪ Entrainement de modèles
Budget cible : Maximiser la performance dans le cadre du budget donné
Performance cible : Minimiser la taille de l’échantillon nécessaire pour atteindre la performance
8. 8
CRITÈRE DE SELECTION D’ÉCHANTILLONS DANS UN CADRE NON-SUPERVISÉ
LE CAS DE LA CLASSIFICATION
21/11/2021
● Sur quels critères choisir les données à annoter/apprendre ?
▪ Représentativité
• Ex: K-Means
▪ Incertitude de classification / informativité
• Ex: Entropie, plus faible taux de confiance, marge
▪ Diversité
• Ex: Fixed sized Determinal Point Process (K-DPP), K-Means ++
▪ Robustesse
• Utilisation de méthodes adversariales
● Une des plus intéressantes méthodes :
Batch Active Learning by Diverse Gradient Embedding (BADGE)
Équilibre entre informativité, diversité et représentativité sans nécessité de réglage d’hyper-paramètres
● Exemple de gains obtenus avec l’apprentissage actif et BADGE
▪ Étant donné une performance cible
▪ Combien d’échantillons sont nécessaires pour atteindre cette performance
▪ Comparaison avec une sélection aléatoire d’échantillons
Algorithme Strategies Gain par rapport à une
sélection aléatoire
CIFAR10 CIFAR100
BADGE Inf + Rep + Div 50% 74%
ENTROPie Inf 53% 100%
9. 9
APPRENTISSAGE ACTIF POUR LA DETECTION D’OBJETS
PERSPECTIVES
21/11/2021
● Très peu de travaux concernent la détection d’objets
● Travaux récents de Nvidia (E.Haussmann et al. 2020)
● Première proposition d’adaptation de l’apprentissage actif à la détection d’objets
● Jeu de données de roulage (non publié)
● Amélioration des performances par rapport à un l’apprentissage sur l’ensemble du jeu de données
● Travaux en cours chez VEDECOM
● Adapatation du BADGE à la detection d’objets
● Prise en compte de la cohérence temporelle des données de roulage
● Utilisation des mesures d’incertitude pour le monitoring
10. 10
ENJEU: LA GÉNÉRALISATION
21/11/2021
● Entrainement d’un modèle sur un jeu de données A
● Test sur un jeu de données B
● Performances sur B
généralement inférieures
aux performances sur A
● Comment diminuer cette perte de performance sans refaire un entrainement supervisé?
mAP Car Pedestrian
Easy Mod. Hard Easy Mod. Hard
Entrainement KITTI
Test KITTI
91.2 88.3 76.4 76.7 67.3 58.
Entrainement VOC
Test KITTI
71.2 63.9 50.2 58.3 52.3 43.8
Pascal VOC (urban) KITTI
11. 11
DISTILLATION DE SAVOIR
PRINCIPES
21/11/2021
● Transmettre du savoir d’un réseau vers un autre
● Plusieurs applications
▪ Compression de modèle
▪ Apprentissage incrémental
▪ Adaptation de domaine
▪ Très peu de travaux sur la distillation de modèles de détection
▪ Encore moins dans un cadre non-supervisé
image
Master model
Student Model
KD loss
predict
predict
image ensemble
predict
Master model B
Master model C
Master model A
Student Model
KD loss
image ensemble
predict
Transform B
Transform C
Transform A
Student Model
KD loss
Master model
Master model
Master model
▪ Diminuer les ressources
nécessaires pour l’inférence
Compression x5 pour seulement
1% de perte de performance (mAP)
▪ Ajouter de nouvelles classes
sans refaire d’apprentissage
ex-nihilo
▪ Distillation de données plutôt
que de savoir
• Similaire à l’augmentation de
données
• Auto-supervisé (pas d’annotation
préalable)
• Gain de performance 1à 5% pour la
classification
12. 12
11/21/2021
ADAPTATION DE DOMAINE
DISTILLATION NON-SUPERVISÉE APPLIQUÉE À DES MODÈLES DE DÉTECTION
● Distillation non supervisée
▪ Appliquée à un Modèle de type Faster-RCNN (RPN+Classifieur)
▪ Donnant un poids plus important aux éléments difficiles à imiter
(hard example mining)
mAP Car Pedestrian
Easy Mod. Hard Easy Mod. Hard
Teacher 71.2 63.9 50.2 58.3 52.3 43.8
Student – hard ex mining 74.7 66.2 51.8 63.9 56.1 47.1
Oracle 91.2 88.3 76.4 76.7 67.3 58.
Distillation performance mAP
Teacher 74.6
Student - without ex mining 63.2
Student - hard ex mining 71.6
● Evaluation de la contribution de l’approche
« hard example mining »
▪ Entrainement sur Pascal VOC
et évaluation sur Pascal VOC
● Transfert de VOC vers KITTI
▪ Oracle: entrainement supervisé sur KITTI
▪ Maitre: entrainement supervisé sur VOC
▪ Etudiant; distillation non supervisée vers KITTI avec « hard example mining »
13. 13
AUTRE ENJEU MAJEUR POUR LA PERCEPTION DU VÉHICULE AUTONOME : LA SIMULATION
21/11/2021
● Problèmes inhérents à la constitution des jeux de données de roulage
Coût , Biais , Protection de la vie privée
● La simulation peut utilement compléter les jeux de données réelles
● Amélioration des performances des modèles d’apprentissage
Comment choisir les simulations ayant le plus d’impact sur la performance ?
● Validation du véhicule autonome
Comment s’assurer de la représentativité des données simulées par rapport aux données réelles ?