2. Le plan
Première partie : Introduction
1-Kinect
2-Squelettisation
Deuxième partie :Les données
1-L’image de profondeur
2-Données de capture de mouvement
3-Génération des données de synthétiques
Troisième partie : Partie du corps et proposition
conjointes
1-Etiquetage des partie du corps
2-Caracteristiques de l’image de profondeur
3-Foret de décision randomisée
4-Propositions pour les positions communes
Quatrième partie : Expériences
1-Résultats qualitatifs
2-Précision de la classification
• Cinquième partie : Conclusion
2
4. Introduction
Le monde réel est composé essentiellement d’objets
tridimensionnels. Une des tâches principales d’un système
de vision artificielle est de pouvoir identifier et localiser
ces objets à partir d’informations reçues de
l’environnement.
La reconnaissance d’objets a pour but d’extraire
automatiquement et efficacement le contenu intéressant,
pertinent et utile de la scène c’est-à-dire de déterminer
l’identité des objets formant la scène et leur disposition
spatiale dans le contexte d’une tâche ou d’un processus à
réaliser.
4
5. Kinect
Kinect, initialement connu sous le nom de code Project Natal1 est un
périphérique destiné à la console de jeux vidéo Xbox 360permettant de
contrôler des jeux vidéo sans utiliser de manette,
5
7. Squelettisation
Décrire un objet par une
représentation de type "squelette"
constitue une étape importante dans
un certain nombre d’applications
relevant du domaine du traitement
des images ou de la reconnaissance de
formes.
7
9. Les données
2 problèmes font faces au développement du domaine :
- Génération d’images réalistes en utilisant les
technologies informatiques .
-La position du corps de synthèse qui va être sujet
d’étude en utilisant la «mocap»(malgré l’ éxistance de
plusieurs logiciel et application permettant de simuler le
mouvement humain) .
9
10. Les données
1/-Image de profondeur (1)
Cam kinect résolution de 640*480 donnant 30 image/seconde
10
11. Les données
1/-Profondeur d’imagerie (2)
Caractéristiques de la Cam Kinect :
-fonctionne en faible luminosité .
-permet de résoudre le problèmes d’ambiguïté des
silhouettes des personnes utilisées comme sujet .
-élimine les problèmes liés aux textures de vêtements
,leur couleur et la formes des cheveux .
-Synthétisation des images réalistes de profondeurs
,cela donne un ensemble de données de grandes formation .
11
12. Les données
2/-Données de capture de mouvements (1)
Problème :
La variété de mouvement du corps
humain
Difficulté de simulation
12
13. Les données
2/-Données de capture de mouvements (2)
Solution :utilisation de la mocap
C’est quoi la mocap (La capture de mouvements)
??
Mocap : une technique permettant de capter les
mouvements d'un élément réel afin de les renvoyer
dans un univers virtuel : les mouvements sont
enregistrés ou restitués en temps réel vers d'autres
systèmes.
Base de données de la mocap utilisés est d’environ
500 kcadres .
13
14. Les données
2/-Données de capture de mouvements (3)
Les enregistrements pris avec des sujet de large
corpuscule:
- pas de capture de mocap avec rotation sur un axe
vertical
- la mise en miroir de la scène de gauche a droite
aussi la forme du corps et la taille .
- Aucune information temporelle n’est prise en
charge
14
15. Les données
2/-Données de capture de mouvements (4)
1iers résultats obtenus
Acceptables ,mais ne couvrent pas la totalité du
corps de synthèse utilisé
15
16. Les données
3/-Générations de données synthétiques (1)
L’objectif de cette étape
Avoir une succession d’images réalistes et variantes
16
19. Proposition donner pour les positions du corps humain
1/-Etiquetage des parties du corps (1)
Répartition du corps humain
en partie grâce a des pièces
lumineuses couvrant le corps
permettant la localisation des
articulations et le squelette
humain .
Les pièces lumineuses sont
placés sur une combinaison
utilisés sur différents
personnes
Pour l’ expérience 31 parties
du corps seront utilisées
19
20. Proposition donner pour les positions du corps humain
2/- Caractéristique de l’image de profondeur(1)
Croix jaune = le pixel x
Cercle rouge = pixel compensé tq le définit l’ équation
20
21. Proposition donner pour les positions du corps humain
2/-Caractéristique de l’image de profondeur(2)
DI ( x ) = Profondeur de x pixels de l’image
U et V = Paramètres de compensation
21
22. Proposition donner pour les positions du corps humain
3/-Foret de décision randomisée
Arbres et forêt de décision randomisés ont prouvé leur efficacité et rapidité pour
avoir un classificateurs multi-classes pour de nombreuses tâches, ils peuvent être
appliquées efficacement sur le GPU .
une forêt est un ensemble d'arbres de décision T, chacun composé de diviser et de
nœuds ou feuilles. Chaque nœud est constitué d'un diviseur de fonctionnalité.
Pour classer x pixel dans l'image I, on commence de la racine et on évalue plusieurs
reprises
22
23. Proposition donner pour les positions du corps humain
4/-Proposition pour les positions communes
Pixel =information pour avoir la reconnaissance des
partie du corps
Résultats accumulés =possibilité de faire un auto-suivi
permettant aussi la récupération en cas d’ echec
23
25. Expériences
Dans cette section, nous décrivons des
expériences réalisées au évaluer notre méthode.
Nous montrons à la fois des résultats qualitatives
et quantitatives sur plusieurs jeux de données
difficiles, et de comparer avec les deux plus
proches voisins des approches et l'Etat de l'art .
25
27. Expériences
4.2. précision de la classification(1)
Nous étudions l'effet de plusieurs paramètres
de formation sur la précision de la classification.
Les tendances sont fortement corrélés entre les
ensembles de test synthétiques et réelles, et le
véritable test mis en apparaît constamment plus
«facile» que l'ensemble de test synthétique,
probablement dû à la moins varié pose
actuellement.
27
28. Expériences
4.2. précision de la classification(2)
Silhouette d'images. Nous montrons aussi
dans la Fig. 6 (a) la qualité de notre
approche sur des images de synthèse
silhouette, où les fonctions dans l'équation
1 sont donnés soit l'échelle (comme la
profondeur moyenne) ou non (une
profondeur constante fixée). Pour
l'articulation correspondante prédiction
utilisant une métrique 2D avec un effet
positif de 10 pixels vraie seuil, nous avons
obtenu 0,539 MAP avec l'échelle et 0,465
mAP sans. S'il est clair que la tâche des
ambiguïtés en raison de la profondeur, Ces
résultats suggèrent l'applicabilité de notre
approche d'autres modalités d'imagerie.
28
30. Expériences
4.2. précision de la classification(4)
nous montre la formation des images
5k, où «maximum offset de la sonde »,
le max. valeur absolue proposé pour les
deux coordonnées x et y de u et v dans
l'équation. 1. Le concentriques cases sur
la droite montrent l'off 5 maximale
testée jeux calibrés pour un pixel épaule
gauche dans cette image, le plus
compensée couvre presque tout le
corps. (Rappelons que cette décalage
maximum des échelles avec la
profondeur du monde du pixel). Comme
la sonde décalage maximum est
augmenté, le classificateur est capable à
utiliser le contexte plus spatial pour
rendre ses décisions, même si sans
suffisamment de données finirait risques
sur-apprentissage à cette contexte.
Augmente la précision avec la sonde
décalage maximum, si les niveaux hors
environ 129 mètres de pixels.
30
31. Conclusion
La kinect est un appareil très récent qui offre encore de
nombreuses opportunités pour les années à venir.
L'étude de ses caractéristiques prouve que c'est un
appareil fiable. Cependant on peut voir qu'on aura du
mal à obtenir des résultats très précis. D'un autre côté,
la stéréoscopie permet d'obtenir des résultats aux
premiers abords moins bons, mais qui peuvent être
améliorés avec de meilleures caméras et des conditions
optimales. Ainsi, avant de chercher à modéliser
l'ensemble d'une main, il faut trouver une technologie
qui nous permette d'obtenir des résultats précis et
convainquant pour la modélisation 3D.
31