Real time human pose recognition in parts from single

Le plan
 Première partie : Introduction
1-Kinect
2-Squelettisation
 Deuxième partie :Les données
1-L’image de profondeur
2-Données de capture de mouvement
3-Génération des données de synthétiques
 Troisième partie : Partie du corps et proposition
conjointes
1-Etiquetage des partie du corps
2-Caracteristiques de l’image de profondeur
3-Foret de décision randomisée
4-Propositions pour les positions communes
 Quatrième partie : Expériences
1-Résultats qualitatifs
2-Précision de la classification
• Cinquième partie : Conclusion
2

Première partie
Introduction

3

Introduction
Le monde réel est composé essentiellement d’objets
tridimensionnels. Une des tâches principales d’un système
de vision artificielle est de pouvoir identifier et localiser
ces objets à partir d’informations reçues de
l’environnement.
La reconnaissance d’objets a pour but d’extraire
automatiquement et efficacement le contenu intéressant,
pertinent et utile de la scène c’est-à-dire de déterminer
l’identité des objets formant la scène et leur disposition
spatiale dans le contexte d’une tâche ou d’un processus à
réaliser.

4

Kinect

Kinect, initialement connu sous le nom de code Project Natal1 est un
périphérique destiné à la console de jeux vidéo Xbox 360permettant de
contrôler des jeux vidéo sans utiliser de manette,

5

Projecteur
IR(Infrarouge)
RGB(Red Green Blue)

6

Squelettisation

 Décrire un objet par une
représentation de type "squelette"
constitue une étape importante dans
un certain nombre d’applications
relevant du domaine du traitement
des images ou de la reconnaissance de
formes.

7

Deuxième partie
Les données

8

Les données

 2 problèmes font faces au développement du domaine :
- Génération d’images réalistes en utilisant les
technologies informatiques .
-La position du corps de synthèse qui va être sujet
d’étude en utilisant la «mocap»(malgré l’ éxistance de
plusieurs logiciel et application permettant de simuler le
mouvement humain) .

9

Les données
1/-Image de profondeur (1)

Cam kinect résolution de 640*480 donnant 30 image/seconde

10

Les données
1/-Profondeur d’imagerie (2)
Caractéristiques de la Cam Kinect :
-fonctionne en faible luminosité .
-permet de résoudre le problèmes d’ambiguïté des
silhouettes des personnes utilisées comme sujet .
-élimine les problèmes liés aux textures de vêtements
,leur couleur et la formes des cheveux .
-Synthétisation des images réalistes de profondeurs
,cela donne un ensemble de données de grandes formation .

11

Les données
2/-Données de capture de mouvements (1)
 Problème :
La variété de mouvement du corps
humain

Difficulté de simulation

12

Les données

 Solution :utilisation de la mocap
 C’est quoi la mocap (La capture de mouvements)
??
 Mocap : une technique permettant de capter les
mouvements d'un élément réel afin de les renvoyer
dans un univers virtuel : les mouvements sont
enregistrés ou restitués en temps réel vers d'autres
systèmes.
 Base de données de la mocap utilisés est d’environ
500 kcadres .
13

Les données

Les enregistrements pris avec des sujet de large
corpuscule:
- pas de capture de mocap avec rotation sur un axe
vertical
- la mise en miroir de la scène de gauche a droite
aussi la forme du corps et la taille .
- Aucune information temporelle n’est prise en
charge

14

Les données

1iers résultats obtenus

Acceptables ,mais ne couvrent pas la totalité du
corps de synthèse utilisé

15

Les données
3/-Générations de données synthétiques (1)

L’objectif de cette étape

 Avoir une succession d’images réalistes et variantes

16

Les données
3/-Générations de données synthétiques (2)

17

Troisième partie
Proposition donnée pour les positions
du corps humain

18

Proposition donner pour les positions du corps humain
1/-Etiquetage des parties du corps (1)
 Répartition du corps humain
en partie grâce a des pièces
lumineuses couvrant le corps
permettant la localisation des
articulations et le squelette
humain .
 Les pièces lumineuses sont
placés sur une combinaison
utilisés sur différents
personnes
 Pour l’ expérience 31 parties
du corps seront utilisées

19

2/- Caractéristique de l’image de profondeur(1)

Croix jaune = le pixel x
Cercle rouge = pixel compensé tq le définit l’ équation

20

2/-Caractéristique de l’image de profondeur(2)

DI ( x ) = Profondeur de x pixels de l’image

U et V = Paramètres de compensation

21

3/-Foret de décision randomisée

Arbres et forêt de décision randomisés ont prouvé leur efficacité et rapidité pour
avoir un classificateurs multi-classes pour de nombreuses tâches, ils peuvent être
appliquées efficacement sur le GPU .
une forêt est un ensemble d'arbres de décision T, chacun composé de diviser et de
nœuds ou feuilles. Chaque nœud est constitué d'un diviseur de fonctionnalité.
Pour classer x pixel dans l'image I, on commence de la racine et on évalue plusieurs
reprises
22

4/-Proposition pour les positions communes

 Pixel =information pour avoir la reconnaissance des
partie du corps
 Résultats accumulés =possibilité de faire un auto-suivi
permettant aussi la récupération en cas d’ echec

23

Quatrième partie
Expériences

24

Expériences
Dans cette section, nous décrivons des
expériences réalisées au évaluer notre méthode.
Nous montrons à la fois des résultats qualitatives
et quantitatives sur plusieurs jeux de données
difficiles, et de comparer avec les deux plus
proches voisins des approches et l'Etat de l'art .

25

Expériences
4.1. Les résultats qualitatifs(1)

26

Expériences
4.2. précision de la classification(1)

Nous étudions l'effet de plusieurs paramètres
de formation sur la précision de la classification.
Les tendances sont fortement corrélés entre les
ensembles de test synthétiques et réelles, et le
véritable test mis en apparaît constamment plus
«facile» que l'ensemble de test synthétique,
probablement dû à la moins varié pose
actuellement.

27

Expériences

 Silhouette d'images. Nous montrons aussi
dans la Fig. 6 (a) la qualité de notre
approche sur des images de synthèse
silhouette, où les fonctions dans l'équation
1 sont donnés soit l'échelle (comme la
profondeur moyenne) ou non (une
profondeur constante fixée). Pour
l'articulation correspondante prédiction
utilisant une métrique 2D avec un effet
positif de 10 pixels vraie seuil, nous avons
obtenu 0,539 MAP avec l'échelle et 0,465
mAP sans. S'il est clair que la tâche des
ambiguïtés en raison de la profondeur, Ces
résultats suggèrent l'applicabilité de notre
approche d'autres modalités d'imagerie.

28

Expériences

29

Expériences
 nous montre la formation des images
5k, où «maximum offset de la sonde »,
le max. valeur absolue proposé pour les
deux coordonnées x et y de u et v dans
l'équation. 1. Le concentriques cases sur
la droite montrent l'off 5 maximale
testée jeux calibrés pour un pixel épaule
gauche dans cette image, le plus
compensée couvre presque tout le
corps. (Rappelons que cette décalage
maximum des échelles avec la
profondeur du monde du pixel). Comme
la sonde décalage maximum est
augmenté, le classificateur est capable à
utiliser le contexte plus spatial pour
rendre ses décisions, même si sans
suffisamment de données finirait risques
sur-apprentissage à cette contexte.
Augmente la précision avec la sonde
décalage maximum, si les niveaux hors
environ 129 mètres de pixels.

30

Conclusion
 La kinect est un appareil très récent qui offre encore de
nombreuses opportunités pour les années à venir.
L'étude de ses caractéristiques prouve que c'est un
appareil fiable. Cependant on peut voir qu'on aura du
mal à obtenir des résultats très précis. D'un autre côté,
la stéréoscopie permet d'obtenir des résultats aux
premiers abords moins bons, mais qui peuvent être
améliorés avec de meilleures caméras et des conditions
optimales. Ainsi, avant de chercher à modéliser
l'ensemble d'une main, il faut trouver une technologie
qui nous permette d'obtenir des résultats précis et
convainquant pour la modélisation 3D.

31

Real time human pose recognition in parts from single

Recommandé

Recommandé

Contenu connexe

En vedette

En vedette (20)

Similaire à Real time human pose recognition in parts from single

Similaire à Real time human pose recognition in parts from single (20)

Real time human pose recognition in parts from single