Realidad Aumentada - Modulo 3 Fundamentos

REALIDAD
AUMENTADA
Profesora:
María José Abásolo
Universidad Nacional de La Plata

Realidad Aumentada | María José Abásolo | Facultad Informática UNLP | noviembre 2013

Contenidos
MÓDULO 1
Introducción a Realidad Aumentada (RA)
 MÓDULO 2
Dispositivos de entrada y salida
 MÓDULO 3
Fundamentos teóricos
 MÓDULO 4
Librerías y authoring de RA


Realidad Aumentada | María José Abásolo | Facultad Informática UNLP | noviembre 2013

M3- Fundamentos teóricos
 Formación

de imágenes
 Tracking basado en visión
 Calibración de cámara

Realidad Aumentada | María José Abásolo | Facultad Inform

 Formación





de imágenes

Sistemas de referencia
Transformaciones geométricas
Transformación de proyección
Proceso de formación de imágenes



Formación de imágenes
 El

proceso de formación una imagen a partir
de un objeto 3D convierte cada punto 3D en
un píxel de la imagen 2D
 La formación de una imagen 2D a partir de
un objeto 3D puede expresarse
matemáticamente
 Es válido para representar



el proceso de sacar una foto en la realidad
el proceso de obtener una vista determinada del
mundo virtual





En RA se tiene






El mundo real en el que situamos un sistema de
coordenadas 3D
Un modelo sintético 3D que debe estar referenciado en el
sistema de coordenadas 3D del mundo real
Según la posición y orientación del usuario en relación al
sistema de coordenadas 3D, se debe generar una imagen
sintética que se combinará con la escena real
 La imagen sintética es el resultado de tomar una vista
(como sacar una foto) del modelo 3D desde la posición y
orientación del usuario




Diagrama conceptual de RA
captura

tracking
Posición y orientación

Video o visión directa
del mundo real

generador de escena virtual
Proyección de
la escena virtual
(gráficos 3d) y
otros elementos
Proceso de
formación de
imágenes

combinador

Imagen real + objetos virtuales
registrados


Mundo 3D
El mundo 3D
está compuesto
por objetos
situados en
ciertas posiciones
y orientaciones.
Puede ser
real o sintético.




La cámara
captura la
escena desde
una cierta
posición y
orientación.

Cámara

Puede ser una cámara
real en caso de estar
sacando una foto.
Puede ser una cámara
sintética en caso de
estar visualizando un
modelo virtual.




La imagen
es el resultado
de una proyección
que realiza la
cámara.
La imagen se
Imagen formada forma en el plano
de proyección




centro de proyección

En una cámara
real, la imagen
formada en el
plano de
proyección
está “invertida”

Imagen con cámara real




En fotos sintéticas
se elige tener en
cuenta la imagen
que se forma
en un plano situado
Imagen con
delante de la
cámara sintética cámara



 Se

dijo que el mundo 3D está compuesto por
objetos situados en diferentes posiciones y
orientaciones
 También la cámara está situada en cierta
posición y orientación
 Cuando se habla de posiciones y
orientaciones es necesario establecer en
relación a QUÉ nos referimos: se necesita un
sistema de referencia



Sistema de
Coordenadas
Mundo 3D
La posición y
orientación de
los objetos
reales o sintéticos
suele expresarse
en relación a un
sistema de
coordenadas 3D
situado en algún
lugar del mundo




El sistema
de coordenadas
cámara 3D
tiene el origen
en el centro
óptico y el
eje Z alineado
con el eje
de proyección

Sistema de
Coordenadas
Cámara 3D




Sistema de coordenadas
Imagen 2D

Los puntos de
la imagen se
expresan en
relación a un
sistema de
coordenadas 2D
con los ejes
alineados con los
bordes de la
imagen y el
centro en una
esquina o en
el centro de la
imagen


 Formación




de imágenes




Sistema de
Coordenadas
local
Cada objeto
puede tener un
sistema de
coordenadas
Local.
Por ejemplo,
para modelar un
objeto virtual se
puede usar un
sistema de
coordenadas
local situado en el
centro del objeto



Sistema de
Coordenadas
Mundo 3D

Al componer una escena con varios objetos,
la ubicación de los mismos en la escena se
hace en relación a un único sistema de
coordenadas mundo, mediante
transformaciones geométricas
Las transformaciones
geométricas son traslaciones, rotaciones y escalado



Sistema de
Coordenadas
Mundo 3D

Sistema de
Coordenadas
Cámara 3D

El sistema de coordenadas
mundo 3D puede expresarse
en relación al sistema de
coordenadas cámara 3D
mediante
transformaciones geométricas





En computación gráfica tienen especial importancia las
transformaciones afines


Es una transformación lineal


f() es lineal si f(α p + β q) = α f(p) + β f(q)



Las transformaciones de las combinaciones lineales de los
vértices pueden obtenerse mediante la combinación lineal de
las transformaciones de los vértices
Por ejemplo para transformar todos los puntos de un
segmento basta con transformar los extremos y luego trazar
el segmento transformado uniendo estos extremos
transformados





Las siguientes transformaciones geométricas son
transformaciones afines:


traslación, rotación y escalado





Traslación:





Especificar vector
Desplaza los puntos una distancia fija en una
dirección
x’
d
x
+ x
=
P’ = P + d
y’
y
z’
1

y
z
1

dy
dz
0





Rotación




Especificar: punto, ángulo y vector
Ejemplo simple: rotar puntos alrededor de origen (2D)
En coordenadas polares:




x = r cos f , y = r sin f, x’ = r cos (f +υ), y’ = r sin (f +υ)
x’ = r (cos f . cos υ - sin f . sin υ)= x cos υ – y sin υ
y’ = r (cos f . sin υ + sin f . cos υ) = x sin υ + y cos υ

x’
cos υ –sin υ
=
y’
sin υ cos υ

x
y

(x’,y’)


Rotación 2D




Rotación


Especificar: punto fijo, ángulo y vector

Rotación 3D





Rotación
 Si el punto fijo es el origen y el vector z:




x’ = x cos υ – y sin υ
y’ = x sin υ + y cos υ
z’ = z

x’
=
y’
z’

cos υ -sin υ 0
sin υ cos υ 0
0
0
1

x
y
z

Matriz de rotación Rz(υ )





Rotación
 Si el punto fijo es el origen y el vector x:




x’ = x
y’ = y cos υ – z sin υ
z’ = y sin υ + z cos υ

x’
y’
z’

=

1 0
0
0 cos υ -sin υ 0
sin υ cos υ

x
y
z

Matriz de rotación Rx(υ )





Rotación
 Si el punto fijo es el origen y el vector y:




x’ = x cos υ + z sin υ
y’ = y
z’ = -x sin υ + z cos υ

x’
=
y’
z’

cos υ 0
0
1
-sin υ 0

sin υ
0
cos υ

x
y
z

Matriz de rotación Ry(υ )

HAY UN CAMBIO DE SIGNO DEL SIN (REGLA DE LA MANO DERECHA)




Rotación general
x’
y’
z’

=

r11
r21
r31

r12
r22
r32

r13
r23
r33

x
y
z





Escalado uniforme y no uniforme





Escalado


Especificar: factor de escala β, punto fijo y vector (escalad
en dirección al vector)
β > 1 alarga objeto en dirección del vector
0 ≤ β < 1 acorta objeto en dirección del vector
β < 0 dan lugar a la reflexión
Si el escalado es en relación al origen
y en dirección a ejes principales:

x’
βx 0 0
x
=
y’
y
0 βy 0
Realidad Aumentada 0 María José Abásolo | Facultad Inform
| 0 β
z’
z
z




Hasta ahora hemos expresado la traslación
como una suma, y la rotación y el escalado como
una multiplicación: la representación no es
homogénea
x’
r11 r12 r13
x
x’
x
=
y’
y
z’
z
1
1
traslación

dx
dy
dz
0

y’
z’

=

r21 r22 r23
r31 r32 r33

y
z

rotación

x’
=
y’
z’

βx 0 0
0 βy 0
0 0 βz

x
y
z

Realidad Aumentada |escalado Abásolo | Facultad Inform
María José




Por cuestiones de eficiencia en la
implementación computaciones de la
concatenación de transformaciones se necesita
una representación homogénea de la traslación,
la rotación y el escalado



 Representación


homogénea

Permite expresar uniformemente en forma
matricial tanto la rotación y el escalado como la
traslación
 Cada transformación afín 3D se representa por
una matriz de 4x4



 Representación


homogénea

Puntos y vectores 3D se representan con 4
dimensiones



Vector (x,y,z) es (x,y,z,0)
Punto (x,y,z) es (x,y,z,1)



 Traslación


P’ = P + d

x’
x
=
y’
y
z’
z
1
1
x’
=
y’
z’
1

+

dx
dy
dz
0

1 0 0 dx
0 1 0 dy
0 0 1 dz
0001

Esta forma no es general: adición

x
y
z
1

Forma más
general:
Multiplicación de
matrices
Matriz de traslación T(d) Aumentada | María José Abásolo | Facultad Inform
Realidad


 Rotación


Si el punto fijo es el origen y el vector z:
x’
=
y’
z’

cos υ -sin υ 0
sin υ cos υ 0
0
0
1

x
y
z

x’
y’
z’
1

cos υ -sin υ 0 0
sin υ cos υ 0 0
0
0
10
0
0
01

x
y
z
1

=

Matriz de rotación Rz(υ ) en coordenadas homogéneas


 Rotación


Si el punto fijo es el origen y el vector x:
x’
y’
z’

=

x’
=
y’
z’
1

1 0
0
0 cos υ -sin υ 0
sin υ cos υ

x
y
z

1 0
0 0
0 cos υ -sin υ 0
0 sin υ cos υ 0
0 0
0 1

x
y
z
1

Matriz de rotación Rx(υ ) en coordenadas homogéneas



 Rotación


Si el punto fijo es el origen y el vector y:
x’
=
y’
z’

cos υ 0 sin υ
0
1 0
-sin υ 0 cos υ

x
y
z

x’
=
y’
z’
1

cos υ 0 sin υ 0
0
1 0 0
-sin υ 0 cos υ 0
0
0 0 1

x
y
z
1

Matriz de rotación Ry(υ ) en coordenadas homogéneas



 Rotación


Rotación general
x’
=
y’
z’

r11
r21
r31

x’
=
y’
z’
1

r11 r12 r13 0
r21 r22 r23 0
r31 r32 r33 0

r12
r22
r32

r13
r23
r33

0 0 0
Matriz de rotación general

1

x
y
z
x
y
z
1



 Escalado


Si el punto fijo es el origen:
x’
=
y’
z’

βx 0 0
0 βy 0
0 0 βz

x
y
z

x’
=
y’
z’
1

βx 0 0 0
0 βy 0 0
0 0 βz 0
0 0 0 1

x
y
z
1

Matriz de escalado (β) en coordenadas homogéneas



 La

forma matricial uniforme permite la
implementación eficiente de
transformaciones sucesivas mediante la
multiplicación de matrices







Si cada transformación está expresada como una
matriz de 4x4, se pueden llevar a cabo sucesivas
transformaciones con multiplicaciones sucesivas de
matrices de 4x4
Por ejemplo: primero rotar u grados con respecto al
eje Z y luego trasladar (vector d)


x’ =
y’
z’
1

P’ = Td Rz P
1 0 0 dx
0 1 0 dy
0 0 1 dz
0001

cos υ -sin υ 0 0
x = cos υ -sin υ 0 dx x
sin υ cos υ 0 0
y
sin υ cos υ 0 dy y
0
0
1
z
0
0
1 dz z
0
1
1
0
0
01
0
0
01




Se debe cuidar el orden en que se multiplican las
matrices ya que muchas combinaciones de
transformaciones no son conmutativas




Sistema de
Coordenadas
Cámara 3D

Un punto Pm
en relación al
sistema de
coordenadas
mundo puede
expresarse en el
sistema de
coordenadas
cámara como
Pc = Tcc Pm
Tcc: matriz de 4x4
que expresa las
transformaciones
geométricas




Imagen 2D

Cada punto Pc del mundo 3D
(en coord. cámara)
se proyecta según el modelo
de la cámara y tiene su
correspondiente pi
en la imagen
proyectada 2D

Sistema de
Coordenadas
Cámara 3D


Proyecciones perspectiva y paralela

Perspectiva

Paralela



Proyección perspectiva:
Modelo de Pinhole

Pc: punto del
mundo en coord
cámara
(Xc,Yc,Zc)

Punto
principal
pi: punto
de la
imagen
Plano imagen

Eje principal

Centro de proyección
f:distancia
focal


Modelo de Pinhole (2D)

Pc: punto del
mundo en coord
cámara
(Xc,Yc,Zc)

pi: punto
de la
imagen

Por similitud de tríángulos se deduce

y / Yc = f / Zc

f:distancia
x / Xc = f / Zc
focal


• Mapeo del punto del modelo Pc al punto pi en el plano imagen

x = Xc . f / Zc
y = Yc . f / Zc
• Al dividir por Zc la ecuación es NO LINEAL:
la proyección no es una transformación AFIN
• Es además IRREVERSIBLE: a partir de un punto p en una
imagen no puede deducirse el punto en el espacio Pc




• Pese a no ser transformación AFIN, puede expresarse en
coordenadas homogéneas como matriz de 4x4
• Esto es una ventaja ya que resulta muy eficiente en la
implementación utilizar la multiplicación de matrices al igual
que se hizo con las transformaciones geométricas




•Para expresar matricialmente las ecuaciones las
expresamos
de la siguiente forma:
Zc x = Xc f
Zc y = Yc f

Zc z = Zc f




Zcx
Zcy
Zcz
Zc

=

f
0
0
0

0
f
0
0

0
0
f
1

0
0
0
0

Xc
Yc
Zc
1

• A continuación el punto P=(Zc x, Zc y, Zc z, Zc) que es
(f Xc, f Yc, f Zc, Zc) debe dividirse por Zc para obtener el punto
proyectado pi= (Xc f/Zc, Yc f/Zc, f, 1)




Zcx
Zcy
Zcz
Zc

=

f
0
0
0

0
f
0
0

0
0
f
1

0
0
0
0

Xc
Yc
Zc
1

• Dado que se trata de una imagen puede ignorarse la
componente Z que siempre es igual a la distancia focal f, o
distancia del plano donde se forma la imagen




Zcx
Zcy
Zc

=

f 0 0 0
0 f 0 0
0 0 1 0

Xc
Yc
Zc
1

• Entonces puede escribirse utilizando una matriz de 3 x 4




 El

modelo de cámara de Pinhole solo
considera como parámetro


f distancia focal




 La

matriz de proyección completa
considera los siguientes parámetros
intrínsecos de la cámara:


f distancia focal
(ox,oy): coordenadas del centro de la imagen



mx,my escalas para mapeo a pixeles





cámara proyectiva finita

 Coordenadas




del centro

El origen de coordenadas en el plano de la imagen
puede no estar en el centro
Sea O = (ox,oy) las coordenadas del punto principal
x = Xc . f / Z c + o x
y = Yc . f / Z c + o y



Para escribir la matriz de proyección se reescribe:
Zc x = Xc . f + Zc ox
Z c y = Yc . f + Z c o y




 Coordenadas


del centro

De forma matricial:
Zcx
Zcy
Zc

f 0 ox 0
=
0 f oy 0
0 0 1 0

Xc
Yc
Zc
1




 Diferente

escala en ejes X e Y de la

imagen



Las cámaras CCD puede producir pixels no cuadrados
Sea mx y my el número de pixels por unidad de distancia en
coordenadas imagen en los ejes X o Y
x=X .f.m /Z +e
c

x

c

x

y = Yc . f . m y / Z c + o y


Para escribir la matriz de proyección se reescribe:
Zc x = Xc . f . mx + ox Zc
Zc y = Yc . f . my + oy Zc




 Diferente

escala en ejes X e Y de la

imagen


De forma matricial:
Zcx
Zcy
Zc

f.mx 0 ox 0
= 0 f.m o 0
y y
0 0 1 0

Xc
Yc
Zc
1




 Los

parámetros intrínsecos de una
cámara real dada pueden estimarse
mediante un proceso denominado
CALIBRACIÓN (se verá más adelante)



Sistema de
Coordenadas
Mundo 3D

1- Un punto P
Sistema de coordenadas cualquiera del
mundo 3D
Imagen 2D
expresado en
un sistema de
Sistema de
coordenadas
Coordenadas
local

Cámara 3D



Sistema de
Coordenadas
Mundo 3D

P se
transforma
Sistema de coordenadas mediante Tcm
Imagen 2D
(rotaciones y
traslaciones) en
Sistema de
Pm
Coordenadas
expresado
en un sistema de
Cámara 3D
coordenadas
mundo 3D




Punto 3D en
coordenadas
local

Pm: punto 3D en
coordenadas
mundo

Xm =
Ym
Zm
1

Tcm
4x4

X
Y
Z
1



Sistema de
Coordenadas
Mundo 3D

2- Pm se
transforma en
Sistema de coordenadas Pc mediante

Imagen 2D
Sistema de
Coordenadas
Cámara 3D

Tcc

(rotaciones y
traslaciones)
expresado
sistema de
coordenadas
cámara 3D




Pm: punto 3D en
coordenadas
mundo

Pc: punto 3D en
coordenadas
cámara

Xc
Yc
Zc
1

=

Tcc
4x4

Xm
Ym
Zm
1

Matriz de transformaciones
geométricas


Sistema de
Coordenadas
Mundo 3D

3- Finalmente
cada punto Pc
Sistema de coordenadas expresado en
Imagen 2D
coordenadas
cámara 3D se
Sistema de
proyecta Tp
para obtener un
Coordenadas
punto pi de la
Cámara 3D
imagen 2D
(división por z)




pi:punto 2D
de la imagen
en pixeles

x
y

Pc: punto 3D en
coordenadas
cámara

/Zc

Zcx
Zcy
Zc

=

Tp
(3x4)

Xc
Yc
Zc
1

Matriz de
proyección




Pc puede expresarse en base a Pm

pi: punto 2D
de la imagen
en pixeles

x
y

Pc: punto 3D en
coordenadas
cámara

/Zc

Zcx
Zcy
Zc

=

Tp
(3x4)

Xc
Yc
Zc
1

Matriz de
proyección



pi: punto 2D
de la imagen
en pixeles

x
y

Pm:punto 3D en
coordenadas
mundo

/Zc

=

Zcx
Zcy
Zc

Tp
(3x4)

Tcc
4x4

Xm
Ym
Zm
1

Matriz de
proyección
geométricas




De esta forma las transformaciones geométricas
seguidas de una proyección se expresan como
multiplicación de matrices

pi:punto 2D
de la imagen
en pixeles

x
y

Pm:punto 3D en
coordenadas
mundo

/Zc

=

Zcx
Zcy
Zc

Tp
(3x4)

Tcc
4x4

Xm
Ym
Zm
1

Matriz de
proyección
geométricas




pi: punto 2D
de la imagen
en pixeles

Conociendo la matriz de proyección y la matriz de
transformaciones geométricas, a partir de cada punto
3D Pm del mundo se calcula cada punto 2D pi en la
imagen

Tp

x
y

/Zc

= f.mx 0 ox 0
0 f.my oy 0
0 0 1 0

Zcx
Zcy
Zc

Pm: punto 3D en
coordenadas
mundo

Tcc

r11
r21
r31
0

r12
r22
r32
0

r13
r23
r33
0

dx
dy
dz
1

Xm
Ym
Zm
1

Matriz de
proyección
geométricas




Esta es la expresión matemática del proceso de
formación de imágenes

pi: punto 2D
de la imagen
en pixeles
Tp

x
y

/Zc

= f.mx 0 ox 0
0 f.my oy 0
0 0 1 0

Zcx
Zcy
Zc

Pm: punto 3D en
coordenadas
mundo

Tcc

r11
r21
r31
0

r12
r22
r32
0

r13
r23
r33
0

dx
dy
dz
1

Xm
Ym
Zm
1

Matriz de
proyección
geométricas


 Proceso

directo: conociendo la matriz
de proyección y la matriz de
transformaciones geométricas, a partir
de cada punto Pm del mundo 3D se
calcula cada punto pi en la imagen 2D


En computación gráfica las imágenes o vistas
de una escena se obtienen aplicando a cada
punto 3D la multiplicación por las matrices




captura

tracking

del mundo real

Proyección de
la escena virtual
(gráficos 3d)
Proceso de
formación de
imágenes

combinador

registrados


 Se





dijo que en RA

Se tiene un mundo real donde situamos un
sistema de coordenadas 3D de referencia
Se tiene un mundo sintético 3D
Se deben “registrar” las imágenes sintéticas en el
mundo real, quiere decir que se debe referenciar
el mundo sintético 3D en el sistema de
coordenadas 3D en el mundo real





En RA, para poder combinar objetos virtuales
con la realidad de forma registrada se deben
conocer




la matriz de transformaciones geométricas: equivale a
conocer la posición y orientación del usuario en el sistema
de referencia, que se obtienen con el tracking
la matriz de proyección: en el caso en que el usuario
visualice la escena real capturada por una cámara se
deben conocer o estimar las características de dicha
cámara (proceso de CALIBRACIÓN)





En RA




Conocidas las matrices se aplica el proceso descripto
para computación gráfica para generar la imagen
sintética que se combinará con la escena real
Este proceso se realiza en cada instante ya que la
posición y orientación del usuario pueden cambiar
continuamente





Proceso inverso: ¿es posible a partir de un
punto de la imagen pi deducir el punto 3D Pm
del mundo?


NO, a partir de UNA sola imagen y SIN conocimiento
adicional de la escena no es posible deducir el punto
3D. Ya se dijo que la proyección es un proceso
irreversible





Proceso inverso: ¿es posible a partir de un
punto de la imagen pi deducir el punto 3D Pm
del mundo?


SI, es posible calcular el punto 3D si se conocen:

MÁS DE UNA IMAGEN de la escena tomadas desde
diferentes puntos de vista,
 la matriz de proyección, y
 relaciones entre las diferentes imágenes en forma de pares
de puntos correspondientes
Este proceso se aplica para la reconstrucción 3D a partir de
fotografías, denominado fotogrametría








Proceso inverso: a partir de la imagen ¿es
posible deducir la matrices de proyección y la
matriz de transformaciones geométricas?


SI, es posible calcular una de las dos matrices
conociendo
 la otra matriz, además de
 conocer la asociación entre imagen y modelo 3D en
forma de pares de puntos correspondientes





Proceso inverso: a partir de la imagen ¿es
posible deducir la matrices de proyección y la
matriz de transformaciones geométricas?


Sección
CALIBRACIÓN
Sección

TRACKING
VIDEOMETRICO

En el proceso de calibración se deducirá la matriz de
proyección a partir de varias imágenes
En RA se deducirá la matriz de transformaciones
geométricas en el tracking basado en visión


Fundamentos de RA
 Tracking





basado en visión

Qué es el tracking videométrico
Tracking de marcadores
Tracking de características naturales
Tracking híbrido



Tracking basado en visión

Que es tracking videométrico
 Tracking:

el tracking es el seguimiento de un
objeto para obtener su posición y orientación
en relación a una referencia




captura

tracking

del mundo real

Proyección de
la escena virtual
(gráficos 3d) y
otros elementos
virtuales

combinador

registrados



 En

RA, el tracking del usuario es necesario
ya que conociendo su posición y orientación
en relación a un sistema de coordenadas en
la escena real se puede superponer la
información sintética “registrada” (es decir,
considerando el mismo sistema de
coordenadas)




 Tracking




puede realizarse

Basado en dispositivos físicos
Basado en visión
Híbrido




 Tracking




basado en visión

También se denomina videométrico o basado en
video (vision based, videometric, video based)
En lugar de utilizar dispositivos físicos específicos
para tracking, la posición y orientación de la
cámara en relación a la escena real puede
estimarse analizando el video capturado por la
cámara utilizando técnicas de visión por
computador




captura

tracking

El tracking basado en
video utiliza la captura
de la escena real

del mundo real

Proyección de
la escena virtual
(gráficos 3d) y
otros elementos
virtuales

combinador

registrados



 El

stream de video capturado por la cámara
se usa simultáneamente:




como el fondo (video background) que ve el
usuario en la pantalla (en caso de usar un
dispositivo de visualización no transparente)
para el tracking de la cámara





El flujo de trabajo de una aplicación de RA con tracking
basado en visión es el siguiente:

a. Preprocesamiento:
a.1. Calibración de la cámara
a.2. Modelado de la escena virtual
b. Procesamiento:
b.1. Inicializaciones:
b.1.1. Definir matriz de proyección.
b.1.2. Carga de la escena virtual
b.2. Procesamiento de cada cuadro de video:
b.2.1. Captura de cuadro de video
b.2.2. Estimación de la posición y orientación de la
cámara
b.2.3. Visualización de la escena aumentada



Fundamentos de RA
 Tracking





basado en visión

Qué es el tracking videométrico
Tracking híbrido





Un marcador es una imagen 2D impresa con un
formato específico conocido por la aplicación de
tracking





En el capítulo anterior se vieron los diferentes tipos
de marcadores más conocidos




Template
ID-Marker
DataMatrix y QRCode









El marcador es un objeto real del que se conocen,
por construcción, sus puntos 3D en un sistema de
coordenadas local al marcador
A partir del análisis de cada imagen del video,
pueden localizarse puntos 2D del marcador
Se hacen corresponder los puntos 2D localizados
con los puntos 3D conocidos del marcador, y a
partir de las correspondencias se puede estimar la
posición y orientación del marcador en relación a la
cámara (matriz de transformaciones geométricas)



 Ventajas



de tracking de marcadores:

Robusta
Computacionalmente eficiente

 Desventajas


de tracking de marcadores:

Los marcadores son visibles para los usuarios
interfiriendo con la escena real



Workflow de una aplicación de RA con tracking de marcadores



CAPTURA DE VIDEO REAL

La cámara captura el video stream




El video stream capturado se
renderizará como fondo para generar
el efecto see-through y se analizará
posteriormente para tracking



DETECCIÓN E IDENTIFICACIÓN DE
MARCADORES EN CADA FRAME

En cada frame capturado se aplica un
algoritmo de detección de
marcadores (basado en detección de
rectángulos) seguido de una
identificación del marcador. En esta
fase se compensa también la
Realidad Aumentada | de la imagen capturada.
distorsión María José Abásolo | Facultad Inform


ESTIMACIÓN DE “POSE” DE CADA MARCADOR DETECTADO

Si se detectaron marcadores, se
aplica para cada uno un algoritmo de
estimación de la matriz 4x4 que
expresa la traslación y orientación del
marcador con respecto al sistema de
coordenadas cámara



DIBUJO DE OBJETOS VIRTUALES 3D
La matriz de posición y orientación estimada
puede usarse para dibujar objetos virtuales
de manera registrada con el mundo real. La
cámara virtual tiene que tener las mismas
características que la real.



RESULTADO

El usuario ve en su pantalla el
resultado final: superposición del
video capturado con los objetos
virtuales superpuestos





Volviendo a la formación de imágenes…
Sistema de
Coordenadas
Mundo 3D

Imagen 2D

Sistema de
Coordenadas
Cámara 3D




¿Qué conocemos?

Imagen 2D

Se conoce el
marcador en
el mundo real
en un sistema
local. No
conoce su
posición y
orientación

Sistema de
Coordenadas
Cámara 3D




¿Qué conocemos?

Se conoce una imagen que capturó
la cámara real que puede tener
distorsión

Imagen
proyectada
“IDEAL” sin
distorsión

Imagen
capturada por
la cámara real
Mediante la
CALIBRACIÓN de la
cámara es posible
obtener la distorsión
para poder corregir la
imagen Aumentada
Realidadcapturada

| María José Abásolo | Facultad Inform




Distorsión radial



 Distorsión

de la imagen capturada





¿Qué conocemos?

También mediante la
CALIBRACIÓN pueden conocerse los
parámetros intrínsecos de la cámara y
en consecuencia la matriz de proyección.

Cámara real




Incógnita
Sistema de
Coordenadas
Mundo 3D

Esta es la incógnita: la matriz de
transformación que expresa la
traslación y rotación del marcador
con respecto al sistema de
coordenadas cámara

Imagen 2D

Sistema de
Coordenadas
Cámara 3D




x
y

Ecuaciones

/Z c

Zc x
Zc y
Zc

=

Tp
(3x4)

x’
y’

Punto 2D en
la imagen
distorsionada
del marcador
(compensar
la distorsión)

p: Punto 2D
en la imagen
ideal del
marcador
Los puntos
en la imagen
se extraen
por técnicas
de visión

Matriz de
Proyección de
la cámara
obtenida por
CALIBRACIÓN

Realidad

Tcc
(4x4)
?

Xm
Ym
Zm
1

Pc: punto 3D del
marcador en el
sistema de
coordenadas de
la cámara

Pm: punto 3D del
marcador en el
sistema de
coordenadas del
marcador (se
conoce por
construcción)

INCÓGNITA:
Matriz 4x4 con la
traslación y
rotación del
marcador
en relación al
sistema de
coordenadas
cámara (?)
Aumentada | María José Abásolo

| Facultad Inform


1.

Preprocesamiento: calibración de la cámara



2.

Conocer la distorsión
Conocer la matriz de proyección

Procesamiento de cada frame
1.
2.

3.

Localizar marcadores
Estimar la matriz de transformación de cada
marcador
Rendering de la escena mixta utilizando la matriz
estimada para superponer objetos en el lugar del
marcador





Localizar marcadores en cada frame

Ejemplo: Librería de RA ARToolkit (ARTK)
Hirokazu Kato, Mark Billinghurst. Marker Tracking and
HMD Calibration for a video-based Augmented
Reality Conferencing System. Proceedings of the 2nd
International Workshop on Augmented Reality (IWAR
99). pages 85-94, 1999, USA.






Librería de RA ARToolkit (ARTK)






1.

Umbralización (thresholding) y detección de bordes






2.

Búsqueda de cuadriláteros:




Se extraen las regiones cuyo contorno son 4 segmentos
Las regiones muy grandes o pequeñas se rechazan
Se extraen los parámetros de los 4 segmentos y las coordenadas de
los 4 vértices








3.

Se normaliza el interior de cada marcador usando una
transformación perspectiva








4.

Las imágenes normalizadas se chequean contra una serie de
patrones conocidos (4 comparaciones por correlación con cada
marcador de la base de datos para considerar las posibles
rotaciones de 90º)





Estimar la matriz de transformación de cada
marcador




Dados los 4 pares correspondientes Pm y p
 Pm = (Xm, Ym, Zm), vértice del marcador en sistema
de coordenadas mundo
 p = (x, y), vértice del marcador en la imagen
Objetivo: estimar Tcc
 Pc = (Xc, Yc, Zc), vértice del marcador en sistema
de coordenadas cámara
 Pc = Tcc Pm
 Relación: Pc proyectado y dividido por z es p





Proceso iterativo de optimización: se
minimiza una función de error
Error = ¼ Ʃ (xi – qxi)2 + (yi – qyi)2
i=1..4



1.
2.

3.
4.

5.

Inicialización: estimación inicial de la matriz de
transformación Tcc0
Usar la estimación actual Tcc para calcular
qi=(qxi,qyi), las proyecciones de cada vértice Pmi del
marcador
qi= Tcc Pmi
Calcular el error ¼ Ʃ (xi – qxi)2 + (yi – qyi)2
Calcular las correcciones ΔTx, ΔTy, ΔTz de los
parámetros de traslación y las correcciones Δμx,
Δμy, Δμz para los ángulos de rotación. Actualizar la
matriz de transformaciones geométricas Tcc
Repetir paso 2 a 4 hasta converger





Técnicas de tracking incrementales




El algoritmo de tracking de marcadores presentado
anteriormente exige la visibilidad total del marcador en
cada cuadro de video
Las técnicas de tracking incrementales permiten seguir
teniendo la posición y orientación aún cuando los
marcadores se pierden o son tapados





Técnicas de tracking incrementales


Wagner Daniel et al. Robust and Unobtrusive Marker
Tracking on Mobile Phones. International Symposium
on Mixed and Augmented Reality 2008
 Analiza dos técnicas para recuperar la posición del
marcador ocluido
 El flujo óptico
 Seguimiento de características


Video demostrativo
http://www.youtube.com/watch?v=HgrJ3gwwP94









A veces no se puede o no se desea poner
marcadores en una escena.
Sin embargo, en una imagen hay muchas
características o puntos de interés que
pueden extraerse para proveer una
descripción de un objeto de interés
En ese caso se pueden realizar el seguimiento
de características naturales presentes en la
imagen de la escena como son bordes,
esquinas y texturas





Clasificación de los algoritmos de tracking
de características naturales:


Con conocimiento de la escena real





requieren modelo 3D del objeto a seguir
requieren una imagen ya guardada y analizada

Sin conocimiento de la escena real


estos algoritmos no necesitan ningún
conocimiento previo de la escena real





Los algoritmos CON conocimiento de la
escena real requieren una inicialización a
priori en la que guardan una imagen o
vista de un objeto que usarán como
referencia, ya que se conoce o establece
la posición y orientación de la cámara
para esa imagen





Los algoritmos CON conocimiento de la escena
real pueden a su vez clasificarse en dos grandes
categorías:
 Short baseline-matching




Comparan el frame actual con el frame anterior, por
esto son “short” dado que la variación de la posición y
orientación de la cámara de un frame a otro es “corta”

Wide baseline-matching


Comparan el frame actual con el frame de
referencia, entre los cuales puede haber una
“amplia” variación de la posición y orientación de la
cámara





Dentro de estas dos categorías se
encuentran diferentes algoritmos:


Short baseline-matching





Métodos basados en bordes
Métodos basados en texturas



Métodos basados en detección





Clasificación de los algoritmos de tracking de
características naturales:
 Con conocimiento de la escena
 Short baseline-matching









Métodos basados en bordes
Métodos basados en texturas
Métodos basados en detección

Sin conocimiento de la escena
 SLAM (Simultaneous Localization and
Mapping)



Métodos de tracking basados en bordes
 Fueron

los primeros enfoques ya que
son eficientes y fáciles de implementar
 RAPiD (Real-time Attitude and Position
Determination) presentado por Harris
(1992)


Fue uno de los primeros trackers en tiempo
real, y se han desarrollado diversas mejoras
para hacerlo más robusto



 RAPiD

La idea básica es considerar un
conjunto de puntos de control 3D en el
objeto a seguir que pertenezcan a
bordes del objeto
 Se requiere conocimiento del objeto en
3D (por esto el algoritmo es basado en
el modelo o “model-based”)




 RAPiD




El movimiento 3D del objeto entre dos
frames consecutivos puede recuperarse a
partir del desplazamiento 2D de los puntos
de control en las imágenes
El algoritmo exige una inicialización donde
se registra el modelo con la imagen para
comenzar con un valor válido de la matriz
de transformaciones geométricas T0.





RAPiD
 En cada cuadro, se realiza lo siguiente:








Predecir la matriz de transformaciones geométricas Tj que
representa la posición y orientación de los puntos de control
Pi del objeto en relación a la cámara, a partir de la matriz de
transformaciones geométricas del cuadro anterior Tj-1.
Usar la estimación actual Tj para calcular las proyecciones
qi de cada punto de control Pi
Localizar en la imagen los puntos de control efectivos pi
(suelen ser parámetros que definen los bordes)
Calcular el error que existe entre los puntos de control
efectivos y los puntos de control proyectados
(error=distancia (q,p))
Ajustar la posición y orientación predichas resolviendo un
sistema lineal minimizando las distancias al cuadrado entre
los puntos de control efectivos y los puntos de control
proyectados






Un problema es que pueden existir bordes (y en
consecuencia puntos de control) extraidos erroneamente
Algoritmos que agregan robustez a RAPiD:








Vaccetti et al (2004) Combining edge and texture information for
real time accurate 3D camera tracking. ISMAR 2004
Drummond & Cipolla (2002) Real time visual tracking of complex
structures. PAMI, 27(7)
Marchand et al(2001) A 2D-3D model-based approach to real
time visual tracking. Journal of Image and Vision Computing,
19(13)
Simon & Berger (1998) A two stage robust statistical method for
temporal registration from features of various types. Proc. Int.
Conf on Comp Vision.
Amstrong & Zisserman (1995) Robust object tracking. Proc. Of
the Asian Conf. on Comp Vision



Métodos de tracking basados en texturas
 Si

se cuenta con escenas donde el o los
objetos a seguir están suficientemente
texturados puede extraerse información a
partir de la textura de los mismos.
 Se requiere un modelo 3D del objeto a
seguir (model-based)





La información de textura puede derivarse del
flujo óptico o de correspondencias entre
puntos de interés.




Los métodos basados en flujo óptico tratan de
estimar el movimiento entre dos cuadros de video
consecutivos.
Los métodos basados en correspondencias entre
puntos de interés, calcula el movimiento de la
cámara mediante una minimización de cuadrados
mínimos o mediante estimación robusta a partir de
los pares de puntos correspondientes en cuadros
sucesivos.





Los métodos basados en puntos de interés
seleccionan puntos mediante un “operador de
interés”:






Los puntos deben diferentes de sus vecinos (por
esto los puntos de bordes quedan excluidos)
Los puntos de patrones repetitivos deben
rechazarse
La selección debe repetirse, es decir, en varias
vistas de la escena debe seleccionarse el mismo
punto de interés independientemente de la
perspectiva o el ruido
La extracción de puntos de interés debe ser
insensible a cambios de escala, puntos de vista e
iluminación





Dados dos cuadros de video con puntos de vista
similares, un procedimiento clásico para este tipo de
tracking consiste en:
 Seleccionar puntos de interés en la primera
imagen, de la cual la posición y orientación de la
cámara ya ha sido estimada previamente
 Para cada punto seleccionado en la primera
imagen, buscar el punto correspondiente en una
región alrededor del punto en la segunda imagen
 A partir de las correspondencias encontradas
deducir el cambio de posición y orientación en 3D a
partir de sus distancias en la imagen.





Si las coordenadas 3D de los puntos no
se conoce a priori los métodos están
sujetos a errores que producen fallas de
tracking

 Una

solución es inicializar “a mano”
comenzando con un frame donde se
hacen corresponder un modelo 3D
con los puntos correspondientes en
la imagen (se registra)



Métodos de tracking basados en detección


Existe una similitud entre dos problemas
de visión por computador:





Detección de objetos
Estimación de la posición y orientación a
partir de características naturales

Algunos enfoques solucionan ambos a la
vez: simultáneamente detectan objetos y
estiman su posición y orientación 3D





Cada punto de interés se describe
mediante un vector de características
(denominado descriptor local ya que
caracteriza la vecindad del punto)





Los métodos de tracking basados en la detección en
base a características constan de los siguientes
pasos:
 Preprocesamiento off-line o entrenamiento:
Se tienen imágenes de entrenamiento. Por cada
imagen de entrenamiento:
 a.1. Localizar puntos de interés en la imagen
de entrenamiento
 a.2. Calcular el vector de características de
cada punto de interés
 a.3. Vincular cada punto de interés en la
imagen con su correspondiente en el modelo
3D
 a.4. Almacenar en la base de datos el vector
de características con la ubicación 3D





Los métodos de tracking basados en la detección en
base a características constan de los siguientes
pasos:
 Procesamiento:
Por cada cuadro del video capturado:
 b.1. Localizar los puntos de interés en la
imagen
 b.2. Describir cada punto de interés mediante
un vector de características
 b.3. Hacer corresponder cada vector de
características con los vectores almacenados
en la base de datos.
 b.4. Estimar la posición y orientación a partir
de las correspondencias más cercanas.





SIFT (Scale-invariant feature transform)


Lowe, D. G., “Distinctive Image Features from ScaleInvariant Keypoints”, International Journal of Computer
Vision, 60, 2, pp. 91-110, 2004.



Es uno de los más eficientes descriptores
de puntos de interés:




invariante a cambios de escala, orientación, distorsión
y parcialmente invariante a cambios de iluminación
permite identificar objetos con oclusiones parciales







Se dijo que cada punto de interés se describe
mediante un vector de características
Entre los descriptores más usados
encontramos:



SIFT
SURF





SIFT Vector de características


La vecindad o región del punto de interés se divide en
subregiones (3x3 o 4x4), cada una define una parte del
vector de características



Para cada subregión se calcula el histograma de
orientaciones de gradiente (4 u 8 orientaciones) y se
toma como característica el pico del histograma




Por ejemplo: computando el histograma de 8 orientaciones
en 4x4 subregiones da un vector de 128 características

Finalmente el vector de características se normaliza para
reducir los efectos de cambios de iluminación





Implementación de SIFT para tracking




Skrypnyk and Lowe (2004) Scene modelling,
recognition, and tracking with invariant image
features. ISMAR 2004
Video demostrativo
http://www.cs.ubc.ca/˜skrypnyk/arproject





Wagner Daniel et al. Pose Tracking from
Natural Features on Mobile Phones
International Symposium on Mixed and
Augmented Reality - http://www.icg.tugraz.ac.at/pub/pdf/WAGNER_ISMAR08_
NFT.pdf




Tracking basado en características naturales 6DOF en
tiempo real corriendo en un dispositivo móvil
Adapta SIFT para su uso en dispositivos móviles
Video demostrativo:
 http://www.youtube.com/watch?v=

mwrHlJok2lA





SURF (Speeded Up Robust Features)




Es un detector y descriptor de características robusto
Inspirado en el descriptor SIFT. Según los autores es más
robusto a cambios de transformaciones y más rápido
SURF usa como característica básica usa la transformada
Wavelet de Haar del determinante del detector de “blobs”
Hessian. Se basa en sumas de respuestas a la
transformada de Haar.





SURF (Speeded Up Robust Features)


Herbert Bay, Andreas Ess, Tinne Tuytelaars, Luc Van Gool
"SURF: Speeded Up Robust Features", Computer Vision
and Image Understanding (CVIU), Vol. 110, No. 3, pp.
346--359, 2008



 Implementación


de SURF

Christopher Evans Notes on the OpenSURF
Library, MSc Computer Science, University of
Bristol
http://www.cs.bris.ac.uk/Publications/pub_master.jsp?i



 Implementación

de SURF para dispositivos

móviles


Takacs, G., Chandrasekhar, V., Gelfand, N., Xiong, Y.,
Chen, W.-C.,Bismpigiannis, T., Grzeszczuk, R., Pulli, K.,
and Girod, B., Outdoors Augmented Reality on Mobile
Phone using Loxel-Based Visual Feature Organization,
IEEE Transactions on Pattern Analysis and Machine
Intelligence (PAMI), 2008



 SURF


Videos demostrativos



http://vimeo.com/groups/augmentedreality/videos/4990304
http://www.youtube.com/watch?v=caFHvamMUTw&feature



Tracking sin conocimiento de
la escena
 SLAM

(Simultaneous Localization and
Mapping)






Tracking en escenas desconocidas
Thrun et al (2004)
se deduce la estructura del ambiente sino que al
mismo tiempo establece una correlación de la
misma con la posición y orientación de la cámara.
Reitmayr et al (2010) presenta posibles usos de
SLAM en RA



Tracking sin conocimiento de
la escena


PTAM (Parallel Tracking and Mapping) se ejecuta
en tiempo real tanto en PC como en móviles








Klein, G. and Murray, D. “Parallel Tacking and Mapping for small
AR workspaces” (2007) Proceedings of 6th IEEE/ACM
International Symposium on Mixed and Augmented Reality
(ISMAR 2007)
Klein, G. & Murray, D. (2009) “Parallel Tracking and Mapping
(PTAM) on a Camera Phone” Proceedings of 8th IEEE/ACM
International Symposium on Mixed and Augmented Reality
(ISMAR 2009)
Wagner, D.; Mulloni, A.; Langlotz, T. and Schmalstieg, D. (2010)
“Real-time Panoramic Mapping and Tracking on Mobile Phones”,
Proceedings of IEEE Virtual Reality Conference 2010 (VR’10).
Video http://www.robots.ox.ac.uk/~gk/youtube.html



Tracking videométrico
Tracking híbrido


Tracking híbrido




Técnicas que combinan la salida de dispositivos físicos y el
análisis de video
Los sensores (inerciales, giroscopios, GPS) permiten predecir la
posición de la cámara y se refina utilizando técnicas de visión






El tracking basado en visión es lento pero estable a largo plazo.
Falla en movimientos rápidos
El tracking inercial es rápido pero puede tener acumulación de
errores a largo plazo

Efectivo para aplicaciones que requieren posicionar la cámara
con respecto a una escena estática, pero no se aplica al tracking
de objetos en movimiento con una cámara estática



Tracking videométrico
Tracking híbrido


Técnicas que combinan la salida de dispositivos
físicos y el análisis de video





Jiang et al (2004) A robust tracking system for outdoor
augmented reality. IEEE Virtual Reality Conf 2004
Foxlin & Naimark (2003) Miniaturization, calibration and
accuracy evaluation of hybrid self-tracker. ISMAR 2003
Klein & Drummond (2003). Robust visual tracking for noninstrumented augmented reality. ISMAR 2003
Ribo & Lang (2003). Hybrid Tracking for outdoor
augmented reality applications. Computer Graphics and
applications.



Calibración de cámara

 Los

parámetros intrínsecos de una
cámara real dada pueden estimarse
mediante un proceso denominado
CALIBRACIÓN





Según el modelo elegido, la cámara se describe mediante
una serie de parámetros:


Intrínsecos:





Describen la geometría y óptica del conjunto cámara y tarjeta de
adquisición de imágenes.
Afectan al proceso que sufre un rayo luminoso desde que
alcanza la lente del objetivo, impresiona el elemento sensible y se
convierte en píxel iluminado.

Extrínsecos:


Describen la posición y orientación de la cámara en el sistema de
coordenadas conocido denominado sistemas de coordenadas
mundo.





Generalmente el conjunto cámara y tarjeta de
adquisición se describe mediante los
siguientes parámetros:




Parámetros Intrínsecos
 Distancia focal: f
 Distorsiones: Dx, Dy
 Centro de la imagen: ox, oy
 Factores de escala o tamaño pixel: mx, my
Parámetros Extrínsecos
 Traslación: Tx,Ty,Tz
 Rotación: Rx, Ry, Rz



 Calibración


[Tsai, 1987]

Proceso mediante el cual se calculan los
parámetros intrínsecos y/o extrínsecos
de la cámara, a partir de un conjunto de
puntos de control, conocidas las
coordenadas 3D de esos puntos y
midiendo las correspondientes
coordenadas 2D en una imagen obtenida
con dicha cámara.



 En

aplicaciones de realidad aumentada
se necesita realizar la calibración de la
cámara utilizada para conocer los
parámetros intrínsecos



Conocer la matriz de proyección Tp
Corregir las imágenes capturadas
compensando distorsión que produce la
cámara



 Puntos


de control

Plantilla de puntos de los cuales se
conocen las coordenadas 3D



 Puntos


de control

Patrón de puntos y cuadrícula





Se conocen:




Se extraen:






Pmi las coordenadas 3D (sistema de coordenadas
mundo) de los puntos de control
pi las coordenadas 2D en una o más imágenes
obtenidas con la cámara a calibrar de los
correspondientes puntos de control

Se plantean las ecuaciones que relacionan que
relacionan las coordenadas mundo 3D y las
coordenadas imagen 2D
La calibración consiste en:


utilizar los pares de puntos 3D-2D correspondientes a un
mismo punto de control para la resolución de ecuaciones



 Ecuaciones





Diversos métodos de resolución:




Lineales: DLT (Direct Linear Transform)
De minimización no lineal
En dos etapas (método de Roger Tsai)
1.
2.

Calcula orientación y traslación X e Y
Calcula la distancia focal, coeficientes de
distorción y la traslación Z




Software de calibración






GML MatLab Camera Calibration Toolbox
http://research.graphicon.ru/calibration/gml-matlab-camera-c
GML C++ Camera Calibration Toolbox
http://research.graphicon.ru/calibration/gml-c-camera-calibra
Algoritmos implementados en las librerías ARToolkit
www.hitl.washington.edu/artoolkit
Zhang's Camera Calibration Method with Software
http://research.microsoft.com/en-us/um/people/zhang/Calib/
Zhang's Camera Calibration and Tsai's Calibration
http://www.cs.cmu.edu/~rgw/TsaiDesc.html


Realidad Aumentada - Modulo 3 Fundamentos

Recomendados

Recomendados

Más contenido relacionado

Similar a Realidad Aumentada - Modulo 3 Fundamentos

Similar a Realidad Aumentada - Modulo 3 Fundamentos (19)

Más de Maria Jose Abasolo Guerrero

Más de Maria Jose Abasolo Guerrero (9)

Realidad Aumentada - Modulo 3 Fundamentos