En este trabajo se realiza una mejora de la funcion de R que construye el gráafico de las caras de Cherno para un perfil multivariante. Esta mejora se realiza mediante una categorización utilizando una paleta de colores y se aplica a una base de datos real. El procedimiento proporciona al investigador una mayor capacidad visual a la
hora de detectar datos atípicos
Dupey & Pinzón (coords.) - De olfato. Aproximaciones a los olores en la histo...
Detección visual de Datos Atípicos mediante Caras de Chernoff y Lenguaje R
1. V Jornadas de Usuarios de R
Mejora de la detecci´on visual de Datos At´ıpicos mediante una
modificaci´on en las Caras de Chernoff
Beatriz Gonz´alez
Victoria L´opez
Jorge Cordero
Universidad Complutense de Madrid
Departamento de Estad´ıstica e Investigaci´on Operativa I, Facultad de Matem´aticas, beatrizg@mat.ucm.es
Departamento de Arquitectura de Computadores y Autom´atica, Facultad de Inform´atica, vlopez@fdi.ucm.es
M´aster en Investigaci´on en Inform´atica, Facultad de Inform´atica
Mobile Technology and Biotechnology
Intelligent Agents−Engineering and Applications Research Group
2. ¿Qui´enes somos?
¿Qu´e hacemos?
Resultados y Conclusiones
Bibliograf´ıa
Contenido
1 ¿Qui´enes somos?
2 ¿Qu´e hacemos?
3 Resultados y Conclusiones
4 Bibliograf´ıa
B. Gonz´alez & V. L´opez & J. Cordero Detecci´on de Datos At´ıpicos mediante las Caras de Chernoff
3. ¿Qui´enes somos?
¿Qu´e hacemos?
Resultados y Conclusiones
Bibliograf´ıa
¿Qui´enes somos?
Research Groups
Mobile Technology and Biotechnology
http://www.tecnologiaUCM.es
Intelligent Agents−Engineering and Applications
http://grasia.fdi.ucm.es
Bayesian Methods
http://www.ucm.es/info/bayesianos/
B. Gonz´alez & V. L´opez & J. Cordero Detecci´on de Datos At´ıpicos mediante las Caras de Chernoff
4. ¿Qui´enes somos?
¿Qu´e hacemos?
Resultados y Conclusiones
Bibliograf´ıa
¿Qu´e hacemos?
Bioinform´atica y Bioestad´ıstica. Desarrollamos e im-
plementamos algoritmos, funciones y librer´ıas utilizando el lengua-
je de programaci´on R, para resolver problemas en el campo de la
Bioinform´atica: Big Data, Bases de Datos Biol´ogicas y Ali-
neamiento de Secuencias, entre otros. Realizamos estudios de
Estad´ıstica Aplicada en Bioestad´ıstica: An´alisis de Microarrays
y Test de Hip´otesis M´ultiples, entre otros. Puedes descargar
la librer´ıa BioSeq 1.0 (J. Mart´ınez, V. L´opez y B. Gonz´alez) en
http://www.tecnologiaUCM.es
B. Gonz´alez & V. L´opez & J. Cordero Detecci´on de Datos At´ıpicos mediante las Caras de Chernoff
5. ¿Qui´enes somos?
¿Qu´e hacemos?
Resultados y Conclusiones
Bibliograf´ıa
Otras actividades G-TeC
Tecnolog´ıas m´oviles. Desarrollamos Aplicaciones para Dispo-
sitivos M´oviles con sistema operativo Android, iOs y Blackberry.
Nos encargamos del plan de negocio, el desarrollo de la aplica-
ci´on y el plan de marketing. Puedes descargar nuestras aplica-
ciones m´oviles en http://www.tecnologiaUCM.es
Estudios de Rendimiento y Fiabilidad. Trabajamos con la
herramienta EMSI para Evaluaci´on y Modelado de Sistemas
Inform´aticos. Esta herramienta nos permite realizar An´alisis de
Rendimiento y Fiabilidad. EMSI se actualiza peri´odicamente con
las colaboraciones de otros grupos de investigaci´on y otras uni-
versidades. Puedes solicitar una copia gratuita del ejecutable a
Victoria L´opez (vlopez@fdi.ucm.es)
B. Gonz´alez & V. L´opez & J. Cordero Detecci´on de Datos At´ıpicos mediante las Caras de Chernoff
6. ¿Qui´enes somos?
¿Qu´e hacemos?
Resultados y Conclusiones
Bibliograf´ıa
Colaboraciones
An´alisis de Datos del Mercado El´ectrico Espa˜nol
eKergy Technologies, SL, Madrid, Spain
B. Gonz´alez & V. L´opez & J. Cordero Detecci´on de Datos At´ıpicos mediante las Caras de Chernoff
7. ¿Qui´enes somos?
¿Qu´e hacemos?
Resultados y Conclusiones
Bibliograf´ıa
Abstract
Cabras de la Sierra de Guadarrama
Detecci´on de Datos At´ıpicos mediante las Caras de Chernoff
Modificaci´on de las Caras de Chernoff
Abstract. Mejora de la detecci´on visual de Datos At´ıpicos
mediante una modificaci´on en las Caras de Chernoff
En este trabajo se realiza una mejora de la funci´on de R que cons-
truye el gr´afico de las caras de Chernoff para un perfil multivariante.
Esta mejora se realiza mediante una categorizaci´on utilizando una
paleta de colores y se aplica a una base de datos real. El procedi-
miento proporciona al investigador una mayor capacidad visual a la
hora de detectar datos at´ıpicos
B. Gonz´alez & V. L´opez & J. Cordero Detecci´on de Datos At´ıpicos mediante las Caras de Chernoff
8. ¿Qui´enes somos?
¿Qu´e hacemos?
Resultados y Conclusiones
Bibliograf´ıa
Abstract
Cabras de la Sierra de Guadarrama
Detecci´on de Datos At´ıpicos mediante las Caras de Chernoff
Modificaci´on de las Caras de Chernoff
Cabras de la Sierra de Guadarrama (Capra Hircus)
B. Gonz´alez & V. L´opez & J. Cordero Detecci´on de Datos At´ıpicos mediante las Caras de Chernoff
9. ¿Qui´enes somos?
¿Qu´e hacemos?
Resultados y Conclusiones
Bibliograf´ıa
Abstract
Cabras de la Sierra de Guadarrama
Detecci´on de Datos At´ıpicos mediante las Caras de Chernoff
Modificaci´on de las Caras de Chernoff
Sobre las cabras de la Sierra de Guadarrama...
Es la raza de cabra dom´estica m´as cercana a la cabra mont´es
Se caracteriza por su pelaje de color negruzco y largo, en el que destacan las manchas blancas o
marrones de su cara
Problem´atica: es una de las razas de cabras dom´esticas m´as en peligro de extinci´on
La Raza Guadarrame˜na o de la Sierra de Guadarrama se ha venido explo-
tando tradicionalmente en la zona del Sistema Central (Sierra de Guada-
rrama), comprendiendo las provincias de ´Avila, Segovia Madrid y zonas
lim´ıtrofes de Toledo y Guadalajara. Es una raza de doble aptitud producti-
va carne-leche, muy r´ustica y perfectamente adaptada al medio en que se
desenvuelve. Es capaz de aprovechar terrenos de serran´ıa de dif´ıcil acceso
y poco aprovechables por otro tipo de ganado, soportando bien el clima
fr´ıo y lluvioso que caracteriza su zona de explotaci´on
B. Gonz´alez & V. L´opez & J. Cordero Detecci´on de Datos At´ıpicos mediante las Caras de Chernoff
10. ¿Qui´enes somos?
¿Qu´e hacemos?
Resultados y Conclusiones
Bibliograf´ıa
Abstract
Cabras de la Sierra de Guadarrama
Detecci´on de Datos At´ıpicos mediante las Caras de Chernoff
Modificaci´on de las Caras de Chernoff
Base de Datos Cabras (librer´ıa BioSeq 1.0)
531 cabras 21 variables
Sexo =
Hembras 90 %
Machos 10 %
Edad =
Andoscas de 2 a 3 a˜nos
Trasandoscas de 3 a 4 a˜nos
Cerradas m´as de 4 a˜nos
4 Alturas (cm) 3 Di´ametros (cm)
4 Longitudes (cm) 4 Anchuras (cm)
3 Per´ımetros (cm) Peso (kg)
Datos: Jes´us de la Fuente V´azquez (1997)
Departamento de Producci´on Animal
Facultad de Veterinaria UCM
Interpretaci´on: Beatriz Madrid Navarro (2013)
No
de colegiada 4177
Colegio de Veterinarios de Madrid
B. Gonz´alez & V. L´opez & J. Cordero Detecci´on de Datos At´ıpicos mediante las Caras de Chernoff
11. ¿Qui´enes somos?
¿Qu´e hacemos?
Resultados y Conclusiones
Bibliograf´ıa
Abstract
Cabras de la Sierra de Guadarrama
Detecci´on de Datos At´ıpicos mediante las Caras de Chernoff
Modificaci´on de las Caras de Chernoff
Box Plot
B. Gonz´alez & V. L´opez & J. Cordero Detecci´on de Datos At´ıpicos mediante las Caras de Chernoff
12. ¿Qui´enes somos?
¿Qu´e hacemos?
Resultados y Conclusiones
Bibliograf´ıa
Abstract
Cabras de la Sierra de Guadarrama
Detecci´on de Datos At´ıpicos mediante las Caras de Chernoff
Modificaci´on de las Caras de Chernoff
Box Plot m´ultiple data=Cabras (19 variables)
B. Gonz´alez & V. L´opez & J. Cordero Detecci´on de Datos At´ıpicos mediante las Caras de Chernoff
13. ¿Qui´enes somos?
¿Qu´e hacemos?
Resultados y Conclusiones
Bibliograf´ıa
Abstract
Cabras de la Sierra de Guadarrama
Detecci´on de Datos At´ıpicos mediante las Caras de Chernoff
Modificaci´on de las Caras de Chernoff
Box Plot m´ultiple hembras trasandoscas (19 variables)
B. Gonz´alez & V. L´opez & J. Cordero Detecci´on de Datos At´ıpicos mediante las Caras de Chernoff
14. ¿Qui´enes somos?
¿Qu´e hacemos?
Resultados y Conclusiones
Bibliograf´ıa
Abstract
Cabras de la Sierra de Guadarrama
Detecci´on de Datos At´ıpicos mediante las Caras de Chernoff
Modificaci´on de las Caras de Chernoff
Caras de Chernoff para visualizar datos multivariados en la
forma de un rostro humano
B. Gonz´alez & V. L´opez & J. Cordero Detecci´on de Datos At´ıpicos mediante las Caras de Chernoff
15. ¿Qui´enes somos?
¿Qu´e hacemos?
Resultados y Conclusiones
Bibliograf´ıa
Abstract
Cabras de la Sierra de Guadarrama
Detecci´on de Datos At´ıpicos mediante las Caras de Chernoff
Modificaci´on de las Caras de Chernoff
El orden importa...
No
Variable ¿Qu´e representa en R? Base de Datos
1 Anchura del centro Altura.cruz
2 Superior Vs inferior, altura de la separaci´on Altura.dorso
3 Altura de la cara Altura.grupa
4 Ancho de la mitad superior de la cara Altura.hueco
5 Ancho de la mitad inferior de la cara Di´ametro.longitudinal
6 Largo de la nariz Di´ametro.dorso
7 Altura de la boca Di´ametro.bicostal
8 Curvatura de la boca (abs < 9) Longitud.cabeza
9 Ancho de la boca Ancho.cabeza
10 Altura de los ojos Ancho.anterior.grupa
11 Distancia entre los ojos (.5-.9) Ancho.posterior.grupa
12 ´Angulo de ojos y cejas Longitud.grupa
13 Elipse de los ojos Ancho.ca˜na
14 Tama˜no de los ojos Longitud.cuerno
15 Posici´on izquierda/derecha de los ojos Longitud.oreja
16 Altura de las cejas Per´ımetro.tor´acico
17 ´Angulo de las cejas Perimetro.ca˜na
18 Ancho de las cejas Per´ımetro.corvej´on
B. Gonz´alez & V. L´opez & J. Cordero Detecci´on de Datos At´ıpicos mediante las Caras de Chernoff
16. ¿Qui´enes somos?
¿Qu´e hacemos?
Resultados y Conclusiones
Bibliograf´ıa
Abstract
Cabras de la Sierra de Guadarrama
Detecci´on de Datos At´ıpicos mediante las Caras de Chernoff
Modificaci´on de las Caras de Chernoff
Caras de Chernoff data=Cabras (18 variables, length=346 sin NAs)
B. Gonz´alez & V. L´opez & J. Cordero Detecci´on de Datos At´ıpicos mediante las Caras de Chernoff
17. ¿Qui´enes somos?
¿Qu´e hacemos?
Resultados y Conclusiones
Bibliograf´ıa
Abstract
Cabras de la Sierra de Guadarrama
Detecci´on de Datos At´ıpicos mediante las Caras de Chernoff
Modificaci´on de las Caras de Chernoff
Caras de Chernoff de las hembras trasandoscas (18 variables, length=54 sin NAs)
B. Gonz´alez & V. L´opez & J. Cordero Detecci´on de Datos At´ıpicos mediante las Caras de Chernoff
18. ¿Qui´enes somos?
¿Qu´e hacemos?
Resultados y Conclusiones
Bibliograf´ıa
Abstract
Cabras de la Sierra de Guadarrama
Detecci´on de Datos At´ıpicos mediante las Caras de Chernoff
Modificaci´on de las Caras de Chernoff
Uso de las formas en la detecci´on de outliers
B´usqueda de tama˜nos poco corrientes
Grande → outlier superior
Peque˜no → outlier inferior
Problem´atica: p.e. las cabras adultas peque˜nas no se apreciar´ıan como
outliers por camuflarse entre las cabras de menor edad
Para las pruebas → conjunto peque˜no → reba˜nos por edad y sexo
Sexo | Edad A T C total
H 43 85 352 480
M 16 15 20 51
total 59 100 372 531
B. Gonz´alez & V. L´opez & J. Cordero Detecci´on de Datos At´ıpicos mediante las Caras de Chernoff
19. ¿Qui´enes somos?
¿Qu´e hacemos?
Resultados y Conclusiones
Bibliograf´ıa
Abstract
Cabras de la Sierra de Guadarrama
Detecci´on de Datos At´ıpicos mediante las Caras de Chernoff
Modificaci´on de las Caras de Chernoff
Ejemplo 1. Per´ımetro tor´acico de los machos trasandoscos
Outlier inferior [523] → b´usqueda de cara estrecha
B. Gonz´alez & V. L´opez & J. Cordero Detecci´on de Datos At´ıpicos mediante las Caras de Chernoff
20. ¿Qui´enes somos?
¿Qu´e hacemos?
Resultados y Conclusiones
Bibliograf´ıa
Abstract
Cabras de la Sierra de Guadarrama
Detecci´on de Datos At´ıpicos mediante las Caras de Chernoff
Modificaci´on de las Caras de Chernoff
Ejemplo 2. Per´ımetro tor´acico de las hembras andoscas
Outlier inferior [478] → b´usqueda de cara estrecha
Outliers superiores [453, 455] → b´usqueda de cara ancha
B. Gonz´alez & V. L´opez & J. Cordero Detecci´on de Datos At´ıpicos mediante las Caras de Chernoff
21. ¿Qui´enes somos?
¿Qu´e hacemos?
Resultados y Conclusiones
Bibliograf´ıa
Abstract
Cabras de la Sierra de Guadarrama
Detecci´on de Datos At´ıpicos mediante las Caras de Chernoff
Modificaci´on de las Caras de Chernoff
Ejemplo 3a. Box Plot de las hembras trasandoscas
10 variables
B. Gonz´alez & V. L´opez & J. Cordero Detecci´on de Datos At´ıpicos mediante las Caras de Chernoff
22. ¿Qui´enes somos?
¿Qu´e hacemos?
Resultados y Conclusiones
Bibliograf´ıa
Abstract
Cabras de la Sierra de Guadarrama
Detecci´on de Datos At´ıpicos mediante las Caras de Chernoff
Modificaci´on de las Caras de Chernoff
Ejemplo 3b. Caras de Chernoff de las hembras trasandoscas
10 variables
B. Gonz´alez & V. L´opez & J. Cordero Detecci´on de Datos At´ıpicos mediante las Caras de Chernoff
23. ¿Qui´enes somos?
¿Qu´e hacemos?
Resultados y Conclusiones
Bibliograf´ıa
Abstract
Cabras de la Sierra de Guadarrama
Detecci´on de Datos At´ıpicos mediante las Caras de Chernoff
Modificaci´on de las Caras de Chernoff
Ejemplo 3c. Resultados obtenidos al observar las Caras de
Chernoff de las hembras trasandoscas (10 variables)
Prueba visual para la detecci´on de outliers realizada por el experto
Variable Outliers reales Outiliers localizados % reales acertados % localizados fallados
Altura 368i 368i 381i 100 % 75 %
separaci´on 432i 399s
Ancho 409i 424i 381s 0 % 100 %
mitad superior
Ancho 425i 354s 410s 0 % 100 %
mitad inferior 412s 415s
Largo 434i 436i 379i 436i 66.66 % 33.33 %
nariz 393s 393s
Altura 409s 386i 408i 410i 0 % 100 %
boca 412i 415i 434s
Curvatura 359i 435i 386s 408s 410s 0 % 100 %
boca 412s 415s 428i
Ancho 386s 412s 361s 410s 412s 33.33 % 83.33 %
boca 408s 385i 388i 379i
Altura ojos 364i 434i 382s 0 % 100 %
Total 15 31 26.66 % (4/15) 87.09 % (27/31)
B. Gonz´alez & V. L´opez & J. Cordero Detecci´on de Datos At´ıpicos mediante las Caras de Chernoff
24. ¿Qui´enes somos?
¿Qu´e hacemos?
Resultados y Conclusiones
Bibliograf´ıa
Abstract
Cabras de la Sierra de Guadarrama
Detecci´on de Datos At´ıpicos mediante las Caras de Chernoff
Modificaci´on de las Caras de Chernoff
Categorizaci´on de las Variables en las Caras de Chernoff
B. Gonz´alez & V. L´opez & J. Cordero Detecci´on de Datos At´ıpicos mediante las Caras de Chernoff
25. ¿Qui´enes somos?
¿Qu´e hacemos?
Resultados y Conclusiones
Bibliograf´ıa
Abstract
Cabras de la Sierra de Guadarrama
Detecci´on de Datos At´ıpicos mediante las Caras de Chernoff
Modificaci´on de las Caras de Chernoff
Introducci´on de un C´odigo de 31 Colores en la funci´on
faces2 del package TeachingDemos de R
B. Gonz´alez & V. L´opez & J. Cordero Detecci´on de Datos At´ıpicos mediante las Caras de Chernoff
26. ¿Qui´enes somos?
¿Qu´e hacemos?
Resultados y Conclusiones
Bibliograf´ıa
Abstract
Cabras de la Sierra de Guadarrama
Detecci´on de Datos At´ıpicos mediante las Caras de Chernoff
Modificaci´on de las Caras de Chernoff
Ejemplo 3d. Caras de Chernoff modificadas de las hembras
trasandoscas (10 variables)
B. Gonz´alez & V. L´opez & J. Cordero Detecci´on de Datos At´ıpicos mediante las Caras de Chernoff
27. ¿Qui´enes somos?
¿Qu´e hacemos?
Resultados y Conclusiones
Bibliograf´ıa
Abstract
Cabras de la Sierra de Guadarrama
Detecci´on de Datos At´ıpicos mediante las Caras de Chernoff
Modificaci´on de las Caras de Chernoff
Ejemplo 3e. Resultados obtenidos al observar las Caras de
Chernoff modificadas de las hembras trasandoscas
Prueba visual para la detecci´on de outliers realizada sobre 30 personas no
expertas de diversas edades entre 24 y 60 a˜nos
Individuo (Var) Categorizaci´on Color Localizado Correcta Interpretaci´on
359 (8) Boca Magenta 30 26
364 (10) Ojos Cyan 30 12
368 (2) Contorno Cabeza Magenta 30 30
386 (9) Boca Azul 26 18
393 (6) Nariz Cyan 30 29
408 (9) Boca Azul 24 13
409 (4) Contorno Superior Violeta 24 17
409 (7) Boca Cyan 30 21
412 (9) Boca Azul 30 27
424 (4) Contorno Superior Violeta 30 30
425 (5) Contorno Inferior Violeta 30 30
434 (6) Nariz Cyan 13 10
434 (10) Ojos Cyan 30 13
435 (8) Boca Magenta 30 30
436 (6) Nariz Cyan 24 21
Porcentaje 91.33 % 79.02 %
B. Gonz´alez & V. L´opez & J. Cordero Detecci´on de Datos At´ıpicos mediante las Caras de Chernoff
28. ¿Qui´enes somos?
¿Qu´e hacemos?
Resultados y Conclusiones
Bibliograf´ıa
http://www.r-project.org/
http://www.bioconductor.org/
Chernof, H.: The use of faces to represent points in k-dimensional space graphically. Journal of the American
Statistical Association, 68 (342), 361–368 (1973)
Garc´ıa Lara, I., Ferre˜no, V., Fern´andez Calvi˜no, E., Vidal Galego, L., Lara, G., and de Jes´us, M. T.: Ecuaciones de
predicci´on del peso vivo de hembras holstein. Frisona espa˜nola, 29 (171), 90–95 (2009)
http://cran.r-project.org/web/packages/TeachingDemos/index.html
Cordero, J., L´opez, V. and Gonz´alez, B.: Bases de datos en R. An´alisis Gr´afico y estad´ıstico de valores at´ıpicos y
ausentes. Biblioteca UCM (septiembre, 2013) http://eprints.ucm.es/23435
Mart´ınez, J., L´opez, V. and Gonz´alez, B.: BioSeq: una librer´ıa para Bioinform´atica en R. Biblioteca UCM (junio,
2013) http://eprints.ucm.es/22633
Sampedro, J., Gonz´alez, B. and L´opez, V.: Aplicaciones de Bioestad´ıstica y Bioinform´atica con R (septiembre, 2012)
Gonz´alez, B., L´opez, V. and Sampedro, J.: Programaci´on Lineal y Programaci´on Din´amica con R. IV Jornadas de
Usuarios de R (2012) http://r-es.org/IV+Jornadas
Gonz´alez, B, L´opez, V. and Sampedro, J.: Programming Global and Local Sequence Alignment by Using R. Actas
ISKE2012: Knowledge Engineering and Management Advances in Intelligent Systems and Computing (Springer),
214, 341–352 (2014) http://link.springer.com/chapter/10.1007%2F978-3-642-37832-4_31
Cordero, J., Mart´ınez, J., S´anchez, O., L´opez, V. and Gonz´alez, B.: BioSeq: una librer´ıa R para el an´alisis de secuen-
cias de datos. Actas CAEPIA2013, 943–952 (2013) http://www.congresocedi.es/images/site/actas/
ActasCAEPIA.pdf
B. Gonz´alez & V. L´opez & J. Cordero Detecci´on de Datos At´ıpicos mediante las Caras de Chernoff