SlideShare une entreprise Scribd logo
1  sur  80
Télécharger pour lire hors ligne
High Dimensional Data
Harvard Extension School
CSCI E-109 - Data Science, Lecture 8
Regis Pires Magalhães
regismagalhaes@ufc.br
Apresentação baseada na aula 8 de:
• Harvard Extension School
CSCI E-109 - Data Science
High Dimensional Data
http://www.cs109.org/
http://cm.dce.harvard.edu/2014/01/14328/publicationListin
g.shtml
Taxonomia
• Baseada no número de atributos
▫ 1 - univariate
▫ 2 - bivariate
▫ 3 - trivariate
▫ >3 – multi-variate ou high-dimensional
Multivariate plots
Multivariate plots
spawning per recruit (SPR)
yield per recruit (YPR)
Fisheries production (YPR)
Stock reproduction (SPR)
Scatterplot Matrix (SPLOM)
4 dimensões comparadas entre si.
Permite visualizar padrões: correlações (positivas, negativas).
ozone
ozone
radiation
radiation
temperature
temperature
wind
wind
SPLOM
Scatterplot Matrix (SPLOM)
Facilita a visualização
de correlações entre as
variáveis.
Geralmente não usar (3D)
Usar eventualmente – 3D Surface Plots
Lattice / Trellis Plots
Variáveis plotadas no mesmo quadro de coordenadas.
Lattice / Trellis Plots
Variáveis plotadas no mesmo quadro de coordenadas.
Lattice / Trellis Plots
Lattice / Trellis Plots
Small Multiples
Small multiples
Small multiples
Enroute
Heatmap
Heatmap
Hierarchical Heatmap
Coordenadas paralelas
“Hyperdimensional Data Analysis Using Parallel
Coordinates”, Wegman, 1990
Based on slide from Munzner
Parallel Coordinates
Correlação
“Hyperdimensional Data Analysis Using Parallel
Coordinates”, Wegman, 1990
Based on slide from Munzner
Filtragem
Filtering & Brushing
http://exposedata.com/parallel/
Conjuntos paralelos
StratomeX – Parallel Set
Bump Charts /Slope Graphs
Times de baseball
http://fathom.info/salaryper/
Glifos
• Glifo em tipografia, é uma figura que dá um tipo de
característica particular a um símbolo específico.
• Glifos vem da palavra grega que significa inscrição.
• Em termos de visualização de dados:
▫ Formas que codificam linhas de dados.
Gráficos estrela
• Variáveis ao redor de um
círculo.
• Codificação de valores em
“raios”
• Ponto de dado é agora
uma forma.
Gráfico em barra:
Mais eficiente e dá mais informação.
Redução de dimensionalidade
• Bem básico: filtragem
▫ Deixar de lado algumas dimensões.
O que fazer com dados de muito alta
dimensionalidade?
Aumento da dimensionalidade
• Quando a dimensionalidade aumenta, o volume do
espaço aumenta, de modo que os dados disponíveis
se tornam esparsos.
• O tamanho da amostra N cresce exponencialmente
com d.
Ideia básica
• Projetar o dado de alta dimensionalidade em um
subespaço de menor dimensão, usando
transformações lineares ou não-lineares.
Métodos lineares
• Colocar os dados em um hiperplano para reduzir
sua dimensionalidade.
• Aproximação para uma menor dimensão.
Principal Components Analysis (PCA)
Exemplo
a(i): Projeção de x(i) em v
v: escolhido para minimizar a
variância residual.
Encontrar v que mais se
aproxima da reconstrução de x.
Equivalente: v é a direção de
máxima variância.
PCA
• Projetar dados para um subespaço para maximizar a
variância dos dados projetados.
Vetores de PC são
ortogonais
Regressão Linear x PCA
http://stats.stackexchange.com/questions/2691/making-sense-of-principal-component-analysis-eigenvectors-eigenvalues
Algoritmo PCA
• Subtrair a média dos dados (centralizar X)
• Escalar cada dimensão por sua variância
▫ Para ajudar a dar menos atenção à magnitude das
dimensões.
• Calcular a matriz de covariância S.
• Calcular os k maiores autovetores de S
▫ Calculando a matriz de covariância S pode levar a
perda de precisão.
▫ Assim, não é a melhor forma de calcular
componentes principais.
Singular Value Decomposition (SVD)
Funciona para qualquer matriz.
Redução de dimensionalidade
Redução de dimensionalidade
Hastie et al.,”The Elements of Statistical Learning: Data Mining, Inference, and Prediction”,Springer (2009)
PCA para dígitos manuscritos
Hastie et al.,”The Elements of Statistical Learning: Data Mining, Inference, and Prediction”,Springer (2009)
PCA para dígitos manuscritos
PCA para imagens de faces
PCA para imagens de faces
64x64 imagens de faces = 4096 dados dimensionais
Autofaces
• Podemos reconstruir cada face como uma combinação linear
“faces” base ou autofaces [M. Turk and A. Pentland (1991)].
Face média
Autofaces
Reconstrução
• 90% da variância é capturada pelos primeiros 50
autovetores.
Documentos de texto
• Mais de 45 características projetadas em 2
dimensões PC.
http://en.wikibooks.org/wiki/Data_Mining_Algorithms_In_R/Dimensionality_Reduction/Principal_Component_Analysis
Funções de distribuição de refletividadade
bi-direcionais
• Bi-Directional Reflectance Distribution Functions (BRDFs)
• Funções que dizem quanta luz é refletida em cada direção.
BRDFs orientados a dados
• Medir luz refletida em uma esfera.
• 20-80 milhões de medidas (6000 imagens) por
material (cerca de 200 materiais).
BRDFs orientados a dados
• Cada BRDF tabulado é um vetor em um espaço
dimensional 90 x 90 x 180x3 =4,374,000
• 200 materiais
PCA
Interpolação PCA
Interpolação PCA com resultado estranho
Por que modelos lineares falham?
Por que modelos lineares falham?
• Exemplo clássico: “Torta suíça”
Métodos não-lineares múltiplos
Métodos não-lineares múltiplos
• Intuição: distorção em áreas locais, mas fiel em
relação à estrutura global.
Modelo BRDF Não-Linear
• Espaço 15-dimensional (ao invés de 45 PCs)
• Mais robusto (permite extrapolações)
Redução de dimensionalidade
• Métodos lineares
▫ Principal Component Analysis (PCA) – Hotelling
▫ Singular Value Decomposition (SVD) –
Eckart/Young
▫ Multidimensional Scaling (MDS) – Young
• Métodos não-lineares
▫ IsoMap – Tenenbaum
▫ Locally Linear Embeddings (LLE) – Roweis
Escalonamento Multidimensional
• Multidimensional Scaling (MDS)
• Objetivo diferente:
▫ Encontrar um conjunto de pontos cujas distâncias
entre pares correspondem a uma dada matriz de
distância.
MDS Clássico x PCA
• MDS
▫ Dada uma matriz n x n de distância de pares entre
pontos.
 Calcular a matrix X n x k de coordenadas de pontos a
partir de D com uso de álgebra linear.
 Resumindo: transformar distâncias em coordenadas.
 Não trivial, mas possível através de métodos lineares.
▫ MSD clássico tem desempenho melhor que PCA
nessa matrix X.
▫ Essencialmente os mesmos resultados, mas a
partir de diferentes entradas.
Imagens coloridas
Amigos no Facebook
IN-SPIRE, PNNL
Classificação de
documentos.
MSD em
documentos.
Regis Pires Magalhães
regismagalhaes@ufc.br
Obrigado!
Dúvidas, comentários, sugestões?

Contenu connexe

Similaire à High Dim Data Visual

[José Ahirton Lopes] Support Vector Machines
[José Ahirton Lopes] Support Vector Machines[José Ahirton Lopes] Support Vector Machines
[José Ahirton Lopes] Support Vector MachinesAhirton Lopes
 
Análise Espacial Baseada em Localização
Análise Espacial Baseada em LocalizaçãoAnálise Espacial Baseada em Localização
Análise Espacial Baseada em LocalizaçãoVitor Vieira Vasconcelos
 
Scaling bayesian network parameter learning with Hadoop
Scaling bayesian network parameter learning with HadoopScaling bayesian network parameter learning with Hadoop
Scaling bayesian network parameter learning with HadoopJoão Gabriel Lima
 
Introdução aos sistemas distribuídos on-line para processamento de fluxos de ...
Introdução aos sistemas distribuídos on-line para processamento de fluxos de ...Introdução aos sistemas distribuídos on-line para processamento de fluxos de ...
Introdução aos sistemas distribuídos on-line para processamento de fluxos de ...André Leon S. Gradvohl
 
Vizualização de dados Gráficos e Dashboards Aula 2.pdf
Vizualização de dados Gráficos e Dashboards Aula 2.pdfVizualização de dados Gráficos e Dashboards Aula 2.pdf
Vizualização de dados Gráficos e Dashboards Aula 2.pdfCelso Paquete Cellso
 
Map reduce novas abordagens para o processo de datamining em grandes volumn...
Map reduce   novas abordagens para o processo de datamining em grandes volumn...Map reduce   novas abordagens para o processo de datamining em grandes volumn...
Map reduce novas abordagens para o processo de datamining em grandes volumn...João Gabriel Lima
 
Funções estatísticas (referência) - Suporte da Microsoft.pdf
Funções estatísticas (referência) - Suporte da Microsoft.pdfFunções estatísticas (referência) - Suporte da Microsoft.pdf
Funções estatísticas (referência) - Suporte da Microsoft.pdfSandraM2013
 
[TDC2016] Apache SparkMLlib: Machine Learning na Prática
[TDC2016] Apache SparkMLlib:  Machine Learning na Prática[TDC2016] Apache SparkMLlib:  Machine Learning na Prática
[TDC2016] Apache SparkMLlib: Machine Learning na PráticaEiti Kimura
 
Aprendizado de Máquina Supervisionado na Predição de Links em Redes Complexas...
Aprendizado de Máquina Supervisionado na Predição de Links em Redes Complexas...Aprendizado de Máquina Supervisionado na Predição de Links em Redes Complexas...
Aprendizado de Máquina Supervisionado na Predição de Links em Redes Complexas...Orlando Junior
 
MSA_Teoria_Implantacao_ProFicient.pdf
MSA_Teoria_Implantacao_ProFicient.pdfMSA_Teoria_Implantacao_ProFicient.pdf
MSA_Teoria_Implantacao_ProFicient.pdfDoutorgestoJaqueline
 
Gabriel estatistica - aula 2
Gabriel   estatistica - aula 2Gabriel   estatistica - aula 2
Gabriel estatistica - aula 2bioinformatica
 

Similaire à High Dim Data Visual (20)

[José Ahirton Lopes] Support Vector Machines
[José Ahirton Lopes] Support Vector Machines[José Ahirton Lopes] Support Vector Machines
[José Ahirton Lopes] Support Vector Machines
 
Análise exploratória de dados no SPSS
Análise exploratória de dados no SPSSAnálise exploratória de dados no SPSS
Análise exploratória de dados no SPSS
 
H.264 / MPEG-4 AVC
H.264 / MPEG-4 AVCH.264 / MPEG-4 AVC
H.264 / MPEG-4 AVC
 
Big data
Big dataBig data
Big data
 
Análise Espacial Baseada em Localização
Análise Espacial Baseada em LocalizaçãoAnálise Espacial Baseada em Localização
Análise Espacial Baseada em Localização
 
Scaling bayesian network parameter learning with Hadoop
Scaling bayesian network parameter learning with HadoopScaling bayesian network parameter learning with Hadoop
Scaling bayesian network parameter learning with Hadoop
 
Introdução aos sistemas distribuídos on-line para processamento de fluxos de ...
Introdução aos sistemas distribuídos on-line para processamento de fluxos de ...Introdução aos sistemas distribuídos on-line para processamento de fluxos de ...
Introdução aos sistemas distribuídos on-line para processamento de fluxos de ...
 
IMRT, sua Implementação no CAT3D
IMRT,  sua Implementação no CAT3DIMRT,  sua Implementação no CAT3D
IMRT, sua Implementação no CAT3D
 
PO - aula 1.pptx
PO - aula 1.pptxPO - aula 1.pptx
PO - aula 1.pptx
 
Vizualização de dados Gráficos e Dashboards Aula 2.pdf
Vizualização de dados Gráficos e Dashboards Aula 2.pdfVizualização de dados Gráficos e Dashboards Aula 2.pdf
Vizualização de dados Gráficos e Dashboards Aula 2.pdf
 
Estatística - Aula 2
Estatística - Aula 2Estatística - Aula 2
Estatística - Aula 2
 
Map reduce novas abordagens para o processo de datamining em grandes volumn...
Map reduce   novas abordagens para o processo de datamining em grandes volumn...Map reduce   novas abordagens para o processo de datamining em grandes volumn...
Map reduce novas abordagens para o processo de datamining em grandes volumn...
 
Funções estatísticas (referência) - Suporte da Microsoft.pdf
Funções estatísticas (referência) - Suporte da Microsoft.pdfFunções estatísticas (referência) - Suporte da Microsoft.pdf
Funções estatísticas (referência) - Suporte da Microsoft.pdf
 
[TDC2016] Apache SparkMLlib: Machine Learning na Prática
[TDC2016] Apache SparkMLlib:  Machine Learning na Prática[TDC2016] Apache SparkMLlib:  Machine Learning na Prática
[TDC2016] Apache SparkMLlib: Machine Learning na Prática
 
Aula 06
Aula 06Aula 06
Aula 06
 
Aprendizado de Máquina Supervisionado na Predição de Links em Redes Complexas...
Aprendizado de Máquina Supervisionado na Predição de Links em Redes Complexas...Aprendizado de Máquina Supervisionado na Predição de Links em Redes Complexas...
Aprendizado de Máquina Supervisionado na Predição de Links em Redes Complexas...
 
BANCO DE DADOS.pptx
BANCO DE DADOS.pptxBANCO DE DADOS.pptx
BANCO DE DADOS.pptx
 
Programa de Equalização em Estatística - 2014 A
Programa de Equalização em Estatística - 2014 APrograma de Equalização em Estatística - 2014 A
Programa de Equalização em Estatística - 2014 A
 
MSA_Teoria_Implantacao_ProFicient.pdf
MSA_Teoria_Implantacao_ProFicient.pdfMSA_Teoria_Implantacao_ProFicient.pdf
MSA_Teoria_Implantacao_ProFicient.pdf
 
Gabriel estatistica - aula 2
Gabriel   estatistica - aula 2Gabriel   estatistica - aula 2
Gabriel estatistica - aula 2
 

Plus de Regis Magalhães

Prog web 01-php-introducao
Prog web 01-php-introducaoProg web 01-php-introducao
Prog web 01-php-introducaoRegis Magalhães
 
Prog web 02-php-primeiros-passos
Prog web 02-php-primeiros-passosProg web 02-php-primeiros-passos
Prog web 02-php-primeiros-passosRegis Magalhães
 
Prog web 00-modelo-cliente_servidor_web
Prog web 00-modelo-cliente_servidor_webProg web 00-modelo-cliente_servidor_web
Prog web 00-modelo-cliente_servidor_webRegis Magalhães
 
Prog web 03-php-sessoes-cookies_cabecalhos
Prog web 03-php-sessoes-cookies_cabecalhosProg web 03-php-sessoes-cookies_cabecalhos
Prog web 03-php-sessoes-cookies_cabecalhosRegis Magalhães
 
Prog web 03-php-sessoes-cookies_cabecalhos
Prog web 03-php-sessoes-cookies_cabecalhosProg web 03-php-sessoes-cookies_cabecalhos
Prog web 03-php-sessoes-cookies_cabecalhosRegis Magalhães
 
Prog web 02-php-primeiros-passos
Prog web 02-php-primeiros-passosProg web 02-php-primeiros-passos
Prog web 02-php-primeiros-passosRegis Magalhães
 
Prog web 02-php-primeiros-passos
Prog web 02-php-primeiros-passosProg web 02-php-primeiros-passos
Prog web 02-php-primeiros-passosRegis Magalhães
 
Prog web 00-modelo-cliente_servidor_web
Prog web 00-modelo-cliente_servidor_webProg web 00-modelo-cliente_servidor_web
Prog web 00-modelo-cliente_servidor_webRegis Magalhães
 
Prog web 01-php-introducao
Prog web 01-php-introducaoProg web 01-php-introducao
Prog web 01-php-introducaoRegis Magalhães
 
Linked Data Tutorial - Conferencia W3C Brasil 2011
Linked Data Tutorial - Conferencia W3C Brasil 2011Linked Data Tutorial - Conferencia W3C Brasil 2011
Linked Data Tutorial - Conferencia W3C Brasil 2011Regis Magalhães
 
Linked Data - Minicurso - SBBD 2011
Linked Data - Minicurso - SBBD 2011Linked Data - Minicurso - SBBD 2011
Linked Data - Minicurso - SBBD 2011Regis Magalhães
 

Plus de Regis Magalhães (20)

Web Scale Data Management
Web Scale Data ManagementWeb Scale Data Management
Web Scale Data Management
 
PHP 10 CodeIgniter
PHP 10 CodeIgniterPHP 10 CodeIgniter
PHP 10 CodeIgniter
 
Prog web 01-php-introducao
Prog web 01-php-introducaoProg web 01-php-introducao
Prog web 01-php-introducao
 
Prog web 02-php-primeiros-passos
Prog web 02-php-primeiros-passosProg web 02-php-primeiros-passos
Prog web 02-php-primeiros-passos
 
Prog web 00-modelo-cliente_servidor_web
Prog web 00-modelo-cliente_servidor_webProg web 00-modelo-cliente_servidor_web
Prog web 00-modelo-cliente_servidor_web
 
Prog web 09-php-crud-mvc
Prog web 09-php-crud-mvcProg web 09-php-crud-mvc
Prog web 09-php-crud-mvc
 
Prog web 08-php-mvc
Prog web 08-php-mvcProg web 08-php-mvc
Prog web 08-php-mvc
 
Prog web 07-pdo
Prog web 07-pdoProg web 07-pdo
Prog web 07-pdo
 
Prog web 06-php-oo
Prog web 06-php-ooProg web 06-php-oo
Prog web 06-php-oo
 
Prog web 05-php-mysql
Prog web 05-php-mysqlProg web 05-php-mysql
Prog web 05-php-mysql
 
Prog web 04-php-gd
Prog web 04-php-gdProg web 04-php-gd
Prog web 04-php-gd
 
Prog web 03-php-sessoes-cookies_cabecalhos
Prog web 03-php-sessoes-cookies_cabecalhosProg web 03-php-sessoes-cookies_cabecalhos
Prog web 03-php-sessoes-cookies_cabecalhos
 
Prog web 03-php-sessoes-cookies_cabecalhos
Prog web 03-php-sessoes-cookies_cabecalhosProg web 03-php-sessoes-cookies_cabecalhos
Prog web 03-php-sessoes-cookies_cabecalhos
 
Prog web 02-php-primeiros-passos
Prog web 02-php-primeiros-passosProg web 02-php-primeiros-passos
Prog web 02-php-primeiros-passos
 
Prog web 02-php-primeiros-passos
Prog web 02-php-primeiros-passosProg web 02-php-primeiros-passos
Prog web 02-php-primeiros-passos
 
Prog web 00-modelo-cliente_servidor_web
Prog web 00-modelo-cliente_servidor_webProg web 00-modelo-cliente_servidor_web
Prog web 00-modelo-cliente_servidor_web
 
Prog web 01-php-introducao
Prog web 01-php-introducaoProg web 01-php-introducao
Prog web 01-php-introducao
 
Linked Data Tutorial - Conferencia W3C Brasil 2011
Linked Data Tutorial - Conferencia W3C Brasil 2011Linked Data Tutorial - Conferencia W3C Brasil 2011
Linked Data Tutorial - Conferencia W3C Brasil 2011
 
Linked Data - Minicurso - SBBD 2011
Linked Data - Minicurso - SBBD 2011Linked Data - Minicurso - SBBD 2011
Linked Data - Minicurso - SBBD 2011
 
Curso Ruby
Curso RubyCurso Ruby
Curso Ruby
 

High Dim Data Visual