SlideShare une entreprise Scribd logo
1  sur  7
Análise Discriminante: Avaliação do Desempenho da Taxa de Erro Utilizando uma
Nova Proposta a Partir do Método de Peter A. Lachenbruch e M. Ray Michey
Altemir da Silva Braga1
; Daniel F. Ferreira2
; Patrícia de Siqueira Ramos3
1. INTRODUÇÃO
A análise de discriminante é uma técnica da análise estatística multivariada e a sua
idéia consiste em classificar um indivíduo ou um grupo de indivíduos com várias
características em diferentes populações conhecidas ou não.
Existem vários métodos usados para estimar a probabilidade de classificação incorreta
de uma observação amostral, dentre eles destacam-se: método da re-substituição, método da
re-substituição com divisão amostral, método pseudo-jackknife, método das probabilidades de
classificação incorretas estimadas, método dois de Lachenbruch e Mickey (1968), conforme
Ferreira (2008).
Neste estudo estaremos avaliando o desempenho destes métodos, para duas
populações normais com variâncias comuns, pelas taxas de erros. Para Lachenbruch e Mickey
(1968) os métodos da re-substituição, método da re-substituição com divisão amostral,
método pseudo-jackknife, método das probabilidades de classificação incorretas estimadas
possuem piores desempenhos que os demais, Giri (2004).
A problemática deste estudo está no livro Giri (2004), onde ele sugere que no método
de Lachenbruch e Mickey (1968), seja considerada uma variância combinada nas funções que
estimam as probabilidades de classificação incorretas e nas taxas de erro aparente, visto que,
essa suposição é feita para as populações. Outro aspecto que será levado em conta é o custo
por cada classificação incorreta e as probabilidades a priori de cada população diferentes.
Assim o nosso objetivo é avaliar este método, substituindo na função que estima a
probabilidade de classificação incorreta e na função que estima a taxa de erro aparente o
desvio padrão amostral por um estimador comum e acrescentar na equação discriminante uma
função - Ψ ( 0Ψ ≠ ) que contemple a probabilidade a priori de se classificar em uma de duas
populações normais e os custos por cada classificação incorreta. E através de simulações
Monte Carlo será verificado se o método com as modificações é mais eficiente do que os
1
Mestrando do curso de Pós-Graduação em Estatística e Experimentação Agropecuária do DEX/UFLA.
2. Professor do Departamento de Ciências Exatas da Universidade Federal de Lavras.
3. Doutoranda do curso de Pós-Graduação em Estatística e Experimentação Agropecuária do DEX/UFLA
2
3
demais, já que, nunca foi avaliado um método que contabilizasse os custos de classificações
incorretas e as probabilidades a priori diferentes.
1.1. Classificação em Uma de Duas Populações Normais
Supondo que x seja uma realização de uma variável p-dimensional X com distribuição
normal multivariada, a qual se quer classificar em uma duas populações 1( )f x e 2 ( )f x ,
sendo:
{ }
1
122
1
( ) (2 ) exp ( ) ( ) (2.1.1)
2
p
T
i i if x x xπ µ µ
− −
−
= ∑ − − ∑ −
Para 1,2i = , em que iµ é o vetor de médias da i=ésima população e Σ é a matriz de
covariâncias positiva definida comum às duas populações.
De acordo com a regra do mínimo de ECI deve-se classificar x em 1π se
1 2
2 1
( ) (1| 2)
(2.1.2)
( ) (2 |1)
f x PC
f x C P
  
≥  ÷ 
  
e em 2π caso contrário. Assim classifica-se x em 1π se:
1 1 2
1 2 1 2 1 2
1
1 (1| 2)
( ) ( ) ( ) ln (2.1.3)
2 (2 |1)
T PC
x
C P
µ µ µ µ µ µ− −
    
− ∑ − − ∑ + ≥   ÷ 
    
e em 2π , caso contrário. Como em situações reais os parâmetros populacionais são
desconhecidos Wald (1944) sugeriu substituir os parâmetros desconhecidos pelos seus
estimadores. Assim, a regra de discriminação estimada pode ser obtida substituindo iµ , ∑ ,
iX e pS , na equação (2.1.3) . Então, deve-se alocar x na população 1π se:
1 1 2
1 2 1 2 1 2
1
1 (1| 2)
( ) ( ) ( ) ln (2.1.4)
2 (2 |1)
T T
p p
PC
X X S x X X S X X
C P
− −
    
− − − + ≥   ÷ 
    
e na população 2π , caso contrário. Se os custos e as probabilidades a priori forem idênticos
nas duas populações, a expressão pode ser simplificada. Neste caso, aloca-se x na população
1π , segundo Johnson e Wichern (1992), se:
1 1
1 2 1 2 1 2
1
( ) ( ) ( ) (2.1.5)
2
T T
p pX X S x X X S X X− −
− ≥ − +
1.2. Métodos para Estimar a Probabilidade Total de Classificação Incorreta e a Taxa de
Erro Aparente (TEA)
Serão comparados cinco métodos para estimar as taxas de erro aparente e as
probabilidades de classificação incorreta.
1.2.1. Método da Re-substituição
Neste método utilizam-se as amostras aleatórias de ambas as populações 1π e 2π que
inicialmente assumem-se como normais multivariadas, ou seja, 111 12 1, ,..., nX X X observações
p-variadas amostras da população 1π e 221 22 1, ,..., nX X X observações p-variadas amostras da
população 2π , com 1 2 2n n p+ − ≥ e estima-se os parâmetros e a função discriminante. Cada
observação das amostras de ambas as populações é classificada em uma das populações de
acordo com a regra de classificação estimada, segundo Ferreira (2008).
Assim, o estimador da probabilidade total de classificação incorreta, denominada de
taxa de erro aparente (TEA), é dado por:
12 21 12 21
1 2
(1.2.1.1)
n n n n
TEA
n n n
+ +
= =
+
Pode-se também estimar as probabilidades (2 |1)P e (1| 2)P por:
12
1
ˆ(2 |1)
n
P
n
= e
21
2
ˆ(1| 2) (1.2.1.2)
n
P
n
=
1.2.2. Método da Re-substituição com Divisão Amostral
Para Ferreira (2008), neste método a idéia é dividir a amostra em duas partes. A
primeira é denominada de amostra de treinamento, sendo utilizada para poder estimar a
função discriminante e especificar a regra estimada de classificação. A outra parte é
denominada de amostra de validação. Nesta amostra as observações são classificadas de
acordo com a regra estimada na amostra de treinamento e as taxas de erro de classificação são
estimadas.
Assim, o estimador da probabilidade total de classificação incorreta, é dado por:
12 21 12 21
1 2
(1.2.2.1)
n n n n
TEA
n n n
+ +
= =
+
Pode-se também estimar as probabilidades (2 |1)P e (1| 2)P por:
12
1
ˆ(2 |1)
n
P
n
= e
21
2
ˆ(1| 2) (1.2.2.2)
n
P
n
=
1.2.3. Método Pseudo-jackknife
Esse método é devido a Lachenbrusch e Mickey (1968) e é muito similar às técnicas
Jackknife utilizadas na estatística, sendo considerado também um tipo de validação cruzada, o
que supera a principal dificuldade do método anterior. A idéia é omitir uma observação por
vez das 1 2n n+ originais na amostra de treinamento e estimar as regras de classificação
utilizando as 1 2 1n n+ − observações remanescentes. A observação omitida é classificada em
uma das populações. Como se sabe de qual população esta observação originariamente foi
amostrada, então, pode-se determinar se ela foi classificada correta ou incorretamente.
Fazendo isso para cada observação, ijx , podem-se determinar quantas originadas da
população 1π foram classificadas de forma incorreta em 2π e quantas de 2π foram
classificadas incorretamente em 1π .
Assim, o estimador da probabilidade total de classificação incorreta, é dado por:
(1.2.3.1)
2
TEA φ
 ∆
= − ÷
 
%
E as probabilidades (2 |1)P e (1| 2)P são estimadas por:
ˆ ˆ(2 |1) (1| 2) (1.2.3.2)
2
P P φ
 ∆
= = − ÷
 
%
1.2.4. Método Dois de Lachenbruch e Mickey (1968)
Lachenbruch e Mickey (1968) propuseram um segundo método, baseado em um
procedimento que combina a técnica jackknife e o método das probabilidades de
classificações incorretas estimadas, apresentados anteriormente. Deve-se, para aplicar este
método, omitindo das 1 2n n+ observações a realização ijx da i-ésima população referente a j-
ésima unidade amostral, sendo i1,2 e j=1,...,ni = . Devem-se estimar as médias das amostras
das populações 1 e 2 e a matriz de covariância comum, excluindo esta observação ijx .
Assim, Lachenbruch e Mickey (1968) propuseram o estimador da probabilidade total
de classificação incorreta, que é dado por:
1. 2.
1 2
1 1
(1.2.4.1)
2 2
y y
TEA
S S
φ φ
   
= − + − ÷  ÷
   
E as probabilidades (2 |1)P e (1| 2)P são estimadas por:
1.
1
ˆ(2 |1)
y
P
S
φ
 
= − ÷
 
e 2.
2
ˆ(1| 2) (1.2.4.2)
y
P
S
φ
 
= − ÷
 
1.2.5. Método de Lachenbruch e Mickey Modificado
Segundo Giri (2004), vale a pena investigar por intermédio de simulação Monte Carlo
o desempenho do método anterior, onde seja considerada um estimador comum para 1 2e SS
nas funções que estimam as probabilidades de classificação incorretas e nas taxas de erro
aparente, contemplando custos e probabilidades a priori potencialmente diferentes, que é dado
por:
2 2
1 1 2 2
1 2
(n 1) ( 1)S
= (1.2.5.1)
n 2
p
S n
S
n
− + −
+ −
Assim, o estimador da probabilidade total de classificação incorreta, é dado por:
1. 2.
* *
1 1
(1.2.5.2)
2 2p p
y y
TEA
S S
φ φ
   
= − + − ÷  ÷ ÷  ÷
   
E as probabilidades (2 |1)P e (1| 2)P são estimadas por:
1.
*
ˆ(2 |1)
p
y
P
S
φ
 
= − ÷ ÷
 
e 2.
*
ˆ(1| 2) (1.2.5.3)
p
y
P
S
φ
 
= − ÷ ÷
 
2. MATERIAL E MÉTODO
2.1. Simulações
Serão geradas amostras de duas populações normais multivariadas homocedásticas.
A média da população 1 será fixada como 1 0µ = e o parâmetro 2µ será fixado em função da
distância entre as médias populacionais dada por
2 1
1 2 1 2( ) ( )T
µ µ µ µ−
∆ = − Σ − , que serão
consideradas iguais a 0, 1, 2, 4, 8, 16 e 32. Os tamanhos amostrais da população 1 e 2 serão
10, 20, 50, 100in = sendo i=1,2 combinados fatorialmente. Em cada uma das simulações
será estimada as taxas de erro aparente e as taxas de classificação incorreta, utilizando os
cinco métodos. Como os vetores de médias µ dessas populações são conhecidos, é possível
determinar a probabilidade exata de classificação incorreta para cada função discriminante
amostral. Assim, pode-se comparar o desempenho dos métodos de estimação utilizando os
dados gerados pelas simulações. Serão utilizadas N = 2000 simulações Monte Carlo.
3. RESULTADOS E DISCUSSÃO
Este trabalho está em desenvolvimento e os resultados estão sendo processados e os
programas para simulações estão sendo implementados no software R.
4. CONCLUSÕES
O novo método de classificação incorreta para duas populações normais foi
devidamente formulado e especificado. A validação deste novo método deverá ser realizada
por meio de simulação Monte Carlo.
5. REFERÊNCIAS BIBLIOGRÁFICAS
FERREIRA, D. F. Estatística Multivariada. 1º ed. Ufla, 2008. p. 554 - 583.
GIRI, N. C. Multivariate statistical analysis. 2th.ed. New York: Marcel Dekker, 2004,
p. 558.
JOHNSON, R. A., WICHERN, D. W. Applied multivariate statistical analysis. 3th.
ed. New Jersey: Prentice Hall, 1992. p. 503.
LACHENBRUCH, P. A. ; MICKEY, M. R. Estimation of error rates in discriminant
analysis. Technometrics, v. 10, n. 1, p. 1-11, 1968.
Análise discriminante, avaliação do desempenho da taxa de erro utilizando método de peter lachenbruck e ray michey
Análise discriminante, avaliação do desempenho da taxa de erro utilizando método de peter lachenbruck e ray michey

Contenu connexe

Tendances

Apostila estatística psicologia vol 1 2007
Apostila estatística psicologia vol 1 2007Apostila estatística psicologia vol 1 2007
Apostila estatística psicologia vol 1 2007
smpgiacobbo
 
Apostila filho 2003 nota metodológica sobre modelos lineares mistos
Apostila filho 2003 nota metodológica sobre modelos lineares mistosApostila filho 2003 nota metodológica sobre modelos lineares mistos
Apostila filho 2003 nota metodológica sobre modelos lineares mistos
richard_emmerich
 
Aula de distribuição de probabilidade[1] cópia
Aula de distribuição de probabilidade[1]   cópiaAula de distribuição de probabilidade[1]   cópia
Aula de distribuição de probabilidade[1] cópia
Tuane Paixão
 
02 populacao e_amostra
02 populacao e_amostra02 populacao e_amostra
02 populacao e_amostra
Raul Lima
 
Cap8 - Parte 1 - Teste Qui Um Critério
Cap8 - Parte 1 - Teste Qui Um CritérioCap8 - Parte 1 - Teste Qui Um Critério
Cap8 - Parte 1 - Teste Qui Um Critério
Regis Andrade
 
Aula parte6 distribuicao_amostral
Aula parte6 distribuicao_amostralAula parte6 distribuicao_amostral
Aula parte6 distribuicao_amostral
igorjlc
 
Apostila regressao linear
Apostila regressao linearApostila regressao linear
Apostila regressao linear
coelhojmm
 

Tendances (18)

Exercicios de estatistica resolvido.3
Exercicios de estatistica resolvido.3Exercicios de estatistica resolvido.3
Exercicios de estatistica resolvido.3
 
Análise multivariada aplicada à pesquisa
Análise multivariada aplicada à pesquisaAnálise multivariada aplicada à pesquisa
Análise multivariada aplicada à pesquisa
 
Apostila estatística psicologia vol 1 2007
Apostila estatística psicologia vol 1 2007Apostila estatística psicologia vol 1 2007
Apostila estatística psicologia vol 1 2007
 
Distribuição de poisson aplicada no Excell - Prof.Dr. Nilo Antonio de Souza S...
Distribuição de poisson aplicada no Excell - Prof.Dr. Nilo Antonio de Souza S...Distribuição de poisson aplicada no Excell - Prof.Dr. Nilo Antonio de Souza S...
Distribuição de poisson aplicada no Excell - Prof.Dr. Nilo Antonio de Souza S...
 
Princípios de Estatística Inferencial - II
Princípios de Estatística Inferencial - IIPrincípios de Estatística Inferencial - II
Princípios de Estatística Inferencial - II
 
Apostila filho 2003 nota metodológica sobre modelos lineares mistos
Apostila filho 2003 nota metodológica sobre modelos lineares mistosApostila filho 2003 nota metodológica sobre modelos lineares mistos
Apostila filho 2003 nota metodológica sobre modelos lineares mistos
 
Aula de distribuição de probabilidade[1] cópia
Aula de distribuição de probabilidade[1]   cópiaAula de distribuição de probabilidade[1]   cópia
Aula de distribuição de probabilidade[1] cópia
 
02 populacao e_amostra
02 populacao e_amostra02 populacao e_amostra
02 populacao e_amostra
 
Teste de hipóteses - paramétricos
Teste de hipóteses - paramétricosTeste de hipóteses - paramétricos
Teste de hipóteses - paramétricos
 
Cap8 - Parte 1 - Teste Qui Um Critério
Cap8 - Parte 1 - Teste Qui Um CritérioCap8 - Parte 1 - Teste Qui Um Critério
Cap8 - Parte 1 - Teste Qui Um Critério
 
Regressão aula
Regressão aulaRegressão aula
Regressão aula
 
Aula parte6 distribuicao_amostral
Aula parte6 distribuicao_amostralAula parte6 distribuicao_amostral
Aula parte6 distribuicao_amostral
 
02 tópico 1 - regressão linear simples 01 - Econometria - Graduação - UFPA
02   tópico 1 - regressão linear simples 01 - Econometria - Graduação - UFPA02   tópico 1 - regressão linear simples 01 - Econometria - Graduação - UFPA
02 tópico 1 - regressão linear simples 01 - Econometria - Graduação - UFPA
 
Distribuições amostragem
Distribuições amostragemDistribuições amostragem
Distribuições amostragem
 
Testes de Hipóteses - Lista de Exercícios Conceituais Resolvidos.
Testes de Hipóteses - Lista de Exercícios Conceituais Resolvidos.Testes de Hipóteses - Lista de Exercícios Conceituais Resolvidos.
Testes de Hipóteses - Lista de Exercícios Conceituais Resolvidos.
 
Regressao linear multipla
Regressao linear multiplaRegressao linear multipla
Regressao linear multipla
 
Tópico 4 regressão linear simples 01
Tópico 4   regressão linear simples 01Tópico 4   regressão linear simples 01
Tópico 4 regressão linear simples 01
 
Apostila regressao linear
Apostila regressao linearApostila regressao linear
Apostila regressao linear
 

En vedette

Resumen del rodaje
Resumen del rodajeResumen del rodaje
Resumen del rodaje
Pepe Ruiz
 
Infrastructure Development and Its Relationship with SDP Growth
Infrastructure Development and Its Relationship  with SDP GrowthInfrastructure Development and Its Relationship  with SDP Growth
Infrastructure Development and Its Relationship with SDP Growth
abhirup1985
 
Ming, qing and japan
Ming, qing and japanMing, qing and japan
Ming, qing and japan
Todd Whitten
 
Abraham lincoln
Abraham lincolnAbraham lincoln
Abraham lincoln
btbhn
 
Med enec case study ee indicator 2011 pp en 8
Med enec case study ee indicator 2011 pp en 8Med enec case study ee indicator 2011 pp en 8
Med enec case study ee indicator 2011 pp en 8
RCREEE
 

En vedette (20)

La llorona version 1 e ppt
La llorona version 1 e pptLa llorona version 1 e ppt
La llorona version 1 e ppt
 
Photo of nagaland
Photo of nagalandPhoto of nagaland
Photo of nagaland
 
Resumen del rodaje
Resumen del rodajeResumen del rodaje
Resumen del rodaje
 
Demonetisation fraud by the state
Demonetisation fraud by the stateDemonetisation fraud by the state
Demonetisation fraud by the state
 
Funny pranks to pull
Funny pranks to pullFunny pranks to pull
Funny pranks to pull
 
Infrastructure Development and Its Relationship with SDP Growth
Infrastructure Development and Its Relationship  with SDP GrowthInfrastructure Development and Its Relationship  with SDP Growth
Infrastructure Development and Its Relationship with SDP Growth
 
Supreme Itaguaí
Supreme ItaguaíSupreme Itaguaí
Supreme Itaguaí
 
As chuvas de verão chegam com novas e ou velhas tragédias
As chuvas de verão chegam com novas e ou velhas tragédiasAs chuvas de verão chegam com novas e ou velhas tragédias
As chuvas de verão chegam com novas e ou velhas tragédias
 
Tutorial de Filezilla
Tutorial de FilezillaTutorial de Filezilla
Tutorial de Filezilla
 
Ming, qing and japan
Ming, qing and japanMing, qing and japan
Ming, qing and japan
 
Abraham lincoln
Abraham lincolnAbraham lincoln
Abraham lincoln
 
Spread trading e correlazioni
Spread trading e correlazioniSpread trading e correlazioni
Spread trading e correlazioni
 
Med enec case study ee indicator 2011 pp en 8
Med enec case study ee indicator 2011 pp en 8Med enec case study ee indicator 2011 pp en 8
Med enec case study ee indicator 2011 pp en 8
 
Condensed fs2016 september
Condensed fs2016 septemberCondensed fs2016 september
Condensed fs2016 september
 
Condensed fs2016 mar
Condensed fs2016 marCondensed fs2016 mar
Condensed fs2016 mar
 
Condensed fs2016 april
Condensed fs2016 aprilCondensed fs2016 april
Condensed fs2016 april
 
Manipur Sectore Report - October 2016
Manipur Sectore Report - October 2016Manipur Sectore Report - October 2016
Manipur Sectore Report - October 2016
 
Presentazione seminario roma 4 marzo 2016 mt4 fabio pacchioni
Presentazione seminario roma 4 marzo 2016 mt4   fabio pacchioniPresentazione seminario roma 4 marzo 2016 mt4   fabio pacchioni
Presentazione seminario roma 4 marzo 2016 mt4 fabio pacchioni
 
RELACION o RELIGION Por: Jonathan Bravo
RELACION o RELIGION Por: Jonathan BravoRELACION o RELIGION Por: Jonathan Bravo
RELACION o RELIGION Por: Jonathan Bravo
 
Nagaland
NagalandNagaland
Nagaland
 

Similaire à Análise discriminante, avaliação do desempenho da taxa de erro utilizando método de peter lachenbruck e ray michey

Teoria de estimação
Teoria de estimaçãoTeoria de estimação
Teoria de estimação
Manuel Vargas
 
Aula 4 2023 CursoOnlineMMQ.pdf
Aula 4 2023 CursoOnlineMMQ.pdfAula 4 2023 CursoOnlineMMQ.pdf
Aula 4 2023 CursoOnlineMMQ.pdf
ClioLima5
 
Estatistica cap 1 2 3 e 4
Estatistica cap 1 2 3 e 4 Estatistica cap 1 2 3 e 4
Estatistica cap 1 2 3 e 4
diegogabandrade
 
Análise de correspondência multivariada entre tipo de crime e bairro de resid...
Análise de correspondência multivariada entre tipo de crime e bairro de resid...Análise de correspondência multivariada entre tipo de crime e bairro de resid...
Análise de correspondência multivariada entre tipo de crime e bairro de resid...
Odecrit
 

Similaire à Análise discriminante, avaliação do desempenho da taxa de erro utilizando método de peter lachenbruck e ray michey (18)

Análise de dados com SciLab
Análise de dados com SciLabAnálise de dados com SciLab
Análise de dados com SciLab
 
Cadeira_Econometria_2.pdf
Cadeira_Econometria_2.pdfCadeira_Econometria_2.pdf
Cadeira_Econometria_2.pdf
 
Teoria de estimação
Teoria de estimaçãoTeoria de estimação
Teoria de estimação
 
Introd inferencia
Introd inferenciaIntrod inferencia
Introd inferencia
 
Hduudjudmmhdkkdjdyjyhyuyduusyjyusujjsuus
HduudjudmmhdkkdjdyjyhyuyduusyjyusujjsuusHduudjudmmhdkkdjdyjyhyuyduusyjyusujjsuus
Hduudjudmmhdkkdjdyjyhyuyduusyjyusujjsuus
 
Indice de morisita classico e dw
Indice de morisita classico e dwIndice de morisita classico e dw
Indice de morisita classico e dw
 
Gustavo relatorio
Gustavo relatorioGustavo relatorio
Gustavo relatorio
 
Capitulo 8 gujarati resumo
Capitulo 8 gujarati resumoCapitulo 8 gujarati resumo
Capitulo 8 gujarati resumo
 
Tópico 4 regressão linear simples 02
Tópico 4   regressão linear simples 02Tópico 4   regressão linear simples 02
Tópico 4 regressão linear simples 02
 
Regressão Linear Simples
Regressão Linear SimplesRegressão Linear Simples
Regressão Linear Simples
 
03 tópico 2 - regressão multipla
03   tópico 2 - regressão multipla03   tópico 2 - regressão multipla
03 tópico 2 - regressão multipla
 
AULA 16- CORRELAÇÃO.pdf
AULA 16- CORRELAÇÃO.pdfAULA 16- CORRELAÇÃO.pdf
AULA 16- CORRELAÇÃO.pdf
 
Gab l02 pre401-mmo-01
Gab l02 pre401-mmo-01Gab l02 pre401-mmo-01
Gab l02 pre401-mmo-01
 
Estrategia evolutiva
Estrategia evolutivaEstrategia evolutiva
Estrategia evolutiva
 
Apostila teoria da amostragem
Apostila   teoria da  amostragemApostila   teoria da  amostragem
Apostila teoria da amostragem
 
Aula 4 2023 CursoOnlineMMQ.pdf
Aula 4 2023 CursoOnlineMMQ.pdfAula 4 2023 CursoOnlineMMQ.pdf
Aula 4 2023 CursoOnlineMMQ.pdf
 
Estatistica cap 1 2 3 e 4
Estatistica cap 1 2 3 e 4 Estatistica cap 1 2 3 e 4
Estatistica cap 1 2 3 e 4
 
Análise de correspondência multivariada entre tipo de crime e bairro de resid...
Análise de correspondência multivariada entre tipo de crime e bairro de resid...Análise de correspondência multivariada entre tipo de crime e bairro de resid...
Análise de correspondência multivariada entre tipo de crime e bairro de resid...
 

Plus de Universidade Federal Fluminense

Plus de Universidade Federal Fluminense (20)

Punto de inflexión, accidentes frente a equipos de protección personal
Punto de inflexión, accidentes frente a equipos de protección personalPunto de inflexión, accidentes frente a equipos de protección personal
Punto de inflexión, accidentes frente a equipos de protección personal
 
Tipping point, accidents versus personal protective equipment
Tipping point, accidents versus personal protective equipmentTipping point, accidents versus personal protective equipment
Tipping point, accidents versus personal protective equipment
 
Pegadas hídricas água, o precioso líquido do presente e do futuro
Pegadas hídricas   água, o precioso líquido do presente e do futuroPegadas hídricas   água, o precioso líquido do presente e do futuro
Pegadas hídricas água, o precioso líquido do presente e do futuro
 
Rc para executivos ganha destaque no mercado segurador ad corretora de seguros
Rc para executivos ganha destaque no mercado segurador   ad corretora de segurosRc para executivos ganha destaque no mercado segurador   ad corretora de seguros
Rc para executivos ganha destaque no mercado segurador ad corretora de seguros
 
Liderança da gestão
Liderança da gestãoLiderança da gestão
Liderança da gestão
 
Percepção, compreensão e avaliação de riscos análise de resultados de pesqu...
Percepção, compreensão e avaliação de riscos   análise de resultados de pesqu...Percepção, compreensão e avaliação de riscos   análise de resultados de pesqu...
Percepção, compreensão e avaliação de riscos análise de resultados de pesqu...
 
Editora roncarati incêndio em áreas de tancagem de produtos diversos arti...
Editora roncarati   incêndio em áreas de tancagem de produtos diversos   arti...Editora roncarati   incêndio em áreas de tancagem de produtos diversos   arti...
Editora roncarati incêndio em áreas de tancagem de produtos diversos arti...
 
Editora roncarati cenários críticos que ampliam riscos artigos e notícias
Editora roncarati   cenários críticos que ampliam riscos   artigos e notíciasEditora roncarati   cenários críticos que ampliam riscos   artigos e notícias
Editora roncarati cenários críticos que ampliam riscos artigos e notícias
 
Cenários críticos que ampliam riscos
Cenários críticos que ampliam riscosCenários críticos que ampliam riscos
Cenários críticos que ampliam riscos
 
Uma passagem só de ida no voo do dia 24 de março de 2015
Uma passagem só de ida no voo do dia 24 de março de 2015Uma passagem só de ida no voo do dia 24 de março de 2015
Uma passagem só de ida no voo do dia 24 de março de 2015
 
Revista opinião.seg nº 7 maio de 2014
Revista opinião.seg nº 7   maio de 2014Revista opinião.seg nº 7   maio de 2014
Revista opinião.seg nº 7 maio de 2014
 
Editora roncarati autovistoria de edificações - considerações gerais arti...
Editora roncarati   autovistoria de edificações - considerações gerais   arti...Editora roncarati   autovistoria de edificações - considerações gerais   arti...
Editora roncarati autovistoria de edificações - considerações gerais arti...
 
Utilidade social e eficiência do mutualismo
Utilidade social e eficiência do mutualismoUtilidade social e eficiência do mutualismo
Utilidade social e eficiência do mutualismo
 
Uma breve análise da evolução dos programas de gerenciamento de riscos
Uma breve análise da evolução dos programas de gerenciamento de riscosUma breve análise da evolução dos programas de gerenciamento de riscos
Uma breve análise da evolução dos programas de gerenciamento de riscos
 
Teste de adequação de passivos susep
Teste de adequação de passivos   susepTeste de adequação de passivos   susep
Teste de adequação de passivos susep
 
Teoria do risco
Teoria do riscoTeoria do risco
Teoria do risco
 
Teoria do risco tese de doutoramento
Teoria do risco   tese de doutoramentoTeoria do risco   tese de doutoramento
Teoria do risco tese de doutoramento
 
Teoria de utilidade e seguro
Teoria de utilidade e seguroTeoria de utilidade e seguro
Teoria de utilidade e seguro
 
Tecnicas atuariais dos seguros
Tecnicas atuariais dos segurosTecnicas atuariais dos seguros
Tecnicas atuariais dos seguros
 
Tábuas de mortalidade
Tábuas de mortalidadeTábuas de mortalidade
Tábuas de mortalidade
 

Dernier

O estudo do controle motor nada mais é do que o estudo da natureza do movimen...
O estudo do controle motor nada mais é do que o estudo da natureza do movimen...O estudo do controle motor nada mais é do que o estudo da natureza do movimen...
O estudo do controle motor nada mais é do que o estudo da natureza do movimen...
azulassessoria9
 
ATIVIDADE 2 - DESENVOLVIMENTO E APRENDIZAGEM MOTORA - 52_2024
ATIVIDADE 2 - DESENVOLVIMENTO E APRENDIZAGEM MOTORA - 52_2024ATIVIDADE 2 - DESENVOLVIMENTO E APRENDIZAGEM MOTORA - 52_2024
ATIVIDADE 2 - DESENVOLVIMENTO E APRENDIZAGEM MOTORA - 52_2024
azulassessoria9
 
atividade-de-portugues-paronimos-e-homonimos-4º-e-5º-ano-respostas.pdf
atividade-de-portugues-paronimos-e-homonimos-4º-e-5º-ano-respostas.pdfatividade-de-portugues-paronimos-e-homonimos-4º-e-5º-ano-respostas.pdf
atividade-de-portugues-paronimos-e-homonimos-4º-e-5º-ano-respostas.pdf
Autonoma
 
ATIVIDADE 3 - DESENVOLVIMENTO E APRENDIZAGEM MOTORA - 52_2024
ATIVIDADE 3 - DESENVOLVIMENTO E APRENDIZAGEM MOTORA - 52_2024ATIVIDADE 3 - DESENVOLVIMENTO E APRENDIZAGEM MOTORA - 52_2024
ATIVIDADE 3 - DESENVOLVIMENTO E APRENDIZAGEM MOTORA - 52_2024
azulassessoria9
 
Sistema articular aula 4 (1).pdf articulações e junturas
Sistema articular aula 4 (1).pdf articulações e junturasSistema articular aula 4 (1).pdf articulações e junturas
Sistema articular aula 4 (1).pdf articulações e junturas
rfmbrandao
 

Dernier (20)

Aula 67 e 68 Robótica 8º ano Experimentando variações da matriz de Led
Aula 67 e 68 Robótica 8º ano Experimentando variações da matriz de LedAula 67 e 68 Robótica 8º ano Experimentando variações da matriz de Led
Aula 67 e 68 Robótica 8º ano Experimentando variações da matriz de Led
 
O estudo do controle motor nada mais é do que o estudo da natureza do movimen...
O estudo do controle motor nada mais é do que o estudo da natureza do movimen...O estudo do controle motor nada mais é do que o estudo da natureza do movimen...
O estudo do controle motor nada mais é do que o estudo da natureza do movimen...
 
ATIVIDADE 2 - DESENVOLVIMENTO E APRENDIZAGEM MOTORA - 52_2024
ATIVIDADE 2 - DESENVOLVIMENTO E APRENDIZAGEM MOTORA - 52_2024ATIVIDADE 2 - DESENVOLVIMENTO E APRENDIZAGEM MOTORA - 52_2024
ATIVIDADE 2 - DESENVOLVIMENTO E APRENDIZAGEM MOTORA - 52_2024
 
Historia de Portugal - Quarto Ano - 2024
Historia de Portugal - Quarto Ano - 2024Historia de Portugal - Quarto Ano - 2024
Historia de Portugal - Quarto Ano - 2024
 
Slides Lição 6, Betel, Ordenança para uma vida de obediência e submissão.pptx
Slides Lição 6, Betel, Ordenança para uma vida de obediência e submissão.pptxSlides Lição 6, Betel, Ordenança para uma vida de obediência e submissão.pptx
Slides Lição 6, Betel, Ordenança para uma vida de obediência e submissão.pptx
 
GUIA DE APRENDIZAGEM 2024 9º A - História 1 BI.doc
GUIA DE APRENDIZAGEM 2024 9º A - História 1 BI.docGUIA DE APRENDIZAGEM 2024 9º A - História 1 BI.doc
GUIA DE APRENDIZAGEM 2024 9º A - História 1 BI.doc
 
Sistema de Bibliotecas UCS - Cantos do fim do século
Sistema de Bibliotecas UCS  - Cantos do fim do séculoSistema de Bibliotecas UCS  - Cantos do fim do século
Sistema de Bibliotecas UCS - Cantos do fim do século
 
O que é arte. Definição de arte. História da arte.
O que é arte. Definição de arte. História da arte.O que é arte. Definição de arte. História da arte.
O que é arte. Definição de arte. História da arte.
 
Slides Lição 06, Central Gospel, O Anticristo, 1Tr24.pptx
Slides Lição 06, Central Gospel, O Anticristo, 1Tr24.pptxSlides Lição 06, Central Gospel, O Anticristo, 1Tr24.pptx
Slides Lição 06, Central Gospel, O Anticristo, 1Tr24.pptx
 
Aula 25 - A america espanhola - colonização, exploraçãp e trabalho (mita e en...
Aula 25 - A america espanhola - colonização, exploraçãp e trabalho (mita e en...Aula 25 - A america espanhola - colonização, exploraçãp e trabalho (mita e en...
Aula 25 - A america espanhola - colonização, exploraçãp e trabalho (mita e en...
 
aprendizagem significatica, teórico David Ausubel
aprendizagem significatica, teórico David Ausubelaprendizagem significatica, teórico David Ausubel
aprendizagem significatica, teórico David Ausubel
 
Falando de Física Quântica apresentação introd
Falando de Física Quântica apresentação introdFalando de Física Quântica apresentação introd
Falando de Física Quântica apresentação introd
 
apostila filosofia 1 ano 1s (1).pdf 1 ANO DO ENSINO MEDIO . CONCEITOSE CARAC...
apostila filosofia 1 ano  1s (1).pdf 1 ANO DO ENSINO MEDIO . CONCEITOSE CARAC...apostila filosofia 1 ano  1s (1).pdf 1 ANO DO ENSINO MEDIO . CONCEITOSE CARAC...
apostila filosofia 1 ano 1s (1).pdf 1 ANO DO ENSINO MEDIO . CONCEITOSE CARAC...
 
atividade-de-portugues-paronimos-e-homonimos-4º-e-5º-ano-respostas.pdf
atividade-de-portugues-paronimos-e-homonimos-4º-e-5º-ano-respostas.pdfatividade-de-portugues-paronimos-e-homonimos-4º-e-5º-ano-respostas.pdf
atividade-de-portugues-paronimos-e-homonimos-4º-e-5º-ano-respostas.pdf
 
INTERTEXTUALIDADE atividade muito boa para
INTERTEXTUALIDADE   atividade muito boa paraINTERTEXTUALIDADE   atividade muito boa para
INTERTEXTUALIDADE atividade muito boa para
 
6ano variação linguística ensino fundamental.pptx
6ano variação linguística ensino fundamental.pptx6ano variação linguística ensino fundamental.pptx
6ano variação linguística ensino fundamental.pptx
 
E a chuva ... (Livro pedagógico para ser usado na educação infantil e trabal...
E a chuva ...  (Livro pedagógico para ser usado na educação infantil e trabal...E a chuva ...  (Livro pedagógico para ser usado na educação infantil e trabal...
E a chuva ... (Livro pedagógico para ser usado na educação infantil e trabal...
 
ATIVIDADE 3 - DESENVOLVIMENTO E APRENDIZAGEM MOTORA - 52_2024
ATIVIDADE 3 - DESENVOLVIMENTO E APRENDIZAGEM MOTORA - 52_2024ATIVIDADE 3 - DESENVOLVIMENTO E APRENDIZAGEM MOTORA - 52_2024
ATIVIDADE 3 - DESENVOLVIMENTO E APRENDIZAGEM MOTORA - 52_2024
 
Sistema articular aula 4 (1).pdf articulações e junturas
Sistema articular aula 4 (1).pdf articulações e junturasSistema articular aula 4 (1).pdf articulações e junturas
Sistema articular aula 4 (1).pdf articulações e junturas
 
Polígonos, Diagonais de um Polígono, SOMA DOS ANGULOS INTERNOS DE UM POLÍGON...
Polígonos, Diagonais de um Polígono, SOMA DOS ANGULOS INTERNOS DE UM  POLÍGON...Polígonos, Diagonais de um Polígono, SOMA DOS ANGULOS INTERNOS DE UM  POLÍGON...
Polígonos, Diagonais de um Polígono, SOMA DOS ANGULOS INTERNOS DE UM POLÍGON...
 

Análise discriminante, avaliação do desempenho da taxa de erro utilizando método de peter lachenbruck e ray michey

  • 1. Análise Discriminante: Avaliação do Desempenho da Taxa de Erro Utilizando uma Nova Proposta a Partir do Método de Peter A. Lachenbruch e M. Ray Michey Altemir da Silva Braga1 ; Daniel F. Ferreira2 ; Patrícia de Siqueira Ramos3 1. INTRODUÇÃO A análise de discriminante é uma técnica da análise estatística multivariada e a sua idéia consiste em classificar um indivíduo ou um grupo de indivíduos com várias características em diferentes populações conhecidas ou não. Existem vários métodos usados para estimar a probabilidade de classificação incorreta de uma observação amostral, dentre eles destacam-se: método da re-substituição, método da re-substituição com divisão amostral, método pseudo-jackknife, método das probabilidades de classificação incorretas estimadas, método dois de Lachenbruch e Mickey (1968), conforme Ferreira (2008). Neste estudo estaremos avaliando o desempenho destes métodos, para duas populações normais com variâncias comuns, pelas taxas de erros. Para Lachenbruch e Mickey (1968) os métodos da re-substituição, método da re-substituição com divisão amostral, método pseudo-jackknife, método das probabilidades de classificação incorretas estimadas possuem piores desempenhos que os demais, Giri (2004). A problemática deste estudo está no livro Giri (2004), onde ele sugere que no método de Lachenbruch e Mickey (1968), seja considerada uma variância combinada nas funções que estimam as probabilidades de classificação incorretas e nas taxas de erro aparente, visto que, essa suposição é feita para as populações. Outro aspecto que será levado em conta é o custo por cada classificação incorreta e as probabilidades a priori de cada população diferentes. Assim o nosso objetivo é avaliar este método, substituindo na função que estima a probabilidade de classificação incorreta e na função que estima a taxa de erro aparente o desvio padrão amostral por um estimador comum e acrescentar na equação discriminante uma função - Ψ ( 0Ψ ≠ ) que contemple a probabilidade a priori de se classificar em uma de duas populações normais e os custos por cada classificação incorreta. E através de simulações Monte Carlo será verificado se o método com as modificações é mais eficiente do que os 1 Mestrando do curso de Pós-Graduação em Estatística e Experimentação Agropecuária do DEX/UFLA. 2. Professor do Departamento de Ciências Exatas da Universidade Federal de Lavras. 3. Doutoranda do curso de Pós-Graduação em Estatística e Experimentação Agropecuária do DEX/UFLA 2 3
  • 2. demais, já que, nunca foi avaliado um método que contabilizasse os custos de classificações incorretas e as probabilidades a priori diferentes. 1.1. Classificação em Uma de Duas Populações Normais Supondo que x seja uma realização de uma variável p-dimensional X com distribuição normal multivariada, a qual se quer classificar em uma duas populações 1( )f x e 2 ( )f x , sendo: { } 1 122 1 ( ) (2 ) exp ( ) ( ) (2.1.1) 2 p T i i if x x xπ µ µ − − − = ∑ − − ∑ − Para 1,2i = , em que iµ é o vetor de médias da i=ésima população e Σ é a matriz de covariâncias positiva definida comum às duas populações. De acordo com a regra do mínimo de ECI deve-se classificar x em 1π se 1 2 2 1 ( ) (1| 2) (2.1.2) ( ) (2 |1) f x PC f x C P    ≥  ÷     e em 2π caso contrário. Assim classifica-se x em 1π se: 1 1 2 1 2 1 2 1 2 1 1 (1| 2) ( ) ( ) ( ) ln (2.1.3) 2 (2 |1) T PC x C P µ µ µ µ µ µ− −      − ∑ − − ∑ + ≥   ÷       e em 2π , caso contrário. Como em situações reais os parâmetros populacionais são desconhecidos Wald (1944) sugeriu substituir os parâmetros desconhecidos pelos seus estimadores. Assim, a regra de discriminação estimada pode ser obtida substituindo iµ , ∑ , iX e pS , na equação (2.1.3) . Então, deve-se alocar x na população 1π se: 1 1 2 1 2 1 2 1 2 1 1 (1| 2) ( ) ( ) ( ) ln (2.1.4) 2 (2 |1) T T p p PC X X S x X X S X X C P − −      − − − + ≥   ÷       e na população 2π , caso contrário. Se os custos e as probabilidades a priori forem idênticos nas duas populações, a expressão pode ser simplificada. Neste caso, aloca-se x na população 1π , segundo Johnson e Wichern (1992), se: 1 1 1 2 1 2 1 2 1 ( ) ( ) ( ) (2.1.5) 2 T T p pX X S x X X S X X− − − ≥ − + 1.2. Métodos para Estimar a Probabilidade Total de Classificação Incorreta e a Taxa de Erro Aparente (TEA) Serão comparados cinco métodos para estimar as taxas de erro aparente e as probabilidades de classificação incorreta. 1.2.1. Método da Re-substituição
  • 3. Neste método utilizam-se as amostras aleatórias de ambas as populações 1π e 2π que inicialmente assumem-se como normais multivariadas, ou seja, 111 12 1, ,..., nX X X observações p-variadas amostras da população 1π e 221 22 1, ,..., nX X X observações p-variadas amostras da população 2π , com 1 2 2n n p+ − ≥ e estima-se os parâmetros e a função discriminante. Cada observação das amostras de ambas as populações é classificada em uma das populações de acordo com a regra de classificação estimada, segundo Ferreira (2008). Assim, o estimador da probabilidade total de classificação incorreta, denominada de taxa de erro aparente (TEA), é dado por: 12 21 12 21 1 2 (1.2.1.1) n n n n TEA n n n + + = = + Pode-se também estimar as probabilidades (2 |1)P e (1| 2)P por: 12 1 ˆ(2 |1) n P n = e 21 2 ˆ(1| 2) (1.2.1.2) n P n = 1.2.2. Método da Re-substituição com Divisão Amostral Para Ferreira (2008), neste método a idéia é dividir a amostra em duas partes. A primeira é denominada de amostra de treinamento, sendo utilizada para poder estimar a função discriminante e especificar a regra estimada de classificação. A outra parte é denominada de amostra de validação. Nesta amostra as observações são classificadas de acordo com a regra estimada na amostra de treinamento e as taxas de erro de classificação são estimadas. Assim, o estimador da probabilidade total de classificação incorreta, é dado por: 12 21 12 21 1 2 (1.2.2.1) n n n n TEA n n n + + = = + Pode-se também estimar as probabilidades (2 |1)P e (1| 2)P por: 12 1 ˆ(2 |1) n P n = e 21 2 ˆ(1| 2) (1.2.2.2) n P n = 1.2.3. Método Pseudo-jackknife Esse método é devido a Lachenbrusch e Mickey (1968) e é muito similar às técnicas Jackknife utilizadas na estatística, sendo considerado também um tipo de validação cruzada, o que supera a principal dificuldade do método anterior. A idéia é omitir uma observação por vez das 1 2n n+ originais na amostra de treinamento e estimar as regras de classificação utilizando as 1 2 1n n+ − observações remanescentes. A observação omitida é classificada em uma das populações. Como se sabe de qual população esta observação originariamente foi
  • 4. amostrada, então, pode-se determinar se ela foi classificada correta ou incorretamente. Fazendo isso para cada observação, ijx , podem-se determinar quantas originadas da população 1π foram classificadas de forma incorreta em 2π e quantas de 2π foram classificadas incorretamente em 1π . Assim, o estimador da probabilidade total de classificação incorreta, é dado por: (1.2.3.1) 2 TEA φ  ∆ = − ÷   % E as probabilidades (2 |1)P e (1| 2)P são estimadas por: ˆ ˆ(2 |1) (1| 2) (1.2.3.2) 2 P P φ  ∆ = = − ÷   % 1.2.4. Método Dois de Lachenbruch e Mickey (1968) Lachenbruch e Mickey (1968) propuseram um segundo método, baseado em um procedimento que combina a técnica jackknife e o método das probabilidades de classificações incorretas estimadas, apresentados anteriormente. Deve-se, para aplicar este método, omitindo das 1 2n n+ observações a realização ijx da i-ésima população referente a j- ésima unidade amostral, sendo i1,2 e j=1,...,ni = . Devem-se estimar as médias das amostras das populações 1 e 2 e a matriz de covariância comum, excluindo esta observação ijx . Assim, Lachenbruch e Mickey (1968) propuseram o estimador da probabilidade total de classificação incorreta, que é dado por: 1. 2. 1 2 1 1 (1.2.4.1) 2 2 y y TEA S S φ φ     = − + − ÷  ÷     E as probabilidades (2 |1)P e (1| 2)P são estimadas por: 1. 1 ˆ(2 |1) y P S φ   = − ÷   e 2. 2 ˆ(1| 2) (1.2.4.2) y P S φ   = − ÷   1.2.5. Método de Lachenbruch e Mickey Modificado Segundo Giri (2004), vale a pena investigar por intermédio de simulação Monte Carlo o desempenho do método anterior, onde seja considerada um estimador comum para 1 2e SS nas funções que estimam as probabilidades de classificação incorretas e nas taxas de erro aparente, contemplando custos e probabilidades a priori potencialmente diferentes, que é dado por: 2 2 1 1 2 2 1 2 (n 1) ( 1)S = (1.2.5.1) n 2 p S n S n − + − + −
  • 5. Assim, o estimador da probabilidade total de classificação incorreta, é dado por: 1. 2. * * 1 1 (1.2.5.2) 2 2p p y y TEA S S φ φ     = − + − ÷  ÷ ÷  ÷     E as probabilidades (2 |1)P e (1| 2)P são estimadas por: 1. * ˆ(2 |1) p y P S φ   = − ÷ ÷   e 2. * ˆ(1| 2) (1.2.5.3) p y P S φ   = − ÷ ÷   2. MATERIAL E MÉTODO 2.1. Simulações Serão geradas amostras de duas populações normais multivariadas homocedásticas. A média da população 1 será fixada como 1 0µ = e o parâmetro 2µ será fixado em função da distância entre as médias populacionais dada por 2 1 1 2 1 2( ) ( )T µ µ µ µ− ∆ = − Σ − , que serão consideradas iguais a 0, 1, 2, 4, 8, 16 e 32. Os tamanhos amostrais da população 1 e 2 serão 10, 20, 50, 100in = sendo i=1,2 combinados fatorialmente. Em cada uma das simulações será estimada as taxas de erro aparente e as taxas de classificação incorreta, utilizando os cinco métodos. Como os vetores de médias µ dessas populações são conhecidos, é possível determinar a probabilidade exata de classificação incorreta para cada função discriminante amostral. Assim, pode-se comparar o desempenho dos métodos de estimação utilizando os dados gerados pelas simulações. Serão utilizadas N = 2000 simulações Monte Carlo. 3. RESULTADOS E DISCUSSÃO Este trabalho está em desenvolvimento e os resultados estão sendo processados e os programas para simulações estão sendo implementados no software R. 4. CONCLUSÕES O novo método de classificação incorreta para duas populações normais foi devidamente formulado e especificado. A validação deste novo método deverá ser realizada por meio de simulação Monte Carlo. 5. REFERÊNCIAS BIBLIOGRÁFICAS FERREIRA, D. F. Estatística Multivariada. 1º ed. Ufla, 2008. p. 554 - 583. GIRI, N. C. Multivariate statistical analysis. 2th.ed. New York: Marcel Dekker, 2004, p. 558. JOHNSON, R. A., WICHERN, D. W. Applied multivariate statistical analysis. 3th. ed. New Jersey: Prentice Hall, 1992. p. 503. LACHENBRUCH, P. A. ; MICKEY, M. R. Estimation of error rates in discriminant analysis. Technometrics, v. 10, n. 1, p. 1-11, 1968.