Este documento descreve um estudo que avalia o desempenho de métodos para estimar a taxa de erro em análise discriminante para duas populações normais. Serão geradas amostras simuladas com diferentes tamanhos e distâncias entre as médias populacionais para comparar cinco métodos, incluindo um método modificado proposto pelos autores que leva em conta custos e probabilidades a priori. Os resultados das simulações ainda estão sendo processados.
Polígonos, Diagonais de um Polígono, SOMA DOS ANGULOS INTERNOS DE UM POLÍGON...
Análise discriminante, avaliação do desempenho da taxa de erro utilizando método de peter lachenbruck e ray michey
1. Análise Discriminante: Avaliação do Desempenho da Taxa de Erro Utilizando uma
Nova Proposta a Partir do Método de Peter A. Lachenbruch e M. Ray Michey
Altemir da Silva Braga1
; Daniel F. Ferreira2
; Patrícia de Siqueira Ramos3
1. INTRODUÇÃO
A análise de discriminante é uma técnica da análise estatística multivariada e a sua
idéia consiste em classificar um indivíduo ou um grupo de indivíduos com várias
características em diferentes populações conhecidas ou não.
Existem vários métodos usados para estimar a probabilidade de classificação incorreta
de uma observação amostral, dentre eles destacam-se: método da re-substituição, método da
re-substituição com divisão amostral, método pseudo-jackknife, método das probabilidades de
classificação incorretas estimadas, método dois de Lachenbruch e Mickey (1968), conforme
Ferreira (2008).
Neste estudo estaremos avaliando o desempenho destes métodos, para duas
populações normais com variâncias comuns, pelas taxas de erros. Para Lachenbruch e Mickey
(1968) os métodos da re-substituição, método da re-substituição com divisão amostral,
método pseudo-jackknife, método das probabilidades de classificação incorretas estimadas
possuem piores desempenhos que os demais, Giri (2004).
A problemática deste estudo está no livro Giri (2004), onde ele sugere que no método
de Lachenbruch e Mickey (1968), seja considerada uma variância combinada nas funções que
estimam as probabilidades de classificação incorretas e nas taxas de erro aparente, visto que,
essa suposição é feita para as populações. Outro aspecto que será levado em conta é o custo
por cada classificação incorreta e as probabilidades a priori de cada população diferentes.
Assim o nosso objetivo é avaliar este método, substituindo na função que estima a
probabilidade de classificação incorreta e na função que estima a taxa de erro aparente o
desvio padrão amostral por um estimador comum e acrescentar na equação discriminante uma
função - Ψ ( 0Ψ ≠ ) que contemple a probabilidade a priori de se classificar em uma de duas
populações normais e os custos por cada classificação incorreta. E através de simulações
Monte Carlo será verificado se o método com as modificações é mais eficiente do que os
1
Mestrando do curso de Pós-Graduação em Estatística e Experimentação Agropecuária do DEX/UFLA.
2. Professor do Departamento de Ciências Exatas da Universidade Federal de Lavras.
3. Doutoranda do curso de Pós-Graduação em Estatística e Experimentação Agropecuária do DEX/UFLA
2
3
2. demais, já que, nunca foi avaliado um método que contabilizasse os custos de classificações
incorretas e as probabilidades a priori diferentes.
1.1. Classificação em Uma de Duas Populações Normais
Supondo que x seja uma realização de uma variável p-dimensional X com distribuição
normal multivariada, a qual se quer classificar em uma duas populações 1( )f x e 2 ( )f x ,
sendo:
{ }
1
122
1
( ) (2 ) exp ( ) ( ) (2.1.1)
2
p
T
i i if x x xπ µ µ
− −
−
= ∑ − − ∑ −
Para 1,2i = , em que iµ é o vetor de médias da i=ésima população e Σ é a matriz de
covariâncias positiva definida comum às duas populações.
De acordo com a regra do mínimo de ECI deve-se classificar x em 1π se
1 2
2 1
( ) (1| 2)
(2.1.2)
( ) (2 |1)
f x PC
f x C P
≥ ÷
e em 2π caso contrário. Assim classifica-se x em 1π se:
1 1 2
1 2 1 2 1 2
1
1 (1| 2)
( ) ( ) ( ) ln (2.1.3)
2 (2 |1)
T PC
x
C P
µ µ µ µ µ µ− −
− ∑ − − ∑ + ≥ ÷
e em 2π , caso contrário. Como em situações reais os parâmetros populacionais são
desconhecidos Wald (1944) sugeriu substituir os parâmetros desconhecidos pelos seus
estimadores. Assim, a regra de discriminação estimada pode ser obtida substituindo iµ , ∑ ,
iX e pS , na equação (2.1.3) . Então, deve-se alocar x na população 1π se:
1 1 2
1 2 1 2 1 2
1
1 (1| 2)
( ) ( ) ( ) ln (2.1.4)
2 (2 |1)
T T
p p
PC
X X S x X X S X X
C P
− −
− − − + ≥ ÷
e na população 2π , caso contrário. Se os custos e as probabilidades a priori forem idênticos
nas duas populações, a expressão pode ser simplificada. Neste caso, aloca-se x na população
1π , segundo Johnson e Wichern (1992), se:
1 1
1 2 1 2 1 2
1
( ) ( ) ( ) (2.1.5)
2
T T
p pX X S x X X S X X− −
− ≥ − +
1.2. Métodos para Estimar a Probabilidade Total de Classificação Incorreta e a Taxa de
Erro Aparente (TEA)
Serão comparados cinco métodos para estimar as taxas de erro aparente e as
probabilidades de classificação incorreta.
1.2.1. Método da Re-substituição
3. Neste método utilizam-se as amostras aleatórias de ambas as populações 1π e 2π que
inicialmente assumem-se como normais multivariadas, ou seja, 111 12 1, ,..., nX X X observações
p-variadas amostras da população 1π e 221 22 1, ,..., nX X X observações p-variadas amostras da
população 2π , com 1 2 2n n p+ − ≥ e estima-se os parâmetros e a função discriminante. Cada
observação das amostras de ambas as populações é classificada em uma das populações de
acordo com a regra de classificação estimada, segundo Ferreira (2008).
Assim, o estimador da probabilidade total de classificação incorreta, denominada de
taxa de erro aparente (TEA), é dado por:
12 21 12 21
1 2
(1.2.1.1)
n n n n
TEA
n n n
+ +
= =
+
Pode-se também estimar as probabilidades (2 |1)P e (1| 2)P por:
12
1
ˆ(2 |1)
n
P
n
= e
21
2
ˆ(1| 2) (1.2.1.2)
n
P
n
=
1.2.2. Método da Re-substituição com Divisão Amostral
Para Ferreira (2008), neste método a idéia é dividir a amostra em duas partes. A
primeira é denominada de amostra de treinamento, sendo utilizada para poder estimar a
função discriminante e especificar a regra estimada de classificação. A outra parte é
denominada de amostra de validação. Nesta amostra as observações são classificadas de
acordo com a regra estimada na amostra de treinamento e as taxas de erro de classificação são
estimadas.
Assim, o estimador da probabilidade total de classificação incorreta, é dado por:
12 21 12 21
1 2
(1.2.2.1)
n n n n
TEA
n n n
+ +
= =
+
Pode-se também estimar as probabilidades (2 |1)P e (1| 2)P por:
12
1
ˆ(2 |1)
n
P
n
= e
21
2
ˆ(1| 2) (1.2.2.2)
n
P
n
=
1.2.3. Método Pseudo-jackknife
Esse método é devido a Lachenbrusch e Mickey (1968) e é muito similar às técnicas
Jackknife utilizadas na estatística, sendo considerado também um tipo de validação cruzada, o
que supera a principal dificuldade do método anterior. A idéia é omitir uma observação por
vez das 1 2n n+ originais na amostra de treinamento e estimar as regras de classificação
utilizando as 1 2 1n n+ − observações remanescentes. A observação omitida é classificada em
uma das populações. Como se sabe de qual população esta observação originariamente foi
4. amostrada, então, pode-se determinar se ela foi classificada correta ou incorretamente.
Fazendo isso para cada observação, ijx , podem-se determinar quantas originadas da
população 1π foram classificadas de forma incorreta em 2π e quantas de 2π foram
classificadas incorretamente em 1π .
Assim, o estimador da probabilidade total de classificação incorreta, é dado por:
(1.2.3.1)
2
TEA φ
∆
= − ÷
%
E as probabilidades (2 |1)P e (1| 2)P são estimadas por:
ˆ ˆ(2 |1) (1| 2) (1.2.3.2)
2
P P φ
∆
= = − ÷
%
1.2.4. Método Dois de Lachenbruch e Mickey (1968)
Lachenbruch e Mickey (1968) propuseram um segundo método, baseado em um
procedimento que combina a técnica jackknife e o método das probabilidades de
classificações incorretas estimadas, apresentados anteriormente. Deve-se, para aplicar este
método, omitindo das 1 2n n+ observações a realização ijx da i-ésima população referente a j-
ésima unidade amostral, sendo i1,2 e j=1,...,ni = . Devem-se estimar as médias das amostras
das populações 1 e 2 e a matriz de covariância comum, excluindo esta observação ijx .
Assim, Lachenbruch e Mickey (1968) propuseram o estimador da probabilidade total
de classificação incorreta, que é dado por:
1. 2.
1 2
1 1
(1.2.4.1)
2 2
y y
TEA
S S
φ φ
= − + − ÷ ÷
E as probabilidades (2 |1)P e (1| 2)P são estimadas por:
1.
1
ˆ(2 |1)
y
P
S
φ
= − ÷
e 2.
2
ˆ(1| 2) (1.2.4.2)
y
P
S
φ
= − ÷
1.2.5. Método de Lachenbruch e Mickey Modificado
Segundo Giri (2004), vale a pena investigar por intermédio de simulação Monte Carlo
o desempenho do método anterior, onde seja considerada um estimador comum para 1 2e SS
nas funções que estimam as probabilidades de classificação incorretas e nas taxas de erro
aparente, contemplando custos e probabilidades a priori potencialmente diferentes, que é dado
por:
2 2
1 1 2 2
1 2
(n 1) ( 1)S
= (1.2.5.1)
n 2
p
S n
S
n
− + −
+ −
5. Assim, o estimador da probabilidade total de classificação incorreta, é dado por:
1. 2.
* *
1 1
(1.2.5.2)
2 2p p
y y
TEA
S S
φ φ
= − + − ÷ ÷ ÷ ÷
E as probabilidades (2 |1)P e (1| 2)P são estimadas por:
1.
*
ˆ(2 |1)
p
y
P
S
φ
= − ÷ ÷
e 2.
*
ˆ(1| 2) (1.2.5.3)
p
y
P
S
φ
= − ÷ ÷
2. MATERIAL E MÉTODO
2.1. Simulações
Serão geradas amostras de duas populações normais multivariadas homocedásticas.
A média da população 1 será fixada como 1 0µ = e o parâmetro 2µ será fixado em função da
distância entre as médias populacionais dada por
2 1
1 2 1 2( ) ( )T
µ µ µ µ−
∆ = − Σ − , que serão
consideradas iguais a 0, 1, 2, 4, 8, 16 e 32. Os tamanhos amostrais da população 1 e 2 serão
10, 20, 50, 100in = sendo i=1,2 combinados fatorialmente. Em cada uma das simulações
será estimada as taxas de erro aparente e as taxas de classificação incorreta, utilizando os
cinco métodos. Como os vetores de médias µ dessas populações são conhecidos, é possível
determinar a probabilidade exata de classificação incorreta para cada função discriminante
amostral. Assim, pode-se comparar o desempenho dos métodos de estimação utilizando os
dados gerados pelas simulações. Serão utilizadas N = 2000 simulações Monte Carlo.
3. RESULTADOS E DISCUSSÃO
Este trabalho está em desenvolvimento e os resultados estão sendo processados e os
programas para simulações estão sendo implementados no software R.
4. CONCLUSÕES
O novo método de classificação incorreta para duas populações normais foi
devidamente formulado e especificado. A validação deste novo método deverá ser realizada
por meio de simulação Monte Carlo.
5. REFERÊNCIAS BIBLIOGRÁFICAS
FERREIRA, D. F. Estatística Multivariada. 1º ed. Ufla, 2008. p. 554 - 583.
GIRI, N. C. Multivariate statistical analysis. 2th.ed. New York: Marcel Dekker, 2004,
p. 558.
JOHNSON, R. A., WICHERN, D. W. Applied multivariate statistical analysis. 3th.
ed. New Jersey: Prentice Hall, 1992. p. 503.
LACHENBRUCH, P. A. ; MICKEY, M. R. Estimation of error rates in discriminant
analysis. Technometrics, v. 10, n. 1, p. 1-11, 1968.