Este documento descreve um estudo que avalia o desempenho de métodos para estimar a taxa de erro em análise discriminante para duas populações normais. Simulações Monte Carlo serão realizadas variando parâmetros como tamanho amostral e distância entre médias populacionais para comparar cinco métodos, incluindo uma proposta que considera custos e probabilidades a priori diferentes. Os resultados ainda estão sendo processados.
Projeto de Extensão - ENGENHARIA DE SOFTWARE - BACHARELADO.pdf
Análise discriminante, avaliação do desempenho da taxa de erro utilizando método de peter lachenbruck e ray michey
1. Análise Discriminante: Avaliação do Desempenho da Taxa de Erro Utilizando uma
Nova Proposta a Partir do Método de Peter A. Lachenbruch e M. Ray Michey
Altemir da Silva Braga1
; Daniel F. Ferreira2
; Patrícia de Siqueira Ramos3
1. INTRODUÇÃO
A análise de discriminante é uma técnica da análise estatística multivariada e a sua
idéia consiste em classificar um indivíduo ou um grupo de indivíduos com várias
características em diferentes populações conhecidas ou não.
Existem vários métodos usados para estimar a probabilidade de classificação incorreta
de uma observação amostral, dentre eles destacam-se: método da re-substituição, método da
re-substituição com divisão amostral, método pseudo-jackknife, método das probabilidades de
classificação incorretas estimadas, método dois de Lachenbruch e Mickey (1968), conforme
Ferreira (2008).
Neste estudo estaremos avaliando o desempenho destes métodos, para duas
populações normais com variâncias comuns, pelas taxas de erros. Para Lachenbruch e Mickey
(1968) os métodos da re-substituição, método da re-substituição com divisão amostral,
método pseudo-jackknife, método das probabilidades de classificação incorretas estimadas
possuem piores desempenhos que os demais, Giri (2004).
A problemática deste estudo está no livro Giri (2004), onde ele sugere que no método
de Lachenbruch e Mickey (1968), seja considerada uma variância combinada nas funções que
estimam as probabilidades de classificação incorretas e nas taxas de erro aparente, visto que,
essa suposição é feita para as populações. Outro aspecto que será levado em conta é o custo
por cada classificação incorreta e as probabilidades a priori de cada população diferentes.
Assim o nosso objetivo é avaliar este método, substituindo na função que estima a
probabilidade de classificação incorreta e na função que estima a taxa de erro aparente o
desvio padrão amostral por um estimador comum e acrescentar na equação discriminante uma
função - Ψ ( 0Ψ ≠ ) que contemple a probabilidade a priori de se classificar em uma de duas
populações normais e os custos por cada classificação incorreta. E através de simulações
Monte Carlo será verificado se o método com as modificações é mais eficiente do que os
1
Mestrando do curso de Pós-Graduação em Estatística e Experimentação Agropecuária do DEX/UFLA.
2. Professor do Departamento de Ciências Exatas da Universidade Federal de Lavras.
3. Doutoranda do curso de Pós-Graduação em Estatística e Experimentação Agropecuária do DEX/UFLA
2
3
2. demais, já que, nunca foi avaliado um método que contabilizasse os custos de classificações
incorretas e as probabilidades a priori diferentes.
1.1. Classificação em Uma de Duas Populações Normais
Supondo que x seja uma realização de uma variável p-dimensional X com distribuição
normal multivariada, a qual se quer classificar em uma duas populações 1( )f x e 2 ( )f x ,
sendo:
{ }
1
122
1
( ) (2 ) exp ( ) ( ) (2.1.1)
2
p
T
i i if x x xπ µ µ
− −
−
= ∑ − − ∑ −
Para 1,2i = , em que iµ é o vetor de médias da i=ésima população e Σ é a matriz de
covariâncias positiva definida comum às duas populações.
De acordo com a regra do mínimo de ECI deve-se classificar x em 1π se
1 2
2 1
( ) (1| 2)
(2.1.2)
( ) (2 |1)
f x PC
f x C P
≥ ÷
e em 2π caso contrário. Assim classifica-se x em 1π se:
1 1 2
1 2 1 2 1 2
1
1 (1| 2)
( ) ( ) ( ) ln (2.1.3)
2 (2 |1)
T PC
x
C P
µ µ µ µ µ µ− −
− ∑ − − ∑ + ≥ ÷
e em 2π , caso contrário. Como em situações reais os parâmetros populacionais são
desconhecidos Wald (1944) sugeriu substituir os parâmetros desconhecidos pelos seus
estimadores. Assim, a regra de discriminação estimada pode ser obtida substituindo iµ , ∑ ,
iX e pS , na equação (2.1.3) . Então, deve-se alocar x na população 1π se:
1 1 2
1 2 1 2 1 2
1
1 (1| 2)
( ) ( ) ( ) ln (2.1.4)
2 (2 |1)
T T
p p
PC
X X S x X X S X X
C P
− −
− − − + ≥ ÷
e na população 2π , caso contrário. Se os custos e as probabilidades a priori forem idênticos
nas duas populações, a expressão pode ser simplificada. Neste caso, aloca-se x na população
1π , segundo Johnson e Wichern (1992), se:
1 1
1 2 1 2 1 2
1
( ) ( ) ( ) (2.1.5)
2
T T
p pX X S x X X S X X− −
− ≥ − +
1.2. Métodos para Estimar a Probabilidade Total de Classificação Incorreta e a Taxa de
Erro Aparente (TEA)
Serão comparados cinco métodos para estimar as taxas de erro aparente e as
probabilidades de classificação incorreta.
1.2.1. Método da Re-substituição
3. Neste método utilizam-se as amostras aleatórias de ambas as populações 1π e 2π que
inicialmente assumem-se como normais multivariadas, ou seja, 111 12 1, ,..., nX X X observações
p-variadas amostras da população 1π e 221 22 1, ,..., nX X X observações p-variadas amostras da
população 2π , com 1 2 2n n p+ − ≥ e estima-se os parâmetros e a função discriminante. Cada
observação das amostras de ambas as populações é classificada em uma das populações de
acordo com a regra de classificação estimada, segundo Ferreira (2008).
Assim, o estimador da probabilidade total de classificação incorreta, denominada de
taxa de erro aparente (TEA), é dado por:
12 21 12 21
1 2
(1.2.1.1)
n n n n
TEA
n n n
+ +
= =
+
Pode-se também estimar as probabilidades (2 |1)P e (1| 2)P por:
12
1
ˆ(2 |1)
n
P
n
= e
21
2
ˆ(1| 2) (1.2.1.2)
n
P
n
=
1.2.2. Método da Re-substituição com Divisão Amostral
Para Ferreira (2008), neste método a idéia é dividir a amostra em duas partes. A
primeira é denominada de amostra de treinamento, sendo utilizada para poder estimar a
função discriminante e especificar a regra estimada de classificação. A outra parte é
denominada de amostra de validação. Nesta amostra as observações são classificadas de
acordo com a regra estimada na amostra de treinamento e as taxas de erro de classificação são
estimadas.
Assim, o estimador da probabilidade total de classificação incorreta, é dado por:
12 21 12 21
1 2
(1.2.2.1)
n n n n
TEA
n n n
+ +
= =
+
Pode-se também estimar as probabilidades (2 |1)P e (1| 2)P por:
12
1
ˆ(2 |1)
n
P
n
= e
21
2
ˆ(1| 2) (1.2.2.2)
n
P
n
=
1.2.3. Método Pseudo-jackknife
Esse método é devido a Lachenbrusch e Mickey (1968) e é muito similar às técnicas
Jackknife utilizadas na estatística, sendo considerado também um tipo de validação cruzada, o
que supera a principal dificuldade do método anterior. A idéia é omitir uma observação por
vez das 1 2n n+ originais na amostra de treinamento e estimar as regras de classificação
utilizando as 1 2 1n n+ − observações remanescentes. A observação omitida é classificada em
uma das populações. Como se sabe de qual população esta observação originariamente foi
4. amostrada, então, pode-se determinar se ela foi classificada correta ou incorretamente.
Fazendo isso para cada observação, ijx , podem-se determinar quantas originadas da
população 1π foram classificadas de forma incorreta em 2π e quantas de 2π foram
classificadas incorretamente em 1π .
Assim, o estimador da probabilidade total de classificação incorreta, é dado por:
(1.2.3.1)
2
TEA φ
∆
= − ÷
%
E as probabilidades (2 |1)P e (1| 2)P são estimadas por:
ˆ ˆ(2 |1) (1| 2) (1.2.3.2)
2
P P φ
∆
= = − ÷
%
1.2.4. Método Dois de Lachenbruch e Mickey (1968)
Lachenbruch e Mickey (1968) propuseram um segundo método, baseado em um
procedimento que combina a técnica jackknife e o método das probabilidades de
classificações incorretas estimadas, apresentados anteriormente. Deve-se, para aplicar este
método, omitindo das 1 2n n+ observações a realização ijx da i-ésima população referente a j-
ésima unidade amostral, sendo i1,2 e j=1,...,ni = . Devem-se estimar as médias das amostras
das populações 1 e 2 e a matriz de covariância comum, excluindo esta observação ijx .
Assim, Lachenbruch e Mickey (1968) propuseram o estimador da probabilidade total
de classificação incorreta, que é dado por:
1. 2.
1 2
1 1
(1.2.4.1)
2 2
y y
TEA
S S
φ φ
= − + − ÷ ÷
E as probabilidades (2 |1)P e (1| 2)P são estimadas por:
1.
1
ˆ(2 |1)
y
P
S
φ
= − ÷
e 2.
2
ˆ(1| 2) (1.2.4.2)
y
P
S
φ
= − ÷
1.2.5. Método de Lachenbruch e Mickey Modificado
Segundo Giri (2004), vale a pena investigar por intermédio de simulação Monte Carlo
o desempenho do método anterior, onde seja considerada um estimador comum para 1 2e SS
nas funções que estimam as probabilidades de classificação incorretas e nas taxas de erro
aparente, contemplando custos e probabilidades a priori potencialmente diferentes, que é dado
por:
2 2
1 1 2 2
1 2
(n 1) ( 1)S
= (1.2.5.1)
n 2
p
S n
S
n
− + −
+ −
5. Assim, o estimador da probabilidade total de classificação incorreta, é dado por:
1. 2.
* *
1 1
(1.2.5.2)
2 2p p
y y
TEA
S S
φ φ
= − + − ÷ ÷ ÷ ÷
E as probabilidades (2 |1)P e (1| 2)P são estimadas por:
1.
*
ˆ(2 |1)
p
y
P
S
φ
= − ÷ ÷
e 2.
*
ˆ(1| 2) (1.2.5.3)
p
y
P
S
φ
= − ÷ ÷
2. MATERIAL E MÉTODO
2.1. Simulações
Serão geradas amostras de duas populações normais multivariadas homocedásticas.
A média da população 1 será fixada como 1 0µ = e o parâmetro 2µ será fixado em função da
distância entre as médias populacionais dada por
2 1
1 2 1 2( ) ( )T
µ µ µ µ−
∆ = − Σ − , que serão
consideradas iguais a 0, 1, 2, 4, 8, 16 e 32. Os tamanhos amostrais da população 1 e 2 serão
10, 20, 50, 100in = sendo i=1,2 combinados fatorialmente. Em cada uma das simulações
será estimada as taxas de erro aparente e as taxas de classificação incorreta, utilizando os
cinco métodos. Como os vetores de médias µ dessas populações são conhecidos, é possível
determinar a probabilidade exata de classificação incorreta para cada função discriminante
amostral. Assim, pode-se comparar o desempenho dos métodos de estimação utilizando os
dados gerados pelas simulações. Serão utilizadas N = 2000 simulações Monte Carlo.
3. RESULTADOS E DISCUSSÃO
Este trabalho está em desenvolvimento e os resultados estão sendo processados e os
programas para simulações estão sendo implementados no software R.
4. CONCLUSÕES
O novo método de classificação incorreta para duas populações normais foi
devidamente formulado e especificado. A validação deste novo método deverá ser realizada
por meio de simulação Monte Carlo.
5. REFERÊNCIAS BIBLIOGRÁFICAS
FERREIRA, D. F. Estatística Multivariada. 1º ed. Ufla, 2008. p. 554 - 583.
GIRI, N. C. Multivariate statistical analysis. 2th.ed. New York: Marcel Dekker, 2004,
p. 558.
JOHNSON, R. A., WICHERN, D. W. Applied multivariate statistical analysis. 3th.
ed. New Jersey: Prentice Hall, 1992. p. 503.
LACHENBRUCH, P. A. ; MICKEY, M. R. Estimation of error rates in discriminant
analysis. Technometrics, v. 10, n. 1, p. 1-11, 1968.