Teoria de estimação

Manuel Vargas
TEORIA DE ESTIMAÇÃO
MANUEL RAMÓN VARGAS AVILA
COPPE-UFRJ
ABRIL 2013
4.2 PROPRIEDADES DOS ESTIMADORES
A qualidade se baseia no erro de estimação.
erro de estimação se define como: 𝜃 = 𝜃 − 𝜃
Onde 𝜃 = vetor de parâmetros; 𝜃 = estimador.
Idealmente -> erro = 0, mas na vida real é impossível. Por esta razão,
usam-se critérios menos demandantes na estimação do erro.
1. Tendência e consistência: Tendência de um estimador = valor do
estimador - verdadeiro valor do parâmetro a estimar.
É desejável que um estimador seja não tendencioso ou centrado, isto é,
que sua tendência seja nula. O valor esperado do estimador coincide com
o parâmetro de interesse isto se mostra:
Introdução
1. Tendência e consistência
E 𝜃 = 𝐸 𝜃 − 𝐸 𝜃 = 0
E 𝜃 = 𝐸[𝜃]
Esta definição se aplica para parâmetros aleatórios. Em caso contrário
aplica-se
𝐸 𝜃|𝜃 = 𝜃
Vício: 𝑏 = 𝐸[𝜃] o b = 𝐸 𝜃|𝜃
1. Tendência e consistência
Consistência: um estimador é consistente se, na medida em que o tamanho da
amostra aumenta seu valor esperado, converge para o parâmetro de interesse e se
a variância converge a zero.
lim
𝑛→∞
𝐸 𝜃 = 𝜃
lim
𝑛→∞
𝑉𝑎𝑟(𝜃) = 0
Exemplo 4.3
Em efeito, si uma amostra X=(X1,X2,...,Xn)t
provem de una população de
média μ, isto é:
para qualquer i=1...n
A média aritmética é igual a:
1. Tendência e consistência
Por exemplo, caso se deseje estimar a média de uma população, a média
aritmética da amostra é um estimador não viciado da mesma, já que o seu
valor esperado é igual à média da população.
Agora ao calcular sua variância
𝐸[ 𝑋 − 𝜇 2
] =
1
𝑁2
𝐸{
𝑁
𝑗=1
[𝑥 𝑗 − 𝜇2
]} =
1
𝑁2
∗ 𝑁 ∗ 𝜎2
=
𝜎2
𝑁
Se N >> a infinito a variância se aproxima a 0.
2. Erro quadrático médio:
Tenta-se achar aquele estimador que possua em média o menor erro
de estimação.
Geralmente 𝐿 𝜃 = (𝜃 − 𝜃)2
O critério de erro está definido por 𝜀 = 𝐸{ 𝐿 𝜃 } para aleatórios ou
𝜀 = 𝐸 𝐿 𝜃 𝜃} para determinísticos.
𝜀 = 𝐸{(𝜃 − 𝜃)2
}
Esta se pode decompor da seguinte forma:
𝜀 = 𝐸 𝜃 − 𝜃
2
= 𝐸 𝜃2
− 2 ∗ 𝜃 ∗ 𝜃 + 𝜃2
= 𝐸 𝜃2
− 2 ∗ 𝜃 ∗ 𝐸 𝜃 + 𝜃2
𝜀 𝜃 = 𝐸 𝜃2
− 𝐸 𝜃
2
+ {𝐸 𝜃
2
− 2 ∗ 𝜃 ∗ 𝐸 𝜃 + 𝜃2
}
𝜀 𝜃 = 𝑉𝑎𝑟 𝜃 + 𝑏2
2. Erro quadrático médio:
Em termos da estimação do erro 𝜃
𝜀 𝜃 = 𝐸{ 𝜃 − 𝑏
2
} + 𝑏2
Primer termo é a variância da estimação do erro 𝜃. Por tanto o erro
quadrático médio mede tanto a variância, como o vicio de um estimador
𝜃. Se o estimador é não viciado (un-biesed) o erro quadrático médio
coincide com a variância do estimador.
Matriz de covariância da estimação do erro -> medida útil da qualidade de um
estimador. Aplica-se para medidas de erro de estimação de parâmetros individuais
𝐶 𝜃 = 𝐸 𝜃 ∗ 𝜃 𝑇
= 𝐸{ 𝜃 − 𝜃 ∗ 𝜃 − 𝜃
𝑇
}
O erro quadrático médio se aplica a toda medida do erro escalar para todos os
parâmetros estimados.
3. Eficiência
Sendo dois estimadores 𝜃1e 𝜃2, não viciados para um parâmetro 𝜃, se
diz que 𝜃1 é mais eficiente que 𝜃2 si 𝑉𝑎𝑟 𝜃1 < 𝑉𝑎𝑟(𝜃2).
Um estimador é chamado eficiente se usa otimamente a informação
contida nas medições.
IMPORTANTE: existe um limite inferior para a matriz de covariância de
erro de qualquer estimador baseado em medições disponíveis.
Este limite está dado pelo teorema de Cramer Rao do limite inferior, o
qual prove um limite inferior para um parâmetro determinístico
desconhecido.
3. Eficiência
Cramer Rao: se 𝜃 = qualquer estimador não viciado de 𝜃 baseado nos
dados de medições x, então a matriz covariância de erro no estimador
está delimitada inferiormente pela inversa da matriz de informação de
Fisher J.
𝐸{ 𝜃 − 𝜃 ∗ 𝜃 − 𝜃
𝑇
|𝜃} ≥ 𝐽−1
Onde 𝐽 = 𝐸
𝑑
𝑑𝜃
𝑙𝑛𝑝 𝑥 𝑇 𝜃
𝑑
𝑑𝜃
𝑙𝑛𝑝 𝑥 𝑇 𝜃
𝑇
𝜃
Assume-se que 𝐽−1
existe. As derivadas parciais devem existir e ser
absolutamente integráveis.
O estimador deve ser não viciado para que se cumpra o teorema
anterior.
Não pode ser aplicado a todas as distribuições.
Também pode acontecer que não exista nenhum estimador que
alcance o limite inferior.
4. Robustez
Insensibilidade a erros de medição, e aos erros na especificação dos
modelos paramétricos.
Quando os critérios de otimização crescem muito rápido, geralmente
tem pobre robustez, porque uns poucos grandes erros individuais
correspondentes aos valores atípicos nos dados podem quase
exclusivamente determinar o valor do critério do erro. No caso de
estimação da media, por exemplo, se pode utilizar a mediana das
medições em lugar da média. Isto corresponde a utilizar o valor
absoluto da função de otimização e resulta em um estimador
significativamente robusto: o valor atípico não tem nenhuma
influência.
4.3 Robustez
“O estimador é um estimador robusto do parâmetro se o não
cumprimento dos supostos de partida nos que se baseia a estimação
(normalmente, atribuir ao população um determinado tipo de função
de distribuição que, em realidade, no é a correta), não altera de
maneira significativa os resultados que este proporciona.”
4.3 MÉTODO DOS MOMENTOS
Método dos Momentos
Este método com frequência conduz a estimadores
computacionalmente simples, pero tem algumas debilidades teóricas.
Vamos supor agora que há medições escalares T estatisticamente
independentes ou amostras de dados x(1), x(2),….,x(T) com uma
distribuição de probabilidade comum p(x|ѳ) caracterizada pelo
parâmetro de vector 𝜃 = ( 𝜃1, 𝜃2, … . , 𝜃 𝑚 ) 𝑇
.
𝛼𝑗 = 𝐸 𝑥 𝑗
𝜃 = 𝑥 𝑗
𝑝 𝑥 𝜃 𝑑𝑥
∞
−∞
, 𝑗 = 1,2, … …
Onde 𝛼𝑗 é o momento no ponto j, os parâmetros 𝜃 são constantes
(desconhecidas). Os momentos 𝛼𝑗 são funções dos parâmetros 𝜃.
Método dos Momentos
Por outro lado, podem-se estimar os respectivos momentos diretamente
desde as medidas, isto se conhece como momento amostral:
𝑑𝑗 =
1
𝑇
[𝑥 𝑖 ] 𝑗
𝑇
𝑖=1
“A ideia básica por trás do método dos momentos é igualar os momentos
teóricos 𝛼𝑗 com os estimados 𝑑𝑗 .”
𝛼𝑗 𝜃 = 𝛼𝑗 𝜃1, 𝜃2, … . , 𝜃 𝑚 = 𝑑𝑗
Se a equação anterior tem uma solução aceitável, o respectivo estimador
é chamado estimador de momentos e é denotado por 𝜃 𝑀𝑀.
Alternativamente se pode utilizar a teoria central dos momentos
𝜇𝑗 = 𝐸{ 𝑥 − 𝛼1
𝑗
|𝜃}
Método dos Momentos
E a respectiva estimação amostral central de momentos
𝑠𝑗 =
1
𝑇 − 1
[𝑥
𝑇
𝑖=1
𝑖 − 𝑑1] 𝑗
𝜇𝑗 𝜃1, 𝜃2, … . , 𝜃 𝑚 = 𝑠𝑗 , 𝑗 = 1,2, … , 𝑚
Exemplo 4.4
Assuma agora que x(1),x(2),….,x(T) são amostras independentes e
identicamente distribuídas desde uma variável aleatória x tendo a pdf
𝑝 𝑥 𝜃 =
1
𝜃2
exp⁡[−
𝑥−𝜃1
𝜃2
]
Onde 𝜃1 < 𝑥 < ∞ y 𝜃2 > 0, desejamos estimar o vector de parâmetro
𝜃 = (𝜃1, 𝜃2) 𝑇
usando o método dos momentos.
Método dos Momentos
Para fazer isto primeiro se calculam os momentos teóricos
𝛼1 = 𝐸 𝑥 𝜃 =
𝑥
𝜃2
exp −
𝑥 − 𝜃1
𝜃2
𝑑𝑥 =
∞
𝜃1
𝜃1 + 𝜃2
𝛼2 = 𝐸 𝑥2
𝜃 =
𝑥2
𝜃2
exp −
𝑥 − 𝜃1
𝜃2
𝑑𝑥 =
∞
𝜃1
(𝜃1 + 𝜃2)2
+ 𝜃2
2
Para obter os estimadores igualamos a 𝑑1 y 𝑑2
𝜃1 + 𝜃2 = 𝑑1 e (𝜃1 + 𝜃2)2
+ 𝜃2
2
= 𝑑2
Resolvendo as duas equações:
𝜃1,𝑀𝑀 = 𝑑1 − (𝑑2 − 𝑑1
2
)
1
2
𝜃2,𝑀𝑀 = (𝑑2 − 𝑑1
2
)
1
2 o 𝜃2,𝑀𝑀 = −(𝑑2 − 𝑑1
2
)
1
2
A segunda solução é rejeitada por que 𝜃2deve ser positivo.
Método dos Momentos
“Os momentos da amostra 𝑑𝑗 são estimadores consistentes dos
respectivos momentos teóricos 𝛼𝑗 . De forma semelhante, os momentos
centrais da amostra 𝑠𝑗 são estimadores consistentes do verdadeiro
momento central 𝜇𝑗 .”
Uma desvantagem é que podem ser ineficientes. Não se podem fazer
afirmações sobre o vicio e a consistência das estimações dadas pelo
método de momentos.
4.4 MÉTODO DOS MÍNIMOS QUADRADOS
Método dos Mínimos Quadrados
Método linear de mínimos quadrados:
O vector de dados 𝑥 𝑇 é assumido como: 𝑥 𝑇 = 𝐻𝜃 + 𝑣 𝑇 4.35
𝜃 = vector de parâmetros, 𝑣 𝑇 = componentes são os erros de medição
desconhecidos 𝑣 𝑗 , 𝑗 = 1, … , 𝑇. A matriz de observação H é assumida
como conhecida. T é o número de medições e m número de parâmetros
desconhecidos, assuma 𝑇 ≥ 𝑚. Adicionalmente, a matriz H tem rango
máximo m.
Se m=T, 𝑣 𝑇 = 0 e tem uma única solução 𝑥 𝑇 𝐻−1
= 𝜃;
Se m > T tem soluções infinitas.
Medições são ruidosas ou contem erros -> recomenda-se T > m.
Se T > m a equação não tem solução para 𝑣 𝑇 = 0 (erros de medição 𝑣 𝑇
são desconhecidos), o que se pode fazer é escolher um estimador 𝜃 que
minimize os efeitos do erro.
Método dos Mínimos Quadrados
𝜀 𝐿𝑆 =
1
2
𝑣 𝑇
2
=
1
2
𝑥 𝑇 − 𝐻𝜃 𝑇
(𝑥 𝑇 − 𝐻𝜃) 4.36
𝜀 𝐿𝑆 tenta minimizar a medida de erro v e não diretamente a estimação do
erro 𝜃 − 𝜃
Minimizando 𝜀 𝐿𝑆 com relação à 𝜃, leva à chamada equação normal para
determinar a estimação de mínimos quadrados 𝜃 𝐿𝑆de 𝜃
𝐻 𝑇
𝐻 𝜃 𝐿𝑆 = 𝐻 𝑇
∗ 𝑥 𝑇
𝜃 𝐿𝑆 = 𝐻 𝑇
∗ 𝑥 𝑇 𝐻 𝑇
𝐻 −1
= 𝐻+
𝑥 𝑇 4.38
Por conveniência matemática, considerando o critério de os mínimos
quadrados.
𝐻+
= pseudo inversa de H
(assumindo H com máximo rango m,
e filas > colunas T>m)
Assumindo erro médio 𝐸 𝑣 𝑇 = 0 -> estimador de mínimos quadrados é
não viciado 𝐸 𝜃 𝐿𝑆 𝜃 = 𝜃
Método dos Mínimos Quadrados
Exemplo 4.5
Modelo linear para uma curva 𝑦 𝑡 = 𝑎𝑖∅𝑖(𝑡)𝑚
𝑖=1 + 𝑣(𝑡) ;
∅𝑖(𝑡), i=1,2,…,m,
Assuma que estão disponíveis as medidas 𝑦 𝑡1 , 𝑦 𝑡2 , … , 𝑦 𝑡 𝑇
Fazendo analogia com a equação de 𝑥 𝑇.
Onde o vector de parâmetros: 𝜃 = 𝑎1, 𝑎2, … , 𝑎 𝑚
𝑇
Vector de dados: 𝑥 𝑇 = [𝑦 𝑡1 , 𝑦 𝑡2 , … , 𝑦 𝑡 𝑇 ] 𝑇
Vector 𝑣 𝑇 = [𝑣 𝑡1 , 𝑣 𝑡2 , … , 𝑣 𝑡 𝑇 ] 𝑇
Matriz de observação: 𝐻 =
∅1(𝑡1) ∅2(𝑡1) ∅ 𝑚 (𝑡1)
∅1(𝑡2) ∅2(𝑡2) ∅ 𝑚 (𝑡2)
∅1(𝑡 𝑇) ∅2(𝑡 𝑇) ∅ 𝑚 (𝑡 𝑇)
Inserindo os valores numéricos em 𝑥 𝑇 e H e computando o método dos
mínimos quadrados estimar 𝑎𝑖𝐿𝑆
Método dos Mínimos Quadrados
As funções bases ∅𝑖 𝑡 são escolhidas para satisfazer as condiciones de
ortogonalidade
∅𝑗 (𝑡𝑖)∅ 𝑘(𝑡𝑖)
𝑇
𝑖=1
=
1, 𝑗 = 𝑘
0, 𝑗 ≠ 𝑘
Isto representa as condições dos elementos de H, agora 𝐻 𝑇
𝐻 = 𝐼. Isto
simplifica a equação a 𝜃 𝐿𝑆 = 𝐻 𝑇
∗ 𝑥 𝑇 . Escrevendo esta equação para
cada componente de 𝜃 𝐿𝑆 é obtida uma estimação mínima quadrada do
parâmetro 𝑎𝑖
𝑎𝑖,𝐿𝑠 = ∅𝑖 𝑡𝑗 𝑦 𝑡𝑗 , 𝑖 = 1, … , 𝑚
𝑇
𝑗=1
Método dos Mínimos Quadrados
Estimadores de mínimos quadrados não lineais y generalizados
Mínimos quadrados generalizados: os mínimos quadrados pode ser
generalizado + ao critério 4.36 uma matriz de ponderação W, simétrica e
positiva.
𝜀 𝑊𝐿𝑆 = 𝑥 𝑇 − 𝐻𝜃 𝑇
𝑊(𝑥 𝑇 − 𝐻𝜃). W = inversa da matriz pela covariância
𝑊 = 𝐶𝑣
−1
Generalizando 𝜃 𝑊𝐿𝑆 = 𝐻 𝑇
𝐶𝑣
−1
𝑥 𝑇 𝐻 𝑇
𝐶𝑣
−1
𝐻
−1
(4.46) Estimador
gauss-markov ou o melhor estimador linear no viciado (BLUE) .
Note que 4.46 reduz a solução norma dos mínimos quadrados 4.38 se
𝐶𝑣 = 𝜎2
𝐼.
Aplica quando a medida do erro v(j) tem média igual a zero e é
mutuamente independente e identicamente distribuída com a variância
𝜎2
ou também se não temos um conhecimento prévio da matriz de
covariância 𝐶𝑣.
Método dos Mínimos Quadrados
Mínimos quadrados não lineares: 4.35 não é adequada para descrever a
dependência entre 𝜃 y as medidas 𝑥 𝑇. Por conseguinte, considera-se o
seguinte modelo não linear: 𝑥 𝑇 = 𝑓 𝜃 + 𝑣 𝑇
Onde f é um vector de valores não linear. Cada componente 𝑓𝑖(𝜃) de 𝑓 𝜃
é assumido como uma função escalar conhecida pelos componentes de 𝜃.
O critério 𝜀 𝑁𝑊𝐿𝑆 é definido como :
𝜀 𝑁𝐿𝑆 = 𝑣 𝑇
2
= 𝑣(𝑗)2
𝑗 -> 𝜀 𝑁𝐿𝑆 = [𝑥 𝑇 − 𝑓 𝜃 ] 𝑇
[𝑥 𝑇 − 𝑓 𝜃 ]
Estimadores de mínimos quadrados não lineais y generalizados
O estimador não linear de mínimos quadrados 𝜃 𝑁𝐿𝑆 é o valor de 𝜃 que
minimiza 𝜀 𝑁𝐿𝑆. Estes problemas não se podem solucionar analiticamente,
então deve-se usar métodos numéricos iterativos para encontrar o
mínimo.
4.5 MÉTODO DE MÁXIMA VEROSIMILITUD
(LIKELIHOOD)
Método de máxima verosimilitud (likelihood)
O estimador de máxima verosimilitud (ML) assume que os parâmetros
desconhecidos 𝜃 são constantes ou não há informação previa disponível
sobre eles. O estimador ML tem muitas propriedades de optimização
assintóticas que fazem que seja uma opção desejável especialmente
quando o número de amostras é grande.
O estimador de máxima verosimilitud 𝜃 𝑀𝐿 do parâmetro de vector 𝜃 é
selecionado para ser o valor que maximize a função de verosimilitud
𝑝 𝑥 𝑇 𝜃 = 𝑝(𝑥 1 , 𝑥 2 , … , 𝑥 𝑇 |𝜃) das medidas x(1),x(2),…,x(T).
Devido a que muitas funções de densidade contem uma função
exponencial, é mais conveniente tratar com o log pela função de
verosimilitud ln⁡𝑝(𝑥 𝑇|𝜃).
Método de máxima verosimilitud (likelihood)
Equação de verosimilitud:
𝛿
𝛿𝜃
ln 𝑝 𝑥 𝑇 𝜃 | 𝜃=𝜃 𝑀𝐿
= 0 4.50.
Solução=> estimador de máxima verosimilitud
A equação entrega os valores de 𝜃 que maximizam (ou minimizam) a
função de verosimilitud. Se a função é complexa, são obtidos muitos
máximos y mínimos locais, se deve escolher o valor 𝜃 𝑀𝐿 que corresponde
ao máximo absoluto.
Geralmente o método ML se aplica a observações x estatisticamente
independentes. Logo, a função de verosimilitud é igual a:
𝑝 𝑥 𝑇 𝜃 = 𝑝(𝑥 𝑗 |𝜃)
𝑇
𝑗=1
Observe que tomando o logaritmo, o produto se desacopla na suma dos
logaritmos ln 𝑝(𝑥(𝑗)|𝜃)𝑗
Método de máxima verosimilitud (likelihood)
Na prática, a carga computacional pode ser proibitiva -> usar
aproximações para simplificar as equações de verosimilitud o de alguns
métodos de estimação subótimos.
Exemplo 4.6: Assumir T observações independentes x(1),…,x(T) de uma
variável escalar aleatória x com distribuição gaussiana com média µ e
variância 𝜎2
. Usando a função de verosimilitud pode ser escrita:
𝑝 𝑥 𝑇 𝜇, 𝜎2
= 2𝜋𝜎2 −𝑇
2exp⁡(−
1
2𝜎2
𝑥 𝑗 − 𝜇 2
)
𝑇
𝑗=1
Ou, ln 𝑝 𝑥 𝑇 𝜇, 𝜎2
= ln 2𝜋𝜎2 −𝑇
2exp⁡(−
1
2𝜎2 𝑥 𝑗 − 𝜇 2
)𝑇
𝑗=1
ln 𝑝 𝑥 𝑇 𝜇, 𝜎2
= −
𝑇
2
ln 2𝜋𝜎2
−
1
2𝜎2
𝑥 𝑗 − 𝜇 2
𝑇
𝑗 =1
Ao derivar a função o primeiro termo é zero por que não depende de 𝜇
𝛿
𝛿𝜇
ln 𝑝 𝑥 𝑇 𝜇 𝑀𝐿, 𝜎2
𝑀𝐿 =
1
𝜎2
𝑀𝐿
𝑥 𝑗 − 𝜇 𝑀𝐿
𝑇
𝑗=1
= 0
Método de máxima verosimilitud (likelihood)
𝑥 𝑗𝑇
𝑗=1 − 𝑇𝜇 𝑀𝐿 = 0 ; 𝜇 𝑀𝐿 =
1
𝑇
𝑥 𝑗𝑇
𝑗=1
Para calcular 𝜎2
𝑀𝐿
ln 𝑝 𝑥 𝑇 𝜇, 𝜎2
= −
𝑇
2
ln 2𝜋 −
𝑇
2
ln 𝜎2
−
1
2𝜎2
𝑥 𝑗 − 𝜇 2
𝑇
𝑗=1
Resolvendo a derivada o primeiro termo é 0
𝛿
𝛿𝜎2
ln 𝑝 𝑥 𝑇 𝜇 𝑀𝐿, 𝜎2
𝑀𝐿 = −
𝑇
2𝜎2
𝑀𝐿
+
1
2
1
𝜎2
𝑀𝐿
2
𝑥 𝑗 − 𝜇 2
𝑇
𝑗=1
= 0
Assim, 𝜎2
𝑀𝐿 =
1
𝑇
𝑥 𝑗 − 𝜇 2𝑇
𝑗=1
Este último é um estimador viciado pela variância 𝜎2
(assintoticamente
não viciado por ser pequeno), enquanto que a média amostral 𝜇 𝑀𝐿 é um
estimador não viciado pela média 𝜇.
Método de máxima verosimilitud (likelihood)
Propriedades do estimador de máxima verosimilitud:
1. Se existe um estimador que satisfaz o limite inferior Cramer-Rao
como uma igualdade, este se pode determinar utilizando o método
de máxima verosimilitud.
2. O estimador de máxima verosimilitud 𝜃 𝑀𝐿é consistente.
3. O estimador de máxima verosimilitud é assintoticamente eficiente.
Isto significa que se alcança assintóticamente o limite inferior de
Cramer-Rao para a estimação do erro
Método de máxima verosimilitud (likelihood)
Exemplo 4.7:
Determinar o limite inferior de Cramer-Rao para a média 𝜇 de una variável
aleatória Gaussiana a derivada do log de a função de verosimilitud foi
determinada anteriormente
𝛿
𝛿𝜇
ln 𝑝 𝑥 𝑇 𝜇, 𝜎2
=
1
𝜎2
𝑥 𝑗 − 𝜇
𝑇
𝑗 =1
Calculamos a informação Fisher
Considerando x(j) como independentes
Método de máxima verosimilitud (likelihood)
Partindo de 𝐸{ 𝜃 − 𝜃 |𝜃} ≥ 𝐼−1
O limite inferior de Cramer-Rao para o erro quadrado médio de qualquer
estimador não viciado 𝜇 pela média de densidade gausiana é:
𝐸 𝜇 − 𝜇 𝜇 ≥ 𝐼−1
=
𝜎2
𝑇
A média amostral satisfaz a desigualdade de Cramer-Rao e é um
estimador eficiente para medições gaussianas independentes.
Método de máxima verosimilitud (likelihood)
O algoritmo de máxima expectativa (EM) permite o tratamento de
problemas complexos de máxima verosimilitud que tem vários
parâmetros e funções de alta não linearidade.
A desvantagem do EM é que pode permanecer travado em um máximo
local ou sofrer de problemas de singularidade. Em contexto com métodos
ICA o algoritmo EM tem sido utilizado para estimar densidades
desconhecidas de fontes de sinales.
O algoritmo EM (Expectation Maximization) começa adivinhando os
parâmetros das distribuições e os usa para calcular as probabilidades de
que cada objeto pertença a um cluster e usa essas probabilidades para
calcular de novo os parâmetros das probabilidades, até convergir. O
cálculo das probabilidades é a parte de expectation. A etapa de calcular os
valores dos parâmetros das distribuições, é maximization.
4.6 ESTIMAÇÃO BAYESIANA
Estimação Bayesiana
Os métodos anteriores assumem 𝜃 = constantes determinísticas. Neste
método 𝜃 é assumido como um valor aleatório. Esta aleatoriedade é
modelada usando a função de densidade de probabilidade previa 𝑝 𝜃 (𝜃),
esta se assume como conhecida. Na prática não há nenhuma informação
importante do parâmetro, mas pode assumir alguma forma útil da
densidade previa.
A essência é a densidade posterior 𝑝 𝜃|𝑥(𝜃|𝑥 𝑇) dos parâmetros 𝜃
conhecendo os dados 𝑥 𝑇, basicamente a densidade posterior contem
toda a informação relevante dos parâmetros 𝜽.
Para escolher um parâmetro de estimação especifico 𝜃 se pode realizar
mediante dos métodos critério de erro quadrático médio ou escolher o
máximo da densidade posterior.
Estimação Bayesiana
Estimador de erro quadrático médio mínimo para parâmetros
aleatórios
𝜃 𝑀𝑆𝐸 é selecionado minimizando 𝜀 𝑀𝑆𝐸 = 𝐸 𝜃 − 𝜃
2
com respeito ao
estimador 𝜃.
Teorema 4.2:
Assumir que os parâmetros 𝜃 e as observações 𝑥 𝑇 tem um conjunto de
função de densidade de probabilidade 𝑝 𝜃,𝑥(𝜃, 𝑥 𝑇) .
𝜃 𝑀𝑆𝐸 = 𝐸 𝜃|𝑥 𝑇 4.67
𝜀 𝑀𝑆𝐸 pode ser calculado em 2 etapas. Primeiro o valor esperado é avaliado
só com respeito a 𝜃, e depois respeito à medição do vector x:
𝜀 𝑀𝑆𝐸 = 𝐸 𝜃 − 𝜃
2
= 𝐸𝑥 𝐸 𝜃 − 𝜃
2
|𝑥 𝑇
𝐸 𝜃 − 𝜃
2
|𝑥 𝑇 = 𝜃 𝑇
𝜃 − 2𝜃 𝑇
𝐸 𝜃|𝑥 𝑇 + 𝐸 𝜃 𝑇
𝜃|𝑥 𝑇
Estimação Bayesiana
Estimador de erro quadrático médio mínimo para parâmetros
aleatórios
Observando que 𝜃 é uma função das observações 𝑥 𝑇, de modo que ele
pode ser tratado como um vector não aleatório quando se calcula o valor
esperado condicional. Derivando a equação anterior em relação a 𝜃 o
resultado é
2𝜃 𝑀𝑆𝐸 − 2𝐸 𝜃|𝑥 𝑇 = 0
𝜃 𝑀𝑆𝐸 = 𝐸 𝜃|𝑥 𝑇
𝐸{𝜃 𝑀𝑆𝐸 } = 𝐸𝑥 𝐸 𝜃|𝑥 𝑇 = 𝐸{𝜃}
Este resultado é válido para todas as distribuições nas quais o conjunto de
distribuição 𝑝 𝜃|𝑥(𝜃|𝑥) existe, e mantém-se inalterada se uma matriz de
ponderação é adicionada ao critério.
Estimação Bayesiana
Estimador de erro quadrático médio mínimo para parâmetros
aleatórios
Na prática este cálculo é difícil de fazer devido a que só se conhece o se
assume a distribuição previa 𝑝 𝜃 (𝜃) e a distribuição condicional das
observações 𝑝 𝑥|𝜃 (𝑥|𝜃) dado el parâmetro 𝜃.
Na construção do estimador ótimo 4.67, primeiro se calculaa a densidade
posterior de Bayes: 𝑝 𝜃|𝑥 𝜃 𝑥 =
𝑝 𝑥|𝜃 (𝑥 𝑇|𝜃)𝑝 𝜃 (𝜃)
𝑝 𝑥 (𝑥 𝑇)
4.71
Onde 𝑝𝑥 𝑥 𝑇 = 𝑝 𝑥|𝜃 𝑥 𝑇 𝜃 𝑝 𝜃 𝜃 𝑑𝜃
∞
−∞
4.72
Só em casos especiais pode-se obter analiticamente o valor de 4.67, por
exemplo, se o estimador 𝜃 é restringido a ser uma função linear dos dados
𝜃 = 𝐿𝑥 𝑇 e quando o conjunto de densidade de probabilidade é gaussiana.
Estimação Bayesiana
Filtro Wiener
Considere o seguimento de um problema de filtro linear.
𝑧 = [𝑧1, 𝑧2, … , 𝑧 𝑚 ] 𝑇
𝑤 = [𝑤1, 𝑤2, … , 𝑤 𝑚 ] 𝑇
Um vector de peso m-dimensional com pesos ajustáveis 𝑤𝑖, 𝑖 = 1, … , 𝑚
operando linearmente em z, a saída do filtro é:
𝑦 = 𝑤 𝑇
𝑧
No filtro Wiener, a meta é determinar o filtro linear que minimize o erro
quadrático médio.
Estimação Bayesiana
Filtro Wiener
𝜀 𝑀𝑆𝐸 = 𝐸 𝑦 − 𝑑 2
Entre a resposta desejada d e a saída Y do filtro. Calculando:
𝜀 𝑀𝑆𝐸 = 𝐸 𝑤 𝑇
𝑧 − 𝑑 2
= 𝑤 𝑇
𝐸 𝑧𝑧 𝑇
𝑤 − 2𝑤 𝑇
𝐸{𝑧𝑑} + 𝐸{𝑑2
}
𝜀 𝑀𝑆𝐸 = 𝑤 𝑇
𝑅𝑧 𝑤 − 2𝑤 𝑇
𝑟𝑧𝑑 + 𝐸{𝑑2
}
Rz é a matriz de correlação de dados e 𝑟𝑧𝑑 é o vector correlação cruz entre
o vector dados z e a resposta desejada d. Minimizando o erro quadrático
médio com relação a w provê a solução ideal do filtro Wiener 𝑤 𝑀𝑆𝐸 =
𝑅 𝑧
−1
𝑟𝑧𝑑 . El filtro Wiener é usualmente calculado diretamente resolvendo
a equação linear.
𝑅 𝑧 𝑤 𝑀𝑆𝐸 = 𝑟𝑧𝑑
Na prática 𝑅 𝑧 e 𝑟𝑧𝑑 são desconhecidos.
Estimação Bayesiana
Estimador Máximo a posteriori (MAP)
O estimador MAP 𝜃 𝑀𝐴𝑃 é definido como o valor do parâmetro do vector 𝜃
que maximiza a densidade posterior 𝑝 𝜃|𝑥(𝜃|𝑥 𝑇) de 𝜃dadas las medidas
𝑥 𝑇. O estimador MAP pode ser interpretado como o valor mais provável
do vector de parâmetro 𝜃para los dados disponíveis 𝑥 𝑇. Partindo de 4.72
como não depende do parâmetro 𝜃 e normalizando 4.71
𝑝 𝜃|𝑥 𝜃 𝑥 = 𝑝 𝑥|𝜃 (𝑥 𝑇|𝜃)𝑝 𝜃 (𝜃)
Para encontrar o estimador MAP é suficiente com encontrar o valor de
𝜃 que maximiza 4.71. O estimador MAP 𝜃 𝑀𝐴𝑃se pode encontrar
resolvendo a equação logarítmica de verosimilitud
𝛿
𝛿𝜃
ln 𝑝(𝜃, 𝑥 𝑇) =
𝛿
𝛿𝜃
ln 𝑝( 𝑥 𝑇 𝜃 +
𝛿
𝛿𝜃
ln 𝑝(𝜃) = 0
Estimação Bayesiana
Se a densidade 𝑝 𝜃 é uniforme para valores de 𝜃 para os quais 𝑝(𝑥 𝑇|𝜃)
é >0, aqui o MAP e o estimador de máxima verosimilitud são os mesmos.
Isto acontece quando não se dispõe de informação preliminar dos
parâmetros 𝜃. Quando a densidade preliminar é não uniforme, o
estimador MAP e o ML são diferentes.
Exemplo 4.8
Assuma que tem T observações independentes x(1),…,x(T), sendo x uma
quantidade escalar aleatória com distribuição guassiana, tendo por média
𝜇 𝑥 e variância 𝜎2
𝑥. O 𝜇 𝑥 é uma variável aleatória gaussiana com média
igual a zero e variância 𝜎2
𝜇 . Se assume que as variâncias são conhecidas.
Da equação de verosimilitud para estimadores MAP :
𝜇 𝑀𝐴𝑃 =
𝜎2
𝜇
𝜎2
𝑥 + 𝑇𝜎2
𝜇
𝑥(𝑗)
𝑇
𝑗=1
Para o caso onde não se tem informação preliminar de 𝜇 se pode modelar
𝜎2
𝜇 tendendo a infinito, refletindo a incerteza de 𝜇
Estimação Bayesiana
𝜇 𝑀𝐴𝑃 =
1
𝑇
𝑥(𝑗)
𝑇
𝑗=1
O estimador MAP tende à média amostral, coincidindo com o ML. Se T
tende a infinito se obtêm o mesmo resultado, isto demostra que a
influencia da informação preliminar decresce com o aumento das
medições.
Se 𝜎2
𝑥 ≫ 𝜎2
𝜇 , o numero de amostras T cresceria muito até que o MAP se
aproxime ao valor limite. Em caso contrario o MAP convergiria
rapidamente.
O método de MAP tem vantagem sobre o método de ML devido a que
considera a informação previa dos parâmetros, porém é
computacionalmente mais difícil de determinar devido a um segundo
termo que aparece na equação de probabilidade. Por outra parte, tanto o
ML e o MAP se obtêm das equações de probabilidade, evitando as
integrações geralmente difíceis necessárias no cálculo da média mínima
do estimador quadrado. O MAP apresenta bons resultados na prática.
1 sur 44

Recommandé

Estatística básica par
Estatística básicaEstatística básica
Estatística básicaHoracimar Cotrim
2.1K vues43 diapositives
Estatistica descritiva par
Estatistica descritiva Estatistica descritiva
Estatistica descritiva Geisla Maia Gomes
5.1K vues21 diapositives
Conceitos Básicos de Estatística I par
Conceitos Básicos de Estatística IConceitos Básicos de Estatística I
Conceitos Básicos de Estatística IVitor Vieira Vasconcelos
10.7K vues43 diapositives
Estatística Descritiva par
Estatística DescritivaEstatística Descritiva
Estatística DescritivaRicardo Bruno - Universidade Federal do Pará
12.1K vues60 diapositives
8. outliers par
8. outliers8. outliers
8. outliersFlávia Cristina
774 vues28 diapositives
Probabilidade condicional par
Probabilidade condicionalProbabilidade condicional
Probabilidade condicionalMatematica Eemhvl
7.7K vues7 diapositives

Contenu connexe

Tendances

Programacao linear aula 3 metodo grafico par
Programacao linear   aula 3 metodo graficoProgramacao linear   aula 3 metodo grafico
Programacao linear aula 3 metodo graficoJefferson Affonso - PMP®, ITIL®, MCTS®, MBA
13.5K vues55 diapositives
Bioestatistica basica completa-apresentacao par
Bioestatistica basica completa-apresentacaoBioestatistica basica completa-apresentacao
Bioestatistica basica completa-apresentacaoFabiano Reis
47.2K vues136 diapositives
Unidade 04 - Estatística - Medidas de dispersão.ppt par
Unidade 04 - Estatística - Medidas de dispersão.pptUnidade 04 - Estatística - Medidas de dispersão.ppt
Unidade 04 - Estatística - Medidas de dispersão.pptCrobelEtiquetas
249 vues22 diapositives
AULA 05 DE FEVEREIRO DE 2023.pptx par
AULA 05 DE FEVEREIRO DE 2023.pptxAULA 05 DE FEVEREIRO DE 2023.pptx
AULA 05 DE FEVEREIRO DE 2023.pptx37261166
234 vues12 diapositives
Formulario estatistica descritiva univariada e bivariava 2013 par
Formulario estatistica descritiva univariada e bivariava  2013Formulario estatistica descritiva univariada e bivariava  2013
Formulario estatistica descritiva univariada e bivariava 2013Pedro Casquilho
6.9K vues4 diapositives

Tendances(20)

Bioestatistica basica completa-apresentacao par Fabiano Reis
Bioestatistica basica completa-apresentacaoBioestatistica basica completa-apresentacao
Bioestatistica basica completa-apresentacao
Fabiano Reis47.2K vues
Unidade 04 - Estatística - Medidas de dispersão.ppt par CrobelEtiquetas
Unidade 04 - Estatística - Medidas de dispersão.pptUnidade 04 - Estatística - Medidas de dispersão.ppt
Unidade 04 - Estatística - Medidas de dispersão.ppt
CrobelEtiquetas249 vues
AULA 05 DE FEVEREIRO DE 2023.pptx par 37261166
AULA 05 DE FEVEREIRO DE 2023.pptxAULA 05 DE FEVEREIRO DE 2023.pptx
AULA 05 DE FEVEREIRO DE 2023.pptx
37261166234 vues
Formulario estatistica descritiva univariada e bivariava 2013 par Pedro Casquilho
Formulario estatistica descritiva univariada e bivariava  2013Formulario estatistica descritiva univariada e bivariava  2013
Formulario estatistica descritiva univariada e bivariava 2013
Pedro Casquilho6.9K vues
Modelo de regressão linear: aspectos teóricos e computacionais par Rodrigo Rodrigues
Modelo de regressão linear: aspectos teóricos e computacionais Modelo de regressão linear: aspectos teóricos e computacionais
Modelo de regressão linear: aspectos teóricos e computacionais
Rodrigo Rodrigues16.4K vues
Calculo da Media aritmética, moda e mediana em situações do cotidiano.ppt par ElisangelaJesus17
Calculo da Media aritmética, moda e mediana em situações do cotidiano.pptCalculo da Media aritmética, moda e mediana em situações do cotidiano.ppt
Calculo da Media aritmética, moda e mediana em situações do cotidiano.ppt
Apostila de-estatistica-experimental-20141234567 par Erick Amâncio
Apostila de-estatistica-experimental-20141234567Apostila de-estatistica-experimental-20141234567
Apostila de-estatistica-experimental-20141234567
Erick Amâncio4.6K vues
Escalas para Medição de Atitudes - Com Exemplos Práticos Aplicados à Educação... par Rosario Cação
Escalas para Medição de Atitudes - Com Exemplos Práticos Aplicados à Educação...Escalas para Medição de Atitudes - Com Exemplos Práticos Aplicados à Educação...
Escalas para Medição de Atitudes - Com Exemplos Práticos Aplicados à Educação...
Rosario Cação55.1K vues
Formulario inferencia estatistica - 1 e 2 populacoes par Pedro Casquilho
Formulario   inferencia estatistica - 1 e 2 populacoesFormulario   inferencia estatistica - 1 e 2 populacoes
Formulario inferencia estatistica - 1 e 2 populacoes
Pedro Casquilho2.7K vues

En vedette

Aula 11 estimação par
Aula 11   estimaçãoAula 11   estimação
Aula 11 estimaçãoAriel Rennó Chaves
21K vues22 diapositives
Aula distribuição amostral da média par
Aula distribuição amostral da médiaAula distribuição amostral da média
Aula distribuição amostral da médiaGiselle Onuki
927 vues17 diapositives
5 intervalo de confiança par
5   intervalo de confiança5   intervalo de confiança
5 intervalo de confiançaFernando Lucas
8.7K vues13 diapositives
Distribuição Amostral da Média par
Distribuição Amostral da MédiaDistribuição Amostral da Média
Distribuição Amostral da MédiaAnderson Pinho
20.5K vues19 diapositives
Lista exercícios3bi2 par
Lista exercícios3bi2Lista exercícios3bi2
Lista exercícios3bi2Celso Costa Junior
516 vues4 diapositives
Funcao modular par
Funcao modularFuncao modular
Funcao modularcon_seguir
10.6K vues13 diapositives

Similaire à Teoria de estimação

MODEL-REFERENCE ADAPTIVE SYSTEMS (MRAS) par
MODEL-REFERENCE ADAPTIVE SYSTEMS (MRAS)MODEL-REFERENCE ADAPTIVE SYSTEMS (MRAS)
MODEL-REFERENCE ADAPTIVE SYSTEMS (MRAS)Pedro Barata
471 vues19 diapositives
Criterio chauvenet par
Criterio chauvenetCriterio chauvenet
Criterio chauvenetItamar Oliveira
1.9K vues3 diapositives
14.3 derivadas parciais [pt. 1] par
14.3 derivadas parciais [pt. 1]14.3 derivadas parciais [pt. 1]
14.3 derivadas parciais [pt. 1]Cristiano Miranda
371 vues29 diapositives
Medição quimica par
Medição quimicaMedição quimica
Medição quimicaManuel Fecha
6.3K vues9 diapositives
Aula 4 2023 CursoOnlineMMQ.pdf par
Aula 4 2023 CursoOnlineMMQ.pdfAula 4 2023 CursoOnlineMMQ.pdf
Aula 4 2023 CursoOnlineMMQ.pdfClioLima5
5 vues22 diapositives
Regressao linear multipla par
Regressao linear multiplaRegressao linear multipla
Regressao linear multiplaaniziorochaaraujo
16.4K vues75 diapositives

Similaire à Teoria de estimação(20)

MODEL-REFERENCE ADAPTIVE SYSTEMS (MRAS) par Pedro Barata
MODEL-REFERENCE ADAPTIVE SYSTEMS (MRAS)MODEL-REFERENCE ADAPTIVE SYSTEMS (MRAS)
MODEL-REFERENCE ADAPTIVE SYSTEMS (MRAS)
Pedro Barata471 vues
Aula 4 2023 CursoOnlineMMQ.pdf par ClioLima5
Aula 4 2023 CursoOnlineMMQ.pdfAula 4 2023 CursoOnlineMMQ.pdf
Aula 4 2023 CursoOnlineMMQ.pdf
ClioLima55 vues
Aula a1 precisão, incertezas e erros em medidas par João Marcos
Aula a1   precisão, incertezas e erros em medidasAula a1   precisão, incertezas e erros em medidas
Aula a1 precisão, incertezas e erros em medidas
João Marcos810 vues
Obtenção e tratamento de medições experimentais par eduardocfl
Obtenção e tratamento de medições experimentaisObtenção e tratamento de medições experimentais
Obtenção e tratamento de medições experimentais
eduardocfl2.5K vues
Ajuste de Curvas - @professorenan par Renan Gustavo
Ajuste de Curvas - @professorenanAjuste de Curvas - @professorenan
Ajuste de Curvas - @professorenan
Renan Gustavo8.5K vues
Calculo Integral - Conceito de primitiva e técnicas de primitivação par Maths Tutoring
Calculo Integral - Conceito de primitiva e técnicas de primitivaçãoCalculo Integral - Conceito de primitiva e técnicas de primitivação
Calculo Integral - Conceito de primitiva e técnicas de primitivação
Maths Tutoring1.1K vues
Implementação Currículo - módulo4 - Matrizes/Nºs Complexos par inechidias
Implementação Currículo - módulo4 - Matrizes/Nºs ComplexosImplementação Currículo - módulo4 - Matrizes/Nºs Complexos
Implementação Currículo - módulo4 - Matrizes/Nºs Complexos
inechidias1.2K vues
Implementação currículo- Módulo IV-Matrizes/Determinantes/Nºs Complexos par inechidias
Implementação currículo- Módulo IV-Matrizes/Determinantes/Nºs ComplexosImplementação currículo- Módulo IV-Matrizes/Determinantes/Nºs Complexos
Implementação currículo- Módulo IV-Matrizes/Determinantes/Nºs Complexos
inechidias3.1K vues
Probabilidade e Estatística - Aula 03 par Augusto Junior
Probabilidade e Estatística - Aula 03Probabilidade e Estatística - Aula 03
Probabilidade e Estatística - Aula 03
Augusto Junior2.6K vues
mat_ii_aula-2_integral-definida.pdf par RuanFurtado2
mat_ii_aula-2_integral-definida.pdfmat_ii_aula-2_integral-definida.pdf
mat_ii_aula-2_integral-definida.pdf
RuanFurtado29 vues

Teoria de estimação

  • 1. TEORIA DE ESTIMAÇÃO MANUEL RAMÓN VARGAS AVILA COPPE-UFRJ ABRIL 2013
  • 2. 4.2 PROPRIEDADES DOS ESTIMADORES
  • 3. A qualidade se baseia no erro de estimação. erro de estimação se define como: 𝜃 = 𝜃 − 𝜃 Onde 𝜃 = vetor de parâmetros; 𝜃 = estimador. Idealmente -> erro = 0, mas na vida real é impossível. Por esta razão, usam-se critérios menos demandantes na estimação do erro. 1. Tendência e consistência: Tendência de um estimador = valor do estimador - verdadeiro valor do parâmetro a estimar. É desejável que um estimador seja não tendencioso ou centrado, isto é, que sua tendência seja nula. O valor esperado do estimador coincide com o parâmetro de interesse isto se mostra: Introdução
  • 4. 1. Tendência e consistência E 𝜃 = 𝐸 𝜃 − 𝐸 𝜃 = 0 E 𝜃 = 𝐸[𝜃] Esta definição se aplica para parâmetros aleatórios. Em caso contrário aplica-se 𝐸 𝜃|𝜃 = 𝜃 Vício: 𝑏 = 𝐸[𝜃] o b = 𝐸 𝜃|𝜃
  • 5. 1. Tendência e consistência Consistência: um estimador é consistente se, na medida em que o tamanho da amostra aumenta seu valor esperado, converge para o parâmetro de interesse e se a variância converge a zero. lim 𝑛→∞ 𝐸 𝜃 = 𝜃 lim 𝑛→∞ 𝑉𝑎𝑟(𝜃) = 0 Exemplo 4.3 Em efeito, si uma amostra X=(X1,X2,...,Xn)t provem de una população de média μ, isto é: para qualquer i=1...n A média aritmética é igual a:
  • 6. 1. Tendência e consistência Por exemplo, caso se deseje estimar a média de uma população, a média aritmética da amostra é um estimador não viciado da mesma, já que o seu valor esperado é igual à média da população. Agora ao calcular sua variância 𝐸[ 𝑋 − 𝜇 2 ] = 1 𝑁2 𝐸{ 𝑁 𝑗=1 [𝑥 𝑗 − 𝜇2 ]} = 1 𝑁2 ∗ 𝑁 ∗ 𝜎2 = 𝜎2 𝑁 Se N >> a infinito a variância se aproxima a 0.
  • 7. 2. Erro quadrático médio: Tenta-se achar aquele estimador que possua em média o menor erro de estimação. Geralmente 𝐿 𝜃 = (𝜃 − 𝜃)2 O critério de erro está definido por 𝜀 = 𝐸{ 𝐿 𝜃 } para aleatórios ou 𝜀 = 𝐸 𝐿 𝜃 𝜃} para determinísticos. 𝜀 = 𝐸{(𝜃 − 𝜃)2 } Esta se pode decompor da seguinte forma: 𝜀 = 𝐸 𝜃 − 𝜃 2 = 𝐸 𝜃2 − 2 ∗ 𝜃 ∗ 𝜃 + 𝜃2 = 𝐸 𝜃2 − 2 ∗ 𝜃 ∗ 𝐸 𝜃 + 𝜃2 𝜀 𝜃 = 𝐸 𝜃2 − 𝐸 𝜃 2 + {𝐸 𝜃 2 − 2 ∗ 𝜃 ∗ 𝐸 𝜃 + 𝜃2 } 𝜀 𝜃 = 𝑉𝑎𝑟 𝜃 + 𝑏2
  • 8. 2. Erro quadrático médio: Em termos da estimação do erro 𝜃 𝜀 𝜃 = 𝐸{ 𝜃 − 𝑏 2 } + 𝑏2 Primer termo é a variância da estimação do erro 𝜃. Por tanto o erro quadrático médio mede tanto a variância, como o vicio de um estimador 𝜃. Se o estimador é não viciado (un-biesed) o erro quadrático médio coincide com a variância do estimador. Matriz de covariância da estimação do erro -> medida útil da qualidade de um estimador. Aplica-se para medidas de erro de estimação de parâmetros individuais 𝐶 𝜃 = 𝐸 𝜃 ∗ 𝜃 𝑇 = 𝐸{ 𝜃 − 𝜃 ∗ 𝜃 − 𝜃 𝑇 } O erro quadrático médio se aplica a toda medida do erro escalar para todos os parâmetros estimados.
  • 9. 3. Eficiência Sendo dois estimadores 𝜃1e 𝜃2, não viciados para um parâmetro 𝜃, se diz que 𝜃1 é mais eficiente que 𝜃2 si 𝑉𝑎𝑟 𝜃1 < 𝑉𝑎𝑟(𝜃2). Um estimador é chamado eficiente se usa otimamente a informação contida nas medições. IMPORTANTE: existe um limite inferior para a matriz de covariância de erro de qualquer estimador baseado em medições disponíveis. Este limite está dado pelo teorema de Cramer Rao do limite inferior, o qual prove um limite inferior para um parâmetro determinístico desconhecido.
  • 10. 3. Eficiência Cramer Rao: se 𝜃 = qualquer estimador não viciado de 𝜃 baseado nos dados de medições x, então a matriz covariância de erro no estimador está delimitada inferiormente pela inversa da matriz de informação de Fisher J. 𝐸{ 𝜃 − 𝜃 ∗ 𝜃 − 𝜃 𝑇 |𝜃} ≥ 𝐽−1 Onde 𝐽 = 𝐸 𝑑 𝑑𝜃 𝑙𝑛𝑝 𝑥 𝑇 𝜃 𝑑 𝑑𝜃 𝑙𝑛𝑝 𝑥 𝑇 𝜃 𝑇 𝜃 Assume-se que 𝐽−1 existe. As derivadas parciais devem existir e ser absolutamente integráveis. O estimador deve ser não viciado para que se cumpra o teorema anterior. Não pode ser aplicado a todas as distribuições. Também pode acontecer que não exista nenhum estimador que alcance o limite inferior.
  • 11. 4. Robustez Insensibilidade a erros de medição, e aos erros na especificação dos modelos paramétricos. Quando os critérios de otimização crescem muito rápido, geralmente tem pobre robustez, porque uns poucos grandes erros individuais correspondentes aos valores atípicos nos dados podem quase exclusivamente determinar o valor do critério do erro. No caso de estimação da media, por exemplo, se pode utilizar a mediana das medições em lugar da média. Isto corresponde a utilizar o valor absoluto da função de otimização e resulta em um estimador significativamente robusto: o valor atípico não tem nenhuma influência.
  • 12. 4.3 Robustez “O estimador é um estimador robusto do parâmetro se o não cumprimento dos supostos de partida nos que se baseia a estimação (normalmente, atribuir ao população um determinado tipo de função de distribuição que, em realidade, no é a correta), não altera de maneira significativa os resultados que este proporciona.”
  • 13. 4.3 MÉTODO DOS MOMENTOS
  • 14. Método dos Momentos Este método com frequência conduz a estimadores computacionalmente simples, pero tem algumas debilidades teóricas. Vamos supor agora que há medições escalares T estatisticamente independentes ou amostras de dados x(1), x(2),….,x(T) com uma distribuição de probabilidade comum p(x|ѳ) caracterizada pelo parâmetro de vector 𝜃 = ( 𝜃1, 𝜃2, … . , 𝜃 𝑚 ) 𝑇 . 𝛼𝑗 = 𝐸 𝑥 𝑗 𝜃 = 𝑥 𝑗 𝑝 𝑥 𝜃 𝑑𝑥 ∞ −∞ , 𝑗 = 1,2, … … Onde 𝛼𝑗 é o momento no ponto j, os parâmetros 𝜃 são constantes (desconhecidas). Os momentos 𝛼𝑗 são funções dos parâmetros 𝜃.
  • 15. Método dos Momentos Por outro lado, podem-se estimar os respectivos momentos diretamente desde as medidas, isto se conhece como momento amostral: 𝑑𝑗 = 1 𝑇 [𝑥 𝑖 ] 𝑗 𝑇 𝑖=1 “A ideia básica por trás do método dos momentos é igualar os momentos teóricos 𝛼𝑗 com os estimados 𝑑𝑗 .” 𝛼𝑗 𝜃 = 𝛼𝑗 𝜃1, 𝜃2, … . , 𝜃 𝑚 = 𝑑𝑗 Se a equação anterior tem uma solução aceitável, o respectivo estimador é chamado estimador de momentos e é denotado por 𝜃 𝑀𝑀. Alternativamente se pode utilizar a teoria central dos momentos 𝜇𝑗 = 𝐸{ 𝑥 − 𝛼1 𝑗 |𝜃}
  • 16. Método dos Momentos E a respectiva estimação amostral central de momentos 𝑠𝑗 = 1 𝑇 − 1 [𝑥 𝑇 𝑖=1 𝑖 − 𝑑1] 𝑗 𝜇𝑗 𝜃1, 𝜃2, … . , 𝜃 𝑚 = 𝑠𝑗 , 𝑗 = 1,2, … , 𝑚 Exemplo 4.4 Assuma agora que x(1),x(2),….,x(T) são amostras independentes e identicamente distribuídas desde uma variável aleatória x tendo a pdf 𝑝 𝑥 𝜃 = 1 𝜃2 exp⁡[− 𝑥−𝜃1 𝜃2 ] Onde 𝜃1 < 𝑥 < ∞ y 𝜃2 > 0, desejamos estimar o vector de parâmetro 𝜃 = (𝜃1, 𝜃2) 𝑇 usando o método dos momentos.
  • 17. Método dos Momentos Para fazer isto primeiro se calculam os momentos teóricos 𝛼1 = 𝐸 𝑥 𝜃 = 𝑥 𝜃2 exp − 𝑥 − 𝜃1 𝜃2 𝑑𝑥 = ∞ 𝜃1 𝜃1 + 𝜃2 𝛼2 = 𝐸 𝑥2 𝜃 = 𝑥2 𝜃2 exp − 𝑥 − 𝜃1 𝜃2 𝑑𝑥 = ∞ 𝜃1 (𝜃1 + 𝜃2)2 + 𝜃2 2 Para obter os estimadores igualamos a 𝑑1 y 𝑑2 𝜃1 + 𝜃2 = 𝑑1 e (𝜃1 + 𝜃2)2 + 𝜃2 2 = 𝑑2 Resolvendo as duas equações: 𝜃1,𝑀𝑀 = 𝑑1 − (𝑑2 − 𝑑1 2 ) 1 2 𝜃2,𝑀𝑀 = (𝑑2 − 𝑑1 2 ) 1 2 o 𝜃2,𝑀𝑀 = −(𝑑2 − 𝑑1 2 ) 1 2 A segunda solução é rejeitada por que 𝜃2deve ser positivo.
  • 18. Método dos Momentos “Os momentos da amostra 𝑑𝑗 são estimadores consistentes dos respectivos momentos teóricos 𝛼𝑗 . De forma semelhante, os momentos centrais da amostra 𝑠𝑗 são estimadores consistentes do verdadeiro momento central 𝜇𝑗 .” Uma desvantagem é que podem ser ineficientes. Não se podem fazer afirmações sobre o vicio e a consistência das estimações dadas pelo método de momentos.
  • 19. 4.4 MÉTODO DOS MÍNIMOS QUADRADOS
  • 20. Método dos Mínimos Quadrados Método linear de mínimos quadrados: O vector de dados 𝑥 𝑇 é assumido como: 𝑥 𝑇 = 𝐻𝜃 + 𝑣 𝑇 4.35 𝜃 = vector de parâmetros, 𝑣 𝑇 = componentes são os erros de medição desconhecidos 𝑣 𝑗 , 𝑗 = 1, … , 𝑇. A matriz de observação H é assumida como conhecida. T é o número de medições e m número de parâmetros desconhecidos, assuma 𝑇 ≥ 𝑚. Adicionalmente, a matriz H tem rango máximo m. Se m=T, 𝑣 𝑇 = 0 e tem uma única solução 𝑥 𝑇 𝐻−1 = 𝜃; Se m > T tem soluções infinitas. Medições são ruidosas ou contem erros -> recomenda-se T > m. Se T > m a equação não tem solução para 𝑣 𝑇 = 0 (erros de medição 𝑣 𝑇 são desconhecidos), o que se pode fazer é escolher um estimador 𝜃 que minimize os efeitos do erro.
  • 21. Método dos Mínimos Quadrados 𝜀 𝐿𝑆 = 1 2 𝑣 𝑇 2 = 1 2 𝑥 𝑇 − 𝐻𝜃 𝑇 (𝑥 𝑇 − 𝐻𝜃) 4.36 𝜀 𝐿𝑆 tenta minimizar a medida de erro v e não diretamente a estimação do erro 𝜃 − 𝜃 Minimizando 𝜀 𝐿𝑆 com relação à 𝜃, leva à chamada equação normal para determinar a estimação de mínimos quadrados 𝜃 𝐿𝑆de 𝜃 𝐻 𝑇 𝐻 𝜃 𝐿𝑆 = 𝐻 𝑇 ∗ 𝑥 𝑇 𝜃 𝐿𝑆 = 𝐻 𝑇 ∗ 𝑥 𝑇 𝐻 𝑇 𝐻 −1 = 𝐻+ 𝑥 𝑇 4.38 Por conveniência matemática, considerando o critério de os mínimos quadrados. 𝐻+ = pseudo inversa de H (assumindo H com máximo rango m, e filas > colunas T>m) Assumindo erro médio 𝐸 𝑣 𝑇 = 0 -> estimador de mínimos quadrados é não viciado 𝐸 𝜃 𝐿𝑆 𝜃 = 𝜃
  • 22. Método dos Mínimos Quadrados Exemplo 4.5 Modelo linear para uma curva 𝑦 𝑡 = 𝑎𝑖∅𝑖(𝑡)𝑚 𝑖=1 + 𝑣(𝑡) ; ∅𝑖(𝑡), i=1,2,…,m, Assuma que estão disponíveis as medidas 𝑦 𝑡1 , 𝑦 𝑡2 , … , 𝑦 𝑡 𝑇 Fazendo analogia com a equação de 𝑥 𝑇. Onde o vector de parâmetros: 𝜃 = 𝑎1, 𝑎2, … , 𝑎 𝑚 𝑇 Vector de dados: 𝑥 𝑇 = [𝑦 𝑡1 , 𝑦 𝑡2 , … , 𝑦 𝑡 𝑇 ] 𝑇 Vector 𝑣 𝑇 = [𝑣 𝑡1 , 𝑣 𝑡2 , … , 𝑣 𝑡 𝑇 ] 𝑇 Matriz de observação: 𝐻 = ∅1(𝑡1) ∅2(𝑡1) ∅ 𝑚 (𝑡1) ∅1(𝑡2) ∅2(𝑡2) ∅ 𝑚 (𝑡2) ∅1(𝑡 𝑇) ∅2(𝑡 𝑇) ∅ 𝑚 (𝑡 𝑇) Inserindo os valores numéricos em 𝑥 𝑇 e H e computando o método dos mínimos quadrados estimar 𝑎𝑖𝐿𝑆
  • 23. Método dos Mínimos Quadrados As funções bases ∅𝑖 𝑡 são escolhidas para satisfazer as condiciones de ortogonalidade ∅𝑗 (𝑡𝑖)∅ 𝑘(𝑡𝑖) 𝑇 𝑖=1 = 1, 𝑗 = 𝑘 0, 𝑗 ≠ 𝑘 Isto representa as condições dos elementos de H, agora 𝐻 𝑇 𝐻 = 𝐼. Isto simplifica a equação a 𝜃 𝐿𝑆 = 𝐻 𝑇 ∗ 𝑥 𝑇 . Escrevendo esta equação para cada componente de 𝜃 𝐿𝑆 é obtida uma estimação mínima quadrada do parâmetro 𝑎𝑖 𝑎𝑖,𝐿𝑠 = ∅𝑖 𝑡𝑗 𝑦 𝑡𝑗 , 𝑖 = 1, … , 𝑚 𝑇 𝑗=1
  • 24. Método dos Mínimos Quadrados Estimadores de mínimos quadrados não lineais y generalizados Mínimos quadrados generalizados: os mínimos quadrados pode ser generalizado + ao critério 4.36 uma matriz de ponderação W, simétrica e positiva. 𝜀 𝑊𝐿𝑆 = 𝑥 𝑇 − 𝐻𝜃 𝑇 𝑊(𝑥 𝑇 − 𝐻𝜃). W = inversa da matriz pela covariância 𝑊 = 𝐶𝑣 −1 Generalizando 𝜃 𝑊𝐿𝑆 = 𝐻 𝑇 𝐶𝑣 −1 𝑥 𝑇 𝐻 𝑇 𝐶𝑣 −1 𝐻 −1 (4.46) Estimador gauss-markov ou o melhor estimador linear no viciado (BLUE) . Note que 4.46 reduz a solução norma dos mínimos quadrados 4.38 se 𝐶𝑣 = 𝜎2 𝐼. Aplica quando a medida do erro v(j) tem média igual a zero e é mutuamente independente e identicamente distribuída com a variância 𝜎2 ou também se não temos um conhecimento prévio da matriz de covariância 𝐶𝑣.
  • 25. Método dos Mínimos Quadrados Mínimos quadrados não lineares: 4.35 não é adequada para descrever a dependência entre 𝜃 y as medidas 𝑥 𝑇. Por conseguinte, considera-se o seguinte modelo não linear: 𝑥 𝑇 = 𝑓 𝜃 + 𝑣 𝑇 Onde f é um vector de valores não linear. Cada componente 𝑓𝑖(𝜃) de 𝑓 𝜃 é assumido como uma função escalar conhecida pelos componentes de 𝜃. O critério 𝜀 𝑁𝑊𝐿𝑆 é definido como : 𝜀 𝑁𝐿𝑆 = 𝑣 𝑇 2 = 𝑣(𝑗)2 𝑗 -> 𝜀 𝑁𝐿𝑆 = [𝑥 𝑇 − 𝑓 𝜃 ] 𝑇 [𝑥 𝑇 − 𝑓 𝜃 ] Estimadores de mínimos quadrados não lineais y generalizados O estimador não linear de mínimos quadrados 𝜃 𝑁𝐿𝑆 é o valor de 𝜃 que minimiza 𝜀 𝑁𝐿𝑆. Estes problemas não se podem solucionar analiticamente, então deve-se usar métodos numéricos iterativos para encontrar o mínimo.
  • 26. 4.5 MÉTODO DE MÁXIMA VEROSIMILITUD (LIKELIHOOD)
  • 27. Método de máxima verosimilitud (likelihood) O estimador de máxima verosimilitud (ML) assume que os parâmetros desconhecidos 𝜃 são constantes ou não há informação previa disponível sobre eles. O estimador ML tem muitas propriedades de optimização assintóticas que fazem que seja uma opção desejável especialmente quando o número de amostras é grande. O estimador de máxima verosimilitud 𝜃 𝑀𝐿 do parâmetro de vector 𝜃 é selecionado para ser o valor que maximize a função de verosimilitud 𝑝 𝑥 𝑇 𝜃 = 𝑝(𝑥 1 , 𝑥 2 , … , 𝑥 𝑇 |𝜃) das medidas x(1),x(2),…,x(T). Devido a que muitas funções de densidade contem uma função exponencial, é mais conveniente tratar com o log pela função de verosimilitud ln⁡𝑝(𝑥 𝑇|𝜃).
  • 28. Método de máxima verosimilitud (likelihood) Equação de verosimilitud: 𝛿 𝛿𝜃 ln 𝑝 𝑥 𝑇 𝜃 | 𝜃=𝜃 𝑀𝐿 = 0 4.50. Solução=> estimador de máxima verosimilitud A equação entrega os valores de 𝜃 que maximizam (ou minimizam) a função de verosimilitud. Se a função é complexa, são obtidos muitos máximos y mínimos locais, se deve escolher o valor 𝜃 𝑀𝐿 que corresponde ao máximo absoluto. Geralmente o método ML se aplica a observações x estatisticamente independentes. Logo, a função de verosimilitud é igual a: 𝑝 𝑥 𝑇 𝜃 = 𝑝(𝑥 𝑗 |𝜃) 𝑇 𝑗=1 Observe que tomando o logaritmo, o produto se desacopla na suma dos logaritmos ln 𝑝(𝑥(𝑗)|𝜃)𝑗
  • 29. Método de máxima verosimilitud (likelihood) Na prática, a carga computacional pode ser proibitiva -> usar aproximações para simplificar as equações de verosimilitud o de alguns métodos de estimação subótimos. Exemplo 4.6: Assumir T observações independentes x(1),…,x(T) de uma variável escalar aleatória x com distribuição gaussiana com média µ e variância 𝜎2 . Usando a função de verosimilitud pode ser escrita: 𝑝 𝑥 𝑇 𝜇, 𝜎2 = 2𝜋𝜎2 −𝑇 2exp⁡(− 1 2𝜎2 𝑥 𝑗 − 𝜇 2 ) 𝑇 𝑗=1 Ou, ln 𝑝 𝑥 𝑇 𝜇, 𝜎2 = ln 2𝜋𝜎2 −𝑇 2exp⁡(− 1 2𝜎2 𝑥 𝑗 − 𝜇 2 )𝑇 𝑗=1 ln 𝑝 𝑥 𝑇 𝜇, 𝜎2 = − 𝑇 2 ln 2𝜋𝜎2 − 1 2𝜎2 𝑥 𝑗 − 𝜇 2 𝑇 𝑗 =1 Ao derivar a função o primeiro termo é zero por que não depende de 𝜇 𝛿 𝛿𝜇 ln 𝑝 𝑥 𝑇 𝜇 𝑀𝐿, 𝜎2 𝑀𝐿 = 1 𝜎2 𝑀𝐿 𝑥 𝑗 − 𝜇 𝑀𝐿 𝑇 𝑗=1 = 0
  • 30. Método de máxima verosimilitud (likelihood) 𝑥 𝑗𝑇 𝑗=1 − 𝑇𝜇 𝑀𝐿 = 0 ; 𝜇 𝑀𝐿 = 1 𝑇 𝑥 𝑗𝑇 𝑗=1 Para calcular 𝜎2 𝑀𝐿 ln 𝑝 𝑥 𝑇 𝜇, 𝜎2 = − 𝑇 2 ln 2𝜋 − 𝑇 2 ln 𝜎2 − 1 2𝜎2 𝑥 𝑗 − 𝜇 2 𝑇 𝑗=1 Resolvendo a derivada o primeiro termo é 0 𝛿 𝛿𝜎2 ln 𝑝 𝑥 𝑇 𝜇 𝑀𝐿, 𝜎2 𝑀𝐿 = − 𝑇 2𝜎2 𝑀𝐿 + 1 2 1 𝜎2 𝑀𝐿 2 𝑥 𝑗 − 𝜇 2 𝑇 𝑗=1 = 0 Assim, 𝜎2 𝑀𝐿 = 1 𝑇 𝑥 𝑗 − 𝜇 2𝑇 𝑗=1 Este último é um estimador viciado pela variância 𝜎2 (assintoticamente não viciado por ser pequeno), enquanto que a média amostral 𝜇 𝑀𝐿 é um estimador não viciado pela média 𝜇.
  • 31. Método de máxima verosimilitud (likelihood) Propriedades do estimador de máxima verosimilitud: 1. Se existe um estimador que satisfaz o limite inferior Cramer-Rao como uma igualdade, este se pode determinar utilizando o método de máxima verosimilitud. 2. O estimador de máxima verosimilitud 𝜃 𝑀𝐿é consistente. 3. O estimador de máxima verosimilitud é assintoticamente eficiente. Isto significa que se alcança assintóticamente o limite inferior de Cramer-Rao para a estimação do erro
  • 32. Método de máxima verosimilitud (likelihood) Exemplo 4.7: Determinar o limite inferior de Cramer-Rao para a média 𝜇 de una variável aleatória Gaussiana a derivada do log de a função de verosimilitud foi determinada anteriormente 𝛿 𝛿𝜇 ln 𝑝 𝑥 𝑇 𝜇, 𝜎2 = 1 𝜎2 𝑥 𝑗 − 𝜇 𝑇 𝑗 =1 Calculamos a informação Fisher Considerando x(j) como independentes
  • 33. Método de máxima verosimilitud (likelihood) Partindo de 𝐸{ 𝜃 − 𝜃 |𝜃} ≥ 𝐼−1 O limite inferior de Cramer-Rao para o erro quadrado médio de qualquer estimador não viciado 𝜇 pela média de densidade gausiana é: 𝐸 𝜇 − 𝜇 𝜇 ≥ 𝐼−1 = 𝜎2 𝑇 A média amostral satisfaz a desigualdade de Cramer-Rao e é um estimador eficiente para medições gaussianas independentes.
  • 34. Método de máxima verosimilitud (likelihood) O algoritmo de máxima expectativa (EM) permite o tratamento de problemas complexos de máxima verosimilitud que tem vários parâmetros e funções de alta não linearidade. A desvantagem do EM é que pode permanecer travado em um máximo local ou sofrer de problemas de singularidade. Em contexto com métodos ICA o algoritmo EM tem sido utilizado para estimar densidades desconhecidas de fontes de sinales. O algoritmo EM (Expectation Maximization) começa adivinhando os parâmetros das distribuições e os usa para calcular as probabilidades de que cada objeto pertença a um cluster e usa essas probabilidades para calcular de novo os parâmetros das probabilidades, até convergir. O cálculo das probabilidades é a parte de expectation. A etapa de calcular os valores dos parâmetros das distribuições, é maximization.
  • 36. Estimação Bayesiana Os métodos anteriores assumem 𝜃 = constantes determinísticas. Neste método 𝜃 é assumido como um valor aleatório. Esta aleatoriedade é modelada usando a função de densidade de probabilidade previa 𝑝 𝜃 (𝜃), esta se assume como conhecida. Na prática não há nenhuma informação importante do parâmetro, mas pode assumir alguma forma útil da densidade previa. A essência é a densidade posterior 𝑝 𝜃|𝑥(𝜃|𝑥 𝑇) dos parâmetros 𝜃 conhecendo os dados 𝑥 𝑇, basicamente a densidade posterior contem toda a informação relevante dos parâmetros 𝜽. Para escolher um parâmetro de estimação especifico 𝜃 se pode realizar mediante dos métodos critério de erro quadrático médio ou escolher o máximo da densidade posterior.
  • 37. Estimação Bayesiana Estimador de erro quadrático médio mínimo para parâmetros aleatórios 𝜃 𝑀𝑆𝐸 é selecionado minimizando 𝜀 𝑀𝑆𝐸 = 𝐸 𝜃 − 𝜃 2 com respeito ao estimador 𝜃. Teorema 4.2: Assumir que os parâmetros 𝜃 e as observações 𝑥 𝑇 tem um conjunto de função de densidade de probabilidade 𝑝 𝜃,𝑥(𝜃, 𝑥 𝑇) . 𝜃 𝑀𝑆𝐸 = 𝐸 𝜃|𝑥 𝑇 4.67 𝜀 𝑀𝑆𝐸 pode ser calculado em 2 etapas. Primeiro o valor esperado é avaliado só com respeito a 𝜃, e depois respeito à medição do vector x: 𝜀 𝑀𝑆𝐸 = 𝐸 𝜃 − 𝜃 2 = 𝐸𝑥 𝐸 𝜃 − 𝜃 2 |𝑥 𝑇 𝐸 𝜃 − 𝜃 2 |𝑥 𝑇 = 𝜃 𝑇 𝜃 − 2𝜃 𝑇 𝐸 𝜃|𝑥 𝑇 + 𝐸 𝜃 𝑇 𝜃|𝑥 𝑇
  • 38. Estimação Bayesiana Estimador de erro quadrático médio mínimo para parâmetros aleatórios Observando que 𝜃 é uma função das observações 𝑥 𝑇, de modo que ele pode ser tratado como um vector não aleatório quando se calcula o valor esperado condicional. Derivando a equação anterior em relação a 𝜃 o resultado é 2𝜃 𝑀𝑆𝐸 − 2𝐸 𝜃|𝑥 𝑇 = 0 𝜃 𝑀𝑆𝐸 = 𝐸 𝜃|𝑥 𝑇 𝐸{𝜃 𝑀𝑆𝐸 } = 𝐸𝑥 𝐸 𝜃|𝑥 𝑇 = 𝐸{𝜃} Este resultado é válido para todas as distribuições nas quais o conjunto de distribuição 𝑝 𝜃|𝑥(𝜃|𝑥) existe, e mantém-se inalterada se uma matriz de ponderação é adicionada ao critério.
  • 39. Estimação Bayesiana Estimador de erro quadrático médio mínimo para parâmetros aleatórios Na prática este cálculo é difícil de fazer devido a que só se conhece o se assume a distribuição previa 𝑝 𝜃 (𝜃) e a distribuição condicional das observações 𝑝 𝑥|𝜃 (𝑥|𝜃) dado el parâmetro 𝜃. Na construção do estimador ótimo 4.67, primeiro se calculaa a densidade posterior de Bayes: 𝑝 𝜃|𝑥 𝜃 𝑥 = 𝑝 𝑥|𝜃 (𝑥 𝑇|𝜃)𝑝 𝜃 (𝜃) 𝑝 𝑥 (𝑥 𝑇) 4.71 Onde 𝑝𝑥 𝑥 𝑇 = 𝑝 𝑥|𝜃 𝑥 𝑇 𝜃 𝑝 𝜃 𝜃 𝑑𝜃 ∞ −∞ 4.72 Só em casos especiais pode-se obter analiticamente o valor de 4.67, por exemplo, se o estimador 𝜃 é restringido a ser uma função linear dos dados 𝜃 = 𝐿𝑥 𝑇 e quando o conjunto de densidade de probabilidade é gaussiana.
  • 40. Estimação Bayesiana Filtro Wiener Considere o seguimento de um problema de filtro linear. 𝑧 = [𝑧1, 𝑧2, … , 𝑧 𝑚 ] 𝑇 𝑤 = [𝑤1, 𝑤2, … , 𝑤 𝑚 ] 𝑇 Um vector de peso m-dimensional com pesos ajustáveis 𝑤𝑖, 𝑖 = 1, … , 𝑚 operando linearmente em z, a saída do filtro é: 𝑦 = 𝑤 𝑇 𝑧 No filtro Wiener, a meta é determinar o filtro linear que minimize o erro quadrático médio.
  • 41. Estimação Bayesiana Filtro Wiener 𝜀 𝑀𝑆𝐸 = 𝐸 𝑦 − 𝑑 2 Entre a resposta desejada d e a saída Y do filtro. Calculando: 𝜀 𝑀𝑆𝐸 = 𝐸 𝑤 𝑇 𝑧 − 𝑑 2 = 𝑤 𝑇 𝐸 𝑧𝑧 𝑇 𝑤 − 2𝑤 𝑇 𝐸{𝑧𝑑} + 𝐸{𝑑2 } 𝜀 𝑀𝑆𝐸 = 𝑤 𝑇 𝑅𝑧 𝑤 − 2𝑤 𝑇 𝑟𝑧𝑑 + 𝐸{𝑑2 } Rz é a matriz de correlação de dados e 𝑟𝑧𝑑 é o vector correlação cruz entre o vector dados z e a resposta desejada d. Minimizando o erro quadrático médio com relação a w provê a solução ideal do filtro Wiener 𝑤 𝑀𝑆𝐸 = 𝑅 𝑧 −1 𝑟𝑧𝑑 . El filtro Wiener é usualmente calculado diretamente resolvendo a equação linear. 𝑅 𝑧 𝑤 𝑀𝑆𝐸 = 𝑟𝑧𝑑 Na prática 𝑅 𝑧 e 𝑟𝑧𝑑 são desconhecidos.
  • 42. Estimação Bayesiana Estimador Máximo a posteriori (MAP) O estimador MAP 𝜃 𝑀𝐴𝑃 é definido como o valor do parâmetro do vector 𝜃 que maximiza a densidade posterior 𝑝 𝜃|𝑥(𝜃|𝑥 𝑇) de 𝜃dadas las medidas 𝑥 𝑇. O estimador MAP pode ser interpretado como o valor mais provável do vector de parâmetro 𝜃para los dados disponíveis 𝑥 𝑇. Partindo de 4.72 como não depende do parâmetro 𝜃 e normalizando 4.71 𝑝 𝜃|𝑥 𝜃 𝑥 = 𝑝 𝑥|𝜃 (𝑥 𝑇|𝜃)𝑝 𝜃 (𝜃) Para encontrar o estimador MAP é suficiente com encontrar o valor de 𝜃 que maximiza 4.71. O estimador MAP 𝜃 𝑀𝐴𝑃se pode encontrar resolvendo a equação logarítmica de verosimilitud 𝛿 𝛿𝜃 ln 𝑝(𝜃, 𝑥 𝑇) = 𝛿 𝛿𝜃 ln 𝑝( 𝑥 𝑇 𝜃 + 𝛿 𝛿𝜃 ln 𝑝(𝜃) = 0
  • 43. Estimação Bayesiana Se a densidade 𝑝 𝜃 é uniforme para valores de 𝜃 para os quais 𝑝(𝑥 𝑇|𝜃) é >0, aqui o MAP e o estimador de máxima verosimilitud são os mesmos. Isto acontece quando não se dispõe de informação preliminar dos parâmetros 𝜃. Quando a densidade preliminar é não uniforme, o estimador MAP e o ML são diferentes. Exemplo 4.8 Assuma que tem T observações independentes x(1),…,x(T), sendo x uma quantidade escalar aleatória com distribuição guassiana, tendo por média 𝜇 𝑥 e variância 𝜎2 𝑥. O 𝜇 𝑥 é uma variável aleatória gaussiana com média igual a zero e variância 𝜎2 𝜇 . Se assume que as variâncias são conhecidas. Da equação de verosimilitud para estimadores MAP : 𝜇 𝑀𝐴𝑃 = 𝜎2 𝜇 𝜎2 𝑥 + 𝑇𝜎2 𝜇 𝑥(𝑗) 𝑇 𝑗=1 Para o caso onde não se tem informação preliminar de 𝜇 se pode modelar 𝜎2 𝜇 tendendo a infinito, refletindo a incerteza de 𝜇
  • 44. Estimação Bayesiana 𝜇 𝑀𝐴𝑃 = 1 𝑇 𝑥(𝑗) 𝑇 𝑗=1 O estimador MAP tende à média amostral, coincidindo com o ML. Se T tende a infinito se obtêm o mesmo resultado, isto demostra que a influencia da informação preliminar decresce com o aumento das medições. Se 𝜎2 𝑥 ≫ 𝜎2 𝜇 , o numero de amostras T cresceria muito até que o MAP se aproxime ao valor limite. Em caso contrario o MAP convergiria rapidamente. O método de MAP tem vantagem sobre o método de ML devido a que considera a informação previa dos parâmetros, porém é computacionalmente mais difícil de determinar devido a um segundo termo que aparece na equação de probabilidade. Por outra parte, tanto o ML e o MAP se obtêm das equações de probabilidade, evitando as integrações geralmente difíceis necessárias no cálculo da média mínima do estimador quadrado. O MAP apresenta bons resultados na prática.