1) O documento discute inferência para cadeias de Markov, incluindo definições de processos estocásticos, propriedade de Markov e cadeias de Markov homogêneas.
2) Apresenta um exemplo de molhamento foliar em culturas de soja e como um modelo de regressão logística pode ser usado para introduzir dependência temporal.
3) Discute a estimação de parâmetros para cadeias de Markov usando máxima verossimilhança.
2. Inferência clássica
Seja uma amostra aleatória X0, X1, X2, . . . , Xn:
X0, X1, X2, . . . , Xn são i.i.d.
distribuição de probabilidade conjunta:
P(X0 ∈ A0, . . . , Xn ∈ An) =
n
i=0
P(Xi ∈ Ai) =
n
i=0
P(X ∈ Ai),
onde X tem a mesma distribuição das Xi’s.
Considere a sequência de v.a’s Xi.j onde Xi,j = 1 se chove no
i-ésimo dia do j-ésimo ano e Xi,j = 0 se não chove no i-ésimo
dia do j-ésimo ano.
Faz sentido pensar que estas v.a’s são i.i.d.?
3. Processos Estocásticos
Um processo estocástico é uma coleção de v.a’s
{Xt , α ∈ T}
onde T é um conjunto de índices que pode ser discreto
contínuo. Em geral, T = N ou [0, ∞).
Neste caso, sempre é possível escrever a distribuição conjunta
de um número finito destas v.a.’s
P(Xt0
∈ A0, . . . , Xtn ∈ An) =
P(Xt0
∈ A0)
n
i=1
P(Xti
∈ Ai|Xt0
∈ A0, . . . , Xti−1
∈ Ai−1).
4. A teoria de Processos Estocásticos estuda diversas
especificações para as probabilidades condicionais acima e
obtém resultados similares aos clássicos:
Lei dos Grandes Números (Teorema Ergódico);
Teorema Central do Limite;
Lei Assintótica;
Estimação de máxima verossimilhança;
Testes de hipóteses;
Estimação não paramétrica.
5. Xt : número de terremotos com magnitude maior que 5 que
ocorrem na região de São Francisco no período de (0, t],
onde 0 é o início do registro, por exemplo, 0:00hs do dia
01/01/1950. Processo a tempo contínuo com espaço de
estados discreto.
6. Xt : número de terremotos com magnitude maior que 5 que
ocorrem na região de São Francisco no período de (0, t],
onde 0 é o início do registro, por exemplo, 0:00hs do dia
01/01/1950. Processo a tempo contínuo com espaço de
estados discreto.
(Xk , Yk ): número de nascimento e mortes,
respectivamente, ocorridos no dia k em uma colônia de
vetores trnsmissores de doença de Chagas. Processo a
tempo discreto com espaço de estados discreto.
7. Xt : número de terremotos com magnitude maior que 5 que
ocorrem na região de São Francisco no período de (0, t],
onde 0 é o início do registro, por exemplo, 0:00hs do dia
01/01/1950. Processo a tempo contínuo com espaço de
estados discreto.
(Xk , Yk ): número de nascimento e mortes,
respectivamente, ocorridos no dia k em uma colônia de
vetores trnsmissores de doença de Chagas. Processo a
tempo discreto com espaço de estados discreto.
Xy,t : espessura da camada de ozônio na locação y no
tempo t. Aqui temos T = R2 × [0, ∞). Processo a tempo
contínuo com espaço de estados contínuo.
8. Xt : a intensidade de um sinal a uma distância t da origem.
Processo a tempo contínuo com espaço de estados
contínuo. além disso, “tempo” é a distância.
9. Xt : a intensidade de um sinal a uma distância t da origem.
Processo a tempo contínuo com espaço de estados
contínuo. além disso, “tempo” é a distância.
Clientes chegam a uma fila de supermercado de acordo
com um processo de Poisson. Os clientes são atendidos
por um caixa que atende cada cliente de acordo a uma
distribuição exponencial de parâmetro 1. Seja Xt o número
de clientes na fila. Processo a tempo contínuo com
espaço de estados discreto.
10. Xt : a intensidade de um sinal a uma distância t da origem.
Processo a tempo contínuo com espaço de estados
contínuo. além disso, “tempo” é a distância.
Clientes chegam a uma fila de supermercado de acordo
com um processo de Poisson. Os clientes são atendidos
por um caixa que atende cada cliente de acordo a uma
distribuição exponencial de parâmetro 1. Seja Xt o número
de clientes na fila. Processo a tempo contínuo com
espaço de estados discreto.
Temos duas caixas com um total de d bolas numeradas de
1 a d. Em cada experimento selecionamos uma bola ao
acaso e a trocamos de caixa. Seja Xt o número de bolas
na caixa 1 no instante t. Processo a tempo discreto com
espaço de estados discreto.
11. Aplicações de Cadeias de Markov
Física, química, biologia, ciências sociais, jogos, música,
linguística, neurociência, bioinformática, reconhecimento
de imagens, reconhecimento de assinaturas, etc.
Por exemplo, o “PageRank” de uma página da web como
usado pelo Google é completamente definido através de
uma cadeia de Markov.
12. Propriedade de Markov
Espaço de estados discreto e tempo discreto
X0, X1, . . . v.a.’s discretas com valores possíveis I
enumerável.
P(Xn = x|X0 = x0, X1 = x1, . . . , Xn−1 = xn−1) =
P(Xn = x|Xn−1 = xn−1)
para todo n ≥ 1 e todos os valores de x, x0, x1, . . . , xn−1 ∈ I.
14. Propriedade de Markov
Definições equivalentes
P(Xn = x|Xn0
= x0, Xn1
= x1, . . . , Xnk
= xk ) = P(Xn = x|Xnk
= xk )
para todo n ≥ 1 e n0 < n1 < . . . < nk ≤ n − 1.
P(Xn+m = x|X0 = x0, X1 = x1, . . . , Xn = xn) = P(Xn = x|Xn = xn)
para todo n ≥ 1 e todos os valores de x, x0, x1, . . . , xn−1 ∈ I.
15. Cadeia de Markov homogênea
P(Xn = j|Xn−1 = i) = P(X1 = j|X0 = i) := pij
para todo n ≥ 1 e todos os valores de i, j ∈ I.
Matriz de transição
P = (pij)
A matriz de transição é uma matriz estocástica, i.e.,
pij ≥ 0, ,
j
pij = 1.
Matriz de transição em n-passos
Pn = (pij(n))
onde
pij(n) = P(Xn = j|X0 = i)
18. Distribuições marginais
Defina
µ
(n)
i = P(Xn = i).
e
µ(n)
= (µ
(n)
i , i ∈ I).
Note que
µ
(1)
i = P(X1 = i) =
k
P(X1 = i, X0 = k)
=
k
P(X1 = i|X0 = k)P(X0 = k)
=
k
pkiµ
(0)
k
19. µ
(2)
i = P(X2 = i) =
j
P(X2 = i, X1 = j)
=
j
P(X2 = i|X1 = j)P(X1 = j)
=
j
pjiµ
(1)
j =
j
pji
k
pkjµ
(0)
k
Em geral,
µ(n+m) = µ(m)Pn e µ(n) = µ(0)Pn
20. Exemplo: Snoqualmie Falls
dados diários para se choveu ou não, pelo menos, 0,01 cm
36 anos
Janeiro para obter um sistema homogêneo e estacionário.
I = {0, 1} Matriz de transição
P =
p00 p01
p10 p11
Será que os dados não são independentes?
21. Hoje
0 1
0 186 (91) 123 (223) 309
Ontem
1 128 (223) 643 (543) 771
314 766 1080
Os valores entre parenteses são os valores esperados sob a
hipótese de independência. X2 = 202, 89 e χ2
1;1% = 6, 63.
22. Função de verossimilhança
L(P, x) = P(X0 = x0)
n−1
i=0
P(Xi+1 = xi+1|Xi = xi)
= P(X0 = x0)
n−1
i=0
pxi ,xi+1
= P(X0 = x0)
k,l∈I
p
nk,l
k,l
onde nk,l = número de vezes em que Xi = k, Xi+1 = l.
23. No exemplo de Snoqualmie Falls,
L(P, x) =
36
j=1
P(X0,j = x0,j)
p186
00 p123
01 p128
10 p643
11 .
Assuma que os x0,j são fixos e P(X0,j = x0,j) = 1, se não,
podemos usar as 36 amostras para estimar esta probabilidade.
• p00 + p01 = 1 e p10 + p11 = 1,
ˆP1,0 = n1,0/(n0,0 + n1,0)
e
ˆP1,1 = n1,1/(n0,1 + n1,1)
As estimativas de MV são dadas por:
ˆp1,0 = 123/309 = 0, 398 ˆp1,1 = 643/771 = 0, 834
24. Exemplo - Ferrugem asiática:
Doença que está atacando as culturas de soja causando
muito prejuízo aos produtores e demanda aplicações de
fungicida causando danos ao meio ambiente e excessivos
gastos.
25. Exemplo - Ferrugem asiática:
Doença que está atacando as culturas de soja causando
muito prejuízo aos produtores e demanda aplicações de
fungicida causando danos ao meio ambiente e excessivos
gastos.
Um dos fatores que influenciam para a ocorrência da
doença é o molhamento foliar superior a oito horas.
26. Exemplo - Ferrugem asiática:
Doença que está atacando as culturas de soja causando
muito prejuízo aos produtores e demanda aplicações de
fungicida causando danos ao meio ambiente e excessivos
gastos.
Um dos fatores que influenciam para a ocorrência da
doença é o molhamento foliar superior a oito horas.
Molhamento foliar – acúmulo de água líquida causado por
precipitação ou condensação da umidade atmosférica na
forma de orvalho - superior a 8 horas.
27. As variáveis coletadas:
1. molhamento foliar (codificada como 1 se há molhamento
superior a oito horas e 0 caso contrário),
2. velocidade do vento em m/s,
3. umidade relativa do ar,
4. precipitação em mm e temperatura média em oC.
Quatro estações meteorológicas:
Lucas do Rio verde (MT),
Rio Verde (GO),
Passo Fundo (RS) e
Holambra (SP)
Dados enviados diariamente para o CEPAGRI - Unicamp
(Centro de Pesquisas Meteorológicas e Climáticas Aplicadas à
Agricultura).
28. Fonsechi (2006)
Modelo de Regressão Logístico para variáveis binárias
variáveis dependem do tempo anterior, por exemplo, se
choveu no tempo t − 1 influencia se haverá molhamento
ou não no tempo t. Obviamente não podemos esperar
independência de um tempo para o outro.
Modelo
P(Y | X) =
n
i=1
P(Yi | Y1, . . . , Yi−1, X)
onde Y é a variável resposta e X é a matriz de covariáveis.
29. Pode-se definir o i-ésimo logito como:
θi = log
P(Yi = 1|Y1, . . . , Yi−1, Xi)
P(Yi = 0|Y1, . . . , Yi−1, Xi)
e assumir que θi é função linear de Y1, . . . , Yi−1, Xi.
Temos, então, um problema de regressão no qual a resposta Yi
é binária, mas o conjunto de valores da variável explicativa
muda de acordo com i.
30. Para introduzir dependência no modelo é necessário criar
variáveis auxiliares que são funções lineares dos Yi s:
Zi =
2Yi − 1 se Yi = 0 ou 1
0 se Yi desconhecido
Definimos a regressão logística da seguinte forma:
θ1 = α + βX1
θi = α +
i−1
j=1
γjZj + βXi, i = 1, . . . , n
em que α, β e γ s são parâmetros que variam no intervalo
(−∞, ∞) e a dependência foi introduzida no modelo através
das variáveis Zi s presentes nos logitos.
31. Temos
P(Y|X) =
n
i=1
eθi
(1 + eθi )
.
Para (j < i)
Yj =1, a chance do dia i ter molhamento (Yi = 1) aumenta
em eγj ,
Yj desconhecido não muda a chance,
Yj=0 diminui a chance em eγj
um aumento de uma unidade em Xi aumenta a chance do
dia i ter molhamento em eβ.
33. Estruturas Markovianas de Dependência
Com a estrutura de primeira ordem o modelo torna-se:
P(Y|X) = P(Y1|X)
n
i=2
P(Yi|Yi−1, X).
Com a estrutura de segunda ordem o modelo torna-se:
P(Y|X) = P(Y1|X)P(Y2|Y1, X)P
n
i=3
P(Yi|Yi−1, Yi−2, X).
Portanto, a probabilidade de ter molhamento foliar no dia i só
depende da resposta do dia imediatamente anterior (ou dois
dias). Nesse caso, os logitos podem ser escritos como:
θi = α + γZi−1 + βXi.
34. Método de análise
Foi utilizado o software livre R (www.r-project.org)
Para as quatro estações testou-se o modelo com estrutura
Markoviana de dependência de primeira e segunda ordem
Ajustou-se primeiramente um modelo com todas as
covariáveis (Modelo completo) e depois utilizou-se
stepwise para selecior as covariáveis que realmente são
significativas ao modelo (Modelo reduzido). Critério AIC.
Para verificar a adequação do modelo foi utilizado a
estatística “deviance” (−2logL, sendo L a funcão de
verossimilhança), essa estatística tem distribuição χ2
n−p−1,
sendo n − p − 1 o graus de liberdade, n é o número de
observações e p é o número de parâmetros.
35. Passo Fundo - Estrutura Markoviana de 1a ordem
Tabela: Modelo Completo
Parâmetro Estimação teste-t
Intercepto -13.80594 6.03e-06
Z 0.68004 0.00104
UR 0.15166 2.50e-08
Temp média 0.0995 0.12957
Velocidade Vento -0.24003 0.28894
Chuva 0.05070 0.28251
36. Passo Fundo - Estrutura Markoviana de 1a ordem
Tabela: Modelo Reduzido
Parâmetro Estimação teste-t
Intercepto -15.67279 5.97e-08
Z 0.66143 0.00103
UR 0.16491 4.24e-11
Temp média 0.10751 0.09699
Para Passo Fundo, com estrutura markoviana com
dependência de primeira ordem a deviance foi 161,1 e o valor
tabelado da χ2
223 é 189.43, ou seja, pelo teste de bondade de
ajuste esse modelo é adequado.
37. Passo Fundo - Estrutura Markoviana de segunda
ordem
Tabela: Modelo Completo
Parâmetro Estimação teste-t
Intercepto -13.80594 8.99e-06
Z1 0.52782 0.0197
Z2 0.36670 0.0960
UR 0.15069 4.24e-08
Temp média 0.10047 0.1332
Velocidade Vento -0.25198 0.2793
Chuva 0.055070 0.2512
38. Tabela: Modelo Reduzido
Parâmetro Estimação teste-t
Intercepto -15.79363 6.88e-08
Z1 0.51292 0.0204
Z2 0.34475 0.1150
UR 0.16604 5.61e-11
Temp média 0.10841 0.100
Apesar de ter utilizado o método stepwise para selecionar o
melhor modelo ainda há variáveis não significativas no modelo
ao nível de significância de 10%, sendo ela a variável que
representa a estrutura de dependência de segunda ordem, ou
seja, o modelo para passo fundo, com dependência de
primeira ordem é o mais adequado para o conjunto de dados
de Passo Fundo.
39. Conclusão
Verificou-se a eficiência da utilização do Modelo Logístico
Regressivo para a estimação de molhamento foliar na
cultura da soja.
Para as quatro estações testadas, o modelo que melhor
ajusta aos dados meteorológicos é o logístico regressivo
com estrutura markoviana de primeira ordem, ou seja, o
modelo que leva em consideração a dependência do dia
anterior para a ocorrência de molhamento foliar.
Com as previsões meteorológicas e o uso do modelo
proposto será possível um melhor monitoramento da
cultura da soja, acionando os produtores de soja para
alertá-los quando houver indícios da ocorrência de
molhamento foliar superior a 8 horas, ajudando assim o
momento certo para aplicação de fungicida.
41. Urna de Ehrenfest
Modelo para troca de calor ou gases entre dois corpos
isolados.
Temos duas caixas com um total de d bolas numeradas de
1 a d.
42. Urna de Ehrenfest
Modelo para troca de calor ou gases entre dois corpos
isolados.
Temos duas caixas com um total de d bolas numeradas de
1 a d.
Inicialmente algumas destas bolas estão na caixa 1 e o
restante na caixa 2.
43. Urna de Ehrenfest
Modelo para troca de calor ou gases entre dois corpos
isolados.
Temos duas caixas com um total de d bolas numeradas de
1 a d.
Inicialmente algumas destas bolas estão na caixa 1 e o
restante na caixa 2.
Em cada experimento selecionamos uma bola ao acaso
(i.e, selecionamos ao acaso um número entre 1 e d) e a
trocamos de caixa.
44. Urna de Ehrenfest
Modelo para troca de calor ou gases entre dois corpos
isolados.
Temos duas caixas com um total de d bolas numeradas de
1 a d.
Inicialmente algumas destas bolas estão na caixa 1 e o
restante na caixa 2.
Em cada experimento selecionamos uma bola ao acaso
(i.e, selecionamos ao acaso um número entre 1 e d) e a
trocamos de caixa.
Repita o procedimento sequencialmente. Seja Xn o
número de bolas na caixa 1 no instante n.
45. Xn é uma cadeia de Markov com espaço de estados
{0, 1, . . . , d} e matriz de transição
P(x, y) =
(x/d), y = x − 1,
1 − (x/d), y = x + 1,
0, caso contrário
46. Ruína do jogador
Definição: Um estado a de uma cadeia de Markov é dito ser
absorvente se P(a, y) = 0, para y = a.
Um jogador começa com um capital inicial de i reais e faz
uma sequência de apostas de R$ 1,00.
47. Ruína do jogador
Definição: Um estado a de uma cadeia de Markov é dito ser
absorvente se P(a, y) = 0, para y = a.
Um jogador começa com um capital inicial de i reais e faz
uma sequência de apostas de R$ 1,00.
Assuma que ele tem probabilidade p de ganhar e
probabilidade 1 − q de perder a cada aposta
independentemente das apostas anteriores.
48. Ruína do jogador
Definição: Um estado a de uma cadeia de Markov é dito ser
absorvente se P(a, y) = 0, para y = a.
Um jogador começa com um capital inicial de i reais e faz
uma sequência de apostas de R$ 1,00.
Assuma que ele tem probabilidade p de ganhar e
probabilidade 1 − q de perder a cada aposta
independentemente das apostas anteriores.
Se seu capital chegar a zero ele se arruinará e seu capital
continuará zero para sempre.
49. Esta é uma CM com espaço de estados {0, 1, . . .}
onde 0 é um estado absorvente e para x ≥ 1
P(x, y) =
1 − p, y = x − 1,
p, y = x + 1,
0, caso contrário
50. Esta é uma CM com espaço de estados {0, 1, . . .}
onde 0 é um estado absorvente e para x ≥ 1
P(x, y) =
1 − p, y = x − 1,
p, y = x + 1,
0, caso contrário
Se houver um adversário que inicia o jogo com
d − i reais e o jogo termina quando o capital do
1o. jogador atinge 0 ou d o espaço de estados é
{0, 1, . . .} onde 0 e d são estado absorventes e
para 1 ≤ x ≤ d − 1
P(x, y) =
1 − p, y = x − 1,
p, y = x + 1,
0, caso contrário
51. Cadeias de nascimento e morte
Considere uma CM com espaço de estados I = {0, 1, . . .}
ou I = {0, 1, . . . , d}.
Estando no estado x no próximo passo somente poderá
estar em x, x + 1 ou x − 1.
Considere que a matriez de transição seja:
P(x, y) =
qx , y = x − 1,
px , y = x + 1,
rx , y = x,
0, caso contrário
onde para cada x, px , qx , rx ≥ 0, px + qx + rx = 1.
52. Classificação de estados:
Seja A um subconjunto do espaço de estados I. O tempo de
chegada a A é definido como:
TA =
min{n > 0; Xn ∈ A}, se Xn atinge A,
∞, caso contrário
Notaçao:
A = {a} usamos a notação: Ta.
Denotaremos por Px (·) as probabilidades dos
diversos eventos quando o estado inicial da
cadeia for x. Assim,
Px (X1 = a, X2 = b) = P(X1 = a, X2 = b|X0 = x).
53. Uma identidade importante:
Pn(x, y) = n
m=1 Px (Ty = m)Pn−m(y, y), n ≥ 1
Se a é um estado absorvente então
Pn−m
(a, a) = 1, para1 ≤ m ≤ n.
e
Pn
(x, a) =
n
m=1
Px (Ta = m)Pn−m
(a, a)
=
n
m=1
Px (Ta = m) = Px (Ta ≤ n).
54. Observe que
Px (Ty = 1) = Px (X1 = y) = P(x, y)
e que
Px (Ty = 2) =
z=y
Px (X1 = z, X2 = y) =
z=y
P(x, z)P(z, y).
Em geral,
Px (Ty = n + 1) = z=y P(x, z)Pz(Ty = n), n ≥ 1
55. Estados recorrentes e transientes
ρxy = Px (Ty < ∞) = probabilidade que uma CM
começando em x consiga atingir o estado y em tempo
finito.
56. Estados recorrentes e transientes
ρxy = Px (Ty < ∞) = probabilidade que uma CM
começando em x consiga atingir o estado y em tempo
finito.
ρyy = probabilidade que uma CM começando em y alguma
vez retorne a y.
57. Estados recorrentes e transientes
ρxy = Px (Ty < ∞) = probabilidade que uma CM
começando em x consiga atingir o estado y em tempo
finito.
ρyy = probabilidade que uma CM começando em y alguma
vez retorne a y.
Um estado y é dito ser:
1. recorrente se ρyy = 1;
2. transiente se ρyy < 1.
58. Estados recorrentes e transientes
ρxy = Px (Ty < ∞) = probabilidade que uma CM
começando em x consiga atingir o estado y em tempo
finito.
ρyy = probabilidade que uma CM começando em y alguma
vez retorne a y.
Um estado y é dito ser:
1. recorrente se ρyy = 1;
2. transiente se ρyy < 1.
Se y é um estado absorvente, então Py (T1 = y) = 1 e
ρyy = 1 e y é recorrente.
59. Para cada estado y ∈ I defina a v.a.
N(y) =
∞
n=1
1y (Xn)
o número de vezes que a CM visita o estado y.
Note que:
Px (N(y) ≥ 1) = Px (Ty < ∞) = ρxy .
É fácil ver que a propriedade de Markov diz que: a
probabilidade da cadeia começando em x visitar pela primeira
vez y após m passos e retornar a y n passos depois é
Px (Ty = m)Py (Ty = n).
60. Portanto,
Px (N(y) ≥ 2) =
∞
m=1
∞
n=1
Px (Ty = m)Py (Ty = n)
=
∞
m=1
Px (Ty = m)
∞
n=1
Py (Ty = n)
= ρxy ρyy .
Similarmente,
Px (N(y) ≥ m) = ρxy ρm−1
yy , m ≥ 1.
Usando o fato que
Px (N(y) = m) = Px (N(y) ≥ m) − Px (N(y) ≥ m + 1).
Px (N(y) = m) = ρxy ρm−1
yy (1 − ρyy ), m ≥ 1.
e
Px (N(y) = 0) = (1 − ρxy ).
61. Observe que
Ex (N(y)) = Ex
∞
n=1
1y (Xn)
=
∞
n=1
Ex (1y (Xn))
=
∞
n=1
Pn
(x, y).
Defina
G(x, y) = Ex (N(y)) = ∞
n=1 Pn(x, y).
62. O seguinte teorema descreve a diferença fundamental entre
estados transientes e estados recorrentes:
Teorema: (i) Seja y um estado transiente. Então:
Px (N(y) < ∞) = 1
e
G(x, y) =
ρxy
1 − ρyy
.
(ii) Seja y um estado recorrente. Então:
Py (N(y) = ∞) = 1 e G(y, y) = 1.
Mais ainda,
Px (N(y) = ∞) = Px (Ty < ∞) = ρxy .
Se ρxy = 0 então G(x, y) = 0 enquanto que ρxy > 0 implica
que G(x, y) = ∞.
63. Seja y um estado transiente. Como
∞
n=1
Pn
(x, y) = G(x, y) < ∞ ⇒ lim
n
Pn
(x, y) = 0.
Uma CM é dita ser transiente se todos os seus estados são
transientes e recorrente se todos os seus estados são
recorrentes.
É fácil ver que toda CM finita precisa ter pelo menos um estado
recorrente, i.e. não pode ter todos os seus estados transientes:
0 =
y∈I
lim
n
Pn
(x, y)
CM finita = lim
n
y∈I
Pn
(x, y)
= lim
n
Px (Xn ∈ I)
= 1.
64. Decomposição do espaço de estados:
Sejam x e y ∈ I
x → y, se ρxy > 0.
x → y se, e somente se, Pn(x, y) > 0 para algum n.
x → y e y → z então x → z.
Teorema: Seja x um estado recorrente e suponha que
x → y. Então y é recorrente e ρxy = ρyx = 1.
65. Um conjunto não vazio C ⊂ I é dito ser fechado se
nenhum estado de dentro de C leva a um estado fora de
C, i.e., se
ρxy = 0, x ∈ C, y ∈ C.
Equivalentemente, C é fechado se, e somente se,
Pn
(x, y) = 0, x ∈ C, y ∈ C, para todo n ≥ 1.
Se C é um conjunto fechado então uma CM começando
em C ficará em C com probabilidade 1.
Se A é um estado absorvente, então {a} é fechado.
66. Um conjunto fechado é dito ser irredutível se x → y para
todos x, y ∈ C.
Segue do Teorema anterior que se C é uma classe
fechada e irredutível, então ou todo estado de C é
recorrente, ou todo estado de C é recorrente.
Seja C uma classe fechada irredutível de estados
recorrentes. então ρxy = 1, Px (N(y) = ∞) = 1 e
G(x, y) = ∞ para todas as escolhas de x, y ∈ C.
Uma cadeia de Markov irredutível é uma cadeia cujo
espaço de estados I é fechado e irredutível. Segue que
tais cadeias ou são transientes ou são recorrentes.
67. Teorema: Seja C um conjunto finito de estados. Então todos
os estados em C são recorrentes.
Considere uma CM com um número finito de estados.
Se a CM é irredutível, deve ser recorrente.
Se a CM não é irredutível verificamos quais são as classes
irredutíveis e quais estados são recorrentes e transientes.
69. Note que a matriz abaixo traz os valores + e 0 de acordo com
x → y, i.e, ρxy > 0.
+ 0 0 0 0 0
+ + + + + +
+ + + + + +
0 0 0 + + +
0 0 0 + + +
0 0 0 + + +
Obviamente, se P(x, y) > 0 então ρxy > 0, mas a recíproca
não é verdadeira pois P(2, 0) = 0 e ρ20 > 0 pois
P2
(2, 0) = P(2, 1)P(1, 0) =
1
5
1
4
=
1
20
> 0.
70. 0 é um estado absorvente, portanto é recorrente.
Também vemos pela matriz acima que {3, 4, 5} é uma
classe finita, fechada e irredutível portanto todos os seus
estados são recorrentes.
2 → 0 e 1 → 0 mas 0 → 2 e 0 → 1, sendo assim 1 e 2 tem
que ser estados transientes.
71. Sejam:
IT o conjunto de estados transientes;
IR o conjunto de estados recorrentes.
Neste exemplo, IT = {1, 2} e IR = {0} ∪ {3, 4, 5}.
Sempre é possível decompor IR numa união disjunta (finita ou
enumerável) de classes irredutíveis.
72. Probabilidades de absorção
Seja C uma das classes fechadas irredutíveis de estados
recorrentes e defina:
ρC(x) := Px (TC < ∞)
a probabilidade de que a CM começando em x eventualmente
atinja C ( e permaneça em C para sempre). Claramente,
ρC(x) = 1, se x ∈ C ρC(x) = 0, se x é recorrente, mas x ∈ C
Como calcular ρC(x) se x for transiente?
73. Se temos somente um número finito de estados
transientes, em particular se I é finito, pode-se encontrar
ρC(x), x ∈ IT através de um sistema linear de equações.
Observe que se x ∈ IT , uma cadeia somente pode ser
absorvido em C se, (i) for absorvindo em C no instante 1;
ou (ii) continuar em IT no instante 1 e ser absorvido em C
em um tempo futuro.
O evento (i) tem probabilidade y∈C P(x, y) e o evento (ii)
tem probabilidade y∈IT
P(x, y)ρC(y).
74. ρC(x) = y∈C P(x, y) + y∈IT
P(x, y)ρC(y), x ∈ IT .
A equação acima pode ser resolvida se IT é finito. No caso de
IT não é claro como resolver o sistema, nem mesmo garantir
que o sistema tenha solução única.
75. Exemplo: Encontre ρ10 = ρ{0}(1) e ρ20 = ρ{0}(2). Montando o
sistema de equções temos,
ρ10 = 1/4 + (1/2)ρ10 + (1/4)ρ20
ρ20 = (1/5)ρ10 + (2/5)ρ20
A solução é: ρ10 = (3/5) e ρ20 = (1/5).
Note que uma vez que uma CM começando em um estado
transiente x entra em uma classe fechada, irredutível de
estados recorrentes, visita todos os estados de C com
probabilidade 1. Assim,
ρxy = ρC(x), para todo y ∈ C.
Portanto,
ρ13 = ρ14 = ρ15 = 2/5,
ρ23 = ρ24 = ρ25 = 4/5.
76. Cadeias de nascimento e morte
CM irredutível: ou todos os estados recorrentes, ou todos
estados transientes.
CM irredutível finita: todos os estados recorrentes.
O que fazer no caso I infinito?
77. Considere uma CM com espaço de estados I = {0, 1, . . .}
ou I = {0, 1, . . . , d}.
Estando no estado x no próximo passo somente poderá
estar em x, x + 1 ou x − 1.
Considere que a matriez de transição seja:
P(x, y) =
qx , y = x − 1,
px , y = x + 1,
rx , y = x,
0, caso contrário
onde para cada x, px , qx , rx ≥ 0, px + qx + rx = 1. Note
que q0 = 0 e pd = 0 se d < ∞.
Assuma que px , qx > 0 para 0 < x < d.
78. Para a < b ∈ I, seja
u(x) = Px (Ta < Tb), a < x < b
e
u(a) = 1, u(b) = 0.
Portanto, é fácil ver que
u(y) = qy u(y − 1) + ry u(y) + py u(y + 1), a < y < b.
Como ry = 1 − py − qy temos
u(y + 1) − u(y) =
qy
py
(u(y) − u(y − 1)), a < y < b.
79. Defina γ0 = 1 e
γy =
q1···qy
p1···py
, 0 < y < d.
Temos,
u(x) =
b−1
y=x γy
b−1
y=a γy
, a < x < b.
Portanto, da definição de u(x) temos
Px (Ta < Tb) =
b−1
y=x γy
b−1
y=a γy
, a < x < b.
Px (Tb < Ta) =
x−1
y=a γy
b−1
y=a γy
, a < x < b.
80. Exemplo:
Um jogador na roleta faz uma sequência de apostas de
$1.00.
Ele tem probabilidades 9/19 e 10/19 de ganhar e perder
respectivamente.
O jogador decide que ele pára de jogar se ele lucra $25.00
ou se ele perde $10.00.
(a) Ache a probabilidade dele parar de jogar ganhando.
(b) Ache sua perda esperada.
81. Xn: capital do jogador no tempo n com X0 = 10.
Xn é uma cadeia de nascimento e morte com
I = {0, 1, . . . , 35}
taxas px = 9/19, 0 < x < 35 e qx = 10/19, 0 < x < 35.
Os estados 0 e 35 são aobsorventes.
Aplicar a fórmula para a = 0, x = 10, b = 35. Portanto,
γy = (10/9)y
, 0 ≤ y ≤ 34,
Probabilidade de ganhar:
P10(T35 < T0) =
9
y=0(10/9)y
34
y=0(10/9)y
=
(10/9)10 − 1
(10/9)35 − 1
= 0.047.
Perda esperada: 10 − 35 × (0.047) = 8.36.
82. Distribuição estacionária
Seja Xn, n ≥ 0 uma CM com espaço de estados I e matriz
de transição P.
Uma distribuição estacionária π(x), x ∈ I satisfaz:
1. π(x) ≥ 0, x ∈ I;
2. x∈I π(x) = 1;
3. x∈I π(x)P(x, y) = π(y), y ∈ I.
83. Distribuição limite
Suponha que temos
lim
n→∞
Pn
(x, y) = π(y), y ∈ I.
Neste capítulo queremos determinar quando temos
distribuição estacionária, quando temos distribuição limite
e quando elas são iguais.
84. Propriedades de distribuições estacionárias
Seja π uma distribuição estacionária para P. Então:
x∈I
π(x)P2
(x, y) =
x∈I
π(x)
z
P(x, z)P(z, y)
=
z x
π(x)P(x, z) P(z, y)
=
z
π(z)P(z, y) = π(y).
Portanto, por indução, usando a fórmula
Pn+1
(x, y) =
z
Pn
(x, z)P(z, y),
temos
x∈I π(x)Pn(x, y) = π(y), y ∈ I.
85. Se π0 = π temos que
P(Xn = y) = π(y), y ∈ I
e a distribuição de Xn é independente de n.
Suponha reciprocamente que πn não dependa de n, então
a distribuição de X0 e X1 são idênticas e
π0(y) = π1(y) = x π0(x)P(x, y). Consequentemente,
π0 é distribuição estacionária.
A distribuição de Xn é independente de n se, e
somente se, π0 é estacionária.
86. Suponha que π é distribuição estacionária e
lim
n→∞
Pn
(x, y) = π(y), y ∈ I.
então P(Xn = y) = x π0(x)Pn(x, y), y ∈ I.
Tirando o limite nos dois lados da equação e passando o limite
dentro do somatório, temos
lim
n→∞
Pn
(x, y) =
x
π0(x)π(y), y ∈ I.
Como x π0(x) = 1 temos
limn→∞ Pn(x, y) = π(y), y ∈ I.
87. Temos que se π é uma distribuição estacionária e
lim
n→∞
Pn
(x, y) = π(y), y ∈ I
, a distribuição πn se aproxima de π independemtemente
da distribuição inicial.
Portanto, π é a única distribuição estacionária, senão
usaríamos a outra distribuição para π0 e teríamos π = π0.
Suponha que observamos nosso sistema por um tempo
longo, digamos n0 passos e seja
Yn = Xn0+n,
As v.a.’s Yn formam uma CM com a mesma matriz de
transição P. Se N0 for suficientemente grande, podemos
supor que a distribuição marginal de Yn é a mesma da
distribuição estacionária π.
88. Exemplo 1:
P =
1 − p p
q 1 − q
Se p + q > 0 temos
π(0) =
q
p + q
π(1) =
p
p + q
.
89. Cadeias de nascimento e morte
Considere uma cadeia de nascimento e morte com
I = {0, 1, . . .}. Vamos assumir que a cadeia é irredutível i.e.,
px > 0, 0 ≤ x < ∞
qx > 0, 0 < x < ∞.
O sistema de equações
x
π(x)P(x, y) = π(y)
será:
r0π(0) + q1π(1) = π(0)
py−1π(y − 1) + ry π(y) + qy+1π(y + 1) = π(y), y ≥ 1.
92. Temos que verificar se as soluções de (1) satisfazem
x π(x) = 1.
Caso 1: x πx < ∞.
1 =
x
π(x) =
x
πx π(0)
Portanto,
π(0) = 1
x πx
, π(x) = πx
x πx
x ≥ 1.
Caso 2: x πx = ∞.
x
π(x) =
x
πx π(0) =
0, se π(0) = 0
∞, se π(0) > 0
Portanto, não existe distribuição estacionária.
Todas as deduções anteriores valem para o caso de cadeias
de nascimento e morte finitas, i.e. d < ∞.
93. Urna de Ehrenfest
d = 3
P =
0 1 0 0
1/3 0 2/3 0
0 2/3 0 1/3
0 0 1 0
Esta é uma cadeia de nascimento e morte irredutível com
π0 = 1, π1 = 3, π2 = 3, π3 = 1.
Portanto, a única distribuição estacionária é dada por:
π(0) = 1/8, π(1) = 3/8, π(2) = 3/8, π(3) = 1/8.
Note que neste caso, Pn(x, y) = 0 para valores ímpares de n.
Assim,
Pn
(x, x) → π(x).
94. Urna de Ehrenfest modificada: Suponha que temos o
mesmo esquema da urna de Ehrenfest, mas a cada troca
jogamos independentemente uma moeda e se esta sair cara
decidimos não mudar a bola de urna.
P =
1/2 1/ 0 0
1/6 1/2 2/6 0
0 2/ 1/2 1/6
0 0 1/2 1/2
Entretanto, π0 = 1, π1 = 3, π2 = 3, π3 = 1.
Portanto, a única distribuição estacionária é dada por:
π(0) = 1/8, π(1) = 3/8, π(2) = 3/8, π(3) = 1/8.
Neste caso, veremos mais tarde,
Pn
(x, y) → π(y), para todo y, quando n → ∞.
95. Condições de balanço detalhado
π(x)p(x, y) = π(y)p(y, x) ⇒ π(y) =
x
π(x)p(x, y)
pois x p(y, x) = 1.
96. Estados recorrentes positivos e recorrentes nulos
Um estado é recorrente se
ρyy = Py (Ty < +∞) = 1
Se y é recorrente então:
y é recorrente positivo se my = Ey (Ty ) < +∞;
y é recorrente nulo se my = Ey (Ty ) = +∞;
97. Número médio de visitas a um estado recorrente:
Defina Nn(y) o número de visitas ao estado y nos instantes
1, 2, . . . , n. Isto é, Nn(y) = n
m=1 1y (Xm).
Defina Gn(x, y) o número médio de visitas ao estado y dado
que X0 = x durante os instantes 1, 2, . . . , n
Gn(x, y) =
n
m=1
Ex [1y (Xm)] =
n
m=1
Pm
(x, y).
98. 1.- Seja y um estado transiente. então
lim
n
Nn(y) = N(y) < ∞ com probabilidade 1,
e
lim
n
Gn(x, y) = G(x, y) < +∞.
Portanto,
lim
n
Nn(y)
n
= 0 com probabilidade 1,
e
lim
n
Gn(x, y)
n
= 0, x ∈ S.
99. Seja y um estado recorrente. Então:
lim
n
Nn(y)
n
=
1Ty <∞
my
com probabilidade 1,
e
lim
n
Gn(x, y)
n
=
ρxy
my
, x ∈ S.
Intuição: Uma vez que a cadeia chega ao estado y ela retorna
a y, “em média uma vez a cada my unidades de tempo”.
Assim, se y pode ser alcançado eventualmente e n é grande, a
proporção de tempo que a cadeia gasta no estado y é
aproximadamente 1/my .
100. Corolário: Seja C um conjunto fechado irredutível de estados
recorrentes. Então,
lim
n
Gn(x, y)
n
=
1
my
, x, c ∈ C
e se P(X0 ∈ C) = 1,
lim
n
Nn(y)
n
=
1
my
com probabilidade 1.
Note que as fórmulas valem para my = +∞.
101. Teorema: Seja x um estado recorrente positivo e suponha que
x → y. então y é recorrente positivo.
Portanto, em uma classe de estados fechada, irredutível ou
todos os estados são transientes, ou todos os estados são
recorrentes positivos ou todos os estados são recorrentes
nulos.
102. Se C é uma classe fechada e finita então C tem pelo
menos um estado recorrente positivo.
Se C é uma classe fechada, irredutível e finita de estados
então todo estado é recorrente positivo.
Uma cadeia de Markov irredutível com um número finito
de estados é recorrente positiva.
Uma cadeia de Markov tendo um número finito de estados
não tem estados recorrentes nulos.
Note que se y é um estado recorrente, então y está
contido numa classe fechada de estados recorrentes.
Como esta classe é necessariamente finita, ela contém
pelo menos um estado recorrente positivo e portanto todos
são recorrentes positivos.
103. Existência e unicidade das distribuições estacionárias
Teorema: Seja π uma distribução estacionária. Se x é
transiente ou recorrente nulo, então π(x) = 0.
Prova: Se x é transiente ou recorrente nulo então
lim
n
Gn(z, x)
n
= 0, z ∈ S.
Portanto, se pudermos trocar a ordem da soma e do limite:
π(x) lim
n
z
π(z) lim
n
Gn(z, x)
n
= 0.
Teorema: Seja uma cadeia de Markov irredutível, recorrente
positiva então existe uma única distribuição estacionária π
dada por:
π(y) =
1
my
, y ∈ S.
104. Consequências:
Uma cadeia de Markov é positiva recorrente é
irredutível se, e somente se tem uma única
distribuição estacionária.
Se uma cadeia de Markov tem um número finito
de estados e é irredutível então ela tem uma única
distribuição estacionária.
Seja Xn, n ≥ 0 uma cadeia de Markov irredutível,
recorrente positiva com distribuição estacionária
π. então com probabilidade 1,
min
n
Nn(y)
n
= π(y), y ∈ S.
105. Cadeia redutíveis:
Teorema: Seja C um conjunto irredutível fechado de estados
recorrentes positivos. Então a cadeia de Markov tem uma
única distribuição estacionária concentrada em C, isto é,
π(x) = 0, se x ∈ C e π(x) = 1/mx se x ∈ C.
Suponha que a cadeia tenha dois conjuntos irredutíveis
fechados de estados recorrentes positivos C0 e C1. então a
cadeia tem uma distribuição estacionária π0 concentrada em
C0 e uma distribuição estacionária π1 concentrada em C1.
Mais ainda, as distribuições
πα(x) = (1 − α)π0(x) + απ1(x)
também são estacionárias para a CM.
106. Teorema Central do Limite
Referências: Doeblin (1938) e Kendall (1957)
Considere uma cadeia de Markov X0, X1, . . . com
possivelmente infinitos estados I = {1, 2, . . .} ergódica. Assim,
todos os tempos de retorno my são finitos.
Seja f : I → R e defina
Sn =
n
m=1
f(Xm).
Sejam as v.a’s T
(1)
y < T
(2)
y < . . . os tempos de visita a y. Isto é,
T
(k)
y = min{n > T
(k−1)
y ; Xn = y}
107. Teorema ergódico
Assim, as v.a’s
f(XT
(k)
y +1
) + · · · + f(XT
(k+1)
y
), k = 1, 2, . . .
são iid com esperança finita
µf,y = E f(XT
(k)
y +1
) + · · · + f(XT
(k+1)
y
) .
O Teorema ergódico diz que
Sn
n
→
µy
my
em probabilidade.
108. CLT - cont.
Agora escreva,
Zk =
T
(k+1)
y
m=T
(k)
y +1
f(Xm) −
µy
my
T
(k+1)
y − T
(k)
y .
Assim, Z1, Z2, . . . são iid E(Zi) = 0 e defina
σ2
y = Var(Z1).
Teorema: Se µy existe e σy é finita e não nulas e os tempos de
recorrencia T
(k)
y tem segundo momento finito então
Sn − (µy /my )n
σ2
y n/my
⇒ N(0, 1).
109. Teoria de verossimilhança para Cadeias de Markov
Função de verossimilhança
L(P, x) = P(X0 = x0)
n−1
i=0
P(Xi+1 = xi+1|Xi = xi)
= P(X0 = x0)
n−1
i=0
pxi ,xi+1
= P(X0 = x0)
k,l∈I
p
Nk,l (n)
k,l
onde Nk,l(n) = número de vezes em que Xi = k, Xi+1 = l nos
instantes 1, . . . , n.
110. Notação: Nij(n) = Nij e nij(n) = nij,
L(π0, P, x) = π0(x0)
n−1
i=0
P(Xi+1 = xi+1|Xi = xi)
= π0(x0)
n−1
i=0
pxi ,xi+1
= π0(x0)
k,l∈I
p
Nk,l (n)
k,l
= π0(x0)
k∈I
Lk (P)
onde Lk (P) = l∈I p
Nk,l (n)
k,l depende somente dos elementos
na k-ésima linha da matrix P.
Seja l(π0, P, x) = log L(π0, P, x). Então temos as equações,
l(π0, P, x) = l0(π0, x0) +
k∈I
lk (P, x).
111. Queremos maximizar l sujeita a condições que
x
π0(x) = 1e que
j∈I
P(k, j) = 1
para todo k ∈ I. Usando multiplicadores de Lagrange e
escrevendo ni = j∈I temos as estimativas de MV
ˆpij =
nij
ni
quando ni > 0 ˆπ0(i) = 1(i = x0).
Se ni = 0 colocamos ˆpij = 0, j = i.
Seja
ˆI = {i ∈ I : ni > 0}
a porção observada do espaço de estados. Obviamente, ˆI é
finito. Note que (ˆpij, i, j ∈ ˆI) é uma matriz estocástica sobre ˆI.
Denote esta matriz por ˆP.
112. Teorema: Se (Xn) é uma cadeia de Markov ergódica
(irredutível, recorrente positiva), então ˆPij → pij com
probabilidade 1 para todo i, j ∈ S independentemente da
distribuição inicial.
Lembre-se que
1
n
Nij(n) → π(i)pij
e
1
n
Ni(n) → π(i).
113. Teorema: Se (Xn) é uma cadeia de Markov ergódica, então
independentemente da distribuição inicial
Ni(n)(ˆPij(n) − pij)
i,j∈I
→ N(0, Σ)
onde
σij,kl =
pij(1 − pij), (i.j) = (k, l)
−pijpil, i = k, j = l
0, caso contrário.
Obs.: A covariância assintótica tem uma estrutura multinomial
dentro das linhas e independência entre as linhas.
114. Aplicação a Snoqualmie Falls
Usando o resultado do Teorema anterior vemos que ˆP01 e ˆP11
são assintóticamente independentes. Mais ainda
ˆP11 ≈ N(p11, p11(1 − p11)/nπ(1))
onde π é a distribuição estacionária da CM.
Podemos estimar a variância usando
ˆP11 =
N11
N1
e ˆπ(1) =
N1
n
onde
N11 =
36
i=1
N
(i)
11 , . . .
Como n11 = 643, n1 = 771, n01 = 123, n0 = 309 e n = 1080,
intervalos de confiança assintóticos de 95%:
IC(p11, 95%) = (0.808; 0.860) IC(p01, 95%) = (0.343; .453).
115. Note que cada intervalo tem 95% de confiança, mas
conjuntamente, usando a independência assintótica,
(.95)2 = .903. a fim de encontrar uma região de confiança com
95% devemos usar intervalos individuais com 97.5%, obtendo
o retângulo:
(.775; .893) × (.272; .524).
Algumas vezes, é natural parametrizar o modelo.
116. Eugen Onegin
O próprio Markov deu um exemplo de Cadeia de Markov em
1924. Markov estudou um extrato de um poema de Puskin
chamado Eugen Onegin e classificou 20.000 caracteres
consecutivos em vogais e consoantes.
Vogal seguinte Consoante seguinte Total
Vogal 1106 7536 8638
Consoante 7533 3829 11362
Total 8639 11361 20000
117. É bastante óbvio que a escolha de vogal e consoante para a
letra seguinte não é independente da letra atual. Um modelo
muito simples é assumir que a troca se faz de forma constante,
isto é a matrix de transição é:
P =
1 − p p
p 1 − p
118. Teoria assintótica
Por simplicidade no caso paramétrico vamos assumir espaço
de estados finito. Assuma que as probabilidades de transição
dependam somente de um parâmetro θ, tomando valores em
um espaço paramétrico Θ ⊂ Rr . Vamos assumir as seguintes
condições de regularidade:
1. D = {(i, j); pij > 0} não depende de θ.
2. Cada pij(θ) é 3-vezes continuamente diferenciável.
3. A matriz de dimensão d × r, ∂pij(θ)/∂θk , i, j ∈ D,
k = 1, . . . , r e d é a cardinalidade de D, tem posto r.
4. Para cada θ existe somente uma classe ergódica e
nenhum estado transiente.
119. Podemos escrver a verossimilhança como
l(θ, x) =
D
nij log pij(θ).
Diferenciando esta expressão obtemos as equações de
verossimilhança:
∂
∂θk
ln(θ) =
D
nij
pij(θ)
∂pij(θ)
∂θk
= 0, k = 1, . . . , k.
Seja θ0 o verdadeiro valor do parâmtro.
120. Teorema: Assuma as condições de regularidade:
(i) Existe uma solução ˆθ das equações de verossimilhança que
é consistente;
(ii)
√
n(ˆθ − θ0) → N(0, I−1(θ0)), onde I é a matriz de
informação:
Iuv (θ0) =
(i,j)∈D
π(i, θ0)
pij(θ0)
∂pij(θ0)
∂θu
∂pij(θ0)
∂θv
.
(iii) Var
√
n(ˆθ − θ0) pode ser estimada de forma consistente
pelo inverso da informação observada
−
Nij
n
2
log pij(ˆθ)
−1
.
121. Exemplo: Eugen Onegin Estimamos p pela equação:
l(p) = (n00 + n11) log(1 − p) + (n01 + n10) log p,
onde 0 = vogal e 1 = consoante. O máximo é obtido em:
ˆP =
N01 + N10
n
e ˆp =
7532 + 7533
20000
= 0.753.
A segunda derivada da verossimilahnça é:
l (p) = −
n00 + n11
(1 − p)2
+
n01 + n10
p2
Portanto, o erro padrão assintótico estimado é
(−l (ˆp))−1/2
= (ˆp(1 − ˆp)/n)1/2 = (.753 × .247/20000)1/2. O
que nos dá um IC de nível 95% como:
(.747; .759)
Note que nem ˆp01 = .872 nem ˆp10 = .663 pertence a este
intervalo, indicando que o modelo de um parmâmetro não é
adequado.
122. Teorema: Assuma as condições de regularidade. Seja ˆθ o
EMV sob a hipótse paramétrica H0. Também, seja ˆP o EMV
não paramétrico e θ0 o verdadeiro valor do parâmetro, quando
H0 é verdadeira. Então:
(i) 2 l(ˆθ) − l(θ0)
D
→ χ2(r);
(ii) 2 l(ˆP) − l(ˆθ)
D
→ χ2(d(d − 1) − r);
(iii) As estatísticas em (i) e (ii) são assintóticqamente
independentes.
123. Teorema: Assuma as condições de regularidade. Sejam ˆθ0 o
EMV sob a hipótese paramétrica H0 : θ ∈ Θ0 e ˆθ1 o EMV sob a
hipótese θ ∈ Θ0 ∪ Θ1. Então para se testar H0 : θ ∈ Θ0 vs.
H1 : θ ∈ Θ1 a estatística do teste a ser utilizada é:
−2 l(ˆθ0) − l(ˆθ1)
D
→ χ2
(s)
onde s = dim(Θ1 ∪ Θ0) − dim(Θ0).
124. Teste para independência: Suponha que queremos testar a
hipótese de que a seqüência X1, X2, . . . tomando valores em
I = {0, 1, . . . , K} é independente vs. a hipótese de que
pertença a uma CM de ordem 1. Em termos de parametrização
simplesmente colocamos: H0 : pij = θj para todo i, j ∈ I.
Neste caso, precisamos calcular o máximo sob as duas
hipóteses (independência e CM de ordem 1).
125. CM de ordem 1: ˆPij = Nij/Ni.
Sob a hipótese de independência temos uma distribuição
multinomial, com n.j = i nij observações da categoria com
probabilidade θj. A verossimilhança é:
l(θ) =
K−1
j=0
n.jθj + n.K (1 −
K−1
j=0
θj),
a qual é maximizada por ˆθj = N.j/n. Portanto, a estatística da
razão de verossimilhança é dada por:
2 l(ˆP) − l(ˆθ) = 2
i,j
Nij log
Nij/Ni
N.j/n
a qual assintoticamente tem uma distribuição χ2 com
K(K + 1) − K = K2 graus de liberdade. No modelo de
Snoqualmie Falls K = 1.
126. Em Inferência usamos o teste chi-quadrado de Pearson:
X =
(Nij − Nip0
ij )2
Nip0
ij
Eugen Onegin Queremos testar a hipótese H0 : p01 = p10
Os valores esperados para a estatística de Pearson são
calculados multiplicando-se as somas das linhas
(n0, n1) = (8.638; 11.362) pela matriz de transição estimada
sob H0:
ˆP =
0.247 0.753
0.753 0.247
obtendo
(Eij) =
2131.4 6506.6
8558.4 2803.6
127. A Estatística chiquadrado para testar a hipótese
uni-dimensional é:
χ2
=
ij
(nij − ni ˆp0
ij )2
ni ˆp0
ij
= 1217.7.
O valor exato da estatística exata da verossimilhança é 1217.7.
(Aproximação excelente!!!)