SlideShare une entreprise Scribd logo
1  sur  127
Télécharger pour lire hors ligne
Inferência para Cadeias de Markov
Nancy L. Garcia1
1UNICAMP, Brasil
2o. Semestre de 2012
Inferência clássica
Seja uma amostra aleatória X0, X1, X2, . . . , Xn:
X0, X1, X2, . . . , Xn são i.i.d.
distribuição de probabilidade conjunta:
P(X0 ∈ A0, . . . , Xn ∈ An) =
n
i=0
P(Xi ∈ Ai) =
n
i=0
P(X ∈ Ai),
onde X tem a mesma distribuição das Xi’s.
Considere a sequência de v.a’s Xi.j onde Xi,j = 1 se chove no
i-ésimo dia do j-ésimo ano e Xi,j = 0 se não chove no i-ésimo
dia do j-ésimo ano.
Faz sentido pensar que estas v.a’s são i.i.d.?
Processos Estocásticos
Um processo estocástico é uma coleção de v.a’s
{Xt , α ∈ T}
onde T é um conjunto de índices que pode ser discreto
contínuo. Em geral, T = N ou [0, ∞).
Neste caso, sempre é possível escrever a distribuição conjunta
de um número finito destas v.a.’s
P(Xt0
∈ A0, . . . , Xtn ∈ An) =
P(Xt0
∈ A0)
n
i=1
P(Xti
∈ Ai|Xt0
∈ A0, . . . , Xti−1
∈ Ai−1).
A teoria de Processos Estocásticos estuda diversas
especificações para as probabilidades condicionais acima e
obtém resultados similares aos clássicos:
Lei dos Grandes Números (Teorema Ergódico);
Teorema Central do Limite;
Lei Assintótica;
Estimação de máxima verossimilhança;
Testes de hipóteses;
Estimação não paramétrica.
Xt : número de terremotos com magnitude maior que 5 que
ocorrem na região de São Francisco no período de (0, t],
onde 0 é o início do registro, por exemplo, 0:00hs do dia
01/01/1950. Processo a tempo contínuo com espaço de
estados discreto.
Xt : número de terremotos com magnitude maior que 5 que
ocorrem na região de São Francisco no período de (0, t],
onde 0 é o início do registro, por exemplo, 0:00hs do dia
01/01/1950. Processo a tempo contínuo com espaço de
estados discreto.
(Xk , Yk ): número de nascimento e mortes,
respectivamente, ocorridos no dia k em uma colônia de
vetores trnsmissores de doença de Chagas. Processo a
tempo discreto com espaço de estados discreto.
Xt : número de terremotos com magnitude maior que 5 que
ocorrem na região de São Francisco no período de (0, t],
onde 0 é o início do registro, por exemplo, 0:00hs do dia
01/01/1950. Processo a tempo contínuo com espaço de
estados discreto.
(Xk , Yk ): número de nascimento e mortes,
respectivamente, ocorridos no dia k em uma colônia de
vetores trnsmissores de doença de Chagas. Processo a
tempo discreto com espaço de estados discreto.
Xy,t : espessura da camada de ozônio na locação y no
tempo t. Aqui temos T = R2 × [0, ∞). Processo a tempo
contínuo com espaço de estados contínuo.
Xt : a intensidade de um sinal a uma distância t da origem.
Processo a tempo contínuo com espaço de estados
contínuo. além disso, “tempo” é a distância.
Xt : a intensidade de um sinal a uma distância t da origem.
Processo a tempo contínuo com espaço de estados
contínuo. além disso, “tempo” é a distância.
Clientes chegam a uma fila de supermercado de acordo
com um processo de Poisson. Os clientes são atendidos
por um caixa que atende cada cliente de acordo a uma
distribuição exponencial de parâmetro 1. Seja Xt o número
de clientes na fila. Processo a tempo contínuo com
espaço de estados discreto.
Xt : a intensidade de um sinal a uma distância t da origem.
Processo a tempo contínuo com espaço de estados
contínuo. além disso, “tempo” é a distância.
Clientes chegam a uma fila de supermercado de acordo
com um processo de Poisson. Os clientes são atendidos
por um caixa que atende cada cliente de acordo a uma
distribuição exponencial de parâmetro 1. Seja Xt o número
de clientes na fila. Processo a tempo contínuo com
espaço de estados discreto.
Temos duas caixas com um total de d bolas numeradas de
1 a d. Em cada experimento selecionamos uma bola ao
acaso e a trocamos de caixa. Seja Xt o número de bolas
na caixa 1 no instante t. Processo a tempo discreto com
espaço de estados discreto.
Aplicações de Cadeias de Markov
Física, química, biologia, ciências sociais, jogos, música,
linguística, neurociência, bioinformática, reconhecimento
de imagens, reconhecimento de assinaturas, etc.
Por exemplo, o “PageRank” de uma página da web como
usado pelo Google é completamente definido através de
uma cadeia de Markov.
Propriedade de Markov
Espaço de estados discreto e tempo discreto
X0, X1, . . . v.a.’s discretas com valores possíveis I
enumerável.
P(Xn = x|X0 = x0, X1 = x1, . . . , Xn−1 = xn−1) =
P(Xn = x|Xn−1 = xn−1)
para todo n ≥ 1 e todos os valores de x, x0, x1, . . . , xn−1 ∈ I.
Exemplo 1: Sejam Y0, Y1, . . . v.a.’s discretas i.i.d.. Defina
Sn = Y0 + . . . + Yn
Neste caso,
P(Sn = x|S0 = x0, S1 = x1, . . . , Sn−1 = xn−1)
= P(Sn−1 + Yn = x|S0 = x0, S1 = x1, . . . , Sn−1 = xn−1)
= P(xn−1 + Yn = x|S0 = x0, S1 = x1, . . . , Sn−1 = xn−1)
= P(xn−1 + Yn = x) = P(Sn = x|Sn−1 = xn−1).
Propriedade de Markov
Definições equivalentes
P(Xn = x|Xn0
= x0, Xn1
= x1, . . . , Xnk
= xk ) = P(Xn = x|Xnk
= xk )
para todo n ≥ 1 e n0 < n1 < . . . < nk ≤ n − 1.
P(Xn+m = x|X0 = x0, X1 = x1, . . . , Xn = xn) = P(Xn = x|Xn = xn)
para todo n ≥ 1 e todos os valores de x, x0, x1, . . . , xn−1 ∈ I.
Cadeia de Markov homogênea
P(Xn = j|Xn−1 = i) = P(X1 = j|X0 = i) := pij
para todo n ≥ 1 e todos os valores de i, j ∈ I.
Matriz de transição
P = (pij)
A matriz de transição é uma matriz estocástica, i.e.,
pij ≥ 0, ,
j
pij = 1.
Matriz de transição em n-passos
Pn = (pij(n))
onde
pij(n) = P(Xn = j|X0 = i)
Note que P1 = P, mais ainda
pij(2) = P(X2 = j|X0 = i)
=
k∈I
P(X2 = j, X1 = k|X0 = i)
=
k∈I
P(X2 = j|X1 = k)P(X1 = k|X0 = i)
=
k∈I
pkjpik .
Portanto, P2 = P2.
Equações de Chapman-Kolmogorov
pij(n + m) = k pkj(n)pik (m)
Consequentemente, Pn+m = PnPm e Pn = Pn.
Distribuições marginais
Defina
µ
(n)
i = P(Xn = i).
e
µ(n)
= (µ
(n)
i , i ∈ I).
Note que
µ
(1)
i = P(X1 = i) =
k
P(X1 = i, X0 = k)
=
k
P(X1 = i|X0 = k)P(X0 = k)
=
k
pkiµ
(0)
k
µ
(2)
i = P(X2 = i) =
j
P(X2 = i, X1 = j)
=
j
P(X2 = i|X1 = j)P(X1 = j)
=
j
pjiµ
(1)
j =
j
pji
k
pkjµ
(0)
k
Em geral,
µ(n+m) = µ(m)Pn e µ(n) = µ(0)Pn
Exemplo: Snoqualmie Falls
dados diários para se choveu ou não, pelo menos, 0,01 cm
36 anos
Janeiro para obter um sistema homogêneo e estacionário.
I = {0, 1} Matriz de transição
P =
p00 p01
p10 p11
Será que os dados não são independentes?
Hoje
0 1
0 186 (91) 123 (223) 309
Ontem
1 128 (223) 643 (543) 771
314 766 1080
Os valores entre parenteses são os valores esperados sob a
hipótese de independência. X2 = 202, 89 e χ2
1;1% = 6, 63.
Função de verossimilhança
L(P, x) = P(X0 = x0)
n−1
i=0
P(Xi+1 = xi+1|Xi = xi)
= P(X0 = x0)
n−1
i=0
pxi ,xi+1
= P(X0 = x0)
k,l∈I
p
nk,l
k,l
onde nk,l = número de vezes em que Xi = k, Xi+1 = l.
No exemplo de Snoqualmie Falls,
L(P, x) =


36
j=1
P(X0,j = x0,j)

 p186
00 p123
01 p128
10 p643
11 .
Assuma que os x0,j são fixos e P(X0,j = x0,j) = 1, se não,
podemos usar as 36 amostras para estimar esta probabilidade.
• p00 + p01 = 1 e p10 + p11 = 1,
ˆP1,0 = n1,0/(n0,0 + n1,0)
e
ˆP1,1 = n1,1/(n0,1 + n1,1)
As estimativas de MV são dadas por:
ˆp1,0 = 123/309 = 0, 398 ˆp1,1 = 643/771 = 0, 834
Exemplo - Ferrugem asiática:
Doença que está atacando as culturas de soja causando
muito prejuízo aos produtores e demanda aplicações de
fungicida causando danos ao meio ambiente e excessivos
gastos.
Exemplo - Ferrugem asiática:
Doença que está atacando as culturas de soja causando
muito prejuízo aos produtores e demanda aplicações de
fungicida causando danos ao meio ambiente e excessivos
gastos.
Um dos fatores que influenciam para a ocorrência da
doença é o molhamento foliar superior a oito horas.
Exemplo - Ferrugem asiática:
Doença que está atacando as culturas de soja causando
muito prejuízo aos produtores e demanda aplicações de
fungicida causando danos ao meio ambiente e excessivos
gastos.
Um dos fatores que influenciam para a ocorrência da
doença é o molhamento foliar superior a oito horas.
Molhamento foliar – acúmulo de água líquida causado por
precipitação ou condensação da umidade atmosférica na
forma de orvalho - superior a 8 horas.
As variáveis coletadas:
1. molhamento foliar (codificada como 1 se há molhamento
superior a oito horas e 0 caso contrário),
2. velocidade do vento em m/s,
3. umidade relativa do ar,
4. precipitação em mm e temperatura média em oC.
Quatro estações meteorológicas:
Lucas do Rio verde (MT),
Rio Verde (GO),
Passo Fundo (RS) e
Holambra (SP)
Dados enviados diariamente para o CEPAGRI - Unicamp
(Centro de Pesquisas Meteorológicas e Climáticas Aplicadas à
Agricultura).
Fonsechi (2006)
Modelo de Regressão Logístico para variáveis binárias
variáveis dependem do tempo anterior, por exemplo, se
choveu no tempo t − 1 influencia se haverá molhamento
ou não no tempo t. Obviamente não podemos esperar
independência de um tempo para o outro.
Modelo
P(Y | X) =
n
i=1
P(Yi | Y1, . . . , Yi−1, X)
onde Y é a variável resposta e X é a matriz de covariáveis.
Pode-se definir o i-ésimo logito como:
θi = log
P(Yi = 1|Y1, . . . , Yi−1, Xi)
P(Yi = 0|Y1, . . . , Yi−1, Xi)
e assumir que θi é função linear de Y1, . . . , Yi−1, Xi.
Temos, então, um problema de regressão no qual a resposta Yi
é binária, mas o conjunto de valores da variável explicativa
muda de acordo com i.
Para introduzir dependência no modelo é necessário criar
variáveis auxiliares que são funções lineares dos Yi s:
Zi =
2Yi − 1 se Yi = 0 ou 1
0 se Yi desconhecido
Definimos a regressão logística da seguinte forma:
θ1 = α + βX1
θi = α +
i−1
j=1
γjZj + βXi, i = 1, . . . , n
em que α, β e γ s são parâmetros que variam no intervalo
(−∞, ∞) e a dependência foi introduzida no modelo através
das variáveis Zi s presentes nos logitos.
Temos
P(Y|X) =
n
i=1
eθi
(1 + eθi )
.
Para (j < i)
Yj =1, a chance do dia i ter molhamento (Yi = 1) aumenta
em eγj ,
Yj desconhecido não muda a chance,
Yj=0 diminui a chance em eγj
um aumento de uma unidade em Xi aumenta a chance do
dia i ter molhamento em eβ.
O modelo na forma matricial fica:
θ = [θ1 . . . θn] ,
Z = [Z1 . . . Zn] ,
λ = [α γ1 γ2 . . . γn−1 β] ,
A =







1 0 0 . . . 0 X1
1 Z1 0 . . . 0 X2
1 Z1 Z2 . . . 0 X3
...
...
...
...
...
...
1 Z1 Z2 . . . Zn−1 Xn







.
Então o modelo torna-se:
θ = Aλ (1)
Estruturas Markovianas de Dependência
Com a estrutura de primeira ordem o modelo torna-se:
P(Y|X) = P(Y1|X)
n
i=2
P(Yi|Yi−1, X).
Com a estrutura de segunda ordem o modelo torna-se:
P(Y|X) = P(Y1|X)P(Y2|Y1, X)P
n
i=3
P(Yi|Yi−1, Yi−2, X).
Portanto, a probabilidade de ter molhamento foliar no dia i só
depende da resposta do dia imediatamente anterior (ou dois
dias). Nesse caso, os logitos podem ser escritos como:
θi = α + γZi−1 + βXi.
Método de análise
Foi utilizado o software livre R (www.r-project.org)
Para as quatro estações testou-se o modelo com estrutura
Markoviana de dependência de primeira e segunda ordem
Ajustou-se primeiramente um modelo com todas as
covariáveis (Modelo completo) e depois utilizou-se
stepwise para selecior as covariáveis que realmente são
significativas ao modelo (Modelo reduzido). Critério AIC.
Para verificar a adequação do modelo foi utilizado a
estatística “deviance” (−2logL, sendo L a funcão de
verossimilhança), essa estatística tem distribuição χ2
n−p−1,
sendo n − p − 1 o graus de liberdade, n é o número de
observações e p é o número de parâmetros.
Passo Fundo - Estrutura Markoviana de 1a ordem
Tabela: Modelo Completo
Parâmetro Estimação teste-t
Intercepto -13.80594 6.03e-06
Z 0.68004 0.00104
UR 0.15166 2.50e-08
Temp média 0.0995 0.12957
Velocidade Vento -0.24003 0.28894
Chuva 0.05070 0.28251
Passo Fundo - Estrutura Markoviana de 1a ordem
Tabela: Modelo Reduzido
Parâmetro Estimação teste-t
Intercepto -15.67279 5.97e-08
Z 0.66143 0.00103
UR 0.16491 4.24e-11
Temp média 0.10751 0.09699
Para Passo Fundo, com estrutura markoviana com
dependência de primeira ordem a deviance foi 161,1 e o valor
tabelado da χ2
223 é 189.43, ou seja, pelo teste de bondade de
ajuste esse modelo é adequado.
Passo Fundo - Estrutura Markoviana de segunda
ordem
Tabela: Modelo Completo
Parâmetro Estimação teste-t
Intercepto -13.80594 8.99e-06
Z1 0.52782 0.0197
Z2 0.36670 0.0960
UR 0.15069 4.24e-08
Temp média 0.10047 0.1332
Velocidade Vento -0.25198 0.2793
Chuva 0.055070 0.2512
Tabela: Modelo Reduzido
Parâmetro Estimação teste-t
Intercepto -15.79363 6.88e-08
Z1 0.51292 0.0204
Z2 0.34475 0.1150
UR 0.16604 5.61e-11
Temp média 0.10841 0.100
Apesar de ter utilizado o método stepwise para selecionar o
melhor modelo ainda há variáveis não significativas no modelo
ao nível de significância de 10%, sendo ela a variável que
representa a estrutura de dependência de segunda ordem, ou
seja, o modelo para passo fundo, com dependência de
primeira ordem é o mais adequado para o conjunto de dados
de Passo Fundo.
Conclusão
Verificou-se a eficiência da utilização do Modelo Logístico
Regressivo para a estimação de molhamento foliar na
cultura da soja.
Para as quatro estações testadas, o modelo que melhor
ajusta aos dados meteorológicos é o logístico regressivo
com estrutura markoviana de primeira ordem, ou seja, o
modelo que leva em consideração a dependência do dia
anterior para a ocorrência de molhamento foliar.
Com as previsões meteorológicas e o uso do modelo
proposto será possível um melhor monitoramento da
cultura da soja, acionando os produtores de soja para
alertá-los quando houver indícios da ocorrência de
molhamento foliar superior a 8 horas, ajudando assim o
momento certo para aplicação de fungicida.
Urna de Ehrenfest
Modelo para troca de calor ou gases entre dois corpos
isolados.
Urna de Ehrenfest
Modelo para troca de calor ou gases entre dois corpos
isolados.
Temos duas caixas com um total de d bolas numeradas de
1 a d.
Urna de Ehrenfest
Modelo para troca de calor ou gases entre dois corpos
isolados.
Temos duas caixas com um total de d bolas numeradas de
1 a d.
Inicialmente algumas destas bolas estão na caixa 1 e o
restante na caixa 2.
Urna de Ehrenfest
Modelo para troca de calor ou gases entre dois corpos
isolados.
Temos duas caixas com um total de d bolas numeradas de
1 a d.
Inicialmente algumas destas bolas estão na caixa 1 e o
restante na caixa 2.
Em cada experimento selecionamos uma bola ao acaso
(i.e, selecionamos ao acaso um número entre 1 e d) e a
trocamos de caixa.
Urna de Ehrenfest
Modelo para troca de calor ou gases entre dois corpos
isolados.
Temos duas caixas com um total de d bolas numeradas de
1 a d.
Inicialmente algumas destas bolas estão na caixa 1 e o
restante na caixa 2.
Em cada experimento selecionamos uma bola ao acaso
(i.e, selecionamos ao acaso um número entre 1 e d) e a
trocamos de caixa.
Repita o procedimento sequencialmente. Seja Xn o
número de bolas na caixa 1 no instante n.
Xn é uma cadeia de Markov com espaço de estados
{0, 1, . . . , d} e matriz de transição
P(x, y) =



(x/d), y = x − 1,
1 − (x/d), y = x + 1,
0, caso contrário
Ruína do jogador
Definição: Um estado a de uma cadeia de Markov é dito ser
absorvente se P(a, y) = 0, para y = a.
Um jogador começa com um capital inicial de i reais e faz
uma sequência de apostas de R$ 1,00.
Ruína do jogador
Definição: Um estado a de uma cadeia de Markov é dito ser
absorvente se P(a, y) = 0, para y = a.
Um jogador começa com um capital inicial de i reais e faz
uma sequência de apostas de R$ 1,00.
Assuma que ele tem probabilidade p de ganhar e
probabilidade 1 − q de perder a cada aposta
independentemente das apostas anteriores.
Ruína do jogador
Definição: Um estado a de uma cadeia de Markov é dito ser
absorvente se P(a, y) = 0, para y = a.
Um jogador começa com um capital inicial de i reais e faz
uma sequência de apostas de R$ 1,00.
Assuma que ele tem probabilidade p de ganhar e
probabilidade 1 − q de perder a cada aposta
independentemente das apostas anteriores.
Se seu capital chegar a zero ele se arruinará e seu capital
continuará zero para sempre.
Esta é uma CM com espaço de estados {0, 1, . . .}
onde 0 é um estado absorvente e para x ≥ 1
P(x, y) =



1 − p, y = x − 1,
p, y = x + 1,
0, caso contrário
Esta é uma CM com espaço de estados {0, 1, . . .}
onde 0 é um estado absorvente e para x ≥ 1
P(x, y) =



1 − p, y = x − 1,
p, y = x + 1,
0, caso contrário
Se houver um adversário que inicia o jogo com
d − i reais e o jogo termina quando o capital do
1o. jogador atinge 0 ou d o espaço de estados é
{0, 1, . . .} onde 0 e d são estado absorventes e
para 1 ≤ x ≤ d − 1
P(x, y) =



1 − p, y = x − 1,
p, y = x + 1,
0, caso contrário
Cadeias de nascimento e morte
Considere uma CM com espaço de estados I = {0, 1, . . .}
ou I = {0, 1, . . . , d}.
Estando no estado x no próximo passo somente poderá
estar em x, x + 1 ou x − 1.
Considere que a matriez de transição seja:
P(x, y) =



qx , y = x − 1,
px , y = x + 1,
rx , y = x,
0, caso contrário
onde para cada x, px , qx , rx ≥ 0, px + qx + rx = 1.
Classificação de estados:
Seja A um subconjunto do espaço de estados I. O tempo de
chegada a A é definido como:
TA =
min{n > 0; Xn ∈ A}, se Xn atinge A,
∞, caso contrário
Notaçao:
A = {a} usamos a notação: Ta.
Denotaremos por Px (·) as probabilidades dos
diversos eventos quando o estado inicial da
cadeia for x. Assim,
Px (X1 = a, X2 = b) = P(X1 = a, X2 = b|X0 = x).
Uma identidade importante:
Pn(x, y) = n
m=1 Px (Ty = m)Pn−m(y, y), n ≥ 1
Se a é um estado absorvente então
Pn−m
(a, a) = 1, para1 ≤ m ≤ n.
e
Pn
(x, a) =
n
m=1
Px (Ta = m)Pn−m
(a, a)
=
n
m=1
Px (Ta = m) = Px (Ta ≤ n).
Observe que
Px (Ty = 1) = Px (X1 = y) = P(x, y)
e que
Px (Ty = 2) =
z=y
Px (X1 = z, X2 = y) =
z=y
P(x, z)P(z, y).
Em geral,
Px (Ty = n + 1) = z=y P(x, z)Pz(Ty = n), n ≥ 1
Estados recorrentes e transientes
ρxy = Px (Ty < ∞) = probabilidade que uma CM
começando em x consiga atingir o estado y em tempo
finito.
Estados recorrentes e transientes
ρxy = Px (Ty < ∞) = probabilidade que uma CM
começando em x consiga atingir o estado y em tempo
finito.
ρyy = probabilidade que uma CM começando em y alguma
vez retorne a y.
Estados recorrentes e transientes
ρxy = Px (Ty < ∞) = probabilidade que uma CM
começando em x consiga atingir o estado y em tempo
finito.
ρyy = probabilidade que uma CM começando em y alguma
vez retorne a y.
Um estado y é dito ser:
1. recorrente se ρyy = 1;
2. transiente se ρyy < 1.
Estados recorrentes e transientes
ρxy = Px (Ty < ∞) = probabilidade que uma CM
começando em x consiga atingir o estado y em tempo
finito.
ρyy = probabilidade que uma CM começando em y alguma
vez retorne a y.
Um estado y é dito ser:
1. recorrente se ρyy = 1;
2. transiente se ρyy < 1.
Se y é um estado absorvente, então Py (T1 = y) = 1 e
ρyy = 1 e y é recorrente.
Para cada estado y ∈ I defina a v.a.
N(y) =
∞
n=1
1y (Xn)
o número de vezes que a CM visita o estado y.
Note que:
Px (N(y) ≥ 1) = Px (Ty < ∞) = ρxy .
É fácil ver que a propriedade de Markov diz que: a
probabilidade da cadeia começando em x visitar pela primeira
vez y após m passos e retornar a y n passos depois é
Px (Ty = m)Py (Ty = n).
Portanto,
Px (N(y) ≥ 2) =
∞
m=1
∞
n=1
Px (Ty = m)Py (Ty = n)
=
∞
m=1
Px (Ty = m)
∞
n=1
Py (Ty = n)
= ρxy ρyy .
Similarmente,
Px (N(y) ≥ m) = ρxy ρm−1
yy , m ≥ 1.
Usando o fato que
Px (N(y) = m) = Px (N(y) ≥ m) − Px (N(y) ≥ m + 1).
Px (N(y) = m) = ρxy ρm−1
yy (1 − ρyy ), m ≥ 1.
e
Px (N(y) = 0) = (1 − ρxy ).
Observe que
Ex (N(y)) = Ex
∞
n=1
1y (Xn)
=
∞
n=1
Ex (1y (Xn))
=
∞
n=1
Pn
(x, y).
Defina
G(x, y) = Ex (N(y)) = ∞
n=1 Pn(x, y).
O seguinte teorema descreve a diferença fundamental entre
estados transientes e estados recorrentes:
Teorema: (i) Seja y um estado transiente. Então:
Px (N(y) < ∞) = 1
e
G(x, y) =
ρxy
1 − ρyy
.
(ii) Seja y um estado recorrente. Então:
Py (N(y) = ∞) = 1 e G(y, y) = 1.
Mais ainda,
Px (N(y) = ∞) = Px (Ty < ∞) = ρxy .
Se ρxy = 0 então G(x, y) = 0 enquanto que ρxy > 0 implica
que G(x, y) = ∞.
Seja y um estado transiente. Como
∞
n=1
Pn
(x, y) = G(x, y) < ∞ ⇒ lim
n
Pn
(x, y) = 0.
Uma CM é dita ser transiente se todos os seus estados são
transientes e recorrente se todos os seus estados são
recorrentes.
É fácil ver que toda CM finita precisa ter pelo menos um estado
recorrente, i.e. não pode ter todos os seus estados transientes:
0 =
y∈I
lim
n
Pn
(x, y)
CM finita = lim
n
y∈I
Pn
(x, y)
= lim
n
Px (Xn ∈ I)
= 1.
Decomposição do espaço de estados:
Sejam x e y ∈ I
x → y, se ρxy > 0.
x → y se, e somente se, Pn(x, y) > 0 para algum n.
x → y e y → z então x → z.
Teorema: Seja x um estado recorrente e suponha que
x → y. Então y é recorrente e ρxy = ρyx = 1.
Um conjunto não vazio C ⊂ I é dito ser fechado se
nenhum estado de dentro de C leva a um estado fora de
C, i.e., se
ρxy = 0, x ∈ C, y ∈ C.
Equivalentemente, C é fechado se, e somente se,
Pn
(x, y) = 0, x ∈ C, y ∈ C, para todo n ≥ 1.
Se C é um conjunto fechado então uma CM começando
em C ficará em C com probabilidade 1.
Se A é um estado absorvente, então {a} é fechado.
Um conjunto fechado é dito ser irredutível se x → y para
todos x, y ∈ C.
Segue do Teorema anterior que se C é uma classe
fechada e irredutível, então ou todo estado de C é
recorrente, ou todo estado de C é recorrente.
Seja C uma classe fechada irredutível de estados
recorrentes. então ρxy = 1, Px (N(y) = ∞) = 1 e
G(x, y) = ∞ para todas as escolhas de x, y ∈ C.
Uma cadeia de Markov irredutível é uma cadeia cujo
espaço de estados I é fechado e irredutível. Segue que
tais cadeias ou são transientes ou são recorrentes.
Teorema: Seja C um conjunto finito de estados. Então todos
os estados em C são recorrentes.
Considere uma CM com um número finito de estados.
Se a CM é irredutível, deve ser recorrente.
Se a CM não é irredutível verificamos quais são as classes
irredutíveis e quais estados são recorrentes e transientes.
Exemplo: I = {0, 1, 2, 3, 4, 5}









1 0 0 0 0 0
1
4
1
2
1
4 0 0 0
0 1
5
2
5
1
5 0 1
5
0 0 0 1
6
1
3
1
2
0 0 0 1
2 0 1
2
0 0 0 1
4 0 3
4









Note que a matriz abaixo traz os valores + e 0 de acordo com
x → y, i.e, ρxy > 0.








+ 0 0 0 0 0
+ + + + + +
+ + + + + +
0 0 0 + + +
0 0 0 + + +
0 0 0 + + +








Obviamente, se P(x, y) > 0 então ρxy > 0, mas a recíproca
não é verdadeira pois P(2, 0) = 0 e ρ20 > 0 pois
P2
(2, 0) = P(2, 1)P(1, 0) =
1
5
1
4
=
1
20
> 0.
0 é um estado absorvente, portanto é recorrente.
Também vemos pela matriz acima que {3, 4, 5} é uma
classe finita, fechada e irredutível portanto todos os seus
estados são recorrentes.
2 → 0 e 1 → 0 mas 0 → 2 e 0 → 1, sendo assim 1 e 2 tem
que ser estados transientes.
Sejam:
IT o conjunto de estados transientes;
IR o conjunto de estados recorrentes.
Neste exemplo, IT = {1, 2} e IR = {0} ∪ {3, 4, 5}.
Sempre é possível decompor IR numa união disjunta (finita ou
enumerável) de classes irredutíveis.
Probabilidades de absorção
Seja C uma das classes fechadas irredutíveis de estados
recorrentes e defina:
ρC(x) := Px (TC < ∞)
a probabilidade de que a CM começando em x eventualmente
atinja C ( e permaneça em C para sempre). Claramente,
ρC(x) = 1, se x ∈ C ρC(x) = 0, se x é recorrente, mas x ∈ C
Como calcular ρC(x) se x for transiente?
Se temos somente um número finito de estados
transientes, em particular se I é finito, pode-se encontrar
ρC(x), x ∈ IT através de um sistema linear de equações.
Observe que se x ∈ IT , uma cadeia somente pode ser
absorvido em C se, (i) for absorvindo em C no instante 1;
ou (ii) continuar em IT no instante 1 e ser absorvido em C
em um tempo futuro.
O evento (i) tem probabilidade y∈C P(x, y) e o evento (ii)
tem probabilidade y∈IT
P(x, y)ρC(y).
ρC(x) = y∈C P(x, y) + y∈IT
P(x, y)ρC(y), x ∈ IT .
A equação acima pode ser resolvida se IT é finito. No caso de
IT não é claro como resolver o sistema, nem mesmo garantir
que o sistema tenha solução única.
Exemplo: Encontre ρ10 = ρ{0}(1) e ρ20 = ρ{0}(2). Montando o
sistema de equções temos,
ρ10 = 1/4 + (1/2)ρ10 + (1/4)ρ20
ρ20 = (1/5)ρ10 + (2/5)ρ20
A solução é: ρ10 = (3/5) e ρ20 = (1/5).
Note que uma vez que uma CM começando em um estado
transiente x entra em uma classe fechada, irredutível de
estados recorrentes, visita todos os estados de C com
probabilidade 1. Assim,
ρxy = ρC(x), para todo y ∈ C.
Portanto,
ρ13 = ρ14 = ρ15 = 2/5,
ρ23 = ρ24 = ρ25 = 4/5.
Cadeias de nascimento e morte
CM irredutível: ou todos os estados recorrentes, ou todos
estados transientes.
CM irredutível finita: todos os estados recorrentes.
O que fazer no caso I infinito?
Considere uma CM com espaço de estados I = {0, 1, . . .}
ou I = {0, 1, . . . , d}.
Estando no estado x no próximo passo somente poderá
estar em x, x + 1 ou x − 1.
Considere que a matriez de transição seja:
P(x, y) =



qx , y = x − 1,
px , y = x + 1,
rx , y = x,
0, caso contrário
onde para cada x, px , qx , rx ≥ 0, px + qx + rx = 1. Note
que q0 = 0 e pd = 0 se d < ∞.
Assuma que px , qx > 0 para 0 < x < d.
Para a < b ∈ I, seja
u(x) = Px (Ta < Tb), a < x < b
e
u(a) = 1, u(b) = 0.
Portanto, é fácil ver que
u(y) = qy u(y − 1) + ry u(y) + py u(y + 1), a < y < b.
Como ry = 1 − py − qy temos
u(y + 1) − u(y) =
qy
py
(u(y) − u(y − 1)), a < y < b.
Defina γ0 = 1 e
γy =
q1···qy
p1···py
, 0 < y < d.
Temos,
u(x) =
b−1
y=x γy
b−1
y=a γy
, a < x < b.
Portanto, da definição de u(x) temos
Px (Ta < Tb) =
b−1
y=x γy
b−1
y=a γy
, a < x < b.
Px (Tb < Ta) =
x−1
y=a γy
b−1
y=a γy
, a < x < b.
Exemplo:
Um jogador na roleta faz uma sequência de apostas de
$1.00.
Ele tem probabilidades 9/19 e 10/19 de ganhar e perder
respectivamente.
O jogador decide que ele pára de jogar se ele lucra $25.00
ou se ele perde $10.00.
(a) Ache a probabilidade dele parar de jogar ganhando.
(b) Ache sua perda esperada.
Xn: capital do jogador no tempo n com X0 = 10.
Xn é uma cadeia de nascimento e morte com
I = {0, 1, . . . , 35}
taxas px = 9/19, 0 < x < 35 e qx = 10/19, 0 < x < 35.
Os estados 0 e 35 são aobsorventes.
Aplicar a fórmula para a = 0, x = 10, b = 35. Portanto,
γy = (10/9)y
, 0 ≤ y ≤ 34,
Probabilidade de ganhar:
P10(T35 < T0) =
9
y=0(10/9)y
34
y=0(10/9)y
=
(10/9)10 − 1
(10/9)35 − 1
= 0.047.
Perda esperada: 10 − 35 × (0.047) = 8.36.
Distribuição estacionária
Seja Xn, n ≥ 0 uma CM com espaço de estados I e matriz
de transição P.
Uma distribuição estacionária π(x), x ∈ I satisfaz:
1. π(x) ≥ 0, x ∈ I;
2. x∈I π(x) = 1;
3. x∈I π(x)P(x, y) = π(y), y ∈ I.
Distribuição limite
Suponha que temos
lim
n→∞
Pn
(x, y) = π(y), y ∈ I.
Neste capítulo queremos determinar quando temos
distribuição estacionária, quando temos distribuição limite
e quando elas são iguais.
Propriedades de distribuições estacionárias
Seja π uma distribuição estacionária para P. Então:
x∈I
π(x)P2
(x, y) =
x∈I
π(x)
z
P(x, z)P(z, y)
=
z x
π(x)P(x, z) P(z, y)
=
z
π(z)P(z, y) = π(y).
Portanto, por indução, usando a fórmula
Pn+1
(x, y) =
z
Pn
(x, z)P(z, y),
temos
x∈I π(x)Pn(x, y) = π(y), y ∈ I.
Se π0 = π temos que
P(Xn = y) = π(y), y ∈ I
e a distribuição de Xn é independente de n.
Suponha reciprocamente que πn não dependa de n, então
a distribuição de X0 e X1 são idênticas e
π0(y) = π1(y) = x π0(x)P(x, y). Consequentemente,
π0 é distribuição estacionária.
A distribuição de Xn é independente de n se, e
somente se, π0 é estacionária.
Suponha que π é distribuição estacionária e
lim
n→∞
Pn
(x, y) = π(y), y ∈ I.
então P(Xn = y) = x π0(x)Pn(x, y), y ∈ I.
Tirando o limite nos dois lados da equação e passando o limite
dentro do somatório, temos
lim
n→∞
Pn
(x, y) =
x
π0(x)π(y), y ∈ I.
Como x π0(x) = 1 temos
limn→∞ Pn(x, y) = π(y), y ∈ I.
Temos que se π é uma distribuição estacionária e
lim
n→∞
Pn
(x, y) = π(y), y ∈ I
, a distribuição πn se aproxima de π independemtemente
da distribuição inicial.
Portanto, π é a única distribuição estacionária, senão
usaríamos a outra distribuição para π0 e teríamos π = π0.
Suponha que observamos nosso sistema por um tempo
longo, digamos n0 passos e seja
Yn = Xn0+n,
As v.a.’s Yn formam uma CM com a mesma matriz de
transição P. Se N0 for suficientemente grande, podemos
supor que a distribuição marginal de Yn é a mesma da
distribuição estacionária π.
Exemplo 1:
P =
1 − p p
q 1 − q
Se p + q > 0 temos
π(0) =
q
p + q
π(1) =
p
p + q
.
Cadeias de nascimento e morte
Considere uma cadeia de nascimento e morte com
I = {0, 1, . . .}. Vamos assumir que a cadeia é irredutível i.e.,
px > 0, 0 ≤ x < ∞
qx > 0, 0 < x < ∞.
O sistema de equações
x
π(x)P(x, y) = π(y)
será:
r0π(0) + q1π(1) = π(0)
py−1π(y − 1) + ry π(y) + qy+1π(y + 1) = π(y), y ≥ 1.
Como px + rx + q + x = 1, temos
(1 − p0)π(0) + q1π(1) = π(0)
py−1π(y −1)+(1−py −qy )π(y)+qy+1π(y +1) = π(y), y ≥ 1.
Portanto,
qy+1π(y + 1) − py π(y) = qy π(y) − py−1π(y − 1), y ≥ 1
e consequentemente, por indução
qy+1π(y + 1) − py π(y) = 0, y ≥ 0.
Neste caso, obtemos
π(y + 1) =
py
qy+1
π(y).
Usando novamente indução é fácil ver que:
π(x) =
p0 · p1 · · · px−1
q1 · q2 · · · qx
π(0).
Finalmente, se chamamos
π0 = 1, , πx =
p0 · p1 · · · px−1
q1 · q2 · · · qx
, x ≥ 1,
temos
π(x) = πx π(0), x ≥ 0.
Temos que verificar se as soluções de (1) satisfazem
x π(x) = 1.
Caso 1: x πx < ∞.
1 =
x
π(x) =
x
πx π(0)
Portanto,
π(0) = 1
x πx
, π(x) = πx
x πx
x ≥ 1.
Caso 2: x πx = ∞.
x
π(x) =
x
πx π(0) =
0, se π(0) = 0
∞, se π(0) > 0
Portanto, não existe distribuição estacionária.
Todas as deduções anteriores valem para o caso de cadeias
de nascimento e morte finitas, i.e. d < ∞.
Urna de Ehrenfest
d = 3
P =




0 1 0 0
1/3 0 2/3 0
0 2/3 0 1/3
0 0 1 0




Esta é uma cadeia de nascimento e morte irredutível com
π0 = 1, π1 = 3, π2 = 3, π3 = 1.
Portanto, a única distribuição estacionária é dada por:
π(0) = 1/8, π(1) = 3/8, π(2) = 3/8, π(3) = 1/8.
Note que neste caso, Pn(x, y) = 0 para valores ímpares de n.
Assim,
Pn
(x, x) → π(x).
Urna de Ehrenfest modificada: Suponha que temos o
mesmo esquema da urna de Ehrenfest, mas a cada troca
jogamos independentemente uma moeda e se esta sair cara
decidimos não mudar a bola de urna.
P =




1/2 1/ 0 0
1/6 1/2 2/6 0
0 2/ 1/2 1/6
0 0 1/2 1/2




Entretanto, π0 = 1, π1 = 3, π2 = 3, π3 = 1.
Portanto, a única distribuição estacionária é dada por:
π(0) = 1/8, π(1) = 3/8, π(2) = 3/8, π(3) = 1/8.
Neste caso, veremos mais tarde,
Pn
(x, y) → π(y), para todo y, quando n → ∞.
Condições de balanço detalhado
π(x)p(x, y) = π(y)p(y, x) ⇒ π(y) =
x
π(x)p(x, y)
pois x p(y, x) = 1.
Estados recorrentes positivos e recorrentes nulos
Um estado é recorrente se
ρyy = Py (Ty < +∞) = 1
Se y é recorrente então:
y é recorrente positivo se my = Ey (Ty ) < +∞;
y é recorrente nulo se my = Ey (Ty ) = +∞;
Número médio de visitas a um estado recorrente:
Defina Nn(y) o número de visitas ao estado y nos instantes
1, 2, . . . , n. Isto é, Nn(y) = n
m=1 1y (Xm).
Defina Gn(x, y) o número médio de visitas ao estado y dado
que X0 = x durante os instantes 1, 2, . . . , n
Gn(x, y) =
n
m=1
Ex [1y (Xm)] =
n
m=1
Pm
(x, y).
1.- Seja y um estado transiente. então
lim
n
Nn(y) = N(y) < ∞ com probabilidade 1,
e
lim
n
Gn(x, y) = G(x, y) < +∞.
Portanto,
lim
n
Nn(y)
n
= 0 com probabilidade 1,
e
lim
n
Gn(x, y)
n
= 0, x ∈ S.
Seja y um estado recorrente. Então:
lim
n
Nn(y)
n
=
1Ty <∞
my
com probabilidade 1,
e
lim
n
Gn(x, y)
n
=
ρxy
my
, x ∈ S.
Intuição: Uma vez que a cadeia chega ao estado y ela retorna
a y, “em média uma vez a cada my unidades de tempo”.
Assim, se y pode ser alcançado eventualmente e n é grande, a
proporção de tempo que a cadeia gasta no estado y é
aproximadamente 1/my .
Corolário: Seja C um conjunto fechado irredutível de estados
recorrentes. Então,
lim
n
Gn(x, y)
n
=
1
my
, x, c ∈ C
e se P(X0 ∈ C) = 1,
lim
n
Nn(y)
n
=
1
my
com probabilidade 1.
Note que as fórmulas valem para my = +∞.
Teorema: Seja x um estado recorrente positivo e suponha que
x → y. então y é recorrente positivo.
Portanto, em uma classe de estados fechada, irredutível ou
todos os estados são transientes, ou todos os estados são
recorrentes positivos ou todos os estados são recorrentes
nulos.
Se C é uma classe fechada e finita então C tem pelo
menos um estado recorrente positivo.
Se C é uma classe fechada, irredutível e finita de estados
então todo estado é recorrente positivo.
Uma cadeia de Markov irredutível com um número finito
de estados é recorrente positiva.
Uma cadeia de Markov tendo um número finito de estados
não tem estados recorrentes nulos.
Note que se y é um estado recorrente, então y está
contido numa classe fechada de estados recorrentes.
Como esta classe é necessariamente finita, ela contém
pelo menos um estado recorrente positivo e portanto todos
são recorrentes positivos.
Existência e unicidade das distribuições estacionárias
Teorema: Seja π uma distribução estacionária. Se x é
transiente ou recorrente nulo, então π(x) = 0.
Prova: Se x é transiente ou recorrente nulo então
lim
n
Gn(z, x)
n
= 0, z ∈ S.
Portanto, se pudermos trocar a ordem da soma e do limite:
π(x) lim
n
z
π(z) lim
n
Gn(z, x)
n
= 0.
Teorema: Seja uma cadeia de Markov irredutível, recorrente
positiva então existe uma única distribuição estacionária π
dada por:
π(y) =
1
my
, y ∈ S.
Consequências:
Uma cadeia de Markov é positiva recorrente é
irredutível se, e somente se tem uma única
distribuição estacionária.
Se uma cadeia de Markov tem um número finito
de estados e é irredutível então ela tem uma única
distribuição estacionária.
Seja Xn, n ≥ 0 uma cadeia de Markov irredutível,
recorrente positiva com distribuição estacionária
π. então com probabilidade 1,
min
n
Nn(y)
n
= π(y), y ∈ S.
Cadeia redutíveis:
Teorema: Seja C um conjunto irredutível fechado de estados
recorrentes positivos. Então a cadeia de Markov tem uma
única distribuição estacionária concentrada em C, isto é,
π(x) = 0, se x ∈ C e π(x) = 1/mx se x ∈ C.
Suponha que a cadeia tenha dois conjuntos irredutíveis
fechados de estados recorrentes positivos C0 e C1. então a
cadeia tem uma distribuição estacionária π0 concentrada em
C0 e uma distribuição estacionária π1 concentrada em C1.
Mais ainda, as distribuições
πα(x) = (1 − α)π0(x) + απ1(x)
também são estacionárias para a CM.
Teorema Central do Limite
Referências: Doeblin (1938) e Kendall (1957)
Considere uma cadeia de Markov X0, X1, . . . com
possivelmente infinitos estados I = {1, 2, . . .} ergódica. Assim,
todos os tempos de retorno my são finitos.
Seja f : I → R e defina
Sn =
n
m=1
f(Xm).
Sejam as v.a’s T
(1)
y < T
(2)
y < . . . os tempos de visita a y. Isto é,
T
(k)
y = min{n > T
(k−1)
y ; Xn = y}
Teorema ergódico
Assim, as v.a’s
f(XT
(k)
y +1
) + · · · + f(XT
(k+1)
y
), k = 1, 2, . . .
são iid com esperança finita
µf,y = E f(XT
(k)
y +1
) + · · · + f(XT
(k+1)
y
) .
O Teorema ergódico diz que
Sn
n
→
µy
my
em probabilidade.
CLT - cont.
Agora escreva,
Zk =
T
(k+1)
y
m=T
(k)
y +1
f(Xm) −
µy
my
T
(k+1)
y − T
(k)
y .
Assim, Z1, Z2, . . . são iid E(Zi) = 0 e defina
σ2
y = Var(Z1).
Teorema: Se µy existe e σy é finita e não nulas e os tempos de
recorrencia T
(k)
y tem segundo momento finito então
Sn − (µy /my )n
σ2
y n/my
⇒ N(0, 1).
Teoria de verossimilhança para Cadeias de Markov
Função de verossimilhança
L(P, x) = P(X0 = x0)
n−1
i=0
P(Xi+1 = xi+1|Xi = xi)
= P(X0 = x0)
n−1
i=0
pxi ,xi+1
= P(X0 = x0)
k,l∈I
p
Nk,l (n)
k,l
onde Nk,l(n) = número de vezes em que Xi = k, Xi+1 = l nos
instantes 1, . . . , n.
Notação: Nij(n) = Nij e nij(n) = nij,
L(π0, P, x) = π0(x0)
n−1
i=0
P(Xi+1 = xi+1|Xi = xi)
= π0(x0)
n−1
i=0
pxi ,xi+1
= π0(x0)
k,l∈I
p
Nk,l (n)
k,l
= π0(x0)
k∈I
Lk (P)
onde Lk (P) = l∈I p
Nk,l (n)
k,l depende somente dos elementos
na k-ésima linha da matrix P.
Seja l(π0, P, x) = log L(π0, P, x). Então temos as equações,
l(π0, P, x) = l0(π0, x0) +
k∈I
lk (P, x).
Queremos maximizar l sujeita a condições que
x
π0(x) = 1e que
j∈I
P(k, j) = 1
para todo k ∈ I. Usando multiplicadores de Lagrange e
escrevendo ni = j∈I temos as estimativas de MV
ˆpij =
nij
ni
quando ni > 0 ˆπ0(i) = 1(i = x0).
Se ni = 0 colocamos ˆpij = 0, j = i.
Seja
ˆI = {i ∈ I : ni > 0}
a porção observada do espaço de estados. Obviamente, ˆI é
finito. Note que (ˆpij, i, j ∈ ˆI) é uma matriz estocástica sobre ˆI.
Denote esta matriz por ˆP.
Teorema: Se (Xn) é uma cadeia de Markov ergódica
(irredutível, recorrente positiva), então ˆPij → pij com
probabilidade 1 para todo i, j ∈ S independentemente da
distribuição inicial.
Lembre-se que
1
n
Nij(n) → π(i)pij
e
1
n
Ni(n) → π(i).
Teorema: Se (Xn) é uma cadeia de Markov ergódica, então
independentemente da distribuição inicial
Ni(n)(ˆPij(n) − pij)
i,j∈I
→ N(0, Σ)
onde
σij,kl =



pij(1 − pij), (i.j) = (k, l)
−pijpil, i = k, j = l
0, caso contrário.
Obs.: A covariância assintótica tem uma estrutura multinomial
dentro das linhas e independência entre as linhas.
Aplicação a Snoqualmie Falls
Usando o resultado do Teorema anterior vemos que ˆP01 e ˆP11
são assintóticamente independentes. Mais ainda
ˆP11 ≈ N(p11, p11(1 − p11)/nπ(1))
onde π é a distribuição estacionária da CM.
Podemos estimar a variância usando
ˆP11 =
N11
N1
e ˆπ(1) =
N1
n
onde
N11 =
36
i=1
N
(i)
11 , . . .
Como n11 = 643, n1 = 771, n01 = 123, n0 = 309 e n = 1080,
intervalos de confiança assintóticos de 95%:
IC(p11, 95%) = (0.808; 0.860) IC(p01, 95%) = (0.343; .453).
Note que cada intervalo tem 95% de confiança, mas
conjuntamente, usando a independência assintótica,
(.95)2 = .903. a fim de encontrar uma região de confiança com
95% devemos usar intervalos individuais com 97.5%, obtendo
o retângulo:
(.775; .893) × (.272; .524).
Algumas vezes, é natural parametrizar o modelo.
Eugen Onegin
O próprio Markov deu um exemplo de Cadeia de Markov em
1924. Markov estudou um extrato de um poema de Puskin
chamado Eugen Onegin e classificou 20.000 caracteres
consecutivos em vogais e consoantes.
Vogal seguinte Consoante seguinte Total
Vogal 1106 7536 8638
Consoante 7533 3829 11362
Total 8639 11361 20000
É bastante óbvio que a escolha de vogal e consoante para a
letra seguinte não é independente da letra atual. Um modelo
muito simples é assumir que a troca se faz de forma constante,
isto é a matrix de transição é:
P =
1 − p p
p 1 − p
Teoria assintótica
Por simplicidade no caso paramétrico vamos assumir espaço
de estados finito. Assuma que as probabilidades de transição
dependam somente de um parâmetro θ, tomando valores em
um espaço paramétrico Θ ⊂ Rr . Vamos assumir as seguintes
condições de regularidade:
1. D = {(i, j); pij > 0} não depende de θ.
2. Cada pij(θ) é 3-vezes continuamente diferenciável.
3. A matriz de dimensão d × r, ∂pij(θ)/∂θk , i, j ∈ D,
k = 1, . . . , r e d é a cardinalidade de D, tem posto r.
4. Para cada θ existe somente uma classe ergódica e
nenhum estado transiente.
Podemos escrver a verossimilhança como
l(θ, x) =
D
nij log pij(θ).
Diferenciando esta expressão obtemos as equações de
verossimilhança:
∂
∂θk
ln(θ) =
D
nij
pij(θ)
∂pij(θ)
∂θk
= 0, k = 1, . . . , k.
Seja θ0 o verdadeiro valor do parâmtro.
Teorema: Assuma as condições de regularidade:
(i) Existe uma solução ˆθ das equações de verossimilhança que
é consistente;
(ii)
√
n(ˆθ − θ0) → N(0, I−1(θ0)), onde I é a matriz de
informação:
Iuv (θ0) =
(i,j)∈D
π(i, θ0)
pij(θ0)
∂pij(θ0)
∂θu
∂pij(θ0)
∂θv
.
(iii) Var
√
n(ˆθ − θ0) pode ser estimada de forma consistente
pelo inverso da informação observada
−
Nij
n
2
log pij(ˆθ)
−1
.
Exemplo: Eugen Onegin Estimamos p pela equação:
l(p) = (n00 + n11) log(1 − p) + (n01 + n10) log p,
onde 0 = vogal e 1 = consoante. O máximo é obtido em:
ˆP =
N01 + N10
n
e ˆp =
7532 + 7533
20000
= 0.753.
A segunda derivada da verossimilahnça é:
l (p) = −
n00 + n11
(1 − p)2
+
n01 + n10
p2
Portanto, o erro padrão assintótico estimado é
(−l (ˆp))−1/2
= (ˆp(1 − ˆp)/n)1/2 = (.753 × .247/20000)1/2. O
que nos dá um IC de nível 95% como:
(.747; .759)
Note que nem ˆp01 = .872 nem ˆp10 = .663 pertence a este
intervalo, indicando que o modelo de um parmâmetro não é
adequado.
Teorema: Assuma as condições de regularidade. Seja ˆθ o
EMV sob a hipótse paramétrica H0. Também, seja ˆP o EMV
não paramétrico e θ0 o verdadeiro valor do parâmetro, quando
H0 é verdadeira. Então:
(i) 2 l(ˆθ) − l(θ0)
D
→ χ2(r);
(ii) 2 l(ˆP) − l(ˆθ)
D
→ χ2(d(d − 1) − r);
(iii) As estatísticas em (i) e (ii) são assintóticqamente
independentes.
Teorema: Assuma as condições de regularidade. Sejam ˆθ0 o
EMV sob a hipótese paramétrica H0 : θ ∈ Θ0 e ˆθ1 o EMV sob a
hipótese θ ∈ Θ0 ∪ Θ1. Então para se testar H0 : θ ∈ Θ0 vs.
H1 : θ ∈ Θ1 a estatística do teste a ser utilizada é:
−2 l(ˆθ0) − l(ˆθ1)
D
→ χ2
(s)
onde s = dim(Θ1 ∪ Θ0) − dim(Θ0).
Teste para independência: Suponha que queremos testar a
hipótese de que a seqüência X1, X2, . . . tomando valores em
I = {0, 1, . . . , K} é independente vs. a hipótese de que
pertença a uma CM de ordem 1. Em termos de parametrização
simplesmente colocamos: H0 : pij = θj para todo i, j ∈ I.
Neste caso, precisamos calcular o máximo sob as duas
hipóteses (independência e CM de ordem 1).
CM de ordem 1: ˆPij = Nij/Ni.
Sob a hipótese de independência temos uma distribuição
multinomial, com n.j = i nij observações da categoria com
probabilidade θj. A verossimilhança é:
l(θ) =
K−1
j=0
n.jθj + n.K (1 −
K−1
j=0
θj),
a qual é maximizada por ˆθj = N.j/n. Portanto, a estatística da
razão de verossimilhança é dada por:
2 l(ˆP) − l(ˆθ) = 2
i,j
Nij log
Nij/Ni
N.j/n
a qual assintoticamente tem uma distribuição χ2 com
K(K + 1) − K = K2 graus de liberdade. No modelo de
Snoqualmie Falls K = 1.
Em Inferência usamos o teste chi-quadrado de Pearson:
X =
(Nij − Nip0
ij )2
Nip0
ij
Eugen Onegin Queremos testar a hipótese H0 : p01 = p10
Os valores esperados para a estatística de Pearson são
calculados multiplicando-se as somas das linhas
(n0, n1) = (8.638; 11.362) pela matriz de transição estimada
sob H0:
ˆP =
0.247 0.753
0.753 0.247
obtendo
(Eij) =
2131.4 6506.6
8558.4 2803.6
A Estatística chiquadrado para testar a hipótese
uni-dimensional é:
χ2
=
ij
(nij − ni ˆp0
ij )2
ni ˆp0
ij
= 1217.7.
O valor exato da estatística exata da verossimilhança é 1217.7.
(Aproximação excelente!!!)

Contenu connexe

Tendances

Econometria modelos de_regressao_linear
Econometria modelos de_regressao_linearEconometria modelos de_regressao_linear
Econometria modelos de_regressao_linearJoevan Santos
 
MATERIAL DE Probabilidade
MATERIAL DE ProbabilidadeMATERIAL DE Probabilidade
MATERIAL DE Probabilidadefredasvarella
 
Teste de hipóteses - paramétricos
Teste de hipóteses - paramétricosTeste de hipóteses - paramétricos
Teste de hipóteses - paramétricosRodrigo Rodrigues
 

Tendances (20)

Econometria modelos de_regressao_linear
Econometria modelos de_regressao_linearEconometria modelos de_regressao_linear
Econometria modelos de_regressao_linear
 
Testes de hipóteses
Testes de hipótesesTestes de hipóteses
Testes de hipóteses
 
Pesquisa de marketing online - Aula 2 - Aula de 26/03/2011
Pesquisa de marketing online - Aula 2 - Aula de 26/03/2011Pesquisa de marketing online - Aula 2 - Aula de 26/03/2011
Pesquisa de marketing online - Aula 2 - Aula de 26/03/2011
 
Lista 8 - Geometria Analítica - Resolução
Lista 8 - Geometria Analítica - ResoluçãoLista 8 - Geometria Analítica - Resolução
Lista 8 - Geometria Analítica - Resolução
 
MATERIAL DE Probabilidade
MATERIAL DE ProbabilidadeMATERIAL DE Probabilidade
MATERIAL DE Probabilidade
 
Estatística Descritiva
Estatística DescritivaEstatística Descritiva
Estatística Descritiva
 
Chapter 12
Chapter 12Chapter 12
Chapter 12
 
Exercicios de estatistica resolvido.5
Exercicios de estatistica resolvido.5Exercicios de estatistica resolvido.5
Exercicios de estatistica resolvido.5
 
Z Skor(Z-Score)
Z Skor(Z-Score)Z Skor(Z-Score)
Z Skor(Z-Score)
 
Recorrência
RecorrênciaRecorrência
Recorrência
 
6 teste de hipótese
6   teste de hipótese6   teste de hipótese
6 teste de hipótese
 
Variáveis aleatórias discretas - Estatística II
Variáveis aleatórias discretas - Estatística IIVariáveis aleatórias discretas - Estatística II
Variáveis aleatórias discretas - Estatística II
 
Distribuição binomial, poisson e hipergeométrica - Estatística I
Distribuição binomial, poisson e hipergeométrica - Estatística IDistribuição binomial, poisson e hipergeométrica - Estatística I
Distribuição binomial, poisson e hipergeométrica - Estatística I
 
Teste de hipóteses - paramétricos
Teste de hipóteses - paramétricosTeste de hipóteses - paramétricos
Teste de hipóteses - paramétricos
 
metod linearne regresije
 metod linearne  regresije metod linearne  regresije
metod linearne regresije
 
Lista 1 - FUV - Resolução
Lista 1 - FUV - ResoluçãoLista 1 - FUV - Resolução
Lista 1 - FUV - Resolução
 
Les5e ppt 05
Les5e ppt 05Les5e ppt 05
Les5e ppt 05
 
Les5e ppt 08
Les5e ppt 08Les5e ppt 08
Les5e ppt 08
 
Correlação
CorrelaçãoCorrelação
Correlação
 
Demonstração - Propriedade de módulo
Demonstração - Propriedade de móduloDemonstração - Propriedade de módulo
Demonstração - Propriedade de módulo
 

Similaire à Inferência para Cadeias de Markov

Similaire à Inferência para Cadeias de Markov (20)

Introdução à cadeias de markov
Introdução à cadeias de markovIntrodução à cadeias de markov
Introdução à cadeias de markov
 
Sequencias recorrentes
Sequencias recorrentesSequencias recorrentes
Sequencias recorrentes
 
Modulo 4
Modulo 4Modulo 4
Modulo 4
 
Derivada
DerivadaDerivada
Derivada
 
Apostila 2 calculo i derivadas
Apostila 2 calculo i derivadasApostila 2 calculo i derivadas
Apostila 2 calculo i derivadas
 
Poisson
PoissonPoisson
Poisson
 
Lista6 revisão teoriama11
Lista6 revisão teoriama11Lista6 revisão teoriama11
Lista6 revisão teoriama11
 
Formulario estatistica descritiva univariada e bivariava 2013
Formulario estatistica descritiva univariada e bivariava  2013Formulario estatistica descritiva univariada e bivariava  2013
Formulario estatistica descritiva univariada e bivariava 2013
 
Assimetria e Curtose da Poisson (Parte 1)
Assimetria e Curtose da Poisson (Parte 1)Assimetria e Curtose da Poisson (Parte 1)
Assimetria e Curtose da Poisson (Parte 1)
 
A função exponencial & trigonometria e aplicações
A função exponencial & trigonometria e aplicaçõesA função exponencial & trigonometria e aplicações
A função exponencial & trigonometria e aplicações
 
Schrodinger.pdf
Schrodinger.pdfSchrodinger.pdf
Schrodinger.pdf
 
Variaveis+aleatorias
Variaveis+aleatoriasVariaveis+aleatorias
Variaveis+aleatorias
 
Rodrigo de lima (uff) edo - parte 1edo
Rodrigo de lima (uff)   edo - parte 1edoRodrigo de lima (uff)   edo - parte 1edo
Rodrigo de lima (uff) edo - parte 1edo
 
Modelos de probabilidade
Modelos de probabilidadeModelos de probabilidade
Modelos de probabilidade
 
Calculo1 aula10
Calculo1 aula10Calculo1 aula10
Calculo1 aula10
 
Calculo1 aula10
Calculo1 aula10Calculo1 aula10
Calculo1 aula10
 
Atividades - Cálculo - Sequências
Atividades - Cálculo - SequênciasAtividades - Cálculo - Sequências
Atividades - Cálculo - Sequências
 
Derivadas
DerivadasDerivadas
Derivadas
 
Derivadas
DerivadasDerivadas
Derivadas
 
Cadeia markov1
Cadeia markov1Cadeia markov1
Cadeia markov1
 

Plus de Universidade Federal Fluminense

Punto de inflexión, accidentes frente a equipos de protección personal
Punto de inflexión, accidentes frente a equipos de protección personalPunto de inflexión, accidentes frente a equipos de protección personal
Punto de inflexión, accidentes frente a equipos de protección personalUniversidade Federal Fluminense
 
Tipping point, accidents versus personal protective equipment
Tipping point, accidents versus personal protective equipmentTipping point, accidents versus personal protective equipment
Tipping point, accidents versus personal protective equipmentUniversidade Federal Fluminense
 
Pegadas hídricas água, o precioso líquido do presente e do futuro
Pegadas hídricas   água, o precioso líquido do presente e do futuroPegadas hídricas   água, o precioso líquido do presente e do futuro
Pegadas hídricas água, o precioso líquido do presente e do futuroUniversidade Federal Fluminense
 
Rc para executivos ganha destaque no mercado segurador ad corretora de seguros
Rc para executivos ganha destaque no mercado segurador   ad corretora de segurosRc para executivos ganha destaque no mercado segurador   ad corretora de seguros
Rc para executivos ganha destaque no mercado segurador ad corretora de segurosUniversidade Federal Fluminense
 
Percepção, compreensão e avaliação de riscos análise de resultados de pesqu...
Percepção, compreensão e avaliação de riscos   análise de resultados de pesqu...Percepção, compreensão e avaliação de riscos   análise de resultados de pesqu...
Percepção, compreensão e avaliação de riscos análise de resultados de pesqu...Universidade Federal Fluminense
 
Editora roncarati incêndio em áreas de tancagem de produtos diversos arti...
Editora roncarati   incêndio em áreas de tancagem de produtos diversos   arti...Editora roncarati   incêndio em áreas de tancagem de produtos diversos   arti...
Editora roncarati incêndio em áreas de tancagem de produtos diversos arti...Universidade Federal Fluminense
 
Editora roncarati cenários críticos que ampliam riscos artigos e notícias
Editora roncarati   cenários críticos que ampliam riscos   artigos e notíciasEditora roncarati   cenários críticos que ampliam riscos   artigos e notícias
Editora roncarati cenários críticos que ampliam riscos artigos e notíciasUniversidade Federal Fluminense
 
Uma passagem só de ida no voo do dia 24 de março de 2015
Uma passagem só de ida no voo do dia 24 de março de 2015Uma passagem só de ida no voo do dia 24 de março de 2015
Uma passagem só de ida no voo do dia 24 de março de 2015Universidade Federal Fluminense
 
Editora roncarati autovistoria de edificações - considerações gerais arti...
Editora roncarati   autovistoria de edificações - considerações gerais   arti...Editora roncarati   autovistoria de edificações - considerações gerais   arti...
Editora roncarati autovistoria de edificações - considerações gerais arti...Universidade Federal Fluminense
 
Uma breve análise da evolução dos programas de gerenciamento de riscos
Uma breve análise da evolução dos programas de gerenciamento de riscosUma breve análise da evolução dos programas de gerenciamento de riscos
Uma breve análise da evolução dos programas de gerenciamento de riscosUniversidade Federal Fluminense
 

Plus de Universidade Federal Fluminense (20)

Punto de inflexión, accidentes frente a equipos de protección personal
Punto de inflexión, accidentes frente a equipos de protección personalPunto de inflexión, accidentes frente a equipos de protección personal
Punto de inflexión, accidentes frente a equipos de protección personal
 
Tipping point, accidents versus personal protective equipment
Tipping point, accidents versus personal protective equipmentTipping point, accidents versus personal protective equipment
Tipping point, accidents versus personal protective equipment
 
Pegadas hídricas água, o precioso líquido do presente e do futuro
Pegadas hídricas   água, o precioso líquido do presente e do futuroPegadas hídricas   água, o precioso líquido do presente e do futuro
Pegadas hídricas água, o precioso líquido do presente e do futuro
 
Rc para executivos ganha destaque no mercado segurador ad corretora de seguros
Rc para executivos ganha destaque no mercado segurador   ad corretora de segurosRc para executivos ganha destaque no mercado segurador   ad corretora de seguros
Rc para executivos ganha destaque no mercado segurador ad corretora de seguros
 
Liderança da gestão
Liderança da gestãoLiderança da gestão
Liderança da gestão
 
Percepção, compreensão e avaliação de riscos análise de resultados de pesqu...
Percepção, compreensão e avaliação de riscos   análise de resultados de pesqu...Percepção, compreensão e avaliação de riscos   análise de resultados de pesqu...
Percepção, compreensão e avaliação de riscos análise de resultados de pesqu...
 
Editora roncarati incêndio em áreas de tancagem de produtos diversos arti...
Editora roncarati   incêndio em áreas de tancagem de produtos diversos   arti...Editora roncarati   incêndio em áreas de tancagem de produtos diversos   arti...
Editora roncarati incêndio em áreas de tancagem de produtos diversos arti...
 
Editora roncarati cenários críticos que ampliam riscos artigos e notícias
Editora roncarati   cenários críticos que ampliam riscos   artigos e notíciasEditora roncarati   cenários críticos que ampliam riscos   artigos e notícias
Editora roncarati cenários críticos que ampliam riscos artigos e notícias
 
Cenários críticos que ampliam riscos
Cenários críticos que ampliam riscosCenários críticos que ampliam riscos
Cenários críticos que ampliam riscos
 
Uma passagem só de ida no voo do dia 24 de março de 2015
Uma passagem só de ida no voo do dia 24 de março de 2015Uma passagem só de ida no voo do dia 24 de março de 2015
Uma passagem só de ida no voo do dia 24 de março de 2015
 
Revista opinião.seg nº 7 maio de 2014
Revista opinião.seg nº 7   maio de 2014Revista opinião.seg nº 7   maio de 2014
Revista opinião.seg nº 7 maio de 2014
 
Editora roncarati autovistoria de edificações - considerações gerais arti...
Editora roncarati   autovistoria de edificações - considerações gerais   arti...Editora roncarati   autovistoria de edificações - considerações gerais   arti...
Editora roncarati autovistoria de edificações - considerações gerais arti...
 
Utilidade social e eficiência do mutualismo
Utilidade social e eficiência do mutualismoUtilidade social e eficiência do mutualismo
Utilidade social e eficiência do mutualismo
 
Uma breve análise da evolução dos programas de gerenciamento de riscos
Uma breve análise da evolução dos programas de gerenciamento de riscosUma breve análise da evolução dos programas de gerenciamento de riscos
Uma breve análise da evolução dos programas de gerenciamento de riscos
 
Teste de adequação de passivos susep
Teste de adequação de passivos   susepTeste de adequação de passivos   susep
Teste de adequação de passivos susep
 
Teoria do risco
Teoria do riscoTeoria do risco
Teoria do risco
 
Teoria do risco tese de doutoramento
Teoria do risco   tese de doutoramentoTeoria do risco   tese de doutoramento
Teoria do risco tese de doutoramento
 
Teoria de utilidade e seguro
Teoria de utilidade e seguroTeoria de utilidade e seguro
Teoria de utilidade e seguro
 
Tecnicas atuariais dos seguros
Tecnicas atuariais dos segurosTecnicas atuariais dos seguros
Tecnicas atuariais dos seguros
 
Tábuas de mortalidade
Tábuas de mortalidadeTábuas de mortalidade
Tábuas de mortalidade
 

Dernier

Simulado 1 Etapa - 2024 Proximo Passo.pdf
Simulado 1 Etapa - 2024 Proximo Passo.pdfSimulado 1 Etapa - 2024 Proximo Passo.pdf
Simulado 1 Etapa - 2024 Proximo Passo.pdfEditoraEnovus
 
Habilidades Motoras Básicas e Específicas
Habilidades Motoras Básicas e EspecíficasHabilidades Motoras Básicas e Específicas
Habilidades Motoras Básicas e EspecíficasCassio Meira Jr.
 
Aula 13 8º Ano Cap.04 Revolução Francesa.pptx
Aula 13 8º Ano Cap.04 Revolução Francesa.pptxAula 13 8º Ano Cap.04 Revolução Francesa.pptx
Aula 13 8º Ano Cap.04 Revolução Francesa.pptxBiancaNogueira42
 
PPT _ Módulo 3_Direito Comercial_2023_2024.pdf
PPT _ Módulo 3_Direito Comercial_2023_2024.pdfPPT _ Módulo 3_Direito Comercial_2023_2024.pdf
PPT _ Módulo 3_Direito Comercial_2023_2024.pdfAnaGonalves804156
 
Slide de exemplo sobre o Sítio do Pica Pau Amarelo.pptx
Slide de exemplo sobre o Sítio do Pica Pau Amarelo.pptxSlide de exemplo sobre o Sítio do Pica Pau Amarelo.pptx
Slide de exemplo sobre o Sítio do Pica Pau Amarelo.pptxconcelhovdragons
 
A experiência amorosa e a reflexão sobre o Amor.pptx
A experiência amorosa e a reflexão sobre o Amor.pptxA experiência amorosa e a reflexão sobre o Amor.pptx
A experiência amorosa e a reflexão sobre o Amor.pptxfabiolalopesmartins1
 
Família de palavras.ppt com exemplos e exercícios interativos.
Família de palavras.ppt com exemplos e exercícios interativos.Família de palavras.ppt com exemplos e exercícios interativos.
Família de palavras.ppt com exemplos e exercícios interativos.Susana Stoffel
 
Aula - 2º Ano - Cultura e Sociedade - Conceitos-chave
Aula - 2º Ano - Cultura e Sociedade - Conceitos-chaveAula - 2º Ano - Cultura e Sociedade - Conceitos-chave
Aula - 2º Ano - Cultura e Sociedade - Conceitos-chaveaulasgege
 
02. Informática - Windows 10 apostila completa.pdf
02. Informática - Windows 10 apostila completa.pdf02. Informática - Windows 10 apostila completa.pdf
02. Informática - Windows 10 apostila completa.pdfJorge Andrade
 
BRASIL - DOMÍNIOS MORFOCLIMÁTICOS - Fund 2.pdf
BRASIL - DOMÍNIOS MORFOCLIMÁTICOS - Fund 2.pdfBRASIL - DOMÍNIOS MORFOCLIMÁTICOS - Fund 2.pdf
BRASIL - DOMÍNIOS MORFOCLIMÁTICOS - Fund 2.pdfHenrique Pontes
 
Educação São Paulo centro de mídias da SP
Educação São Paulo centro de mídias da SPEducação São Paulo centro de mídias da SP
Educação São Paulo centro de mídias da SPanandatss1
 
Mesoamérica.Astecas,inca,maias , olmecas
Mesoamérica.Astecas,inca,maias , olmecasMesoamérica.Astecas,inca,maias , olmecas
Mesoamérica.Astecas,inca,maias , olmecasRicardo Diniz campos
 
Atividade com a letra da música Meu Abrigo
Atividade com a letra da música Meu AbrigoAtividade com a letra da música Meu Abrigo
Atividade com a letra da música Meu AbrigoMary Alvarenga
 
ATIVIDADE AVALIATIVA VOZES VERBAIS 7º ano.pptx
ATIVIDADE AVALIATIVA VOZES VERBAIS 7º ano.pptxATIVIDADE AVALIATIVA VOZES VERBAIS 7º ano.pptx
ATIVIDADE AVALIATIVA VOZES VERBAIS 7º ano.pptxOsnilReis1
 
Modelos de Desenvolvimento Motor - Gallahue, Newell e Tani
Modelos de Desenvolvimento Motor - Gallahue, Newell e TaniModelos de Desenvolvimento Motor - Gallahue, Newell e Tani
Modelos de Desenvolvimento Motor - Gallahue, Newell e TaniCassio Meira Jr.
 
HORA DO CONTO5_BECRE D. CARLOS I_2023_2024
HORA DO CONTO5_BECRE D. CARLOS I_2023_2024HORA DO CONTO5_BECRE D. CARLOS I_2023_2024
HORA DO CONTO5_BECRE D. CARLOS I_2023_2024Sandra Pratas
 
Prática de interpretação de imagens de satélite no QGIS
Prática de interpretação de imagens de satélite no QGISPrática de interpretação de imagens de satélite no QGIS
Prática de interpretação de imagens de satélite no QGISVitor Vieira Vasconcelos
 
Gerenciando a Aprendizagem Organizacional
Gerenciando a Aprendizagem OrganizacionalGerenciando a Aprendizagem Organizacional
Gerenciando a Aprendizagem OrganizacionalJacqueline Cerqueira
 

Dernier (20)

Simulado 1 Etapa - 2024 Proximo Passo.pdf
Simulado 1 Etapa - 2024 Proximo Passo.pdfSimulado 1 Etapa - 2024 Proximo Passo.pdf
Simulado 1 Etapa - 2024 Proximo Passo.pdf
 
Habilidades Motoras Básicas e Específicas
Habilidades Motoras Básicas e EspecíficasHabilidades Motoras Básicas e Específicas
Habilidades Motoras Básicas e Específicas
 
Aula 13 8º Ano Cap.04 Revolução Francesa.pptx
Aula 13 8º Ano Cap.04 Revolução Francesa.pptxAula 13 8º Ano Cap.04 Revolução Francesa.pptx
Aula 13 8º Ano Cap.04 Revolução Francesa.pptx
 
Orientação Técnico-Pedagógica EMBcae Nº 001, de 16 de abril de 2024
Orientação Técnico-Pedagógica EMBcae Nº 001, de 16 de abril de 2024Orientação Técnico-Pedagógica EMBcae Nº 001, de 16 de abril de 2024
Orientação Técnico-Pedagógica EMBcae Nº 001, de 16 de abril de 2024
 
PPT _ Módulo 3_Direito Comercial_2023_2024.pdf
PPT _ Módulo 3_Direito Comercial_2023_2024.pdfPPT _ Módulo 3_Direito Comercial_2023_2024.pdf
PPT _ Módulo 3_Direito Comercial_2023_2024.pdf
 
Slide de exemplo sobre o Sítio do Pica Pau Amarelo.pptx
Slide de exemplo sobre o Sítio do Pica Pau Amarelo.pptxSlide de exemplo sobre o Sítio do Pica Pau Amarelo.pptx
Slide de exemplo sobre o Sítio do Pica Pau Amarelo.pptx
 
A experiência amorosa e a reflexão sobre o Amor.pptx
A experiência amorosa e a reflexão sobre o Amor.pptxA experiência amorosa e a reflexão sobre o Amor.pptx
A experiência amorosa e a reflexão sobre o Amor.pptx
 
Família de palavras.ppt com exemplos e exercícios interativos.
Família de palavras.ppt com exemplos e exercícios interativos.Família de palavras.ppt com exemplos e exercícios interativos.
Família de palavras.ppt com exemplos e exercícios interativos.
 
Aula - 2º Ano - Cultura e Sociedade - Conceitos-chave
Aula - 2º Ano - Cultura e Sociedade - Conceitos-chaveAula - 2º Ano - Cultura e Sociedade - Conceitos-chave
Aula - 2º Ano - Cultura e Sociedade - Conceitos-chave
 
02. Informática - Windows 10 apostila completa.pdf
02. Informática - Windows 10 apostila completa.pdf02. Informática - Windows 10 apostila completa.pdf
02. Informática - Windows 10 apostila completa.pdf
 
BRASIL - DOMÍNIOS MORFOCLIMÁTICOS - Fund 2.pdf
BRASIL - DOMÍNIOS MORFOCLIMÁTICOS - Fund 2.pdfBRASIL - DOMÍNIOS MORFOCLIMÁTICOS - Fund 2.pdf
BRASIL - DOMÍNIOS MORFOCLIMÁTICOS - Fund 2.pdf
 
Educação São Paulo centro de mídias da SP
Educação São Paulo centro de mídias da SPEducação São Paulo centro de mídias da SP
Educação São Paulo centro de mídias da SP
 
Mesoamérica.Astecas,inca,maias , olmecas
Mesoamérica.Astecas,inca,maias , olmecasMesoamérica.Astecas,inca,maias , olmecas
Mesoamérica.Astecas,inca,maias , olmecas
 
Atividade com a letra da música Meu Abrigo
Atividade com a letra da música Meu AbrigoAtividade com a letra da música Meu Abrigo
Atividade com a letra da música Meu Abrigo
 
ATIVIDADE AVALIATIVA VOZES VERBAIS 7º ano.pptx
ATIVIDADE AVALIATIVA VOZES VERBAIS 7º ano.pptxATIVIDADE AVALIATIVA VOZES VERBAIS 7º ano.pptx
ATIVIDADE AVALIATIVA VOZES VERBAIS 7º ano.pptx
 
Modelos de Desenvolvimento Motor - Gallahue, Newell e Tani
Modelos de Desenvolvimento Motor - Gallahue, Newell e TaniModelos de Desenvolvimento Motor - Gallahue, Newell e Tani
Modelos de Desenvolvimento Motor - Gallahue, Newell e Tani
 
HORA DO CONTO5_BECRE D. CARLOS I_2023_2024
HORA DO CONTO5_BECRE D. CARLOS I_2023_2024HORA DO CONTO5_BECRE D. CARLOS I_2023_2024
HORA DO CONTO5_BECRE D. CARLOS I_2023_2024
 
Prática de interpretação de imagens de satélite no QGIS
Prática de interpretação de imagens de satélite no QGISPrática de interpretação de imagens de satélite no QGIS
Prática de interpretação de imagens de satélite no QGIS
 
Gerenciando a Aprendizagem Organizacional
Gerenciando a Aprendizagem OrganizacionalGerenciando a Aprendizagem Organizacional
Gerenciando a Aprendizagem Organizacional
 
Em tempo de Quaresma .
Em tempo de Quaresma                            .Em tempo de Quaresma                            .
Em tempo de Quaresma .
 

Inferência para Cadeias de Markov

  • 1. Inferência para Cadeias de Markov Nancy L. Garcia1 1UNICAMP, Brasil 2o. Semestre de 2012
  • 2. Inferência clássica Seja uma amostra aleatória X0, X1, X2, . . . , Xn: X0, X1, X2, . . . , Xn são i.i.d. distribuição de probabilidade conjunta: P(X0 ∈ A0, . . . , Xn ∈ An) = n i=0 P(Xi ∈ Ai) = n i=0 P(X ∈ Ai), onde X tem a mesma distribuição das Xi’s. Considere a sequência de v.a’s Xi.j onde Xi,j = 1 se chove no i-ésimo dia do j-ésimo ano e Xi,j = 0 se não chove no i-ésimo dia do j-ésimo ano. Faz sentido pensar que estas v.a’s são i.i.d.?
  • 3. Processos Estocásticos Um processo estocástico é uma coleção de v.a’s {Xt , α ∈ T} onde T é um conjunto de índices que pode ser discreto contínuo. Em geral, T = N ou [0, ∞). Neste caso, sempre é possível escrever a distribuição conjunta de um número finito destas v.a.’s P(Xt0 ∈ A0, . . . , Xtn ∈ An) = P(Xt0 ∈ A0) n i=1 P(Xti ∈ Ai|Xt0 ∈ A0, . . . , Xti−1 ∈ Ai−1).
  • 4. A teoria de Processos Estocásticos estuda diversas especificações para as probabilidades condicionais acima e obtém resultados similares aos clássicos: Lei dos Grandes Números (Teorema Ergódico); Teorema Central do Limite; Lei Assintótica; Estimação de máxima verossimilhança; Testes de hipóteses; Estimação não paramétrica.
  • 5. Xt : número de terremotos com magnitude maior que 5 que ocorrem na região de São Francisco no período de (0, t], onde 0 é o início do registro, por exemplo, 0:00hs do dia 01/01/1950. Processo a tempo contínuo com espaço de estados discreto.
  • 6. Xt : número de terremotos com magnitude maior que 5 que ocorrem na região de São Francisco no período de (0, t], onde 0 é o início do registro, por exemplo, 0:00hs do dia 01/01/1950. Processo a tempo contínuo com espaço de estados discreto. (Xk , Yk ): número de nascimento e mortes, respectivamente, ocorridos no dia k em uma colônia de vetores trnsmissores de doença de Chagas. Processo a tempo discreto com espaço de estados discreto.
  • 7. Xt : número de terremotos com magnitude maior que 5 que ocorrem na região de São Francisco no período de (0, t], onde 0 é o início do registro, por exemplo, 0:00hs do dia 01/01/1950. Processo a tempo contínuo com espaço de estados discreto. (Xk , Yk ): número de nascimento e mortes, respectivamente, ocorridos no dia k em uma colônia de vetores trnsmissores de doença de Chagas. Processo a tempo discreto com espaço de estados discreto. Xy,t : espessura da camada de ozônio na locação y no tempo t. Aqui temos T = R2 × [0, ∞). Processo a tempo contínuo com espaço de estados contínuo.
  • 8. Xt : a intensidade de um sinal a uma distância t da origem. Processo a tempo contínuo com espaço de estados contínuo. além disso, “tempo” é a distância.
  • 9. Xt : a intensidade de um sinal a uma distância t da origem. Processo a tempo contínuo com espaço de estados contínuo. além disso, “tempo” é a distância. Clientes chegam a uma fila de supermercado de acordo com um processo de Poisson. Os clientes são atendidos por um caixa que atende cada cliente de acordo a uma distribuição exponencial de parâmetro 1. Seja Xt o número de clientes na fila. Processo a tempo contínuo com espaço de estados discreto.
  • 10. Xt : a intensidade de um sinal a uma distância t da origem. Processo a tempo contínuo com espaço de estados contínuo. além disso, “tempo” é a distância. Clientes chegam a uma fila de supermercado de acordo com um processo de Poisson. Os clientes são atendidos por um caixa que atende cada cliente de acordo a uma distribuição exponencial de parâmetro 1. Seja Xt o número de clientes na fila. Processo a tempo contínuo com espaço de estados discreto. Temos duas caixas com um total de d bolas numeradas de 1 a d. Em cada experimento selecionamos uma bola ao acaso e a trocamos de caixa. Seja Xt o número de bolas na caixa 1 no instante t. Processo a tempo discreto com espaço de estados discreto.
  • 11. Aplicações de Cadeias de Markov Física, química, biologia, ciências sociais, jogos, música, linguística, neurociência, bioinformática, reconhecimento de imagens, reconhecimento de assinaturas, etc. Por exemplo, o “PageRank” de uma página da web como usado pelo Google é completamente definido através de uma cadeia de Markov.
  • 12. Propriedade de Markov Espaço de estados discreto e tempo discreto X0, X1, . . . v.a.’s discretas com valores possíveis I enumerável. P(Xn = x|X0 = x0, X1 = x1, . . . , Xn−1 = xn−1) = P(Xn = x|Xn−1 = xn−1) para todo n ≥ 1 e todos os valores de x, x0, x1, . . . , xn−1 ∈ I.
  • 13. Exemplo 1: Sejam Y0, Y1, . . . v.a.’s discretas i.i.d.. Defina Sn = Y0 + . . . + Yn Neste caso, P(Sn = x|S0 = x0, S1 = x1, . . . , Sn−1 = xn−1) = P(Sn−1 + Yn = x|S0 = x0, S1 = x1, . . . , Sn−1 = xn−1) = P(xn−1 + Yn = x|S0 = x0, S1 = x1, . . . , Sn−1 = xn−1) = P(xn−1 + Yn = x) = P(Sn = x|Sn−1 = xn−1).
  • 14. Propriedade de Markov Definições equivalentes P(Xn = x|Xn0 = x0, Xn1 = x1, . . . , Xnk = xk ) = P(Xn = x|Xnk = xk ) para todo n ≥ 1 e n0 < n1 < . . . < nk ≤ n − 1. P(Xn+m = x|X0 = x0, X1 = x1, . . . , Xn = xn) = P(Xn = x|Xn = xn) para todo n ≥ 1 e todos os valores de x, x0, x1, . . . , xn−1 ∈ I.
  • 15. Cadeia de Markov homogênea P(Xn = j|Xn−1 = i) = P(X1 = j|X0 = i) := pij para todo n ≥ 1 e todos os valores de i, j ∈ I. Matriz de transição P = (pij) A matriz de transição é uma matriz estocástica, i.e., pij ≥ 0, , j pij = 1. Matriz de transição em n-passos Pn = (pij(n)) onde pij(n) = P(Xn = j|X0 = i)
  • 16. Note que P1 = P, mais ainda pij(2) = P(X2 = j|X0 = i) = k∈I P(X2 = j, X1 = k|X0 = i) = k∈I P(X2 = j|X1 = k)P(X1 = k|X0 = i) = k∈I pkjpik . Portanto, P2 = P2.
  • 17. Equações de Chapman-Kolmogorov pij(n + m) = k pkj(n)pik (m) Consequentemente, Pn+m = PnPm e Pn = Pn.
  • 18. Distribuições marginais Defina µ (n) i = P(Xn = i). e µ(n) = (µ (n) i , i ∈ I). Note que µ (1) i = P(X1 = i) = k P(X1 = i, X0 = k) = k P(X1 = i|X0 = k)P(X0 = k) = k pkiµ (0) k
  • 19. µ (2) i = P(X2 = i) = j P(X2 = i, X1 = j) = j P(X2 = i|X1 = j)P(X1 = j) = j pjiµ (1) j = j pji k pkjµ (0) k Em geral, µ(n+m) = µ(m)Pn e µ(n) = µ(0)Pn
  • 20. Exemplo: Snoqualmie Falls dados diários para se choveu ou não, pelo menos, 0,01 cm 36 anos Janeiro para obter um sistema homogêneo e estacionário. I = {0, 1} Matriz de transição P = p00 p01 p10 p11 Será que os dados não são independentes?
  • 21. Hoje 0 1 0 186 (91) 123 (223) 309 Ontem 1 128 (223) 643 (543) 771 314 766 1080 Os valores entre parenteses são os valores esperados sob a hipótese de independência. X2 = 202, 89 e χ2 1;1% = 6, 63.
  • 22. Função de verossimilhança L(P, x) = P(X0 = x0) n−1 i=0 P(Xi+1 = xi+1|Xi = xi) = P(X0 = x0) n−1 i=0 pxi ,xi+1 = P(X0 = x0) k,l∈I p nk,l k,l onde nk,l = número de vezes em que Xi = k, Xi+1 = l.
  • 23. No exemplo de Snoqualmie Falls, L(P, x) =   36 j=1 P(X0,j = x0,j)   p186 00 p123 01 p128 10 p643 11 . Assuma que os x0,j são fixos e P(X0,j = x0,j) = 1, se não, podemos usar as 36 amostras para estimar esta probabilidade. • p00 + p01 = 1 e p10 + p11 = 1, ˆP1,0 = n1,0/(n0,0 + n1,0) e ˆP1,1 = n1,1/(n0,1 + n1,1) As estimativas de MV são dadas por: ˆp1,0 = 123/309 = 0, 398 ˆp1,1 = 643/771 = 0, 834
  • 24. Exemplo - Ferrugem asiática: Doença que está atacando as culturas de soja causando muito prejuízo aos produtores e demanda aplicações de fungicida causando danos ao meio ambiente e excessivos gastos.
  • 25. Exemplo - Ferrugem asiática: Doença que está atacando as culturas de soja causando muito prejuízo aos produtores e demanda aplicações de fungicida causando danos ao meio ambiente e excessivos gastos. Um dos fatores que influenciam para a ocorrência da doença é o molhamento foliar superior a oito horas.
  • 26. Exemplo - Ferrugem asiática: Doença que está atacando as culturas de soja causando muito prejuízo aos produtores e demanda aplicações de fungicida causando danos ao meio ambiente e excessivos gastos. Um dos fatores que influenciam para a ocorrência da doença é o molhamento foliar superior a oito horas. Molhamento foliar – acúmulo de água líquida causado por precipitação ou condensação da umidade atmosférica na forma de orvalho - superior a 8 horas.
  • 27. As variáveis coletadas: 1. molhamento foliar (codificada como 1 se há molhamento superior a oito horas e 0 caso contrário), 2. velocidade do vento em m/s, 3. umidade relativa do ar, 4. precipitação em mm e temperatura média em oC. Quatro estações meteorológicas: Lucas do Rio verde (MT), Rio Verde (GO), Passo Fundo (RS) e Holambra (SP) Dados enviados diariamente para o CEPAGRI - Unicamp (Centro de Pesquisas Meteorológicas e Climáticas Aplicadas à Agricultura).
  • 28. Fonsechi (2006) Modelo de Regressão Logístico para variáveis binárias variáveis dependem do tempo anterior, por exemplo, se choveu no tempo t − 1 influencia se haverá molhamento ou não no tempo t. Obviamente não podemos esperar independência de um tempo para o outro. Modelo P(Y | X) = n i=1 P(Yi | Y1, . . . , Yi−1, X) onde Y é a variável resposta e X é a matriz de covariáveis.
  • 29. Pode-se definir o i-ésimo logito como: θi = log P(Yi = 1|Y1, . . . , Yi−1, Xi) P(Yi = 0|Y1, . . . , Yi−1, Xi) e assumir que θi é função linear de Y1, . . . , Yi−1, Xi. Temos, então, um problema de regressão no qual a resposta Yi é binária, mas o conjunto de valores da variável explicativa muda de acordo com i.
  • 30. Para introduzir dependência no modelo é necessário criar variáveis auxiliares que são funções lineares dos Yi s: Zi = 2Yi − 1 se Yi = 0 ou 1 0 se Yi desconhecido Definimos a regressão logística da seguinte forma: θ1 = α + βX1 θi = α + i−1 j=1 γjZj + βXi, i = 1, . . . , n em que α, β e γ s são parâmetros que variam no intervalo (−∞, ∞) e a dependência foi introduzida no modelo através das variáveis Zi s presentes nos logitos.
  • 31. Temos P(Y|X) = n i=1 eθi (1 + eθi ) . Para (j < i) Yj =1, a chance do dia i ter molhamento (Yi = 1) aumenta em eγj , Yj desconhecido não muda a chance, Yj=0 diminui a chance em eγj um aumento de uma unidade em Xi aumenta a chance do dia i ter molhamento em eβ.
  • 32. O modelo na forma matricial fica: θ = [θ1 . . . θn] , Z = [Z1 . . . Zn] , λ = [α γ1 γ2 . . . γn−1 β] , A =        1 0 0 . . . 0 X1 1 Z1 0 . . . 0 X2 1 Z1 Z2 . . . 0 X3 ... ... ... ... ... ... 1 Z1 Z2 . . . Zn−1 Xn        . Então o modelo torna-se: θ = Aλ (1)
  • 33. Estruturas Markovianas de Dependência Com a estrutura de primeira ordem o modelo torna-se: P(Y|X) = P(Y1|X) n i=2 P(Yi|Yi−1, X). Com a estrutura de segunda ordem o modelo torna-se: P(Y|X) = P(Y1|X)P(Y2|Y1, X)P n i=3 P(Yi|Yi−1, Yi−2, X). Portanto, a probabilidade de ter molhamento foliar no dia i só depende da resposta do dia imediatamente anterior (ou dois dias). Nesse caso, os logitos podem ser escritos como: θi = α + γZi−1 + βXi.
  • 34. Método de análise Foi utilizado o software livre R (www.r-project.org) Para as quatro estações testou-se o modelo com estrutura Markoviana de dependência de primeira e segunda ordem Ajustou-se primeiramente um modelo com todas as covariáveis (Modelo completo) e depois utilizou-se stepwise para selecior as covariáveis que realmente são significativas ao modelo (Modelo reduzido). Critério AIC. Para verificar a adequação do modelo foi utilizado a estatística “deviance” (−2logL, sendo L a funcão de verossimilhança), essa estatística tem distribuição χ2 n−p−1, sendo n − p − 1 o graus de liberdade, n é o número de observações e p é o número de parâmetros.
  • 35. Passo Fundo - Estrutura Markoviana de 1a ordem Tabela: Modelo Completo Parâmetro Estimação teste-t Intercepto -13.80594 6.03e-06 Z 0.68004 0.00104 UR 0.15166 2.50e-08 Temp média 0.0995 0.12957 Velocidade Vento -0.24003 0.28894 Chuva 0.05070 0.28251
  • 36. Passo Fundo - Estrutura Markoviana de 1a ordem Tabela: Modelo Reduzido Parâmetro Estimação teste-t Intercepto -15.67279 5.97e-08 Z 0.66143 0.00103 UR 0.16491 4.24e-11 Temp média 0.10751 0.09699 Para Passo Fundo, com estrutura markoviana com dependência de primeira ordem a deviance foi 161,1 e o valor tabelado da χ2 223 é 189.43, ou seja, pelo teste de bondade de ajuste esse modelo é adequado.
  • 37. Passo Fundo - Estrutura Markoviana de segunda ordem Tabela: Modelo Completo Parâmetro Estimação teste-t Intercepto -13.80594 8.99e-06 Z1 0.52782 0.0197 Z2 0.36670 0.0960 UR 0.15069 4.24e-08 Temp média 0.10047 0.1332 Velocidade Vento -0.25198 0.2793 Chuva 0.055070 0.2512
  • 38. Tabela: Modelo Reduzido Parâmetro Estimação teste-t Intercepto -15.79363 6.88e-08 Z1 0.51292 0.0204 Z2 0.34475 0.1150 UR 0.16604 5.61e-11 Temp média 0.10841 0.100 Apesar de ter utilizado o método stepwise para selecionar o melhor modelo ainda há variáveis não significativas no modelo ao nível de significância de 10%, sendo ela a variável que representa a estrutura de dependência de segunda ordem, ou seja, o modelo para passo fundo, com dependência de primeira ordem é o mais adequado para o conjunto de dados de Passo Fundo.
  • 39. Conclusão Verificou-se a eficiência da utilização do Modelo Logístico Regressivo para a estimação de molhamento foliar na cultura da soja. Para as quatro estações testadas, o modelo que melhor ajusta aos dados meteorológicos é o logístico regressivo com estrutura markoviana de primeira ordem, ou seja, o modelo que leva em consideração a dependência do dia anterior para a ocorrência de molhamento foliar. Com as previsões meteorológicas e o uso do modelo proposto será possível um melhor monitoramento da cultura da soja, acionando os produtores de soja para alertá-los quando houver indícios da ocorrência de molhamento foliar superior a 8 horas, ajudando assim o momento certo para aplicação de fungicida.
  • 40. Urna de Ehrenfest Modelo para troca de calor ou gases entre dois corpos isolados.
  • 41. Urna de Ehrenfest Modelo para troca de calor ou gases entre dois corpos isolados. Temos duas caixas com um total de d bolas numeradas de 1 a d.
  • 42. Urna de Ehrenfest Modelo para troca de calor ou gases entre dois corpos isolados. Temos duas caixas com um total de d bolas numeradas de 1 a d. Inicialmente algumas destas bolas estão na caixa 1 e o restante na caixa 2.
  • 43. Urna de Ehrenfest Modelo para troca de calor ou gases entre dois corpos isolados. Temos duas caixas com um total de d bolas numeradas de 1 a d. Inicialmente algumas destas bolas estão na caixa 1 e o restante na caixa 2. Em cada experimento selecionamos uma bola ao acaso (i.e, selecionamos ao acaso um número entre 1 e d) e a trocamos de caixa.
  • 44. Urna de Ehrenfest Modelo para troca de calor ou gases entre dois corpos isolados. Temos duas caixas com um total de d bolas numeradas de 1 a d. Inicialmente algumas destas bolas estão na caixa 1 e o restante na caixa 2. Em cada experimento selecionamos uma bola ao acaso (i.e, selecionamos ao acaso um número entre 1 e d) e a trocamos de caixa. Repita o procedimento sequencialmente. Seja Xn o número de bolas na caixa 1 no instante n.
  • 45. Xn é uma cadeia de Markov com espaço de estados {0, 1, . . . , d} e matriz de transição P(x, y) =    (x/d), y = x − 1, 1 − (x/d), y = x + 1, 0, caso contrário
  • 46. Ruína do jogador Definição: Um estado a de uma cadeia de Markov é dito ser absorvente se P(a, y) = 0, para y = a. Um jogador começa com um capital inicial de i reais e faz uma sequência de apostas de R$ 1,00.
  • 47. Ruína do jogador Definição: Um estado a de uma cadeia de Markov é dito ser absorvente se P(a, y) = 0, para y = a. Um jogador começa com um capital inicial de i reais e faz uma sequência de apostas de R$ 1,00. Assuma que ele tem probabilidade p de ganhar e probabilidade 1 − q de perder a cada aposta independentemente das apostas anteriores.
  • 48. Ruína do jogador Definição: Um estado a de uma cadeia de Markov é dito ser absorvente se P(a, y) = 0, para y = a. Um jogador começa com um capital inicial de i reais e faz uma sequência de apostas de R$ 1,00. Assuma que ele tem probabilidade p de ganhar e probabilidade 1 − q de perder a cada aposta independentemente das apostas anteriores. Se seu capital chegar a zero ele se arruinará e seu capital continuará zero para sempre.
  • 49. Esta é uma CM com espaço de estados {0, 1, . . .} onde 0 é um estado absorvente e para x ≥ 1 P(x, y) =    1 − p, y = x − 1, p, y = x + 1, 0, caso contrário
  • 50. Esta é uma CM com espaço de estados {0, 1, . . .} onde 0 é um estado absorvente e para x ≥ 1 P(x, y) =    1 − p, y = x − 1, p, y = x + 1, 0, caso contrário Se houver um adversário que inicia o jogo com d − i reais e o jogo termina quando o capital do 1o. jogador atinge 0 ou d o espaço de estados é {0, 1, . . .} onde 0 e d são estado absorventes e para 1 ≤ x ≤ d − 1 P(x, y) =    1 − p, y = x − 1, p, y = x + 1, 0, caso contrário
  • 51. Cadeias de nascimento e morte Considere uma CM com espaço de estados I = {0, 1, . . .} ou I = {0, 1, . . . , d}. Estando no estado x no próximo passo somente poderá estar em x, x + 1 ou x − 1. Considere que a matriez de transição seja: P(x, y) =    qx , y = x − 1, px , y = x + 1, rx , y = x, 0, caso contrário onde para cada x, px , qx , rx ≥ 0, px + qx + rx = 1.
  • 52. Classificação de estados: Seja A um subconjunto do espaço de estados I. O tempo de chegada a A é definido como: TA = min{n > 0; Xn ∈ A}, se Xn atinge A, ∞, caso contrário Notaçao: A = {a} usamos a notação: Ta. Denotaremos por Px (·) as probabilidades dos diversos eventos quando o estado inicial da cadeia for x. Assim, Px (X1 = a, X2 = b) = P(X1 = a, X2 = b|X0 = x).
  • 53. Uma identidade importante: Pn(x, y) = n m=1 Px (Ty = m)Pn−m(y, y), n ≥ 1 Se a é um estado absorvente então Pn−m (a, a) = 1, para1 ≤ m ≤ n. e Pn (x, a) = n m=1 Px (Ta = m)Pn−m (a, a) = n m=1 Px (Ta = m) = Px (Ta ≤ n).
  • 54. Observe que Px (Ty = 1) = Px (X1 = y) = P(x, y) e que Px (Ty = 2) = z=y Px (X1 = z, X2 = y) = z=y P(x, z)P(z, y). Em geral, Px (Ty = n + 1) = z=y P(x, z)Pz(Ty = n), n ≥ 1
  • 55. Estados recorrentes e transientes ρxy = Px (Ty < ∞) = probabilidade que uma CM começando em x consiga atingir o estado y em tempo finito.
  • 56. Estados recorrentes e transientes ρxy = Px (Ty < ∞) = probabilidade que uma CM começando em x consiga atingir o estado y em tempo finito. ρyy = probabilidade que uma CM começando em y alguma vez retorne a y.
  • 57. Estados recorrentes e transientes ρxy = Px (Ty < ∞) = probabilidade que uma CM começando em x consiga atingir o estado y em tempo finito. ρyy = probabilidade que uma CM começando em y alguma vez retorne a y. Um estado y é dito ser: 1. recorrente se ρyy = 1; 2. transiente se ρyy < 1.
  • 58. Estados recorrentes e transientes ρxy = Px (Ty < ∞) = probabilidade que uma CM começando em x consiga atingir o estado y em tempo finito. ρyy = probabilidade que uma CM começando em y alguma vez retorne a y. Um estado y é dito ser: 1. recorrente se ρyy = 1; 2. transiente se ρyy < 1. Se y é um estado absorvente, então Py (T1 = y) = 1 e ρyy = 1 e y é recorrente.
  • 59. Para cada estado y ∈ I defina a v.a. N(y) = ∞ n=1 1y (Xn) o número de vezes que a CM visita o estado y. Note que: Px (N(y) ≥ 1) = Px (Ty < ∞) = ρxy . É fácil ver que a propriedade de Markov diz que: a probabilidade da cadeia começando em x visitar pela primeira vez y após m passos e retornar a y n passos depois é Px (Ty = m)Py (Ty = n).
  • 60. Portanto, Px (N(y) ≥ 2) = ∞ m=1 ∞ n=1 Px (Ty = m)Py (Ty = n) = ∞ m=1 Px (Ty = m) ∞ n=1 Py (Ty = n) = ρxy ρyy . Similarmente, Px (N(y) ≥ m) = ρxy ρm−1 yy , m ≥ 1. Usando o fato que Px (N(y) = m) = Px (N(y) ≥ m) − Px (N(y) ≥ m + 1). Px (N(y) = m) = ρxy ρm−1 yy (1 − ρyy ), m ≥ 1. e Px (N(y) = 0) = (1 − ρxy ).
  • 61. Observe que Ex (N(y)) = Ex ∞ n=1 1y (Xn) = ∞ n=1 Ex (1y (Xn)) = ∞ n=1 Pn (x, y). Defina G(x, y) = Ex (N(y)) = ∞ n=1 Pn(x, y).
  • 62. O seguinte teorema descreve a diferença fundamental entre estados transientes e estados recorrentes: Teorema: (i) Seja y um estado transiente. Então: Px (N(y) < ∞) = 1 e G(x, y) = ρxy 1 − ρyy . (ii) Seja y um estado recorrente. Então: Py (N(y) = ∞) = 1 e G(y, y) = 1. Mais ainda, Px (N(y) = ∞) = Px (Ty < ∞) = ρxy . Se ρxy = 0 então G(x, y) = 0 enquanto que ρxy > 0 implica que G(x, y) = ∞.
  • 63. Seja y um estado transiente. Como ∞ n=1 Pn (x, y) = G(x, y) < ∞ ⇒ lim n Pn (x, y) = 0. Uma CM é dita ser transiente se todos os seus estados são transientes e recorrente se todos os seus estados são recorrentes. É fácil ver que toda CM finita precisa ter pelo menos um estado recorrente, i.e. não pode ter todos os seus estados transientes: 0 = y∈I lim n Pn (x, y) CM finita = lim n y∈I Pn (x, y) = lim n Px (Xn ∈ I) = 1.
  • 64. Decomposição do espaço de estados: Sejam x e y ∈ I x → y, se ρxy > 0. x → y se, e somente se, Pn(x, y) > 0 para algum n. x → y e y → z então x → z. Teorema: Seja x um estado recorrente e suponha que x → y. Então y é recorrente e ρxy = ρyx = 1.
  • 65. Um conjunto não vazio C ⊂ I é dito ser fechado se nenhum estado de dentro de C leva a um estado fora de C, i.e., se ρxy = 0, x ∈ C, y ∈ C. Equivalentemente, C é fechado se, e somente se, Pn (x, y) = 0, x ∈ C, y ∈ C, para todo n ≥ 1. Se C é um conjunto fechado então uma CM começando em C ficará em C com probabilidade 1. Se A é um estado absorvente, então {a} é fechado.
  • 66. Um conjunto fechado é dito ser irredutível se x → y para todos x, y ∈ C. Segue do Teorema anterior que se C é uma classe fechada e irredutível, então ou todo estado de C é recorrente, ou todo estado de C é recorrente. Seja C uma classe fechada irredutível de estados recorrentes. então ρxy = 1, Px (N(y) = ∞) = 1 e G(x, y) = ∞ para todas as escolhas de x, y ∈ C. Uma cadeia de Markov irredutível é uma cadeia cujo espaço de estados I é fechado e irredutível. Segue que tais cadeias ou são transientes ou são recorrentes.
  • 67. Teorema: Seja C um conjunto finito de estados. Então todos os estados em C são recorrentes. Considere uma CM com um número finito de estados. Se a CM é irredutível, deve ser recorrente. Se a CM não é irredutível verificamos quais são as classes irredutíveis e quais estados são recorrentes e transientes.
  • 68. Exemplo: I = {0, 1, 2, 3, 4, 5}          1 0 0 0 0 0 1 4 1 2 1 4 0 0 0 0 1 5 2 5 1 5 0 1 5 0 0 0 1 6 1 3 1 2 0 0 0 1 2 0 1 2 0 0 0 1 4 0 3 4         
  • 69. Note que a matriz abaixo traz os valores + e 0 de acordo com x → y, i.e, ρxy > 0.         + 0 0 0 0 0 + + + + + + + + + + + + 0 0 0 + + + 0 0 0 + + + 0 0 0 + + +         Obviamente, se P(x, y) > 0 então ρxy > 0, mas a recíproca não é verdadeira pois P(2, 0) = 0 e ρ20 > 0 pois P2 (2, 0) = P(2, 1)P(1, 0) = 1 5 1 4 = 1 20 > 0.
  • 70. 0 é um estado absorvente, portanto é recorrente. Também vemos pela matriz acima que {3, 4, 5} é uma classe finita, fechada e irredutível portanto todos os seus estados são recorrentes. 2 → 0 e 1 → 0 mas 0 → 2 e 0 → 1, sendo assim 1 e 2 tem que ser estados transientes.
  • 71. Sejam: IT o conjunto de estados transientes; IR o conjunto de estados recorrentes. Neste exemplo, IT = {1, 2} e IR = {0} ∪ {3, 4, 5}. Sempre é possível decompor IR numa união disjunta (finita ou enumerável) de classes irredutíveis.
  • 72. Probabilidades de absorção Seja C uma das classes fechadas irredutíveis de estados recorrentes e defina: ρC(x) := Px (TC < ∞) a probabilidade de que a CM começando em x eventualmente atinja C ( e permaneça em C para sempre). Claramente, ρC(x) = 1, se x ∈ C ρC(x) = 0, se x é recorrente, mas x ∈ C Como calcular ρC(x) se x for transiente?
  • 73. Se temos somente um número finito de estados transientes, em particular se I é finito, pode-se encontrar ρC(x), x ∈ IT através de um sistema linear de equações. Observe que se x ∈ IT , uma cadeia somente pode ser absorvido em C se, (i) for absorvindo em C no instante 1; ou (ii) continuar em IT no instante 1 e ser absorvido em C em um tempo futuro. O evento (i) tem probabilidade y∈C P(x, y) e o evento (ii) tem probabilidade y∈IT P(x, y)ρC(y).
  • 74. ρC(x) = y∈C P(x, y) + y∈IT P(x, y)ρC(y), x ∈ IT . A equação acima pode ser resolvida se IT é finito. No caso de IT não é claro como resolver o sistema, nem mesmo garantir que o sistema tenha solução única.
  • 75. Exemplo: Encontre ρ10 = ρ{0}(1) e ρ20 = ρ{0}(2). Montando o sistema de equções temos, ρ10 = 1/4 + (1/2)ρ10 + (1/4)ρ20 ρ20 = (1/5)ρ10 + (2/5)ρ20 A solução é: ρ10 = (3/5) e ρ20 = (1/5). Note que uma vez que uma CM começando em um estado transiente x entra em uma classe fechada, irredutível de estados recorrentes, visita todos os estados de C com probabilidade 1. Assim, ρxy = ρC(x), para todo y ∈ C. Portanto, ρ13 = ρ14 = ρ15 = 2/5, ρ23 = ρ24 = ρ25 = 4/5.
  • 76. Cadeias de nascimento e morte CM irredutível: ou todos os estados recorrentes, ou todos estados transientes. CM irredutível finita: todos os estados recorrentes. O que fazer no caso I infinito?
  • 77. Considere uma CM com espaço de estados I = {0, 1, . . .} ou I = {0, 1, . . . , d}. Estando no estado x no próximo passo somente poderá estar em x, x + 1 ou x − 1. Considere que a matriez de transição seja: P(x, y) =    qx , y = x − 1, px , y = x + 1, rx , y = x, 0, caso contrário onde para cada x, px , qx , rx ≥ 0, px + qx + rx = 1. Note que q0 = 0 e pd = 0 se d < ∞. Assuma que px , qx > 0 para 0 < x < d.
  • 78. Para a < b ∈ I, seja u(x) = Px (Ta < Tb), a < x < b e u(a) = 1, u(b) = 0. Portanto, é fácil ver que u(y) = qy u(y − 1) + ry u(y) + py u(y + 1), a < y < b. Como ry = 1 − py − qy temos u(y + 1) − u(y) = qy py (u(y) − u(y − 1)), a < y < b.
  • 79. Defina γ0 = 1 e γy = q1···qy p1···py , 0 < y < d. Temos, u(x) = b−1 y=x γy b−1 y=a γy , a < x < b. Portanto, da definição de u(x) temos Px (Ta < Tb) = b−1 y=x γy b−1 y=a γy , a < x < b. Px (Tb < Ta) = x−1 y=a γy b−1 y=a γy , a < x < b.
  • 80. Exemplo: Um jogador na roleta faz uma sequência de apostas de $1.00. Ele tem probabilidades 9/19 e 10/19 de ganhar e perder respectivamente. O jogador decide que ele pára de jogar se ele lucra $25.00 ou se ele perde $10.00. (a) Ache a probabilidade dele parar de jogar ganhando. (b) Ache sua perda esperada.
  • 81. Xn: capital do jogador no tempo n com X0 = 10. Xn é uma cadeia de nascimento e morte com I = {0, 1, . . . , 35} taxas px = 9/19, 0 < x < 35 e qx = 10/19, 0 < x < 35. Os estados 0 e 35 são aobsorventes. Aplicar a fórmula para a = 0, x = 10, b = 35. Portanto, γy = (10/9)y , 0 ≤ y ≤ 34, Probabilidade de ganhar: P10(T35 < T0) = 9 y=0(10/9)y 34 y=0(10/9)y = (10/9)10 − 1 (10/9)35 − 1 = 0.047. Perda esperada: 10 − 35 × (0.047) = 8.36.
  • 82. Distribuição estacionária Seja Xn, n ≥ 0 uma CM com espaço de estados I e matriz de transição P. Uma distribuição estacionária π(x), x ∈ I satisfaz: 1. π(x) ≥ 0, x ∈ I; 2. x∈I π(x) = 1; 3. x∈I π(x)P(x, y) = π(y), y ∈ I.
  • 83. Distribuição limite Suponha que temos lim n→∞ Pn (x, y) = π(y), y ∈ I. Neste capítulo queremos determinar quando temos distribuição estacionária, quando temos distribuição limite e quando elas são iguais.
  • 84. Propriedades de distribuições estacionárias Seja π uma distribuição estacionária para P. Então: x∈I π(x)P2 (x, y) = x∈I π(x) z P(x, z)P(z, y) = z x π(x)P(x, z) P(z, y) = z π(z)P(z, y) = π(y). Portanto, por indução, usando a fórmula Pn+1 (x, y) = z Pn (x, z)P(z, y), temos x∈I π(x)Pn(x, y) = π(y), y ∈ I.
  • 85. Se π0 = π temos que P(Xn = y) = π(y), y ∈ I e a distribuição de Xn é independente de n. Suponha reciprocamente que πn não dependa de n, então a distribuição de X0 e X1 são idênticas e π0(y) = π1(y) = x π0(x)P(x, y). Consequentemente, π0 é distribuição estacionária. A distribuição de Xn é independente de n se, e somente se, π0 é estacionária.
  • 86. Suponha que π é distribuição estacionária e lim n→∞ Pn (x, y) = π(y), y ∈ I. então P(Xn = y) = x π0(x)Pn(x, y), y ∈ I. Tirando o limite nos dois lados da equação e passando o limite dentro do somatório, temos lim n→∞ Pn (x, y) = x π0(x)π(y), y ∈ I. Como x π0(x) = 1 temos limn→∞ Pn(x, y) = π(y), y ∈ I.
  • 87. Temos que se π é uma distribuição estacionária e lim n→∞ Pn (x, y) = π(y), y ∈ I , a distribuição πn se aproxima de π independemtemente da distribuição inicial. Portanto, π é a única distribuição estacionária, senão usaríamos a outra distribuição para π0 e teríamos π = π0. Suponha que observamos nosso sistema por um tempo longo, digamos n0 passos e seja Yn = Xn0+n, As v.a.’s Yn formam uma CM com a mesma matriz de transição P. Se N0 for suficientemente grande, podemos supor que a distribuição marginal de Yn é a mesma da distribuição estacionária π.
  • 88. Exemplo 1: P = 1 − p p q 1 − q Se p + q > 0 temos π(0) = q p + q π(1) = p p + q .
  • 89. Cadeias de nascimento e morte Considere uma cadeia de nascimento e morte com I = {0, 1, . . .}. Vamos assumir que a cadeia é irredutível i.e., px > 0, 0 ≤ x < ∞ qx > 0, 0 < x < ∞. O sistema de equações x π(x)P(x, y) = π(y) será: r0π(0) + q1π(1) = π(0) py−1π(y − 1) + ry π(y) + qy+1π(y + 1) = π(y), y ≥ 1.
  • 90. Como px + rx + q + x = 1, temos (1 − p0)π(0) + q1π(1) = π(0) py−1π(y −1)+(1−py −qy )π(y)+qy+1π(y +1) = π(y), y ≥ 1. Portanto, qy+1π(y + 1) − py π(y) = qy π(y) − py−1π(y − 1), y ≥ 1 e consequentemente, por indução qy+1π(y + 1) − py π(y) = 0, y ≥ 0. Neste caso, obtemos π(y + 1) = py qy+1 π(y).
  • 91. Usando novamente indução é fácil ver que: π(x) = p0 · p1 · · · px−1 q1 · q2 · · · qx π(0). Finalmente, se chamamos π0 = 1, , πx = p0 · p1 · · · px−1 q1 · q2 · · · qx , x ≥ 1, temos π(x) = πx π(0), x ≥ 0.
  • 92. Temos que verificar se as soluções de (1) satisfazem x π(x) = 1. Caso 1: x πx < ∞. 1 = x π(x) = x πx π(0) Portanto, π(0) = 1 x πx , π(x) = πx x πx x ≥ 1. Caso 2: x πx = ∞. x π(x) = x πx π(0) = 0, se π(0) = 0 ∞, se π(0) > 0 Portanto, não existe distribuição estacionária. Todas as deduções anteriores valem para o caso de cadeias de nascimento e morte finitas, i.e. d < ∞.
  • 93. Urna de Ehrenfest d = 3 P =     0 1 0 0 1/3 0 2/3 0 0 2/3 0 1/3 0 0 1 0     Esta é uma cadeia de nascimento e morte irredutível com π0 = 1, π1 = 3, π2 = 3, π3 = 1. Portanto, a única distribuição estacionária é dada por: π(0) = 1/8, π(1) = 3/8, π(2) = 3/8, π(3) = 1/8. Note que neste caso, Pn(x, y) = 0 para valores ímpares de n. Assim, Pn (x, x) → π(x).
  • 94. Urna de Ehrenfest modificada: Suponha que temos o mesmo esquema da urna de Ehrenfest, mas a cada troca jogamos independentemente uma moeda e se esta sair cara decidimos não mudar a bola de urna. P =     1/2 1/ 0 0 1/6 1/2 2/6 0 0 2/ 1/2 1/6 0 0 1/2 1/2     Entretanto, π0 = 1, π1 = 3, π2 = 3, π3 = 1. Portanto, a única distribuição estacionária é dada por: π(0) = 1/8, π(1) = 3/8, π(2) = 3/8, π(3) = 1/8. Neste caso, veremos mais tarde, Pn (x, y) → π(y), para todo y, quando n → ∞.
  • 95. Condições de balanço detalhado π(x)p(x, y) = π(y)p(y, x) ⇒ π(y) = x π(x)p(x, y) pois x p(y, x) = 1.
  • 96. Estados recorrentes positivos e recorrentes nulos Um estado é recorrente se ρyy = Py (Ty < +∞) = 1 Se y é recorrente então: y é recorrente positivo se my = Ey (Ty ) < +∞; y é recorrente nulo se my = Ey (Ty ) = +∞;
  • 97. Número médio de visitas a um estado recorrente: Defina Nn(y) o número de visitas ao estado y nos instantes 1, 2, . . . , n. Isto é, Nn(y) = n m=1 1y (Xm). Defina Gn(x, y) o número médio de visitas ao estado y dado que X0 = x durante os instantes 1, 2, . . . , n Gn(x, y) = n m=1 Ex [1y (Xm)] = n m=1 Pm (x, y).
  • 98. 1.- Seja y um estado transiente. então lim n Nn(y) = N(y) < ∞ com probabilidade 1, e lim n Gn(x, y) = G(x, y) < +∞. Portanto, lim n Nn(y) n = 0 com probabilidade 1, e lim n Gn(x, y) n = 0, x ∈ S.
  • 99. Seja y um estado recorrente. Então: lim n Nn(y) n = 1Ty <∞ my com probabilidade 1, e lim n Gn(x, y) n = ρxy my , x ∈ S. Intuição: Uma vez que a cadeia chega ao estado y ela retorna a y, “em média uma vez a cada my unidades de tempo”. Assim, se y pode ser alcançado eventualmente e n é grande, a proporção de tempo que a cadeia gasta no estado y é aproximadamente 1/my .
  • 100. Corolário: Seja C um conjunto fechado irredutível de estados recorrentes. Então, lim n Gn(x, y) n = 1 my , x, c ∈ C e se P(X0 ∈ C) = 1, lim n Nn(y) n = 1 my com probabilidade 1. Note que as fórmulas valem para my = +∞.
  • 101. Teorema: Seja x um estado recorrente positivo e suponha que x → y. então y é recorrente positivo. Portanto, em uma classe de estados fechada, irredutível ou todos os estados são transientes, ou todos os estados são recorrentes positivos ou todos os estados são recorrentes nulos.
  • 102. Se C é uma classe fechada e finita então C tem pelo menos um estado recorrente positivo. Se C é uma classe fechada, irredutível e finita de estados então todo estado é recorrente positivo. Uma cadeia de Markov irredutível com um número finito de estados é recorrente positiva. Uma cadeia de Markov tendo um número finito de estados não tem estados recorrentes nulos. Note que se y é um estado recorrente, então y está contido numa classe fechada de estados recorrentes. Como esta classe é necessariamente finita, ela contém pelo menos um estado recorrente positivo e portanto todos são recorrentes positivos.
  • 103. Existência e unicidade das distribuições estacionárias Teorema: Seja π uma distribução estacionária. Se x é transiente ou recorrente nulo, então π(x) = 0. Prova: Se x é transiente ou recorrente nulo então lim n Gn(z, x) n = 0, z ∈ S. Portanto, se pudermos trocar a ordem da soma e do limite: π(x) lim n z π(z) lim n Gn(z, x) n = 0. Teorema: Seja uma cadeia de Markov irredutível, recorrente positiva então existe uma única distribuição estacionária π dada por: π(y) = 1 my , y ∈ S.
  • 104. Consequências: Uma cadeia de Markov é positiva recorrente é irredutível se, e somente se tem uma única distribuição estacionária. Se uma cadeia de Markov tem um número finito de estados e é irredutível então ela tem uma única distribuição estacionária. Seja Xn, n ≥ 0 uma cadeia de Markov irredutível, recorrente positiva com distribuição estacionária π. então com probabilidade 1, min n Nn(y) n = π(y), y ∈ S.
  • 105. Cadeia redutíveis: Teorema: Seja C um conjunto irredutível fechado de estados recorrentes positivos. Então a cadeia de Markov tem uma única distribuição estacionária concentrada em C, isto é, π(x) = 0, se x ∈ C e π(x) = 1/mx se x ∈ C. Suponha que a cadeia tenha dois conjuntos irredutíveis fechados de estados recorrentes positivos C0 e C1. então a cadeia tem uma distribuição estacionária π0 concentrada em C0 e uma distribuição estacionária π1 concentrada em C1. Mais ainda, as distribuições πα(x) = (1 − α)π0(x) + απ1(x) também são estacionárias para a CM.
  • 106. Teorema Central do Limite Referências: Doeblin (1938) e Kendall (1957) Considere uma cadeia de Markov X0, X1, . . . com possivelmente infinitos estados I = {1, 2, . . .} ergódica. Assim, todos os tempos de retorno my são finitos. Seja f : I → R e defina Sn = n m=1 f(Xm). Sejam as v.a’s T (1) y < T (2) y < . . . os tempos de visita a y. Isto é, T (k) y = min{n > T (k−1) y ; Xn = y}
  • 107. Teorema ergódico Assim, as v.a’s f(XT (k) y +1 ) + · · · + f(XT (k+1) y ), k = 1, 2, . . . são iid com esperança finita µf,y = E f(XT (k) y +1 ) + · · · + f(XT (k+1) y ) . O Teorema ergódico diz que Sn n → µy my em probabilidade.
  • 108. CLT - cont. Agora escreva, Zk = T (k+1) y m=T (k) y +1 f(Xm) − µy my T (k+1) y − T (k) y . Assim, Z1, Z2, . . . são iid E(Zi) = 0 e defina σ2 y = Var(Z1). Teorema: Se µy existe e σy é finita e não nulas e os tempos de recorrencia T (k) y tem segundo momento finito então Sn − (µy /my )n σ2 y n/my ⇒ N(0, 1).
  • 109. Teoria de verossimilhança para Cadeias de Markov Função de verossimilhança L(P, x) = P(X0 = x0) n−1 i=0 P(Xi+1 = xi+1|Xi = xi) = P(X0 = x0) n−1 i=0 pxi ,xi+1 = P(X0 = x0) k,l∈I p Nk,l (n) k,l onde Nk,l(n) = número de vezes em que Xi = k, Xi+1 = l nos instantes 1, . . . , n.
  • 110. Notação: Nij(n) = Nij e nij(n) = nij, L(π0, P, x) = π0(x0) n−1 i=0 P(Xi+1 = xi+1|Xi = xi) = π0(x0) n−1 i=0 pxi ,xi+1 = π0(x0) k,l∈I p Nk,l (n) k,l = π0(x0) k∈I Lk (P) onde Lk (P) = l∈I p Nk,l (n) k,l depende somente dos elementos na k-ésima linha da matrix P. Seja l(π0, P, x) = log L(π0, P, x). Então temos as equações, l(π0, P, x) = l0(π0, x0) + k∈I lk (P, x).
  • 111. Queremos maximizar l sujeita a condições que x π0(x) = 1e que j∈I P(k, j) = 1 para todo k ∈ I. Usando multiplicadores de Lagrange e escrevendo ni = j∈I temos as estimativas de MV ˆpij = nij ni quando ni > 0 ˆπ0(i) = 1(i = x0). Se ni = 0 colocamos ˆpij = 0, j = i. Seja ˆI = {i ∈ I : ni > 0} a porção observada do espaço de estados. Obviamente, ˆI é finito. Note que (ˆpij, i, j ∈ ˆI) é uma matriz estocástica sobre ˆI. Denote esta matriz por ˆP.
  • 112. Teorema: Se (Xn) é uma cadeia de Markov ergódica (irredutível, recorrente positiva), então ˆPij → pij com probabilidade 1 para todo i, j ∈ S independentemente da distribuição inicial. Lembre-se que 1 n Nij(n) → π(i)pij e 1 n Ni(n) → π(i).
  • 113. Teorema: Se (Xn) é uma cadeia de Markov ergódica, então independentemente da distribuição inicial Ni(n)(ˆPij(n) − pij) i,j∈I → N(0, Σ) onde σij,kl =    pij(1 − pij), (i.j) = (k, l) −pijpil, i = k, j = l 0, caso contrário. Obs.: A covariância assintótica tem uma estrutura multinomial dentro das linhas e independência entre as linhas.
  • 114. Aplicação a Snoqualmie Falls Usando o resultado do Teorema anterior vemos que ˆP01 e ˆP11 são assintóticamente independentes. Mais ainda ˆP11 ≈ N(p11, p11(1 − p11)/nπ(1)) onde π é a distribuição estacionária da CM. Podemos estimar a variância usando ˆP11 = N11 N1 e ˆπ(1) = N1 n onde N11 = 36 i=1 N (i) 11 , . . . Como n11 = 643, n1 = 771, n01 = 123, n0 = 309 e n = 1080, intervalos de confiança assintóticos de 95%: IC(p11, 95%) = (0.808; 0.860) IC(p01, 95%) = (0.343; .453).
  • 115. Note que cada intervalo tem 95% de confiança, mas conjuntamente, usando a independência assintótica, (.95)2 = .903. a fim de encontrar uma região de confiança com 95% devemos usar intervalos individuais com 97.5%, obtendo o retângulo: (.775; .893) × (.272; .524). Algumas vezes, é natural parametrizar o modelo.
  • 116. Eugen Onegin O próprio Markov deu um exemplo de Cadeia de Markov em 1924. Markov estudou um extrato de um poema de Puskin chamado Eugen Onegin e classificou 20.000 caracteres consecutivos em vogais e consoantes. Vogal seguinte Consoante seguinte Total Vogal 1106 7536 8638 Consoante 7533 3829 11362 Total 8639 11361 20000
  • 117. É bastante óbvio que a escolha de vogal e consoante para a letra seguinte não é independente da letra atual. Um modelo muito simples é assumir que a troca se faz de forma constante, isto é a matrix de transição é: P = 1 − p p p 1 − p
  • 118. Teoria assintótica Por simplicidade no caso paramétrico vamos assumir espaço de estados finito. Assuma que as probabilidades de transição dependam somente de um parâmetro θ, tomando valores em um espaço paramétrico Θ ⊂ Rr . Vamos assumir as seguintes condições de regularidade: 1. D = {(i, j); pij > 0} não depende de θ. 2. Cada pij(θ) é 3-vezes continuamente diferenciável. 3. A matriz de dimensão d × r, ∂pij(θ)/∂θk , i, j ∈ D, k = 1, . . . , r e d é a cardinalidade de D, tem posto r. 4. Para cada θ existe somente uma classe ergódica e nenhum estado transiente.
  • 119. Podemos escrver a verossimilhança como l(θ, x) = D nij log pij(θ). Diferenciando esta expressão obtemos as equações de verossimilhança: ∂ ∂θk ln(θ) = D nij pij(θ) ∂pij(θ) ∂θk = 0, k = 1, . . . , k. Seja θ0 o verdadeiro valor do parâmtro.
  • 120. Teorema: Assuma as condições de regularidade: (i) Existe uma solução ˆθ das equações de verossimilhança que é consistente; (ii) √ n(ˆθ − θ0) → N(0, I−1(θ0)), onde I é a matriz de informação: Iuv (θ0) = (i,j)∈D π(i, θ0) pij(θ0) ∂pij(θ0) ∂θu ∂pij(θ0) ∂θv . (iii) Var √ n(ˆθ − θ0) pode ser estimada de forma consistente pelo inverso da informação observada − Nij n 2 log pij(ˆθ) −1 .
  • 121. Exemplo: Eugen Onegin Estimamos p pela equação: l(p) = (n00 + n11) log(1 − p) + (n01 + n10) log p, onde 0 = vogal e 1 = consoante. O máximo é obtido em: ˆP = N01 + N10 n e ˆp = 7532 + 7533 20000 = 0.753. A segunda derivada da verossimilahnça é: l (p) = − n00 + n11 (1 − p)2 + n01 + n10 p2 Portanto, o erro padrão assintótico estimado é (−l (ˆp))−1/2 = (ˆp(1 − ˆp)/n)1/2 = (.753 × .247/20000)1/2. O que nos dá um IC de nível 95% como: (.747; .759) Note que nem ˆp01 = .872 nem ˆp10 = .663 pertence a este intervalo, indicando que o modelo de um parmâmetro não é adequado.
  • 122. Teorema: Assuma as condições de regularidade. Seja ˆθ o EMV sob a hipótse paramétrica H0. Também, seja ˆP o EMV não paramétrico e θ0 o verdadeiro valor do parâmetro, quando H0 é verdadeira. Então: (i) 2 l(ˆθ) − l(θ0) D → χ2(r); (ii) 2 l(ˆP) − l(ˆθ) D → χ2(d(d − 1) − r); (iii) As estatísticas em (i) e (ii) são assintóticqamente independentes.
  • 123. Teorema: Assuma as condições de regularidade. Sejam ˆθ0 o EMV sob a hipótese paramétrica H0 : θ ∈ Θ0 e ˆθ1 o EMV sob a hipótese θ ∈ Θ0 ∪ Θ1. Então para se testar H0 : θ ∈ Θ0 vs. H1 : θ ∈ Θ1 a estatística do teste a ser utilizada é: −2 l(ˆθ0) − l(ˆθ1) D → χ2 (s) onde s = dim(Θ1 ∪ Θ0) − dim(Θ0).
  • 124. Teste para independência: Suponha que queremos testar a hipótese de que a seqüência X1, X2, . . . tomando valores em I = {0, 1, . . . , K} é independente vs. a hipótese de que pertença a uma CM de ordem 1. Em termos de parametrização simplesmente colocamos: H0 : pij = θj para todo i, j ∈ I. Neste caso, precisamos calcular o máximo sob as duas hipóteses (independência e CM de ordem 1).
  • 125. CM de ordem 1: ˆPij = Nij/Ni. Sob a hipótese de independência temos uma distribuição multinomial, com n.j = i nij observações da categoria com probabilidade θj. A verossimilhança é: l(θ) = K−1 j=0 n.jθj + n.K (1 − K−1 j=0 θj), a qual é maximizada por ˆθj = N.j/n. Portanto, a estatística da razão de verossimilhança é dada por: 2 l(ˆP) − l(ˆθ) = 2 i,j Nij log Nij/Ni N.j/n a qual assintoticamente tem uma distribuição χ2 com K(K + 1) − K = K2 graus de liberdade. No modelo de Snoqualmie Falls K = 1.
  • 126. Em Inferência usamos o teste chi-quadrado de Pearson: X = (Nij − Nip0 ij )2 Nip0 ij Eugen Onegin Queremos testar a hipótese H0 : p01 = p10 Os valores esperados para a estatística de Pearson são calculados multiplicando-se as somas das linhas (n0, n1) = (8.638; 11.362) pela matriz de transição estimada sob H0: ˆP = 0.247 0.753 0.753 0.247 obtendo (Eij) = 2131.4 6506.6 8558.4 2803.6
  • 127. A Estatística chiquadrado para testar a hipótese uni-dimensional é: χ2 = ij (nij − ni ˆp0 ij )2 ni ˆp0 ij = 1217.7. O valor exato da estatística exata da verossimilhança é 1217.7. (Aproximação excelente!!!)