Sólymos Péter (ökológus, R programozó, egy tucat R csomag szerzője, köztük dclone, mefa4 és vegan):
Adat klónozás: híd a Bayes-i és frekventista statisztikai paradigmák között
A hierarchikus modellek felhasználása sokrétű, a kevert modellek illesztésére szolgáló csomagok az R legnépszerűbb tartozékai (pl. lme4). A nem standard modellek illesztése azonban problémákat rejt az átlag felhasználó számára (sokdimenziós integrálok, deriváltak számítása). Ezzel szemben a Bayes-i módszerek térhódítása ezen a területen az MCMC algoritmusoknak és a felhasználó barát szoftvereknek köszönhetően töretlen. Az adat klónozás egyesíti a frekventista és Bayes-i számítási módszerek előnyeit: felhasználó barát szoftverek segítségével lehet frekventista (maximum likelihood) eredményeket nyerni. Ezekért az előnyökért az árat számolásigényben kell megfizetni, hiszen az adatok klónozása révén nyomjuk el a prior eloszlás hatását. Az előadásban a dclone R csomag használatával klasszikus BUGS példákon keresztül mutatom be az adat klónozás algorimus működését és azt, hogy hogyan lehet parallel módon csökkenteni a számítások időigényét. Röviden kitérek a dcmle csomag nyújtotta fejlesztői környzetre is.
1. Adat klónozás
híd a Bayes-i és frekventista
statisztikai paradigmák között
Sólymos Péter
http://psolymos.github.com
BURN Meetup | 2014.07.16 | Budapest 1
2. Motiváció
• Ökológia: a kölcsönhatások tudománya
– Környezet Élőlény
– Élőlény Környezet
– Élőlény Élőlény
• Adataink nem mindíg ideálisak:
– Függetlenség nem teljesül (térbeli, időbeli,
leszármazási függőség)
– Megfigyelési hiba (függő és független
változók esetén egyaránt)
– Hiányzó adatok
2
3. Hierarchikus modellek
• Inferencia:
– Megfigyelések
– Látens folyamat
– Paraméterek
– Likelihood
• Komputáció:
– Sokdimenziós integrál – nehéz kiszámítani
– Zajos likelihood fuggvény – kihívás a numerikus módszereknek
– Második deriváltak – számítási nehézségek
3
4. MCMC arzenál
• Inferencia a poszterior eloszlás alapján:
• A normalizáló konstanst nehéz kiszámolni, de
az MCMC algoritmusoknak hála erre nincs is
szükség.
• Sok általános MCMC program elérhető jól
használható R interfésszel:
– WinBUGS, OpenBUGS, JAGS
– Újabban Stan, NIMBLE, stb.
4
11. Adat klónozás
• Elméleti eredmények:
• Konzekvenciák:
– Bayesian MCMC algoritmusik használhatók frekventista célokra
– A poszterior átlag az MLE
– K * poszterior variancia = MLE variancia
– Nem kell többdimenziós integrált és deriváltakat számolni
– Nem baj ha zajos a likelihood függvény, a hatványozás kiemeli a
globális maximumot
– Az eredmény nem függ a prior eloszlástól.
11
20. N-mixture
20
Abundancia (látens):
𝑁𝑖 𝜆𝑖 ~Poisson 𝜆𝑖
log 𝜆𝑖 = 𝛽0 + 𝛽1 𝑥𝑖
Megfigyelés:
𝑌𝑖 𝑁𝑖, 𝑝𝑖 ~Binomial 𝑁𝑖, 𝑝𝑖
logit 𝑝𝑖 = 𝛼0 + 𝛼1 𝑧𝑖
Nem azonosítható ha (𝜆𝑖 𝑝𝑖) állandó, de jól mszétválik ha
(𝜆𝑖 𝑝𝑖) kovariánsokkal magyarázható.
21. Összegzés
1. Az adat klónozás egy globális optimalizációs
algoritmus, ami kihasználja a Bayesi MCMC
módszereket, hogy frekventista becslést végezzen
(MLE és Fisher információs mátrix).
2. A modell paraméterek azonosíthatóságáról
azonnal tájékoztat.
3. A tanulási folyamat (erős prior) javítja a mixing-et
és csökkenti a burin-t.
4. Ehhez az adatokat klónozni kell, ami jelentősen
növelheti a DAG (directed acyclic graph) méretét.
5. A klónok számát a számolásigény limitálhatja,
ezért HPC eszközök használata javasolt.
21
22. Példa: SAR
22
Lineáris kevert modell, meta-elemzés:
- Heteroszkadasztikus
- A random hatások konfidencia határaitra
voltunk kíváncsiak (shrinkage)
Patiño et al. 2014. Differences in species–area
relationships among the major lineages of land
plants: a macroecological perspective. Global
Ecology and Biogeography, in press.
23. sharx
23
library(sharx)
## ez a függvény amit a felhasználó használ
hsarx
## ez értelmezi a formulát
sharx:::parse_hsarx
## ez készíti el az elemzési objektumot
sharx:::make_hsarx