Contenu connexe
Similaire à データ解析のための統計モデリング入門3章後半
Similaire à データ解析のための統計モデリング入門3章後半 (20)
データ解析のための統計モデリング入門3章後半
- 2. About me
○研究テーマ
スペースデブリの軌道設計
Deeplearningを⽤用いた画像認識識 <-‐‑‒ いまここ
○バイト
ALBERT -‐‑‒ 集計、分析のお仕事。最近はクラスタリング。
○趣味とか
ラグビー、Python、お酒、⿇麻雀
@aki_̲n1wa
秋庭 伸也
早稲⽥田⼤大学 -‐‑‒ 機械科学専攻 M2
- 3. OUTLINE
□これまでの話
□統計モデルの設計
-‐‑‒ 3.5 因⼦子型の統計モデル
-‐‑‒ 3.6 数量量型 + 因⼦子型の統計モデル
□「あてはまりのよさ」とは
□3.7「何でも正規分布」「何でも直線」には無理理がある
□3.8 まとめ
- 4. OUTLINE
□これまでの話
□統計モデルの設計
-‐‑‒ 3.5 因⼦子型の統計モデル
-‐‑‒ 3.6 数量量型 + 因⼦子型の統計モデル
□「あてはまりのよさ」とは
□3.7「何でも正規分布」「何でも直線」には無理理がある
□3.8 まとめ
- 5. ○2章
-‐‑‒ Rの使い⽅方(summary()、hist()など)
-‐‑‒ 統計モデルの選択(ポアソン分布)
-‐‑‒ 最尤推定(統計モデルのパラメータ推定)
「データ解析のための統計モデリング入門」サポートWebサイトより引用
http://hosho.ees.hokudai.ac.jp/ kubo/ce/IwanamiBook.html
2章はRで最尤推定を
やってみようという話でした。
これまでの話
○3章
-‐‑‒ Rの使い⽅方(glm())
-‐‑‒ 統計モデルの選択(ポアソン分布)
-‐‑‒ 最尤推定(統計モデルのパラメータ推定)
メモ:施肥の読み⽅方 -‐‑‒> せひ
- 7. OUTLINE
□これまでの話
□統計モデルの設計
-‐‑‒ 3.5 因⼦子型の統計モデル
-‐‑‒ 3.6 数量量型 + 因⼦子型の統計モデル
□「あてはまりのよさ」とは
□3.7「何でも正規分布」「何でも直線」には無理理がある
□3.8 まとめ
- 9. 3.5 説明変数が因⼦子型の統計モデル
「種⼦子の数:y と施肥処理理(有無):f に関係がある」という仮定
fit.f <-‐‑‒ glm(y ~∼ f, data=d, family=poisson)
0 (施肥処理理無し)
1 (施肥処理理有り)
p.56 本⽂文より
・「肥料料をやると平均種⼦子数がほんの少しだけ増える」と予測している。
線形予測⼦子: パラメータの推定値: 最大対数尤度:
-237.627
- 10. 3.6 説明変数が数量量型+因⼦子型の統計モデル
「種⼦子の数:y と(体サイズ:x、施肥処理理(有無):f) に関係がある」という仮定
fit.all <-‐‑‒ glm(y ~∼ x+f, data=d, family=poisson)
p.58 本⽂文より
・このモデルではマイナス(肥料料の効果)だと推定されています。
!
3.6.1の対数リンク関数については、p.60の図3.8を参照。
線形予測⼦子: パラメータの推定値: 最大対数尤度:
-236.294
- 11. OUTLINE
□これまでの話
□統計モデルの設計
-‐‑‒ 3.5 因⼦子型の統計モデル
-‐‑‒ 3.6 数量量型 + 因⼦子型の統計モデル
□「あてはまりのよさ」とは
□3.7「何でも正規分布」「何でも直線」には無理理がある
□3.8 まとめ
- 12. 「あてはまりのよさ」とは
3.4 ~∼ 3.6で、計算している「あてはまりのよさ」とは??
-‐‑‒> 統計モデルが、観測データにフィットしているか
次数 対数尤度
2 -234.28
3 -234.21
4 -234.12
… …
10 -230.48
(※)「あてはまりのよさ」-‐‑‒> Goodness to fit
参考:http://en.wikipedia.org/wiki/Goodness_̲of_̲fit
線形予測⼦子の次数を増やしていくと…
fit.2 <-‐‑‒ glm(y ~∼ I(x)+I(x^2)+f, data = d, family=poisson)
fit.3 <-‐‑‒ glm(y ~∼ I(x)+I(x^2)+I(x^3)+f, data = d, family=poisson)
…
次数が増えるにつれて、
対数尤度が大きくなっている→
- 13. 次数 対数尤度
2 -234.28
3 -234.21
4 -234.12
… …
10 -230.48
分かったお!
とにかく次数を
おおきくすればいいお!!
3.4 ~∼ 3.6で、計算している「あてはまりのよさ」とは??
-‐‑‒> 統計モデルが、観測データにフィットしているか
線形予測⼦子の次数を増やしていくと…
fit.2 <-‐‑‒ glm(y ~∼ I(x)+I(x^2)+f, data = d, family=poisson)
fit.3 <-‐‑‒ glm(y ~∼ I(x)+I(x^2)+I(x^3)+f, data = d, family=poisson)
…
次数が増えるにつれて、
対数尤度が大きくなっている→
「あてはまりのよさ」とは
- 14. fit.10 <-‐‑‒ glm(y ~∼ I(x)+I(x^2)+I(x^3)+I(x^4)+I(x^5)
+I(x^6)+I(x^7)+I(x^8)+I(x^9)+I(x^10)+f,
data = d, family=poisson)
10次式でモデルを作るお!!
「あてはまりのよさ」とは
- 15. 7 8 9 10 11 12
2468101214
d$x
d$y
くねくねだお..
「あてはまりのよさ」とは
fit.10 <-‐‑‒ glm(y ~∼ I(x)+I(x^2)+I(x^3)+I(x^4)+I(x^5)
+I(x^6)+I(x^7)+I(x^8)+I(x^9)+I(x^10)+f,
data = d, family=poisson)
- 16. 7 8 9 10 11 12
2468101214
d$x
d$y
P.60 本⽂文より
・「妥当なモデル」かどうかは、あてはまりの良良しあし
だけで決まる問題ではありません。
・数式が現象をどのように表現しているのかという点に
注意しながら統計モデルを設計する。
「あてはまりのよさ」とは
fit.10 <-‐‑‒ glm(y ~∼ I(x)+I(x^2)+I(x^3)+I(x^4)+I(x^5)
+I(x^6)+I(x^7)+I(x^8)+I(x^9)+I(x^10)+f,
data = d, family=poisson)
くねくねだお..
- 17. OUTLINE
□これまでの話
□統計モデルの設計
-‐‑‒ 3.5 因⼦子型の統計モデル
-‐‑‒ 3.6 数量量型 + 因⼦子型の統計モデル
□「あてはまりのよさ」とは
□3.7「何でも正規分布」「何でも直線」には無理理がある
□3.8 まとめ
- 22. 3.7「何でも正規分布」「何でも直線」には無理理がある
統計モデルの仮定:⼀一試合のゴール数とFIFAランキングのポイント差に関係がある。
team1,score1,pts1,team2,score2,pts2,diff
Brazil,1,1242,Algeria,0,858,384
Brazil,0,1242,Argentina,0,1175,67
Brazil,2,1242,Argentina,1,1175,67
Brazil,3,1242,Argentina,1,1175,67
Brazil,2,1242,Australia,0,526,716
Brazil,1,1242,Austria,0,643,599
Brazil,3,1242,Austria,0,643,599
Brazil,4,1242,Bolivia,0,483,759
Brazil,2,1242,Bulgaria,0,425,817
Brazil,3,1242,Cameroon,0,558,684
Brazil,4,1242,Chile,2,1026,216
…
『前処理理したデータ』
(※)1930年年の試合にも現在のポイントを
適⽤用しています…orz。ブラジルは昔から強いからいいかな。
http://www.fifa.com/worldranking/rankingtable/
2014/06/10時点でのランキング
- 26. 3.8 まとめ
□「あてはまりのよさ」≠「よい統計モデル」
-‐‑‒ あてはまりがよい -‐‑‒> 対数尤度度が⼤大きい
!
□ 観測するデータを説明する妥当なモデルを選ぶ
-‐‑‒ 種⼦子データならポアソン分布(が妥当っぽい)
よい統計モデルの選び⽅方
-‐‑‒> 4章~∼
パラメータ推定
-‐‑‒> 8章~∼