SlideShare une entreprise Scribd logo
1  sur  36
Télécharger pour lire hors ligne
Chapter7
回帰分析の悩みどころ
@ito_yan
2018.04.20
NagoyaStat #9
主催者について
• TwitterID: @ito_yan
• ITインフラ屋さん
• 仮想化環境構築~仮想サーバ運用
• CCENTを受験しようと計画中
2
今回の話題
• 単に回帰分析を適用するだけではダメなので
は?というケースに関する取扱い
• @hankagosa さんがモデリングする際に立ててい
る方針ついて学ぶ
3
7.1 交互作用
• 説明変数同士の掛け算の項
• 5.1節に出てくる交互作用なしのモデルを再掲
4
A:バイト好き:1、バイト好きでない:0の2値変数
Score:学問への興味の強さを数値化(0~200)
Y:1年間の授業の出席率(0~1)
交互作用項の追加
• 交互作用項を入れた式
• 上の式を変形
• model5-3.stanの18行目を上の式にすれば交互
作用を組み込むことができる
• Scoreが増えたときの傾きはバイトの好き・嫌いに
よって変わってくると解釈される
5
この項を追加
交互作用を入れるべきかの基準
• 解釈のしやすさがあるか
• 2値変数では解釈は容易であった
• A[n]が連続値をとる場合は解釈が難しくなる
• ex. A[n]が仕送り額だった場合
• 重回帰では交互作用を考慮しないことが多い
• 交互作用はない方が説明がしやすい
• ただし以下のケースで入れることはある
• データの分布確認の段階で交互作用が確認できる場合
• 交互作用の強さ(=係数の大きさ)を知る目的
6
7.2 変数の対数変換
• 解釈が難しくなる場合は原則変数変換しない
• 対数をとる変換を行っても解釈がしやすいケース
がある
7
賃貸物件データ
Area:物件の広さ(単位:平米)
Y:2年間のトータル費用(単位:万円)
対数をとってみる
• Area、Yともに対数をとって単回帰を行う
8
両対数
変数変換して
何となく直線的
になった?
対数を取る場合、取らない場合の比較(1)
• 対数を取らない場合、予測区間が負の値を含む
9
予測区間が負
になる個所
対数を取る場合、取らない場合の比較(2)
• ノイズが正規分布になっていない
• 左が対数を取る前、右が対数をとった後
• 対数を取る前は、予測の中央値から大きく上に離
れたデータが目立っている(前スライド参照)
• 対数を取ることで、結果的にノイズの偏りが解決
10
対数変換すべきか否かの基準
• 説明はしやすいか?
• 物件の広さが10平米広くなるとX万費用が増える
(対数を取らない場合)
• 物件の広さが10倍になるとY倍の費用がかかる
(対数を取る場合)
• データは正の値しかとらない
• 対数をとれるのは正の値を取るデータのみ
• 現象の背景に合うか
• 細胞の増え方や資産など複利で増えるものは対数
をとっても良いのではないか
11
7.3 非線形の関係
• 直線ではなく、曲線を当てはめるケースがある
• どのような非線形な関数を割り当てるかは、現象
のメカニズムを反映すべきだが、不明な場合はシ
ンプルで解釈しやすいものにすべき
• 上式では2次関数を当てはめている
12
エアコンの消費電力データ
X:屋外の平均気温(単位:度)
Y:消費電力(単位:kWh)
非線形回帰の実装
• Stanではmodel項で2次曲線にすればよい
• エアコンの消費電力に関するmodel
• a、b、x0、s_Yを推定する問題になる
13
7.4 多重共線性
• 多重共線性とは
• 重回帰分析で説明変数間の相関が高いこと
• Stanによる推定では回帰係数が一意に定まらず、
収束しないという問題が起きる
• A[n]とB[n]に強い相関があり、ほぼ同じ値をとるのであれ
ば、b2+b3が一定の組なら何でもよくなってしまう
14
多重共線性への対策
• 相関が高い説明変数を捨てる
• 賃貸の費用を推定する際に、広さと部屋の数の重
回帰は相関が高いので片方の変数を捨てる
• 大量に説明変数がある場合は、相関係数行列を求
め、相関係数の絶対値が高いものを片方捨てる
• 基準となる閾値は0.8~0.95程度とすることが多い
15
7.5 交絡
• モデルの外側に応答変数と説明変数の両方に影
響をあたえる変数が存在すること
• 交絡の例
• 小学生の50m走のデータは体重が重いほど、速度
が上がるという結果が得られる
16
横軸:体重、縦軸:平均速度
得られた結果の何がまずいのか?
• 通常は体重が重いほど走る速度は落ちるはず
• 「体重が重い高学年の方が足が速い」という常識に
反する結果
• 年齢が交絡に相当する
• 年齢が上がると、筋力が増えて速度が上がる
17
年齢が高い人ほど体重があり、
走る速度は速い
交絡を考慮したパス解析のモデル
• 体重は年齢の単回帰、速さは年齢と体重の重回
帰という形式のモデルを立てる
• 複数の回帰を組み合わせて、変数間の因果関係
を模索することをパス解析とよぶ
18
左図のように、矢印の先を応答
変数として、モデリングしている
というイメージ
パス解析のStanコード
• 尤度の式が2つある点を除けばこれまでと同じ
19
Stanの実行結果
• b3の95%信用区間が負で0を含まない
• 体重が増えると、走る速さにはマイナス
直感に合う結果となった
20
交絡に対する考え方
• 最初はシンプルな交絡のない仮定にする
• 議論やデータ解析のサイクル(p.21参照)を通して
背景知識が増えてから、交絡の関係を取り込む
• 予測がおかしいと思ったら原因を究明し、モデル
を試行錯誤することが重要
• はじめから漏れなく説明変数を集めるのは難しい
21
7.6 説明変数が多すぎる
• 説明変数が多すぎると推定や解釈が難しい
• 理想は説明変数間の関係も含むモデリングだが…
• 説明変数間の情報が乏しいときは、説明変数の
数を減らすのがよい
• 2値変数で一方の値を取るデータが少ない場合
• クラスタリングにより、類似性の高い説明変数をま
とめる
• 主成分分析でデータの次元を減らす
22
7.7 説明変数にノイズを含む
• 4章の例では社員の年齢と年収は確定していた
• もし年齢は写真などから推定するもので、真値か
ら標準偏差2.5歳程度で推定できるとしたら?
• 推定精度と推定する真値を与えればよい
23
7.8 打ち切り
• 健康診断である人の血中のタンパク質Yの数値
を6回測定する。ただし、測定機器の検出限界が
あるため、25未満は<25と表示される
• 数値の平均値と標準偏差をどう推定したらよいか?
• 打ち切りを考慮したモデルを立てる
• 打ち切りがない場合
• 打ち切りがある場合
24
測定ごとの尤度
• Stanのmodel項で尤度が渡せればよいので、各
測定の尤度を求めていく
• 打ち切りがない場合
• 打ち切りがある場合は打ち切りの発生確率
25
Stanでの実装例
• target(=尤度の対数を取った合計を保持する変
数)を使うのがポイント
• テキストp.33参照
• normal_lcdfは正規分布の累積密度関数の対数
26
打ち切りデータの尤度は一
律なので、打ち切りデータ
の数だけ掛け算したものを
足してやればよい
前処理で打ち切りでないもの
だけ呼び出し側で渡している
7.9 外れ値
• データの大多数がある範囲に収まらないデータ
• 外れ値の客観的で厳密な定義はない
• 外れ値の対処方法
• 外れ値と判定したら例外とし、解析対象から外す
• 稀に外れ値を生成するメカニズムを仮定し、外れ値
を含めて解析を行う(←7.9節ではこちらを採用)
27
X=3のデータを外れ値と
みなさずに解析してみる
まれに外れ値を生成する確率分布
• 正規分布N(0, 1)よりコーシー分布Cauchy(0, 1)
の方が裾が長い
• 数十~百個程度のデータに対して1個程度ならコー
シー分布でモデリングしてもよいのでは
• Cauchy(0, 1)が8~10の値を取る確率は0.8%程度
28
拡大
誤差に正規分布を仮定したモデル
• 正規分布を仮定したモデル式は以下の通り
• 外れ値に引っ張られている
29
X=3を除外した結果
外れ値に引っ張られるメカニズム
• 誤差に正規分布を仮定すると、10σも離れたデー
タというのはまず存在しない
• コーシー分布との比較で示した通り
• しかしx=3の回帰直線に乗らないデータが現に存
在している。外れ値として除外しないのであれば、
存在確率を上げる必要がある
• その結果、σを大きくして、直線が少しでもx=3の点
に近くなるよう切片aを大きくし、xが大きい箇所にも
合うよう傾きbを小さくするということが発生
30
誤差にコーシー分布を仮定したモデル
• コーシー分布を仮定した場合
• 予測分布の中央値は外れ値の影響がない
• ただし、正規分布とコーシー分布、どちらを使った
単回帰が正しいかについては断言できない
31
左図の薄い灰色は50%区間
その他の分布
• 混合正規分布
• 二峰性があると判断された場合に使える
• 外れ値に相当するものが数%程度固まってある場合
• Zero-Inflated Poisson分布
• 来店回数のようなデータで、まったく来店したことが
ない人と常連さんを混ぜた分布
• 毎日来るような常連さんが外れ値になる
32
発表内容に関する補足
33
正規分布とコーシー分布の比較
• 28枚目「まれに外れ値を生成する確率分布」のグ
ラフを生成するコード
34
Zero-Inflated Poisson分布
• 確率質量関数
• 期待値
• 分散
35
注:πは余計に0になるもの
の割合を示すパラメータ
ZIP分布の例
• π=0.3, lambda=3とした場合
36

Contenu connexe

Tendances

階層ベイズによるワンToワンマーケティング入門
階層ベイズによるワンToワンマーケティング入門階層ベイズによるワンToワンマーケティング入門
階層ベイズによるワンToワンマーケティング入門
shima o
 
5分でわかるかもしれないglmnet
5分でわかるかもしれないglmnet5分でわかるかもしれないglmnet
5分でわかるかもしれないglmnet
Nagi Teramo
 
Rで階層ベイズモデル
Rで階層ベイズモデルRで階層ベイズモデル
Rで階層ベイズモデル
Yohei Sato
 
MCMCサンプルの使い方 ~見る・決める・探す・発生させる~
MCMCサンプルの使い方 ~見る・決める・探す・発生させる~MCMCサンプルの使い方 ~見る・決める・探す・発生させる~
MCMCサンプルの使い方 ~見る・決める・探す・発生させる~
. .
 
相関と因果について考える:統計的因果推論、その(不)可能性の中心
相関と因果について考える:統計的因果推論、その(不)可能性の中心相関と因果について考える:統計的因果推論、その(不)可能性の中心
相関と因果について考える:統計的因果推論、その(不)可能性の中心
takehikoihayashi
 
今さら聞けないカーネル法とサポートベクターマシン
今さら聞けないカーネル法とサポートベクターマシン今さら聞けないカーネル法とサポートベクターマシン
今さら聞けないカーネル法とサポートベクターマシン
Shinya Shimizu
 

Tendances (20)

因果探索: 基本から最近の発展までを概説
因果探索: 基本から最近の発展までを概説因果探索: 基本から最近の発展までを概説
因果探索: 基本から最近の発展までを概説
 
ベイズファクターとモデル選択
ベイズファクターとモデル選択ベイズファクターとモデル選択
ベイズファクターとモデル選択
 
階層ベイズによるワンToワンマーケティング入門
階層ベイズによるワンToワンマーケティング入門階層ベイズによるワンToワンマーケティング入門
階層ベイズによるワンToワンマーケティング入門
 
2 6.ゼロ切断・過剰モデル
2 6.ゼロ切断・過剰モデル2 6.ゼロ切断・過剰モデル
2 6.ゼロ切断・過剰モデル
 
これからの仮説検証・モデル評価
これからの仮説検証・モデル評価これからの仮説検証・モデル評価
これからの仮説検証・モデル評価
 
質的変数の相関・因子分析
質的変数の相関・因子分析質的変数の相関・因子分析
質的変数の相関・因子分析
 
ベイズモデリングと仲良くするために
ベイズモデリングと仲良くするためにベイズモデリングと仲良くするために
ベイズモデリングと仲良くするために
 
Rで因子分析 商用ソフトで実行できない因子分析のあれこれ
Rで因子分析 商用ソフトで実行できない因子分析のあれこれRで因子分析 商用ソフトで実行できない因子分析のあれこれ
Rで因子分析 商用ソフトで実行できない因子分析のあれこれ
 
5分でわかるかもしれないglmnet
5分でわかるかもしれないglmnet5分でわかるかもしれないglmnet
5分でわかるかもしれないglmnet
 
Rで階層ベイズモデル
Rで階層ベイズモデルRで階層ベイズモデル
Rで階層ベイズモデル
 
Cmdstanr入門とreduce_sum()解説
Cmdstanr入門とreduce_sum()解説Cmdstanr入門とreduce_sum()解説
Cmdstanr入門とreduce_sum()解説
 
StanとRでベイズ統計モデリング読書会 Chapter 7(7.6-7.9) 回帰分析の悩みどころ ~統計の力で歌うまになりたい~
StanとRでベイズ統計モデリング読書会 Chapter 7(7.6-7.9) 回帰分析の悩みどころ ~統計の力で歌うまになりたい~StanとRでベイズ統計モデリング読書会 Chapter 7(7.6-7.9) 回帰分析の悩みどころ ~統計の力で歌うまになりたい~
StanとRでベイズ統計モデリング読書会 Chapter 7(7.6-7.9) 回帰分析の悩みどころ ~統計の力で歌うまになりたい~
 
MCMCサンプルの使い方 ~見る・決める・探す・発生させる~
MCMCサンプルの使い方 ~見る・決める・探す・発生させる~MCMCサンプルの使い方 ~見る・決める・探す・発生させる~
MCMCサンプルの使い方 ~見る・決める・探す・発生させる~
 
『バックドア基準の入門』@統数研研究集会
『バックドア基準の入門』@統数研研究集会『バックドア基準の入門』@統数研研究集会
『バックドア基準の入門』@統数研研究集会
 
相関と因果について考える:統計的因果推論、その(不)可能性の中心
相関と因果について考える:統計的因果推論、その(不)可能性の中心相関と因果について考える:統計的因果推論、その(不)可能性の中心
相関と因果について考える:統計的因果推論、その(不)可能性の中心
 
階層モデルの分散パラメータの事前分布について
階層モデルの分散パラメータの事前分布について階層モデルの分散パラメータの事前分布について
階層モデルの分散パラメータの事前分布について
 
一般化線形モデル (GLM) & 一般化加法モデル(GAM)
一般化線形モデル (GLM) & 一般化加法モデル(GAM) 一般化線形モデル (GLM) & 一般化加法モデル(GAM)
一般化線形モデル (GLM) & 一般化加法モデル(GAM)
 
2 3.GLMの基礎
2 3.GLMの基礎2 3.GLMの基礎
2 3.GLMの基礎
 
心理学におけるベイズ統計の流行を整理する
心理学におけるベイズ統計の流行を整理する心理学におけるベイズ統計の流行を整理する
心理学におけるベイズ統計の流行を整理する
 
今さら聞けないカーネル法とサポートベクターマシン
今さら聞けないカーネル法とサポートベクターマシン今さら聞けないカーネル法とサポートベクターマシン
今さら聞けないカーネル法とサポートベクターマシン
 

Plus de itoyan110

Plus de itoyan110 (20)

このIRのグラフがすごい!上場企業2023
このIRのグラフがすごい!上場企業2023このIRのグラフがすごい!上場企業2023
このIRのグラフがすごい!上場企業2023
 
このIRのグラフがすごい!上場企業2021
このIRのグラフがすごい!上場企業2021このIRのグラフがすごい!上場企業2021
このIRのグラフがすごい!上場企業2021
 
このIRのグラフがすごい!上場企業2020
このIRのグラフがすごい!上場企業2020このIRのグラフがすごい!上場企業2020
このIRのグラフがすごい!上場企業2020
 
このIRのグラフがすごい!上場企業2019
このIRのグラフがすごい!上場企業2019このIRのグラフがすごい!上場企業2019
このIRのグラフがすごい!上場企業2019
 
このIRのグラフがすごい!上場企業2018
このIRのグラフがすごい!上場企業2018このIRのグラフがすごい!上場企業2018
このIRのグラフがすごい!上場企業2018
 
Chapter9 一歩進んだ文法(前半)
Chapter9 一歩進んだ文法(前半)Chapter9 一歩進んだ文法(前半)
Chapter9 一歩進んだ文法(前半)
 
2018年6月期 統計検定2級&準1級 対策スライド
2018年6月期 統計検定2級&準1級 対策スライド2018年6月期 統計検定2級&準1級 対策スライド
2018年6月期 統計検定2級&準1級 対策スライド
 
このIRのグラフがすごい!上場企業2017
このIRのグラフがすごい!上場企業2017このIRのグラフがすごい!上場企業2017
このIRのグラフがすごい!上場企業2017
 
NagoyaStat #5 ご挨拶と前回の復習
NagoyaStat #5 ご挨拶と前回の復習NagoyaStat #5 ご挨拶と前回の復習
NagoyaStat #5 ご挨拶と前回の復習
 
NagoyaStat #4 ご挨拶と前回の復習
NagoyaStat #4 ご挨拶と前回の復習NagoyaStat #4 ご挨拶と前回の復習
NagoyaStat #4 ご挨拶と前回の復習
 
このIRのグラフがすごい!上場企業2016
このIRのグラフがすごい!上場企業2016このIRのグラフがすごい!上場企業2016
このIRのグラフがすごい!上場企業2016
 
ベルヌーイ分布からベータ分布までを関係づける
ベルヌーイ分布からベータ分布までを関係づけるベルヌーイ分布からベータ分布までを関係づける
ベルヌーイ分布からベータ分布までを関係づける
 
レッツノートを業務用途にカスタマイズする
レッツノートを業務用途にカスタマイズするレッツノートを業務用途にカスタマイズする
レッツノートを業務用途にカスタマイズする
 
データ解析のための統計モデリング入門 1~2章
データ解析のための統計モデリング入門 1~2章 データ解析のための統計モデリング入門 1~2章
データ解析のための統計モデリング入門 1~2章
 
このIRのグラフがすごい!上場企業2015
このIRのグラフがすごい!上場企業2015このIRのグラフがすごい!上場企業2015
このIRのグラフがすごい!上場企業2015
 
Rで確認しながら解く統計検定2級
Rで確認しながら解く統計検定2級Rで確認しながら解く統計検定2級
Rで確認しながら解く統計検定2級
 
絶対に描いてはいけないグラフ入りスライド24枚
絶対に描いてはいけないグラフ入りスライド24枚絶対に描いてはいけないグラフ入りスライド24枚
絶対に描いてはいけないグラフ入りスライド24枚
 
コイン投げの分析を一捻り (Japan.R 2013 LT)
コイン投げの分析を一捻り (Japan.R 2013 LT)コイン投げの分析を一捻り (Japan.R 2013 LT)
コイン投げの分析を一捻り (Japan.R 2013 LT)
 
Rの拡張を書く (R 2.15.2)
Rの拡張を書く (R 2.15.2)Rの拡張を書く (R 2.15.2)
Rの拡張を書く (R 2.15.2)
 
Rでノンパラメトリック法 1
Rでノンパラメトリック法 1Rでノンパラメトリック法 1
Rでノンパラメトリック法 1
 

Chapter7 回帰分析の悩みどころ