1 2.t検定

統計の基本と
t検定
1
１日目－第２講
名前：馬場真哉
所属：北大水産修士課程2年
Webサイト： logics of blue で検索

2
正規線形モデルの理解のために
統計の基本とt検定
分散分析(ANOVA)
回帰分析と分散分析
PB検定と確率分布
モデル選択とAIC
出来れば
Type II ANOVA、交互作用

3
統計の基本と t検定
理解してほしい事
 用語の理解
• 平均・分散
• 不偏分散
• 標準偏差
• 標準誤差
 検定の仕組み

4
用語の理解
① 平均値と期待値
足して２で割る
正確な定義
「確率×その時の値」の合計
𝑝𝑖 𝑥𝑖
𝑛
𝑖=1
n：サンプルサイズ
p：確率
x：変数

5
期待値（「確率×その時の値」の合計）の例
大阪の気温10日分
｛19, 19, 20, 20, 20, 20, 20, 21, 21, 21｝
19になる確率＝ 2÷10
20になる確率＝ 5÷10
21になる確率＝ 3÷10
19 ×
2
10
+ 20 ×
5
10
+ 21 ×
3
10
= 20.1

6
期待値とは何か
期待値とは
データを表す「代表値」です
「確率×その時の値」の合計
• 大きい値がたくさんあるとでかくなる
• 大きい値が少ししかないとデカくならない

7
なぜ代表値が必要か
比較が楽だから
大阪
｛19, 19, 20, 20, 20, 20, 20, 21, 21, 21｝
東京
｛-50, 0, 0, 20, 20, 20, 20, 20, 70, 70｝
比較が大変
20.1 VS 19一目瞭然！

8
用語その２
分散
期待値の「役に立たなささ」
• 比較に使える →役に立つ
• 比較に使えない→役立たず
期待値の「不確実性」
ではない

9
分散の定義
分散
𝑝𝑖 𝑥𝑖 − 𝜇 2
𝑛
𝑖=1
p：確率
x：変数
µ：期待値
1
𝑛
𝑥𝑖 − 𝜇 2
𝑛
𝑖=1
「（Data－期待値）の2乗」の期待値

10
分散とは何か
分散
「（Data－期待値）の2乗」の期待値
Dataと期待値の乖離
一つ一つのデータは期待値から
どれだけ離れていると期待できるか
（データの「ばらつき」の大きさ）

11
期待値と分散の例
大阪
｛19, 19, 20, 20, 20, 20, 20, 21, 21, 21｝
東京
｛-50, 0, 0, 20, 20, 20, 20, 20, 70, 70｝
期待値：20.1 分散：0.54…
期待値：19 分散：1069…
東京データは分散が大きすぎる

12
データの大小を比較するとき
期待値の差が大きい
期待値が比較に使える（分散小さい）
「差がある」とは？

13
まとめ
① データは期待値で比較する
楽だから
② 期待値が使えるかを分散で判断
「データが期待値からどれだけ
離れていると期待できるか」
質問どうぞ！

14
ここからは……
分散をもっと使いやすくしよう！
• 不偏分散
• 標準偏差
• 標準誤差

15
不偏分散とは
「不偏」＝偏りがない
たくさんサンプリングしたら
漸近的に正しい値に近づいていく
漸近的に0に近づく

16
普通の分散、不偏な分散
普通の分散には偏りがある
たくさんサンプリングをしても
正しい値に近づかない
ちょっと怪しげな解説

17
｛1, 2, 3, 4, 5,・・・ , 98, 99, 100｝
データ
普通の分散はなぜ不偏でないか
「真の」期待値
50.5
「真の」分散
833.25
｛1, 2, 3, 4, 5, 6, 7, 8, 9, 10｝
10個だけサンプリングしてみた
「データの」期待値
5.5

18
「真の」期待値「データの」期待値
1 100
正しい分散の計算

19
1 100
ウソの分散の計算

20
1 100
ウソの分散の計算
正しい分散の計算
普通の分散は下方修正されている

21
普通の分散はなぜ不偏でないか
１．分散は期待値を計算した後に計算される
不偏分散
２．データから計算された期待値は怪しい
→ただし、漸近的には正しくなる
３．怪しい期待値から計算された分散はもっと怪しい
→漸近的にも正しくならない

22
不偏分散の計算方法
普通の分散（標本分散）
𝑝𝑖 𝑥𝑖 − 𝜇 2
𝑛
𝑖=1
p：確率
x：変数
µ：期待値
1
𝑛
𝑥𝑖 − 𝜇 2
𝑛
𝑖=1
1
𝑛 − 1
𝑥𝑖 − 𝜇 2
𝑛
𝑖=1
不偏分散
分散が大きくなった

23
その②
標準偏差

24
標準偏差とは
標準偏差＝（不偏）分散
分散の単位 ℃
2
、個
2
、kg2
標準偏差の単位 ℃ 、個、kg
楽

25
その③
標準誤差

26
標準誤差とは
期待値の不確実性の尺度
標準誤差＝
（不偏）分散
サンプルサイズ
なぜサンプルサイズ？

27
標準誤差の例：エレベータの搭載重量
一人だけ乗る場合
1/2 1/2
二人だけ乗る場合
よくあるレアレア
四人も乗る場合
よくある激レア激レア
人数が増えると
全員デブ or 全員ガリ
にはなりにくい
サンプルサイズは
大事！

28
標準誤差とは
標準誤差＝
（不偏）分散
たくさんデータがあった方が
期待値は信用できる
期待値の不確実性の尺度

29
サンプルサイズが大きい
「差がある」とは？

30
まとめ
① データは期待値で比較する
楽だから
② 期待値が使えるかを分散で判断
• 不偏分散 → バイアスの排除
• 標準偏差 → 単位を見やすく
質問どうぞ！
③ サンプルサイズも加味
標準誤差

31
ここからは…
検定やります

32
検定って？
“有意差”があるかどうかを判別すること
検定
意味の有る差？

33
サンプルサイズが大きい
「意味の有る差」とは？
この比較作業こそが有意性検定

34
比較に使う指標 t値
=
期待値の差の大きさ
分散
t値
t値が大なら
• 期待値の差が大きい
• 分散が小さい（期待値を比較に使える）
• サンプルサイズ大（期待値が信用できる）
有意差あり

35
例あるデータの期待値は
“有意に”０と異なるか？
=
データの期待値 − 0
データの分散
データのサンプルサイズ
t値
t値が大なら
• 期待値と０との差が大きい
• 分散が小さい（期待値を比較に使える）
• サンプルサイズ大（期待値が信用できる）
有意差あり

36
t値の大小
どれくらい大きければ有意になるの？
「確率」というモノサシを使う
t値が大きければ有意差ありになる！

37
① 絶対に期待値が０と有意に異ならないと
わかっているデータをたくさん集める
t値の大小の判別方法（t値が2.59の時）
t値が2.59を超えた回数が、100回中5回以内だった
→偶然でt値が2.59を超える確率は小さい
→有意差あり
② そのデータのt値を計算する
③ ０とは有意に異ならないデータにおける
t値を例えば100回計算する。
④ 100回中、t値が2.59を超えた回数を記録

38
t値の大小の判別方法（t値が2.59の時）
100回中、t値が2.59を超えた回数を算出
＝
2.59を超えた回数
100
p値
p値≦0.05ならt値はデカいとみなす
→ 有意差あり！
＝偶然で今回計算された
統計量（t値）を超える確率

39
t検定まとめ
① t値が大きい → 有意差あり
＝
期待値の差の大きさ
分散
t値
② p値が小さい → t値が大きい
p値＝偶然で今回計算された
統計量（t値）を超える確率
質問どうぞ！

40
① 絶対に期待値が０と有意に異ならないと
わかっているデータをたくさん集める
実際のところは
集めるのは大変なので、普通は計算で補う
偉い人が計算式を作ってくれている（t分布）
おまけ
集め方はパラメトリックブートストラップ検定で解説します

1 2.t検定

Recommandé

Recommandé

Contenu connexe

Tendances

Tendances (20)

En vedette

En vedette (8)

Similaire à 1 2.t検定

Similaire à 1 2.t検定 (20)

1 2.t検定