SlideShare une entreprise Scribd logo
1  sur  30
1 変数の集計

 統計学入門
             2008.04
         2009.05.7 修正
   2011.04.27 演習解答例追加
 2012.04.25 演習 2 解答メモ追加
     四分位偏差 説明追加
     (講義後の修正まで)
データの分布
• だいたいどんな値 (代表値)
• 値のバラエティさ  (ばらつき)
• その中でどんな値が多いか (ヒストグラ
  ム)          2 0. 2
         - 0. 0. 0




                       1 50   1 60         1 70   1 80   1 90
         - 0. 0. 0 2




                                     m
               2 0.




• 分布形状                 1 50   1 60
                                     f 2
                                           1 70   1 80   1 90




 – 単峰性、双峰性、多峰性
 – 左に偏った J 型分布、左右対称分布
   右に偏った L 型分布
分布の形状
   単峰性       双峰性      多峰性




左に裾を引いている    対称性    右に裾を引いている
  J 型分布                 L 型分布
共通一次試験 (1980 年 )
民間給与実態統計調査(平成 9
      年)
データの縮約
• n 個のデータ
    x1, x2, ・・・ xn
  を数個の値にまとめる!

• 代表値(位置、 location )
• ばらつき(広がり、 dispersion )

• 5数要約
• グラフ表現
代表値
• データが概ねどんな値か
• (数直線上の)どのあたりの位置にあ
       - 0.0. 0 2




  るか
            2 0.




                    1 50   1 60       1 70   1 80   1 90

                                  m




•   (算術)平均値 arithmetic mean
•   中央値 median
•   最小値 minimum
•   最大値 maximum
「良い」代表値とは
                                絶




                                             2
                 デ   代                       乗
                         誤      対
                     表
• ある定めた基準の元で
                 ー
                         差      誤            誤
                 タ   値                       差
                                差
  「良い」
                 x1 a x1-a          |x1-a|       (x1-a)2
• 代表値とはn個の様々
  な値を、 1 個の値に置   x2 a    x2-a       |x2-a|       (x2-a)2
  き換えること
                 ・・      ・    ・              ・
• 置き換えたときの誤差
                 ・・      ・    ・              ・
• 誤差は無いほどよい      ・・      ・    ・              ・
• できるだけ小さく       xn a    xn-a |xn-a|          (xn-a)2
• 最小化しよう
                 和              Σ |xn-a|     Σ (xn-a)2
平均値 (mean)
• mean          x1 + x2 +  + xn
             x=
                        n
• 代表値として一番良く使われる
• 最小 2 乗法 (Least Square Methods) の意味で最
  良

 誤差の 2 乗
   Q(a)=(x1-a)2+(x2-a)2+ ・・・ +(xn-a)2
 を最小にする a
平均値

16


14


12


10


8


6


4


2


0
     1   2   3   4   5   6   7   8   9   10
中央値 (median)
• 平均値の問題点
  はずれ値 (outlier) の影響を受けやすい

            平均値
• 多数のデータからは離れた値になって
  いる
      中央値
• 集団の代表値としては中央値の方が妥当
      Me = x((n+1)/2)  ないしは  (x(n/2)
  +x(n/2+1))/2
平均値と中央値との関係
• 平均値は外れ値の影響を受けやすい
• 中央値は外れ値に頑健 (robust)

 http://bstat.f7.ems.okayama-u.ac.jp/~yan/dataplot/
平均値の改良
• truncated mean, trimmed mean (切捨て平
  均)
  – 大きい方 α 、小さい方 α のデータを捨てて
    残りの 1-2α のデータで平均値を計算する
  – α としては 0.25 が良く使われる

           平均値


    平均値          α=1/6 の場合
最小値、最大値
• 洪水対策
    過去のデータでの最大降水量に対
  して対策を立てる

• 許容量
    被害が起きた最小の値に対して対
  策を立てる
5 数要約  (fivnum)
                            five-number summary
• 大きさの順序に並び換え
     x(1)<x(2)< ・・・ <x(n)


• x(1)     最小値
• x(n/4)    第1四分位値 (Q1)
• x(2n/4)    第2四分位値 (Q2) =中央値
  (Me)
• x(3n/4)    第3四分位値 (Q3)
• x(n)     最大値
箱髭図 (boxplot)
• 5 数要約のグラフ表現



                         x(n)
                         Q3
                        median
                         Q1
                         x(1)



     (boxplot height)
度数分布表とヒストグラム
 frequency table and histogram
• 階級数 k
  – √n
  – 1 + log n/log 2
  – 10 ~ 20
• 階級の幅 w
  – w=(x(n)-x(1))/k
• 端点 a0
   a0 < x(1)< a0 + w/2
度数分布表の追加情報
階級     階級値 度数     相対度数   累積度数      累積相対度数


a0~a1 m1     f1   f1/n   f1        (f1)/n
a1~a2 m2     f2   f2/n   f1+f2     (f1+f2)/n


ak-1~ak mk   fk   fk/n   f1+‥+fk   (f1+‥+fk)/n
             n    1
演習
• 統計学 168 人の試験の成績は
    最小値  24 点
    最大値  87 点
  であった。度数分布表を作るための階
  級を定めよ。
• 169 人の身長を調査したところ
    最小値  143.2cm
    最大値  175.7cm
  であった。度数分布表を作るための階
  級を定めよ。
演習問題の解答例
n=168 人                                         階級
   x(1)= 最小値 =24                                 22~27
   x(n)= 最大値 =87                                 27~32
  n = 168 = 12.96                                32~37
                  log 168      2.2253            37~42
1 + log 2 n = 1 +         = 1+        = 8.393
                   log 2       0.3010            42~47
階級数k = 8~13                                      47~52
        x( n ) − x(1) 87 − 24                    52~57
                                     63
幅  w =               =        = 4.85~ = 7.85     57~62
               k        13           8
    w = 5 と決める                                   62~67
                                                 67~72
端点 a0 :  a0 ≤ x(1) ≤ a0 + w / 2
                                                 72~77
a0 ≤ 24 ≤ a0 + 5 / 2
                                                 77~82
a0 ≤ 24 ≤ a0 + 2.5
                                                 82~87
24 − 2.5 = 21.5 ≤ a0 ≤ 24                        87~92
a0 = 22  と決める
講  評
「階級を定める」ということは、
すべての小区間を決めること!          22~27   22.5~27.5
                        27~32   27.5~32.5
階級数 k、                          32.5~37.5
                        32~37
階級の幅 w、                         37.5~42.5
                        37~42
端点  a0 を決めるだけでは不十分。             42.5~47.5
                        42~47
                        47~52   47.5~52.5
端点の値がどちらの階級に属するか(以下、未           52.5~57.5
                        52~57
満)という議論を避けるために、端点の値がデ           57.5~62.5
                        57~62
ータに出てこないように端点を定めることもあ
                        62~67   62.5~67.5
る。
                        67~72   67.5~72.5
                        72~77   72.5~77.5
データの有効桁(成績のよう整数値のデータで
あれば、1の位)に対して、その一つ下の桁(   77~82   77.5~82.5
整数値であれば、小数点以下1桁目)に5を付   82~87   82.5~87.5
けた値を端点の値とする。            87~92   87.5~92.5

前の演習問題であれば、右側のように定めれば
良い。
演習
• 統計学 168 人の試験の成績は
    最小値  24 点
    最大値  87 点
  であった。度数分布表を作るための階
  級を定めよ。
• 169 人の身長を調査したところ
    最小値  143.2cm
    最大値  175.7cm
  であった。度数分布表を作るための階
  級を定めよ。
       Log(169,2)+1=8.4 32.5/13=2.5 W=4
       √169=13                        32.5/8=4.06   143.2-4/2=141.2
       R=X(n)-X(1)=175.7-143.2=32.5                 A0=142
ばらつき (dispersion) の尺度
 • 代表値は同じでも、分布が異なる
> mean(height)
151.57142857142856
> mean(height2)
151.3571428571429
                            2 0. 2
                       - 0. 0. 0




> histogram(height)                  1 50   1 60         1 70   1 80   1 90

                                                   f 2


> histogram(height2)




      height2 ~tarumi/lispstat/height2.lsp
バラツキの尺度
• 範囲 (range)
• 四分位範囲 (interquartile range)
• 平均偏差 (mean deviation)

• 分散 (variance)
• 標準偏差 (standard deviation)
範囲 (range)
  四分位範囲 (quartile range)
• 最小値から最大値までの幅
     R = x(n) - x(1)
• 外れ値 (Outlier) の影響を受けやすい
• 両端 25 %のデータを捨てた真中の
  50% のデータでの範囲=四分位範囲 =
  Q3 - Q1
            R


            R
            QR
四分位偏差
• 平成 24 年度からの高校数学Ⅰでは四分位
  範囲の代わりに、四分位偏差が取り上
  げられている。
           Q3 − Q1 四分位範囲
  四分位偏差 =         =
              2      2
• 統計学の分野では四分位範囲の方がよ
  くつかわれる。
平均偏差 (mean deviation)
• 偏差
       d i = xi − x
• 平均偏差
                  n          n
              1          1         
       d = d = ∑ | di | = ∑ |x i − x |
              n i =1     n i =1
分散 (variance)
標準偏差 (standard deviation)
• 分散 偏差2乗の平均
          1 n
       s = ∑ ( xi − x )
        2               2

          n i =1
             n
        1
       = (∑ xi ) − ( x )
               2         2

        n i =1
• 標準偏差   分散の平方根
           1 n
    s= s =
        2
             ∑ ( xi − x )
           n i =1
                          2
不偏分散 (unbiased variance)
• 標本分散としては不偏分散 u2 を使うこ
  とも多い
       1 n
    s = ∑ ( xi − x )
     2               2

       n i =1
                 n
         1
    u =
     2
             ∑ ( xi − x )
        n − 1 i =1
                          2



             2
       ns
      
     =
       n −1
演習
• height
  – 148, 160, 159, 153, 151, 140, 156, 137, 149, 160, 151,
    157, 157, 144
  – 和 2122          2 乗和 322338
• height2
  – 138, 162, 158, 151, 145, 134, 160, 137, 151, 163, 152,
    163, 158, 147
  – 和 2119          2 乗和 322019
• weight
  – 41, 49, 45, 43, 42, 29, 49, 31, 47, 47, 42, 39, 48, 36
  – 和 588 2 乗和 25226

Contenu connexe

Tendances

K070 点推定
K070 点推定K070 点推定
K070 点推定
t2tarumi
 
卒論プレゼンテーション -DRAFT-
卒論プレゼンテーション -DRAFT-卒論プレゼンテーション -DRAFT-
卒論プレゼンテーション -DRAFT-
Tomoshige Nakamura
 
070 統計的推測 母集団と推定
070 統計的推測 母集団と推定070 統計的推測 母集団と推定
070 統計的推測 母集団と推定
t2tarumi
 
Datamining 5th knn
Datamining 5th knnDatamining 5th knn
Datamining 5th knn
sesejun
 
Datamining 5th Knn
Datamining 5th KnnDatamining 5th Knn
Datamining 5th Knn
sesejun
 

Tendances (20)

K070 点推定
K070 点推定K070 点推定
K070 点推定
 
Linera lgebra
Linera lgebraLinera lgebra
Linera lgebra
 
卒論プレゼンテーション -DRAFT-
卒論プレゼンテーション -DRAFT-卒論プレゼンテーション -DRAFT-
卒論プレゼンテーション -DRAFT-
 
2014年5月14日_水曜セミナー発表内容_FINAL
2014年5月14日_水曜セミナー発表内容_FINAL2014年5月14日_水曜セミナー発表内容_FINAL
2014年5月14日_水曜セミナー発表内容_FINAL
 
データ解析3 最適化の復習
データ解析3 最適化の復習データ解析3 最適化の復習
データ解析3 最適化の復習
 
星野「調査観察データの統計科学」第3章
星野「調査観察データの統計科学」第3章星野「調査観察データの統計科学」第3章
星野「調査観察データの統計科学」第3章
 
「内積が見えると統計学も見える」第5回 プログラマのための数学勉強会 発表資料
「内積が見えると統計学も見える」第5回 プログラマのための数学勉強会 発表資料 「内積が見えると統計学も見える」第5回 プログラマのための数学勉強会 発表資料
「内積が見えると統計学も見える」第5回 プログラマのための数学勉強会 発表資料
 
コンピュータ先端ガイド2巻3章勉強会(SVM)
コンピュータ先端ガイド2巻3章勉強会(SVM)コンピュータ先端ガイド2巻3章勉強会(SVM)
コンピュータ先端ガイド2巻3章勉強会(SVM)
 
双対性
双対性双対性
双対性
 
C05
C05C05
C05
 
070 統計的推測 母集団と推定
070 統計的推測 母集団と推定070 統計的推測 母集団と推定
070 統計的推測 母集団と推定
 
Datamining 5th knn
Datamining 5th knnDatamining 5th knn
Datamining 5th knn
 
20140512_水曜セミナードラフトv1
20140512_水曜セミナードラフトv120140512_水曜セミナードラフトv1
20140512_水曜セミナードラフトv1
 
C03
C03C03
C03
 
Datamining 5th Knn
Datamining 5th KnnDatamining 5th Knn
Datamining 5th Knn
 
スプラトゥーン2 × 数学(訂正版)
スプラトゥーン2 × 数学(訂正版)スプラトゥーン2 × 数学(訂正版)
スプラトゥーン2 × 数学(訂正版)
 
C06
C06C06
C06
 
基礎からのベイズ統計学 輪読会資料 第4章 メトロポリス・ヘイスティングス法
基礎からのベイズ統計学 輪読会資料 第4章 メトロポリス・ヘイスティングス法基礎からのベイズ統計学 輪読会資料 第4章 メトロポリス・ヘイスティングス法
基礎からのベイズ統計学 輪読会資料 第4章 メトロポリス・ヘイスティングス法
 
人工知能2018 強化学習の応用
人工知能2018 強化学習の応用人工知能2018 強化学習の応用
人工知能2018 強化学習の応用
 
PRML2.1 2.2
PRML2.1 2.2PRML2.1 2.2
PRML2.1 2.2
 

Similaire à 020 1変数の集計

mathemaical_notation
mathemaical_notationmathemaical_notation
mathemaical_notation
Kenta Oono
 
086 独立性の検定
086 独立性の検定086 独立性の検定
086 独立性の検定
t2tarumi
 
K060 中心極限定理clt
K060 中心極限定理cltK060 中心極限定理clt
K060 中心極限定理clt
t2tarumi
 
K030 appstat201203 2variable
K030 appstat201203 2variableK030 appstat201203 2variable
K030 appstat201203 2variable
t2tarumi
 
パターン認識第9章 学習ベクトル量子化
パターン認識第9章 学習ベクトル量子化パターン認識第9章 学習ベクトル量子化
パターン認識第9章 学習ベクトル量子化
Miyoshi Yuya
 
Math tutorial public
Math tutorial publicMath tutorial public
Math tutorial public
Kenta Oono
 

Similaire à 020 1変数の集計 (20)

PRML 8.4-8.4.3
PRML 8.4-8.4.3 PRML 8.4-8.4.3
PRML 8.4-8.4.3
 
20130223_集計・分析の基礎@アンケート研究会
20130223_集計・分析の基礎@アンケート研究会20130223_集計・分析の基礎@アンケート研究会
20130223_集計・分析の基礎@アンケート研究会
 
mathemaical_notation
mathemaical_notationmathemaical_notation
mathemaical_notation
 
086 独立性の検定
086 独立性の検定086 独立性の検定
086 独立性の検定
 
PRML2.3.8~2.5 Slides in charge
PRML2.3.8~2.5 Slides in chargePRML2.3.8~2.5 Slides in charge
PRML2.3.8~2.5 Slides in charge
 
Rで実験計画法 前編
Rで実験計画法 前編Rで実験計画法 前編
Rで実験計画法 前編
 
6 Info Theory
6 Info Theory6 Info Theory
6 Info Theory
 
統計学基礎
統計学基礎統計学基礎
統計学基礎
 
K060 中心極限定理clt
K060 中心極限定理cltK060 中心極限定理clt
K060 中心極限定理clt
 
K030 appstat201203 2variable
K030 appstat201203 2variableK030 appstat201203 2variable
K030 appstat201203 2variable
 
パターン認識第9章 学習ベクトル量子化
パターン認識第9章 学習ベクトル量子化パターン認識第9章 学習ベクトル量子化
パターン認識第9章 学習ベクトル量子化
 
Java数値(浮動小数点)課題勉強会
Java数値(浮動小数点)課題勉強会Java数値(浮動小数点)課題勉強会
Java数値(浮動小数点)課題勉強会
 
お披露目会05/2010
お披露目会05/2010お披露目会05/2010
お披露目会05/2010
 
Math tutorial public
Math tutorial publicMath tutorial public
Math tutorial public
 
TopCoder SRM614 解説
TopCoder SRM614 解説TopCoder SRM614 解説
TopCoder SRM614 解説
 
第17回コンピュータビジョン勉強会@関東
第17回コンピュータビジョン勉強会@関東第17回コンピュータビジョン勉強会@関東
第17回コンピュータビジョン勉強会@関東
 
Yasunori Futamura
Yasunori FutamuraYasunori Futamura
Yasunori Futamura
 
文書比較 (diff)
文書比較 (diff)文書比較 (diff)
文書比較 (diff)
 
PRML 上 1.2.4 ~ 1.2.6
PRML 上 1.2.4 ~ 1.2.6PRML 上 1.2.4 ~ 1.2.6
PRML 上 1.2.4 ~ 1.2.6
 
Rm20150520 6key
Rm20150520 6keyRm20150520 6key
Rm20150520 6key
 

Plus de t2tarumi

K090 仮説検定
K090 仮説検定K090 仮説検定
K090 仮説検定
t2tarumi
 
K050 t分布f分布
K050 t分布f分布K050 t分布f分布
K050 t分布f分布
t2tarumi
 
K040 確率分布とchi2分布
K040 確率分布とchi2分布K040 確率分布とchi2分布
K040 確率分布とchi2分布
t2tarumi
 
K020 appstat201202
K020 appstat201202K020 appstat201202
K020 appstat201202
t2tarumi
 
K010 appstat201201
K010 appstat201201K010 appstat201201
K010 appstat201201
t2tarumi
 
K080 区間推定
K080 区間推定K080 区間推定
K080 区間推定
t2tarumi
 
000 統計学入門 目標
000 統計学入門 目標000 統計学入門 目標
000 統計学入門 目標
t2tarumi
 
076 母比率の推定
076 母比率の推定076 母比率の推定
076 母比率の推定
t2tarumi
 
080 統計的推測 検定
080 統計的推測 検定080 統計的推測 検定
080 統計的推測 検定
t2tarumi
 
060 期待値・中心極限定理
060 期待値・中心極限定理060 期待値・中心極限定理
060 期待値・中心極限定理
t2tarumi
 
050 確率と確率分布
050 確率と確率分布050 確率と確率分布
050 確率と確率分布
t2tarumi
 
040 相関
040 相関040 相関
040 相関
t2tarumi
 
030 2変数の集計
030 2変数の集計030 2変数の集計
030 2変数の集計
t2tarumi
 
010 統計学とは
010 統計学とは010 統計学とは
010 統計学とは
t2tarumi
 

Plus de t2tarumi (14)

K090 仮説検定
K090 仮説検定K090 仮説検定
K090 仮説検定
 
K050 t分布f分布
K050 t分布f分布K050 t分布f分布
K050 t分布f分布
 
K040 確率分布とchi2分布
K040 確率分布とchi2分布K040 確率分布とchi2分布
K040 確率分布とchi2分布
 
K020 appstat201202
K020 appstat201202K020 appstat201202
K020 appstat201202
 
K010 appstat201201
K010 appstat201201K010 appstat201201
K010 appstat201201
 
K080 区間推定
K080 区間推定K080 区間推定
K080 区間推定
 
000 統計学入門 目標
000 統計学入門 目標000 統計学入門 目標
000 統計学入門 目標
 
076 母比率の推定
076 母比率の推定076 母比率の推定
076 母比率の推定
 
080 統計的推測 検定
080 統計的推測 検定080 統計的推測 検定
080 統計的推測 検定
 
060 期待値・中心極限定理
060 期待値・中心極限定理060 期待値・中心極限定理
060 期待値・中心極限定理
 
050 確率と確率分布
050 確率と確率分布050 確率と確率分布
050 確率と確率分布
 
040 相関
040 相関040 相関
040 相関
 
030 2変数の集計
030 2変数の集計030 2変数の集計
030 2変数の集計
 
010 統計学とは
010 統計学とは010 統計学とは
010 統計学とは
 

Dernier

The_Five_Books_Overview_Presentation_2024
The_Five_Books_Overview_Presentation_2024The_Five_Books_Overview_Presentation_2024
The_Five_Books_Overview_Presentation_2024
koheioishi1
 
TokyoTechGraduateExaminationPresentation
TokyoTechGraduateExaminationPresentationTokyoTechGraduateExaminationPresentation
TokyoTechGraduateExaminationPresentation
YukiTerazawa
 

Dernier (8)

次世代機の製品コンセプトを描く ~未来の機械を創造してみよう~
次世代機の製品コンセプトを描く ~未来の機械を創造してみよう~次世代機の製品コンセプトを描く ~未来の機械を創造してみよう~
次世代機の製品コンセプトを描く ~未来の機械を創造してみよう~
 
The_Five_Books_Overview_Presentation_2024
The_Five_Books_Overview_Presentation_2024The_Five_Books_Overview_Presentation_2024
The_Five_Books_Overview_Presentation_2024
 
2024年度 東京工業大学 工学院 機械系 大学院 修士課程 入試 説明会 資料
2024年度 東京工業大学 工学院 機械系 大学院 修士課程 入試 説明会 資料2024年度 東京工業大学 工学院 機械系 大学院 修士課程 入試 説明会 資料
2024年度 東京工業大学 工学院 機械系 大学院 修士課程 入試 説明会 資料
 
東京工業大学 環境・社会理工学院 建築学系 大学院入学入試・進学説明会2024_v2
東京工業大学 環境・社会理工学院 建築学系 大学院入学入試・進学説明会2024_v2東京工業大学 環境・社会理工学院 建築学系 大学院入学入試・進学説明会2024_v2
東京工業大学 環境・社会理工学院 建築学系 大学院入学入試・進学説明会2024_v2
 
TokyoTechGraduateExaminationPresentation
TokyoTechGraduateExaminationPresentationTokyoTechGraduateExaminationPresentation
TokyoTechGraduateExaminationPresentation
 
生成AIの回答内容の修正を課題としたレポートについて:お茶の水女子大学「授業・研究における生成系AIの活用事例」での講演資料
生成AIの回答内容の修正を課題としたレポートについて:お茶の水女子大学「授業・研究における生成系AIの活用事例」での講演資料生成AIの回答内容の修正を課題としたレポートについて:お茶の水女子大学「授業・研究における生成系AIの活用事例」での講演資料
生成AIの回答内容の修正を課題としたレポートについて:お茶の水女子大学「授業・研究における生成系AIの活用事例」での講演資料
 
ゲーム理論 BASIC 演習106 -価格の交渉ゲーム-#ゲーム理論 #gametheory #数学
ゲーム理論 BASIC 演習106 -価格の交渉ゲーム-#ゲーム理論 #gametheory #数学ゲーム理論 BASIC 演習106 -価格の交渉ゲーム-#ゲーム理論 #gametheory #数学
ゲーム理論 BASIC 演習106 -価格の交渉ゲーム-#ゲーム理論 #gametheory #数学
 
世界を変えるクレーンを生み出そう! 高知エンジニアリングキャンプ2024プログラム
世界を変えるクレーンを生み出そう! 高知エンジニアリングキャンプ2024プログラム世界を変えるクレーンを生み出そう! 高知エンジニアリングキャンプ2024プログラム
世界を変えるクレーンを生み出そう! 高知エンジニアリングキャンプ2024プログラム
 

020 1変数の集計

  • 1. 1 変数の集計 統計学入門 2008.04 2009.05.7 修正 2011.04.27 演習解答例追加 2012.04.25 演習 2 解答メモ追加 四分位偏差 説明追加 (講義後の修正まで)
  • 2. データの分布 • だいたいどんな値 (代表値) • 値のバラエティさ  (ばらつき) • その中でどんな値が多いか (ヒストグラ ム) 2 0. 2 - 0. 0. 0 1 50 1 60 1 70 1 80 1 90 - 0. 0. 0 2 m 2 0. • 分布形状 1 50 1 60 f 2 1 70 1 80 1 90 – 単峰性、双峰性、多峰性 – 左に偏った J 型分布、左右対称分布 右に偏った L 型分布
  • 3. 分布の形状 単峰性 双峰性 多峰性 左に裾を引いている 対称性 右に裾を引いている J 型分布 L 型分布
  • 6. データの縮約 • n 個のデータ x1, x2, ・・・ xn を数個の値にまとめる! • 代表値(位置、 location ) • ばらつき(広がり、 dispersion ) • 5数要約 • グラフ表現
  • 7. 代表値 • データが概ねどんな値か • (数直線上の)どのあたりの位置にあ - 0.0. 0 2 るか 2 0. 1 50 1 60 1 70 1 80 1 90 m • (算術)平均値 arithmetic mean • 中央値 median • 最小値 minimum • 最大値 maximum
  • 8. 「良い」代表値とは 絶 2 デ 代 乗 誤 対 表 • ある定めた基準の元で ー 差 誤 誤 タ 値 差 差 「良い」 x1 a x1-a |x1-a| (x1-a)2 • 代表値とはn個の様々 な値を、 1 個の値に置 x2 a x2-a |x2-a| (x2-a)2 き換えること ・・ ・ ・ ・ • 置き換えたときの誤差 ・・ ・ ・ ・ • 誤差は無いほどよい ・・ ・ ・ ・ • できるだけ小さく xn a xn-a |xn-a| (xn-a)2 • 最小化しよう 和 Σ |xn-a| Σ (xn-a)2
  • 9. 平均値 (mean) • mean x1 + x2 +  + xn x= n • 代表値として一番良く使われる • 最小 2 乗法 (Least Square Methods) の意味で最 良 誤差の 2 乗 Q(a)=(x1-a)2+(x2-a)2+ ・・・ +(xn-a)2 を最小にする a
  • 10. 平均値 16 14 12 10 8 6 4 2 0 1 2 3 4 5 6 7 8 9 10
  • 11. 中央値 (median) • 平均値の問題点 はずれ値 (outlier) の影響を受けやすい 平均値 • 多数のデータからは離れた値になって いる 中央値 • 集団の代表値としては中央値の方が妥当 Me = x((n+1)/2)  ないしは  (x(n/2) +x(n/2+1))/2
  • 13. 平均値の改良 • truncated mean, trimmed mean (切捨て平 均) – 大きい方 α 、小さい方 α のデータを捨てて 残りの 1-2α のデータで平均値を計算する – α としては 0.25 が良く使われる 平均値 平均値 α=1/6 の場合
  • 14. 最小値、最大値 • 洪水対策   過去のデータでの最大降水量に対 して対策を立てる • 許容量   被害が起きた最小の値に対して対 策を立てる
  • 15. 5 数要約  (fivnum) five-number summary • 大きさの順序に並び換え    x(1)<x(2)< ・・・ <x(n) • x(1)     最小値 • x(n/4)    第1四分位値 (Q1) • x(2n/4)    第2四分位値 (Q2) =中央値 (Me) • x(3n/4)    第3四分位値 (Q3) • x(n)     最大値
  • 16. 箱髭図 (boxplot) • 5 数要約のグラフ表現 x(n) Q3 median Q1 x(1) (boxplot height)
  • 17. 度数分布表とヒストグラム frequency table and histogram • 階級数 k – √n – 1 + log n/log 2 – 10 ~ 20 • 階級の幅 w – w=(x(n)-x(1))/k • 端点 a0 a0 < x(1)< a0 + w/2
  • 18. 度数分布表の追加情報 階級 階級値 度数 相対度数 累積度数 累積相対度数 a0~a1 m1 f1 f1/n f1 (f1)/n a1~a2 m2 f2 f2/n f1+f2 (f1+f2)/n ak-1~ak mk fk fk/n f1+‥+fk (f1+‥+fk)/n n 1
  • 19. 演習 • 統計学 168 人の試験の成績は   最小値  24 点   最大値  87 点 であった。度数分布表を作るための階 級を定めよ。 • 169 人の身長を調査したところ   最小値  143.2cm   最大値  175.7cm であった。度数分布表を作るための階 級を定めよ。
  • 20. 演習問題の解答例 n=168 人 階級    x(1)= 最小値 =24 22~27    x(n)= 最大値 =87 27~32 n = 168 = 12.96 32~37 log 168 2.2253 37~42 1 + log 2 n = 1 + = 1+ = 8.393 log 2 0.3010 42~47 階級数k = 8~13 47~52 x( n ) − x(1) 87 − 24 52~57 63 幅  w = = = 4.85~ = 7.85 57~62 k 13 8     w = 5 と決める 62~67 67~72 端点 a0 :  a0 ≤ x(1) ≤ a0 + w / 2 72~77 a0 ≤ 24 ≤ a0 + 5 / 2 77~82 a0 ≤ 24 ≤ a0 + 2.5 82~87 24 − 2.5 = 21.5 ≤ a0 ≤ 24 87~92 a0 = 22  と決める
  • 21. 講  評 「階級を定める」ということは、 すべての小区間を決めること! 22~27 22.5~27.5 27~32 27.5~32.5 階級数 k、  32.5~37.5 32~37 階級の幅 w、  37.5~42.5 37~42 端点  a0 を決めるだけでは不十分。 42.5~47.5 42~47 47~52 47.5~52.5 端点の値がどちらの階級に属するか(以下、未 52.5~57.5 52~57 満)という議論を避けるために、端点の値がデ 57.5~62.5 57~62 ータに出てこないように端点を定めることもあ 62~67 62.5~67.5 る。 67~72 67.5~72.5 72~77 72.5~77.5 データの有効桁(成績のよう整数値のデータで あれば、1の位)に対して、その一つ下の桁( 77~82 77.5~82.5 整数値であれば、小数点以下1桁目)に5を付 82~87 82.5~87.5 けた値を端点の値とする。 87~92 87.5~92.5 前の演習問題であれば、右側のように定めれば 良い。
  • 22. 演習 • 統計学 168 人の試験の成績は   最小値  24 点   最大値  87 点 であった。度数分布表を作るための階 級を定めよ。 • 169 人の身長を調査したところ   最小値  143.2cm   最大値  175.7cm であった。度数分布表を作るための階 級を定めよ。 Log(169,2)+1=8.4 32.5/13=2.5 W=4 √169=13 32.5/8=4.06 143.2-4/2=141.2 R=X(n)-X(1)=175.7-143.2=32.5 A0=142
  • 23. ばらつき (dispersion) の尺度 • 代表値は同じでも、分布が異なる > mean(height) 151.57142857142856 > mean(height2) 151.3571428571429 2 0. 2 - 0. 0. 0 > histogram(height) 1 50 1 60 1 70 1 80 1 90 f 2 > histogram(height2) height2 ~tarumi/lispstat/height2.lsp
  • 24. バラツキの尺度 • 範囲 (range) • 四分位範囲 (interquartile range) • 平均偏差 (mean deviation) • 分散 (variance) • 標準偏差 (standard deviation)
  • 25. 範囲 (range) 四分位範囲 (quartile range) • 最小値から最大値までの幅    R = x(n) - x(1) • 外れ値 (Outlier) の影響を受けやすい • 両端 25 %のデータを捨てた真中の 50% のデータでの範囲=四分位範囲 = Q3 - Q1 R R QR
  • 26. 四分位偏差 • 平成 24 年度からの高校数学Ⅰでは四分位 範囲の代わりに、四分位偏差が取り上 げられている。 Q3 − Q1 四分位範囲 四分位偏差 = = 2 2 • 統計学の分野では四分位範囲の方がよ くつかわれる。
  • 27. 平均偏差 (mean deviation) • 偏差 d i = xi − x • 平均偏差 n n 1 1  d = d = ∑ | di | = ∑ |x i − x | n i =1 n i =1
  • 28. 分散 (variance) 標準偏差 (standard deviation) • 分散 偏差2乗の平均 1 n s = ∑ ( xi − x ) 2 2 n i =1 n 1 = (∑ xi ) − ( x ) 2 2 n i =1 • 標準偏差   分散の平方根 1 n s= s = 2 ∑ ( xi − x ) n i =1 2
  • 29. 不偏分散 (unbiased variance) • 標本分散としては不偏分散 u2 を使うこ とも多い 1 n s = ∑ ( xi − x ) 2 2 n i =1 n 1 u = 2 ∑ ( xi − x ) n − 1 i =1 2 2 ns    = n −1
  • 30. 演習 • height – 148, 160, 159, 153, 151, 140, 156, 137, 149, 160, 151, 157, 157, 144 – 和 2122 2 乗和 322338 • height2 – 138, 162, 158, 151, 145, 134, 160, 137, 151, 163, 152, 163, 158, 147 – 和 2119 2 乗和 322019 • weight – 41, 49, 45, 43, 42, 29, 49, 31, 47, 47, 42, 39, 48, 36 – 和 588 2 乗和 25226