SlideShare une entreprise Scribd logo
1  sur  4
2010.04 作成


                    基本統計量について

 データの解析を行う際は、データの持つ多くの情報を少ないいくつかの指標
に要約する必要があり、これらの指標を要約統計量、基本統計量、あるいは代
表値と呼ぶ。
※ 基本統計量の訳は”summary statistics”で、“basic statistics”は基礎統計学を指す。


○ 正規分布に従う単変量データの場合・・・
 平均 、分散 V または標準偏差 s(この二つの要素が正規分布を規定する)

 例) 標本平均 、標本分散 V、標本標準偏差 s
             ,                        ,

○   正規分布からのずれを示す統計量

    五数要約            [参考 1] モーメント, 積率
    ・最大値              一次のモーメント: 平均
    ・最小値              二次のモーメント: 分散、標準偏差
    ・中央値              三次のモーメント: 歪度
    ・上ヒンジ値            四次のモーメント: 尖度
    ・下ヒンジ値
     ※ ヒンジの代わりに四分位値(Q1 及び Q3)を使う場合もある。

    高次のモーメント
    ・ 歪度(ゆがみ) :       標準化偏差 の 3 乗平均



    ・   尖度(とがり)    :標準化偏差 の 4 乗平均から 3 を引いたもの



※ n が小さいときは歪度や尖度は不安定なので、数値で判断するよりはヒスト
    グラムを見たほうが良い。

○ 正規分布に従う p 次元の多変量データの場合・・・
 平均値ベクトル(個々の変量の平均値をならべて p 個の要素を持つベクトル
にしたもの)と分散共分散行列 (p×p の正方行列で、対角成分は各変量の分散、
それ以外は変量間の関係性を示す共分散)
[参考 2] ヒンジ値と四分位値の違い ※ 便宜上同じものとして取り扱われることも多い
  データを昇順に並べたとき、 小さいほうからデータ全体の 1/4 が含まれるよう
な順位のデータ値を第 1 四分位(下側四分位) 、3/4 が含まれるような順位のデ
ータ値を第 3 四分位(上側四分位)という。第 2 四分位は中央値に等しい。
  一方、中央値よりも上の値の中央値・中央値よりも下の値の中央値を、それ
ぞれ上側ヒンジ及び下側ヒンジと呼ぶ。

 例) 次のような 1 から 10 までの数値が一つずつ含まれるデータを考えてみる。

        (幅 2)         (幅 2)                         (幅 2)             (幅 2)


  1       2       3        4        5          6       7        8        9      10
                  3.25                  5.5                   7.75


                                        中央値
      (幅 2.25)           (幅 2.25)                  (幅 2.25)          (幅 2.25)


このデータの場合、中央値は 5.5、下側ヒンジは 3、上側ヒンジは 8 だが、下側
  四分位は 3.25、上側四分位は 7.75 となる。

これを統計ソフト R で実際に計算してみる。コマンドラインは以下のとおり。

 dat1 <- 1:10 # 1~10 までの整数値を持つデータを作成
 dat1            # 作成したデータの中身を表示
 fivenum(dat1) # 5 数要約(最小値、下ヒンジ、中央値、上ヒンジ、最大値)
 quantile(dat1) # 四分位(最小値、第 1 四分位、中央値、第 3 四分位、最大値)


もう一つの例として、0~10 までのデータを作成し、同じようにヒンジや四分位
を計算。
 dat2 <- 0:10             # 0~10 までの整数値を持つデータを作成
 dat2                     # 作成したデータの中身を表示
 fivenum(dat2)            # 5 数要約
 quantile(dat2)           # 四分位


 コンソール出力は、以下のとおり。0~10 までの整数データの場合は、ヒンジ
と四分位が一致することがわかる。




 > dat1 <- 1:10
 > dat1
  [1] 1 2 3 4 5 6 7 8                   9 10
 > fivenum(dat1)
 [1] 1.0 3.0 5.5 8.0 10.0
 > quantile(dat1)
箱ひげ図は、以下のように四分位値を採用する場合もヒンジ値を使う場合も
あるが、R の場合はヒンジ値を用いている。




箱ひげ図描画用のコマンド
 par(mfrow=c(2,1))                # グラフィック画面を二分割
 boxplot(dat1, horizontal=TRUE)   # dat1 を横書きの箱ひげ図に
 boxplot(dat1, horizontal=TRUE)   # dat2
用語集

平均         mean
分散         variance
標準偏差       standard deviation
変動係数       coefficient of variation
モーメント、積率   moment
歪度(ひずみ)    skewness
尖度(とがり)    kurtosis
五数要約       five-number summary
中央値        median
四分位値       fourth ※quantile は分位数
最小値        minimum
最大値        maximum
標準化        standardization

Contenu connexe

Tendances

Bootstrap methodの勉強メモ
Bootstrap methodの勉強メモBootstrap methodの勉強メモ
Bootstrap methodの勉強メモNorimitsu Nishida
 
【社内勉強会用】統計学超入門
【社内勉強会用】統計学超入門【社内勉強会用】統計学超入門
【社内勉強会用】統計学超入門Akira Torii
 
第1回Rを使って統計分析を勉強する会
第1回Rを使って統計分析を勉強する会第1回Rを使って統計分析を勉強する会
第1回Rを使って統計分析を勉強する会Nobuto Inoguchi
 
パターン認識と機械学習 §8.3.4 有向グラフとの関係
パターン認識と機械学習 §8.3.4 有向グラフとの関係パターン認識と機械学習 §8.3.4 有向グラフとの関係
パターン認識と機械学習 §8.3.4 有向グラフとの関係Prunus 1350
 
Analyze by StatsModels or Numpy
Analyze by StatsModels or NumpyAnalyze by StatsModels or Numpy
Analyze by StatsModels or NumpyToshiki NOGUCHI
 
第3回Rを使って統計分析を勉強する会
第3回Rを使って統計分析を勉強する会第3回Rを使って統計分析を勉強する会
第3回Rを使って統計分析を勉強する会Nobuto Inoguchi
 

Tendances (9)

Bootstrap methodの勉強メモ
Bootstrap methodの勉強メモBootstrap methodの勉強メモ
Bootstrap methodの勉強メモ
 
【社内勉強会用】統計学超入門
【社内勉強会用】統計学超入門【社内勉強会用】統計学超入門
【社内勉強会用】統計学超入門
 
第1回Rを使って統計分析を勉強する会
第1回Rを使って統計分析を勉強する会第1回Rを使って統計分析を勉強する会
第1回Rを使って統計分析を勉強する会
 
パターン認識と機械学習 §8.3.4 有向グラフとの関係
パターン認識と機械学習 §8.3.4 有向グラフとの関係パターン認識と機械学習 §8.3.4 有向グラフとの関係
パターン認識と機械学習 §8.3.4 有向グラフとの関係
 
Analyze by StatsModels or Numpy
Analyze by StatsModels or NumpyAnalyze by StatsModels or Numpy
Analyze by StatsModels or Numpy
 
Bar chart
Bar chartBar chart
Bar chart
 
Circle chart
Circle chartCircle chart
Circle chart
 
第3回Rを使って統計分析を勉強する会
第3回Rを使って統計分析を勉強する会第3回Rを使って統計分析を勉強する会
第3回Rを使って統計分析を勉強する会
 
Line chart
Line chartLine chart
Line chart
 

Similaire à 基本統計量について

統計学における相関分析と仮説検定の基本的な考え方とその実践
統計学における相関分析と仮説検定の基本的な考え方とその実践統計学における相関分析と仮説検定の基本的な考え方とその実践
統計学における相関分析と仮説検定の基本的な考え方とその実践id774
 
NagoyaStat#7 StanとRでベイズ統計モデリング(アヒル本)4章の発表資料
NagoyaStat#7 StanとRでベイズ統計モデリング(アヒル本)4章の発表資料NagoyaStat#7 StanとRでベイズ統計モデリング(アヒル本)4章の発表資料
NagoyaStat#7 StanとRでベイズ統計モデリング(アヒル本)4章の発表資料nishioka1
 
Model seminar shibata_100710
Model seminar shibata_100710Model seminar shibata_100710
Model seminar shibata_100710Kazuya Nishina
 
カテゴリカルデータの解析 (Kashiwa.R#3)
カテゴリカルデータの解析 (Kashiwa.R#3)カテゴリカルデータの解析 (Kashiwa.R#3)
カテゴリカルデータの解析 (Kashiwa.R#3)Takumi Tsutaya
 
カステラ本勉強会 第三回
カステラ本勉強会 第三回カステラ本勉強会 第三回
カステラ本勉強会 第三回ke beck
 
ベイズ統計によるデータ解析
ベイズ統計によるデータ解析ベイズ統計によるデータ解析
ベイズ統計によるデータ解析Kunihiro Hisatsune
 
第一回Data mining勉強会 -第二章 - 原案
第一回Data mining勉強会 -第二章 - 原案第一回Data mining勉強会 -第二章 - 原案
第一回Data mining勉強会 -第二章 - 原案yushin_hirano
 
第一回Data mining勉強会 -第二章
第一回Data mining勉強会 -第二章第一回Data mining勉強会 -第二章
第一回Data mining勉強会 -第二章Tomonobu_Hirano
 
データサイエンス概論第一=1-3 平均と分散
データサイエンス概論第一=1-3 平均と分散データサイエンス概論第一=1-3 平均と分散
データサイエンス概論第一=1-3 平均と分散Seiichi Uchida
 
【mixbeat4-4】統計表現20111016
【mixbeat4-4】統計表現20111016【mixbeat4-4】統計表現20111016
【mixbeat4-4】統計表現20111016Tanji Takumi
 
StanとRでベイズ統計モデリング 11章 離散値をとるパラメータ
StanとRでベイズ統計モデリング 11章 離散値をとるパラメータStanとRでベイズ統計モデリング 11章 離散値をとるパラメータ
StanとRでベイズ統計モデリング 11章 離散値をとるパラメータMiki Katsuragi
 
Rで実験計画法 前編
Rで実験計画法 前編Rで実験計画法 前編
Rで実験計画法 前編itoyan110
 
[Tokyor08] Rによるデータサイエンス 第2部 第3章 対応分析
[Tokyor08] Rによるデータサイエンス第2部 第3章 対応分析[Tokyor08] Rによるデータサイエンス第2部 第3章 対応分析
[Tokyor08] Rによるデータサイエンス 第2部 第3章 対応分析Yohei Sato
 
データ入力が終わってから分析前にすること
データ入力が終わってから分析前にすることデータ入力が終わってから分析前にすること
データ入力が終わってから分析前にすることMasaru Tokuoka
 
居場所を隠すために差分プライバシーを使おう
居場所を隠すために差分プライバシーを使おう居場所を隠すために差分プライバシーを使おう
居場所を隠すために差分プライバシーを使おうHiroshi Nakagawa
 

Similaire à 基本統計量について (20)

統計学における相関分析と仮説検定の基本的な考え方とその実践
統計学における相関分析と仮説検定の基本的な考え方とその実践統計学における相関分析と仮説検定の基本的な考え方とその実践
統計学における相関分析と仮説検定の基本的な考え方とその実践
 
NagoyaStat#7 StanとRでベイズ統計モデリング(アヒル本)4章の発表資料
NagoyaStat#7 StanとRでベイズ統計モデリング(アヒル本)4章の発表資料NagoyaStat#7 StanとRでベイズ統計モデリング(アヒル本)4章の発表資料
NagoyaStat#7 StanとRでベイズ統計モデリング(アヒル本)4章の発表資料
 
20181114 r
20181114 r20181114 r
20181114 r
 
Model seminar shibata_100710
Model seminar shibata_100710Model seminar shibata_100710
Model seminar shibata_100710
 
Tokyor24 doradora09
Tokyor24 doradora09Tokyor24 doradora09
Tokyor24 doradora09
 
カテゴリカルデータの解析 (Kashiwa.R#3)
カテゴリカルデータの解析 (Kashiwa.R#3)カテゴリカルデータの解析 (Kashiwa.R#3)
カテゴリカルデータの解析 (Kashiwa.R#3)
 
カステラ本勉強会 第三回
カステラ本勉強会 第三回カステラ本勉強会 第三回
カステラ本勉強会 第三回
 
ベイズ統計によるデータ解析
ベイズ統計によるデータ解析ベイズ統計によるデータ解析
ベイズ統計によるデータ解析
 
第一回Data mining勉強会 -第二章 - 原案
第一回Data mining勉強会 -第二章 - 原案第一回Data mining勉強会 -第二章 - 原案
第一回Data mining勉強会 -第二章 - 原案
 
アンケートデータ集計・分析のためのExcel
アンケートデータ集計・分析のためのExcelアンケートデータ集計・分析のためのExcel
アンケートデータ集計・分析のためのExcel
 
NL20161222invited
NL20161222invitedNL20161222invited
NL20161222invited
 
第一回Data mining勉強会 -第二章
第一回Data mining勉強会 -第二章第一回Data mining勉強会 -第二章
第一回Data mining勉強会 -第二章
 
データサイエンス概論第一=1-3 平均と分散
データサイエンス概論第一=1-3 平均と分散データサイエンス概論第一=1-3 平均と分散
データサイエンス概論第一=1-3 平均と分散
 
講座C入門
講座C入門講座C入門
講座C入門
 
【mixbeat4-4】統計表現20111016
【mixbeat4-4】統計表現20111016【mixbeat4-4】統計表現20111016
【mixbeat4-4】統計表現20111016
 
StanとRでベイズ統計モデリング 11章 離散値をとるパラメータ
StanとRでベイズ統計モデリング 11章 離散値をとるパラメータStanとRでベイズ統計モデリング 11章 離散値をとるパラメータ
StanとRでベイズ統計モデリング 11章 離散値をとるパラメータ
 
Rで実験計画法 前編
Rで実験計画法 前編Rで実験計画法 前編
Rで実験計画法 前編
 
[Tokyor08] Rによるデータサイエンス 第2部 第3章 対応分析
[Tokyor08] Rによるデータサイエンス第2部 第3章 対応分析[Tokyor08] Rによるデータサイエンス第2部 第3章 対応分析
[Tokyor08] Rによるデータサイエンス 第2部 第3章 対応分析
 
データ入力が終わってから分析前にすること
データ入力が終わってから分析前にすることデータ入力が終わってから分析前にすること
データ入力が終わってから分析前にすること
 
居場所を隠すために差分プライバシーを使おう
居場所を隠すために差分プライバシーを使おう居場所を隠すために差分プライバシーを使おう
居場所を隠すために差分プライバシーを使おう
 

Plus de wada, kazumi

Rによる繰り返しの並列処理
Rによる繰り返しの並列処理Rによる繰り返しの並列処理
Rによる繰り返しの並列処理wada, kazumi
 
2018Rユーザ会用
2018Rユーザ会用2018Rユーザ会用
2018Rユーザ会用wada, kazumi
 
Ⅳ. 可視化事例集 2017
Ⅳ. 可視化事例集 2017Ⅳ. 可視化事例集 2017
Ⅳ. 可視化事例集 2017wada, kazumi
 
Ⅲ. 資料編 2017
Ⅲ. 資料編 2017Ⅲ. 資料編 2017
Ⅲ. 資料編 2017wada, kazumi
 
Ⅱ. データ分析編 2017
Ⅱ. データ分析編 2017Ⅱ. データ分析編 2017
Ⅱ. データ分析編 2017wada, kazumi
 
Ⅰ. Rの基礎 2017
Ⅰ. Rの基礎 2017Ⅰ. Rの基礎 2017
Ⅰ. Rの基礎 2017wada, kazumi
 
2017Rユーザ会用
2017Rユーザ会用2017Rユーザ会用
2017Rユーザ会用wada, kazumi
 
Rデモ03_データ分析編2016
Rデモ03_データ分析編2016Rデモ03_データ分析編2016
Rデモ03_データ分析編2016wada, kazumi
 
Rデモ02_入出力編2016
Rデモ02_入出力編2016Rデモ02_入出力編2016
Rデモ02_入出力編2016wada, kazumi
 
Rデモ01_はじめの一歩2016
Rデモ01_はじめの一歩2016Rデモ01_はじめの一歩2016
Rデモ01_はじめの一歩2016wada, kazumi
 
統計環境R_データ分析編2016
統計環境R_データ分析編2016統計環境R_データ分析編2016
統計環境R_データ分析編2016wada, kazumi
 
統計環境R_はじめの一歩2016
統計環境R_はじめの一歩2016統計環境R_はじめの一歩2016
統計環境R_はじめの一歩2016wada, kazumi
 
統計環境R_データ入出力編2016
統計環境R_データ入出力編2016統計環境R_データ入出力編2016
統計環境R_データ入出力編2016wada, kazumi
 
自然科学の統計学2.2 slideshare
自然科学の統計学2.2 slideshare自然科学の統計学2.2 slideshare
自然科学の統計学2.2 slidesharewada, kazumi
 
Rプログラミング03 データ分析編
Rプログラミング03 データ分析編Rプログラミング03 データ分析編
Rプログラミング03 データ分析編wada, kazumi
 
Rプログラミング03 「データ分析編」デモ
Rプログラミング03 「データ分析編」デモRプログラミング03 「データ分析編」デモ
Rプログラミング03 「データ分析編」デモwada, kazumi
 
Rプログラミング02 データ入出力編
Rプログラミング02 データ入出力編Rプログラミング02 データ入出力編
Rプログラミング02 データ入出力編wada, kazumi
 
Rプログラミング02 「データ入出力編」デモ
Rプログラミング02 「データ入出力編」デモRプログラミング02 「データ入出力編」デモ
Rプログラミング02 「データ入出力編」デモwada, kazumi
 
Rプログラミング01 「はじめの一歩」 演習デモ
Rプログラミング01 「はじめの一歩」 演習デモRプログラミング01 「はじめの一歩」 演習デモ
Rプログラミング01 「はじめの一歩」 演習デモwada, kazumi
 
Rプログラミング01 はじめの一歩
Rプログラミング01 はじめの一歩Rプログラミング01 はじめの一歩
Rプログラミング01 はじめの一歩wada, kazumi
 

Plus de wada, kazumi (20)

Rによる繰り返しの並列処理
Rによる繰り返しの並列処理Rによる繰り返しの並列処理
Rによる繰り返しの並列処理
 
2018Rユーザ会用
2018Rユーザ会用2018Rユーザ会用
2018Rユーザ会用
 
Ⅳ. 可視化事例集 2017
Ⅳ. 可視化事例集 2017Ⅳ. 可視化事例集 2017
Ⅳ. 可視化事例集 2017
 
Ⅲ. 資料編 2017
Ⅲ. 資料編 2017Ⅲ. 資料編 2017
Ⅲ. 資料編 2017
 
Ⅱ. データ分析編 2017
Ⅱ. データ分析編 2017Ⅱ. データ分析編 2017
Ⅱ. データ分析編 2017
 
Ⅰ. Rの基礎 2017
Ⅰ. Rの基礎 2017Ⅰ. Rの基礎 2017
Ⅰ. Rの基礎 2017
 
2017Rユーザ会用
2017Rユーザ会用2017Rユーザ会用
2017Rユーザ会用
 
Rデモ03_データ分析編2016
Rデモ03_データ分析編2016Rデモ03_データ分析編2016
Rデモ03_データ分析編2016
 
Rデモ02_入出力編2016
Rデモ02_入出力編2016Rデモ02_入出力編2016
Rデモ02_入出力編2016
 
Rデモ01_はじめの一歩2016
Rデモ01_はじめの一歩2016Rデモ01_はじめの一歩2016
Rデモ01_はじめの一歩2016
 
統計環境R_データ分析編2016
統計環境R_データ分析編2016統計環境R_データ分析編2016
統計環境R_データ分析編2016
 
統計環境R_はじめの一歩2016
統計環境R_はじめの一歩2016統計環境R_はじめの一歩2016
統計環境R_はじめの一歩2016
 
統計環境R_データ入出力編2016
統計環境R_データ入出力編2016統計環境R_データ入出力編2016
統計環境R_データ入出力編2016
 
自然科学の統計学2.2 slideshare
自然科学の統計学2.2 slideshare自然科学の統計学2.2 slideshare
自然科学の統計学2.2 slideshare
 
Rプログラミング03 データ分析編
Rプログラミング03 データ分析編Rプログラミング03 データ分析編
Rプログラミング03 データ分析編
 
Rプログラミング03 「データ分析編」デモ
Rプログラミング03 「データ分析編」デモRプログラミング03 「データ分析編」デモ
Rプログラミング03 「データ分析編」デモ
 
Rプログラミング02 データ入出力編
Rプログラミング02 データ入出力編Rプログラミング02 データ入出力編
Rプログラミング02 データ入出力編
 
Rプログラミング02 「データ入出力編」デモ
Rプログラミング02 「データ入出力編」デモRプログラミング02 「データ入出力編」デモ
Rプログラミング02 「データ入出力編」デモ
 
Rプログラミング01 「はじめの一歩」 演習デモ
Rプログラミング01 「はじめの一歩」 演習デモRプログラミング01 「はじめの一歩」 演習デモ
Rプログラミング01 「はじめの一歩」 演習デモ
 
Rプログラミング01 はじめの一歩
Rプログラミング01 はじめの一歩Rプログラミング01 はじめの一歩
Rプログラミング01 はじめの一歩
 

Dernier

ゲーム理論 BASIC 演習106 -価格の交渉ゲーム-#ゲーム理論 #gametheory #数学
ゲーム理論 BASIC 演習106 -価格の交渉ゲーム-#ゲーム理論 #gametheory #数学ゲーム理論 BASIC 演習106 -価格の交渉ゲーム-#ゲーム理論 #gametheory #数学
ゲーム理論 BASIC 演習106 -価格の交渉ゲーム-#ゲーム理論 #gametheory #数学ssusere0a682
 
UniProject Workshop Make a Discord Bot with JavaScript
UniProject Workshop Make a Discord Bot with JavaScriptUniProject Workshop Make a Discord Bot with JavaScript
UniProject Workshop Make a Discord Bot with JavaScriptyuitoakatsukijp
 
TokyoTechGraduateExaminationPresentation
TokyoTechGraduateExaminationPresentationTokyoTechGraduateExaminationPresentation
TokyoTechGraduateExaminationPresentationYukiTerazawa
 
The_Five_Books_Overview_Presentation_2024
The_Five_Books_Overview_Presentation_2024The_Five_Books_Overview_Presentation_2024
The_Five_Books_Overview_Presentation_2024koheioishi1
 
東京工業大学 環境・社会理工学院 建築学系 大学院入学入試・進学説明会2024_v2
東京工業大学 環境・社会理工学院 建築学系 大学院入学入試・進学説明会2024_v2東京工業大学 環境・社会理工学院 建築学系 大学院入学入試・進学説明会2024_v2
東京工業大学 環境・社会理工学院 建築学系 大学院入学入試・進学説明会2024_v2Tokyo Institute of Technology
 
生成AIの回答内容の修正を課題としたレポートについて:お茶の水女子大学「授業・研究における生成系AIの活用事例」での講演資料
生成AIの回答内容の修正を課題としたレポートについて:お茶の水女子大学「授業・研究における生成系AIの活用事例」での講演資料生成AIの回答内容の修正を課題としたレポートについて:お茶の水女子大学「授業・研究における生成系AIの活用事例」での講演資料
生成AIの回答内容の修正を課題としたレポートについて:お茶の水女子大学「授業・研究における生成系AIの活用事例」での講演資料Takayuki Itoh
 
ゲーム理論 BASIC 演習105 -n人囚人のジレンマモデル- #ゲーム理論 #gametheory #数学
ゲーム理論 BASIC 演習105 -n人囚人のジレンマモデル- #ゲーム理論 #gametheory #数学ゲーム理論 BASIC 演習105 -n人囚人のジレンマモデル- #ゲーム理論 #gametheory #数学
ゲーム理論 BASIC 演習105 -n人囚人のジレンマモデル- #ゲーム理論 #gametheory #数学ssusere0a682
 

Dernier (7)

ゲーム理論 BASIC 演習106 -価格の交渉ゲーム-#ゲーム理論 #gametheory #数学
ゲーム理論 BASIC 演習106 -価格の交渉ゲーム-#ゲーム理論 #gametheory #数学ゲーム理論 BASIC 演習106 -価格の交渉ゲーム-#ゲーム理論 #gametheory #数学
ゲーム理論 BASIC 演習106 -価格の交渉ゲーム-#ゲーム理論 #gametheory #数学
 
UniProject Workshop Make a Discord Bot with JavaScript
UniProject Workshop Make a Discord Bot with JavaScriptUniProject Workshop Make a Discord Bot with JavaScript
UniProject Workshop Make a Discord Bot with JavaScript
 
TokyoTechGraduateExaminationPresentation
TokyoTechGraduateExaminationPresentationTokyoTechGraduateExaminationPresentation
TokyoTechGraduateExaminationPresentation
 
The_Five_Books_Overview_Presentation_2024
The_Five_Books_Overview_Presentation_2024The_Five_Books_Overview_Presentation_2024
The_Five_Books_Overview_Presentation_2024
 
東京工業大学 環境・社会理工学院 建築学系 大学院入学入試・進学説明会2024_v2
東京工業大学 環境・社会理工学院 建築学系 大学院入学入試・進学説明会2024_v2東京工業大学 環境・社会理工学院 建築学系 大学院入学入試・進学説明会2024_v2
東京工業大学 環境・社会理工学院 建築学系 大学院入学入試・進学説明会2024_v2
 
生成AIの回答内容の修正を課題としたレポートについて:お茶の水女子大学「授業・研究における生成系AIの活用事例」での講演資料
生成AIの回答内容の修正を課題としたレポートについて:お茶の水女子大学「授業・研究における生成系AIの活用事例」での講演資料生成AIの回答内容の修正を課題としたレポートについて:お茶の水女子大学「授業・研究における生成系AIの活用事例」での講演資料
生成AIの回答内容の修正を課題としたレポートについて:お茶の水女子大学「授業・研究における生成系AIの活用事例」での講演資料
 
ゲーム理論 BASIC 演習105 -n人囚人のジレンマモデル- #ゲーム理論 #gametheory #数学
ゲーム理論 BASIC 演習105 -n人囚人のジレンマモデル- #ゲーム理論 #gametheory #数学ゲーム理論 BASIC 演習105 -n人囚人のジレンマモデル- #ゲーム理論 #gametheory #数学
ゲーム理論 BASIC 演習105 -n人囚人のジレンマモデル- #ゲーム理論 #gametheory #数学
 

基本統計量について

  • 1. 2010.04 作成 基本統計量について データの解析を行う際は、データの持つ多くの情報を少ないいくつかの指標 に要約する必要があり、これらの指標を要約統計量、基本統計量、あるいは代 表値と呼ぶ。 ※ 基本統計量の訳は”summary statistics”で、“basic statistics”は基礎統計学を指す。 ○ 正規分布に従う単変量データの場合・・・ 平均 、分散 V または標準偏差 s(この二つの要素が正規分布を規定する) 例) 標本平均 、標本分散 V、標本標準偏差 s , , ○ 正規分布からのずれを示す統計量 五数要約 [参考 1] モーメント, 積率 ・最大値 一次のモーメント: 平均 ・最小値 二次のモーメント: 分散、標準偏差 ・中央値 三次のモーメント: 歪度 ・上ヒンジ値 四次のモーメント: 尖度 ・下ヒンジ値 ※ ヒンジの代わりに四分位値(Q1 及び Q3)を使う場合もある。 高次のモーメント ・ 歪度(ゆがみ) : 標準化偏差 の 3 乗平均 ・ 尖度(とがり) :標準化偏差 の 4 乗平均から 3 を引いたもの ※ n が小さいときは歪度や尖度は不安定なので、数値で判断するよりはヒスト グラムを見たほうが良い。 ○ 正規分布に従う p 次元の多変量データの場合・・・ 平均値ベクトル(個々の変量の平均値をならべて p 個の要素を持つベクトル にしたもの)と分散共分散行列 (p×p の正方行列で、対角成分は各変量の分散、 それ以外は変量間の関係性を示す共分散)
  • 2. [参考 2] ヒンジ値と四分位値の違い ※ 便宜上同じものとして取り扱われることも多い データを昇順に並べたとき、 小さいほうからデータ全体の 1/4 が含まれるよう な順位のデータ値を第 1 四分位(下側四分位) 、3/4 が含まれるような順位のデ ータ値を第 3 四分位(上側四分位)という。第 2 四分位は中央値に等しい。 一方、中央値よりも上の値の中央値・中央値よりも下の値の中央値を、それ ぞれ上側ヒンジ及び下側ヒンジと呼ぶ。 例) 次のような 1 から 10 までの数値が一つずつ含まれるデータを考えてみる。 (幅 2) (幅 2) (幅 2) (幅 2) 1 2 3 4 5 6 7 8 9 10 3.25 5.5 7.75 中央値 (幅 2.25) (幅 2.25) (幅 2.25) (幅 2.25) このデータの場合、中央値は 5.5、下側ヒンジは 3、上側ヒンジは 8 だが、下側 四分位は 3.25、上側四分位は 7.75 となる。 これを統計ソフト R で実際に計算してみる。コマンドラインは以下のとおり。 dat1 <- 1:10 # 1~10 までの整数値を持つデータを作成 dat1 # 作成したデータの中身を表示 fivenum(dat1) # 5 数要約(最小値、下ヒンジ、中央値、上ヒンジ、最大値) quantile(dat1) # 四分位(最小値、第 1 四分位、中央値、第 3 四分位、最大値) もう一つの例として、0~10 までのデータを作成し、同じようにヒンジや四分位 を計算。 dat2 <- 0:10 # 0~10 までの整数値を持つデータを作成 dat2 # 作成したデータの中身を表示 fivenum(dat2) # 5 数要約 quantile(dat2) # 四分位 コンソール出力は、以下のとおり。0~10 までの整数データの場合は、ヒンジ と四分位が一致することがわかる。 > dat1 <- 1:10 > dat1 [1] 1 2 3 4 5 6 7 8 9 10 > fivenum(dat1) [1] 1.0 3.0 5.5 8.0 10.0 > quantile(dat1)
  • 3. 箱ひげ図は、以下のように四分位値を採用する場合もヒンジ値を使う場合も あるが、R の場合はヒンジ値を用いている。 箱ひげ図描画用のコマンド par(mfrow=c(2,1)) # グラフィック画面を二分割 boxplot(dat1, horizontal=TRUE) # dat1 を横書きの箱ひげ図に boxplot(dat1, horizontal=TRUE) # dat2
  • 4. 用語集 平均 mean 分散 variance 標準偏差 standard deviation 変動係数 coefficient of variation モーメント、積率 moment 歪度(ひずみ) skewness 尖度(とがり) kurtosis 五数要約 five-number summary 中央値 median 四分位値 fourth ※quantile は分位数 最小値 minimum 最大値 maximum 標準化 standardization