Soumettre la recherche
Mettre en ligne
統計学超入門
•
5 j'aime
•
2,876 vues
W
w24nishi
Suivre
for a study meeting in my workplace.
Lire moins
Lire la suite
Sciences
Signaler
Partager
Signaler
Partager
1 sur 63
Télécharger maintenant
Télécharger pour lire hors ligne
Recommandé
統計学
統計学
Hiroyuki Taira
確率と統計クイズ
確率と統計クイズ
migi migi
統計学基礎
統計学基礎
Yuka Ezura
Rによるやさしい統計学第20章「検定力分析によるサンプルサイズの決定」
Rによるやさしい統計学第20章「検定力分析によるサンプルサイズの決定」
Takashi J OZAKI
エクセルで統計分析 統計プログラムHADについて
エクセルで統計分析 統計プログラムHADについて
Hiroshi Shimizu
統計学の基礎の基礎
統計学の基礎の基礎
Ken'ichi Matsui
統計学勉強会 試験直前回
統計学勉強会 試験直前回
w24nishi
統計学超入門 アップロード用
統計学超入門 アップロード用
w24nishi
Recommandé
統計学
統計学
Hiroyuki Taira
確率と統計クイズ
確率と統計クイズ
migi migi
統計学基礎
統計学基礎
Yuka Ezura
Rによるやさしい統計学第20章「検定力分析によるサンプルサイズの決定」
Rによるやさしい統計学第20章「検定力分析によるサンプルサイズの決定」
Takashi J OZAKI
エクセルで統計分析 統計プログラムHADについて
エクセルで統計分析 統計プログラムHADについて
Hiroshi Shimizu
統計学の基礎の基礎
統計学の基礎の基礎
Ken'ichi Matsui
統計学勉強会 試験直前回
統計学勉強会 試験直前回
w24nishi
統計学超入門 アップロード用
統計学超入門 アップロード用
w24nishi
2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by Hubspot
Marius Sescu
Everything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPT
Expeed Software
Product Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage Engineerings
Pixeldarts
How Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental Health
ThinkNow
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
marketingartwork
Skeleton Culture Code
Skeleton Culture Code
Skeleton Technologies
PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024
Neil Kimberley
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)
contently
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024
Albert Qian
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie Insights
Kurio // The Social Media Age(ncy)
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024
Search Engine Journal
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary
SpeakerHub
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd
Clark Boyd
Getting into the tech field. what next
Getting into the tech field. what next
Tessa Mero
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Lily Ray
How to have difficult conversations
How to have difficult conversations
Rajiv Jayarajah, MAppComm, ACC
Introduction to Data Science
Introduction to Data Science
Christy Abraham Joy
Time Management & Productivity - Best Practices
Time Management & Productivity - Best Practices
Vit Horky
The six step guide to practical project management
The six step guide to practical project management
MindGenius
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
RachelPearson36
Contenu connexe
En vedette
2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by Hubspot
Marius Sescu
Everything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPT
Expeed Software
Product Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage Engineerings
Pixeldarts
How Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental Health
ThinkNow
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
marketingartwork
Skeleton Culture Code
Skeleton Culture Code
Skeleton Technologies
PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024
Neil Kimberley
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)
contently
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024
Albert Qian
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie Insights
Kurio // The Social Media Age(ncy)
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024
Search Engine Journal
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary
SpeakerHub
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd
Clark Boyd
Getting into the tech field. what next
Getting into the tech field. what next
Tessa Mero
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Lily Ray
How to have difficult conversations
How to have difficult conversations
Rajiv Jayarajah, MAppComm, ACC
Introduction to Data Science
Introduction to Data Science
Christy Abraham Joy
Time Management & Productivity - Best Practices
Time Management & Productivity - Best Practices
Vit Horky
The six step guide to practical project management
The six step guide to practical project management
MindGenius
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
RachelPearson36
En vedette
(20)
2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by Hubspot
Everything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPT
Product Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage Engineerings
How Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental Health
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
Skeleton Culture Code
Skeleton Culture Code
PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie Insights
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd
Getting into the tech field. what next
Getting into the tech field. what next
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search Intent
How to have difficult conversations
How to have difficult conversations
Introduction to Data Science
Introduction to Data Science
Time Management & Productivity - Best Practices
Time Management & Productivity - Best Practices
The six step guide to practical project management
The six step guide to practical project management
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
統計学超入門
1.
第1回 1次元のデータ 2014年12月19日 ● 各章のタイトルがここに入ります その章の中のどのあたりにいるかがここに入ります 西 航 統計学超入門
2.
● 西 航 (にし わたる) ● 興味: 数学(ふつうの人よりは慣れてる) プログラミング(最近勉強をサボり気味) ジョジョ(そんなにディープではない) ドラクエ(最近まったく触れていない) 各章のタイトルがここに入ります
その章の中のどのあたりにいるかがここに入ります 自己紹介
3.
● 最近統計学を勉強し始めて、これは人類の常識に なるべき知識だと思いました。 ● とりあえず、職場で勉強会をやることにしました。 ●
思いのほかちゃんと準備しないといけない雰囲気 になったので、スライドを作ることにしました。 イントロダクション ● 1次元のデータ ● 2次元のデータ パン屋さんのおはなし 統計学って何? このスライドの目的
4.
● イントロダクション - パン屋さんのおはなし -
統計学って何? ● 1次元のデータ - グラフ - 平均 - 分散 ● 2次元のデータ(もし時間が余れば) イントロダクション ● 1次元のデータ ● 2次元のデータ パン屋さんのおはなし 統計学って何? 本日の予定
5.
● まくら代わりのお話 ● 統計学者がパン屋さんの不正を暴く話 本題の前に イントロダクション ● 1次元のデータ ● 2次元のデータ パン屋さんのおはなし 統計学って何?
6.
● むかしむかし、あるところに、食料が大変貴重で、 配給制になっている国がありました。 ● ある町のパン屋では、国から小麦をもらい、パンを 焼き、町中の人に毎日ちょうど100gのパンを宅配 することになっていました。 第1話 悪いパン屋 イントロダクション ● 1次元のデータ ● 2次元のデータ パン屋さんのおはなし 統計学って何?
7.
● ところが最近、実際に配給されるパンは100gよりも 軽いようだという噂が町に流れていました。 ● ある日、ある住民がパンの重さをはかると、98gし かありませんでした。 ●
たった2gの差ですが、もし町中のパンが規定より 2g軽いとすれば、パン屋が国からもらった小麦のう ち、そう少なくない量がどこかへ消えていることにな ります。 疑惑のパン屋 イントロダクション ● 1次元のデータ ● 2次元のデータ パン屋さんのおはなし 統計学って何?
8.
● 住民は、パン屋が不当に私腹を肥やしていると思 い、抗議をしました。 老獪なパン屋 イントロダクション ● 1次元のデータ ● 2次元のデータ パン屋さんのおはなし 統計学って何?
9.
● パン屋はクレームに対して、「それはばらつきによ るもので、当然100gより軽くなってしまうこともあれ ば、それよりも重くなることもある。100gぴったりに パンを焼くことは不可能だ」と言いました。 ● 確かに、毎回100gぴったりにパンを焼くことは不可 能に思えます。住民はまだ内心では納得できませ んでしたが、意見を取り下げざるを得ませんでし た。 老獪なパン屋 イントロダクション ● 1次元のデータ ● 2次元のデータ パン屋さんのおはなし 統計学って何?
10.
● その日住民は眠れず、朝になるまで考えました。 ● パン屋の言うことは正しいように思えますが、何か が納得できません。 ●
翌日になって、住民はたまたま町に住んでいた統 計学者に相談することにしました。 第2話 確率論 Karl Pearson(1857 - 1936) イントロダクション ● 1次元のデータ ● 2次元のデータ パン屋さんのおはなし 統計学って何?
11.
● 統計学者は話を聞くと、この件について住民に代 わって調査することにしました。 ● 統計学者は、その日から100日間のパンの重さを 記録し、パンが100gより重い日と軽い日がそれぞ れ何回あったかを数えました。 ●
パンの重さが100gを超えたのは30回、超えなかっ たのは70回でした。 データを集める イントロダクション ● 1次元のデータ ● 2次元のデータ パン屋さんのおはなし 統計学って何?
12.
● 100gより重いパン、軽いパンがそれぞれ同じ数だ けあると仮定する。すると、 ● (今は分からなくても良いですが)中心極限定理より、100gより重いパンの個数をSとすると、S
30≦ で ある確率は、標準正規分布に従う確率変数が3以上の値をとる確率で近似できる。このことから、 届けられる100個のパンのうち、100gより重いパン が30個以下である確率は、0.2%以下である。 ● これは、偶然とは考えづらい低い確率である。 (いわゆる「3シグマ範囲」の境界) 確率を計算する イントロダクション ● 1次元のデータ ● 2次元のデータ パン屋さんのおはなし 統計学って何?
13.
● 統計学者がこのことをパン屋に指摘すると、パン屋 は不正を認め、パンの重さを適正なものにすること を約束しました。 ● その日以降も統計学者はパンの重さを記録 し、100gを超える回数と超えない回数がおおむね 等しくなることを確認しました。 罪を認めたパン屋 第1話 悪いパン屋 第2話 確率論 第3話 統計学 イントロダクション ● 1次元のデータ ● 2次元のデータ パン屋さんのおはなし 統計学って何?
14.
● ところがまたある日、統計学者は同様のクレームを 耳にするようになりました。 ● パンの重さをチェックし続けていた統計学者は不思 議に思いましたが、町の噂で次のようなことを聞き ました。 ● それは、パン屋の焼くパンは今までと全く変わらな い品質のもので、統計学者の家にだけ、一定の重 さを超えたパンを届けている、というものでした。 ●
統計学者は、この説を検証することにしました。 第3話 統計学 イントロダクション ● 1次元のデータ ● 2次元のデータ パン屋さんのおはなし 統計学って何?
15.
● パン屋に不正の指摘をする前のパンの重さの分布 ● 最初の100日間 イントロダクション ● 1次元のデータ ● 2次元のデータ パン屋さんのおはなし 統計学って何?
16.
● パン屋に不正の指摘をした後のパンの重さの分布 次の100日間 イントロダクション ● 1次元のデータ ● 2次元のデータ パン屋さんのおはなし 統計学って何?
17.
● パン屋が不正を改めていなかったことを確信した 統計学者は、これらのデータを証拠として国に提出 しました。 ● パン屋は逮捕され、その町では別のパン屋が営業 を始めることになりました。 ● その後の警察の調べで、パン屋は小麦粉を闇市に 流していたことが判明しました。 ●
めでたしめでたし パン屋の最期 イントロダクション ● 1次元のデータ ● 2次元のデータ パン屋さんのおはなし 統計学って何?
18.
● パン屋がもう少し賢ければ、統計学者の家には 100gを中心とした分布になるようにパンを届けて いたかもしれない。 ● というかそもそも、最初の指摘の時点で不正をや めたかもしれない。 ●
紹介した分布のグラフは、描き方がまずい。今回 は連続的な曲線としてグラフを描けるほどのサンプ ルを集めていない。 補足 イントロダクション ● 1次元のデータ ● 2次元のデータ パン屋さんのおはなし 統計学って何?
19.
● 統計学って何? 統計学って何? イントロダクション ● 1次元のデータ ● 2次元のデータ パン屋さんのおはなし 統計学って何?
20.
● "statistics"の意味はだんだん変化してきた。 ● 最初は”state”
つまり国に関するデータのことを指 していた。 ● のちに、あらゆる種類の情報を集めたものを指す ようになった。 ● さらに後には、そのようなデータに対する説明や解 析のことを指すようにもなった。 統計学(statistics)とは イントロダクション ● 1次元のデータ ● 2次元のデータ パン屋さんのおはなし 統計学って何?
21.
● 今日では、「情報を集めたもの」、「集められた情報 に対する解釈、解析などの活動」の両方を指すよう になっている。 ● 日本語では、「統計」と言えば前者に、「統計学」と 言えば後者に近いものを指す。 今日での使われ方 イントロダクション ● 1次元のデータ ● 2次元のデータ パン屋さんのおはなし 統計学って何?
22.
● 統計学の理論には、記述統計学と呼ばれるもの と、推測統計学と呼ばれるものがある。 ● 記述統計学は、得られたデータの統計量(要約統 計量)を計算したり、グラフを書いたりして、規則性 や法則を見出す。 ● 推測統計学は、確率論という数学の理論を使っ て、得られた一部のデータから全体の特徴や性質 を推測する。 二つの統計学 イントロダクション ● 1次元のデータ ● 2次元のデータ パン屋さんのおはなし 統計学って何?
23.
● 何をするのか考える ● データを集める ●
解析する ● 表現する 統計データの分析プロセス イントロダクション ● 1次元のデータ ● 2次元のデータ パン屋さんのおはなし 統計学って何?
24.
● 「むやみにデータを集めて、とりあえず統計学の公 式に当てはめる」では、あまり意味がない。 ● 何を確かめるために、何を調査するために、どんな データをどんな手法で解析する必要があるのか? ●
仮説を構築することで、分析の対象を明らかにして から初めて、データが必要となる。 何をするのか考える イントロダクション ● 1次元のデータ ● 2次元のデータ パン屋さんのおはなし 統計学って何?
25.
● 行政機関や研究機関等の第三者が行った調査結 果をデータとして利用する場合には、多くの場合原 データは手に入らず、何らかの統計処理を施した 結果が分析対象となる。 ● 必要なデータがもともと存在しない場合には、自然 科学の分野では「実験」、人文・社会科学の分野で は「調査」と呼ばれる作業が必要となる。 データを集める イントロダクション ● 1次元のデータ ● 2次元のデータ パン屋さんのおはなし 統計学って何?
26.
● 現代では、具体的な計算・解析を人間が直接行う ことは少ない。 ● 統計計算用ソフトウェアが数多く存在し、ほとんど 人の手を使わずに統計計算が実行できる。 ●
R言語、 GNU Octave など。 ● ただし、コンピュータにできるのはあくまで計算で あって、どのような計算をするか選んだり、計算の 結果を分析することはできない。 解析する イントロダクション ● 1次元のデータ ● 2次元のデータ パン屋さんのおはなし 統計学って何?
27.
● 計算された結果を解釈し、それを 適切に表現する方法を考える。 ● グラフの書き方で、見る物に全く 逆の印象を与えることもできる。 ●
表現方法は慎重に選ばれる必 要がある。 表現する イントロダクション ● 1次元のデータ ● 2次元のデータ パン屋さんのおはなし 統計学って何?
28.
統計のウソ イントロダクション ● 1次元のデータ ● 2次元のデータ パン屋さんのおはなし 統計学って何? ● 統計学を使うと、ウソをつきやすい? ● 「統計学に基づく」と言えば信憑性がある? ●
統計がウソつきであるという場合、統計手法、デー タの集め方、結果の表現のどれかが適切でないこ とが多い。 ● 統計データを分析するときは、正しいデータを、正 しい手法で解析して、正しく表現しましょう。 ● 逆に、分析された統計データを見るときは、どんな データを、どんな手法で解析した結果が、どう表現 されているのか気にするようにしましょう。
29.
● 統計的に分析された結果を正しく理解することは、 現代社会で生活するうえで必須。 ● 結果を理解するには、結果が出るに至った方法に ついての知識が必要。 ●
知識をつける第1ステップとして、単語を紹介するく らいのことができればいいな。 ● 結果を理解するだけでなく、分析できるようになれ ば仕事にも使えるかも? ● 学校の授業のような一般的なクラスでは、推定と 仮説検定の理解がゴール? この勉強会でやること イントロダクション ● 1次元のデータ ● 2次元のデータ パン屋さんのおはなし 統計学って何?
30.
● データの次元 ● グラフ(ヒストグラム) ●
平均(代表値) ● 分散(一次変換、偏差値) 1次元のデータ イントロダクション ● 1次元のデータ ● 2次元のデータ データの次元 グラフ 平均 分散
31.
● 次元って何? ● 1次元は線、2次元は面、3次元では縦と横と高さが あって、4次元は3次元+時間? ●
そういう話ではない。 ● たぶん言葉で抽象的に説明するよりは、例を挙げ たほうがわかりやすい。 データの次元 イントロダクション ● 1次元のデータ ● 2次元のデータ データの次元 グラフ 平均 分散
32.
● 15人の学生の身長 1次元のデータの例 イントロダクション ● 1次元のデータ ● 2次元のデータ データの次元 グラフ 平均 分散 学生 1
2 3 4 5 6 7 8 9 10 11 12 13 14 15 身長 (cm) 178 165 168 152 175 175 165 162 164 170 169 155 153 162 168 ● それぞれの人から1種類のデータ(身長)を得てい るので、このデータは1次元。
33.
● 15人の学生の身長と体重 2次元のデータの例 イントロダクション ● 1次元のデータ ● 2次元のデータ データの次元 グラフ 平均 分散 学生 1
2 3 4 5 6 7 8 9 10 11 12 13 14 15 身長 (cm) 178 165 168 152 175 175 165 162 164 170 169 155 153 162 168 体重 (kg) 63 62 69 41 71 61 62 48 52 55 69 48 44 49 69 ● それぞれの人から2種類のデータ(身長と体重)を 得ているので、このデータは2次元。
34.
● 15人の学生の身長と体重と性別 3次元のデータの例 イントロダクション ● 1次元のデータ ● 2次元のデータ データの次元 グラフ 平均 分散 学生 1
2 3 4 5 6 7 8 9 10 11 12 13 14 15 身長 (cm) 178 165 168 152 175 175 165 162 164 170 169 155 153 162 168 体重 (kg) 63 62 69 41 71 61 62 48 52 55 69 48 44 49 69 性別 男 男 男 女 男 男 男 女 女 男 男 女 女 女 男 ● それぞれの人から3種類のデータ(身長と体重と性 別)を得ているので、このデータは3次元。
35.
● 次元というのは、ただこれだけ。 ● もう少し抽象的に言えば、「各個体から得られるパ ラメータの数」が次元。 ●
100個の項目のアンケートによる調査があったら、 得られるのは100次元のデータ。 次元なんて怖くない イントロダクション ● 1次元のデータ ● 2次元のデータ データの次元 グラフ 平均 分散
36.
● どんな次元でも基本になるのは、1次元のデータの 解析。 ● 1次元のデータに対して、2次元以上のデータのこ とを多次元のデータと呼ぶ。 ●
多次元のデータの解析では、個々のパラメータだ けでなく、パラメータ間の相互関係の分析も重要に なる。 ● たとえば、身長と体重には何らかの関係があると 思われる。 多次元とは イントロダクション ● 1次元のデータ ● 2次元のデータ データの次元 グラフ 平均 分散
37.
● 調査や実験によって観測値が得られたとき、分析 の第一歩として、表や図にすることから始める場合 が多い。 ● いきなり計算を始めるよりも、全体の分布の状況が 明らかになりやすいため。 ●
なかでも、1次元のデータでは、ヒストグラム (histogram) または柱状グラフと呼ばれるグラフを 描くことが多い。 グラフの書き方 イントロダクション ● 1次元のデータ ● 2次元のデータ データの次元 グラフ 平均 分散
38.
● 横軸には観測地の取りうる値をとる ● 横軸を分割したそれぞれのエリアで、長方形の面 積と度数が一致するように高さを決める。 例:試験得点 イントロダクション ● 1次元のデータ ● 2次元のデータ データの次元 グラフ 平均 分散
39.
● このように各エリアで幅が著しく異なる場合、柱同 士を離して描く。 例:従業員規模別事業所数 イントロダクション ● 1次元のデータ ● 2次元のデータ データの次元 グラフ 平均 分散 出典:平成18年事業所・企業統計調査(総務省統計局)
40.
● データには連続型のものと離散型のものがある。 ● 血液型や性別、1世帯の人数のような離散型の データの場合、ヒストグラムでは柱を離して描く。 ●
身長や体重のような連続型のデータの場合、ヒスト グラムでは柱を分離せずに描く。 ● ただし、離散型のデータでも所得や試験の得点の ように、取りうる値が十分多く、近似的に連続型と みなせる場合もある。 ● 逆に、連続型のデータでも、それぞれの柱で幅が 著しく異なる場合、離散型とみなすことが多い。 柱を離す場合と離さない場合 イントロダクション ● 1次元のデータ ● 2次元のデータ データの次元 グラフ 平均 分散
41.
● 統計量とは、一連のデータに何らかの処理(統計 学的なアルゴリズム)を施して得られる数値のこと である。 ● たとえば、平均、中央値、分散、標準偏差といった ものが統計量である。 統計量 イントロダクション ● 1次元のデータ ● 2次元のデータ データの次元 グラフ 代表値 分散
42.
代表値 ● 代表値 (averages)とは、統計量の中でも分布を代 表する値のことである。 ●
代表的な代表値には、平均、中央値、最頻値など がある。 イントロダクション ● 1次元のデータ ● 2次元のデータ データの次元 グラフ 代表値 分散
43.
● 5科目の試験の得点がそれぞれ100点満点中50 点、60点、70点、80点、90点でした。平均得点は 何点でしょう? ● 5年間の経済成長率が、年間でそれぞれ0%, 10%,
20%, 30%, 40%でした。平均成長率は何% でしょう? ● 500メートル走を実施して、各100メートル間でのス ピードはそれぞれ5m/s, 6m/s, 7m/s, 8m/s, 9m/s でした。平均速度は何m/sでしょう? 「平均」計算できますか? イントロダクション ● 1次元のデータ ● 2次元のデータ データの次元 グラフ 代表値 分散
44.
● 5科目の試験の得点がそれぞれ100点満点中50 点、60点、70点、80点、90点でした。平均得点は 何点でしょう? ● 答え:70点 得点の平均 イントロダクション ● 1次元のデータ ● 2次元のデータ データの次元 グラフ 代表値 分散
45.
● 5年間の経済成長率が、年間でそれぞれ0%, 10%, 20%,
30%, 40%でした。平均成長率は何% でしょう? ● 答え:約19% 成長率の平均 イントロダクション ● 1次元のデータ ● 2次元のデータ データの次元 グラフ 代表値 分散
46.
● 500メートル走を実施して、各100メートル間でのス ピードはそれぞれ5m/s, 6m/s,
7m/s, 8m/s, 9m/s でした。平均速度は何m/sでしょう? ● 答え:約6.7m/s 速度の平均 イントロダクション ● 1次元のデータ ● 2次元のデータ データの次元 グラフ 代表値 分散 速度の平均は、逆数の平均の逆数。
47.
● 平均と一口に言っても、いろんな平均がある。 ● 相加平均(算術平均) - 全部足して個数で割る ● 相乗平均(幾何平均) - 全部かけてn乗根をとる ●
調和平均 - 逆数の相加平均の逆数 ● 状況に応じて、適切な平均をとりましょう。 ● 単に「平均」と言ったら、ふつうは相加平均。 平均といえばふつうは相加平均ですが イントロダクション ● 1次元のデータ ● 2次元のデータ データの次元 グラフ 代表値 分散
48.
● もちろん、平均以外にも代表値は存在する。 ● 中央値は、データを小さいほうから順に並べたとき に中央にくる値のことである。 データ[1,
1, 1, 1, 2, 3, 4, 4, 100]のように、一部の 個体が他と比べて著しく大きい、または小さい場合 に、代表値として平均よりは優れていると思われ る。 ● 人口1万人の町にビルゲイツが引っ越してきたとし て、町民の収入の代表値に「平均」が使えるか? ● 使えない。 中央値(メディアン) イントロダクション ● 1次元のデータ ● 2次元のデータ データの次元 グラフ 代表値 分散
49.
● データの中でもっとも多い値のことを、最頻値(モー ド)と呼ぶ。 ● データの取りうる値をいくつかのエリアに分けたと きは、そのエリアを代表する値(階級値)を使う。 最頻値(モード) イントロダクション ● 1次元のデータ ● 2次元のデータ データの次元 グラフ 代表値 分散 この場合は55がモード
50.
● 平均(mean) ● 中央値(median) ●
最頻値(mode) ● それぞれに特性があって、それぞれに使いどころ がある。 代表的な代表値 イントロダクション ● 1次元のデータ ● 2次元のデータ データの次元 グラフ 代表値 分散 http://www.digitaltonto.com/2012 /its-the-math-stupid/ より引用 (ググったら見つけた)
51.
● 以下の3つのデータでは、平均、中央値、最頻値が すべて等しい。(どれも5) ● A:
[0,3,3,5,5,5,5,7,7,10] ● B: [0,1,2,3,5,5,7,8,9,10] ● C: [3,4,4,5,5,5,5,6,6,7] ● では、これらのデータの違いは何か? 散らばり具合の尺度 イントロダクション ● 1次元のデータ ● 2次元のデータ データの次元 グラフ 代表値 分散
52.
● 分布の「ちらばり具合」が違う。 ● CはA,Bに比べて、中央に固まって分布している。 ● AとBも、比べるとAのほうがとがって分布している。 散らばり具合の尺度 イントロダクション ● 1次元のデータ ● 2次元のデータ データの次元 グラフ 代表値 分散 A:
[0,3,3,5,5,5,5,7,7,10] B: [0,1,2,3,5,5,7,8,9,10] C: [3,4,4,5,5,5,5,6,6,7]
53.
● 分布の最大値と最小値の差をレンジという。 ● 分布を4等分して得られる3つの分位のうち、1つめ の値と3つめの値の差の半分を四分位偏差という。 ●
レンジ:10 - 0 = 10 ● 四分位偏差:(7 – 3)/2 = 2 レンジ、四分位偏差 イントロダクション ● 1次元のデータ ● 2次元のデータ データの次元 グラフ 代表値 分散 A: [0,3,3,5,5,5,5,7,7,10]
54.
● 平均偏差(mean deviation)とは、各観測値が平均 からどれだけ離れているかの平均のこと。 ●
データ の平均を とすると、 平均偏差は となる。 ● 分子では、単純に差 を足し合わせると符号 が打ち消しあって0になってしまうので、絶対値をと ることで正数にしてから足している。 平均偏差 イントロダクション ● 1次元のデータ ● 2次元のデータ データの次元 グラフ 代表値 分散
55.
● 平均偏差では、絶対値をとることで符号を消してい た。 ● 分散は、2乗をとることで符号を消す。つまり、 を分散と呼ぶ。 ●
絶対値が使われる平均偏差に比べて、数学的に 圧倒的に扱いやすい。 分散 イントロダクション ● 1次元のデータ ● 2次元のデータ データの次元 グラフ 代表値 分散
56.
● (わからない場合は混乱のもとになるので気にしなくて良いですが)分散S^2の単 位の次元は元の観測値と一致しないので、次元をそろえたい状況ではその平方 根を使う。 を標準偏差と呼ぶ。 標準偏差 イントロダクション ● 1次元のデータ ● 2次元のデータ データの次元 グラフ 代表値 分散
57.
● 相加平均、平均偏差、分散をそれぞれ計算してみ ましょう。 練習問題 イントロダクション ● 1次元のデータ ● 2次元のデータ データの次元 グラフ 代表値 分散 A: [0,3,3,5,5,5,5,7,7,10] B:
[0,1,2,3,5,5,7,8,9,10] C: [3,4,4,5,5,5,5,6,6,7]
58.
● データ のそれぞれの値に対して、 適当な数値a,
bを使って と一次変換を施すと、平均、分散、標準偏差はそ れぞれ以下のように変換される。 データの一次変換 イントロダクション ● 1次元のデータ ● 2次元のデータ データの次元 グラフ 代表値 分散
59.
● 与えられたデータに対して、適当な一次変換を施 すことで、平均を0に、標準偏差を1にすることがで きる。 ● 具体的には、データの平均を
, 標準偏差を と すると、 と変換すればよい。 標準化 イントロダクション ● 1次元のデータ ● 2次元のデータ データの次元 グラフ 代表値 分散
60.
● 標準化されたデータに対して、さらに一次変換 ● を施したものが偏差値得点である。 ●
つまり、試験の得点を、平均が50点、標準偏差が 10点となるように変換したものである。 偏差値 イントロダクション ● 1次元のデータ ● 2次元のデータ データの次元 グラフ 代表値 分散
61.
● 10人の学生がいる統計学のクラスで、試験の得点 が次のようだった場合、得点が最小の学生と最大 の学生の偏差値得点をそれぞれ計算してみましょ う。 A: [10,
20, 30, 40, 50, 60, 70, 80, 90, 100] B: [0, 0, 10, 20, 50, 50, 80, 90, 100, 100] C: [0, 0, 0, 0, 0, 0, 0, 0, 0, 100] 練習問題 イントロダクション ● 1次元のデータ ● 2次元のデータ データの次元 グラフ 代表値 分散
62.
● スライドで発表したことがなくて、勝手がわからな かった。 ● 準備する時間もそんなになかった。(年内に第1回 をやりたかった) ●
統計学を勉強し始めて日が浅い。 ● 数式エディタの存在を知らなかった。(TeXで画像を 作って貼った) ● gnuplot(グラフ作成ソフト)を使ったことがなかっ た。 言い訳 イントロダクション ● 1次元のデータ ● 2次元のデータ データの次元 グラフ 代表値 分散
63.
● 再放送は需要があれば1月の予定。 ● 第2回では2次元のデータについて話す予定です。 ●
時間があれば確率についても少し話します。 ● その後、確率変数、確率分布の話をすれば、おそ らく推定と仮説検定の話ができるようになります。 ● 大学の授業で半年くらいかけてやる内容のような 気がしてきて、少し後悔しています。 ● 誰か勉強して喋りませんか? おわり イントロダクション ● 1次元のデータ ● 2次元のデータ データの次元 グラフ 代表値 分散
Télécharger maintenant