Soumettre la recherche
Mettre en ligne
データサイエンス概論第一=1-3 平均と分散
•
Télécharger en tant que PPTX, PDF
•
3 j'aime
•
3,866 vues
S
Seiichi Uchida
Suivre
九州大学大学院システム情報科学研究院「データサイエンス実践特別講座」が贈る,数理・情報系『でない』学生さんのための「データサイエンス講義
Lire moins
Lire la suite
Données & analyses
Signaler
Partager
Signaler
Partager
1 sur 20
Télécharger maintenant
Recommandé
データサイエンス概論第一=2-2 クラスタリング
データサイエンス概論第一=2-2 クラスタリング
Seiichi Uchida
データサイエンス概論第一=1-2 データのベクトル表現と集合
データサイエンス概論第一=1-2 データのベクトル表現と集合
Seiichi Uchida
データサイエンス概論第一=1-1 データとは
データサイエンス概論第一=1-1 データとは
Seiichi Uchida
データサイエンス概論第一=4-1 相関・頻度・ヒストグラム
データサイエンス概論第一=4-1 相関・頻度・ヒストグラム
Seiichi Uchida
データサイエンス概論第一=3-1 線形代数に基づくデータ解析の基礎
データサイエンス概論第一=3-1 線形代数に基づくデータ解析の基礎
Seiichi Uchida
データサイエンス概論第一=2-1 データ間の距離と類似度
データサイエンス概論第一=2-1 データ間の距離と類似度
Seiichi Uchida
データサイエンス概論第一=3-2 主成分分析と因子分析
データサイエンス概論第一=3-2 主成分分析と因子分析
Seiichi Uchida
データサイエンス概論第一=0 まえがき
データサイエンス概論第一=0 まえがき
Seiichi Uchida
Recommandé
データサイエンス概論第一=2-2 クラスタリング
データサイエンス概論第一=2-2 クラスタリング
Seiichi Uchida
データサイエンス概論第一=1-2 データのベクトル表現と集合
データサイエンス概論第一=1-2 データのベクトル表現と集合
Seiichi Uchida
データサイエンス概論第一=1-1 データとは
データサイエンス概論第一=1-1 データとは
Seiichi Uchida
データサイエンス概論第一=4-1 相関・頻度・ヒストグラム
データサイエンス概論第一=4-1 相関・頻度・ヒストグラム
Seiichi Uchida
データサイエンス概論第一=3-1 線形代数に基づくデータ解析の基礎
データサイエンス概論第一=3-1 線形代数に基づくデータ解析の基礎
Seiichi Uchida
データサイエンス概論第一=2-1 データ間の距離と類似度
データサイエンス概論第一=2-1 データ間の距離と類似度
Seiichi Uchida
データサイエンス概論第一=3-2 主成分分析と因子分析
データサイエンス概論第一=3-2 主成分分析と因子分析
Seiichi Uchida
データサイエンス概論第一=0 まえがき
データサイエンス概論第一=0 まえがき
Seiichi Uchida
データサイエンス概論第一=8 パターン認識と深層学習
データサイエンス概論第一=8 パターン認識と深層学習
Seiichi Uchida
1 データとデータ分析
1 データとデータ分析
Seiichi Uchida
データサイエンス概論第一=3-3 回帰分析
データサイエンス概論第一=3-3 回帰分析
Seiichi Uchida
0 データサイエンス概論まえがき
0 データサイエンス概論まえがき
Seiichi Uchida
主成分分析
主成分分析
大貴 末廣
データサイエンス概論第一=4-2 確率と確率分布
データサイエンス概論第一=4-2 確率と確率分布
Seiichi Uchida
相関分析と回帰分析
相関分析と回帰分析
大貴 末廣
データサイエンス概論第一 5 時系列データの解析
データサイエンス概論第一 5 時系列データの解析
Seiichi Uchida
13 分類とパターン認識
13 分類とパターン認識
Seiichi Uchida
5 クラスタリングと異常検出
5 クラスタリングと異常検出
Seiichi Uchida
相関係数は傾きに影響される
相関係数は傾きに影響される
Mitsuo Shimohata
データサイエンスことはじめ
データサイエンスことはじめ
大貴 末廣
9 可視化
9 可視化
Seiichi Uchida
画像処理応用
画像処理応用
大貴 末廣
データサイエンス概論第一=7 画像処理
データサイエンス概論第一=7 画像処理
Seiichi Uchida
統計分析
統計分析
大貴 末廣
データサイエンス概論第一 6 異常検出
データサイエンス概論第一 6 異常検出
Seiichi Uchida
2 データのベクトル表現と集合
2 データのベクトル表現と集合
Seiichi Uchida
Nagoya.R #12 非線形の相関関係を検出する指標の算出
Nagoya.R #12 非線形の相関関係を検出する指標の算出
Yusaku Kawaguchi
傾向スコア:その概念とRによる実装
傾向スコア:その概念とRによる実装
takehikoihayashi
[Tokyor08] Rによるデータサイエンス第2部 第3章 対応分析
[Tokyor08] Rによるデータサイエンス第2部 第3章 対応分析
Yohei Sato
第8回スキル養成講座講義資料.pdf
第8回スキル養成講座講義資料.pdf
keiodig
Contenu connexe
Tendances
データサイエンス概論第一=8 パターン認識と深層学習
データサイエンス概論第一=8 パターン認識と深層学習
Seiichi Uchida
1 データとデータ分析
1 データとデータ分析
Seiichi Uchida
データサイエンス概論第一=3-3 回帰分析
データサイエンス概論第一=3-3 回帰分析
Seiichi Uchida
0 データサイエンス概論まえがき
0 データサイエンス概論まえがき
Seiichi Uchida
主成分分析
主成分分析
大貴 末廣
データサイエンス概論第一=4-2 確率と確率分布
データサイエンス概論第一=4-2 確率と確率分布
Seiichi Uchida
相関分析と回帰分析
相関分析と回帰分析
大貴 末廣
データサイエンス概論第一 5 時系列データの解析
データサイエンス概論第一 5 時系列データの解析
Seiichi Uchida
13 分類とパターン認識
13 分類とパターン認識
Seiichi Uchida
5 クラスタリングと異常検出
5 クラスタリングと異常検出
Seiichi Uchida
相関係数は傾きに影響される
相関係数は傾きに影響される
Mitsuo Shimohata
データサイエンスことはじめ
データサイエンスことはじめ
大貴 末廣
9 可視化
9 可視化
Seiichi Uchida
画像処理応用
画像処理応用
大貴 末廣
データサイエンス概論第一=7 画像処理
データサイエンス概論第一=7 画像処理
Seiichi Uchida
統計分析
統計分析
大貴 末廣
データサイエンス概論第一 6 異常検出
データサイエンス概論第一 6 異常検出
Seiichi Uchida
2 データのベクトル表現と集合
2 データのベクトル表現と集合
Seiichi Uchida
Nagoya.R #12 非線形の相関関係を検出する指標の算出
Nagoya.R #12 非線形の相関関係を検出する指標の算出
Yusaku Kawaguchi
傾向スコア:その概念とRによる実装
傾向スコア:その概念とRによる実装
takehikoihayashi
Tendances
(20)
データサイエンス概論第一=8 パターン認識と深層学習
データサイエンス概論第一=8 パターン認識と深層学習
1 データとデータ分析
1 データとデータ分析
データサイエンス概論第一=3-3 回帰分析
データサイエンス概論第一=3-3 回帰分析
0 データサイエンス概論まえがき
0 データサイエンス概論まえがき
主成分分析
主成分分析
データサイエンス概論第一=4-2 確率と確率分布
データサイエンス概論第一=4-2 確率と確率分布
相関分析と回帰分析
相関分析と回帰分析
データサイエンス概論第一 5 時系列データの解析
データサイエンス概論第一 5 時系列データの解析
13 分類とパターン認識
13 分類とパターン認識
5 クラスタリングと異常検出
5 クラスタリングと異常検出
相関係数は傾きに影響される
相関係数は傾きに影響される
データサイエンスことはじめ
データサイエンスことはじめ
9 可視化
9 可視化
画像処理応用
画像処理応用
データサイエンス概論第一=7 画像処理
データサイエンス概論第一=7 画像処理
統計分析
統計分析
データサイエンス概論第一 6 異常検出
データサイエンス概論第一 6 異常検出
2 データのベクトル表現と集合
2 データのベクトル表現と集合
Nagoya.R #12 非線形の相関関係を検出する指標の算出
Nagoya.R #12 非線形の相関関係を検出する指標の算出
傾向スコア:その概念とRによる実装
傾向スコア:その概念とRによる実装
Similaire à データサイエンス概論第一=1-3 平均と分散
[Tokyor08] Rによるデータサイエンス第2部 第3章 対応分析
[Tokyor08] Rによるデータサイエンス第2部 第3章 対応分析
Yohei Sato
第8回スキル養成講座講義資料.pdf
第8回スキル養成講座講義資料.pdf
keiodig
【Zansa】第12回勉強会 -PRMLからベイズの世界へ
【Zansa】第12回勉強会 -PRMLからベイズの世界へ
Zansa
理科教育学研究のための統計分析入門
理科教育学研究のための統計分析入門
Hiroshi Unzai
データを整理するための基礎知識
データを整理するための基礎知識
Gen Fujita
Jokyokai
Jokyokai
Taiji Suzuki
forestFloorパッケージを使ったrandomForestの感度分析
forestFloorパッケージを使ったrandomForestの感度分析
Satoshi Kato
K020 appstat201202
K020 appstat201202
t2tarumi
Stat r 9_principal
Stat r 9_principal
fusion2011
DS Exercise Course 4
DS Exercise Course 4
大貴 末廣
20181114 r
20181114 r
Yutaka Terasawa
幾何を使った統計のはなし
幾何を使った統計のはなし
Toru Imai
単純ベイズ法による異常検知 #ml-professional
単純ベイズ法による異常検知 #ml-professional
Ai Makabi
Rゼミ 2
Rゼミ 2
tarokun3
九大_DS実践_距離とクラスタリング
九大_DS実践_距離とクラスタリング
RyomaBise1
相互情報量.pptx
相互情報量.pptx
Tanaka Hayato
データ解析4 確率の復習
データ解析4 確率の復習
Hirotaka Hachiya
MIRU2011 OS1-2 拡張ペアワイズ表現を用いた一般化多変量解析
MIRU2011 OS1-2 拡張ペアワイズ表現を用いた一般化多変量解析
Akisato Kimura
ベイズ統計学の概論的紹介
ベイズ統計学の概論的紹介
Naoki Hayashi
データ解析7 主成分分析の基礎
データ解析7 主成分分析の基礎
Hirotaka Hachiya
Similaire à データサイエンス概論第一=1-3 平均と分散
(20)
[Tokyor08] Rによるデータサイエンス第2部 第3章 対応分析
[Tokyor08] Rによるデータサイエンス第2部 第3章 対応分析
第8回スキル養成講座講義資料.pdf
第8回スキル養成講座講義資料.pdf
【Zansa】第12回勉強会 -PRMLからベイズの世界へ
【Zansa】第12回勉強会 -PRMLからベイズの世界へ
理科教育学研究のための統計分析入門
理科教育学研究のための統計分析入門
データを整理するための基礎知識
データを整理するための基礎知識
Jokyokai
Jokyokai
forestFloorパッケージを使ったrandomForestの感度分析
forestFloorパッケージを使ったrandomForestの感度分析
K020 appstat201202
K020 appstat201202
Stat r 9_principal
Stat r 9_principal
DS Exercise Course 4
DS Exercise Course 4
20181114 r
20181114 r
幾何を使った統計のはなし
幾何を使った統計のはなし
単純ベイズ法による異常検知 #ml-professional
単純ベイズ法による異常検知 #ml-professional
Rゼミ 2
Rゼミ 2
九大_DS実践_距離とクラスタリング
九大_DS実践_距離とクラスタリング
相互情報量.pptx
相互情報量.pptx
データ解析4 確率の復習
データ解析4 確率の復習
MIRU2011 OS1-2 拡張ペアワイズ表現を用いた一般化多変量解析
MIRU2011 OS1-2 拡張ペアワイズ表現を用いた一般化多変量解析
ベイズ統計学の概論的紹介
ベイズ統計学の概論的紹介
データ解析7 主成分分析の基礎
データ解析7 主成分分析の基礎
Plus de Seiichi Uchida
12 非構造化データ解析
12 非構造化データ解析
Seiichi Uchida
15 人工知能入門
15 人工知能入門
Seiichi Uchida
14 データ収集とバイアス
14 データ収集とバイアス
Seiichi Uchida
10 確率と確率分布
10 確率と確率分布
Seiichi Uchida
8 予測と回帰分析
8 予測と回帰分析
Seiichi Uchida
7 主成分分析
7 主成分分析
Seiichi Uchida
6 線形代数に基づくデータ解析の基礎
6 線形代数に基づくデータ解析の基礎
Seiichi Uchida
4 データ間の距離と類似度
4 データ間の距離と類似度
Seiichi Uchida
3 平均・分散・相関
3 平均・分散・相関
Seiichi Uchida
「あなたがいま読んでいるものは文字です」~画像情報学から見た文字研究のこれから
「あなたがいま読んでいるものは文字です」~画像情報学から見た文字研究のこれから
Seiichi Uchida
Machine learning for document analysis and understanding
Machine learning for document analysis and understanding
Seiichi Uchida
An opening talk at ICDAR2017 Future Workshop - Beyond 100%
An opening talk at ICDAR2017 Future Workshop - Beyond 100%
Seiichi Uchida
Plus de Seiichi Uchida
(12)
12 非構造化データ解析
12 非構造化データ解析
15 人工知能入門
15 人工知能入門
14 データ収集とバイアス
14 データ収集とバイアス
10 確率と確率分布
10 確率と確率分布
8 予測と回帰分析
8 予測と回帰分析
7 主成分分析
7 主成分分析
6 線形代数に基づくデータ解析の基礎
6 線形代数に基づくデータ解析の基礎
4 データ間の距離と類似度
4 データ間の距離と類似度
3 平均・分散・相関
3 平均・分散・相関
「あなたがいま読んでいるものは文字です」~画像情報学から見た文字研究のこれから
「あなたがいま読んでいるものは文字です」~画像情報学から見た文字研究のこれから
Machine learning for document analysis and understanding
Machine learning for document analysis and understanding
An opening talk at ICDAR2017 Future Workshop - Beyond 100%
An opening talk at ICDAR2017 Future Workshop - Beyond 100%
データサイエンス概論第一=1-3 平均と分散
1.
1 九州大学大学院システム情報科学研究院 データサイエンス実践特別講座 データサイエンス概論第一 第1回 データとベクトル表現: 1-3 平均と分散 システム情報科学研究院情報知能工学部門 内田誠一
2.
2 データサイエンス概論第一の内容 データとは データのベクトル表現と集合
平均と分散 データ間の距離 データ間の類似度 データのクラスタリング (グルーピング) 線形代数に基づくデータ解析の基礎 主成分分析と因子分析 回帰分析 相関・頻度・ヒストグラム 確率と確率分布 信頼区間と統計的検定 時系列データの解析 異常検出
3.
3 データの平均 分布(=データ集合)の性質を記述する第一歩. 実は「平均」と言っても,いくつか種類があります
4.
44 分布の形を探る:データ集合の平均 N 個のデータがあれば,基本は「全データを合計して」「N
で割る」 正式には「算術平均」とか「相加平均」という名前がついている 例1:N = 5人の体重{62, 50, 49, 53, 73}の場合 平均=(62+50+49+53+73)/5 例2: N = 5人の「(体重,身長)の組」データの場合 平均= 62 173 + 50 162 + 49 158 + 53 156 + 73 176 /5 = 62 + 50 + 49 + 53 + 73 /5 173 + 162 + 158 + 156 + 176 /5
5.
5 算術平均(要は「普通の平均」)を式で書くと... 𝒙 = 𝒙1 +
𝒙2 + 𝒙3 + ⋯ + 𝒙 𝑁 𝑁 𝒙 = 1 𝑁 𝑖=1 𝑁 𝒙𝑖 それぞれ合計して個数𝑁で割るだけ 総和記号∑を使って書くと...
6.
66 算術平均=分布の重心 (1/2) 平均=重心, 全データの代表値としても使えそう 第1次元での平均 第2次元での平均
7.
77 算術平均=分布の重心 (2/2) ただし,重心が「代表例」になるかどうかは要注意
分散(後述)などを調べる必要あり 要するに,「平均」だけでは見えないこともある !?!? !?
8.
88 参考:算術平均以外の「平均」: 加重平均 (1/2) 重みを付けて算術平均 𝒙
= 𝑤1 𝒙1 + 𝑤2 𝒙2 + 𝑤3 𝒙3 + ⋯ + 𝑤 𝑁 𝒙 𝑁 𝑤1 + 𝑤2 + 𝑤3 + ⋯ + 𝑤 𝑁 = ∑ 𝑤 𝑖 𝑥 𝑖 ∑ 𝑤 𝑖 確からしさ𝑤𝑖 1 0.9 0.95 0.1 重みの例 時々,軽めに 申告しちゃいます
9.
99 参考:算術平均以外の「平均」: 加重平均 (2/2) 算術平均は加重平均の特殊な場合 確からしさ𝑤𝑖
1 1 1 1 重みの例 𝒙 = 𝑤1 𝒙1 + 𝑤2 𝒙2 + 𝑤3 𝒙3 + ⋯ + 𝑤 𝑁 𝒙 𝑁 𝑤1 + 𝑤2 + 𝑤3 + ⋯ + 𝑤 𝑁 = 1 𝑁 ∑ 𝑥 𝑖 1 1が𝑁個
10.
1010 参考:算術平均以外の「平均」: 幾何平均(相乗平均) 「全部かけあわせて」「𝑁乗根」 数値(=1次元ベクトル=スカラー)にしか使えない
それも正の数値しか扱えない 𝑁 = 3のときの幾何学的解釈 𝑥 = 𝑁 𝑥1 𝑥2 𝑥3 ⋯ 𝑥 𝑁 𝑥1 𝑥2 𝑥3 𝑥 𝑥 𝑥 体積が等しい 𝑥 = 𝑒 1 𝑁 ∑ log 𝑒 𝑥 𝑖
11.
1111 参考:算術平均 vs. 幾何平均 at
「はずれ値」の影響 1,1,1,1,1,1,1,1,1,10000 算術平均なら 10009/10 = 1000.9 幾何平均なら 10 10000 =2.5 9個 はずれ値 なので,幾何平均は 正の数(≠ベクトル)にしか使えないし, 重心的解釈もできないが, 外れ値には強い どんな方法も万能ではない! メリット・デメリットを見極めて, 適切な方法を選択すること!
12.
12 データの分散 分布(=データ集合)の性質を記述する第二歩. 今回は入り口だけ.もうちょっと進んだ内容は,そのうちに...
13.
1313 分散=データの広がり具合 簡単に言えば,分散=広がり具合 上図では,「第1次元の分散>第2次元の分散」 非常に広がっている 第2次元 狭い 第1次元
14.
1414 (ベクトルの分散は後回しにして) 数の集合の分散を求めよう 数の集合𝑥1, 𝑥2,
… , 𝑥 𝑁の分散 =「 (算術)平均値との差の二乗」の平均 分散が大きい→平均値と大きく違う数が多い→広がっている 𝜎2 = 𝑥1 − 𝑥 2 + ⋯ + 𝑥 𝑁 − 𝑥 2 𝑁 = 1 𝑁 𝑖=1 𝑁 𝑥𝑖 − 𝑥 2 算術平均 ベクトルではない
15.
1515 式だけ見せられてもわからない! → 分散の意味を確認する 𝜎2 = 𝑥1 −
𝑥 2 + ⋯ + 𝑥 𝑁 − 𝑥 2 𝑁 平均 𝑥𝑥1 𝑥 𝑁 この間の距離を 二乗したもの 𝑥1 − 𝑥 2 分散=全データが平均的に「平均 𝑥とどれぐらい離れているか?」 ※ただし離れ具合は「二乗距離」で評価. なお,距離については第二回で.
16.
1616 練習 1, 1,
1, 1, 1 の分散は? 1, 5, 4, 2, 8 の分散は?
17.
1717 標準偏差 𝜎2は「標準偏差」と呼ばれ,𝜎と書く 前頁の分散の式から,標準偏差
やっぱり広がり具合を表す • 𝑥𝑖と 𝑥の違い(距離)の平均値 ちなみに,「𝜎2」という表記を分散を表す「1つの記号」と見たほうが 気が楽な場合も多し 𝜎 = 1 𝑁 𝑖=1 𝑁 𝑥𝑖 − 𝑥 2
18.
1818 分散,ちょっとした話(1/2) 全部の数が一様に∆だけプラスされても,分散は同じ 値が 𝑥𝑖から𝑥𝑖 +
∆になったとすると, 平均は 𝑥から 𝑥 + ∆ になるので, ずれても,広がり(分散)は同じ! 1 𝑁 𝑖=1 𝑁 𝑥𝑖 + ∆ − 𝑥 + ∆ 2 = 1 𝑁 𝑖=1 𝑁 𝑥𝑖 − 𝑥 2 =𝜎2 +∆
19.
1919 分散,ちょっとした話(2/2) では全部の数が一様に𝛼倍なったらどうなる? 値が 𝑥𝑖から𝛼𝑥𝑖になったとすると,算術平均は 𝑥から𝛼
𝑥になるので, 1 𝑁 𝑖=1 𝑁 𝛼𝑥𝑖 − 𝛼 𝑥 2 = 𝛼2 𝑁 𝑖=1 𝑁 𝑥𝑖 − 𝑥 2 =𝛼2 𝜎2 𝛼2 倍に!
20.
2020 練習 1, 1,
1, 1, 1 の分散は? 1, 5, 4, 2, 8 の分散は? 1001, 1005, 1004, 1002, 1008の分散は? 10, 50, 40, 20, 80 の分散は? +1000 ×10
Télécharger maintenant