More Related Content
Similar to [DSO]勉強会_データサイエンス講義_Chapter1,2 (20)
[DSO]勉強会_データサイエンス講義_Chapter1,2
- 2. Leverages Marketing Department
教科書
2
Rachel Schutt, Cathy O‘Neil (2014) 「データサイエンス講義」
(瀬戸山 雅人・石井 弓美子・河内 崇・河内 真理子・古畠 敦・
木下 哲也・竹田 正和・佐藤 正士・望月 啓充 訳)
1章 はじめに:データサイエンスとは
2章 統計的推論、探索的データ分析、データサイエンスのプロセス
3章 アルゴリズム
4章 スパムフィルタ、単純ベイズ、データラングリング
5章 ロジスティック回帰
6章 タイムスタンプと金融モデリング
7章 データから意味を抽出する
8章 レコメンデーションエンジン:ユーザが直接触れる大規模データ製品を構築する
9章 データ可視化と不正検出
10章 ソーシャルネットワークとデータジャーナリズム
11章 因果関係
12章 疫学
13章 データ分析のコンペティションから得られた教訓:データのリークとモデルの評価
14章 データエンジニアリング:MapReduce、Pregel、Hadoop
15章 生徒たちの声
16章 次世代のデータサイエンティスト、データに対する過信と倫理
- 4. Leverages Marketing Department
● 前段
○ データサイエンスのプロセスは存在し、学術的な部分としては統計学と計算機科学を基
盤としている。
○ 現在、生活の様々な場面に関する膨大なデータが存在し、蓄積されている。加えて、安
価な計算能力も豊富に存在していることが「ビッグデータ」「データサイエンス」とい
う言葉を有名にしている背景となっている。
○ データサイエンスとはデータの土木工学である。
データサイエンスとは
4
- 6. Leverages Marketing Department
データマニアの優れたスキル (cf.Nathan Yau - 2009)
6
統計
検証するのに慣れた従
来の方法
● 全ての領域に強い人はいないため様々な経験や専門性を持つ人間を集めて効果的
なチームを定義するほうが良い。
● 参考:https://qiita.com/hik0107/items/f9bf14a7575d5c885a16
データマンジング
データの解析、解体
、フォーマット
可視化
グラフ、ツールなど
- 7. Leverages Marketing Department
データサイエンスプロフィール (cf. Rachel Schutt)
7
● 自身のデータサイエンスのスキル水準に関して尺度的に決めるもの。
● 各個人のデータサイエンスプロフィールの足し上げがデータサイエンスチームプ
ロフィールとなる。データサイエンスチームプロフィールとそのチームが解決し
ようとするデータ課題のプロフィールは合致すべき。
デ
|
タ
可
視
化
機
械
学
習
数
学 統
計
学
計
算
機
科
学
コ
ミ
ュ
ニ
ケ
|
シ
ョ
ン
特
定
分
野
の
専
門
知
識
- 8. Leverages Marketing Department
データサイエンティストとは
8
● 学術界
○ 社会科学から生物学までの何かに長けており、大量のデータを扱い、データの構造、サ
イズ、乱雑性、複雑性、性質によってもたらされる計算問題に立ち向かい、現実世界の
問題を解決する科学者。
● 産業界
○ 担っている部分
■ データの収集やロギングのためのエンジニアリングやインフラから、プライバシーに対する懸
念やユーザーが直面するデータをどのように利用して判断を下すか、データからそのようにし
て成果を導くかということまでの全てを定める。
■ 場合によっては、革新系なソリューションの特許取得や研究目的の設定にも携わる。
○ どんな人であるのか
■ データから意味を抽出し解釈する方法を知っている人
● 統計や機械学習のツールや手法に加えて、人間らしくある必要がある。
● データ収集、クリーニング、マンジングに多くの時間を費やし、忍耐、統計、ソフトウェアエンジニア
リングスキルが必要。
■ 探索的データ分析などからパターンを見つけ、モデルとアルゴリズムを構築する。
■ 最終的に、データにもとづいた何らかの意思決定を行う。
- 12. Leverages Marketing Department
モデル
12
● モデルとは
○ 特定のレンズを通して現実の性質を理解し表現しようとする試み。
○ 全ての余分な詳細部分は取り除かれている。どのような仮定を置いているのか、何が
省略されているのか、という部分を十分考慮すべき。
● モデルの作り方
○ 一般解はない。
○ 探索的データ分析(EDA)から始めるのが一つの有益な方法である。
○ データ収集、定性的な現実世界の情報収集、知っているモデルの種類、可視化の技法
○ シンプルなモデルからはじめ、少しずつ複雑にしながら仮定を追加していくのがよい。
■ シンプルさと正確性はトレードオフ。シンプルなモデルは解釈、理解、作成が容易。どこまで
の正確性で手を打つかの判断が大事。
- 13. Leverages Marketing Department
確率分布
13
● 確率分布は統計モデルの構成要素の一部となる。
● 自然のプロセスが生み出す測定値は経験的にある分布系を持つ傾向があり、その
分布が数学関数で近似されている。(確率密度関数)
○ それぞれの確率分布がどういう意味を持ち、どのような現象に当てはまるとされている
のかは各自勉強しておかれたい。
● 数学的意味
○ 確率密度関数は定義域内での積分値が1となる。(確率)変数の特定の範囲内での定積分
はその(確率)変数の範囲の事象が起き得る確率を意味する。
○ 1つ以上の確率変数を持つ場合に拡張した分布の概念が同時分布。確率変数が2変数の
場合は全平面に対しての二重積分が1となる。
○ 一方の確率変数を固定したときのもう一方の確率変数の確率密度関数のことを条件付き
分布という。
- 14. Leverages Marketing Department
モデルのフィッティング
14
● フィッティング
○ 観測データを使用してモデルのパラメータを推定すること。
○ 最尤推定などの最適化手法やアルゴリズムが必要となる。
○ 実務的にはRやPython等を使用して実現可能。
● オーバーフィッティング
○ パラメータを推定する際に使用した標本データの範囲を超えたデータに対してのモデ
ルの汎用性が失われている状態。
○ モデルのフィッティングに使用したのとは異なるデータセットに対してモデルを使って
予測を行い、特定の評価指標でモデルを評価するとわかる。
- 15. Leverages Marketing Department
探索的データ分析 (EDA)
15
● 基本的なツール
○ プロット
○ グラフ
○ 要約統計量
■ 平均値、最小値、最大値、四分位点、外れ値、など
自分自身で「データがどんな形をしているのか」「データの挙動はどうか」
「現実でなにが起こっているのか」ということを理解する目的でEDAを行う。
データをよく見て、地道に自分の手でデータをいじってみること。
- 16. Leverages Marketing Department
データサイエンスのプロセス
16
● 生データの収集
● データの処理
○ データの結合
○ スクレイピング
○ データラングリング
○ 使用ツールはPython,シェルスクリプト,R,SQLなど (割とSSでもできるけど)
● EDA
○ 重複、欠損、外れ値、データの記録ミスなどの発見及び修復。
● モデル設計
○ どのような問題を解決しようとしているのかに応じて適切に選択・設計。
● ゴールに向けてのアウトプット
○ 提言及び意思決定、それに伴うレポーティング
○ データプロダクトの構築や試作
■ データプロダクトは現実世界に取り込まれ、フィードバックループが生成される。解析の際は
モデル自体が原因となったバイアスに関しての取扱を考慮する必要がある。
- 17. Leverages Marketing Department
データサイエンティストの役割 (一部小山の意見)
17
● 生データの収集
○ ビジネス現場における解くべき課題の設定
○ 課題解決に対して必要そうなデータ種の設計
○ 仮説を立てる
○ データ収集自体の行為
● データの処理
○ 処理手順、処理手法の設計
● EDA
○ 重複、欠損、外れ値、データの記録ミスなどの発見及び修復。
● モデル設計
○ 仮説を立てる
○ ビジネス現場の環境とデータ世界の定義を結びつけ関係性を意味付けしていく
● ゴールに向けてのアウトプット
○ 誰が見ても理解しやすい制作物の作成(データサイエンスの翻訳)
- 19. Leverages Marketing Department
まとめ
19
日常会話にて (対:色んな人)
● データサイエンティストって何をする人?
● データサイエンティストになるにはどんなスキルと経験が必要?
● モデルってどうやって作ったらいいんやろ?
仕事の会話にて (対:データ戦略室内、社内のお偉方)
● この元データに内包される可能性のあるバイアスはないのか?
● モデルを作るときに除外して考えた仮説はなんでしょう?
● そのデータプロダクトは結局どのような意思決定に寄与するのか?