[DSO]勉強会_データサイエンス講義_Chapter1,2

Leverages Marketing Department
[DSO]勉強会
データサイエンス講義 Chapter1,2
2019/06/14
データ戦略室
小山祥太郎
1

教科書
2
Rachel Schutt, Cathy O‘Neil (2014) 「データサイエンス講義」
(瀬戸山雅人・石井弓美子・河内崇・河内真理子・古畠敦・
木下哲也・竹田正和・佐藤正士・望月啓充訳)
1章はじめに:データサイエンスとは
2章統計的推論、探索的データ分析、データサイエンスのプロセス
3章アルゴリズム
4章スパムフィルタ、単純ベイズ、データラングリング
5章ロジスティック回帰
6章タイムスタンプと金融モデリング
7章データから意味を抽出する
8章レコメンデーションエンジン:ユーザが直接触れる大規模データ製品を構築する
9章データ可視化と不正検出
10章ソーシャルネットワークとデータジャーナリズム
11章因果関係
12章疫学
13章データ分析のコンペティションから得られた教訓:データのリークとモデルの評価
14章データエンジニアリング:MapReduce、Pregel、Hadoop
15章生徒たちの声
16章次世代のデータサイエンティスト、データに対する過信と倫理

データサイエンスとは
データサイエンティストプロフィール
データサイエンティストとは
統計的推論
探索的データ分析 (EDA)
データサイエンスのプロセス
などなど
今日話すことに含まれるトピック
3

● 前段
○ データサイエンスのプロセスは存在し、学術的な部分としては統計学と計算機科学を基
盤としている。
○ 現在、生活の様々な場面に関する膨大なデータが存在し、蓄積されている。加えて、安
価な計算能力も豊富に存在していることが「ビッグデータ」「データサイエンス」とい
う言葉を有名にしている背景となっている。
○ データサイエンスとはデータの土木工学である。
データサイエンスとは
4

データサイエンスのベン図 (cf.Drew Conway - 2010)
5

データマニアの優れたスキル (cf.Nathan Yau - 2009)
6
統計
検証するのに慣れた従
来の方法
● 全ての領域に強い人はいないため様々な経験や専門性を持つ人間を集めて効果的
なチームを定義するほうが良い。
● 参考：https://qiita.com/hik0107/items/f9bf14a7575d5c885a16
データマンジング
データの解析、解体
、フォーマット
可視化
グラフ、ツールなど

データサイエンスプロフィール (cf. Rachel Schutt)
7
● 自身のデータサイエンスのスキル水準に関して尺度的に決めるもの。
● 各個人のデータサイエンスプロフィールの足し上げがデータサイエンスチームプ
ロフィールとなる。データサイエンスチームプロフィールとそのチームが解決し
ようとするデータ課題のプロフィールは合致すべき。
デ
|
タ
可
視
化
機
械
学
習
数
学統
計
学
計
算
機
科
学
コ
ミ
ュ
ニ
ケ
|
シ
ョ
ン
特
定
分
野
の
専
門
知
識

データサイエンティストとは
8
● 学術界
○ 社会科学から生物学までの何かに長けており、大量のデータを扱い、データの構造、サ
イズ、乱雑性、複雑性、性質によってもたらされる計算問題に立ち向かい、現実世界の
問題を解決する科学者。
● 産業界
○ 担っている部分
■ データの収集やロギングのためのエンジニアリングやインフラから、プライバシーに対する懸
念やユーザーが直面するデータをどのように利用して判断を下すか、データからそのようにし
て成果を導くかということまでの全てを定める。
■ 場合によっては、革新系なソリューションの特許取得や研究目的の設定にも携わる。
○ どんな人であるのか
■ データから意味を抽出し解釈する方法を知っている人
● 統計や機械学習のツールや手法に加えて、人間らしくある必要がある。
● データ収集、クリーニング、マンジングに多くの時間を費やし、忍耐、統計、ソフトウェアエンジニア
リングスキルが必要。
■ 探索的データ分析などからパターンを見つけ、モデルとアルゴリズムを構築する。
■ 最終的に、データにもとづいた何らかの意思決定を行う。

統計的思考
9
● 統計的推論
○ 世界からデータを取り出し、データから世界を理解するプロセス
○ 確率的過程によって生成されるデータから意味や情報を抽出するための手順や手法、理
論。
● 母集団
○ 対象の全てについての完全な観測値のセット全て
● 標本
○ 母集団の一部から取り出した観測値のセット

ビッグデータの母集団と標本
10
ビッグデータ時代においてはユーザーの行動を
全ての期間に渡って記録できるのに標本という概念は必要なのか？
● 一般的に分析/推論のためであれば、通常全てのデータを保持し続ける必要はないとされる。
● ビッグデータであったとしても、データの蓄積の条件や環境によってなどでバイアスがかか
る可能性があることを考慮すべき。
● 母集団と見えるものでも、考え方によってはさらに大きい母集団の標本である。
● 新しい種類のデータに関しては、サンプリングの際に、それがどのような意味を持つ可能性
があるかということを常に慎重に考える必要がある。
■ 伝統的なもの：数値型、カテゴリ型、2値型
■ テキストデータ
■ レコード
■ 地理情報ベースの位置データ
■ ネットワーク
■ センサーデータ
■ 画像

ビッグデータの大きな仮定
11
● データが非常に膨大であることを考えれば、ビッグデータにおいては因果関係を
理解する必要はない、またサンプリングの誤差を気にする必要はない。というこ
とは間違っている。ビッグデータであったとしてもN=ALLではない。
○ 結局データが取れている人しか取れていない。
○ 因果関係を無視したモデルは過去の問題を繰り返すだけのものになる。

モデル
12
● モデルとは
○ 特定のレンズを通して現実の性質を理解し表現しようとする試み。
○ 全ての余分な詳細部分は取り除かれている。どのような仮定を置いているのか、何が
省略されているのか、という部分を十分考慮すべき。
● モデルの作り方
○ 一般解はない。
○ 探索的データ分析(EDA)から始めるのが一つの有益な方法である。
○ データ収集、定性的な現実世界の情報収集、知っているモデルの種類、可視化の技法
○ シンプルなモデルからはじめ、少しずつ複雑にしながら仮定を追加していくのがよい。
■ シンプルさと正確性はトレードオフ。シンプルなモデルは解釈、理解、作成が容易。どこまで
の正確性で手を打つかの判断が大事。

確率分布
13
● 確率分布は統計モデルの構成要素の一部となる。
● 自然のプロセスが生み出す測定値は経験的にある分布系を持つ傾向があり、その
分布が数学関数で近似されている。(確率密度関数)
○ それぞれの確率分布がどういう意味を持ち、どのような現象に当てはまるとされている
のかは各自勉強しておかれたい。
● 数学的意味
○ 確率密度関数は定義域内での積分値が1となる。(確率)変数の特定の範囲内での定積分
はその(確率)変数の範囲の事象が起き得る確率を意味する。
○ 1つ以上の確率変数を持つ場合に拡張した分布の概念が同時分布。確率変数が2変数の
場合は全平面に対しての二重積分が1となる。
○ 一方の確率変数を固定したときのもう一方の確率変数の確率密度関数のことを条件付き
分布という。

モデルのフィッティング
14
● フィッティング
○ 観測データを使用してモデルのパラメータを推定すること。
○ 最尤推定などの最適化手法やアルゴリズムが必要となる。
○ 実務的にはRやPython等を使用して実現可能。
● オーバーフィッティング
○ パラメータを推定する際に使用した標本データの範囲を超えたデータに対してのモデ
ルの汎用性が失われている状態。
○ モデルのフィッティングに使用したのとは異なるデータセットに対してモデルを使って
予測を行い、特定の評価指標でモデルを評価するとわかる。

探索的データ分析 (EDA)
15
● 基本的なツール
○ プロット
○ グラフ
○ 要約統計量
■ 平均値、最小値、最大値、四分位点、外れ値、など
自分自身で「データがどんな形をしているのか」「データの挙動はどうか」
「現実でなにが起こっているのか」ということを理解する目的でEDAを行う。
データをよく見て、地道に自分の手でデータをいじってみること。

データサイエンスのプロセス
16
● 生データの収集
● データの処理
○ データの結合
○ スクレイピング
○ データラングリング
○ 使用ツールはPython,シェルスクリプト,R,SQLなど (割とSSでもできるけど)
● EDA
○ 重複、欠損、外れ値、データの記録ミスなどの発見及び修復。
● モデル設計
○ どのような問題を解決しようとしているのかに応じて適切に選択・設計。
● ゴールに向けてのアウトプット
○ 提言及び意思決定、それに伴うレポーティング
○ データプロダクトの構築や試作
■ データプロダクトは現実世界に取り込まれ、フィードバックループが生成される。解析の際は
モデル自体が原因となったバイアスに関しての取扱を考慮する必要がある。

データサイエンティストの役割 (一部小山の意見)
17
● 生データの収集
○ ビジネス現場における解くべき課題の設定
○ 課題解決に対して必要そうなデータ種の設計
○ 仮説を立てる
○ データ収集自体の行為
● データの処理
○ 処理手順、処理手法の設計
● EDA
○ 重複、欠損、外れ値、データの記録ミスなどの発見及び修復。
● モデル設計
○ 仮説を立てる
○ ビジネス現場の環境とデータ世界の定義を結びつけ関係性を意味付けしていく
● ゴールに向けてのアウトプット
○ 誰が見ても理解しやすい制作物の作成(データサイエンスの翻訳)

まとめ
18
この章を読んだ上での感想。
データ戦略室の人間としてこういった質問には回答を用意しよう

まとめ
19
日常会話にて (対：色んな人)
● データサイエンティストって何をする人？
● データサイエンティストになるにはどんなスキルと経験が必要？
● モデルってどうやって作ったらいいんやろ？
仕事の会話にて (対：データ戦略室内、社内のお偉方)
● この元データに内包される可能性のあるバイアスはないのか？
● モデルを作るときに除外して考えた仮説はなんでしょう？
● そのデータプロダクトは結局どのような意思決定に寄与するのか？

まとめ
20
自分の今やっている仕事に対して、
こういうことに責任を持って答えられるようしないといけないな、
という認識になっていれば、今回の章はクリアではないでしょうか。
おわり。

[DSO]勉強会_データサイエンス講義_Chapter1,2

Recommended

Recommended

More Related Content

Similar to [DSO]勉強会_データサイエンス講義_Chapter1,2

Similar to [DSO]勉強会_データサイエンス講義_Chapter1,2 (20)

Recently uploaded

Recently uploaded (12)

[DSO]勉強会_データサイエンス講義_Chapter1,2