Contenu connexe
Similaire à 分析のリアルがここに!現場で使えるデータ分析(1限目) 先生:吉永 恵一 (20)
Plus de schoowebcampus (20)
分析のリアルがここに!現場で使えるデータ分析(1限目) 先生:吉永 恵一
- 3. コンサルティング会社、マーケティングリサーチ会社などを経て、
2010年 株式会社リクルート MIT入社(現リクルートテクノロジーズ)
【As a Data Scientist】
・CV予測アルゴリズムの開発
・広告予算最適化モジュールの開発
2012年 住宅カンパニーへ移動(現リクルート住まいカンパニー)
【As a Marketer】
・データ・マネジメントの企画・立案 ※詳細は次ページ
-予測・シミュレーションを用いたCM投資額の策定
-最適化技術を用いた広告ポートフォリオの策定
-パーソナライズ・リコメンデーションの実装
-コンジョイント調査を用いたWEBサイト改善のプランニング
2013年 株式会社 分析屋本舗を起業
【As a Entrepreneur】
・需要予測や広告予算最適化、分析者養成を核とした業務支援サービス
⾃自⼰己紹介
- 6. 実務家と分析者の役割
1/2
エンジン開発 分析アルゴリズム開発
クルマの運転 分析結果の活用
分析者
実務家
クルマのエンジンの詳しいメカニズムを知っていなくても、クルマの
運転ができるように、実務家は、分析の詳細なアルゴリズム
(How
To
Do)を知っていなくても、分析結果を何に活⽤用するのか
(What
To
Do)に注⼒力力すればよい。
ただし、エンジンの必要最低限の知識識がないと、アクセルやブレーキの
踏み⽅方やタイミングを⾒見見誤る。
- 8. 全3回の講義内容の紹介
1回⽬目
実務家向け
統計講座
統計という名の武器を
⾝身に付ける
2回⽬目
分析設計
講座
ビジネス課題を分析
課題へ落落とし込む
3回⽬目
ケース
スタディ
1,2回の知識識やスキル
で課題を体感する
- 11. Sales
Time
【誕⽣生期】
【成⻑⾧長期】
【成熟期】
【衰退期】
・認知拡⼤大
・会員獲得
・トライアル喚起
・リピート促進
・クロスセル
・アップセル
・インセンティブ
・サービス差別化
・囲い込み
・ブランドスイッチ
・ロイヤル化
・離離反防⽌止
・サービス⾒見見直し
・サービス収束
ビジネスサイクルとデータ分析
- 12. データ分析を⽤用いた意思決定サイクル
①現状把握
②未来予測
③シミュレート
④最適化
time
CV
time
CV
alliance
12000
banner
6000
listing
12000
SEO
12000
affiliate
6,000
- 13. ①現状把握
②未来予測
③シミュレート
④最適化
現状把握とは?
1/5
体調不不良良に
気付く
病名を
特定する
薬や注射で
治療療する
治療療の
効果を測る
- 14. ①現状把握
②未来予測
③シミュレート
④最適化
現状把握とは?
2/5
KPI不不調に
気付く
原因を
特定する
施策で
改善を図る
改善の
効果を測る
- 15. ①現状把握
②未来予測
③シミュレート
④最適化
現状把握とは?
3/5
利利⽤用経験
ツイート
CPA
CTR
売上
CV
PV
現利利⽤用
助成想起
純粋想起
ブランド
知覚
CVR
検索索数
CPC
UU
ブログ
利利益
⼝口コミ
- 18. ①現状把握
②未来予測
③シミュレート
④最適化
予測とは?
未来を確率率率的に推し量量ること
予測
予⾔言
予知
予告
予想
- 19. ①現状把握
②未来予測
③シミュレート
④最適化
天気予報における降降⽔水確率率率
⾬雨が降降るかどうかを確率率率的に推し量量る
- 20. ①現状把握
②未来予測
③シミュレート
④最適化
2つの予測アプローチ
ノンパラメトリック
アプローチ
予測を当たるかどうかを
重視し、中身がブラック
ボックスでもよい
パラメトリック
アプローチ
どの要因がどれくらい
効いているのかを
踏まえて予測する
- 21. ①現状把握
②未来予測
③シミュレート
④最適化
パラメトリック・アプローチの原理理
現象
現象の再現
モデル
現象をモデル化
現象を再現
- 22. ①現状把握
②未来予測
③シミュレート
④最適化
パラメータ推定の論論理理
listing
CV
listing
売
上
y= a x+ b
listing
CV
y= a x+ b
listing
売
上
listing
CV
- 25. ①現状把握
②未来予測
③シミュレート
④最適化
数式に値を代⼊入
シミュレーションを実施する際には、『もしも●●だったら、△△に
なる』ということを数式で表現する必要があります。
下記の式にlistingのコスト、SEOのコスト、bannerのコストを
代⼊入すると、CV数を推定することができます。
Ex1.)listingのコストが100、SEOのコストが200、bannerのコスト
が50の場合、
と推定されました。
- 26. ①現状把握
②未来予測
③シミュレート
④最適化
シミュレーション=What
IFの分析
シミュレーションとは、現状の様々な要因が変動した場合の状況の
変動をみる⾏行行為です。
Ex.1)もしもGRPが500から1000に変動したら、
CV数は800から1200になるでしょう
Ex.2)もしもブランドAの価格を250円から230円に値下げしたら、
ブランドAのマーケットシェアは30%から35%に増え、
ブランドBのシェアは40%から33%に減るでしょう
要因の変動
状況の変動
要因の変動
状況の変動
- 27. ①現状把握
②未来予測
③シミュレート
④最適化
プライシング・サイエンス
A
B
C
D
【価格シミュレーションの例例】
各ブランドの
販売価格
ブランド
シェア
S
- 28. ①現状把握
②未来予測
③シミュレート
④最適化
最適化とは?
Ac&on↑
Cost↓
コストは最⼩小化したい、アクションは最⼤大化したい
という相反するニーズの均衡点を導き出すこと
- 29. ①現状把握
②未来予測
③シミュレート
④最適化
2つの最適化問題
Cost
CV
1000
0
制
約
条
件
5000
制約条件
- 33. 100万
200万
300万
400万
500万
リスティング
バナー
CV
コスト
リスティング:500万円、バナー:0万円⇒CV:100件
100
80
60
40
20
リスティング:400万円、バナー:100万円⇒CV:110件
リスティング:250万円、バナー:250万円⇒CV:112件
リスティング:300万円、バナー:200万円⇒CV:115件
トータル500万円で最大のCVを得るためには、リスティングと
バナーにいくらづつ投資するのが最適か?
広告最適化のイメージ
- 39. データの尺度度
尺度度
数
量量
デ
ー
タ
カ
テ
ゴ
リ
デ
ー
タ
名義尺度度
順序尺度度
種類
特徴
名義化された集合に含まれる要素を数える
⼀一対⼀一変換が可能である
順序を表しており、間隔は問題にしていない
単調増加または減少変換が可能である
間隔尺度度
⽐比率率率尺度度
原点0は量量がないことを意味しない
等間隔性が保証されているので、加減計算ができる
原点0が⼀一義的に決まる間隔尺度度である
四則演算を適⽤用できる
- 50. データ同⼠士の関係性の分析
【主な⽬目的】
特定の集団の特⾊色や傾向を調べる
クロス分析
相関分析
【主な⽬目的】
データ間の関連の強さを調べる
【カテゴリデータ×カテゴリデータの場合】
【カテゴリデータ×数量量データの場合】
【数量量データ×数量量データの場合】
身長
体重
【未既婚】
【平均年収】
相関係数:データの関連の強さをー1〜~1の間で表した数値
統計的な意味
2つの変数に関するデータのバラツキの⼤大きさと関係の⽅方向性
(
散布図上での点の散らばり⽅方
)
を⽰示す指標
⇒標準化された共分散
※ 因果関係ではないことに注意!!
- 52. 散布図から⾒見見る相関関係
2/2
正の強相関
rxy=0.9
正の強相関
rxy=0.9
どちらも、相関係数を⾒見見ただけでは、0.9と⾮非常に⾼高い値ですが、
実際は、右図は特定の値に集中していることが確認されている。
データ同⼠士がどのような関係性にあるのかは必ず視覚的に確認しよう。
- 54. 休息時間と
就寝前の⾎血圧
負の相関
正の相関
夫の年年齢と
妻の年年齢
⾷食事の量量と
体重
気温とエアコン
の販売台数
気温と
航空事故発⽣生率率率
台⾵風の頻度度と
靴の売れ⾏行行き
相関なし
テレビ普及率率率と
犯罪率率率
???
養⽑毛剤の値段と
抜け⽑毛の数
タミフル接取と
精神異異常
喫煙本数と
がん発⽣生率率率
相関のあれこれ
相関と因果は別。因果は、分析する側が仮定するものであって、
分析から⾃自動的に出てこない。
- 55. 相関関係
都市化の進⾏行行具合
コウノトリの巣の数
新⽣生児の数
≒都市化が進んだ町では出⽣生率率率が低下する
コウノトリの巣が減少した町では出⽣生率率率が低下する
観測された相関関係が擬似相関であった場合、⼤大きな誤解を招いて
しまう危険がある。ただし、「擬似相関=使えない情報」ではなく、
⽬目的に応じた正しい解釈をすることが重要となる。
相関を⾒見見る注意点