SlideShare une entreprise Scribd logo
1  sur  38
データサイエンティスト協会
勉強会2016 第2回
分析せよ!と言われて困っているあなたへの処方箋
2016年9月28日
SAS Institute Japan株式会社 辻 仁史
Copyright © 2016 The Japan DataScientist Society. All Rights Reserved.
データサイエンティスト協会
目的
社会のビッグデータ化に伴い重要視されているデータサイエンティスト(分析人材)の育成のため、
その技能(スキル)要件の定義・標準化を推進し、社会に対する普及啓蒙活動を行う。
分析技術認定(レベル認定)などの活動を通じて、分析能力の向上を図るための提言や協力を惜しまな
い支援機関として、高度人材の育成とデータ分析業界の健全な発展に貢献する。
Copyright © 2016 The Japan DataScientist Society. All Rights Reserved.
データサイエンティスト協会
3rdシンポジウム
2
今年のテーマは、「人工知能時代のデータサイエンティスト」
AIへの関心の高まりと利用事例が増える中、データサイエ
ンティストに求められる新しい役割を浮き彫りにします
日時 : 2016年10月14日(金) 10:00~20:00
会場 : JPタワー ホール&カンファレンス(丸の内)
参加費: 事前割引 14,000円 当日 17,000円
http://www.datascientist.or.jp/symp/2016/
Copyright © 2016 The Japan DataScientist Society. All Rights Reserved. 3
ケーススタディ
Copyright © 2016 The Japan DataScientist Society. All Rights Reserved.
小型化への挑戦
4
Copyright © 2016 The Japan DataScientist Society. All Rights Reserved. 5
https://www.koaglobal.com/product/ltcc-basic
製造プロセス
Copyright © 2016 The Japan DataScientist Society. All Rights Reserved. 6
品質分析ビッグ
データ
項目数:約
15,000
①初期調査
収縮率変動は、原料生成後
特性Aの寄与が大きい。
②メカニズム
原因は焼成温度?
→温度管理はされている。
→実温のばらつき!
③試行
設定温度一定から実温管理
収束するがまだ変動あり。
試行1回目
①改善後追加調
査
収縮率変動は、原料物性
値Cの寄与が見られる。
②メカニズム
原因はD工程の加工?
→物質E量のばらつき!
③試行
ロット毎に物質E量測定
Cのあわせ込み
試行2回目
分析サイクル
Copyright © 2016 The Japan DataScientist Society. All Rights Reserved. 7
データサイエンティストのスキル
Copyright © 2016 The Japan DataScientist Society. All Rights Reserved. 8
様々な分析サイクル
現状の課題把握
課題の対策 対策規定実行
現場改善
Copyright © 2016 The Japan DataScientist Society. All Rights Reserved. 9
分析ができない原因を考察
Copyright © 2016 The Japan DataScientist Society. All Rights Reserved. 10
分析が定着しない原因は・・・
なかなか分析が定着しない理由
・目標設定
・サイクルが回らない。
・課題発見
・関係者
・データ整備
・・・
Copyright © 2016 The Japan DataScientist Society. All Rights Reserved. 11
効果があり着手しやすい領域を考える
共通分析情報基盤
現状把握 効率化・改善 創造・立案
・定例レポート
・施策評価レポート
・予実レポート
ビジネスインテリジェンス ビジネスアナリティクス
・ターゲティングモデル
・受注予測モデル
・発注最適化モデル
・構造解析モデル
予測値
レポート
データ
モデル開発
データ
データサイエンス
・顧客セグメンテーション
・プロダクトマッピング
・レコメンド
・テキスト分析
分析用
データ
新情報
付加
・ライフスタイル推定
企画実行評価
Copyright © 2016 The Japan DataScientist Society. All Rights Reserved. 12
まずは予測モデルから
Copyright © 2016 The Japan DataScientist Society. All Rights Reserved. 13
予測モデルを開発する前に考えるべきこと
課題の理解・目的の設定
何を予測(推定)できればうれしいのか?
課題をとりまく環境の理解
なぜそのような結果になるのか?
手法の理解
可読性・精度
Copyright © 2016 The Japan DataScientist Society. All Rights Reserved. 14
予測モデルの例(教師付学習)
商談成約率 売上予測
不正検知 ネットワーク
故障
Copyright © 2016 The Japan DataScientist Society. All Rights Reserved. 15
予測モデルのトレンド
NTTドコモが所有する気象データを予測材料とし、JR東日本の首都圏10路線の
支障(遅延、運休など)を予測する。
NTTドコモ主催のコンペ
参加者
総勢48人の参加者が683種類の予測モデルを構築。
結果
精度1位 : ニューラルネットワーク
2位 : ランダムフォレスト、ニューラルネットワーク等のアンサンブル
3位 : 勾配ブースティング
上位はすべて
機械学習
Copyright © 2016 The Japan DataScientist Society. All Rights Reserved. 16
モデル手法:決定木
顧客番号 購入金額 購入回数 鮮度 ・・・・ 応募
0001 5,000 5 1 0
0002 3,000 8 3 1
0003 20,000 10 4 0
0004 4,000 2 5 1
0005 500 6 2 0
・・・ ・・・
過去データ(キャンペーン応募)
応募者の特徴(ルール)
応募者
60%
購入金額
3000円未満 3000円以上
30% 80%
ツリー(木)が1本なのでルールを読み取りやすい
Copyright © 2016 The Japan DataScientist Society. All Rights Reserved. 17
モデル手法:ランダムフォレスト
過去データ
(キャンペーン応募)
応募者の特徴
(ルール)
顧客番号 購入金額 購入回数 鮮度 ・・・・ 応募
0001 5,000 5 1 0
0002 3,000 8 3 1
0003 20,000 10 4 0
0004 4,000 2 5 1
0005 500 6 2 0
・・・ ・・・
予測する
ツリー(木)がたくさんのフォレスト(森)なので
ルールを読み取りにくい
計算量も増える
けど、予測精度はよい。
Copyright © 2016 The Japan DataScientist Society. All Rights Reserved.
18
決定木とランダムフォレストの違い
1つのモデル(木)は
融通が利かない
→汎化能力が低い
複数のモデル(森)は
融通が利く
→汎化能力が高い
汎化能力が高いほど予測誤差は少ない。 複数モデルを作るにはデータ数が必要
Copyright © 2016 The Japan DataScientist Society. All Rights Reserved. 19
汎化能力とは
新しいデータでも正しく予測できる能力 ・・・・ 汎化能力
汎化能力が高い = 汎化誤差が少ない
汎化誤差 ・・・ 新しいデータに当てはめたときの誤差
汎化誤差=モデル構築データ選び方+手法の適合性・パラメタ+ノイズ
モデル構築データの誤差を少なくするには ・・・
1:データを増やす/手法を変える
2:多数のトレーニングを行う
Copyright © 2016 The Japan DataScientist Society. All Rights Reserved. 20
モデル開発のプロセス
データ収集 モデル開発 モデル評価 実装
精度評価
Copyright © 2016 The Japan DataScientist Society. All Rights Reserved. 21
Step1:データ収集
モデル開発用データを定義する。
事前確認
モデル開発単位の定義
ターゲットの定義
ターゲットの評価期間
データ(変数)加工
データ抽出(サンプリング)
Copyright © 2016 The Japan DataScientist Society. All Rights Reserved. 22
Step1:データ収集
■事前確認
モデル開発に必要なデータ項目・取得可能なデータ項目の確認
・モデル開発対象(ターゲット)の定義
・スコアリング時点で取得できる情報
・取得できるデータの保存期間
・季節性の影響
・リレーションキー
・ユニーク条件
・モデル開発対象とスコアリング対象の差
・マスターコードの追加・変更
Copyright © 2016 The Japan DataScientist Society. All Rights Reserved. 23
■モデル開発単位の定義
1つのモデルだけで対象者全員をスコアリングする
対象を分類してそれぞれのモデルでスコアリングする
一般にモデルの開発単位(セグメント)は、1つのモデルでス
コアリングするよりも特徴的な行動などで対象を分類し、類似
する集団毎にモデルを開発する方が精度が上がると言われて
います。
Step1:データ収集
Copyright © 2016 The Japan DataScientist Society. All Rights Reserved. 24
■ターゲットの定義
Step1:データ収集
少ないターゲット数で開発したモデルは、発生傾向が集団
ではなく個で表現されるモデルになるため、予測精度が不安
定になることが多い。
ターゲット件数
OK
対応検討
ターゲット定義緩和
(その他ウェイト調整など)
十分
不足
Copyright © 2016 The Japan DataScientist Society. All Rights Reserved. 25
Step1:データ収集
■データ(変数)加工
■欠損値の取り扱い方法の検討
除去
補間(中央値、平均値、etc)
■定性データ
属性の最新データ
■定量データ
一定期間の平均
差分、比率の算出など
■グルーピング(離散化)
Copyright © 2016 The Japan DataScientist Society. All Rights Reserved. 26
データ分割
変数選択
モデルの作成
Step2:モデル開発
Copyright © 2016 The Japan DataScientist Society. All Rights Reserved. 27
■データ分割
モデル開発データをモデル開発用の学習データとモデル評
価用の検証データに分割し、過学習を抑止する。
モデル
開発データ
学習データ(70%)
検証データ(30%)
モデル作成
モデル当てはめ
Step2:モデル開発
Copyright © 2016 The Japan DataScientist Society. All Rights Reserved. 28
■変数選択
モデルの説明変数を以下の変数選択法を指定して選択
することができる。
減少法(Backward)
増加法(Forward)
ステップワイズ法(Stepwise)
なし(None)
モデルの説明変数は必要以上に増やせば増やすほど学習
データのノイズにまでフィットしてしまうため学習データでの当て
はまりがよくても汎化誤差が増える。
Copyright © 2016 The Japan DataScientist Society. All Rights Reserved. 29
■変数選択
減少法(Backward)
全ての候補変数をモデル式に追加し、そこから設定した有意水準で
有意でないと判断した変数をモデルから除去する。
一度モデルから除かれた変数は二度とモデルに含まれない。
設定した有意水準で有意でない変数がなくなるまで変数の除去が
続けられる。
増加法(Forward)
切片のみのモデル式に、最も有意な変数を追加する。
一度モデルに追加した変数は二度とモデルから外されない。
設定した有意水準で有意となる変数がなくなるまで変数の追加が続
けられる。
Copyright © 2016 The Japan DataScientist Society. All Rights Reserved. 30
■変数選択
ステップワイズ法(Stepwise)
切片のみのモデル式に、最も有意な変数を追加する。
一度モデルから追加した変数であってもモデル内で効果が無いと判
断された場合は除去する。
次元削減(主成分分析)
変数クラスタリング
Copyright © 2016 The Japan DataScientist Society. All Rights Reserved. 31
■変数選択
(自動)変数選択法は非常にパワフルで明快な方法であるため、
開発者がその結果に頼ってしまうという間違いに陥りやすい。
極端に言えば、(自動)変数選択法の結果を完全に信用していい
状況とは、開発者にどの説明変数をモデルに採用すれば良いかに関
する知識が全く無い場合だけである。
通常、開発者は何らかの仮説、理論、既知の知識を持っている。
(自動)変数選択法はあくまでも補助的な情報として用いるべきで
あり、開発者の経験からくる仮説、理論、既知の知識などを変数選
択の結果よりも優先することが薦められる。
Copyright © 2016 The Japan DataScientist Society. All Rights Reserved. 32
■モデルの作成
モデルによって得手不得手があるので、分析によって使い分けるのがよい。
• 決定木
• 線形回帰
• ロジスティック回帰
• PLS回帰
• ニューラルネットワーク
• 順序ロジット
• 順序ロジットは、ロジスティック回帰でターゲットが順序変数である場合のモデル。
• SVM (Support Vector Machine)
• k近傍法
• k近傍法は、自身と似ている(例えば入力変数間の距離が近い)データのターゲット変数を見て、それら
の多数決で自身のターゲット変数を予測するという簡単な方法
予測モデルの組合せ
予測結果を出すのに使うモデルは必ずしも一つでなくても良い。複数のモデルの予測値を組み合わせても良い。
• 多数決: 複数モデルの予測結果の多数決をとる。
• ブースティング: 重み付きの多数決の方法。過去の事例に対して正解が多いモデルに大きな重みを付ける。
複数モデルの予測結果を、この重みに従って足し合わせる(多数決を取る)。
Copyright © 2016 The Japan DataScientist Society. All Rights Reserved. 33
データ収集 モデル開発 モデル評価
Step3:モデル評価
■ターゲットの補足割合を評価
CAP曲線とは
横軸にターゲットの発生率の高い順(スコア昇順)に
10分位点(Decile)をとり、縦軸に各十分位点にお
ける累積ターゲット発生率(ターゲット補足率)をとっ
たプロットに示される曲線。
モデルに全く説明力が無く、予測ターゲット発生率と実
際のターゲット発生率に関係がない場合、どのような予
測発生率のレベルであろうと、同じ割合で実際のター
ゲットが含まれているため、CAP曲線は45度線上にプ
ロットされる。
またモデルの説明力が高い場合は、低い十分位点で
多くのターゲットが補足できている曲線がプロットされる。
Copyright © 2016 The Japan DataScientist Society. All Rights Reserved. 34
データ収集 モデル開発 モデル評価
Step3:モデル評価
■モデルの判別精度を評価
⇒KS(Kolmogorov Smirnov)値を確認
KS値とは
横軸にスコア値(昇順)、縦軸に実績のターゲット、非ターゲット別にスコアの低い順
からの累積全体構成比をプロットし、二つの曲線が最大に開いた値。値が大きいほど
判別力が高い。
Good累積構成
比
Bad累積構成比
KS値
Copyright © 2016 The Japan DataScientist Society. All Rights Reserved. 35
ROC曲線
ROC曲線の良さの指標(ROC曲線が左上に張り付いている度合)として、AUC(Area Under the Curve)がある。
• AUCは最小で0, 最大で1となる。
• 完璧な(100%正解する)モデルでは、AUC=1.0となる。
• ランダムな判断をする(サイコロを振って予測する)場合、AUC=0.5となる。
Step3:モデル評価
Copyright © 2016 The Japan DataScientist Society. All Rights Reserved.
R二乗
ターゲットは離散の場合でも連続の場合でも使える評価指標。
R二乗は、モデルによる予測値と実際のターゲット変数との相関係数の二乗。
R二乗は、モデルによる予測値と実際のターゲット変数との相関の大きさを表す。
• R二乗は0以上1以下の値を取る。0に近いほど予測精度が低く、1に近いほど予
測精度が高いことを表す。
• 100%正解するモデルでは、R二乗=1.0となる。
• 予測値とターゲットとの間に相関がまったくない場合には、R二乗=0となる。
Step3:モデル評価
Copyright © 2016 The Japan DataScientist Society. All Rights Reserved. 37
まとめ

Contenu connexe

Tendances

ナレッジグラフ入門
ナレッジグラフ入門ナレッジグラフ入門
ナレッジグラフ入門KnowledgeGraph
 
時系列予測にTransformerを使うのは有効か?
時系列予測にTransformerを使うのは有効か?時系列予測にTransformerを使うのは有効か?
時系列予測にTransformerを使うのは有効か?Fumihiko Takahashi
 
“機械学習の説明”の信頼性
“機械学習の説明”の信頼性“機械学習の説明”の信頼性
“機械学習の説明”の信頼性Satoshi Hara
 
Jubatus Casual Talks #2 異常検知入門
Jubatus Casual Talks #2 異常検知入門Jubatus Casual Talks #2 異常検知入門
Jubatus Casual Talks #2 異常検知入門Shohei Hido
 
機械学習チュートリアル@Jubatus Casual Talks
機械学習チュートリアル@Jubatus Casual Talks機械学習チュートリアル@Jubatus Casual Talks
機械学習チュートリアル@Jubatus Casual TalksYuya Unno
 
機械学習で嘘をつく話
機械学習で嘘をつく話機械学習で嘘をつく話
機械学習で嘘をつく話Satoshi Hara
 
[DL輪読会]Attention Is All You Need
[DL輪読会]Attention Is All You Need[DL輪読会]Attention Is All You Need
[DL輪読会]Attention Is All You NeedDeep Learning JP
 
オントロジーとは?
オントロジーとは?オントロジーとは?
オントロジーとは?Kouji Kozaki
 
実務と論文で学ぶジョブレコメンデーション最前線2022
実務と論文で学ぶジョブレコメンデーション最前線2022実務と論文で学ぶジョブレコメンデーション最前線2022
実務と論文で学ぶジョブレコメンデーション最前線2022Teruyuki Sakaue
 
Deep Learning Lab 異常検知入門
Deep Learning Lab 異常検知入門Deep Learning Lab 異常検知入門
Deep Learning Lab 異常検知入門Shohei Hido
 
木と電話と選挙(causalTree)
木と電話と選挙(causalTree)木と電話と選挙(causalTree)
木と電話と選挙(causalTree)Shota Yasui
 
SHAP値の考え方を理解する(木構造編)
SHAP値の考え方を理解する(木構造編)SHAP値の考え方を理解する(木構造編)
SHAP値の考え方を理解する(木構造編)Kazuyuki Wakasugi
 
Recent Advances on Transfer Learning and Related Topics Ver.2
Recent Advances on Transfer Learning and Related Topics Ver.2Recent Advances on Transfer Learning and Related Topics Ver.2
Recent Advances on Transfer Learning and Related Topics Ver.2Kota Matsui
 
大域的探索から局所的探索へデータ拡張 (Data Augmentation)を用いた学習の探索テクニック
大域的探索から局所的探索へデータ拡張 (Data Augmentation)を用いた学習の探索テクニック 大域的探索から局所的探索へデータ拡張 (Data Augmentation)を用いた学習の探索テクニック
大域的探索から局所的探索へデータ拡張 (Data Augmentation)を用いた学習の探索テクニック 西岡 賢一郎
 
協力ゲーム理論でXAI (説明可能なAI) を目指すSHAP (Shapley Additive exPlanation)
協力ゲーム理論でXAI (説明可能なAI) を目指すSHAP (Shapley Additive exPlanation)協力ゲーム理論でXAI (説明可能なAI) を目指すSHAP (Shapley Additive exPlanation)
協力ゲーム理論でXAI (説明可能なAI) を目指すSHAP (Shapley Additive exPlanation)西岡 賢一郎
 
データサイエンスの全体像とデータサイエンティスト
データサイエンスの全体像とデータサイエンティストデータサイエンスの全体像とデータサイエンティスト
データサイエンスの全体像とデータサイエンティストThe Japan DataScientist Society
 
機械学習システムを受託開発 する時に気をつけておきたい事
機械学習システムを受託開発 する時に気をつけておきたい事機械学習システムを受託開発 する時に気をつけておきたい事
機械学習システムを受託開発 する時に気をつけておきたい事BrainPad Inc.
 

Tendances (20)

ナレッジグラフ入門
ナレッジグラフ入門ナレッジグラフ入門
ナレッジグラフ入門
 
第7回 Linked Data 勉強会 @yayamamo
第7回 Linked Data 勉強会 @yayamamo第7回 Linked Data 勉強会 @yayamamo
第7回 Linked Data 勉強会 @yayamamo
 
時系列予測にTransformerを使うのは有効か?
時系列予測にTransformerを使うのは有効か?時系列予測にTransformerを使うのは有効か?
時系列予測にTransformerを使うのは有効か?
 
“機械学習の説明”の信頼性
“機械学習の説明”の信頼性“機械学習の説明”の信頼性
“機械学習の説明”の信頼性
 
Jubatus Casual Talks #2 異常検知入門
Jubatus Casual Talks #2 異常検知入門Jubatus Casual Talks #2 異常検知入門
Jubatus Casual Talks #2 異常検知入門
 
機械学習チュートリアル@Jubatus Casual Talks
機械学習チュートリアル@Jubatus Casual Talks機械学習チュートリアル@Jubatus Casual Talks
機械学習チュートリアル@Jubatus Casual Talks
 
機械学習で嘘をつく話
機械学習で嘘をつく話機械学習で嘘をつく話
機械学習で嘘をつく話
 
[DL輪読会]Attention Is All You Need
[DL輪読会]Attention Is All You Need[DL輪読会]Attention Is All You Need
[DL輪読会]Attention Is All You Need
 
オントロジーとは?
オントロジーとは?オントロジーとは?
オントロジーとは?
 
実務と論文で学ぶジョブレコメンデーション最前線2022
実務と論文で学ぶジョブレコメンデーション最前線2022実務と論文で学ぶジョブレコメンデーション最前線2022
実務と論文で学ぶジョブレコメンデーション最前線2022
 
Deep Learning Lab 異常検知入門
Deep Learning Lab 異常検知入門Deep Learning Lab 異常検知入門
Deep Learning Lab 異常検知入門
 
はじめての「R」
はじめての「R」はじめての「R」
はじめての「R」
 
木と電話と選挙(causalTree)
木と電話と選挙(causalTree)木と電話と選挙(causalTree)
木と電話と選挙(causalTree)
 
SHAP値の考え方を理解する(木構造編)
SHAP値の考え方を理解する(木構造編)SHAP値の考え方を理解する(木構造編)
SHAP値の考え方を理解する(木構造編)
 
Recent Advances on Transfer Learning and Related Topics Ver.2
Recent Advances on Transfer Learning and Related Topics Ver.2Recent Advances on Transfer Learning and Related Topics Ver.2
Recent Advances on Transfer Learning and Related Topics Ver.2
 
大域的探索から局所的探索へデータ拡張 (Data Augmentation)を用いた学習の探索テクニック
大域的探索から局所的探索へデータ拡張 (Data Augmentation)を用いた学習の探索テクニック 大域的探索から局所的探索へデータ拡張 (Data Augmentation)を用いた学習の探索テクニック
大域的探索から局所的探索へデータ拡張 (Data Augmentation)を用いた学習の探索テクニック
 
論文の書き方入門 2017
論文の書き方入門 2017論文の書き方入門 2017
論文の書き方入門 2017
 
協力ゲーム理論でXAI (説明可能なAI) を目指すSHAP (Shapley Additive exPlanation)
協力ゲーム理論でXAI (説明可能なAI) を目指すSHAP (Shapley Additive exPlanation)協力ゲーム理論でXAI (説明可能なAI) を目指すSHAP (Shapley Additive exPlanation)
協力ゲーム理論でXAI (説明可能なAI) を目指すSHAP (Shapley Additive exPlanation)
 
データサイエンスの全体像とデータサイエンティスト
データサイエンスの全体像とデータサイエンティストデータサイエンスの全体像とデータサイエンティスト
データサイエンスの全体像とデータサイエンティスト
 
機械学習システムを受託開発 する時に気をつけておきたい事
機械学習システムを受託開発 する時に気をつけておきたい事機械学習システムを受託開発 する時に気をつけておきたい事
機械学習システムを受託開発 する時に気をつけておきたい事
 

En vedette

初心者のためのRとRStudio入門 vol.2
初心者のためのRとRStudio入門 vol.2初心者のためのRとRStudio入門 vol.2
初心者のためのRとRStudio入門 vol.2OWL.learn
 
Impact of big data on analytics
Impact of big data on analyticsImpact of big data on analytics
Impact of big data on analyticsCapgemini
 
Big Data and the Art of Data Science
Big Data and the Art of Data ScienceBig Data and the Art of Data Science
Big Data and the Art of Data ScienceAndrew Gardner
 
Big Data [sorry] & Data Science: What Does a Data Scientist Do?
Big Data [sorry] & Data Science: What Does a Data Scientist Do?Big Data [sorry] & Data Science: What Does a Data Scientist Do?
Big Data [sorry] & Data Science: What Does a Data Scientist Do?Data Science London
 
Deep Learningと画像認識   ~歴史・理論・実践~
Deep Learningと画像認識 ~歴史・理論・実践~Deep Learningと画像認識 ~歴史・理論・実践~
Deep Learningと画像認識   ~歴史・理論・実践~nlab_utokyo
 

En vedette (6)

初心者のためのRとRStudio入門 vol.2
初心者のためのRとRStudio入門 vol.2初心者のためのRとRStudio入門 vol.2
初心者のためのRとRStudio入門 vol.2
 
Impact of big data on analytics
Impact of big data on analyticsImpact of big data on analytics
Impact of big data on analytics
 
Big Data and the Art of Data Science
Big Data and the Art of Data ScienceBig Data and the Art of Data Science
Big Data and the Art of Data Science
 
データサイエンスの全体像
データサイエンスの全体像データサイエンスの全体像
データサイエンスの全体像
 
Big Data [sorry] & Data Science: What Does a Data Scientist Do?
Big Data [sorry] & Data Science: What Does a Data Scientist Do?Big Data [sorry] & Data Science: What Does a Data Scientist Do?
Big Data [sorry] & Data Science: What Does a Data Scientist Do?
 
Deep Learningと画像認識   ~歴史・理論・実践~
Deep Learningと画像認識 ~歴史・理論・実践~Deep Learningと画像認識 ~歴史・理論・実践~
Deep Learningと画像認識   ~歴史・理論・実践~
 

Similaire à 分析せよ!と言われて困っているあなたへの処方箋

データサイエンティストとは? そのスキル/ナレッジレベル定義の必要性
データサイエンティストとは? そのスキル/ナレッジレベル定義の必要性データサイエンティストとは? そのスキル/ナレッジレベル定義の必要性
データサイエンティストとは? そのスキル/ナレッジレベル定義の必要性BrainPad Inc.
 
All Analytics Championship Powered by SAS ~データサイエンス・アドベンチャー杯~Guideline
All Analytics Championship Powered by SAS ~データサイエンス・アドベンチャー杯~Guideline All Analytics Championship Powered by SAS ~データサイエンス・アドベンチャー杯~Guideline
All Analytics Championship Powered by SAS ~データサイエンス・アドベンチャー杯~Guideline Analytics2014
 
(道具としての)データサイエンティストのつかい方
(道具としての)データサイエンティストのつかい方(道具としての)データサイエンティストのつかい方
(道具としての)データサイエンティストのつかい方Shohei Hido
 
Session4:「先進ビッグデータ応用を支える機械学習に求められる新技術」/比戸将平
Session4:「先進ビッグデータ応用を支える機械学習に求められる新技術」/比戸将平Session4:「先進ビッグデータ応用を支える機械学習に求められる新技術」/比戸将平
Session4:「先進ビッグデータ応用を支える機械学習に求められる新技術」/比戸将平Preferred Networks
 
Rで学ぶミニミニビッグデータ分析入門-第2回
Rで学ぶミニミニビッグデータ分析入門-第2回 Rで学ぶミニミニビッグデータ分析入門-第2回
Rで学ぶミニミニビッグデータ分析入門-第2回 Naruhiko Shiratori
 
【スクー】業務改善のためのデータサイエンス
【スクー】業務改善のためのデータサイエンス【スクー】業務改善のためのデータサイエンス
【スクー】業務改善のためのデータサイエンスIssei Kurahashi
 
避けては通れないビッグデータ周辺の重要課題
避けては通れないビッグデータ周辺の重要課題避けては通れないビッグデータ周辺の重要課題
避けては通れないビッグデータ周辺の重要課題kurikiyo
 
オープンデータを使った新しいビジネスモデルの可能性(データビジネス創造フォーラム)
オープンデータを使った新しいビジネスモデルの可能性(データビジネス創造フォーラム)オープンデータを使った新しいビジネスモデルの可能性(データビジネス創造フォーラム)
オープンデータを使った新しいビジネスモデルの可能性(データビジネス創造フォーラム)Tetsuro Toyoda
 
Big data解析ビジネス
Big data解析ビジネスBig data解析ビジネス
Big data解析ビジネスMie Mori
 
データジャーナリズム―異業種のコラボレーションがニュースを変える― (2013年12月)
データジャーナリズム―異業種のコラボレーションがニュースを変える― (2013年12月)データジャーナリズム―異業種のコラボレーションがニュースを変える― (2013年12月)
データジャーナリズム―異業種のコラボレーションがニュースを変える― (2013年12月)yuzoakakura
 
Udc 2016 no112_スライド_20170127
Udc 2016 no112_スライド_20170127Udc 2016 no112_スライド_20170127
Udc 2016 no112_スライド_20170127Yoshiaki_Takabe
 
Udc 2016 no112_スライド_20170127
Udc 2016 no112_スライド_20170127Udc 2016 no112_スライド_20170127
Udc 2016 no112_スライド_20170127Yoshiaki_Takabe
 
安全在庫を確保するための売上予測
安全在庫を確保するための売上予測安全在庫を確保するための売上予測
安全在庫を確保するための売上予測IBM Analytics Japan
 
【schoo WEB-campus】#49業務改善のためのデータサイエンス 先生:倉橋一成
【schoo WEB-campus】#49業務改善のためのデータサイエンス 先生:倉橋一成【schoo WEB-campus】#49業務改善のためのデータサイエンス 先生:倉橋一成
【schoo WEB-campus】#49業務改善のためのデータサイエンス 先生:倉橋一成webcampusschoo
 
20120822_dstn技術交流会_DataSpider接続先技術動向
20120822_dstn技術交流会_DataSpider接続先技術動向20120822_dstn技術交流会_DataSpider接続先技術動向
20120822_dstn技術交流会_DataSpider接続先技術動向dstn
 
【NABLAS株式会社】採用ピッチ資料 Ver. 2023.pdf
【NABLAS株式会社】採用ピッチ資料 Ver. 2023.pdf【NABLAS株式会社】採用ピッチ資料 Ver. 2023.pdf
【NABLAS株式会社】採用ピッチ資料 Ver. 2023.pdfNABLAS株式会社
 
大規模データ時代に求められる自然言語処理
大規模データ時代に求められる自然言語処理大規模データ時代に求められる自然言語処理
大規模データ時代に求められる自然言語処理Preferred Networks
 

Similaire à 分析せよ!と言われて困っているあなたへの処方箋 (20)

tut_pfi_2012
tut_pfi_2012tut_pfi_2012
tut_pfi_2012
 
データサイエンティストとは? そのスキル/ナレッジレベル定義の必要性
データサイエンティストとは? そのスキル/ナレッジレベル定義の必要性データサイエンティストとは? そのスキル/ナレッジレベル定義の必要性
データサイエンティストとは? そのスキル/ナレッジレベル定義の必要性
 
All Analytics Championship Powered by SAS ~データサイエンス・アドベンチャー杯~Guideline
All Analytics Championship Powered by SAS ~データサイエンス・アドベンチャー杯~Guideline All Analytics Championship Powered by SAS ~データサイエンス・アドベンチャー杯~Guideline
All Analytics Championship Powered by SAS ~データサイエンス・アドベンチャー杯~Guideline
 
(道具としての)データサイエンティストのつかい方
(道具としての)データサイエンティストのつかい方(道具としての)データサイエンティストのつかい方
(道具としての)データサイエンティストのつかい方
 
Session4:「先進ビッグデータ応用を支える機械学習に求められる新技術」/比戸将平
Session4:「先進ビッグデータ応用を支える機械学習に求められる新技術」/比戸将平Session4:「先進ビッグデータ応用を支える機械学習に求められる新技術」/比戸将平
Session4:「先進ビッグデータ応用を支える機械学習に求められる新技術」/比戸将平
 
Rで学ぶミニミニビッグデータ分析入門-第2回
Rで学ぶミニミニビッグデータ分析入門-第2回 Rで学ぶミニミニビッグデータ分析入門-第2回
Rで学ぶミニミニビッグデータ分析入門-第2回
 
おしゃスタat銀座
おしゃスタat銀座おしゃスタat銀座
おしゃスタat銀座
 
【スクー】業務改善のためのデータサイエンス
【スクー】業務改善のためのデータサイエンス【スクー】業務改善のためのデータサイエンス
【スクー】業務改善のためのデータサイエンス
 
避けては通れないビッグデータ周辺の重要課題
避けては通れないビッグデータ周辺の重要課題避けては通れないビッグデータ周辺の重要課題
避けては通れないビッグデータ周辺の重要課題
 
オープンデータを使った新しいビジネスモデルの可能性(データビジネス創造フォーラム)
オープンデータを使った新しいビジネスモデルの可能性(データビジネス創造フォーラム)オープンデータを使った新しいビジネスモデルの可能性(データビジネス創造フォーラム)
オープンデータを使った新しいビジネスモデルの可能性(データビジネス創造フォーラム)
 
Big data解析ビジネス
Big data解析ビジネスBig data解析ビジネス
Big data解析ビジネス
 
bigdata2012nlp okanohara
bigdata2012nlp okanoharabigdata2012nlp okanohara
bigdata2012nlp okanohara
 
データジャーナリズム―異業種のコラボレーションがニュースを変える― (2013年12月)
データジャーナリズム―異業種のコラボレーションがニュースを変える― (2013年12月)データジャーナリズム―異業種のコラボレーションがニュースを変える― (2013年12月)
データジャーナリズム―異業種のコラボレーションがニュースを変える― (2013年12月)
 
Udc 2016 no112_スライド_20170127
Udc 2016 no112_スライド_20170127Udc 2016 no112_スライド_20170127
Udc 2016 no112_スライド_20170127
 
Udc 2016 no112_スライド_20170127
Udc 2016 no112_スライド_20170127Udc 2016 no112_スライド_20170127
Udc 2016 no112_スライド_20170127
 
安全在庫を確保するための売上予測
安全在庫を確保するための売上予測安全在庫を確保するための売上予測
安全在庫を確保するための売上予測
 
【schoo WEB-campus】#49業務改善のためのデータサイエンス 先生:倉橋一成
【schoo WEB-campus】#49業務改善のためのデータサイエンス 先生:倉橋一成【schoo WEB-campus】#49業務改善のためのデータサイエンス 先生:倉橋一成
【schoo WEB-campus】#49業務改善のためのデータサイエンス 先生:倉橋一成
 
20120822_dstn技術交流会_DataSpider接続先技術動向
20120822_dstn技術交流会_DataSpider接続先技術動向20120822_dstn技術交流会_DataSpider接続先技術動向
20120822_dstn技術交流会_DataSpider接続先技術動向
 
【NABLAS株式会社】採用ピッチ資料 Ver. 2023.pdf
【NABLAS株式会社】採用ピッチ資料 Ver. 2023.pdf【NABLAS株式会社】採用ピッチ資料 Ver. 2023.pdf
【NABLAS株式会社】採用ピッチ資料 Ver. 2023.pdf
 
大規模データ時代に求められる自然言語処理
大規模データ時代に求められる自然言語処理大規模データ時代に求められる自然言語処理
大規模データ時代に求められる自然言語処理
 

Plus de The Japan DataScientist Society

AI・データ利活用継続の鍵はビジネススキル
AI・データ利活用継続の鍵はビジネススキルAI・データ利活用継続の鍵はビジネススキル
AI・データ利活用継続の鍵はビジネススキルThe Japan DataScientist Society
 
コニカミノルタにおけるデータドリブンPLMの取り組み
コニカミノルタにおけるデータドリブンPLMの取り組みコニカミノルタにおけるデータドリブンPLMの取り組み
コニカミノルタにおけるデータドリブンPLMの取り組みThe Japan DataScientist Society
 
データサイエンティストのリアル-2015年~2019年 一般(個人)会員アンケートより
データサイエンティストのリアル-2015年~2019年 一般(個人)会員アンケートよりデータサイエンティストのリアル-2015年~2019年 一般(個人)会員アンケートより
データサイエンティストのリアル-2015年~2019年 一般(個人)会員アンケートよりThe Japan DataScientist Society
 
エントリー層向けセミナー#04『はじめての最適化』
エントリー層向けセミナー#04『はじめての最適化』エントリー層向けセミナー#04『はじめての最適化』
エントリー層向けセミナー#04『はじめての最適化』The Japan DataScientist Society
 
基礎から学ぶ! インダストリアルIoTの実現に必須のセンサ計測と予知保全の動向
基礎から学ぶ! インダストリアルIoTの実現に必須のセンサ計測と予知保全の動向基礎から学ぶ! インダストリアルIoTの実現に必須のセンサ計測と予知保全の動向
基礎から学ぶ! インダストリアルIoTの実現に必須のセンサ計測と予知保全の動向The Japan DataScientist Society
 
機械学習の先端センシングへの適用と展望
機械学習の先端センシングへの適用と展望機械学習の先端センシングへの適用と展望
機械学習の先端センシングへの適用と展望The Japan DataScientist Society
 
『機械学習による故障予測・異常検知 事例紹介とデータ分析プロジェクト推進ポイント』
『機械学習による故障予測・異常検知 事例紹介とデータ分析プロジェクト推進ポイント』『機械学習による故障予測・異常検知 事例紹介とデータ分析プロジェクト推進ポイント』
『機械学習による故障予測・異常検知 事例紹介とデータ分析プロジェクト推進ポイント』The Japan DataScientist Society
 
データサイエンティスト協会 会員制度説明資料
データサイエンティスト協会 会員制度説明資料データサイエンティスト協会 会員制度説明資料
データサイエンティスト協会 会員制度説明資料The Japan DataScientist Society
 
データサイエンティスト協会スキル委員会4thシンポジウム講演資料
データサイエンティスト協会スキル委員会4thシンポジウム講演資料データサイエンティスト協会スキル委員会4thシンポジウム講演資料
データサイエンティスト協会スキル委員会4thシンポジウム講演資料The Japan DataScientist Society
 
コグニティブ・ファクトリーの実像とIoT時代に求められるデータ・サイエンティストとは?ー製造業の視点からー
コグニティブ・ファクトリーの実像とIoT時代に求められるデータ・サイエンティストとは?ー製造業の視点からーコグニティブ・ファクトリーの実像とIoT時代に求められるデータ・サイエンティストとは?ー製造業の視点からー
コグニティブ・ファクトリーの実像とIoT時代に求められるデータ・サイエンティストとは?ー製造業の視点からーThe Japan DataScientist Society
 
製造現場におけるAI×IoT導入と利活用~IoTによる設備のモニタリングとAIによる設備監視の高度化~
製造現場におけるAI×IoT導入と利活用~IoTによる設備のモニタリングとAIによる設備監視の高度化~製造現場におけるAI×IoT導入と利活用~IoTによる設備のモニタリングとAIによる設備監視の高度化~
製造現場におけるAI×IoT導入と利活用~IoTによる設備のモニタリングとAIによる設備監視の高度化~The Japan DataScientist Society
 
基礎から学ぶ!インダストリアルIoTの実現に必須のセンサ計測とエッジコンピューティング
基礎から学ぶ!インダストリアルIoTの実現に必須のセンサ計測とエッジコンピューティング基礎から学ぶ!インダストリアルIoTの実現に必須のセンサ計測とエッジコンピューティング
基礎から学ぶ!インダストリアルIoTの実現に必須のセンサ計測とエッジコンピューティングThe Japan DataScientist Society
 
データ分析に必要なスキルをつけるためのツール~Jupyter notebook、r連携、機械学習からsparkまで~
データ分析に必要なスキルをつけるためのツール~Jupyter notebook、r連携、機械学習からsparkまで~データ分析に必要なスキルをつけるためのツール~Jupyter notebook、r連携、機械学習からsparkまで~
データ分析に必要なスキルをつけるためのツール~Jupyter notebook、r連携、機械学習からsparkまで~The Japan DataScientist Society
 
データサイエンティスト スキルチェックシート(抜粋版)
データサイエンティスト スキルチェックシート(抜粋版)データサイエンティスト スキルチェックシート(抜粋版)
データサイエンティスト スキルチェックシート(抜粋版)The Japan DataScientist Society
 
データサイエンティスト スキルチェックリスト
データサイエンティスト スキルチェックリストデータサイエンティスト スキルチェックリスト
データサイエンティスト スキルチェックリストThe Japan DataScientist Society
 
データサイエンティスト協会スキル委員会2ndシンポジウム講演資料
データサイエンティスト協会スキル委員会2ndシンポジウム講演資料データサイエンティスト協会スキル委員会2ndシンポジウム講演資料
データサイエンティスト協会スキル委員会2ndシンポジウム講演資料The Japan DataScientist Society
 

Plus de The Japan DataScientist Society (20)

学生から見たデータサイエンティスト
学生から見たデータサイエンティスト学生から見たデータサイエンティスト
学生から見たデータサイエンティスト
 
データサイエンティストの就労意識
データサイエンティストの就労意識データサイエンティストの就労意識
データサイエンティストの就労意識
 
AI・データ利活用継続の鍵はビジネススキル
AI・データ利活用継続の鍵はビジネススキルAI・データ利活用継続の鍵はビジネススキル
AI・データ利活用継続の鍵はビジネススキル
 
コニカミノルタにおけるデータドリブンPLMの取り組み
コニカミノルタにおけるデータドリブンPLMの取り組みコニカミノルタにおけるデータドリブンPLMの取り組み
コニカミノルタにおけるデータドリブンPLMの取り組み
 
データサイエンティストのリアル-2015年~2019年 一般(個人)会員アンケートより
データサイエンティストのリアル-2015年~2019年 一般(個人)会員アンケートよりデータサイエンティストのリアル-2015年~2019年 一般(個人)会員アンケートより
データサイエンティストのリアル-2015年~2019年 一般(個人)会員アンケートより
 
エントリー層向けセミナー#04『はじめての最適化』
エントリー層向けセミナー#04『はじめての最適化』エントリー層向けセミナー#04『はじめての最適化』
エントリー層向けセミナー#04『はじめての最適化』
 
基礎から学ぶ! インダストリアルIoTの実現に必須のセンサ計測と予知保全の動向
基礎から学ぶ! インダストリアルIoTの実現に必須のセンサ計測と予知保全の動向基礎から学ぶ! インダストリアルIoTの実現に必須のセンサ計測と予知保全の動向
基礎から学ぶ! インダストリアルIoTの実現に必須のセンサ計測と予知保全の動向
 
機械学習の先端センシングへの適用と展望
機械学習の先端センシングへの適用と展望機械学習の先端センシングへの適用と展望
機械学習の先端センシングへの適用と展望
 
『機械学習による故障予測・異常検知 事例紹介とデータ分析プロジェクト推進ポイント』
『機械学習による故障予測・異常検知 事例紹介とデータ分析プロジェクト推進ポイント』『機械学習による故障予測・異常検知 事例紹介とデータ分析プロジェクト推進ポイント』
『機械学習による故障予測・異常検知 事例紹介とデータ分析プロジェクト推進ポイント』
 
データサイエンティスト協会 会員制度説明資料
データサイエンティスト協会 会員制度説明資料データサイエンティスト協会 会員制度説明資料
データサイエンティスト協会 会員制度説明資料
 
スキルチェックリスト 2017年版
スキルチェックリスト 2017年版スキルチェックリスト 2017年版
スキルチェックリスト 2017年版
 
データサイエンティスト協会スキル委員会4thシンポジウム講演資料
データサイエンティスト協会スキル委員会4thシンポジウム講演資料データサイエンティスト協会スキル委員会4thシンポジウム講演資料
データサイエンティスト協会スキル委員会4thシンポジウム講演資料
 
コグニティブ・ファクトリーの実像とIoT時代に求められるデータ・サイエンティストとは?ー製造業の視点からー
コグニティブ・ファクトリーの実像とIoT時代に求められるデータ・サイエンティストとは?ー製造業の視点からーコグニティブ・ファクトリーの実像とIoT時代に求められるデータ・サイエンティストとは?ー製造業の視点からー
コグニティブ・ファクトリーの実像とIoT時代に求められるデータ・サイエンティストとは?ー製造業の視点からー
 
製造現場におけるAI×IoT導入と利活用~IoTによる設備のモニタリングとAIによる設備監視の高度化~
製造現場におけるAI×IoT導入と利活用~IoTによる設備のモニタリングとAIによる設備監視の高度化~製造現場におけるAI×IoT導入と利活用~IoTによる設備のモニタリングとAIによる設備監視の高度化~
製造現場におけるAI×IoT導入と利活用~IoTによる設備のモニタリングとAIによる設備監視の高度化~
 
基礎から学ぶ!インダストリアルIoTの実現に必須のセンサ計測とエッジコンピューティング
基礎から学ぶ!インダストリアルIoTの実現に必須のセンサ計測とエッジコンピューティング基礎から学ぶ!インダストリアルIoTの実現に必須のセンサ計測とエッジコンピューティング
基礎から学ぶ!インダストリアルIoTの実現に必須のセンサ計測とエッジコンピューティング
 
データ分析に必要なスキルをつけるためのツール~Jupyter notebook、r連携、機械学習からsparkまで~
データ分析に必要なスキルをつけるためのツール~Jupyter notebook、r連携、機械学習からsparkまで~データ分析に必要なスキルをつけるためのツール~Jupyter notebook、r連携、機械学習からsparkまで~
データ分析に必要なスキルをつけるためのツール~Jupyter notebook、r連携、機械学習からsparkまで~
 
データサイエンス業務と「ツール」
データサイエンス業務と「ツール」データサイエンス業務と「ツール」
データサイエンス業務と「ツール」
 
データサイエンティスト スキルチェックシート(抜粋版)
データサイエンティスト スキルチェックシート(抜粋版)データサイエンティスト スキルチェックシート(抜粋版)
データサイエンティスト スキルチェックシート(抜粋版)
 
データサイエンティスト スキルチェックリスト
データサイエンティスト スキルチェックリストデータサイエンティスト スキルチェックリスト
データサイエンティスト スキルチェックリスト
 
データサイエンティスト協会スキル委員会2ndシンポジウム講演資料
データサイエンティスト協会スキル委員会2ndシンポジウム講演資料データサイエンティスト協会スキル委員会2ndシンポジウム講演資料
データサイエンティスト協会スキル委員会2ndシンポジウム講演資料
 

分析せよ!と言われて困っているあなたへの処方箋

  • 2. Copyright © 2016 The Japan DataScientist Society. All Rights Reserved. データサイエンティスト協会 目的 社会のビッグデータ化に伴い重要視されているデータサイエンティスト(分析人材)の育成のため、 その技能(スキル)要件の定義・標準化を推進し、社会に対する普及啓蒙活動を行う。 分析技術認定(レベル認定)などの活動を通じて、分析能力の向上を図るための提言や協力を惜しまな い支援機関として、高度人材の育成とデータ分析業界の健全な発展に貢献する。
  • 3. Copyright © 2016 The Japan DataScientist Society. All Rights Reserved. データサイエンティスト協会 3rdシンポジウム 2 今年のテーマは、「人工知能時代のデータサイエンティスト」 AIへの関心の高まりと利用事例が増える中、データサイエ ンティストに求められる新しい役割を浮き彫りにします 日時 : 2016年10月14日(金) 10:00~20:00 会場 : JPタワー ホール&カンファレンス(丸の内) 参加費: 事前割引 14,000円 当日 17,000円 http://www.datascientist.or.jp/symp/2016/
  • 4. Copyright © 2016 The Japan DataScientist Society. All Rights Reserved. 3 ケーススタディ
  • 5. Copyright © 2016 The Japan DataScientist Society. All Rights Reserved. 小型化への挑戦 4
  • 6. Copyright © 2016 The Japan DataScientist Society. All Rights Reserved. 5 https://www.koaglobal.com/product/ltcc-basic 製造プロセス
  • 7. Copyright © 2016 The Japan DataScientist Society. All Rights Reserved. 6 品質分析ビッグ データ 項目数:約 15,000 ①初期調査 収縮率変動は、原料生成後 特性Aの寄与が大きい。 ②メカニズム 原因は焼成温度? →温度管理はされている。 →実温のばらつき! ③試行 設定温度一定から実温管理 収束するがまだ変動あり。 試行1回目 ①改善後追加調 査 収縮率変動は、原料物性 値Cの寄与が見られる。 ②メカニズム 原因はD工程の加工? →物質E量のばらつき! ③試行 ロット毎に物質E量測定 Cのあわせ込み 試行2回目 分析サイクル
  • 8. Copyright © 2016 The Japan DataScientist Society. All Rights Reserved. 7 データサイエンティストのスキル
  • 9. Copyright © 2016 The Japan DataScientist Society. All Rights Reserved. 8 様々な分析サイクル 現状の課題把握 課題の対策 対策規定実行 現場改善
  • 10. Copyright © 2016 The Japan DataScientist Society. All Rights Reserved. 9 分析ができない原因を考察
  • 11. Copyright © 2016 The Japan DataScientist Society. All Rights Reserved. 10 分析が定着しない原因は・・・ なかなか分析が定着しない理由 ・目標設定 ・サイクルが回らない。 ・課題発見 ・関係者 ・データ整備 ・・・
  • 12. Copyright © 2016 The Japan DataScientist Society. All Rights Reserved. 11 効果があり着手しやすい領域を考える 共通分析情報基盤 現状把握 効率化・改善 創造・立案 ・定例レポート ・施策評価レポート ・予実レポート ビジネスインテリジェンス ビジネスアナリティクス ・ターゲティングモデル ・受注予測モデル ・発注最適化モデル ・構造解析モデル 予測値 レポート データ モデル開発 データ データサイエンス ・顧客セグメンテーション ・プロダクトマッピング ・レコメンド ・テキスト分析 分析用 データ 新情報 付加 ・ライフスタイル推定 企画実行評価
  • 13. Copyright © 2016 The Japan DataScientist Society. All Rights Reserved. 12 まずは予測モデルから
  • 14. Copyright © 2016 The Japan DataScientist Society. All Rights Reserved. 13 予測モデルを開発する前に考えるべきこと 課題の理解・目的の設定 何を予測(推定)できればうれしいのか? 課題をとりまく環境の理解 なぜそのような結果になるのか? 手法の理解 可読性・精度
  • 15. Copyright © 2016 The Japan DataScientist Society. All Rights Reserved. 14 予測モデルの例(教師付学習) 商談成約率 売上予測 不正検知 ネットワーク 故障
  • 16. Copyright © 2016 The Japan DataScientist Society. All Rights Reserved. 15 予測モデルのトレンド NTTドコモが所有する気象データを予測材料とし、JR東日本の首都圏10路線の 支障(遅延、運休など)を予測する。 NTTドコモ主催のコンペ 参加者 総勢48人の参加者が683種類の予測モデルを構築。 結果 精度1位 : ニューラルネットワーク 2位 : ランダムフォレスト、ニューラルネットワーク等のアンサンブル 3位 : 勾配ブースティング 上位はすべて 機械学習
  • 17. Copyright © 2016 The Japan DataScientist Society. All Rights Reserved. 16 モデル手法:決定木 顧客番号 購入金額 購入回数 鮮度 ・・・・ 応募 0001 5,000 5 1 0 0002 3,000 8 3 1 0003 20,000 10 4 0 0004 4,000 2 5 1 0005 500 6 2 0 ・・・ ・・・ 過去データ(キャンペーン応募) 応募者の特徴(ルール) 応募者 60% 購入金額 3000円未満 3000円以上 30% 80% ツリー(木)が1本なのでルールを読み取りやすい
  • 18. Copyright © 2016 The Japan DataScientist Society. All Rights Reserved. 17 モデル手法:ランダムフォレスト 過去データ (キャンペーン応募) 応募者の特徴 (ルール) 顧客番号 購入金額 購入回数 鮮度 ・・・・ 応募 0001 5,000 5 1 0 0002 3,000 8 3 1 0003 20,000 10 4 0 0004 4,000 2 5 1 0005 500 6 2 0 ・・・ ・・・ 予測する ツリー(木)がたくさんのフォレスト(森)なので ルールを読み取りにくい 計算量も増える けど、予測精度はよい。
  • 19. Copyright © 2016 The Japan DataScientist Society. All Rights Reserved. 18 決定木とランダムフォレストの違い 1つのモデル(木)は 融通が利かない →汎化能力が低い 複数のモデル(森)は 融通が利く →汎化能力が高い 汎化能力が高いほど予測誤差は少ない。 複数モデルを作るにはデータ数が必要
  • 20. Copyright © 2016 The Japan DataScientist Society. All Rights Reserved. 19 汎化能力とは 新しいデータでも正しく予測できる能力 ・・・・ 汎化能力 汎化能力が高い = 汎化誤差が少ない 汎化誤差 ・・・ 新しいデータに当てはめたときの誤差 汎化誤差=モデル構築データ選び方+手法の適合性・パラメタ+ノイズ モデル構築データの誤差を少なくするには ・・・ 1:データを増やす/手法を変える 2:多数のトレーニングを行う
  • 21. Copyright © 2016 The Japan DataScientist Society. All Rights Reserved. 20 モデル開発のプロセス データ収集 モデル開発 モデル評価 実装 精度評価
  • 22. Copyright © 2016 The Japan DataScientist Society. All Rights Reserved. 21 Step1:データ収集 モデル開発用データを定義する。 事前確認 モデル開発単位の定義 ターゲットの定義 ターゲットの評価期間 データ(変数)加工 データ抽出(サンプリング)
  • 23. Copyright © 2016 The Japan DataScientist Society. All Rights Reserved. 22 Step1:データ収集 ■事前確認 モデル開発に必要なデータ項目・取得可能なデータ項目の確認 ・モデル開発対象(ターゲット)の定義 ・スコアリング時点で取得できる情報 ・取得できるデータの保存期間 ・季節性の影響 ・リレーションキー ・ユニーク条件 ・モデル開発対象とスコアリング対象の差 ・マスターコードの追加・変更
  • 24. Copyright © 2016 The Japan DataScientist Society. All Rights Reserved. 23 ■モデル開発単位の定義 1つのモデルだけで対象者全員をスコアリングする 対象を分類してそれぞれのモデルでスコアリングする 一般にモデルの開発単位(セグメント)は、1つのモデルでス コアリングするよりも特徴的な行動などで対象を分類し、類似 する集団毎にモデルを開発する方が精度が上がると言われて います。 Step1:データ収集
  • 25. Copyright © 2016 The Japan DataScientist Society. All Rights Reserved. 24 ■ターゲットの定義 Step1:データ収集 少ないターゲット数で開発したモデルは、発生傾向が集団 ではなく個で表現されるモデルになるため、予測精度が不安 定になることが多い。 ターゲット件数 OK 対応検討 ターゲット定義緩和 (その他ウェイト調整など) 十分 不足
  • 26. Copyright © 2016 The Japan DataScientist Society. All Rights Reserved. 25 Step1:データ収集 ■データ(変数)加工 ■欠損値の取り扱い方法の検討 除去 補間(中央値、平均値、etc) ■定性データ 属性の最新データ ■定量データ 一定期間の平均 差分、比率の算出など ■グルーピング(離散化)
  • 27. Copyright © 2016 The Japan DataScientist Society. All Rights Reserved. 26 データ分割 変数選択 モデルの作成 Step2:モデル開発
  • 28. Copyright © 2016 The Japan DataScientist Society. All Rights Reserved. 27 ■データ分割 モデル開発データをモデル開発用の学習データとモデル評 価用の検証データに分割し、過学習を抑止する。 モデル 開発データ 学習データ(70%) 検証データ(30%) モデル作成 モデル当てはめ Step2:モデル開発
  • 29. Copyright © 2016 The Japan DataScientist Society. All Rights Reserved. 28 ■変数選択 モデルの説明変数を以下の変数選択法を指定して選択 することができる。 減少法(Backward) 増加法(Forward) ステップワイズ法(Stepwise) なし(None) モデルの説明変数は必要以上に増やせば増やすほど学習 データのノイズにまでフィットしてしまうため学習データでの当て はまりがよくても汎化誤差が増える。
  • 30. Copyright © 2016 The Japan DataScientist Society. All Rights Reserved. 29 ■変数選択 減少法(Backward) 全ての候補変数をモデル式に追加し、そこから設定した有意水準で 有意でないと判断した変数をモデルから除去する。 一度モデルから除かれた変数は二度とモデルに含まれない。 設定した有意水準で有意でない変数がなくなるまで変数の除去が 続けられる。 増加法(Forward) 切片のみのモデル式に、最も有意な変数を追加する。 一度モデルに追加した変数は二度とモデルから外されない。 設定した有意水準で有意となる変数がなくなるまで変数の追加が続 けられる。
  • 31. Copyright © 2016 The Japan DataScientist Society. All Rights Reserved. 30 ■変数選択 ステップワイズ法(Stepwise) 切片のみのモデル式に、最も有意な変数を追加する。 一度モデルから追加した変数であってもモデル内で効果が無いと判 断された場合は除去する。 次元削減(主成分分析) 変数クラスタリング
  • 32. Copyright © 2016 The Japan DataScientist Society. All Rights Reserved. 31 ■変数選択 (自動)変数選択法は非常にパワフルで明快な方法であるため、 開発者がその結果に頼ってしまうという間違いに陥りやすい。 極端に言えば、(自動)変数選択法の結果を完全に信用していい 状況とは、開発者にどの説明変数をモデルに採用すれば良いかに関 する知識が全く無い場合だけである。 通常、開発者は何らかの仮説、理論、既知の知識を持っている。 (自動)変数選択法はあくまでも補助的な情報として用いるべきで あり、開発者の経験からくる仮説、理論、既知の知識などを変数選 択の結果よりも優先することが薦められる。
  • 33. Copyright © 2016 The Japan DataScientist Society. All Rights Reserved. 32 ■モデルの作成 モデルによって得手不得手があるので、分析によって使い分けるのがよい。 • 決定木 • 線形回帰 • ロジスティック回帰 • PLS回帰 • ニューラルネットワーク • 順序ロジット • 順序ロジットは、ロジスティック回帰でターゲットが順序変数である場合のモデル。 • SVM (Support Vector Machine) • k近傍法 • k近傍法は、自身と似ている(例えば入力変数間の距離が近い)データのターゲット変数を見て、それら の多数決で自身のターゲット変数を予測するという簡単な方法 予測モデルの組合せ 予測結果を出すのに使うモデルは必ずしも一つでなくても良い。複数のモデルの予測値を組み合わせても良い。 • 多数決: 複数モデルの予測結果の多数決をとる。 • ブースティング: 重み付きの多数決の方法。過去の事例に対して正解が多いモデルに大きな重みを付ける。 複数モデルの予測結果を、この重みに従って足し合わせる(多数決を取る)。
  • 34. Copyright © 2016 The Japan DataScientist Society. All Rights Reserved. 33 データ収集 モデル開発 モデル評価 Step3:モデル評価 ■ターゲットの補足割合を評価 CAP曲線とは 横軸にターゲットの発生率の高い順(スコア昇順)に 10分位点(Decile)をとり、縦軸に各十分位点にお ける累積ターゲット発生率(ターゲット補足率)をとっ たプロットに示される曲線。 モデルに全く説明力が無く、予測ターゲット発生率と実 際のターゲット発生率に関係がない場合、どのような予 測発生率のレベルであろうと、同じ割合で実際のター ゲットが含まれているため、CAP曲線は45度線上にプ ロットされる。 またモデルの説明力が高い場合は、低い十分位点で 多くのターゲットが補足できている曲線がプロットされる。
  • 35. Copyright © 2016 The Japan DataScientist Society. All Rights Reserved. 34 データ収集 モデル開発 モデル評価 Step3:モデル評価 ■モデルの判別精度を評価 ⇒KS(Kolmogorov Smirnov)値を確認 KS値とは 横軸にスコア値(昇順)、縦軸に実績のターゲット、非ターゲット別にスコアの低い順 からの累積全体構成比をプロットし、二つの曲線が最大に開いた値。値が大きいほど 判別力が高い。 Good累積構成 比 Bad累積構成比 KS値
  • 36. Copyright © 2016 The Japan DataScientist Society. All Rights Reserved. 35 ROC曲線 ROC曲線の良さの指標(ROC曲線が左上に張り付いている度合)として、AUC(Area Under the Curve)がある。 • AUCは最小で0, 最大で1となる。 • 完璧な(100%正解する)モデルでは、AUC=1.0となる。 • ランダムな判断をする(サイコロを振って予測する)場合、AUC=0.5となる。 Step3:モデル評価
  • 37. Copyright © 2016 The Japan DataScientist Society. All Rights Reserved. R二乗 ターゲットは離散の場合でも連続の場合でも使える評価指標。 R二乗は、モデルによる予測値と実際のターゲット変数との相関係数の二乗。 R二乗は、モデルによる予測値と実際のターゲット変数との相関の大きさを表す。 • R二乗は0以上1以下の値を取る。0に近いほど予測精度が低く、1に近いほど予 測精度が高いことを表す。 • 100%正解するモデルでは、R二乗=1.0となる。 • 予測値とターゲットとの間に相関がまったくない場合には、R二乗=0となる。 Step3:モデル評価
  • 38. Copyright © 2016 The Japan DataScientist Society. All Rights Reserved. 37 まとめ