SlideShare une entreprise Scribd logo
1  sur  18
Télécharger pour lire hors ligne
2014.12.17
AnnakaTetsuya
第9回集合知プログラミング勉強会  
Chapter7 決定⽊木クラスタリング
担当範囲
  
7章    決定⽊木
n  7.1      サインアップを予測する
n  7.2      決定⽊木⼊入⾨門
n  7.3      ツリーのトレーニング
n  7.4      最⾼高の分割を選ぶ
n  7.5      再帰的なツリー構築
n  7.6  決定⽊木の表⽰示
n  7.7    新しい観測を分類する
n  7.8    ツリーの刈り込み
n  7.9  ⽋欠落落データへの対処
n  7.10  数値による帰結への対処
n  7.11  住宅宅価格のモデリング
n  7.12  Hotnessのモデル化
n  7.13  決定⽊木を使うべき場⾯面
2
今⽇日の⽬目次
  
n 7章    決定⽊木
n  決定⽊木について理理解
v  そもそも何をするものか?
v  決定⽊木の概要
v  決定⽊木の特徴(positive)
v  決定⽊木の特徴(negative)
v  応⽤用例例
n  決定⽊木クラスタリングを使ってみる
v  問題の確認(7.1)
v  データの準備(7.2)
v  まずは決定⽊木で分割してみる(7.3)
v  分割の良良し悪しの基準を導⼊入してみる(7.4)
v  ジニ不不純度度(7.4.1)
v  エントロピー(7.4.2)
v  決定⽊木で再帰的に分割する(7.5)
v  分割した決定⽊木を⾒見見てみる(7.6)
3
今⽇日の⽬目次
  
n 7章    決定⽊木
n  決定⽊木について理理解
v  そもそも何をするものか?
v  決定⽊木の概要
v  決定⽊木の特徴(positive)
v  決定⽊木の特徴(negative)
v  応⽤用例例
n  決定⽊木クラスタリングを使ってみる
v  問題の確認(7.1)
v  データの準備(7.2)
v  まずは決定⽊木で分割してみる(7.3)
v  分割の良良し悪しの基準を導⼊入してみる(7.4)
v  ジニ不不純度度(7.4.1)
v  エントロピー(7.4.2)
v  決定⽊木で再帰的に分割する(7.5)
v  分割した決定⽊木を⾒見見てみる(7.6)
4
⇒ 座学パート
⇒ 実践パート
今⽇日の⽬目次
  
n 7章    決定⽊木
n  決定⽊木について理理解
v  そもそも何をするものか?
v  決定⽊木の概要
v  決定⽊木の特徴(positive)
v  決定⽊木の特徴(negative)
v  応⽤用例例
n  決定⽊木クラスタリングを使ってみる
v  問題の確認(7.1)
v  データの準備(7.2)
v  まずは決定⽊木で分割してみる(7.3)
v  分割の良良し悪しの基準を導⼊入してみる(7.4)
v  ジニ不不純度度(7.4.1)
v  エントロピー(7.4.2)
v  決定⽊木で再帰的に分割する(7.5)
v  分割した決定⽊木を⾒見見てみる(7.6)
5
⇒ 座学パート
⇒ 実践パート
今⽇日持ち帰ること
v 決定⽊木の概要/特徴を理理解
v 決定⽊木を実装,  運⽤用してみる
v Lambda式の理理解
v PythonでのLambda式の記述
座学パート
決定⽊木について理理解
  
n 決定⽊木の概要
n  予測モデル
n  「⾊色は⾚赤いか」や「⼤大きさは  2.0以上か」といった単純な質問で分岐
n  ⾊色々な分割を試してみて、「最も良良い分割」で分割していく
http://careerhack.en-‐‑‒japan.com/report/detail/390
n  クラスタリング後には「⽊木」が⽣生成される
n  ⽐比較的シンプルなモデルのクラスタリング⼿手法
n  データマイニングの分野で最も使われている!らしい
7
決定⽊木について理理解
  
n 決定⽊木の実例例
http://www.altpaper.net/service/analysis_̲method/decisiontree.html
8
決定⽊木について理理解
  
n 決定⽊木の実例例
9
決定⽊木について理理解
  
n 決定⽊木の特徴(positive)
①  ⼈人間の主観を⼊入れることが可能
v  分岐条件を予め限定できる
v  ニューラルネットワークや,  SVMだとこうはいかない
②  分割が直感的
v  果物の分類だったら、「⾊色」「⼤大きさ」「収穫時期」など,  意味のある分割基準
v  分割後の結果を解釈しやすい(利利⽤用しやすい)
v  クラスタリングされていく過程も眺めることが可能
③  1度度分割してしまえば、異異なる粒粒度度のクラスを⼿手に⼊入れることができる
v  粒粒度度を変更更可能
v  複数回クラスタリングする必要がない
10
決定⽊木について理理解
  
n 決定⽊木の特徴(negative)
①  複雑な帰結は扱えない
v  OKな帰結:「課⾦金金プラン(none/basic/Premium)」でクラスタリング
v  NGな帰結:
  「課⾦金金プラン(None/Basic/Premium)、継続期間(⽇日)、アクセス頻度度」
  の全てが良良いユーザのクラスタリング
②  分岐の基準には単純なものしか扱えない
v  OKな分割基準「FAQを読んだか」「ページアクセスが20以上か」
v  NGな分割基準「FAQを読み、ページアクセスが20以上で、所在地がUSAか?」
v  指数関数的な分割をチェックしなければならない
v  計算量量的に難しい
11
決定⽊木について理理解
  
n 応⽤用例例
v  課⾦金金者  /  ⾮非課⾦金金者の特徴をとらえる
v  その特徴を持つセグメントへ向けたイベントの開催
v  顧客のプロファイリング
v  その特徴を持つセグメントへの広告投下
v  財務リスク分析
v  リスクの⼤大⼩小を理理解する?
v  医療療診断の⽀支援
v  簡単な質問により、患者の病気を正確に診断
v  交通量量予測
v  「◯の道路路が混み始めたから、□の道路路も混むだろう」
v  モデル数の削減、過学習を防ぐ
v  ⼿手話認識識システムへの応⽤用(安中の卒論論)
v  あ
12
扱う問題の設定の確認
  
n あるwebサービスを⽴立立ち上げた。ユーザの課⾦金金率率率を上げたい。
n Aさん「FAQがよく読まれてないのかも。FAQを全⾯面に押し出しましょう」
n Bさん「イギリスに住んでる⼈人が課⾦金金率率率が⾼高い気がする。イギリスでCMを流流しましょう」
n Cさん「恒常的に使ってくれるユーザに向け、課⾦金金をチラつかせるのが有効だ」
n ⼿手元には、各ユーザのデータを持っている
n どのサイトから⾶飛んできて登録したか(リファラー)
n 所在地
n FAQを読んだか
n ⾒見見たページ数
n 各ユーザは「無料料ユーザ」「Basicプランのユーザ」「プレミアムユーザ」のどれか(帰結)
n この問題は、決定⽊木クラスタリングを⽤用いると有効。なぜなら…
n 「イギリスに住んでおり、FAQを読んでいる⼈人が課⾦金金率率率が⾼高い」などの、シンプルな因
果関係で説明できそう
n 帰結が複雑ではない
n 条件分岐も複雑に設定しなくて済みそう
13
実践パート
扱う問題の設定の確認
  
n 学習マップ
15
まずは
分割の仕組みを作る
基準に基き
分割してみる
問題の確認
データの⽤用意
再帰的に分割
していく
結果表⽰示の
仕組み導⼊入
ジニ不不純度度
エントロピー
7.1 - 7.2
7.3
7.4
7.5
7.6
lambda式
付録:Labmda式について
  
n Lambda式とは?
n 関数の祖先
n LISPやHaskell,  Schemeなどの関数型⾔言語で利利⽤用されている(詳細は割愛。構⽂文が美しくて楽しいよ)
n 名前をつけていない関数(と理理解していただいて⼤大丈夫です)
n 実は、関数は「名前を付けたlambda式」
n PythonでのLambda式
16
引数 式
付録:情報ゲインについて
  
n 情報ゲインとは?
n 場合分けをして考えてみる
n 分割後のエントロピーの⽅方が⼩小さい  ⇒  情報ゲイン正
  (⼩小さければ⼩小さいほど情報ゲイン⼤大)
n 分割後のエントロピーの⽅方が⼤大きい  ⇒  情報ゲイン負
n この情報ゲインをどのように利利⽤用するか
n エントロピーを⼩小さくしていきたい。
  ⇒情報ゲインが⼤大きくなるような分割を選べばよい
17
情報ゲイン =
分割前の
エントロピー
分割後の
エントロピー
ー
18

Contenu connexe

Plus de Anchuuu Annaka

第四回 集合知プログラミング勉強会資料
第四回 集合知プログラミング勉強会資料第四回 集合知プログラミング勉強会資料
第四回 集合知プログラミング勉強会資料Anchuuu Annaka
 
O2O - marketing (chapter 2)
O2O - marketing (chapter 2)O2O - marketing (chapter 2)
O2O - marketing (chapter 2)Anchuuu Annaka
 
Research - Clauset Newman Moore(CNM) Algorithm
Research - Clauset Newman Moore(CNM) AlgorithmResearch - Clauset Newman Moore(CNM) Algorithm
Research - Clauset Newman Moore(CNM) AlgorithmAnchuuu Annaka
 
Rinko - Towards a Rubust Modeling of Temporal Interest Change for Behavioral ...
Rinko - Towards a Rubust Modeling of Temporal Interest Change for Behavioral ...Rinko - Towards a Rubust Modeling of Temporal Interest Change for Behavioral ...
Rinko - Towards a Rubust Modeling of Temporal Interest Change for Behavioral ...Anchuuu Annaka
 
Rinko - twitter mood predicts the stock market
Rinko - twitter mood predicts the stock marketRinko - twitter mood predicts the stock market
Rinko - twitter mood predicts the stock marketAnchuuu Annaka
 
Developed Applications
Developed ApplicationsDeveloped Applications
Developed ApplicationsAnchuuu Annaka
 

Plus de Anchuuu Annaka (6)

第四回 集合知プログラミング勉強会資料
第四回 集合知プログラミング勉強会資料第四回 集合知プログラミング勉強会資料
第四回 集合知プログラミング勉強会資料
 
O2O - marketing (chapter 2)
O2O - marketing (chapter 2)O2O - marketing (chapter 2)
O2O - marketing (chapter 2)
 
Research - Clauset Newman Moore(CNM) Algorithm
Research - Clauset Newman Moore(CNM) AlgorithmResearch - Clauset Newman Moore(CNM) Algorithm
Research - Clauset Newman Moore(CNM) Algorithm
 
Rinko - Towards a Rubust Modeling of Temporal Interest Change for Behavioral ...
Rinko - Towards a Rubust Modeling of Temporal Interest Change for Behavioral ...Rinko - Towards a Rubust Modeling of Temporal Interest Change for Behavioral ...
Rinko - Towards a Rubust Modeling of Temporal Interest Change for Behavioral ...
 
Rinko - twitter mood predicts the stock market
Rinko - twitter mood predicts the stock marketRinko - twitter mood predicts the stock market
Rinko - twitter mood predicts the stock market
 
Developed Applications
Developed ApplicationsDeveloped Applications
Developed Applications
 

集合知プログラミング勉強会(第7章, 前半)