集合知プログラミング勉強会（第7章, 前半）

2014.12.17
AnnakaTetsuya
第9回集合知プログラミング勉強会
Chapter7 決定⽊木クラスタリング

担当範囲

7章決定⽊木
n  7.1 サインアップを予測する
n  7.2 決定⽊木⼊入⾨門
n  7.3 ツリーのトレーニング
n  7.4 最⾼高の分割を選ぶ
n  7.5 再帰的なツリー構築
n  7.6 　決定⽊木の表⽰示
n  7.7 新しい観測を分類する
n  7.8 ツリーの刈り込み
n  7.9 ⽋欠落落データへの対処
n  7.10 数値による帰結への対処
n  7.11 住宅宅価格のモデリング
n  7.12 Hotnessのモデル化
n  7.13 決定⽊木を使うべき場⾯面
2

今⽇日の⽬目次

n 7章決定⽊木
n  決定⽊木について理理解
v  そもそも何をするものか？
v  決定⽊木の概要
v  決定⽊木の特徴（positive）
v  決定⽊木の特徴（negative）
v  応⽤用例例
n  決定⽊木クラスタリングを使ってみる
v  問題の確認（7.1)
v  データの準備（7.2）
v  まずは決定⽊木で分割してみる（7.3）
v  分割の良良し悪しの基準を導⼊入してみる（7.4）
v  ジニ不不純度度（7.4.1）
v  エントロピー（7.4.2）
v  決定⽊木で再帰的に分割する（7.5）
v  分割した決定⽊木を⾒見見てみる（7.6）
3


4
⇒ 座学パート
⇒ 実践パート


5
⇒ 座学パート
⇒ 実践パート
今⽇日持ち帰ること
v 決定⽊木の概要/特徴を理理解
v 決定⽊木を実装, 運⽤用してみる
v Lambda式の理理解
v PythonでのLambda式の記述

決定⽊木について理理解

n 決定⽊木の概要
n  予測モデル
n  「⾊色は⾚赤いか」や「⼤大きさは 2.0以上か」といった単純な質問で分岐
n  ⾊色々な分割を試してみて、「最も良良い分割」で分割していく
http://careerhack.en-‐‑‒japan.com/report/detail/390
n  クラスタリング後には「⽊木」が⽣生成される
n  ⽐比較的シンプルなモデルのクラスタリング⼿手法
n  データマイニングの分野で最も使われている！らしい
7


n 決定⽊木の実例例
http://www.altpaper.net/service/analysis_̲method/decisiontree.html
8


n 決定⽊木の実例例
9


n 決定⽊木の特徴（positive）
①  ⼈人間の主観を⼊入れることが可能
v  分岐条件を予め限定できる
v  ニューラルネットワークや, SVMだとこうはいかない
②  分割が直感的
v  果物の分類だったら、「⾊色」「⼤大きさ」「収穫時期」など, 意味のある分割基準
v  分割後の結果を解釈しやすい（利利⽤用しやすい）
v  クラスタリングされていく過程も眺めることが可能
③  1度度分割してしまえば、異異なる粒粒度度のクラスを⼿手に⼊入れることができる
v  粒粒度度を変更更可能
v  複数回クラスタリングする必要がない
10


n 決定⽊木の特徴（negative）
①  複雑な帰結は扱えない
v  OKな帰結：「課⾦金金プラン（none/basic/Premium）」でクラスタリング
v  NGな帰結：
　「課⾦金金プラン（None/Basic/Premium）、継続期間（⽇日）、アクセス頻度度」
　の全てが良良いユーザのクラスタリング
②  分岐の基準には単純なものしか扱えない
v  OKな分割基準「FAQを読んだか」「ページアクセスが20以上か」
v  NGな分割基準「FAQを読み、ページアクセスが20以上で、所在地がUSAか？」
v  指数関数的な分割をチェックしなければならない
v  計算量量的に難しい
11


n 応⽤用例例
v  課⾦金金者 / ⾮非課⾦金金者の特徴をとらえる
v  その特徴を持つセグメントへ向けたイベントの開催
v  顧客のプロファイリング
v  その特徴を持つセグメントへの広告投下
v  財務リスク分析
v  リスクの⼤大⼩小を理理解する?
v  医療療診断の⽀支援
v  簡単な質問により、患者の病気を正確に診断
v  交通量量予測
v  「◯の道路路が混み始めたから、□の道路路も混むだろう」
v  モデル数の削減、過学習を防ぐ
v  ⼿手話認識識システムへの応⽤用（安中の卒論論）
v  あ
12

扱う問題の設定の確認

n あるwebサービスを⽴立立ち上げた。ユーザの課⾦金金率率率を上げたい。
n Aさん「FAQがよく読まれてないのかも。FAQを全⾯面に押し出しましょう」
n Bさん「イギリスに住んでる⼈人が課⾦金金率率率が⾼高い気がする。イギリスでCMを流流しましょう」
n Cさん「恒常的に使ってくれるユーザに向け、課⾦金金をチラつかせるのが有効だ」
n ⼿手元には、各ユーザのデータを持っている
n どのサイトから⾶飛んできて登録したか（リファラー）
n 所在地
n FAQを読んだか
n ⾒見見たページ数
n 各ユーザは「無料料ユーザ」「Basicプランのユーザ」「プレミアムユーザ」のどれか（帰結）
n この問題は、決定⽊木クラスタリングを⽤用いると有効。なぜなら…
n 「イギリスに住んでおり、FAQを読んでいる⼈人が課⾦金金率率率が⾼高い」などの、シンプルな因
果関係で説明できそう
n 帰結が複雑ではない
n 条件分岐も複雑に設定しなくて済みそう
13

扱う問題の設定の確認

n 学習マップ
15
まずは
分割の仕組みを作る
基準に基き
分割してみる
問題の確認
データの⽤用意
再帰的に分割
していく
結果表⽰示の
仕組み導⼊入
ジニ不不純度度
エントロピー
7.1 - 7.2
7.3
7.4
7.5
7.6
lambda式

付録：Labmda式について

n Lambda式とは？
n 関数の祖先
n LISPやHaskell, Schemeなどの関数型⾔言語で利利⽤用されている（詳細は割愛。構⽂文が美しくて楽しいよ）
n 名前をつけていない関数（と理理解していただいて⼤大丈夫です）
n 実は、関数は「名前を付けたlambda式」
n PythonでのLambda式
16
引数式

付録：情報ゲインについて

n 情報ゲインとは？
n 場合分けをして考えてみる
n 分割後のエントロピーの⽅方が⼩小さい　⇒ 　情報ゲイン正
　（⼩小さければ⼩小さいほど情報ゲイン⼤大）
n 分割後のエントロピーの⽅方が⼤大きい　⇒ 　情報ゲイン負
n この情報ゲインをどのように利利⽤用するか
n エントロピーを⼩小さくしていきたい。
　⇒情報ゲインが⼤大きくなるような分割を選べばよい
17
情報ゲイン＝
分割前の
エントロピー
分割後の
エントロピー
ー

集合知プログラミング勉強会（第7章, 前半）

Recommandé

Recommandé

Contenu connexe

Plus de Anchuuu Annaka

Plus de Anchuuu Annaka (6)

集合知プログラミング勉強会（第7章, 前半）