Soumettre la recherche
Mettre en ligne
集合知プログラミング勉強会(第7章, 前半)
•
3 j'aime
•
609 vues
Anchuuu Annaka
Suivre
集合知プログラミング勉強会資料です。 今回は第7章(前半)です。 2014.12.27
Lire moins
Lire la suite
Ingénierie
Signaler
Partager
Signaler
Partager
1 sur 18
Télécharger maintenant
Télécharger pour lire hors ligne
Recommandé
JOI summer seminar 2014
JOI summer seminar 2014
okuraofvegetable
集合知プログラミング勉強会 7章(前半)
集合知プログラミング勉強会 7章(前半)
koba cky
Rによる決定木解析の一例
Rによる決定木解析の一例
LINE Corp.
Rによる分類木 入門
Rによる分類木 入門
Hiro47
さくっとはじめるテキストマイニング(R言語) スタートアップ編
さくっとはじめるテキストマイニング(R言語) スタートアップ編
Yutaka Shimada
決定木学習
決定木学習
Mitsuo Shimohata
機会学習ハッカソン:ランダムフォレスト
機会学習ハッカソン:ランダムフォレスト
Teppei Baba
K meansによるクラスタリングの解説と具体的なクラスタリングの活用方法の紹介
K meansによるクラスタリングの解説と具体的なクラスタリングの活用方法の紹介
Takeshi Mikami
Recommandé
JOI summer seminar 2014
JOI summer seminar 2014
okuraofvegetable
集合知プログラミング勉強会 7章(前半)
集合知プログラミング勉強会 7章(前半)
koba cky
Rによる決定木解析の一例
Rによる決定木解析の一例
LINE Corp.
Rによる分類木 入門
Rによる分類木 入門
Hiro47
さくっとはじめるテキストマイニング(R言語) スタートアップ編
さくっとはじめるテキストマイニング(R言語) スタートアップ編
Yutaka Shimada
決定木学習
決定木学習
Mitsuo Shimohata
機会学習ハッカソン:ランダムフォレスト
機会学習ハッカソン:ランダムフォレスト
Teppei Baba
K meansによるクラスタリングの解説と具体的なクラスタリングの活用方法の紹介
K meansによるクラスタリングの解説と具体的なクラスタリングの活用方法の紹介
Takeshi Mikami
第四回 集合知プログラミング勉強会資料
第四回 集合知プログラミング勉強会資料
Anchuuu Annaka
O2O - marketing (chapter 2)
O2O - marketing (chapter 2)
Anchuuu Annaka
Research - Clauset Newman Moore(CNM) Algorithm
Research - Clauset Newman Moore(CNM) Algorithm
Anchuuu Annaka
Rinko - Towards a Rubust Modeling of Temporal Interest Change for Behavioral ...
Rinko - Towards a Rubust Modeling of Temporal Interest Change for Behavioral ...
Anchuuu Annaka
Rinko - twitter mood predicts the stock market
Rinko - twitter mood predicts the stock market
Anchuuu Annaka
Developed Applications
Developed Applications
Anchuuu Annaka
Contenu connexe
Plus de Anchuuu Annaka
第四回 集合知プログラミング勉強会資料
第四回 集合知プログラミング勉強会資料
Anchuuu Annaka
O2O - marketing (chapter 2)
O2O - marketing (chapter 2)
Anchuuu Annaka
Research - Clauset Newman Moore(CNM) Algorithm
Research - Clauset Newman Moore(CNM) Algorithm
Anchuuu Annaka
Rinko - Towards a Rubust Modeling of Temporal Interest Change for Behavioral ...
Rinko - Towards a Rubust Modeling of Temporal Interest Change for Behavioral ...
Anchuuu Annaka
Rinko - twitter mood predicts the stock market
Rinko - twitter mood predicts the stock market
Anchuuu Annaka
Developed Applications
Developed Applications
Anchuuu Annaka
Plus de Anchuuu Annaka
(6)
第四回 集合知プログラミング勉強会資料
第四回 集合知プログラミング勉強会資料
O2O - marketing (chapter 2)
O2O - marketing (chapter 2)
Research - Clauset Newman Moore(CNM) Algorithm
Research - Clauset Newman Moore(CNM) Algorithm
Rinko - Towards a Rubust Modeling of Temporal Interest Change for Behavioral ...
Rinko - Towards a Rubust Modeling of Temporal Interest Change for Behavioral ...
Rinko - twitter mood predicts the stock market
Rinko - twitter mood predicts the stock market
Developed Applications
Developed Applications
集合知プログラミング勉強会(第7章, 前半)
1.
2014.12.17 AnnakaTetsuya 第9回集合知プログラミング勉強会 Chapter7 決定⽊木クラスタリング
2.
担当範囲 7章
決定⽊木 n 7.1 サインアップを予測する n 7.2 決定⽊木⼊入⾨門 n 7.3 ツリーのトレーニング n 7.4 最⾼高の分割を選ぶ n 7.5 再帰的なツリー構築 n 7.6 決定⽊木の表⽰示 n 7.7 新しい観測を分類する n 7.8 ツリーの刈り込み n 7.9 ⽋欠落落データへの対処 n 7.10 数値による帰結への対処 n 7.11 住宅宅価格のモデリング n 7.12 Hotnessのモデル化 n 7.13 決定⽊木を使うべき場⾯面 2
3.
今⽇日の⽬目次 n 7章
決定⽊木 n 決定⽊木について理理解 v そもそも何をするものか? v 決定⽊木の概要 v 決定⽊木の特徴(positive) v 決定⽊木の特徴(negative) v 応⽤用例例 n 決定⽊木クラスタリングを使ってみる v 問題の確認(7.1) v データの準備(7.2) v まずは決定⽊木で分割してみる(7.3) v 分割の良良し悪しの基準を導⼊入してみる(7.4) v ジニ不不純度度(7.4.1) v エントロピー(7.4.2) v 決定⽊木で再帰的に分割する(7.5) v 分割した決定⽊木を⾒見見てみる(7.6) 3
4.
今⽇日の⽬目次 n 7章
決定⽊木 n 決定⽊木について理理解 v そもそも何をするものか? v 決定⽊木の概要 v 決定⽊木の特徴(positive) v 決定⽊木の特徴(negative) v 応⽤用例例 n 決定⽊木クラスタリングを使ってみる v 問題の確認(7.1) v データの準備(7.2) v まずは決定⽊木で分割してみる(7.3) v 分割の良良し悪しの基準を導⼊入してみる(7.4) v ジニ不不純度度(7.4.1) v エントロピー(7.4.2) v 決定⽊木で再帰的に分割する(7.5) v 分割した決定⽊木を⾒見見てみる(7.6) 4 ⇒ 座学パート ⇒ 実践パート
5.
今⽇日の⽬目次 n 7章
決定⽊木 n 決定⽊木について理理解 v そもそも何をするものか? v 決定⽊木の概要 v 決定⽊木の特徴(positive) v 決定⽊木の特徴(negative) v 応⽤用例例 n 決定⽊木クラスタリングを使ってみる v 問題の確認(7.1) v データの準備(7.2) v まずは決定⽊木で分割してみる(7.3) v 分割の良良し悪しの基準を導⼊入してみる(7.4) v ジニ不不純度度(7.4.1) v エントロピー(7.4.2) v 決定⽊木で再帰的に分割する(7.5) v 分割した決定⽊木を⾒見見てみる(7.6) 5 ⇒ 座学パート ⇒ 実践パート 今⽇日持ち帰ること v 決定⽊木の概要/特徴を理理解 v 決定⽊木を実装, 運⽤用してみる v Lambda式の理理解 v PythonでのLambda式の記述
6.
座学パート
7.
決定⽊木について理理解 n 決定⽊木の概要 n 予測モデル n
「⾊色は⾚赤いか」や「⼤大きさは 2.0以上か」といった単純な質問で分岐 n ⾊色々な分割を試してみて、「最も良良い分割」で分割していく http://careerhack.en-‐‑‒japan.com/report/detail/390 n クラスタリング後には「⽊木」が⽣生成される n ⽐比較的シンプルなモデルのクラスタリング⼿手法 n データマイニングの分野で最も使われている!らしい 7
8.
決定⽊木について理理解 n 決定⽊木の実例例 http://www.altpaper.net/service/analysis_̲method/decisiontree.html 8
9.
決定⽊木について理理解 n 決定⽊木の実例例 9
10.
決定⽊木について理理解 n 決定⽊木の特徴(positive) ① ⼈人間の主観を⼊入れることが可能 v
分岐条件を予め限定できる v ニューラルネットワークや, SVMだとこうはいかない ② 分割が直感的 v 果物の分類だったら、「⾊色」「⼤大きさ」「収穫時期」など, 意味のある分割基準 v 分割後の結果を解釈しやすい(利利⽤用しやすい) v クラスタリングされていく過程も眺めることが可能 ③ 1度度分割してしまえば、異異なる粒粒度度のクラスを⼿手に⼊入れることができる v 粒粒度度を変更更可能 v 複数回クラスタリングする必要がない 10
11.
決定⽊木について理理解 n 決定⽊木の特徴(negative) ① 複雑な帰結は扱えない v
OKな帰結:「課⾦金金プラン(none/basic/Premium)」でクラスタリング v NGな帰結: 「課⾦金金プラン(None/Basic/Premium)、継続期間(⽇日)、アクセス頻度度」 の全てが良良いユーザのクラスタリング ② 分岐の基準には単純なものしか扱えない v OKな分割基準「FAQを読んだか」「ページアクセスが20以上か」 v NGな分割基準「FAQを読み、ページアクセスが20以上で、所在地がUSAか?」 v 指数関数的な分割をチェックしなければならない v 計算量量的に難しい 11
12.
決定⽊木について理理解 n 応⽤用例例 v 課⾦金金者
/ ⾮非課⾦金金者の特徴をとらえる v その特徴を持つセグメントへ向けたイベントの開催 v 顧客のプロファイリング v その特徴を持つセグメントへの広告投下 v 財務リスク分析 v リスクの⼤大⼩小を理理解する? v 医療療診断の⽀支援 v 簡単な質問により、患者の病気を正確に診断 v 交通量量予測 v 「◯の道路路が混み始めたから、□の道路路も混むだろう」 v モデル数の削減、過学習を防ぐ v ⼿手話認識識システムへの応⽤用(安中の卒論論) v あ 12
13.
扱う問題の設定の確認 n あるwebサービスを⽴立立ち上げた。ユーザの課⾦金金率率率を上げたい。 n Aさん「FAQがよく読まれてないのかも。FAQを全⾯面に押し出しましょう」 n Bさん「イギリスに住んでる⼈人が課⾦金金率率率が⾼高い気がする。イギリスでCMを流流しましょう」 n Cさん「恒常的に使ってくれるユーザに向け、課⾦金金をチラつかせるのが有効だ」 n ⼿手元には、各ユーザのデータを持っている n どのサイトから⾶飛んできて登録したか(リファラー) n 所在地 n FAQを読んだか n ⾒見見たページ数 n 各ユーザは「無料料ユーザ」「Basicプランのユーザ」「プレミアムユーザ」のどれか(帰結) n この問題は、決定⽊木クラスタリングを⽤用いると有効。なぜなら… n 「イギリスに住んでおり、FAQを読んでいる⼈人が課⾦金金率率率が⾼高い」などの、シンプルな因 果関係で説明できそう n 帰結が複雑ではない n 条件分岐も複雑に設定しなくて済みそう 13
14.
実践パート
15.
扱う問題の設定の確認 n 学習マップ 15 まずは 分割の仕組みを作る 基準に基き 分割してみる 問題の確認 データの⽤用意 再帰的に分割 していく 結果表⽰示の 仕組み導⼊入 ジニ不不純度度 エントロピー 7.1 -
7.2 7.3 7.4 7.5 7.6 lambda式
16.
付録:Labmda式について n Lambda式とは? n 関数の祖先 n LISPやHaskell, Schemeなどの関数型⾔言語で利利⽤用されている(詳細は割愛。構⽂文が美しくて楽しいよ) n 名前をつけていない関数(と理理解していただいて⼤大丈夫です) n 実は、関数は「名前を付けたlambda式」 n PythonでのLambda式 16 引数
式
17.
付録:情報ゲインについて n 情報ゲインとは? n 場合分けをして考えてみる n 分割後のエントロピーの⽅方が⼩小さい ⇒ 情報ゲイン正 (⼩小さければ⼩小さいほど情報ゲイン⼤大) n 分割後のエントロピーの⽅方が⼤大きい ⇒ 情報ゲイン負 n この情報ゲインをどのように利利⽤用するか n エントロピーを⼩小さくしていきたい。 ⇒情報ゲインが⼤大きくなるような分割を選べばよい 17 情報ゲイン = 分割前の エントロピー 分割後の エントロピー ー
18.
18
Télécharger maintenant