SlideShare une entreprise Scribd logo
1  sur  1
Télécharger pour lire hors ligne
Random Forest を用いた能動学習における有効なサンプル選択
村田 隆英,三品 陽平,山内 悠嗣,山下 隆義,藤吉 弘亘 (中部大学)
スパイラルデータによる評価実験
ラベル無しサンプルに最も距離が近いラベル付きサンプルの
ラベルを伝播
ランダム性により各木の推定した密度分布にばらつきが発生
Step2:ラベル伝播
測地線距離の算出
局所距離(マハラノビス距離)の算出
伝播するラベル 測地線距離 ラベル無しサンプル集合
局所距離 真のラベル付きサンプルまでの距離
ラベル無しサンプルが到達した末端ノードのマハラノビス距離
ラベル付きサンプルが到達した末端ノードのマハラノビス距離
密度分布の類似度の算出
Step3:曖昧さと密度分布の類似度によるサンプル選択
各木の推定した密度分布を基にラベル伝播
サンプルが到達した各木の末端ノードの密度分布 シャノンの情報量
密度分布の類似度を考慮したサンプル選択
Step4: ラベルの再伝播によるクラス分布の更新
各木の末端ノードにクラス分布を作成
選択されたサンプルにラベルを付与
ラベルを付与したサンプルを含めてラベルの再伝播,クラス分布の更新
密度木の再構築は行わず,Step2,3を繰り返す
考察
類似したサンプルの選択を抑制することで
ラベル伝播精度が向上し,結果として識別精度も向上
識別結果
従来法にLeast confident, Margin Sampling, Entropy,
Vote Entropyを用いた場合
提案手法では識別境界が効率よく変化
2回目のラベル追加で識別精度99.0%
Vote Entropyと提案手法の選択されたサンプルと識別境界の比較
本研究の目的
類似したサンプルを選択してしまう
問題点
曖昧さの高い順にサンプルを選択
Uncertainty Sampling[Lewis and Gale, 1994]
能動学習における従来のサンプル選択法
­Least confident, Margin Sampling, Entropy
Query-By-Committee[H. Seung, M.Opper, 1992]
サンプルの曖昧さが高いサンプルを選択
­Vote Entropy
サンプルの分布を考慮していない
能動学習
識別境界の決定に有効であろうサンプルの選択
ラベル付けに対する人的コストの削減
識別率
ラベルの追加回数
Vote Entropy(1個追加)
Vote Entropy(2個追加)
提案手法+Vote Entropy
識別率
ラベルの追加回数
Entropy(1個追加)
Entropy(2個追加)
提案手法+Entropy
識別率
ラベルの追加回数
Margin Sampling(1個追加)
Margin Sampling(2個追加)
提案手法+Margin Sampling
識別率
ラベルの追加回数
Least Confident(1個追加)
Least Confident(2個追加)
提案手法+Least Confident
密度分布の類似度
各木の密度分布のばらつき入力サンプル
…
Tree1 Tree2 TreeT
x1
x2
高
類
似
度
低
Step1:Density Forest による密度推定
­ランダム性の導入による高速な学習
­複数の木の平均による非線形表現
提案手法:密度分布の類似度を考慮したサンプル選択
密度分布の類似度を用いて類似したサンプル選択の抑制
親ノードの正規分布のエントロピー 子ノードの正規分布のエントロピー
木の本数 サンプルが到達した末端ノードの密度分布
­木構造による領域分割
Density Forest
­Random Forestを密度推定に利用
­局所距離の組み合わせで表現
Density Forest による密度推定
分岐ノード
末端ノード
最大で2回のラベル追加回数を削減
入力データ 識別境界(44.4%) 識別境界(66.2%)入力データ(追加後)Vote Entropy
従来の能動学習におけるサンプル選択法の問題点
高
類
似
度
低
高
曖
昧
さ
低
+
高
曖
昧
さ
低
高
曖
昧
さ
低
類似度が
しきい値以上
類似度が
しきい値以下
それぞれから
曖昧さの高い
サンプルを選択
提案手法でのサンプル選択方法
Vote Entropy
密度分布の類似度
選択されるサンプルによるラベル伝播の変化
能動学習の効率が低下
今後の予定
大規模,高次元のデータセットに提案手法を適用

Contenu connexe

En vedette

ROSを核としたロボティクス教育(中部大学ロボット理工学科の紹介)
ROSを核としたロボティクス教育(中部大学ロボット理工学科の紹介)ROSを核としたロボティクス教育(中部大学ロボット理工学科の紹介)
ROSを核としたロボティクス教育(中部大学ロボット理工学科の紹介)Hironobu Fujiyoshi
 
Hough forestを用いた物体検出
Hough forestを用いた物体検出Hough forestを用いた物体検出
Hough forestを用いた物体検出MPRG_Chubu_University
 
ランダムフォレスト
ランダムフォレストランダムフォレスト
ランダムフォレストKinki University
 
Tutorial-DeepLearning-PCSJ-IMPS2016
Tutorial-DeepLearning-PCSJ-IMPS2016Tutorial-DeepLearning-PCSJ-IMPS2016
Tutorial-DeepLearning-PCSJ-IMPS2016Takayoshi Yamashita
 
「樹木モデルとランダムフォレスト-機械学習による分類・予測-」-データマイニングセミナー
「樹木モデルとランダムフォレスト-機械学習による分類・予測-」-データマイニングセミナー「樹木モデルとランダムフォレスト-機械学習による分類・予測-」-データマイニングセミナー
「樹木モデルとランダムフォレスト-機械学習による分類・予測-」-データマイニングセミナーKoichi Hamada
 
ディープラーニングの最新動向
ディープラーニングの最新動向ディープラーニングの最新動向
ディープラーニングの最新動向Preferred Networks
 

En vedette (7)

ROSを核としたロボティクス教育(中部大学ロボット理工学科の紹介)
ROSを核としたロボティクス教育(中部大学ロボット理工学科の紹介)ROSを核としたロボティクス教育(中部大学ロボット理工学科の紹介)
ROSを核としたロボティクス教育(中部大学ロボット理工学科の紹介)
 
DeepLearningDay2016Spring
DeepLearningDay2016SpringDeepLearningDay2016Spring
DeepLearningDay2016Spring
 
Hough forestを用いた物体検出
Hough forestを用いた物体検出Hough forestを用いた物体検出
Hough forestを用いた物体検出
 
ランダムフォレスト
ランダムフォレストランダムフォレスト
ランダムフォレスト
 
Tutorial-DeepLearning-PCSJ-IMPS2016
Tutorial-DeepLearning-PCSJ-IMPS2016Tutorial-DeepLearning-PCSJ-IMPS2016
Tutorial-DeepLearning-PCSJ-IMPS2016
 
「樹木モデルとランダムフォレスト-機械学習による分類・予測-」-データマイニングセミナー
「樹木モデルとランダムフォレスト-機械学習による分類・予測-」-データマイニングセミナー「樹木モデルとランダムフォレスト-機械学習による分類・予測-」-データマイニングセミナー
「樹木モデルとランダムフォレスト-機械学習による分類・予測-」-データマイニングセミナー
 
ディープラーニングの最新動向
ディープラーニングの最新動向ディープラーニングの最新動向
ディープラーニングの最新動向
 

Plus de MPRG_Chubu_University

アピアランスと時空間特徴の共起に基づく人検出
 アピアランスと時空間特徴の共起に基づく人検出 アピアランスと時空間特徴の共起に基づく人検出
アピアランスと時空間特徴の共起に基づく人検出MPRG_Chubu_University
 
統計的学習手法による人検出
統計的学習手法による人検出統計的学習手法による人検出
統計的学習手法による人検出MPRG_Chubu_University
 
色の類似性に基づいた形状特徴量CS-HOGの提案
色の類似性に基づいた形状特徴量CS-HOGの提案色の類似性に基づいた形状特徴量CS-HOGの提案
色の類似性に基づいた形状特徴量CS-HOGの提案MPRG_Chubu_University
 
複数パスを考慮したRegression Forestsによるカメラのヨー角の推定
複数パスを考慮したRegression Forestsによるカメラのヨー角の推定複数パスを考慮したRegression Forestsによるカメラのヨー角の推定
複数パスを考慮したRegression Forestsによるカメラのヨー角の推定MPRG_Chubu_University
 
キーフレーム間の物体追跡結果に基づく
キーフレーム間の物体追跡結果に基づくキーフレーム間の物体追跡結果に基づく
キーフレーム間の物体追跡結果に基づくMPRG_Chubu_University
 
Relational Binarized HOG特徴量とReal AdaBoostによるバイナリ選択を用いた物体検出
Relational Binarized HOG特徴量とReal AdaBoostによるバイナリ選択を用いた物体検出Relational Binarized HOG特徴量とReal AdaBoostによるバイナリ選択を用いた物体検出
Relational Binarized HOG特徴量とReal AdaBoostによるバイナリ選択を用いた物体検出MPRG_Chubu_University
 
Cascaded FASTによるキーポイント検出
Cascaded FASTによるキーポイント検出Cascaded FASTによるキーポイント検出
Cascaded FASTによるキーポイント検出MPRG_Chubu_University
 
アプリケーション展開におけるキーポイント

アプリケーション展開におけるキーポイント
アプリケーション展開におけるキーポイント

アプリケーション展開におけるキーポイント
MPRG_Chubu_University
 
局所特徴量と統計学習手法による物体検出
局所特徴量と統計学習手法による物体検出局所特徴量と統計学習手法による物体検出
局所特徴量と統計学習手法による物体検出MPRG_Chubu_University
 
画像局所特徴量と特定物体認識 - SIFTと最近のアプローチ -
画像局所特徴量と特定物体認識 - SIFTと最近のアプローチ -画像局所特徴量と特定物体認識 - SIFTと最近のアプローチ -
画像局所特徴量と特定物体認識 - SIFTと最近のアプローチ -MPRG_Chubu_University
 

Plus de MPRG_Chubu_University (12)

アピアランスと時空間特徴の共起に基づく人検出
 アピアランスと時空間特徴の共起に基づく人検出 アピアランスと時空間特徴の共起に基づく人検出
アピアランスと時空間特徴の共起に基づく人検出
 
統計的学習手法による人検出
統計的学習手法による人検出統計的学習手法による人検出
統計的学習手法による人検出
 
色の類似性に基づいた形状特徴量CS-HOGの提案
色の類似性に基づいた形状特徴量CS-HOGの提案色の類似性に基づいた形状特徴量CS-HOGの提案
色の類似性に基づいた形状特徴量CS-HOGの提案
 
複数パスを考慮したRegression Forestsによるカメラのヨー角の推定
複数パスを考慮したRegression Forestsによるカメラのヨー角の推定複数パスを考慮したRegression Forestsによるカメラのヨー角の推定
複数パスを考慮したRegression Forestsによるカメラのヨー角の推定
 
Binary code-based Human Detection
Binary code-based Human DetectionBinary code-based Human Detection
Binary code-based Human Detection
 
キーフレーム間の物体追跡結果に基づく
キーフレーム間の物体追跡結果に基づくキーフレーム間の物体追跡結果に基づく
キーフレーム間の物体追跡結果に基づく
 
Relational Binarized HOG特徴量とReal AdaBoostによるバイナリ選択を用いた物体検出
Relational Binarized HOG特徴量とReal AdaBoostによるバイナリ選択を用いた物体検出Relational Binarized HOG特徴量とReal AdaBoostによるバイナリ選択を用いた物体検出
Relational Binarized HOG特徴量とReal AdaBoostによるバイナリ選択を用いた物体検出
 
Cascaded FASTによるキーポイント検出
Cascaded FASTによるキーポイント検出Cascaded FASTによるキーポイント検出
Cascaded FASTによるキーポイント検出
 
Random Forestsとその応用
Random Forestsとその応用Random Forestsとその応用
Random Forestsとその応用
 
アプリケーション展開におけるキーポイント

アプリケーション展開におけるキーポイント
アプリケーション展開におけるキーポイント

アプリケーション展開におけるキーポイント

 
局所特徴量と統計学習手法による物体検出
局所特徴量と統計学習手法による物体検出局所特徴量と統計学習手法による物体検出
局所特徴量と統計学習手法による物体検出
 
画像局所特徴量と特定物体認識 - SIFTと最近のアプローチ -
画像局所特徴量と特定物体認識 - SIFTと最近のアプローチ -画像局所特徴量と特定物体認識 - SIFTと最近のアプローチ -
画像局所特徴量と特定物体認識 - SIFTと最近のアプローチ -
 

Random Forestを用いた能動学習による有効なサンプル選択

  • 1. Random Forest を用いた能動学習における有効なサンプル選択 村田 隆英,三品 陽平,山内 悠嗣,山下 隆義,藤吉 弘亘 (中部大学) スパイラルデータによる評価実験 ラベル無しサンプルに最も距離が近いラベル付きサンプルの ラベルを伝播 ランダム性により各木の推定した密度分布にばらつきが発生 Step2:ラベル伝播 測地線距離の算出 局所距離(マハラノビス距離)の算出 伝播するラベル 測地線距離 ラベル無しサンプル集合 局所距離 真のラベル付きサンプルまでの距離 ラベル無しサンプルが到達した末端ノードのマハラノビス距離 ラベル付きサンプルが到達した末端ノードのマハラノビス距離 密度分布の類似度の算出 Step3:曖昧さと密度分布の類似度によるサンプル選択 各木の推定した密度分布を基にラベル伝播 サンプルが到達した各木の末端ノードの密度分布 シャノンの情報量 密度分布の類似度を考慮したサンプル選択 Step4: ラベルの再伝播によるクラス分布の更新 各木の末端ノードにクラス分布を作成 選択されたサンプルにラベルを付与 ラベルを付与したサンプルを含めてラベルの再伝播,クラス分布の更新 密度木の再構築は行わず,Step2,3を繰り返す 考察 類似したサンプルの選択を抑制することで ラベル伝播精度が向上し,結果として識別精度も向上 識別結果 従来法にLeast confident, Margin Sampling, Entropy, Vote Entropyを用いた場合 提案手法では識別境界が効率よく変化 2回目のラベル追加で識別精度99.0% Vote Entropyと提案手法の選択されたサンプルと識別境界の比較 本研究の目的 類似したサンプルを選択してしまう 問題点 曖昧さの高い順にサンプルを選択 Uncertainty Sampling[Lewis and Gale, 1994] 能動学習における従来のサンプル選択法 ­Least confident, Margin Sampling, Entropy Query-By-Committee[H. Seung, M.Opper, 1992] サンプルの曖昧さが高いサンプルを選択 ­Vote Entropy サンプルの分布を考慮していない 能動学習 識別境界の決定に有効であろうサンプルの選択 ラベル付けに対する人的コストの削減 識別率 ラベルの追加回数 Vote Entropy(1個追加) Vote Entropy(2個追加) 提案手法+Vote Entropy 識別率 ラベルの追加回数 Entropy(1個追加) Entropy(2個追加) 提案手法+Entropy 識別率 ラベルの追加回数 Margin Sampling(1個追加) Margin Sampling(2個追加) 提案手法+Margin Sampling 識別率 ラベルの追加回数 Least Confident(1個追加) Least Confident(2個追加) 提案手法+Least Confident 密度分布の類似度 各木の密度分布のばらつき入力サンプル … Tree1 Tree2 TreeT x1 x2 高 類 似 度 低 Step1:Density Forest による密度推定 ­ランダム性の導入による高速な学習 ­複数の木の平均による非線形表現 提案手法:密度分布の類似度を考慮したサンプル選択 密度分布の類似度を用いて類似したサンプル選択の抑制 親ノードの正規分布のエントロピー 子ノードの正規分布のエントロピー 木の本数 サンプルが到達した末端ノードの密度分布 ­木構造による領域分割 Density Forest ­Random Forestを密度推定に利用 ­局所距離の組み合わせで表現 Density Forest による密度推定 分岐ノード 末端ノード 最大で2回のラベル追加回数を削減 入力データ 識別境界(44.4%) 識別境界(66.2%)入力データ(追加後)Vote Entropy 従来の能動学習におけるサンプル選択法の問題点 高 類 似 度 低 高 曖 昧 さ 低 + 高 曖 昧 さ 低 高 曖 昧 さ 低 類似度が しきい値以上 類似度が しきい値以下 それぞれから 曖昧さの高い サンプルを選択 提案手法でのサンプル選択方法 Vote Entropy 密度分布の類似度 選択されるサンプルによるラベル伝播の変化 能動学習の効率が低下 今後の予定 大規模,高次元のデータセットに提案手法を適用