Random Forestを用いた能動学習による有効なサンプル選択

Random Forest を用いた能動学習における有効なサンプル選択
村田隆英，三品陽平，山内悠嗣，山下隆義，藤吉弘亘 (中部大学)
スパイラルデータによる評価実験
ラベル無しサンプルに最も距離が近いラベル付きサンプルの
ラベルを伝播
ランダム性により各木の推定した密度分布にばらつきが発生
Step2:ラベル伝播
測地線距離の算出
局所距離(マハラノビス距離)の算出
伝播するラベル測地線距離ラベル無しサンプル集合
局所距離真のラベル付きサンプルまでの距離
ラベル無しサンプルが到達した末端ノードのマハラノビス距離
ラベル付きサンプルが到達した末端ノードのマハラノビス距離
密度分布の類似度の算出
Step3:曖昧さと密度分布の類似度によるサンプル選択
各木の推定した密度分布を基にラベル伝播
サンプルが到達した各木の末端ノードの密度分布シャノンの情報量
密度分布の類似度を考慮したサンプル選択
Step4: ラベルの再伝播によるクラス分布の更新
各木の末端ノードにクラス分布を作成
選択されたサンプルにラベルを付与
ラベルを付与したサンプルを含めてラベルの再伝播，クラス分布の更新
密度木の再構築は行わず，Step2，3を繰り返す
考察
類似したサンプルの選択を抑制することで
ラベル伝播精度が向上し，結果として識別精度も向上
識別結果
従来法にLeast confident, Margin Sampling, Entropy,
Vote Entropyを用いた場合
提案手法では識別境界が効率よく変化
2回目のラベル追加で識別精度99.0%
Vote Entropyと提案手法の選択されたサンプルと識別境界の比較
本研究の目的
類似したサンプルを選択してしまう
問題点
曖昧さの高い順にサンプルを選択
Uncertainty Sampling[Lewis and Gale, 1994]
能動学習における従来のサンプル選択法
Least confident, Margin Sampling, Entropy
Query-By-Committee[H. Seung, M.Opper, 1992]
サンプルの曖昧さが高いサンプルを選択
Vote Entropy
サンプルの分布を考慮していない
能動学習
識別境界の決定に有効であろうサンプルの選択
ラベル付けに対する人的コストの削減
識別率
ラベルの追加回数
Vote Entropy（1個追加）
Vote Entropy（2個追加）
提案手法+Vote Entropy
識別率
Entropy（1個追加）
Entropy（2個追加）
提案手法+Entropy
識別率
Margin Sampling(1個追加)
Margin Sampling(2個追加)
提案手法+Margin Sampling
識別率
Least Confident(1個追加)
Least Confident(2個追加)
提案手法+Least Confident
密度分布の類似度
各木の密度分布のばらつき入力サンプル
…
Tree1 Tree2 TreeT
x1
x2
高
類
似
度
低
Step1:Density Forest による密度推定
ランダム性の導入による高速な学習
複数の木の平均による非線形表現
提案手法:密度分布の類似度を考慮したサンプル選択
密度分布の類似度を用いて類似したサンプル選択の抑制
親ノードの正規分布のエントロピー子ノードの正規分布のエントロピー
木の本数サンプルが到達した末端ノードの密度分布
木構造による領域分割
Density Forest
Random Forestを密度推定に利用
局所距離の組み合わせで表現
Density Forest による密度推定
分岐ノード
末端ノード
最大で2回のラベル追加回数を削減
入力データ識別境界(44.4%) 識別境界(66.2%)入力データ(追加後)Vote Entropy
従来の能動学習におけるサンプル選択法の問題点
高
類
似
度
低
高
曖
昧
さ
低
+
高
曖
昧
さ
低
高
曖
昧
さ
低
類似度が
しきい値以上
類似度が
しきい値以下
それぞれから
曖昧さの高い
サンプルを選択
提案手法でのサンプル選択方法
Vote Entropy
密度分布の類似度
選択されるサンプルによるラベル伝播の変化
能動学習の効率が低下
今後の予定
大規模，高次元のデータセットに提案手法を適用

Random Forestを用いた能動学習による有効なサンプル選択

Recommandé

Recommandé

Contenu connexe

En vedette

En vedette (7)

Plus de MPRG_Chubu_University

Plus de MPRG_Chubu_University (12)

Random Forestを用いた能動学習による有効なサンプル選択