Ce diaporama a bien été signalé.
Nous utilisons votre profil LinkedIn et vos données d’activité pour vous proposer des publicités personnalisées et pertinentes. Vous pouvez changer vos préférences de publicités à tout moment.

Not all unlabeled data are equal

通常,半教師あり学習ではラベルなしデータに対して一様な重みで学習を行います.しかし,ラベルなしのデータはイコールではありません.例えば,推定を間違えている場合などはそのデータは悪影響を与えることになります.そこで,この論文では個々のラベルなしデータに対する重みを学習する方法を提案しています.ラベルなしデータの重みを固定して,トレーニングデータを用いてモデルパラメータを更新することと,モデルパラメータを固定して,バリデーションデータを用いてラベルなしデータの重みを更新することを繰り返します.既存の半教師あり学習の手法に組み込むことで,精度が向上することが確認されました.

  • Soyez le premier à commenter

  • Soyez le premier à aimer ceci

Not all unlabeled data are equal

  1. 1. Not All Unlabeled Data are Equal: Learning to Weight Data in Semi-supervised Learning 2020/09/22 神戸瑞樹 Zhongzheng Ren∗ , Raymond A. Yeh∗ , Alexander G. Schwing University of Illinois at Urbana-Champaign {zr5, yeh17, aschwing}@illinois.edu ∗ Indicates equal contribution https://arxiv.org/abs/2007.01293
  2. 2. 概要 • 通常、半教師あり学習でラベルなしは一様の重 みで学習 • 個々のデータの重みを自動で決定する手法を提 案 • 有意に精度を向上 2
  3. 3. Introduction • ラベルなしデータは教師なし学習のコストを下げる • 特にアノテーションコストが高い場面で • 生物医学など専門知識が必要な分野 • 動画に細かくつけるなら何フレームも見る必要がある • 一般的にラベルなしデータは同一の重みで学習 • ラベルなしのデータはイコールではない • 推定を間違えてたら悪影響 • 個別に重み付けする方法を検討する • 影響関数を用いる • 影響関数はラベルなしデータの重要度を推測 • 個別の重み付けは計算コストがでかい • 計算量を抑える工夫 • 効率的な勾配計算のアルゴリズム • ディープネットの影響関数に特化した効果的な近似法 3
  4. 4. 半教師あり学習 • ラベル付きのデータを大量に用意することは困難 • データだけなら比較的容易 • 少量のラベル付きデータと大量のラベルなしデー タから学習する • 半教師あり学習のロス • Entropy loss • Consistency loss • Regularization loss 4
  5. 5. 半教師あり学習 • ラベルありのロス(教師あり)とラベルなしのロ スの線形和を最小化 • ラベルありのロス • クロスエントロピーなど • ラベルなしのロス • Consistency loss など • 同じデータに違うノイズを加えても同じ出力になるようにする 5
  6. 6. 影響関数 • モデルが特定の訓練データにどれだけ依存して いるかを測定 6
  7. 7. 個別の重み付け • 手動やグリッドサーチでは無理 • 重みを学習するためのアルゴリズムを設計 • 2段階の最適化問題として形式化される • Λ:ラベルなしデータの重みの集合 • θ:モデルの重み • Λを固定したときにトレーニングロスを最小化する θを探索 • θを固定したときにバリデーションロスを最小化す るΛを探索 7
  8. 8. 最適化 • モデルの重みθの更新 • ラベルなしの重みΛの更新 • は以下の式で近似するとうまくいくことが多い • ここで、 は影響関数を使って近似されている • ただ、ディープネットでこれを使うのは厳しい • 各データの勾配の評価と高次元ヘシアンの逆行列が必要 8 Hはヘシアン
  9. 9. 最適化アルゴリズム 9
  10. 10. 個々のデータの勾配計算 • バックプロパゲーションでは、個々の勾配では なくミニバッチでの統計量を使っている • 素朴な解決策はバッチサイズを1にすることだが、 遅すぎる • 標準の自動微分ツールでは各データに対して layer activation h 𝑢の勾配を保存 • このとき、モデルパラメータθに対する勾配は • を保存しておけば、 を通常のバック プロパゲーションで計算すればいい 10
  11. 11. 影響関数の近似 • 最終層だけが学習可能であると仮定して、近似 を行う • θ全てでなく最終層のθだけを対象としてヘシアン を計算 • 次元が小さくなるので楽に計算できる 11
  12. 12. 実験(決定境界の学習) • ラベルつきは10、ラベルなしは1000 • 全結合層で学習 12
  13. 13. 実験(決定境界の学習) • 境界の近くだが、間違っているものの重みが最も小さくなる • 繰り返すとそこの境界が移動する 13
  14. 14. 画像分類 • 今までの半教師に組み込むことで精度向上 14
  15. 15. テキスト分類 • IMDbデータセット • 映画レビューのデータセット • 訓練:25k、テスト:25k、ラベルなし:50k 15
  16. 16. 単一の重みと比較 • 個別の重みにしたほうが良い精度 • 全てのデータはイコールでない 16
  17. 17. バリデーションサイズ • バリデーションを使って重みを更新してる • バリデーションサイズは重要 • バリデーションサイズが大きくなるほど性能向上 17
  18. 18. まとめ • 半教師あり学習において、ラベルなしの個々の データの重みを自動で決定する手法を提案 • 既存の半教師あり学習に組み込むことが出来る • 画像分類、テキスト分類で精度向上 18

×