Ce diaporama a bien été signalé.
Nous utilisons votre profil LinkedIn et vos données d’activité pour vous proposer des publicités personnalisées et pertinentes. Vous pouvez changer vos préférences de publicités à tout moment.
教師あり事前学習を凌駕する
「弱」教師あり事前学習
-人物検出の事例から-
片岡 裕雄
国立研究開発法人 産業技術総合研究所
1
http://hirokatsukataoka.net/
深層学習(DNN)は何をもたらした?
• DNN & ImageNet @ILSVRC’12
– メリット
• もはや説明不要
– デメリット
• 膨大なアノテーション/画像DLによる個人情報保護が必要
アノテーション問題/法令遵守の障壁は非常...
DNNの事前学習による特徴表現が重要
• 学習戦略(1) 教師あり学習 Supervised Learning
– 学習の成功を確約,非常に強い特徴表現を獲得
学習戦略(2) {無, 弱, 自己}教師学習
– 人間による教師データのラベル付けは...
ImageNetより大規模なデータ
「大規模データは正義」は現在進行形?
JFT-300M (Google, 2017) / IG-3.5B (Facebook, 2018)
ILSVRCの数百倍のデータセットは認識性能の向上に寄与するか?
-...
少量教師学習への期待
「少量教師学習」は人間の教師を代替できるか?
SimCLR (Google, 2020)
「自己教師 + 数%の教師」 により人間の教師に近接する精度を実現(左下図)
-> 2020年現在,最もアツい学習の枠組みとして注目...
人物検出(Person Detection)
データ量の面で物体データセットに劣る
– 背景には人物画像使用等の権利問題もある
Caltech GM-ATCI Daimler ETHZ TUD-Brussels INRIA
Earlier pe...
大規模人物データセットの問題
ラベル付けのジレンマ
– 良質な教師データを大量に確保したい
– しかし,ラベルはできる限り人間が付けたくない
自動付与したラベルを最小限の人間教師で質向上
画像の権利問題
– 人物画像の利用はプライバシーなど問題...
提案:人物検出のための弱教師あり事前学習
教師あり事前学習を凌駕する「弱」教師あり事前学習
– 870万(ImageNetの約7倍)の弱ラベル付画像の自動収集
– 僅か1,443枚の人為的ラベル付け(弱教師)のみで質を改善
WSPD: Weak...
全体の流れ
大量画像収集+弱教師による選別で絶大な効果
– 既存の検出器+誤検出除去でデータを半自動構築
– 大規模データで任意の検出器に事前学習を実施
SSD, M2DetWSPD
4. Pre-training 5. Fine-tuning...
Step 1. 画像収集
– 世界16都市で撮影された画像を収集
– YFCC100M(Flickr)を使用
SSD, M2DetWSPD
4. Pre-training 5. Fine-tuning
SSD, M2Dete.g. Caltec...
Step 2. 既存検出器によるラベル付け
– 既存検出器により検出枠(bbox)を付与
– 本研究ではFaster R-CNNを使用
SSD, M2DetWSPD
4. Pre-training 5. Fine-tuning
SSD, M2D...
Step 3. 誤検出の除去
– SVMによって各bboxが人物であるかを判断
– 学習データは少量を人手で用意
(人物画像・ネガティブ画像を各1,443枚)
SSD, M2DetWSPD
4. Pre-training 5. Fine-tun...
Step 4-5. 事前学習 & ファインチュー二ング
– Step 3のbboxを使用し検出器を学習
– 検出器にはSSD, M2Detを使用
SSD, M2DetWSPD
4. Pre-training 5. Fine-tuning
SSD...
Q. 弱教師あり学習とは?#あくまで今回の場合
A. 単純なYES/NO質問に回答すること
– Step 2の検出枠に人物の全身写っているか否か?
– Step 3のデータ洗浄にて教師となる人物画像の質向上
5. Fine-tuning
tio...
WSPDのノイズ率
無作為抽出と手作業でカウント
– 1,000 bboxを抽出,手作業で4種類に分類
ラベル 内包率 [%]
(i) 座標位置や大きさが正確 62.2
(ii) 人物位置がずれている 21.1
(iii) bbox内に複数人含...
比較
事前学習モデルの入れ替えにより比較
– 教師ありデータ: ImageNet, Pascal VOC, EuroCity Persons
– SSDを用いた場合,提案手法が最高精度
Ours
(#Img: 2.8M, #box: 8.7M)...
人物検出のエラー率
事前学習/検出器の変更による検出エラー率
– M2Detにおいても教師あり事前学習を凌駕
Method Pre-train
Supervision
(in pre-training)
# Batch,
# Epoch
Mis...
SSDによる検出結果の例
– 事前学習の違いで精度に大きく影響
– 提案法は,未検出/誤検出が少なく精度向上に大きく寄与
ラベルの質と精度の関係
WSPDにノイズを追加して検証
– bboxを意図的に移動してラベルの質を低下
– 全データのうち10%ずつラベルを付与
• 対象とするbboxをランダムで選択
• 他のbboxとのIoUが最も低くなる座標に移動
ノイズ...
ラベル付け時間の比較
ImageNet
– アノテーション期間:約2年
– AMT使用:約5万人が参加,数億枚DL
– 合計: 1.28M学習サンプル(画像識別)
WSPD(提案)
– アノテーション期間:数時間
– 産総研RA:1,000枚程...
データセットおよび学習済モデル公開中
870万のbboxを含むWSPDを再現可能*
3種の保存形式をサポート
– Pascal VOC (xml)形式
– MS COCO (json)形式
– 画像のみの保存
* YFCC100M画像が必要
詳...
まとめ
事前学習は “大量かつタスク特化” が重要
– 事前学習DBはラベルの質と共に規模 (106+オーダ)が重要
– 数時間の作業(+既存の検出器)のみで済む弱教師データ収集を提案
– 人物検出にてベースラインと比較し+13%の精度向上を達...
Prochain SlideShare
Chargement dans…5
×

SSII2020 [OS2-02] 教師あり事前学習を凌駕する「弱」教師あり事前学習

SSII2020 [OS2-02] 教師あり事前学習を凌駕する「弱」教師あり事前学習

6月11日 (木) 11:00 - 12:30 メイン会場(vimeo + slido)

登壇者:片岡 裕雄 氏(産業技術総合研究所)

概要:高品質な教師ラベルを含む大規模画像データセットを学習に用いた場合は成功がほぼ確約されていると言っても差し支えないが、ラベル付けのコストは計り知れない。本発表では、SNS からの画像データ収集や弱教師によるラベル付けを含め、最小限の手間で大規模データセットを構築する方法を紹介する。800万超の人物ラベルを含む大規模データセットを人物検出のための事前学習に用いた場合、ベースラインである教師ありの事前学習手法を凌駕する検出率を実現した。

  • Soyez le premier à commenter

SSII2020 [OS2-02] 教師あり事前学習を凌駕する「弱」教師あり事前学習

  1. 1. 教師あり事前学習を凌駕する 「弱」教師あり事前学習 -人物検出の事例から- 片岡 裕雄 国立研究開発法人 産業技術総合研究所 1 http://hirokatsukataoka.net/
  2. 2. 深層学習(DNN)は何をもたらした? • DNN & ImageNet @ILSVRC’12 – メリット • もはや説明不要 – デメリット • 膨大なアノテーション/画像DLによる個人情報保護が必要 アノテーション問題/法令遵守の障壁は非常に大きい 1st AI 2nd AI 3rd AI AMTにより5万人弱が参加,約2年を要した 数億画像DL,1400万枚収録,2.2万カテゴリ 【アノテーション地獄?】 http://www.image-net.org/ 実は権利関係が不透明 現在でも学術・教育目的のみ 【法令の遵守】 http://image-net.org/explore?wnid=n01503061
  3. 3. DNNの事前学習による特徴表現が重要 • 学習戦略(1) 教師あり学習 Supervised Learning – 学習の成功を確約,非常に強い特徴表現を獲得 学習戦略(2) {無, 弱, 自己}教師学習 – 人間による教師データのラベル付けは少量にしたい 2020年現在,{無, 弱, 自己}教師学習は劇的に進展中 gluon-cv.mxnet.io Pretraining Finetuning w/ ImageNet 93.65@CIFAR10 e.g. ImageNet, Places, Open Images w/ Rotation Classify 89.06@CIFAR10 Jigsaw(自己教師) DeepCluster(教師なし)Rotation(自己教師) # 厳密には教師なし学習 https://arxiv.org/abs/1603.09246 https://arxiv.org/pdf/1803.07728.pdf https://arxiv.org/abs/1807.05520 {Un, Weak-, Self-}Supervised Learning
  4. 4. ImageNetより大規模なデータ 「大規模データは正義」は現在進行形? JFT-300M (Google, 2017) / IG-3.5B (Facebook, 2018) ILSVRCの数百倍のデータセットは認識性能の向上に寄与するか? -> YES: 対数レベルで比例して性能は向上(10倍ごとに数%程度; 左下図) -> 35億枚の学習画像を用いた場合,モデルの変更なしで当時のSOTA達成(右下図) Google, ICCV 2017 http://openaccess.thecvf.com/content_ICCV_2017/papers/Sun_Revisiting_Unr easonable_Effectiveness_ICCV_2017_paper.pdf Facebook, ECCV 2018 https://arxiv.org/pdf/1805.00932.pdf
  5. 5. 少量教師学習への期待 「少量教師学習」は人間の教師を代替できるか? SimCLR (Google, 2020) 「自己教師 + 数%の教師」 により人間の教師に近接する精度を実現(左下図) -> 2020年現在,最もアツい学習の枠組みとして注目を集める Google, ICML 2020 https://arxiv.org/abs/2002.05709
  6. 6. 人物検出(Person Detection) データ量の面で物体データセットに劣る – 背景には人物画像使用等の権利問題もある Caltech GM-ATCI Daimler ETHZ TUD-Brussels INRIA Earlier person datasets(102〜104 オーダー) Larger-scale person datasets(104〜105 オーダー) 物体検出の成功に習い, 人物データセットも大規模化(106〜)を図りたい CityPersons https://arxiv.org/abs/1702.05693 35,000+ persons EuroCityPersons https://eurocity-dataset.tudelft.nl/ 238,000+ persons Larger-scale object datasets OpenImages https://storage.googleapis.com/ openimages/web/index.html 15,000,000+ instances <<圧倒的小規模 http://www.vision.caltech.edu/Imag e_Datasets/CaltechPedestrians/ https://sites.google.co m/site/rearviewpeds1/ http://www.gavrila.net/Datasets/Daimler_Ped estrian_Benchmark_D/daimler_pedestrian_b enchmark_d.html https://data.vision.ee.ethz .ch/cvl/aess/dataset/ http://datasets.d2.mpi- inf.mpg.de/tud-brussels/tud- brussels-motionpairs.tar.gz https://thoth.inrialpes.fr/data
  7. 7. 大規模人物データセットの問題 ラベル付けのジレンマ – 良質な教師データを大量に確保したい – しかし,ラベルはできる限り人間が付けたくない 自動付与したラベルを最小限の人間教師で質向上 画像の権利問題 – 人物画像の利用はプライバシーなど問題を孕む – しかし,良好な表現学習のため大量に使用したい Creative Commonsで権利付けされたデータを使用
  8. 8. 提案:人物検出のための弱教師あり事前学習 教師あり事前学習を凌駕する「弱」教師あり事前学習 – 870万(ImageNetの約7倍)の弱ラベル付画像の自動収集 – 僅か1,443枚の人為的ラベル付け(弱教師)のみで質を改善 WSPD: Weakly Supervised Person Dataset 870万の人物含む弱教師学習データ WSPD構築 WSPD事前学習モデルにより高性能な検出器 今後の人物検出のブレイクスルーとなる可能性 WSPD pre-train (提案) ImageNet pre-train 改善 事前学習入替のみ,モデル変更なしで検出率+13%向上* *ベースラインImageNet pre-trainとの比較
  9. 9. 全体の流れ 大量画像収集+弱教師による選別で絶大な効果 – 既存の検出器+誤検出除去でデータを半自動構築 – 大規模データで任意の検出器に事前学習を実施 SSD, M2DetWSPD 4. Pre-training 5. Fine-tuning SSD, M2Dete.g. Caltech Ped. / . / To get a better representation of person detection, we use the person bboxes in 3. Bbox Refinement. Fine-tuning for any person datasets. 2. Person Detection1. Image Collection 3. Bbox Refinement Collect images taken in the vicinity of 16 representative cities. Faster R-CNN generates bbox in the area considered to be person. Remove noisy bbox by SVM binary Classification; 2,886 training images.
  10. 10. Step 1. 画像収集 – 世界16都市で撮影された画像を収集 – YFCC100M(Flickr)を使用 SSD, M2DetWSPD 4. Pre-training 5. Fine-tuning SSD, M2Dete.g. Caltech Ped. / . / To get a better representation of person detection, we use the person bboxes in 3. Bbox Refinement. Fine-tuning for any person datasets. 2. Person Detection1. Image Collection 3. Bbox Refinement Collect images taken in the vicinity of 16 representative cities. Faster R-CNN generates bbox in the area considered to be person. Remove noisy bbox by SVM binary Classification; 2,886 training images. #img: 100M → 8.5M #box: 0
  11. 11. Step 2. 既存検出器によるラベル付け – 既存検出器により検出枠(bbox)を付与 – 本研究ではFaster R-CNNを使用 SSD, M2DetWSPD 4. Pre-training 5. Fine-tuning SSD, M2Dete.g. Caltech Ped. / . / To get a better representation of person detection, we use the person bboxes in 3. Bbox Refinement. Fine-tuning for any person datasets. 2. Person Detection1. Image Collection 3. Bbox Refinement Collect images taken in the vicinity of 16 representative cities. Faster R-CNN generates bbox in the area considered to be person. Remove noisy bbox by SVM binary Classification; 2,886 training images. #img: 8.5M #box: 0 → 76M
  12. 12. Step 3. 誤検出の除去 – SVMによって各bboxが人物であるかを判断 – 学習データは少量を人手で用意 (人物画像・ネガティブ画像を各1,443枚) SSD, M2DetWSPD 4. Pre-training 5. Fine-tuning SSD, M2Dete.g. Caltech Ped. / . / To get a better representation of person detection, we use the person bboxes in 3. Bbox Refinement. Fine-tuning for any person datasets. 2. Person Detection1. Image Collection 3. Bbox Refinement Collect images taken in the vicinity of 16 representative cities. Faster R-CNN generates bbox in the area considered to be person. Remove noisy bbox by SVM binary Classification; 2,886 training images. #img: 8.5M → 2.8M #box: 76M → 8.7M
  13. 13. Step 4-5. 事前学習 & ファインチュー二ング – Step 3のbboxを使用し検出器を学習 – 検出器にはSSD, M2Detを使用 SSD, M2DetWSPD 4. Pre-training 5. Fine-tuning SSD, M2Dete.g. Caltech Ped. / . / To get a better representation of person detection, we use the person bboxes in 3. Bbox Refinement. Fine-tuning for any person datasets. 2. Person Detection1. Image Collection 3. Bbox Refinement Collect images taken in the vicinity of 16 representative cities. Faster R-CNN generates bbox in the area considered to be person. Remove noisy bbox by SVM binary Classification; 2,886 training images. #img: 2.8M #box: 8.7M
  14. 14. Q. 弱教師あり学習とは?#あくまで今回の場合 A. 単純なYES/NO質問に回答すること – Step 2の検出枠に人物の全身写っているか否か? – Step 3のデータ洗浄にて教師となる人物画像の質向上 5. Fine-tuning tion 3. Bbox Refinement tes bbox in to be person. Remove noisy bbox by SVM binary Classification; 2,886 training images.YES: 2値判別器の正例に追加 NO: 学習データから除外 1,000枚程度画像が集まるまで実施 (数時間で終了) データ洗浄前(人物以外も混在) データ洗浄後(9割程度人物を含む; 次ページ) 2値識別により教師データの質向上!
  15. 15. WSPDのノイズ率 無作為抽出と手作業でカウント – 1,000 bboxを抽出,手作業で4種類に分類 ラベル 内包率 [%] (i) 座標位置や大きさが正確 62.2 (ii) 人物位置がずれている 21.1 (iii) bbox内に複数人含む 9.7 (iv) bbox内に人物を含まない 7.0 人物と判断できるbboxは 93.0 %に及ぶ
  16. 16. 比較 事前学習モデルの入れ替えにより比較 – 教師ありデータ: ImageNet, Pascal VOC, EuroCity Persons – SSDを用いた場合,提案手法が最高精度 Ours (#Img: 2.8M, #box: 8.7M) 教師あり事前学習との比較 +13.36% vs. ImageNet +8.74% vs. PascalVOC [3] (#img: 11.5K #box: 27.4K #class: 20) +6.38% vs. EuroCity P. [4] (#img: 47.3K #box: 238K) ※SSDによる検証結果
  17. 17. 人物検出のエラー率 事前学習/検出器の変更による検出エラー率 – M2Detにおいても教師あり事前学習を凌駕 Method Pre-train Supervision (in pre-training) # Batch, # Epoch Miss rate [%] (lower is better) SSD ImageNet Human Supervision 64, 100 33.90 SSD VOC Human Supervision 64, 100 29.28 SSD ECP Human Supervision 64, 100 26.92 SSD WSPD Weak Supervision 128, 100 20.55 M2Det ImageNet Human Supervision 16, 100 57.31 M2Det VOC Human Supervision 16, 100 73.72 M2Det ECP Human Supervision 16, 100 97.68 M2Det WSPD Weak Supervision 16, 50 16.44
  18. 18. SSDによる検出結果の例 – 事前学習の違いで精度に大きく影響 – 提案法は,未検出/誤検出が少なく精度向上に大きく寄与
  19. 19. ラベルの質と精度の関係 WSPDにノイズを追加して検証 – bboxを意図的に移動してラベルの質を低下 – 全データのうち10%ずつラベルを付与 • 対象とするbboxをランダムで選択 • 他のbboxとのIoUが最も低くなる座標に移動 ノイズ率90%でもImageNet事前学習(検出エラー率34%)より高精度 20 25 30 35 40 0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100% MissRate[%] ノイズ率 ノイズ率30 %まで性能低下 1%以内
  20. 20. ラベル付け時間の比較 ImageNet – アノテーション期間:約2年 – AMT使用:約5万人が参加,数億枚DL – 合計: 1.28M学習サンプル(画像識別) WSPD(提案) – アノテーション期間:数時間 – 産総研RA:1,000枚程度の質評価,識別器が自動で評価 – 合計:8.7M学習サンプル(人物検出)
  21. 21. データセットおよび学習済モデル公開中 870万のbboxを含むWSPDを再現可能* 3種の保存形式をサポート – Pascal VOC (xml)形式 – MS COCO (json)形式 – 画像のみの保存 * YFCC100M画像が必要 詳細はGitHub ReadMe参照 arXiv https://arxiv.org/abs/2003.12263 GitHub https://github.com/cvpaperchallenge/FashionCultureDataBase_DLoader
  22. 22. まとめ 事前学習は “大量かつタスク特化” が重要 – 事前学習DBはラベルの質と共に規模 (106+オーダ)が重要 – 数時間の作業(+既存の検出器)のみで済む弱教師データ収集を提案 – 人物検出にてベースラインと比較し+13%の精度向上を達成 「人間による教師の限界」を突破, 弱教師データ収集で教師あり学習の精度を大幅改善 https://www.youtube.com/watch?v=S7uZpHQ0KeM&feature=youtu.be 【Special Thanks】 阿部 香織 氏(AIST/TDU; 画像データ収集等 初期DB収集) 美濃口 宗尊 氏(AIST/TDU; 人物検出器学習・実験) cvpaper.challenge 研究メンバー

×