Ce diaporama a bien été signalé.
Nous utilisons votre profil LinkedIn et vos données d’activité pour vous proposer des publicités personnalisées et pertinentes. Vous pouvez changer vos préférences de publicités à tout moment.

【ECCV 2018】Exploring the Limits of Weakly Supervised Pretraining

869 vues

Publié le

ECCV 2018 サーベイ

cvpaper.challenge はコンピュータビジョン分野の今を映し、創り出す挑戦です。論文読破・まとめ・アイディア考案・議論・実装・論文執筆(・社会実装)に至るまで広く取り組み、あらゆる知識を共有しています。
http://hirokatsukataoka.net/project/cc/index_cvpaperchallenge.html

Publié dans : Technologie
  • Soyez le premier à commenter

【ECCV 2018】Exploring the Limits of Weakly Supervised Pretraining

  1. 1. Exploring the Limits of Weakly Supervised Pretraining (ECCV 2018 Poster) Dhruv Mahajan, Ross Girshick, Vignesh Ramanathan, Kaiming He, Manohar Paluri, Yixuan Li, Ashwin Bharambe, Laurens van der Maaten (Facebook) 1 http://hirokatsukataoka.net/project/cc/index_cvpaperchallenge.html 資料作成:⽚岡 裕雄
  2. 2. 論⽂の要点 2 – ImageNetを始めとするDBはラベル付けが困難なので SNSのハッシュタグによる⼤量DBを提案 – 35+億枚のDBを準備して事前学習,ImageNetにて 85.4%(top-1)/97.6%(top-5)を記録 – その他転移学習の調査を実施,弱教師ラベル/⼤量データ による学習法を確⽴した
  3. 3. Facebookのこの記事が論⽂になっていた 3 • Facebookは35億枚のインスタ画像とハッシュタグで画像 認識AIを強化ーー85%以上の認識率、2万カテゴリを対象 http://thebridge.jp/2018/05/facebook-is-using-instagram-photos-and-hashtags-to-improve-its-computer-vision https://developers.facebook.com/videos/f8-2018/f8-2018-day-2-keynote/
  4. 4. CNNにおける事前学習(Pre-train) 4 • 任意のDBにより事前に学習 – パラメータ(特徴量)w を学習することが事前学習 – 1) Pre-train, 2) Fine-tuningの順で学習(下図参照)するこ とで特定タスクに対する精度向上が期待 Conv Conv Pool Conv Conv Conv Pool Conv Conv Conv Pool Conv Conv Pool Conv Conv Pool Conv g (i; w ) DB (Pre-train) FC FC Output1 画像 i を⼊⼒して出⼒を得る 関数 g,wによりparametrize Pre-trained Model DB (Fine-tuning) Output2 Pre-trained Model 1) Pre-train; 通常は⼤規模データにより学習 2) Fine-tuning; 通常はタスクに応じてパラメータを適応 Merit: ⼤規模DBでPre-trainしてFine-tune すると精度が出やすい!
  5. 5. 事前学習モデルは⾮常に重要! 5 • ImageNet[Deng+, CVPR09] が代表例 – 実世界の視覚特徴を普遍的に表現(したと⾔われる) – ImageNetはDNN in CVのアイコン的存在 > デファクトスタンダードとして扱われる image-net.org/index ImageNet事前学習モデルはDLフレームワーク等 でもスタンダードで配布される
  6. 6. ImageNetの利点と限界 6 メリット + 事前学習に良好 + 事前学習モデルが簡単に⼊⼿可能 デメリット ー 古い(Nearly ten years old) ー DBが⼩さい(Modern standards “small”) ー ラベル付けが困難(building new datasets is labor) CVにおけるこの根本問題をなんとかしたい
  7. 7. 研究内容 7 • 画像ラベルが⾃動で⼊⼿可能な仕組みを活⽤,35億の画像 データを収集A)しImageNet等に代わる事前学習DBB)とする A) Instagramにアップロードされる画像とそのハッシュタグを使⽤ • ハッシュタグを利⽤することで17kカテゴリを追加アノテーションなしに⽣成 • ラベル付けなしでBillion-order(35億枚)のデータ収集に取り組む B) 作成DBを⽤いて事前学習,ImageNet等のデータにてテスト • 弱ラベルも転移学習に有効なことを実証 • 画像枚数は多いほど良いかどうかを検証
  8. 8. その他使⽤データセット 8 • ⽐較およびテスト
  9. 9. 実験 9 • 本提案で準備したInstagramによるDBを⽤いて, – 画像枚数とカテゴリ(ここではハッシュタグ)数の関係性を調査 – 事前学習モデルと場⾯ごと(⼀般物体認識,詳細画像識別,シーン認識)の効果 – アーキテクチャとデータ構成の関係性を調査 – ラベルノイズと精度低下の関係性 • に関する調査を⾏なった
  10. 10. 実験の構成 10 – Model: ResNeXt-101 – Loss: Cross-entropy Loss – Labels: Multi-label(1枚に付き平均2カテゴリ) – Instagram 3.5B DB Training • Machine: 336GPUs, 42 Machines, 8,064 mini-batch images, • Time: 22 days, 2 epochs • Learning rate: 0.1 ~ 0.1/(256x8,064) – ImageNet Training • Machine: 128 GPUs, 16 Machines, 3,072 mini-batch images
  11. 11. 実験結果(1/5) 11 • 画像枚数/ラベル数 @ImageNet • ⼀般物体認識に対し画像枚数, カテゴリ数が多い⽅が良い! ImageNet(1,000カテゴリ テスト) • ベースライン: 79.6 • 事前学習あり: 84.2(+4.6%) ImageNet(5,000カテゴリ テスト) • ベースライン: 53.5 • 事前学習あり: 56.0(+2.5%) ImageNet(9,000カテゴリ テスト) • ベースライン: 46.0 • 事前学習あり: 49.0(+3.0%) # ベースライン:ImageNet train # 事前学習あり:Instagram pre-train, ImageNet fine-tune
  12. 12. 実験結果(2/5) 12 • 画像枚数/ラベル数 @CUB & Places • 詳細画像分類/シーン認識に対しても • 画像枚数, カテゴリ数が多い⽅が良い! CUB2011(200カテゴリ テスト) • ベースライン: 84.0 • 事前学習あり: 89.2(+5.2%) Places365(365カテゴリ テスト) • ベースライン: 56.2 • 事前学習あり: 58.0(+1.8%) # ベースライン:CUB/Places train # 事前学習あり:Instagram pre-train, CUB/Places fine-tune
  13. 13. 実験結果(3/5) 13 • ResNeXt-101 param./DB param. パラメータ調査 • 17kカテゴリ/32x16dが良好 • タスクにより良い構成が異なる
  14. 14. 実験結果(4/5) 14 • ラベルノイズが与える影響 ImageNet(1,000カテゴリ テスト) • ノイズなし: 82.1 • ノイズ50%: 76.1(-6.0%) ImageNet(5,000カテゴリ テスト) • ノイズなし: 52.6 • ノイズ50%: 46.1(-6.5%) ImageNet(9,000カテゴリ テスト) • ノイズなし: 42.7 • ノイズ50%: 36.6(-6.1%) ノイズの割合と精度 • ノイズは(当然)少ない⽅が良い • 50%ノイズあると約6%下がる (逆を⾔うと半分ノイズでもその程度)
  15. 15. 実験結果(5/5) 15 • 物体検出 – 物体検出も同様に事前学習は重要 物体検出@COCO e.g. COCO detection (box AP) • 43.7 w/ ImageNet Pre-train • 45.2 w/ Instagram Pre-train e.g. COCO segment. (mask AP) • 38.6 w/ ImageNet Pre-train • 39.4 w/ Instagram Pre-train
  16. 16. 関連研究(1/3) 16 • Places 365 – ImageNet(物体認識)に対してPlaces(シーン認識) – 画像のより⼤域的な特徴を学習可能 [Zhou+, TPAMI2017]データベースのサイズもImageNetと同等
  17. 17. 関連研究(2/3) 17 • What makes ImageNet good for transfer learning? – ImageNetの転移学習に関する効果について検証 – カテゴリ/画像枚数など多少は減らしても転移学習ができることを⽰ した • 例: 枚数は500/1,000,カテゴリは127/1,000でも検出精度がマイナス数% [Huh+, NIPS2016WS] ImageNetはフルで使⽤しなくてもOK?
  18. 18. 関連研究(3/3) 18 • JFT-300M – Google / CMUの3億枚画像データセットを使⽤ – サンプル数と精度の関係は,logスケールにて線形 [Sun+, ICCV2017] 億単位のデータを提案(だが⾮公開)
  19. 19. ディスカッション 19 • Pre-trainの画像枚数とカテゴリ数の効果 – More is better! • 3.5B(35億枚),17,000カテゴリ • ImageNet において Top-1 85.4%, Top-5 97.6%を記録 – 画像枚数は重要 • 画像枚数: 9.4億 vs. 35億は⼤体において後者が良い – SNSハッシュタグによる弱教師はカテゴリとして有効 • SNSユーザによるハッシュタグによりいわゆるDBのラベル付は不要 • 画像枚数と同様にカテゴリ数の増加も重要
  20. 20. メモ 20 – SNSのハッシュタグを利⽤するという考え⽅は使える! • すでにあるWebの知⾒を再利⽤ • ブログ/Web記事なども同様に重要か – 勝つためにここまでやるか!?というところまでやっている • インスタグラムを買収してBillion-orderのデータを収集,調査 • その他,336GPUs, 42Machinesなどパワーワードが並ぶ • だから,勝てる – タスクが多様になるのにPre-trainは画像識別のまま?(これ重要と思います) • おそらくよくない • タスクに合わせて適切なLarge-scale DBによる事前学習ができるとよい • ここら辺は{un-, weak-, self-} supervised学習が代替しようとしている – CVPR 2018 速報より https://www.slideshare.net/cvpaperchallenge/cvpr-2018-102878612
  21. 21. メモ2 21 – アーキテクチャよりもデータ • アーキテクチャ頑張るよりもシンプルモデルで⼤規模データの⽅が効果が⼤きい • お⾦があるならデータ集める⽅につぎ込んだ⽅が良い! • この時代,データの重要度はやはり意識したい

×