Ce diaporama a bien été signalé.
Nous utilisons votre profil LinkedIn et vos données d’activité pour vous proposer des publicités personnalisées et pertinentes. Vous pouvez changer vos préférences de publicités à tout moment.

CVPR 2019 速報

21 303 vues

Publié le



CVPR 2019 ( http://cvpr2019.thecvf.com/ )の参加速報を書きました。
この資料には下記の項目が含まれています。
・DNNの動向・CVのトレンド(DNNの流れとCVにおけるトレンドの変遷)
・CVPR 2019での動向や気付き
・最近のトレンドを創っている/引用されそうな論文
・今後の方針
(・CVPR 2019の論文まとめはこちらにあります Link: http://xpaperchallenge.org/cv/survey/cvpr2019_summaries/ )

cvpaper.challengeはコンピュータビジョン分野の今を映し、トレンドを創り出す挑戦です。論文サマリ・アイディア考案・議論・実装・論文投稿に取り組み、凡ゆる知識を共有しています。
http://xpaperchallenge.org/cv/

Publié dans : Technologie
  • Identifiez-vous pour voir les commentaires

CVPR 2019 速報

  1. 1. CVPR 2019 速報 ⽚岡裕雄,原健翔,Qiu Yue,中嶋航⼤, 夏⽬亮太,美濃⼝宗尊,吉⽥光太,⽯川裕地, 笠井誠⽃,⼟屋志⾼,若宮天雅,相澤宏旭,有坂壮平 1 http://xpaperchallenge.org/cv
  2. 2. 概要 2 • CV分野のトップ会議CVPR2019の参加速報 – cvpaper.challenge(次ページ)のメンバーで編集 • ACL/CVPR 2019 網羅的サーベイ(サマリHP 229ページ記載)実⾏中! • 今回,cvpaper.challengeからはWS/コンペに6件(5ページ) – 現在までの会議速報 • CVPR 2016 速報: https://www.slideshare.net/HirokatsuKataoka/cvpr-2016 • ECCV 2016 速報: https://www.slideshare.net/HirokatsuKataoka/eccv-2016 • CVPR 2017 速報: https://www.slideshare.net/cvpaperchallenge/cvpr-2017-78294211 • ICCV 2017 速報: https://www.slideshare.net/cvpaperchallenge/iccv-2017 • CVPR 2018 速報: https://www.slideshare.net/cvpaperchallenge/cvpr-2018-102878612 – 研究コミュニティ内で網羅的サーベイを実⾏, できる限り 聴講/議論
  3. 3. cvpaper.challenge? 3 • ⽇本のCV分野を強くするチャレンジ! ◆論⽂読破・まとめ・発想・議論・実装・論⽂執筆に⾄るまで取り組む Survey Member: 250+名 Research Member: 50+名 (産総研/筑波⼤/電⼤/早⼤/慶⼤/⼯学院/東⼯⼤/東北⼤/東⼤/千葉 ⼤/岐⾩⼤/デジハリ⼤/中部⼤/UCL) cvpaper.challengeの研究プロジェクト CV分野の今を映し, トレンドを創る挑戦 ⼈を⾒ない⼈物⾏動認識 ECCV16WS Award ViEW16若⼿奨励賞 Dynamic Fashion Cultures MIRU17学⽣奨励賞 # イメージ図 NIDB Near-Miss Incident DB 交通事故解析/予測 ICRA18/CVPR18 3D-ResNets-PyTorch CVPR18/GitHub世界4位 その他多数のProj.が推進中 HP: http://xpaperchallenge.org/ Twitter: @CVpaperChalleng
  4. 4. How to join cvpaper.challenge? 4http://xpaperchallenge.org/cv/recruit.html
  5. 5. cvpaper.challengeの論⽂ @CVPR 2019 5 – Yue Qiu, Yutaka Satoh, Hirokatsu Kataoka, Ryota Suzuki, "Incorporating Depth into Visual Question Answering", in CVPR 2019 Workshop on Visual Question Answering and Dialog. – Yue Qiu, Yutaka Satoh, Hirokatsu Kataoka, Ryota Suzuki, "Visual Question Answering with RGB-D Images", in CVPR 2019 Workshop on Women in Computer Vision (WiCV). – Kota Yoshida, Munetaka Minoguchi, Kazuki Tsubura, Kazushige Okayasu, Seito Kasai, Akio Nakamura, Hirokatsu Kataoka, “Which generates better jokes, hand-crafted features or deep features,” CVPR 2019 Language & Vision Workshop, 2019. – Hirokatsu Kataoka, Kaori Abe, Munetaka Minoguchi, Akio Nakamura, Yutaka Satoh, "Ten- million-order Human Database for World-wide Fashion Culture Analysis", in CVPR 2019 Workshop on Understanding Subjective Attributes of Data, Focus on Fashion and Subjective Search (FFSS-USAD). (Oral) [PDF] [Oral] [Poster] – Seito Kasai, Yuchi Ishikawa, Tenga Wakamiya, Kensho Hara, Hirokatsu Kataoka, “AIST Team submission for Task 3: Dense-Captioning Events in Videos,” CVPR 2019 Workshop, International Challenge on ActivityNet Challenge, 2019. – Tenga Wakamiya, Kensho Hara, Yuchi Ishikawa, Seito Kasai, Hirokatsu Kataoka, “AIST Submission for ActivityNet Challenge 2019 in Trimmed Activity Recognition (Kinetics),” CVPR 2019 Workshop, International Challenge on ActivityNet Challenge, 2019. – 論⽂/プレゼン資料等のダウンロードこちら http://hirokatsukataoka.net/
  6. 6. NLP(⾃然⾔語処理)版もあります! 6 https://www.slideshare.net/nlpaper-challenge/nlpaperchallenge-126950430
  7. 7. NLP(⾃然⾔語処理)版もあります! 7 https://www.slideshare.net/nlpaper-challenge/nlpaperchallenge-126950430
  8. 8. それならRoboticsも始めます! 8
  9. 9. それならRoboticsも始めます! 9
  10. 10. DNNの動向・CVのトレンド 10 - 現在までの流れをおさらい(速報2018から更新あり) - CV分野の最近のトレンドも記載 - CVPR2019についての情報は主に 次のCVPR2019の動向・気付きを参照
  11. 11. DNNの動向・CVのトレンド(1/34) 11 • DNN時代以前の動向 – Perceptron, MLP, Neocognitron, BackProp, CNN – DNNが流⾏る直前の画像認識では局所特徴が使⽤ 1st AI 2nd AI 3rd AI F. Rosenblatt et al. “Principles of Neurodynamics: Perceptrons and the Theory of Brain Mechanisms” in 1961. Rumelhart et al. “Learning representations by back-propagating errors” in Nature 1986. K. Fukushima, “Neocognitron: A self-organizing neural network model for a mechanism of pattern recognition unaffected by shift in position”, in 1980 Y. LeCun et al. “Gradient-based learning applied to document recognition” in IEEE 1998.
  12. 12. DNNの動向・CVのトレンド(2/34) 12 • Perceptron, MLP, Neocognitron/ConvNet – Perceptron • ⼊⼒とコネクション(重み)の線形和,活性化関数により構成 – MLP: Multi-layer Perceptron • Perceptronの多層化 – Neocognitron/ConvNet • 畳込みの概念を導⼊,特に隣接ピクセルに類似関係のある画像処理 に有効 Perceptron(パーセプトロン) Neocognitron K. Fukushima, “Neocognitron: A Self-organizing Neural Network Model for a Mechanism of Pattern Recognition Unaffected by Shift in Position,” Biol. Cybenetics 36, pp.193-202, 1980. https://www.rctn.org/bruno/public/papers/Fukushima1980.pdf Convolutional Neural Net Y. LeCun et al. “Gradient-Based Learning Applied to Document Recognition,” IEEE, 1998. http://yann.lecun.com/exdb/publis/pdf/l ecun-01a.pdf
  13. 13. DNNの動向・CVのトレンド(3/34) 13 • ILSVRCを発端とする画像識別タスクへの応⽤ – AlexNet @画像認識コンペILSVRC2012 • 2位に10%以上の⼤差で勝者となる(2位は東京⼤学のチームISI) ⽜久⽒講演スライドより https://www.slideshare.net/YoshitakaUshiku/deep-learning- 73499744/4 – 背景にはBelief Propagation, ReLU, SGD, Dropoutなど構 造をDEEPにする技術が揃ってきた
  14. 14. DNNの動向・CVのトレンド(4/34) 14 DNNが勝てた背景 – ImageNet!(データが最も重要) – Computing!(圧倒的な計算⼒) http://www.image-net.org/ http://cvpr2017.thecvf.com/ ×
  15. 15. DNNの動向・CVのトレンド(5/34) 15 ImageNetの収集について – 14,000,000+ imgs / 20,000+ categories – 2007年からデータを収集,2009年CVPR発表 – その後もデータ収集は継続して,現在は上記の規模に http://fungai.org/images/blog/imagenet-logo.png https://www.ted.com/talks/fei_fei_li_how_we_re_teaching_computers_t o_understand_pictures/up-next?language=ja ImageNetのロゴ,右側はStanfordの⾚,左は 前所属のPrinceton,そして上の緑は WorldPeaceー世界平和ーを⽰す(らしい) Fei-Fei⽒のTED動画(右)資⾦繰りの苦労や ,2000年代当時はアルゴリズム⾄上主義でデ ータを収集することが理解されなかった
  16. 16. DNNの動向・CVのトレンド(6/34) 16 計算機環境(主にGPU)の発展 – 特に3rd AIブームからはNVIDIAの隆盛ぶりがすごい – NVIDIA,最初はゲーム⽤グラフィックボードを売ってい たらしいが,深層学習に会社の命運を託すと明⾔ – 結果,下記の性能向上と世界的な提携/資⾦獲得である https://www.nextplatform.com/2015/03/18/nvidia-tweaks-pascal-gpus-for-deep-learning-push/ Tesla(2008年)からVolta( 2018年)世代までの性能向上
  17. 17. DNNの動向・CVのトレンド(7/34) 17 • 構造の深化(2014〜2016) – 2014年頃から「構造をより深くする」ための知⾒が整う – 現在(主に画像識別で)主流なのはResidual Network AlexNet [Krizhevsky+, ILSVRC2012] VGGNet [Simonyan+, ILSVRC2014] GoogLeNet [Szegedy+, ILSVRC2014/CVPR2015] ResNet [He+, ILSVRC2015/CVPR2016] ILSVRC2012 winner,DLの⽕付け役 16/19層ネット,deeperモデルの知識 ILSVRC2014 winner,22層モデル ILSVRC2015 winner, 152層!(実験では103+層も)
  18. 18. DNNの動向・CVのトレンド(8/34) 18 • 構造の複雑化・⾃動化(2016〜) – ResNet以降のアーキテクチャ • ResNeXt, DenseNet, SENet, ... – ⾃動化(Neural Architecture Search) • NASNet, PNASNet, ... SENet(SE-block) J. Hu et al. “Squeeze-and-Excitation Networks, “ in TPAMI 2019. https://arxiv.org/abs/1709.01507 S. Xie et al. “Aggregated Residual Transformations for Deep Neural Networks, “ in CVPR 2017. https://arxiv.org/abs/1709.01507 ResNeXt G. Huang et al. “Densely Connected Convolutional Networks, “ in CVPR 2017. https://arxiv.org/abs/1608.06993 DenseNet B. Zoph et al. “Learning Transferable Architectures for Scalable Image Recognition,“ in CVPR 2018. https://arxiv.org/abs/1707.07012 NASNet C. Liu et al. “Progressive Neural Architecture Search,“ in CVPR 2018. https://arxiv.org/abs/1712.00559 PNASNet
  19. 19. DNNの動向・CVのトレンド(9/34) 19 • 他タスクへの応⽤(画像認識・動画認識) – 物体検出: R-CNN, Fast/Faster R-CNN, YOLO, SSD,,, – 領域分割: FCN, SegNet, U-Net,,, – Vision & Language: 画像説明⽂, VQA, Visual Dialog,,, – 動画認識: Two-stream ConvNets, 3D Conv., (2+1)D Conv. ,,, Person Uma Show and Tell [Vinyals+, CVPR15] R-CNN [Girshick+, CVPR14] FCN [Long+, CVPR15] Two-Stream CNN [Simonyan+, NIPS14]
  20. 20. DNNの動向・CVのトレンド(10/34) 20 Hito Uma Haar-like [Viola+, CVPR01] + AdaBoost Fast R-CNN [Girshick, ICCV15] ROI Pooling, Multi-task Loss Faster R-CNN [Ren+, NIPS15] RPN ・・・ ・・・ R-CNN時代(それ以前は”Hand-crafted” ObjectNess)⾼速化 & ⾼精度化 One-shot Detector時代 兎にも⾓にも(精度を保ちつつ)⾼速化 YOLO(v1)/v2/v3 [Redmon+, CVPR16/CVPR17/arXiv18] One-shot detector, w/ full-connect layer ・・・ Latest Algorithm 精度重視,⾼速 Mask R-CNN [He+, ICCV17] RoI Align, Det+Seg ・・・ bbox+segmentationのラ ベルが同時に⼿に⼊るなら Mask R-CNNを試そう 41.8AP@MSCOCO bboxのみが⼿に⼊ るならRetinaNetを ⽤いるのがベター 40.8AP@MSCOCO SSD [Liu+, ECCV16] One-shot detector, Anchor Box Hand-crafted feature時代 基礎/枠組みの構築 HOG [Dalal+, CVPR05] + SVM ICF [Dollár+, BMVC09] + Soft-cascade DPM [Felzenszwalb+, TPAMI12] + Latent SVM ・・・ • 物体検出の流れ R-CNN [Girshick, CVPR14] Selective Search + CNN
  21. 21. DNNの動向・CVのトレンド(11/34) 21 • セマンティック/インスタンスセグメンテーション • ・・・ピクセルごとにラベルを回帰 – デファクトスタンダードはまだ覇権争い? – 問題を細分化して解いている印象 • ⽂脈把握, スケール変動, データ不⾜ FCN [Long, CVPR2015] 全層畳み込み,チャネル和 SegNet [Kendall, arXiv2015] U-Net [Ronneberger, MICCAI2015] 位置情報保持,チャネル連結 ・・・ ベースアルゴリズム ・・・ 精度重視 Mask R-CNN [He, ICCV2017] RoI Align, Det+Seg ・・・ 物体検出とインスタンスセグメ ンテーションのタスクを同時に 学習することで双⽅を相補的に 改善している DeepLab(v1,v2,v3) [Chen, TPAMI2017] Dilated Conv, 特徴マップの並列化 ※下はセマンティック/インスタンスセグメンテーションを両⽅含む
  22. 22. DNNの動向・CVのトレンド(12/34) 22 – CVとNLP(⾃然⾔語処理)の融合分野 • 画像説明⽂(Image Captioning) • 視覚的質問回答(Visual Question Answering; VQA) • Visual Dialog 画像 (Visual)と質問⽂ (Q)を⼊⼒, 回答 (A)を返却 画像を⼊⼒として ⽂章を出⼒ 【VQA】 【Image Captioning】 【Visual Dialog】 画像とそれに対する対話を繰り返しながら 回答を⾏う https://visualqa.org/ O. Vinyals et al. “Show and Tell: A Neural Image Caption Generator,” in CVPR 2015. https://arxiv.org/pdf/1411.4555.pdf https://visualdialog.org/
  23. 23. DNNの動向・CVのトレンド(13/34) 23 • 動画像認識のモデル(N-Dimension Conv) – 2D: Two-Stream ConvNets(フロー画像を同時に準備) – 2D+再帰モデル: CNN+LSTM(最近ベンチマークとしてしか使われなくなった) – 3D: 3D CNN(データが⽤意できればこれが本命) – (2+1)D: Separable Conv.(少量データの場合のオプション) 3D畳み込み(C3D, 3D ResNet, I3D) 3Dフィルタ 畳み込みマップ (3D) 識別 D. Tran et al. “A Closer Look at Spatiotemporal Convolutions for Action Recognition,” in CVPR 2018.
  24. 24. DNNの動向・CVのトレンド(14/34) 24 • GAN:画像⽣成を⾏うための構造として提案 – 現在,⽣成/データの分布を近づける性質から多 様な場⾯に応⽤ – 超解像,異常検知,データ拡張 など GANの構造 https://medium.com/@sunnerli/the- missing-piece-of-gan-d091604a615a 徐々に鮮明になるデータ BigGAN https://arxiv.org/pdf/1809.11096.pdf (注)下はGANにより⽣成された画像です
  25. 25. DNNの動向・CVのトレンド(15/34) 25 • GANの主要な流れ 1. GAN(オリジナルのGAN) • [Goodfellow, NIPS2014] https://papers.nips.cc/paper/5423-generative-adversarial-nets.pdf 2. DCGAN(畳み込み層の使⽤) • [Radford, ICLR2016] https://arxiv.org/abs/1511.06434 3. Pix2Pix(pixel同⼠が対応付くという意味でConditionalなGAN) • [Isola, CVPR2017] https://arxiv.org/abs/1611.07004 4. CycleGAN(pix2pixの教師なし版) • [Zhu, ICCV2017] https://arxiv.org/pdf/1703.10593.pdf 5. ACGAN(カテゴリ識別も同時に実施してコンディションとした) • [Odera, ICML2017] https://arxiv.org/abs/1610.09585 6. WGAN/SNGAN(学習安定化) • [Arjovsky, ICML2017] http://proceedings.mlr.press/v70/arjovsky17a.html • [Miyato, ICLR2018] https://arxiv.org/abs/1802.05957 7. PGGAN(⾼精度化) • [Karras, ICLR2018] https://arxiv.org/abs/1710.10196 8. Self-Attention GAN(アテンション機構を採⽤) • [Zhang, arXiv 1805.08318] https://arxiv.org/abs/1805.08318 9. BigGAN(超⾼精細GAN) • [Brock, ICLR2019] https://arxiv.org/abs/1809.11096 # 2018年10⽉時点での調査
  26. 26. DNNの動向・CVのトレンド(16/34) 26 • 鮮明な画像⽣成 - GAN vs. VAE!? – キレイな画像⽣成はGANが優勢だった(〜2019/05) • SNGAN, BigGAN, StyleGAN etc. – だが,VQ-VAE-2でVAEが巻き返しを図るか? • GANのようにMode Collapseを起こさないと主張 ⽣成モデル,今後の動向に期待!! 左:VQ-VAE-2,右:BigGAN A. Razavi et al. “Generating Diverse High-Fidelity Imageswith VQ-VAE-2,”, arXiv pre-print 1906.00446, 2019. https://arxiv.org/pdf/1906.00446.pdf
  27. 27. DNNの動向・CVのトレンド(17/34) 27 • 教師なし/少量教師あり学習への拡がり – キーワード • {Un-, Weak-, Semi-, Self-} supervision • {Zero-, One-, Few-} shot learning • Transfer Learning • Domain Adaptation • Reinforcement Learning – 教師がない/間接的に教師を与える,ような仕組みに対する 競争も激化 – 巨⼤IT企業のように⼤量のラベルを持たなくても学習を成 功させる • アルゴリズム⾄上主義への回帰?
  28. 28. DNNの動向・CVのトレンド(18/34) • 学習法の簡単な整理 – {Un-, Semi-, Weak-, Self-} supervision • Un-supervision(教師なし学習) アノテーションが⼀切ないデータで学習 • Semi-supervision(半教師あり学習) アノテーションを持つデータと持たないデータで学習 • Weak-supervision(弱教師付き学習) 出⼒として必要な情報よりも拘束⼒の弱いデータを⽤いて学習 – ex) 物体検出を⾏う際に画像ラベルのみを⽤いて学習 • Self-supervision(⾃⼰教師あり学習) ⾃ら教師を作り出して特徴表現を学習する「⾃⼰教師学習」 – 特定タスクの前に⾃ら教師を作り出し特徴表現を学習するため,その 後に特定タスクのためのファインチューニングを伴う – ex) 領域分割した画像でジグソーパズルを解く,回転を当てる
  29. 29. DNNの動向・CVのトレンド(19/34) 29 転移学習(Transfer Learning)の網羅的調査 – Taskonomy [Zamir, CVPR2018] • CVPR 2018 Best Paper Award • 26種のタスク間の関連性を調べる – CVの歴史の中で別々に議論されたいたサブタスクを繋げる – 効果を最⼤化する転移学習の関係性を明らかにした http://taskonomy.stanford.edu/ データセットは26タスクに対しラベル付け Task Similarity Tree: 類似するタスク間の関 係性を可視化
  30. 30. DNNの動向・CVのトレンド(20/34) 30 ⾃⼰教師あり学習(Self-supervised Learning) – ⾃ら教師を作り出し,良好な特徴表現を獲得 • 事前タスク(Pretext task; 左下図)で学習,⽬的タスク(Target task; 右下図)で調整 • 例:PretextはラベルなしImageNet, TargetはラベルありImageNet Pretext task例:ジグソーパズル 1.(a)(b)の図を9分割&シャッフルして復元するよう学習 2.通常通りPascalVOC, ImageNet等で学習 打倒!ImageNet 事前学習が⽬標の研究分野
  31. 31. DNNの動向・CVのトレンド(21/34) 31 • 教師あり学習 vs. 無教師/弱教師 – 少量/無 ラベルで教師あり学習に勝つ! • How good is my GAN?: 勝てなかったがGANによるデータ拡張の⽅針を⽰す • 6D Object Detection: 条件付だがこの⽂脈で勝利(ECCVʼ18 BestPaper) • Cut/Paste Learn: 9割くらいの精度まで来た [Sundermeyer, ECCV2018]Oral,BP ラベル無しCGデータで実時間6D検出, さらに教師有りを倒した [Remez, ECCV2018]Oral Cut/Pasteで既存セグメントラベルを増 加,教師有りに接近する精度 [Shmelkov, ECCV2018] GANの評価法提案,追加実験のデー タ拡張がポイント
  32. 32. DNNの動向・CVのトレンド(22/34) 32 • 学習データ⽣成 – キーワード • Synthetic Data • Adversarial Learning • Data Augmentation • Domain Randomization – CGなど合成(Synthetic)でデータを作成 – 敵対的学習(Adversarial Learning) • 少量のサンプルから画像⽣成 • 合成をリアルに近づける – データ拡張(Data Augmentation) • データの⽔増しをあらゆる⽅法(e.g. 反転,回転,統合)で実現
  33. 33. DNNの動向・CVのトレンド(23/34) 33 シミュレーション画像からの変換 – GANにより変換/⽣成した画像も学習に使えるように • 左図:SimGAN – CVPR2017 Best Paper – CGをリアルに近付けるRefiner(R)と識別器(D) • 右図:GraspGAN – ICRA2018 – 上記論⽂を元ネタとしてロボットシミュレータ画像をリアルに近づけて,マニ ピューレーションを実⾏
  34. 34. DNNの動向・CVのトレンド(24/34) 34 • 超越(Beyond)/再考(Rethink) ImageNet 学習回数が多くなると scratch/ pre-trainの精度が 同等に 通常の学習回数ではImageNet Pre- trainが強く⾒えている、、、 [Mahajan, ECCV2018] FBはSNSのHashtagでラベル付けなし,弱教師付きの3.5B枚画像DB構築 【超越】 Top-1: 85% w/ ResNeXt-101 ラベルはSNSの再利⽤ https://venturebeat.com/2018/05/02/facebook-is-using-instagram-photos-and-hashtags-to-improve-its-computer-vision/ ImageNetは他のタスクの精度向上に貢献する? • しない(左図参照) • スクラッチで⻑く学習すれば同等の精度まで到達 – ただし,10K以上のラベルは必要 • 収束は早くなったので,研究ペース促進に寄与 無/弱/半教師付きの⽂脈で⼤量画像とその教 師を与えられればモデルを強化できる 【再考】 [He, arXiv2018] タスクに即した事前学習をする(物体検知なら物体検知の事前学習)
  35. 35. DNNの動向・CVのトレンド(25/34) 35 • 動画DBの⼤規模化 – 動画共有サイトのタグ付け – 画像識別の動画版 Kinetics [Kay, arXiv2017] Moments in Time [Monfort, arXiv2018] YouTube-8M Kinetics-700 Moments in Time 700カテゴリ/650,000+動画 339カテゴリ/1,000,000+動画 3,862カテゴリ/6,000,000+動画 YouTube- 8M 【最近の代表的な動画データセット】 10万/100万を超える動画数のデータセットが登場,画像 識別に変わるネクストトレンドとして位置づけられる https://research.google.com/youtube8m/
  36. 36. DNNの動向・CVのトレンド(26/34) 36 • DNNのフレームワークが次々にリリース – Caffe/Caffe2, Theano, Chainer, TensorFlow, Keras, Torch/PyTorch, MatConvNet, Deeplearning4j, CNTK, MxNet, Lasagne (順不同,その他多数) – 特に,Caffeが出てきてからCVにおけるDNNの研究は爆発 的に広がった https://chainer.org/images/logo.png http://pytorch.org/docs/master/_static/pytorch-logo-dark.svg https://www.tensorflow.org/_static/image s/tensorflow/logo.png # ⽇本ではChainer? 世界的にはTensorFlow?研究者はPyTorch?開発者はCaffe2/TensorFlow? 簡便性の⾯から Kerasもよく使われていると聞く # Facebookでも研究はPyTorch,プロダクトはCaffe2のように使い分け
  37. 37. DNNの動向・CVのトレンド(27/34) 37 • HPC: コンピューティングによる研究の加速 – AWS/Azure/Google Cloud, ⽇本でも Tsubame3.0/ABCI/Fugaku(coming soon…) • Multi-GPU, Multi-Node – ImageNet 世界最速記録の変遷 • 29h > 1h > 30m > 15m > 6.6m > 1.8m > 2.0m > 1.2m 東⼯⼤TSUBAME 3.0 産総研ABCI https://commons.wikimedia.org/wiki/ File:TSUBAME_3.0_PA075096.jpg M. Yamazaki, et al. “Yet Another Accelerated SGD: ResNet- 50 Trainingon ImageNet in 74.7 seconds,” arXiv pre-print, 1903.12650, 2019. https://arxiv.org/pdf/1903.12650.pdf
  38. 38. DNNの動向・CVのトレンド(28/34) 38 • 現在も進化の⼀途を辿り,社会実装が進む – ⾃動運転/ADAS – ロボティクス – ファッション – 画像/動画検索 – 物流(ピッキング等) – 等 研究者としては「こんなこともできる」を世に出したい
  39. 39. DNNの動向・CVのトレンド(29/34) 39 • ⾃動運転/ADAS(Self-Driving Cars/ADAS) – 国際会議の研究(検知など単純タスク)は減少傾向, 実利⽤に向け開発? – 数年前はKITTI datasetに対しての精度競争が盛ん – 現在は⾃動運転の解釈性,ニアミスシーンの解析等 KITTI: Autonomous driving benchmark 物体検出,ステレオ視,セグメンテ ーション問題を提供Optical Flow Stereo Matching Object Detection Road Odometry Semantic Segmentation [Geiger, CVPR2012] [Kim, ICCV2017] ⾃動運転時の解釈性,物体検知の際 にどこを参照したか? 事故に近いシーンを認識,予測 [Suzuki&Kataoka, CVPR2018]
  40. 40. DNNの動向・CVのトレンド(30/34) 40 • ロボティクスへの応⽤ @CVPR2019 – 点群の利⽤や6D Object Detectionが多数 – マニピュレーション:DenseFusionでは6D Det. と把持を実施(左図) – ⾃動運転:点群トラッキング+形状復元(右図) C. Wang et al. “DenseFusion: 6D Object Pose Estimation by Iteratibve Dense Fusion,” in CVPR 2019 http://openaccess.thecvf.com/content_CVPR_2019/papers/Wang_D enseFusion_6D_Object_Pose_Estimation_by_Iterative_Dense_Fusion _CVPR_2019_paper.pdf S. Giancola et al. “Leveraging Shape Completion for 3D Siamese Tracking,” in CVPR 2019. http://openaccess.thecvf.com/content_CVPR_2019/papers/Giancola_Leveraging_Shape_Completion_for_3D_Sia mese_Tracking_CVPR_2019_paper.pdf 点群トラッキング+形状復元(下の例は⾞両の復元)
  41. 41. DNNの動向・CVのトレンド(31/34) 41 • ファッション分野への応⽤ @CVPR2019 – ファッションのアノテーションが進展 – DeepFashion2(左図) • DeepFashionの強化版,より詳細なラベルを付与 – FCDBv2(右図) • FCDBの強化版,バイナリ識別器によりデータクレンジング Y. Ge et al. “DeepFashion2: A Versatile Benchmark for Detection, Pose Estimation,Segmentation and Re- Identification of Clothing Images,” in CVPR 2019. http://openaccess.thecvf.com/content_CVPR_2019/papers/Ge_DeepFashion2_A_ Versatile_Benchmark_for_Detection_Pose_Estimation_Segmentation_and_CVPR_2 019_paper.pdf H. Kataoka, K. Abe, M. Minoguchi, A. Nakamura, Y. Satoh, "Ten- million-order Human Database for World-wide Fashion Culture Analysis", in CVPR 2019 Workshop on FFSS-USAD. http://openaccess.thecvf.com/content_CVPR_2019/papers/Ge_DeepFashion2_A_Versatile_B enchmark_for_Detection_Pose_Estimation_Segmentation_and_CVPR_2019_paper.pdf
  42. 42. DNNの動向・CVのトレンド(32/34) 42 • 動画認識の応⽤ – 動画⾃動ラベル付け – ⾒守り,料理⾏動解析,ホームロボティクス,,, • 動画DBは群雄割拠(下図) D. Damen et al. “Scaling Egocentric Vision: The EPIC-KITCHENS Dataset,” in ECCV 2018. https://epic-kitchens.github.io/2018 W. Kay et al. “The Kinetics Human Action Video Dataset,” in arXiv:1705.06950 2017. https://deepmind.com/research/open- source/open-source-datasets/kinetics/ C. Gu et al. “AVA: A Video Dataset of Spatio- temporally Localized Atomic Visual Actions,” in CVPR 2018. https://research.google.com/ava/downl oad.html M. Monfort et al. “Moments in Time Dataset: one million videos for event understanding,” in arXiv pre-print 1801.03150, 2018. http://moments.csail.mit.edu/ H. Zhao et al. “HACS: Human Action Clips and Segments Dataset for Recognition and Temporal Localization,” in arXiv pre-print 1712.09374 2017. http://hacs.csail.mit.edu/ Something-Something v2 dataset https://20bn.com/datasets/something-something
  43. 43. DNNの動向・CVのトレンド(33/34) 43 • 2019年 CV分野のトレンド: アルゴリズム考案 – 既存の問題をよりよく解く • 精度向上/タスク解決に対して効果的な⼿法を提案 – 以前からホットな領域 • 画像識別,物体検出,(インスタンス)セグメンテーション,動画 認識,Shape-from-X,SLAM,Computational Photography,⾃ 動運転/ADAS,ロボット応⽤,,, – 最近ホットになった領域 • Language & Vision(画像説明⽂/VQA),敵対的⽣成ネット( GAN),ファッション,,, – 今後ホットになりそうな領域? • 多タスク学習(転移学習),強化学習, 3D⽣成, 解釈性, , , # もちろん,上記以外にもまだまだあります
  44. 44. DNNの動向・CVのトレンド(34/34) 44 • 2019年 CV分野のトレンド: 少量教師学習 – ⼤規模データの収集/ラベル付け問題を解決および緩和 • 深層学習の1st waveがアーキテクチャ改善だとすると, • 2nd waveはデータ作成/少量データ学習 – データ問題のキーワード • {Un-, Weak-, Semi-, Self-} Supervised Learning • {Zero-, One-, Few-} shot learning • Domain Adaptation, Domain Randomization, Synthetic Data, Adversarial Learning, Data Augmentation 今後も新しい学習⽅法が提案されると予想 # もちろん,上記以外にもまだまだあります
  45. 45. CVPR 2019の動向・気付き 45 - 今回どんな研究が流⾏っていた? - 海外の研究者は何をしている? - 「動向」や「気付き」をまとめました
  46. 46. CVPR2019の動向・気付き(1/104) 46 • CVPR 2019 Opening – Sponsors • 284 sponsors(!) • 104 exhibitors • $3.1M(3+億円!) スポンサーのリスト
  47. 47. CVPR2019の動向・気付き(2/104) 47 • CVPR 2019 Opening – Conference • 5,160 papers(50+% increased) • 1,294 papers (25.2% Acceptance Rate) – 288 short (5 min.) orals • 9,227 registered attendees – 2018と⽐較して+2,500⼈ – Rates • US 4,763 • China 1,044 • Korea 664 • Japan 309 • Germany 265
  48. 48. CVPR2019の動向・気付き(3/104) 48 • CVPR 2019 Opening – 著者の分布 • 地域別 – Asia 56% – North America 27% – Europe 14% • 国別 – China 39% – U.S. 25% – Korea 4% – Germany 4% – U.K. 3%
  49. 49. CVPR2019の動向・気付き(4/104) 49 タイトルワード頻度差分で⾒るトレンド⽐較 Learning 72 Image 59 Based 42 Detection 39 Segmentation 33 via 33 Graph 31 Network 29 Object 29 Neural 28 Domain 25 Facial -11 Recurrent -10 Inference -10 Identification -9 Sparse -8 Person -7 Weakly -6 Identity -6 Geometry -5 Localization -5 Re -5 増加ワードTop10 減少ワードWorst10 論⽂数変化 979 (2018)->1294 (2019) なので注意
  50. 50. CVPR2019の動向・気付き(5/104) 50 論⽂増加分⽐率考慮版タイトルワード増減 増加ワードTop10 減少ワード Worst10 Based 23.3 Graph 21.0 Adaptive 14.2 Image 13.7 Representation 12.7 Detection 12.7 Metric 12.4 Search 12.1 Domain 12.1 via 11.8 Scene 11.0 Deep -25.9 Identification -15.1 Person -14.8 Recurrent -13.2 Pose -13.0 Facial -12.9 Video -12.5 Visual -12.3 Inference -11.7 Weakly -11.6 Re -11.6 更に 常識化? 中身を 見たい? 内部表現を 見たい? 記号化? よりDNNの内部的な部分への興味シフト?ドメイン適応が⼈気か ※計算:[2019]*979/1293 - [2018]
  51. 51. CVPR2019の動向・気付き(6/104) 51 • CVPR 2019 Opening – Best Paper 既知の環境と未知物体に関するFermat Pathsの理論を提案, Looking-around-the-corner設定に置いても効果的に3次元距 離画像推定を実施できる
  52. 52. CVPR2019の動向・気付き(6ʼ/104) 52 • Non-Line-of-Sightが流⾏りそう? – ⾒えない領域の情報を得るための研究 – CVPR2017:1件, CVPR2018:0件, CVPR2019:6件(内1件はBest Paper) A Theory of Fermat Paths for Non-Line-Of-Sight Shape Reconstruction
  53. 53. CVPR2019の動向・気付き(7/104) 53 • CVPR 2019 Opening – Best Paper Honorable Mention StyleGANの元論⽂ すでにPythonでコードが⼿に⼊るようになり,AdaINは標準で 使われている(下記は⼀例) StyleGAN @NVlabs/stylegan https://github.com/NVlabs/stylegan StyleGAN @rosinality/style-based-gan-pytorch https://github.com/rosinality/style-based-gan-pytorch AdaIN@naoto0804/pytorch-AdaIN https://github.com/naoto0804/pytorch-AdaIN
  54. 54. CVPR2019の動向・気付き(8/104) 54 • CVPR 2019 Opening – Best Paper Honorable Mention MVSの推定をDNNのDepth推定の事前情報とすることで精度を 従来の40%も向上,さらに⼈物を静⽌した状態で空間を動作可 能,アプリケーションとしても多数使⽤可能 Project & Code https://mannequin-depth.github.io/
  55. 55. CVPR2019の動向・気付き(9/104) 55 • CVPR 2019 Opening – Best Student Paper Award 複数モーダル(画像+⾔語)のマッ チングを強化学習的に実装,⾃⼰ 教師付き模倣学習によりナビゲー ションを実施した https://arxiv.org/abs/1811.10092
  56. 56. CVPR2019の動向・気付き(10/104) 56 • CVPR 2019 Opening – PAMI Longuet-Higgins Prize • J. Deng, W. Dong, R. Socher, L.-J. Li, K. Li, L. Fei-Fei, ImageNet: A large-scale hierarchical image database, CVPR 2009. • ImageNetがここにきて賞を獲得(次ページ) – PAMI Young Researcher Award • Karen Simonyan (Google DeepMind) – IEEE Awards • Jitendra Malik (2019 Computer Pioneer Award Recipient)
  57. 57. CVPR2019の動向・気付き(11/104) 57 • ImageNet論⽂@CVPRʼ09のその後 – コンペ開催 • ILSVRC 2010 - 2017 • 2012年にはAlexNetで⼤爆発! – 論⽂採択後も画像を集めラベル付け続ける • 14,197,122 images, 21,841 categories • 物体検出,動画物体検出 – 拡張の成果 • IJCV 2015採択 • 2017年,研究コミュニティでのコンペは終了, Kaggleへの移⾏ https://www.kaggle.com/c/imagenet-object-localization-challenge 絶対良いと信じる技術は論⽂発表後も磨き続ける! http://www.image-net.org/
  58. 58. CVPR2019の動向・気付き(12/104) 58 • 全体の傾向として... – 1,294本あるとどの分野もそれなりに論⽂が通っ ており「全部流⾏っている」ように⾒える – 単純技術は,技術の深化・応⽤の多様化・再考 • 単純技術: 画像識別,物体検出,領域分割 – 技術統合による複雑化 • よくあるのは単純技術を〜学習で**の応⽤ – 画像DBは量と共にラベル付の質や意味領域に • 超⼤規模!(巨⼤IT企業に多い) • ラベル付の質向上!(巨⼤IT企業に多い) • 意味を整理して考えた(⼤学/ベンチャー企業に多い)
  59. 59. CVPR2019の動向・気付き(13/104) 59 • Object Detection論⽂ほぼ全て⽬を通してみて... • これは読むべき!?Object Detection (1/3) – Region Proposal by Guided Anchoring • 既存のanchorを再検討し,Guided Anchoringを提案 • RPNによるベースラインよりも90%減に成功し,mAPも向上 – Libra R-CNN: Towards Balanced Learning for Object Detection • 学習課程中のバランスを⾒直すことで精度向上 • IoU,feature pyramid,L1 lossの3つで⽣じる不均衡に対処 – Feature Selective Anchor-Free Module for Single-Shot Object Detection • 既存のSingle shot系の⼿法にFSAFというanchor-free branchを追加 • SSDからRetinaNetまで全てのSingle shot系の⼿法で⼤きく精度向上
  60. 60. CVPR2019の動向・気付き(14/104) 60 • Object Detection論⽂ほぼ全て⽬を通してみて... • これは読むべき!?Object Detection (2/3) – ScratchDet: Training Single-Shot Object Detectors From Scratch • 物体検出におけるスクラッチ学習で精度を落とさないために探索 • 画像情報を最⼤限に利⽤することでImageNet pre-trainよりも精度向上 – Bounding Box Regression With Uncertainty for Accurate Object Detection • BBoxの教師データの曖昧さを回避するための損失関数の定義 • 様々なアーキテクチャで精度向上することが可能 – Reasoning-RCNN: Unifying Adaptive Global Reasoning Into Large-Scale Object Detection • 数千クラスを扱う検出問題において,既存のモデルを強化 • クラスの意味や常識などの情報を使うことで精度向上に寄与
  61. 61. CVPR2019の動向・気付き(15/104) 61 • Object Detection論⽂ほぼ全て⽬を通してみて... • これは読むべき!?Object Detection (3/3) – Mask Scoring R-CNN • 既存のモデルは分類信頼度=マスクの品質スコアだが相関してない問題 • マスク側の予測を優先させることでセグメンテーション精度の向上 – NAS-FPN: Learning Scalable Feature Pyramid Architecture for Object Detection • Feature Pyramid Network部分の設計を⾒直す論⽂ • Neural Architecture Searchによってより良いアーキテクチャを探索 やはり,物体検出のベースラインは既に完成されている!! 既存のモデルを局所的に改良し,精度向上に寄与するのが2019年のトレンド これらの提案⼿法の組み合わせを網羅的に検証するだけでも論⽂化できそう!? -> 網羅的検証により新しい知⾒を与える
  62. 62. CVPR2019の動向・気付き(16/104) 62 • 物体検出の巨⼤DBにも対応している – Open Images V4 • クラス数:600 • 画像枚数:総計1900万枚 • 物体数:15,400,000 – 数年前は PascalVOC / MSCOCO 等の DB で勝負 • 物体検知はより Open なフィールドにシフト • Open Set Problemという未知物体へ対応する問題設定 も
  63. 63. CVPR2019の動向・気付き(17/104) 63 招待講演:Antonio Torralba (MIT) 深層学習モデルの解剖 – データドメインが変わると精度が⼤幅に落ちる,ならばモデルはどこを⾒て 判断しているか? – CNNレイヤーの全てのノードについてそれの発⽕した特徴マップを⾒ると⾯ ⽩い知⾒が! – 特にGANに注⽬していて,GAN Dissection (https://arxiv.org/abs/1811.10597) にあるよ うにGANによって画像編集が⾏える可能性!! – GANPaint (http://gandissect.res.ibm.com/ganpaint.html?project=churchoutdoor&layer=layer4) で実際に試せ る! @ワークショップ: Learning From Unlabeled Videos
  64. 64. CVPR2019の動向・気付き(18/104) 64 •
  65. 65. CVPR2019の動向・気付き(19/104) 65 • 3D構造を理解しようとする研究が増えてきた – 画像認識は2D画像から3D空間を知ること – 3D空間の理解は2D画像の理解につながる! DeepVoxels https://vsitzmann.github.io/deepvoxels/ 明確な3D情報なしに,3Dシーンのview-dependent な外観をエンコードできる
  66. 66. CVPR2019の動向・気付き(20/104) 66 • 3D構造を理解するためのカギは 微分可能なレンダラー? – レンダラーを通して,Silhouetteを⼀致させる ことで対象の3D形状を推定する • Neural 3D Mesh Renderer • Learning View Priors for Single-view 3D Reconstruction • Scene Representation Networks: Continuous 3D- Structure-Aware Neural Scene Representations ↑ 微分可能なRay-Marchingを組み込んだDeepVoxel の後続研究。https://arxiv.org/abs/1906.01618
  67. 67. CVPR2019の動向・気付き(21/104) 67 • 動画認識といえばActivityNet Challenge! – 元々は単体データセット&コンペ • 現在のActivityNetのタスク – Temporal Action Proposal(⾏動領域を抜けなく推定) – Temporal Action Localization(開始・終了を推定) – Dense Captioning Events in Videos(動画説明⽂) ! 論⽂で連携/共著するように,データセットをベースにし て世界的コンペ/ワークショップとして知⾒を集約! http://activity-net.org/challenges/2019/ F. Caba et al. “ActivityNet: A Large-Scale Video Benchmark for Human Activity Understanding,” in CVPR 2015. https://www.cv-foundation.org/openaccess/content_cvpr_2015/html/Heilbron_ActivityNet_A_Large-Scale_2015_CVPR_paper.html データセット中には849時間の動画像, 203⾏動が含まれ,現在では開始・終了の Durationや動画説明⽂が付与されている
  68. 68. CVPR2019の動向・気付き(22/104) 68 • 最近は招待タスクも充実 – Kinetics-700(Google DeepMind) – AVA(Google) – Epic Kitchen(Univ. of Bristol/Toronto/Catania) – ActEV-PC(NIST/IARPA) http://activity-net.org/challenges/2019/ https://actev.nist.gov/prizechallenge • 監視映像からの物体/⾏動検知 • ⼈/物体のインタラクションも含め検知 D. Damen et al. “Scaling Egocentric Vision: The EPIC-KITCHENS Dataset,” in ECCV 2018. https://epic-kitchens.github.io/2018 • ⼀⼈称の料理動画解析 • Video: 55時間/11.5M フレーム • 454K物体, 39K⾏動 W. Kay et al. “The Kinetics Human Action Video Dataset,” in arXiv:1705.06950 2017. https://deepmind.com/research/open- source/open-source-datasets/kinetics/ • YouTube動画にラベル付 • 30万動画/400カテゴリ(2017) • 50万動画/600カテゴリ(2018) • 65万動画/700カテゴリ(2019) • ⼤規模であると同時にキレイ なラベルを意識 C. Gu et al. “AVA: A Video Dataset of Spatio-temporally Localized Atomic Visual Actions,” in CVPR 2018. https://research.google.com/ava/download.html • 15分動画に対して1秒 1回ラベル付け • ⾏動/インタラクショ ンラベル,bbox
  69. 69. CVPR2019の動向・気付き(23/104) 69 • Kinetics-700 コンペ (Task A)に参加した – 動画公開の⼤変さ(作成しながらコンペが稼働) • 動画が公開しないままコンペ期間開始 – Kinetics-700 は Google DeepMind が作成 • 締め切り変更を余儀なくされる • 公開⽇:5/30,締切:5/31→6/10 • 通常は動画ダウンロードだけで10⽇! • 優勝チームの仕事量(10⽇) – 65+ 万動画をダウンロード,フレーム分割,flow 画像計算 – 全20弱のアーキテクチャ探索(RGB, Flow, Audio) 主催側も参加側もスピード勝負! W. Kay et al. “The Kinetics Human Action Video Dataset,” in arXiv:1705.06950 2017. https://deepmind.com/re search/open- source/open-source- datasets/kinetics/ @ワークショップ:International Challenge on Activity Recognition (ActivityNet)
  70. 70. CVPR2019の動向・気付き(24/104) 70 • Dense-Captioning Events (Task 3)に参加 – ActivityNet Captions を使⽤ – 上位勢の圧倒的実験量 • Captioning Module よりも,動画部分に注⼒ • ただし,proposal の⽣成や動画エンコードは, recognition や localization と同じものが良いとは限ら ない – Baidu Vis もこの部⾨は優勝ならず (2位だが) • Captioning Module は LSTM や Bidirectional LSTM など • Transformer も使⽤したが,学習時・推論時によりキ ャプション⽣成に失敗 http://activity-net.org/challenges/2019/ @ワークショップ:International Challenge on Activity Recognition (ActivityNet)
  71. 71. CVPR2019の動向・気付き(25/104) 71 • Task 1: Temporal Action Proposals 導⼊ – “⾃然な動画は切り出されていない” – ⾏動を切り出すことで⾏動位置特定や動画の密な キャプショニングが可能となる – 参加チーム 61,評価サーバー提出数 113 – 優勝:Baidu VIS, AUC 72.99 @ワークショップ:International Challenge on Activity Recognition (ActivityNet)
  72. 72. CVPR2019の動向・気付き(26/104) 72 • Task 1 Winner: Baidu VIS, AUC 72.99 – “Boundary-Matching network for High-Quality Temporal Action Proposal Generation” – Boundary Matching Network (BMN) を採⽤ – Anchor-free のアプローチの中でも BSN (Boundary Sensitive Network) を時系列をより考 慮できるように改良 – 開始時間・持続時間に応じて全ての領域の特徴量を 抽出 (Boundary matching feature map) → 確信 度算出 (Boundary matching confidence map) – とにかくモデルアンサンブルを⽤いて検証 @ワークショップ:International Challenge on Activity Recognition (ActivityNet)
  73. 73. CVPR2019の動向・気付き(27/104) 73 • Task 2: Temporal Action Localization 紹介 – HACS Segments データセットの紹介 – mAP がサチってきている?指標としてどうなの? – DETAD: Diagnosing Error in Temporal Action Detectors (Humam Alwassel) • 偽陽性の出現理由を分析し,それぞれの mAP への感 度を測ることでモデルの弱点を解析 • 正解データのアノテーションの⼀貫性等も分析しそれ らの影響も⾒る – 結論:コンペのモデルは主に tIoU の低さが問題 (も っと Localization Error を無くすべき) @ワークショップ:International Challenge on Activity Recognition (ActivityNet)
  74. 74. CVPR2019の動向・気付き(28/104) 74 • Task 2 Winner: Baidu VIS, mAP 39.7% – (Task 1 と同様のモデルのため発表なし) @ワークショップ:International Challenge on Activity Recognition (ActivityNet)
  75. 75. CVPR2019の動向・気付き(29/104) 75 • Task 3: Dense-Captioning Events in Videos 紹介 – ActivityNet Captions : 20k 動画・100k 説明⽂ – 平均で 1 動画 3.65 説明⽂・ 13.48 単語 – Visual Genome データセットと異なり⾏動関係をよく説明 – これを使⽤したデータセット・モデルも多く出現 – これからの⽅向性 (まだ取り組まれていない!) • wordpiece によるトークン化 • 低頻度単語・概念の取り扱い • より良い評価⽅法の考案 • イベントの合成 (階層化) • 他の Vision & Language のタスクの利⽤ • 外部知識ベースの解法 @ワークショップ:International Challenge on Activity Recognition (ActivityNet)
  76. 76. CVPR2019の動向・気付き(30/104) 76 • Task 3 Winner: RMC/MSRA/CMU, • avg. METEOR 9.91 – “Exploring Contexts for Dense Captioning Events in Videos” – 領域レベル+過去・未来・現在特徴+動画全体の特 徴+イベント特徴+⽂章特徴全てを利⽤した学習 – 他のイベントに依存しないものと依存するものを認 識するモデル – REINFORCE,データ拡張で METEOR 向上 – 順位付けによる後処理などもあり @ワークショップ:International Challenge on Activity Recognition (ActivityNet)
  77. 77. CVPR2019の動向・気付き(31/104) 77 • Task A: The Kinetics Task 紹介 – Kinetics-700: ~650k 動画 – 700 の⾏動クラス,1 クラス最低 450 動画 – Video Recognition における,ImageNet 的な 存在 – 1 動画 約 10 秒 – 優勝: JD AI research, avg. error 17.88 @ワークショップ:International Challenge on Activity Recognition (ActivityNet)
  78. 78. CVPR2019の動向・気付き(32/104) 78 • Task A Winner: JD AI Research • avg. error 17.88 % (I3D baseline 29.3 %) – “Local and Global Diffusion Networks for Trimmed Action Recognition” – 局所的・⼤域的な特徴量をそれぞれ検出するパス を⽤意し,互いに得た特徴量を伝播し合う – Optical Flow や⾳声の特徴量も使⽤している @ワークショップ:International Challenge on Activity Recognition (ActivityNet)
  79. 79. CVPR2019の動向・気付き(33/104) 79 • 動画コンペはBaidu百度が激強 – Proposal/Localizationタスクで2冠達成 – Dense-Captioning Eventsのタスクで2位 (去年チャンピオンShizhe Chen⽒も同様に強い) – Baidu百度とは • 「中華⼈⺠共和国で最⼤の検索エンジンを提供する企業である。 創業は2000年1⽉。本社は北京市にあり、「百度百科」、「百度 ⼊⼒⽅法」なども提供している。 全世界の検索エンジン市場にお いて、Googleに次いで第2位、中国国内では、穀歌を押さえて最 ⼤のシェアを占める。」(wikipediaより; https://ja.wikipedia.org/wiki/%E7%99%BE%E5%BA%A6) http://activity-net.org/challenges/2019/ @ワークショップ:International Challenge on Activity Recognition (ActivityNet)
  80. 80. CVPR2019の動向・気付き(34/104) 80 • 動画認識の最新を追うためには – まずはトレンドを創っている研究者を探そう! – Du Tran⽒が2019年の動画認識では重要⼈物 • 6/16のAction Classification and Video Modelingの Tutorialでは10分に1回は名前が挙がるくらいには重 要 • C3D(ICCV2015), R(2+1)D (CVPR2018)の⼈ • 弱教師 – Large-scale weakly-supervised pre-training for video action recognition – CVPR2019年論⽂ – https://arxiv.org/abs/1905.00561 Du Tran Facebook AI https://dutran.github.io/
  81. 81. CVPR2019の動向・気付き(35/104) 81 • 動画におけるクリップの扱いに関する論⽂も – 今までは16フレームなどを1クリップとした固定 ⻑の⼊⼒ • ⻑い動画に対しては,クリップごとの結果を平均 → 本当にそれって良いの? – 動画全体の特徴量を使⽤する • Long-Term Feature Banks for Detailed Video Understanding https://www.philkr.net/papers/2019-06-02-cvpr/2019-06-02-cvpr.pdf – 使⽤するクリップを選択する • Action Classification and Video Modeling にて紹介 • SCSampler: Sampling Salient Clips from Video for Efficient Action Recognition https://arxiv.org/abs/1904.04289
  82. 82. CVPR2019の動向・気付き(36/104) 82 • 物体追跡の基本は相関フィルタの学習? – 追跡のキーワード • 相関フィルタ,順・逆⽅向トラッキング, SiameseNet(SiamNet),Tracking-by-detection – 相関フィルタの学習がキー • フィルタを,時系列的⼀貫性を保つよう教師なし学習 • 構造にSiameseNet(⼊⼒が⼆枚)を⽤いることが多い Chao Ma et al. “Hierarchical Convolutional Features for Visual Tracking,” in ICCV 2015. https://www.cv- foundation.org/openaccess/content_iccv_2015/p apers/Ma_Hierarchical_Convolutional_Features_I CCV_2015_paper.pdf 相関フィルタは画像を⼊⼒した ら物体の位置座標を返却 N. Wang, et al. “Unsupervised Deep Tracking,”, in CVPR 2019. http://openaccess.thecvf.com/content_CVPR_2019/papers/Wang_ Unsupervised_Deep_Tracking_CVPR_2019_paper.pdf SiameseNetは画像を⼆枚⼊⼒,時 系列的に連続する⼆枚のフレームを ⼊⼒して差分や⼀貫性から位置や特 徴表現を教師なし学習
  83. 83. CVPR2019の動向・気付き(37/104) 83 • Tracking + α の流れは続く – 今回は点群追跡(左図)や画像⽣成(右図) – 追跡で時系列的な⼀貫性を学習,しながら追加の モダリティを学習(できることがわかってきた) S. Giancola et al. “Leveraging Shape Completion for 3D Siamese Tracking,” in CVPR 2019. http://openaccess.thecvf.com/content_CVPR_2019/papers/Giancol a_Leveraging_Shape_Completion_for_3D_Siamese_Tracking_CVP R_2019_paper.pdf Z. He, et al. “Tracking by Animation:Unsupervised Learning of Multi- Object Attentive Trackers,” in CVPR 2019. http://openaccess.thecvf.com/content_CVPR_2019/papers/He_Tracking_by_Ani mation_Unsupervised_Learning_of_Multi- Object_Attentive_Trackers_CVPR_2019_paper.pdf
  84. 84. CVPR2019の動向・気付き(38/104) 84 • OCRの動向 – 2018年 • FOTS,ATN など,arbitrarily-oriented text detector (ななめ,上下逆など) • FOTS,EAA など,テキスト検出と認識をend-to-end で学習可能 (2-stage object detectionと似た要領) • ほぼリアルタイムで検出かつ⽂字認識 – 2019年 • 曲線,うねりなど,四⾓形で表現できないテキスト (irregular shape) • 検出⼿法が6本,認識⼿法が1本 • End-to-endの提案は⾒当たらず
  85. 85. CVPR2019の動向・気付き(39/104) 85 • OCRの動向 – Irregular-shaped テキスト検出 • 単語単位 – Learning Shape-Aware Embedding for Scene Text Detection – Arbitrary Shape Scene Text Detection with Adaptive Text Region Representation – Towards Robust Curve Text Detection with Conditional Spatial Expansion – Shape Robust Text Detection with Progressive Scale Expansion Network – Look More Than Once: An Accurate Detector for Text of Arbitrary Shapes • ⽂字単位 – Character Region Awareness for Text Detection (CRAFT)
  86. 86. CVPR2019の動向・気付き(40/104) 86 • OCRの動向 – Irregular-shaped ⽂字認識 • ESIR: End-to-end Scene Text Recognition via Iterative Image Rectification – ドメイン適応 • Sequence-to-Sequence Domain Adaptation Network for Robust Text Image Recognition – 画像単位のDAではなく、⽂字単位のDA – テキスト検出⼿法の評価⽅法 • Tightness-aware Evaluation Protocol for Scene Text Detection – 検出のcutoffや他の領域まで含んでしまった場合に 罰則をつけたIoU
  87. 87. CVPR2019の動向・気付き(41/104) 87 • OCRの動向 – 曲線,うねりなど,四⾓形で表現できないテキスト (irregular shape)のためのend-to-end(検出+認識)モ デル – CVPR2019では認識モデルは1稿のみ • ESIR: thin plate spline transformationで曲がったテキストを整 形 • CRAFT (CVPR2019)、Mask TextSpotter (ECCV2018, Mask RCNNの要領で⽂字ごとのsementation)のように⽂字単位で検出 する⽅法もより増えるかも?ただし、ほとんどのデータセットは 単語単位のアノテーションのみ
  88. 88. CVPR2019の動向・気付き(42/104) 88 • 招待講演1:Bernt Schiele (MPI) – Topics in Vision and Language 講演者の研究室が⾏っている3つの研究を紹介 • Topic 1: Grounding Language in Visual Data - Reconstruction loss (アテンションの画像領域から⽂章を予測し,⽐較) を導⼊,Semi- supervised Groundingを可能にした https://arxiv.org/abs/1511.03745 • Topic 2: Aiming for higher diversity in captioning - GANを使⽤,多様性あるキャプション⽣成 https://arxiv.org/abs/1703.10476 • Topic 3: Author attribute anonymity - Textに含まれる著者のアイデンティティ情報を隠す/変更するタスク;3 つの構造:Attribute classifier,Language model, Semantic consistency を⽤いてセマンティックを保ちつつ,Attributeの変換を可能に https://arxiv.org/abs/1711.01921 @ワークショップ:Language and Vision
  89. 89. CVPR2019の動向・気付き(43/104) 89 • 招待講演2:Devi Parikh (Georgia Tech) – 複数の代表的なImage Captioning/VQAの研究を列挙 • Image Captioning: Neural Baby Talk (CVPR2018) DNNにより⽂章⽣成;Novel物体キャプションや実環境シナリオに適切; Vision+Languageタスクをクラシックなビジョンタスクにさせた • Visual Question Answering: Analysis (データセットバイアス): VQA- CPデータセット及びVQA-GVQA⼿法 (CVPR2018) 学習テスト回答分布をわざと違うようにするデータセット; Grounding, Reasoning, Answeringを分けて⾏う⼿法(VQA-GVQA) • Visual Question Answering: Reading: TVQA (CVPR2019) Textが含む画像中のTextに関するVQAタスク;TVQA Challengeが2019 のVQAワークショップに開かれている • Visual Question Answering: Consistency: Cycle-Consistent VQA (CVPR2019) cycle-ganみたいなConsistency Lossを導⼊;似た質問に対し⼀致した回 答をさせる Pythia (VQA2018 Challenge Modelも⾔及) @ワークショップ:Language and Vision
  90. 90. • 招待講演3:Andrei Barbu (MIT) – How language enables intelligence CVPR2019の動向・気付き(44/104) 90 様々なタスクの モデルの紹介 @ワークショップ:Language and Vision
  91. 91. CVPR2019の動向・気付き(45/104) 91 • Long Oral発表:Visual Discourse Parsing – ビデオからシーンの関係性を出⼒するタスクを提案 – Toyデータセット (310ビデオ;平均19秒;⼿動アノテーション)でベース⼿法 を検証済み – 所感:誰もがやろうとしてやっていない,に⽬をつけた!? 提案タスクイメージ図 @ワークショップ:Language and Vision
  92. 92. CVPR2019の動向・気付き(46/104) 92 • Short Oral発表: Answer Them All! Toward Universal Visual Question Answering Models https://arxiv.org/abs/1903.00366 – 現状のSOTA VQA⼿法はReal/CGデータセットの両⽅において⾼精度を⽰す⼿法がほぼ ないことを⽰した – 簡単に良いVQAコンポネントを組み合わせた良いモデルを提案(要検証) 5つの⼿法(すべてSOTA)及び提案⼿法が9つのVQA データセットにおいての性能: 明らかにリアル画像 データセットとCGデータセット(CLEVR系)を両⽴ して両⽅とも強い結果を残す従来⼿法がない 提案モデル: Early Fusionが重要 @ワークショップ:Language and Vision
  93. 93. CVPR2019の動向・気付き(47/104) 93 ●招待講演1:Alex Schwing (UIUC) ○ Visual Question Generation及びImage Captioningの Diversity(多様性)について検討,研究紹介を⾏った ○Diversity should be “fast”, “controllable”, “accurate” ○研究紹介: ・AG-CVAE (NIPS2017): Controllability https://papers.nips.cc/paper/7158-diverse-and-accurate-image-description-using-a-variational-auto-encoder-with-an-additive-gaussian-encoding-space.pdf ・POS (CVPR2019): Fast, Diverse, Accurate Image Captioning https://arxiv.org/pdf/1805.12589.pdf @ワークショップ: Visual Question Answering & Dialog
  94. 94. CVPR2019の動向・気付き(48/104) 94 ●招待講演 2:Lisa Hendricks (UC Berkeley) ○2つの研究紹介をもって,Image Captioningモデルのバイ アス問題を検討 ○研究1:Women also Snowboard (ECCV2018) ■ 既存のImage Captioningデータセットに性別バイアスの存在を指摘し たそのバイアスがText時にAmplifyされる傾向も⽰した ■ Image Captioningモデルに⼈領域を検出しかつConfident Loss, Appearance Confusion Loss及びCross Entropy Lossの3つのロスを 取り⼊れたモデルを提案し,相対的に性別バイアスを解消 ○研究2:Object Hallucination in Image Captioning (EMNLP2018) ■ 画像中に無い物をキャプション中に⽣成してしまうバイアス. ■ CHAIRという評価指標によりある程度キャプションモデルの Hallucination性を評価できる @ワークショップ: Visual Question Answering & Dialog
  95. 95. CVPR2019の動向・気付き(49/104) 95 ●招待講演 3:Christopher Manning (Stanford University) ○Making the L in VQA Matterを主なトピックに討論 ○従来のVQAの問題点: ■ Answers: not just one word; should be interesting ■ Questions: short, no complications, fail to test compositional ability ■ 結論:deep understandingが⽋けている; ○解決提案: ■ Visual Genome Dataset : デンスな領域アノテーション・画像ごとに Scene Graph付き ■ GQA Dataset : Visual Genomeの画像,Scene Graphなどを利⽤し て,Consistency, Validity/Plausibility, Distribution, Groundingなど を評価できる ■ Compositional質問が⼤量に設定 @ワークショップ: Visual Question Answering & Dialog
  96. 96. CVPR2019の動向・気付き(50/104) 96 ●招待講演 4:Karl Moritz Hermann (DeepMind) ○Grounded Language Learningを主なTopic: Grounding Language: Learning language through association with other sensory experiences ○2つの研究をもって紹介: Encoding Spatial Relations from Natural Language ⾃然⾔語と3D Sceneの対応関係を学習で きるモデル.⾃然⾔語とカメラ情報から シーンをrenderingできる. Learning to Follow Directions in Street View リアル画像のStreet View Instructionsデー タセット:real world; diversity imagery; following the instructions from google map. @ワークショップ: Visual Question Answering & Dialog
  97. 97. CVPR2019の動向・気付き(51/104) 97 ●招待講演 5:Layla El Asri (Microsoft Research) ○State Aliasing in Dialog Modeling with RNNsについて紹 介:関連論⽂ ■ State Aliasing: RNNsを⽤いたDialogシステムにおいてPolicy Gradientを適応する場合,異なるStateが共通したOptimal Actionを シェアする場合,State Representationをうまく学習できない問題 ( 背景知識が不⾜して理解できない) @ワークショップ: Visual Question Answering & Dialog
  98. 98. CVPR2019の動向・気付き(52/104) 98 ●招待講演 6:Sanja Fidler (University of Toronto / NVIDIA) ○Compositional Learning of Complex TaskをTopicに2つ の研究を紹介 Progressive Module Networks: ・⼩さいモジュールで⼤きいモジュールの問題 を解決;Compositional Modules ・VQA タスクにおいて:Level 0 (object recogniton; attribute recogniton) level 1 (image captioning; relationship detection); level 2 (Object Counting); level 3 (VQA) Learning to Caption by asking questions: ・ Human in the loop画像を説明 ・ Use language to guide learning agent ・ Use language to ask a teacher Components: ・ Captioner; Decision Maker; Question Generator; Teacher @ワークショップ: Visual Question Answering & Dialog
  99. 99. CVPR2019の動向・気付き(53/104) 99 ●招待講演 7:Yoav Artzi (Cornell University) ○3つの研究/研究⽅向を紹介 NLVR2:Natural Language Visual Reasoning for real; 新しい VisualReasoningのためのデータセット 提案;キャプションが正しいかを推定 TOUCHDOWN:Writing task; Task-focused Navigation;リアル⽣活の応⽤ drif:realistic agents instructionと環境から,運動軌跡をPlan @ワークショップ: Visual Question Answering & Dialog
  100. 100. CVPR2019の動向・気付き(54/104) 100 ●Visual Question Answering Challenge ○VQA2.0データセット(評価指標Accuracy): ○結果: ■ Winner team accuracy: 75.26% ■ 2019 Winner vs. 2018: +2.85% ■ 2019 Winner vs. human: 75.26% vs. 80.78% fujiki-ryujiにより撮影 @ワークショップ: Visual Question Answering & Dialog
  101. 101. CVPR2019の動向・気付き(55/104) 101 ●Visual Question Answering Challenge:Winner ○ Deep Modular Co-Attention Networks for Visual Question Answering ○ Main Techniques: ■ simultaneously model the dense intra- and inter- modal interaction ■ Larger model: bigger hidden dimension ■ better image feature: multi-view bottom-up attention ■ +5d bbox feature ■ +grid feature ■ bert for language ■ model ensemble: 27 models @ワークショップ: Visual Question Answering & Dialog
  102. 102. CVPR2019の動向・気付き(56/104) 102 ●GQA Challenge:Task ○GQAデータセット(consistency;validity&Plausibility; Distribution;Groundingなどの能⼒を評価) ○結果: ■ Winner team accuracy: 73.33% ■ 2019 Winner vs. Human: 73.33% vs. 89.30% • 全ての画像に対しScene Graph付き • Cleaned Visual Genomeデータセッ トを使⽤ @ワークショップ: Visual Question Answering & Dialog
  103. 103. CVPR2019の動向・気付き(57/104) 103 ●GQA Challenge:Winner ○Hypergraph Attention Networks for GQA ○Main techniques: ■ alignment of information level between modalities ■ symbolic and structural representations ■ scene graphs + dependency trees ■ higher-order correlation between modalities ■ ensembles: 15 models @ワークショップ: Visual Question Answering & Dialog
  104. 104. CVPR2019の動向・気付き(58/104) 104 ●TextVQA Challenge:task ○TextVQA Dataset(画像中に含むTextに関するVQA) ○結果(4つのタスクに割と難しくて,参加チームも少ない) ■ Winner team accuracy: 31.33% ■ Human精度紹介されていなかった @ワークショップ: Visual Question Answering & Dialog
  105. 105. CVPR2019の動向・気付き(59/104) 105 ●TextVQA Challenge:runner-up ○Winnerが現場に来ていないので,ビデオで簡単な紹介だけ ○Main Techniques: ■ Spell correcting OCR ■ Ensembling and Vocabulary Expansion ■ Shuffling OCR ■ Including n-grams @ワークショップ: Visual Question Answering & Dialog
  106. 106. CVPR2019の動向・気付き(60/104) 106 ●Visual Dialog Challenge:task ○VisDial1.0 dataset ○結果: ■ Winner team accuracy: 74.57 (NDCG) ■ 2019 Winner vs. 2018: +16.82 (NDCG) 評価指標 @ワークショップ: Visual Question Answering & Dialog
  107. 107. CVPR2019の動向・気付き(61/104) 107 ●Visual Dialog Challenge:winner ○ Learning to Answer: Fine-tuning with Generalized Cross Entropy for visual dialog challenge ○ Main Techniques: ■ Remove history from joint embedding ■ Multi-head,Ensemble ■ RvA+ ■ Use complicate image features ■ +bbox features ■ Two-stage training: learn to reason; learn to answer @ワークショップ: Visual Question Answering & Dialog
  108. 108. CVPR2019の動向・気付き(62/104) 108 4つのChallengeにおいても,上位モデルに ○ Ensembleが使われている ○ ⾔語側にはBERTを⽤いる ○ 画像側に多種類の特徴の融合 ○ 画像特徴抽出はRegion Based Features抽出が基本 会場の質問セッションにみんな関⼼に持った話題 ○ Common Sense; Reasoning; Priors; Evaluation Metrics; Dataset Biases ○ 古くから討論されていたReasoningに対しての研究が多くなって る ○ 既存データセットに様々な問題が絡んでいる:GQAチャレンジ2位 チームによるとGQAがバイアスでかつノイズで @ワークショップ: Visual Question Answering & Dialog
  109. 109. CVPR2019の動向・気付き(63/104) 109 • Capsule Networkが⼊り込んできた – DeepCaps: Going Deeper with Capsule Networks • CapsNetを深層にするための知⾒の共有 • 3D Convを⽤いてCapsule情報を保有するとこ ろがポイント? – 3D Point Capsule Networks • 点群にもCapsNet! CapsNetは遅れてCVにやってきた; 今回出ている研究は⽐較的早く対応し て改善を施したもの
  110. 110. CVPR2019の動向・気付き(64/104) 110 • Embodiment – 体を持つこと,環境とインタラクションすること の重要性 • 固定されたdatasetでの学習から,⼈間の⼦供のよう な学習(passive self-supervised -> self-supervised actions -> curiosity -> imitation learning -> social learning)へ • ⼈間の場合はハードウェア(体)がこの学習の流れを 駆動しているように思える • 前週開催のICMLでも同様の話題が⽬についた
  111. 111. CVPR2019の動向・気付き(65/104) 111 • データとNNで殴る⽅向性に若⼲の閉塞感? – Era of datasets will be over (WS:Computer Vision After 5 Yearsより) • NNの隆盛以降,CVの様々な問題に対してデータセッ トを整備しアルゴリズムをLearnableにすることで解 決を図ってきたが,少し頭打ち感がある • データとNNは分野を⼤きく前進させたが,そこに研究 リソースが集中する状況はLocal Optimaなのでは
  112. 112. CVPR2019の動向・気付き(66/104) 112 • 認識系だとFAIRが強い (1/2) – 認識系 • Object Detection, Semantic Segmentation, Instance Segmentation, Video Recognition, Image Captioning, VQA… – FAIR? • Facebook AI Research • Facebookによる⼈⼯知能研究所 – Why strong? • 計算基盤(100+GPU/⼈) • DNNフレームワーク(PyTorch, Caffe2を⾃前開発) • 豊富な⼈材(最近のAwardを総ナメ) • インターン⽣の活躍 など
  113. 113. CVPR2019の動向・気付き(67/104) 113 • 認識系だとFAIRが強い (2/2) – アーキテクチャ/物体検出のトレンドを創出 • さらに積み上げて次のトレンドを創造 • Faster R-CNN, ResNetの考案者 -> ResNeXt (CVPRʼ17), Focal Loss (ICCVʼ17 Student Best), Mask R-CNN (ICCVʼ17 Marr Prize)提案 – Facebookのデータ基盤 • Instagramからのデータ収集(Instagram-3.5B) [Mahajan+, ECCV18] FBはSNSのHashtagでラベル付けなし,弱教 師付きの3.5B枚画像DB構築 Instagramからの⾼速なデータ収集に よりモデルの更新なしにImageNetの SOTA達成
  114. 114. CVPR2019の動向・気付き(68/104) 114 • GANに強い研究機関: NVIDIA – 圧倒的な計算⼒ • GANは最初の探索が命(らしい) • DGX-1/2などGPU使い放題?もっとすごいの⽤意されてそう – CVPRʼ19でもStyleGANを発表,受賞 • StyleGAN https://arxiv.org/abs/ – やはり研究者が集合し,コードをまとめている https://github.com/NVIDIA/ GitHub@NVIDIAにはPGGAN, pix2pixHDなど研究業績を公開 (もちろんGAN以外も充実)
  115. 115. CVPR2019の動向・気付き(69/104) 115 • “PartNet”がCVPR2019に2つある!?(1/4) – PartNet: A Large-Scale Benchmark for Fine-Grained and Hierarchical Part-Level 3D Object Understanding – PartNet: A Recursive Part Decomposition Network for Fine-Grained and Hierarchical Shape Segmentation CVPR論⽂は今や1200+!!
  116. 116. CVPR2019の動向・気付き(70/104) 116 • “PartNet”がCVPR2019に2つある!?(2/4) – PartNet: A Large-Scale Benchmark for Fine-Grained and Hierarchical Part-Level 3D Object Understanding 24のオブジェクトカテゴリをカバーする26,671の3Dモデル上の 573,585の部品インスタンスで構成 Fine-grainedなインスタンスレベルの3D形状セグメンテーション のための⼤規模データセットの構築
  117. 117. CVPR2019の動向・気付き(71/104) 117 • “PartNet”がCVPR2019に2つある!?(3/4) – PartNet: A Recursive Part Decomposition Network for Fine-Grained and Hierarchical Shape Segmentation 3D点群オブジェクトを対象とした再帰的NNベースの 階層的セグメンテーション⼿法 再帰的ニューラルネットワーク(RvNN)によって3D点群オブジェクトの構造 を階層的に分解していくことで、インスタンスセグメンテーションを実現
  118. 118. CVPR2019の動向・気付き(72/104) 118 • “PartNet”がCVPR2019に2つある!?(4/4) CVPR論⽂は スピードと共に質も向上すべき!
  119. 119. CVPR2019の動向・気付き(73/104) 119 • v2論⽂が続々と登場している – DeepFashion2 – Deformable ConvNet v2 • 過去に登場した有名論⽂のver.2 – YOLOv2同様,以前の論⽂の改良はまだまだ通る Y. Ge et al. “DeepFashion2: A Versatile Benchmark for Detection, Pose Estimation,Segmentation and Re- Identification of Clothing Images,” in CVPR 2019. http://openaccess.thecvf.com/content_CVPR_2019/papers/Ge_DeepFashion2_A_ Versatile_Benchmark_for_Detection_Pose_Estimation_Segmentation_and_CVPR_2 019_paper.pdf X. Zhu et al. “Deformable ConvNets v2: More Deformable, Better Results,” in CVPR 2019. http://openaccess.thecvf.com/content_CVPR_2019/papers/Zhu_Deformable_Conv Nets_V2_More_Deformable_Better_Results_CVPR_2019_paper.pdf
  120. 120. CVPR2019の動向・気付き(74/104) 120 • 調査研究が⾯⽩い! – Do Better ImageNet Models Transfer Better? – 16アーキテクチャ/12データセットで実験 • ImageNetの事前学習を⾏い識別層の調整/Fine- tuning,もしくはスクラッチ学習 • ImageNetの事前学習はfine-tuningした後の精度と相 関があることが判明 左2つはImageNet事前学習から識別層だ け調整/fine-tuningしたもの,右はスクラ ッチ学習とfine-tuningの精度⽐較.事前 学習ありの場合は精度を予測可能 ImageNetの事前学習は収束の早さに寄 与するが,詳細画像識別の精度向上に は寄与しなかった
  121. 121. CVPR2019の動向・気付き(75/104) 121 • 超解像は定性評価が厳しくなってきた!? – ⾒て明らかに分かる,は同じ年の他提案論⽂と⼤ 差ない(⼀時期のGANと同じ?) • (他の問題設定も同じだが)良い部分を切り抜いてる – ⼀⽅,新しく⾯⽩いことを考えている e.g. 画像を修正するのではなく,カメラレンズのパラメ ータ側から⾒直す
  122. 122. CVPR2019の動向・気付き(76/104) 122 • Computer Vision After 5 Years – 「5年後のCVはどうなってる?」がテーマのWS • 次はどうなる?をCVPRコミュニティで共有 • 主に⽶国の有名研究者によるトーク集 – 次ページ以降に各講演者のトークを記載 @ワークショップ: Computer Vision After 5 Years HP: https://futurecv.github.io/
  123. 123. CVPR2019の動向・気付き(77/104) 123 • Cordelia Schmid(INRIA/Google) – 動画認識の未来 – ラベル付けと弱教師学習による⾏動認識/予測 – Machine Learning + Data = Machine Visual Perception – Open Images / AVA: どちらもLong-tail問題 • Open Images https://ai.googleblog.com/2019/05/announcing-open-images-v5-and-iccv- 2019.html • AVA https://research.google.com/ava/ – そこでSURREAL dataset • MoCap+CGによりアノテーションを⾃動化
  124. 124. CVPR2019の動向・気付き(78/104) 124 • Cordelia Schmid(INRIA/Google) – Video Understanding • データセットはUCF101(24 classes), J-HMDB21 • 最近ではGoogleのAVA datasetがある • AVA: 動画中⼀秒に⼀回しかラベルを付けないので bboxがズレてるとか⼈が現れてもラベル付けされない 問題(空間的・時間的特徴量抽出の重要性) – Relation Action Forecasting • CVPRʼ19発表論⽂ http://openaccess.thecvf.com/content_CVPR_2019/papers/Sun_Relational_Action_Forecasting_CVPR_2019_paper.pdf
  125. 125. CVPR2019の動向・気付き(79/104) 125 • Cordelia Schmid(INRIA/Google) – 5年後に向けた議論 • Interaction with the world • Audio & Text – Multi-modal Supervision • VideoBERT https://arxiv.org/abs/1904.01766 • 料理のシーンにて⽂章を⼊れるとその先の予測が動画 として返却,動画像はBoWの表現としてBERTに⼊⼒ ・学習 – 将来の⽅向性? • Imitation Learning • Reinforcement Learning • 上記ふたつの階層的学習
  126. 126. CVPR2019の動向・気付き(80/104) 126 • Alexei Efros(UC Berkeley) – 学⽣:CVで最も重要なトピックはなんですか? – 教授:もう取り組んでいるではないか!? • で始まるトーク – 突然ですがタイトル変更 • Next 5 years without regrets – Each paper is a liability - Vladlen Koltun • 論⽂は残ってしまうのでずっと嘘をつき続けることに なってしまう • 分野を間違った⽅向に導いてしまう,公開が残る – 研究することはリスクを取り続けること!
  127. 127. CVPR2019の動向・気付き(81/104) 127 • Alexei Efros(UC Berkeley) – Efros先⽣の後悔 • Graphical Model(もう戻らない!) • ConvNets(もっと早くやっておけば。。。) – Face Detectionのパイオニア? • Viola & Jonesはその⼀つにすぎない • 本質的にはRowleyやKanadeらの1988年 顔認識研究
  128. 128. CVPR2019の動向・気付き(82/104) 128 • Alexei Efros(UC Berkeley) – Potential Liabilities / Future Regrets... • Adversarial attacks, robustness – ⼈間も騙される?トリックアートなど⽇常でも起こりうる – CNNはズルしがち,似たような特徴が現れたら認識 • Vision + Language For x = 0, 99 CVPR 20xx 素晴らしいデータセットを考えた,みんな使うべき CVPR 20xx+1 SOTA達成した! end – Visionの⼒がそこまで及んでいない
  129. 129. CVPR2019の動向・気付き(83/104) 129 • Alexei Efros(UC Berkeley) – Potential Liabilities / Future Regrets... • Explanability – Explanations are subjective – Unreasonable Effectiveness of Data [Halevy et al., 2009] – Magic of Data • Datasets – 同じ画像は⼆度⾒ない,起こらない(データセットによりズ ルしてしまう) – 何度もOverfit / Cheating してしまう – どうすればよい? • ⽉に向かってハシゴを登るか,遠吠えを続けるか? • いや,後悔を少なくして最⾼にノスタルジア(後から 良かった) を感じよう!
  130. 130. CVPR2019の動向・気付き(84/104) 130 • Bill Freeman(MIT/Google) – CVとCP(Computational Photography) – Forsyth & PonceのCV教科書を開いて「DNNを 使って〜」という枕詞をつければ次の研究が思い つく? – Hubel & Wiesel の神経科学からConvNetは思い ついた by Yann LeCun
  131. 131. CVPR2019の動向・気付き(85/104) 131 • Jitendra Malik(UCBerkeley/FAIR) – 研究は解決できるアート • Research is the art of the soluble – 現在では,過去に不可能だった問題が解けるよう になってきた • 静⽌画シーン理解,動的シーン理解についてもそう • ⾏動中の動きについてはまだオープンクエスチョン – 今⽇ではAI研究者がラベルを与えている • ⾚ちゃんから学ぼう(Multi-modal, Incremental, Physical, Explore, Use Language) • ⼈から教師ありで学ぶのは実は少量?それ以上の知⾒ を⾃ら獲得している?
  132. 132. CVPR2019の動向・気付き(86/104) 132 • 企業ブースの印象 – 100件以上の企業展⽰ • 名の知れた巨⼤IT企業は当然⼤きいブース • ⾃動運転関連の企業も多い • カメラ,レーザーセンサ等計測器メーカーも多い • それ以外ではアノテーションツール・受託や学習プラ ットフォームを提供する企業が急激に増えた印象 • 話によると1~2年前から顧客の幅が広がり需要が増え ているとのこと
  133. 133. CVPR2019の動向・気付き(87/104) 133 • 著名な⼤学教員/研究者は⼆⼑流! – {⼤学の研究室, 企業インターン}で学⽣を獲得 • 実働メンバーを獲得するチャンネルが複数ある – さらに,企業のデータにアクセスも可能なはず • 「実学」を解くための問題を発⾒可能 • 問題は⾒つけた時点で解けている/解き⽅が思いつく – ⾃ら会社を作り研究室と連携している例 • CUHK-SenseTime連携研究室(2018の速報から進展 ) • ⼈材・計算基盤・データ等のやりとりをより柔軟に?
  134. 134. CVPR2019の動向・気付き(88/104) 134 • 論⽂の過剰増加により,ネタ予測可能に!? – 今年の論⽂キーワードをピックアップ,やってい ない組み合わせが来年登場? • 例: – 距離画像推定 + 弱教師学習(2019) – 距離画像推定 + 弱教師学習 + アテンション(2020?) • ↑の調査と実験に⼤学院⽣は擦り減っている? – 余計に調査研究,振り返り研究,新規問題設定型 研究が⾯⽩く,際⽴つ! 5年後くらいの未来型研究を「今年」やる!
  135. 135. CVPR2019の動向・気付き(89/104) 135 • トレンドを創る研究室が固まってきた!? – ポスターで混む*場所には傾向がある • 事前にarXiv/github/SNSを通して話題になった論⽂ • (DNN時代以降の)有名研究室,有名企業 • など – 上記2番⽬が重要 • トレンドを創るグループ • ⼀度サイクルに⼊ると次々にトレンドを創る • DNN時代に⼊り⼀回シャッフルされたが,強い研究室 は再び名前を上げてきた(?) * ポスターで混む = 聴衆の関⼼が⾼い,ということ
  136. 136. CVPR2019の動向・気付き(90/104) 136 • 相変わらず研究速度は速い – 研究スタイルは⼤きく2パターン? 1. arXivを⽇ごとに探索して研究速度を保つ 精度向上!とその理論/アイディアを議論 制限時間は短いがアイディアは思いつきやすい 2. 普遍的に重要な研究を⾏い続ける 分野が抱えるオープンクエスチョンを解く 制限時間が⽐較的⻑いが深い洞察⼒が必要,さらに 問題がすぐに解けるとは限らない
  137. 137. CVPR2019の動向・気付き(91/104) 137 • インターン⽣の活躍 – 企業インターンが(特に夏は)盛んである • 企業インターンの業績が企業研究の業績を増やす! • スポンサー企業となりブース出展 (〜6⽉) -> 学⽣をインターンに招待 (6⽉) -> 夏季インターン(6〜9⽉) -> ⼤学に戻り論⽂投稿(9〜11⽉) -> 採択!ダメでもECCV/ICCV投稿(3⽉) – 同じような構図が⼤学にもある • 履歴書を持ち有名教員に持って⾏く,が⾒られる • 上と同じようなスケジュールで夏期インターン?
  138. 138. CVPR2019の動向・気付き(92/104) 138 • 海外の計算機事情? – 強い研究チームはAWSを使⽤ • インスタンス使い放題という場合も • 研究室のスポンサーが資⾦提供という例もある – ⼀⽅で,GPU 3枚/⼈という研究グループも • 世界トップクラスの研究をしている 必ずしもグラフィックボードの枚数と研究成果は 相関するわけではない
  139. 139. CVPR2019の動向・気付き(93/104) 139 • CVPRの通し⽅!? – 精度が⾼い!SOTA!!Accept!!! • Computer Vision and Precision Recall(CVPR)問題 • 実際は精度だけでなく,分野に貢献するアイディア有 – 緻密な調査と有益な考察 • Rethinking ImageNet Pre-Training (注)会議論⽂にはなっていない • ⼗分な実験から考察や結論を導いている – DB提案論⽂ • ImageNet, Places, OpenImages • 分析,ベンチマーキングされている 但し,上記だけでは通せない
  140. 140. CVPR2019の動向・気付き(94/104) 140 • CVPRの通し⽅!? その2 – 英語で伝わる(論理的/⽂法的なミスが少ない)論⽂を書く – 当然だが,努⼒が伴う • 体裁だけ間に合わせた論⽂はトップに絶対通らない – 最低3周,できれば7+回校正 • 参照:松尾ぐみの論⽂の書き⽅ http://ymatsuo.com/japanese/ronbun_eng.html – 世界的ラボはPIが “Reject” 出す(とりあえず投稿,を許さない) • ラボ内レビューを徹底 • 追加実験など改善活動を繰り返す 他⼈の⽬に触れ, 改善を繰り返す!
  141. 141. CVPR2019の動向・気付き(95/104) 141 • CVPRは必勝テンプレがなんとなく存在する – 何⼗本,何百本も読んでいるとわかってくる • 1ページ⽬には論⽂を最も説明する図1を置く • 論⽂の貢献(Contribution)は最初に書く • 図2 or 3は⼿法等の全体像(overview) • 実験量/最⾼精度は重要(?),グラフ/表を⾒やすく – その他,査読者の苦労を推し量る • 査読者は同時に10本前後を受け取る – 採択率を考えるとその上位20%には⼊りたい • 図は徹底して綺麗に&問題設定や結果を明らかに # もちろん上に縛られずに通る論⽂なんていくらでもあります! # あくまでテンプレなので,より効果的なアピールを著者で考えよう!
  142. 142. CVPR2019の動向・気付き(96/104) 142 • 1ページ⽬,図1に⼒を⼊れる – 特に図1はCVPR特有? • 図1が1ページ⽬に多い,というくらいです – 最も良い結果やコンセプトなど最⼤のアピールポ イントを図1に込める
  143. 143. CVPR2019の動向・気付き(97/104) 143 • 貢献はイントロで書く – Our contribution~ で始まることが多い⽂章 • 貢献は「Nつある」も重要 • あまり意味のない貢献を書いて増やすのは逆効果? – (1)⼿法を改善した, (2)改善した⼿法で実験した結果 **%向上した -> 1, 2は実質的に同じ? – 貢献を記述するときは(特に)端的に!
  144. 144. CVPR2019の動向・気付き(98/104) 144 • ⼿法/学習法などOverviewを⼊れる – 何をしているかをひとめで説明 – ⾔葉ではなく視覚的に分かりやすい全体像を⾒せ てミスリードを少なくする – 最近ではDNNアーキテクチャ,DB提案論⽂の場 合には収集⽅法や構成表が多し
  145. 145. CVPR2019の動向・気付き(99/104) 145 • 実験量/最⾼精度は重要(?) – 賛否両論 • 実験量が多ければよいという訳ではないが,査読項⽬ のひとつになることもある • 最⾼精度は出ていなくても構わないが,分野に対する 貢献が最低ひとつはあることが好ましい – ⾃分の⼿法の効果的な側⾯を⽰す実験 • 不必要な量はいらないが,エビデンスとして⼗分かど うかは精査
  146. 146. CVPR2019の動向・気付き(100/104) 146 • CVPRの通し⽅++ – 共著論⽂の内容を理解する • 当然だが,努⼒しないと意外と難しい – ミーティングへの参加,議論はもちろんだができ れば論⽂(やコードレベル)で理解したい – 論⽂の校正も指導員が徹底して⾏う • 原稿を真っ⾚に染める • ver.を上げていく • 数週間前には提出して論⽂の質向上期間を設ける • 研究室内/コミュニティ内部レビューを導⼊
  147. 147. CVPR2019の動向・気付き(101/104) 147 • USC ICT の研究の進め⽅ – MUST WORK HARDER, SUBMIT OR DIE • 締め切りの数ヶ⽉前から本格的に研究開始 • 研究成果が出ていなくてもLabのほぼ全員が2-3⼈くら いのチームを組んで投稿を⽬指す • ⼀週間前から研究室でご飯が提供され、研究だけに集中 できる環境作り. 投稿前のスピード感は圧倒的に早い. この追込みが論⽂を定期的にトップカンファレンスに通す秘訣?? - 研究環境 - GPUは,1,2枚/⼈に加えて共有のものが50枚くらい - 最新の論⽂は発⾒した⼈が,Slackのプロジェクトグ ループにて共有
  148. 148. CVPR2019の動向・気付き(102/104) 148 • アジア勢の伸び – 中国は⾔わずもがな,韓国も • 著者数(submit)では中国がアメリカを越える • 清華⼤など中国本⼟の⼤学からの発表も⽬⽴つ • 参加者数で⽇本が韓国の半分というのは少し残念 • もっとみんな参加しよう!
  149. 149. CVPR2019ではないけど動向・気付き(103/104) 149 • 中国のCVエコシステム CCCV + CCPR = PRCV! – CCCV(ICCV的な?)は2018年3,000+⼈参加らしい – CCPR(ICPR的な?)もそれに匹敵? – 合体してPRCV!(それってChinese CVPR!?) 国内でCV分野を強くする仕組みが完成! http://www.prcv2019.com/en/index.html
  150. 150. CVPR2019の動向・気付き(104/104) 150 • 次のトレンドを創るワークショップ! – ワークショップも本会議同様⾯⽩い • 特定トピックにフォーカスして議論 • その分野を盛り上げたい研究者が集結! • 下記のワークショップは投稿すべき! 筆者(⽚岡)もオーガナイザとし て企画するICCV 2019 Workshop http://lsfsl.net/ws/ http://iccv2019.thecvf.com/images/ICCV19logo_main.png
  151. 151. 最近のトレンドを作っている論⽂ 151 - CVPRで現在使われている重要技術を紹介 - Google Scholarにて各国際会議上位の論⽂をCVPR 2019 の論⽂内で検索,引⽤回数が多いものを記載 - およそ10論⽂以上に引⽤された論⽂
  152. 152. CVPR のトレンドを創っている論⽂(1/13) • Deep Residual Learning for Image Recognition – CVPR 2016 – スキップコネクションによる残差を次のユニットに渡すこ とで,勾配消失することなくより深い層の学習を実現 # 画像識別については代表的なもののみを記載(他にもAlexNet, VGGNet, GoogleNetなど)
  153. 153. • Rich Feature Hierarchies for Accurate Object Detection and Semantic Segmentation – CVPR 2014 – 候補領域抽出 + 物体識別の2ステップにより物体検出 Person Uma 物体2 物体識別:Uma(⾺) 位置(x,y,w,h):118, 250, 89, 146 物体1 物体識別:Person(⼈) 位置(x,y,w,h):125, 15, 78, 162 画像はPascal VOC datasetより抜粋 CVPR のトレンドを創っている論⽂(2/13) # 他にもFast/Faster R-CNN, SSD, YOLOなど
  154. 154. • Fully Convolutional Networks for Semantic Segmentation – CVPR 2015 – 物体領域の意味ごとに分類を実施するセマンティックセグ メンテーション CVPR のトレンドを創っている論⽂(3/13) # 他にもSegNet, U-Net, DeepLabなど
  155. 155. • Mask R-CNN – ICCV 2017 – 物体検出 / セマンティックセグメンテーション⼿法の統合 によりインスタンスセグメンテーションを⾏う – ROI Alignにより,さらに詳細にピクセル誤差を与える CVPR のトレンドを創っている論⽂(4/13)
  156. 156. • Show and Tell: A Neural Image Caption Generator – CVPR 2015 – CNN + LSTMにより画像説明⽂を⽣成 – CNNの特徴から⾔語をLSTMにより再帰的に出⼒ CVPR のトレンドを創っている論⽂(5/13)
  157. 157. • VQA: Visual Question Answering – ICCV 2015 – 視覚的質問回答:画像+質問⼊⼒,回答を出⼒する問題設定 CVPR のトレンドを創っている論⽂(6/13)
  158. 158. • Convolutional Pose Machine – CVPR 2016 – 尤度マップを再帰的に畳み込み洗練 – 改善を繰り返してOpenPoseをリリース CVPR のトレンドを創っている論⽂(7/13)
  159. 159. • Generative Adversarial Nets – NIPS 2014 – 敵対的⽣成ネットワーク – 識別器Dと⽣成器Gのmin-max最適化により画像⽣成のモ デルを学習 CVPR のトレンドを創っている論⽂(8/13) # 他にもDCGAN, ACGAN, WGAN, SNGAN, BigGANなど
  160. 160. • Image-to-Image Translation with Conditional Adversarial Networks – CVPR 2017 – 画像から画像の変換を汎⽤的に実⾏ CVPR のトレンドを創っている論⽂(9/13) # 他にもCycleGANがある
  161. 161. CVPR のトレンドを創っている論⽂(10/13) • Learning Spatiotemporal Features with 3D Convolutional Networks – ICCV 2015 – 時空間3次元畳み込みによる3D CNN(C3D)を提案 – 時間⽅向にも畳み込みができるようになり動画認識がより ⾼精度になるための⾜がかりになった
  162. 162. CVPR のトレンドを創っている論⽂(11/13) A Closer Look at Spatiotemporal Convolutions for Action Recognition – CVPR 2018 – 空間⽅向と時間⽅向に分解して畳み込む(2+1)Dを提案 – 動画認識において提案⼿法が有効であることを⽰した
  163. 163. • KITTI dataset – CVPR 2012 – ⾃動運転⽤のデータセット/ベンチマーク KITTIを提案 CVPR のトレンドを創っている論⽂(12/13)
  164. 164. • Microsoft COCO: Common Objects in Context – ECCV 2014 – 物体検出,セマンティックセグメンテーション,画像説明 ⽂のタスクを同時に提供する画像DB CVPR のトレンドを創っている論⽂(13/13)
  165. 165. これから引⽤されそう(流⾏りそう)な論⽂ 165 - すでに引⽤されている論⽂も含みます - (取捨選択のためにもう少し時間が欲しかったですね)
  166. 166. 引⽤されそうなCVPR 2019 論⽂(1/50) 166 • Relational Action Forecasting – 過去の動画フレームから この先起こる action を予測する – Actor Proposal とその特徴量から actor 同⼠の関係性をGNNで学習
  167. 167. 引⽤されそうなCVPR 2019 論⽂(2/50) 167 • LVIS: A Dataset for Large Vocabulary Instance Segmentation – Instance Segmentation のためのデータセット – 164k枚の⾼画質な画像 – 2.2M個のオブジェクトを含む – 1,000以上の細分化されたカテゴリ
  168. 168. 引⽤されそうなCVPR 2019 論⽂(3/50) 168 • Panoptic Feature Pyramid Networks – Panoptic segmentation • Feature pyramid network(FPN)を有したMask R- CNN • 密な画素に対してセグメンテーションをするための lightweight semantic segmentation branch
  169. 169. 引⽤されそうなCVPR 2019 論⽂(4/50) 169 • Reasoning-RCNN: Unifying Adaptive Global Reasoning Into Large-Scale Object Detection – knowledge graph を⽤いた数千カテゴリの object detection • カテゴリ不均衡やオクルージョンの問題の改善
  170. 170. 引⽤されそうなCVPR 2019 論⽂(5/50) 170 • Show, Control and Tell – 従来のボトムアップなアテンションの順番を操作し て,キャプションで出現する順番を操作 – Chunk-Shifting Gate で名詞の終わりを明⽰的に出 ⼒しモデルに認識させる(著者が実験的に有効と⾔ っていた)
  171. 171. 引⽤されそうなCVPR 2019 論⽂(6/50) 171 • Large-scale weakly-supervised pre- training for video action recognition – 弱教師ありの65M動画に対してラベル付け • インスタグラムから動画とハッシュタグを参照 • Kineticsラベルや動詞,名詞に着⽬
  172. 172. 引⽤されそうなCVPR 2019 論⽂(7/50) 172 • Dual Attention Network for Scene Segmentation – Scene Segmentationのためのattention moduleの提案 • 空間⽅向のself-attention とチャネル⽅向のattention を計算する⼆つのAttention Module • 既存のネットワークの後段に加えるだけで精度向上
  173. 173. 引⽤されそうなCVPR 2019 論⽂(8/50) 173 • Max-Sliced Wasserstein Distance and Its Use for GANs – Sliced Wasserstein Distance(SWD)の改良論⽂ • SWDに関する論⽂はCVPR2019で3本通っている。 昨年もnon-deepにSWDが適⽤されており、アツい! – SWDはGANsに⽤いる際に収束が遅かったが、 Max-SWDはサンプルの射影を改善することで GANsの収束を早くしている
  174. 174. 引⽤されそうなCVPR 2019 論⽂(9/50) 174 • StyleGAN (1/3) – 新しいGeneratorの構造を提案 • 教師なしで⾼レベルな属性と確率的な要素を分解可能 – ⾼レベルな属性:ポーズやアイデンティティなど – 確率的な要素:髪の状態やそばかすなど • Generatorがdisentangleになった
  175. 175. 引⽤されそうなCVPR 2019 論⽂(10/50) 175 • StyleGAN (2/3) – 様々なテクニックを導⼊ • 学習の安定性と速さを向上するprogressive growing • 確率的な要素をモデル化するnoise injection • 隣接したstyleの相関を仮定させないstyle mixing noise injectionの効果.(b)で⼊⼒ノイズのみを 変化させた時の⽣成結果を⽰している.髪のア ピアランスがノイズによって変化する. (a) noiseinjectionの効果.(b)で⼊⼒ノイズのみを 変化させた時の⽣成結果を⽰している.髪のアピア ランスがノイズによって変化する.
  176. 176. 引⽤されそうなCVPR 2019 論⽂(11/50) 176 • StyleGAN (3/3) – GANの新しい評価指標を提案 • どのGeneratorに対しても適応可能 • perceptual path length – ⽣成画像の変化の滑らかさの評価指標 • linear separability – disentanglementの程度の評価指標 – StyleGANはFIDでもSOTA • FFHQデータセットで5.06
  177. 177. 引⽤されそうなCVPR 2019 論⽂(12/50) 177 • Deformable ConvNets V2: More Deformable, Better Results – 受容野を物体形状に合わせるために導⼊された Deformable ConvNets を改良し,より正確に物体 形状に合わせて受容野を広げる – 畳み込みカーネルのオフセットと共に特徴量の重み も学習する
  178. 178. 引⽤されそうなCVPR 2019 論⽂(13/50) 178 • Universal Domain Adaptation – ドメイン間のラベルの事前知識を⽤いない問題 • ドメインで共通のラベルと固有のラベルが存在 • domain gapも存在 – Universal Adaptation Networkを提案 • 共通のラベルか固有のラベルかを検出する
  179. 179. 引⽤されそうなCVPR 2019 論⽂(14/50) 179 • Grounded Video Description – ActivityNet Captions から物体検出と対応を⾏な った新たなデータセット ActivityNet Entities を 作成 – Grounded Video Captioning (Bounding box 単 位で注⽬領域を可視化しながらのキャプショニン グ)を⾏った
  180. 180. 引⽤されそうなCVPR 2019 論⽂(15/50) 180 • From Recognition to Cognition: Visual Commonsense Reasoning – 画像からコンテクストに関する質問の回答及び推 論の理由づけを⾏うデータセット・タスク提案 – visualcommonsense.com でコンペも開催!
  181. 181. 引⽤されそうなCVPR 2019 論⽂(16/50) 181 • Semantically Tied Paired Cycle Consistency for Zero-Shot Sketch-Based Image Retrieval – ゼロショット物体画像検索をスケッチから⾏う – 補助情報はクラス名・WordNet による階層情報
  182. 182. 引⽤されそうなCVPR 2019 論⽂(17/50) 182 • SiCloPe: Silhouette-Based Clothed People – ⼀枚画像から⾐服を含む三次元復元を実現 – 形状だけではなく全⾝のテクスチャも復元

×