Ce diaporama a bien été signalé.
Nous utilisons votre profil LinkedIn et vos données d’activité pour vous proposer des publicités personnalisées et pertinentes. Vous pouvez changer vos préférences de publicités à tout moment.

CVPR 2018 速報とその後 (CVPR 2018 完全読破チャレンジ報告会)

1 930 vues

Publié le

CVPR 2018 完全読破チャレンジ報告会 cvpaper.challenge 勉強会@Wantedly白金台オフィス

cvpaper.challenge はコンピュータビジョン分野の今を映し、創り出す挑戦です。論文読破・まとめ・アイディア考案・議論・実装・論文執筆(・社会実装)に至るまで広く取り組み、あらゆる知識を共有しています。
http://hirokatsukataoka.net/project/cc/index_cvpaperchallenge.html

Publié dans : Technologie
  • Identifiez-vous pour voir les commentaires

CVPR 2018 速報とその後 (CVPR 2018 完全読破チャレンジ報告会)

  1. 1. CVPR 2018 速報 とその後 ⽚岡裕雄 Qiu Yue,相澤宏旭,鈴⽊智之,吉⽥光太,原健翔 鈴⽊亮太,福井宏,福原吉博,⼭本晋太郎,板摺貴⼤,荒⽊諒介,重中秀介, 美濃⼝宗尊,井上和樹,夏⽬亮太,中嶋航⼤,浅野⼀真,秋本直郁 1 http://hirokatsukataoka.net/project/cc/index_cvpaperchallenge.html
  2. 2. 本講演の概要 2 • 1) 今,何が起こっているか? • 2) 次,何をするべきか?
  3. 3. 1) 今,何が起こっているか? 3
  4. 4. 3rdAI 4 http://www.image-net.org/ http://cvpr2017.thecvf.com/ 1st AI 2nd AI 3rd AI 1st - 3rd AI Why 3rd AI? Architecture Data Machine
  5. 5. 特にデータは重要 5 ImageNetはデータの重要性を明らかにした – 14,000,000+ imgs / 20,000+ categories – 2007年からデータを収集,2009年CVPR発表 http://fungai.org/images/blog/imagenet-logo.png https://www.ted.com/talks/fei_fei_li_how_we_re_teaching_computers_t o_understand_pictures/up-next?language=ja 右はStanfordの⾚ 左は前所属のPrinceton 上の緑はWorldPeace~世界平和~を⽰す(らしい) Fei-Fei⽒のTED動画(右)資⾦繰りの苦労や,2000年代当時はアル ゴリズム⾄上主義でデータを収集することが理解されなかった
  6. 6. AI時代における論⽂数の爆発! • 投稿数参加者数等爆発的増加傾向 – 投稿数は過去最⾼(3,300+論⽂@CVPR18)を記録 – 参加者数 約6,500+⼈と研究者も激増傾向 http://img.mp.itc.cn/upload/20170727/a94c7cfda6c34d 2fb3f52825c3c6b928_th.jpg
  7. 7. http://iplab.dmi.unict.it/acvr2017/img/conjunction.png http://cvpr2017.thecvf.com/images/CVPRLogo3.jpg 783 papers! 621 papers! 1年内の主要会議で約2,400本 CVの現状: 主要国際会議 http://cvpr2018.thecvf.com/images/cvpr18logo_3.jpg 979 papers!!
  8. 8. http://iplab.dmi.unict.it/acvr2017/img/conjunction.png http://cvpr2017.thecvf.com/images/CVPRLogo3.jpg 783 papers! 621 papers! 1年内の主要会議で約2,400本 CVの現状: 主要国際会議 http://cvpr2018.thecvf.com/images/cvpr18logo_3.jpg 979 papers!! CV⺠はCVPRに照準を合わせる (時代が動く)
  9. 9. 今回のCVPR主題を3分類するとしたら? 9 • アルゴリズム考案 • データ問題 • 新規問題設定
  10. 10. CVPRの三⼤分類(1/3) 10 • アルゴリズム考案 – 従来の問題設定の延⻑だが,精度向上/タスク解決に対して 効果的な⼿法を提案(データに関する項⽬は次ページ) – 昔からホットな領域 • 物体検出(含:⼈物),⼈物⾏動認識,⼿部領域追跡,セマンティックセグメンテー ション,ビューポイント変換,Shape-from-X,SLAM,Computational Photography,⾃動運転,ロボット応⽤,,, – 最近ホットになった領域 • 画像説明⽂,視覚的質問回答(VQA),GAN,ファッション,ピッキング, 画⾵変 換,,, – 今後ホットになりそうな領域? • 超多タスク学習(Best Paperを受けて),強化学習, 3D×GAN, , , • あとはみんなで予想しましょう!
  11. 11. CVPRの三⼤分類(2/3) 11 • データ問題 – ⼤規模データ収集/アノテーション問題を解決および緩和 • DNNの動向と重なりますが,深層学習の1st waveがアーキテク チャ改善だとすると,データ作成/少量データ学習が2nd wave – {Un-, Weak-, Semi-, Self-} Supervised Learning, {Zero-, One-, Few-} shot learning, Domain Adaptation, Synthetic Data, Adversarial Learning, Data Augmentation 上記の改善とともに,野⼼的な新しい学習法などが出る (少なくとも世界的に取り組まれている)
  12. 12. CVPRの三⼤分類(3/3) 12 • 新規問題設定 – 問題設定と同時にデータセット作成/アルゴリズム考案 – ベンチマーキングにより新しい視点を与える – ⽴ち⽌まって網羅的解析により問題を⾒直す • などの論⽂が通っている(し増えている) 研究に哲学がある⽅が論⽂は⾯⽩くなる! 新しい問題を考えよう
  13. 13. CVPR2018の動向・気付き(1/15) 13 – 重要論⽂はどこの研究機関からでも出るようになった • 昔(少なくとも5年前くらい)は⽬⽴つCV分野の論⽂は⼤体において研究 チームが限られていた • DNNの提案により裾野が広がった • フレームワーク(e.g. Caffe/Caffe2, TensorFlow, PyTorch, Chainer)/arXiv, Open でダウンロード可能な論⽂やコード等の充実 まさに今,誰もが当事者になるチャンス! 努⼒次第ではトップ会議採択/産業応⽤展開も可能!!
  14. 14. CVPR2018の動向・気付き(2/15) 14 – 「こんな新しいことができた」ということ⾃体でさえ形骸 化してしまった? • 研究者ですらここまで早いか,という流れの中にいる • ⼤規模にデータを集め,⼊⼒と出⼒の対応関係さえ教⽰するラベル が揃っていればDNNでなんとかしてくれる • アーキテクチャ探索のように,未解決問題の空間を探索している (いい意味です)
  15. 15. CVPR2018の動向・気付き(3/15) 15 – 物体検出問題,未だに根強くFaster R-CNNも残る • YOLO/SSDなど早い⼿法が提案されているにも関わらず,アンド Mask R-CNNのようにインスタンスセグメンテーションができる⼿ 法ができても,である • これは,(1)候補領域抽出 (2)物体識別という2-stageの構造から? – (1)の部分があることで,より理解しやすい⼿法となっている – ただし,候補領域で抽出されていないものは検出されない – 多少の解釈性を保有していることが実利的 • 実験的には,YOLO/SSDよりもFaster R-CNNの⽅が精度がよい場 合も多い(あくまでも実験的) 物体検出の覇権争いはここまでで落ち着いた?
  16. 16. CVPR2018の動向・気付き(4/15) – Semantic Segmentation周辺分野の未来予想 1. Semantic Segmentation + Detection – Semantic SegmentationはDetectionを内包したタスク。 Mask RCNNをはじめとして統合が進む? 2. Sementic Segmentation + Instance Segmentation – 1と相まって今後統合されるのは確実 – Panoptic Segmentation https://arxiv.org/abs/1801.00868 3. Stuffクラスの認識 – Stuffクラスはシーンや出現物体の理解の⼿がかりとなる。 – COCO-Stuff: Thing and Stuff Classes in Context 4. Domain Adaptation – Semantic Segmentationとアノテーションコストは切り離せない。 – 今回のDomain Adaptationの研究の数をみても必然。 5. Semantic Segmentationのさらなる⾼精度化 – CityscapesやPASCAL VOCでもまだまだ完璧ではない。 CNNができないことを追求して海外と戦うべき?(逆にやる⼈がいない?)
  17. 17. CVPR2018の動向・気付き(5/15) – Semantic Layoutからの画像⽣成 • ラベルデータがあれば、⾼解像度⾼品質なデータが作成できる。 – High-Resolution Image Synthesis and Semantic Manipulation With Conditional GANs – Semi-Parametric Image Synthesis • データ不⾜への新たな対応策 – 今後は出⼒の多様性が重要になる。 High-Resolution Image Synthesis and Semantic Manipulation With Conditional GANs
  18. 18. CVPR2018の動向・気付き(6/15) 18 – Semantic Layoutからの復元,ホントにキレイになる • これはもう,各⽅⾯で学習データに使うしかない • (1)シミュレータをセマンティックラベルに復元,(2)この⼿ 法でセマンティックラベルを任意のリアル画像に復元 • (1)と(2)を対応付ければ学習の⼊出⼒画像が完成!
  19. 19. CVPR2018の動向・気付き(7/15) 19 – GANにより変換/⽣成した画像も学習に使えるように • 左図:SimGAN – CVPR2017 Best Paper – CGをリアルに近付けるRefiner(R)と識別器(D) • 右図:GraspGAN – ICRA2018 – 上記論⽂を元ネタとしてロボットシミュレータ画像をリアルに近づけて,マニ ピューレーションを実⾏ • 今後も出てくる雰囲気がある
  20. 20. CVPR2018の動向・気付き(8/15) 20 – 弱教師付き/半教師あり学習が⾼いレベルで実現された? • ものによっては教師あり学習を超える場⾯も – 教師あり学習よりもデータ量を確保することで精度が向上しているパターン • 画像⽣成/ドメイン変換なども使⽤して精度向上 – やはりラベルは多少曖昧でもデータ量で精度を上げる⽅が良い? – 弱いとはいえ,数年前より適切なラベルを与えられるようになってきた? • 両⽅の枠組み,どちらでも学習可能なモデルも登場 弱いラベルも実利⽤に耐えうるレベルになる?
  21. 21. CVPR2018の動向・気付き(9/15) 21 – ドメインアダプテーション(ドメイン変換) • Source Domain(⼤量にラベル付データがある)からTarget Domain(少量のラベル付データしかない)への特徴転換問題 • CG/WebDataをSourceにして,実空間というTargetに転換 • Fine-grained Categorizationまで来ている(⾞両認識) • Object-level(ImageNet)画像からUnlabeled/Labeled な⼈物⾏ 動動画へのドメイン変換 • Domain Adaptation Challenge: VISDA at ECCV2018 – シミュレーションから実空間へのドメイン変換
  22. 22. CVPR2018の動向・気付き(10/15) 22 – Domain Adaptation (DA)激増? • DNNの進化に伴いDBが増えたが,ドメインを超えた学習や収集が 困難なDBが存在 – ex) 実画像に対する完璧なデプス、同⼀照明環境における顔画像 etc. • そんな時は教師なしDA (UDA; Unsupervised Domain Adaptation)で解決! – アノテーションが豊富なドメインでタスクを学習,アノテーションが{ない, 少 ない}ドメイン学習に利⽤ – ex) レンダリングされた3D顔合成データを⽤いてアルベド,シェイプなどを学 習→アノテーションが⼀切ない実顔画像のアルベド,3Dシェイプ推定 etc.
  23. 23. CVPR2018の動向・気付き(11/15) 23 – Language & Vision • 画像説明⽂/VQAはもちろん! • ⽂章でナビゲーション • 3D空間内を移動して回答を準備(EmbbodiedQA) 例1 例2 例3 例4
  24. 24. CVPR2018の動向・気付き(12/15) 24 – IT企業にはパラメータチューニング屋さんがいるのでは? • ベースラインの精度が異常に⾼い論⽂があった(が,実現不可能ではない) • ベースの精度を異常に⾼くする専⾨家がお抱えでいるのでは?と • 論⽂の通しやすさにダイレクトに関わる! – 誰にも作れないラベルを作り出すアノテータもいる? • ADE20K Dataset – Our dataset was annotated by a single expert annotator, providing extremely detailed and exhaustive image annotations(2万枚もある Sem.Segment.のラベル付を⼀⼈のエキスパートが⾏なっている)となり話題 になった http://people.csail.mit.edu/bzhou/publication/scene-parse-camera-ready.pdf • トップアノテータ(Top Annotator)というAIにラベルを提供する 先⽣役がいてもよい! ⽇本も,誰もが欲しがるデータを作る⼈/モデルの精度を上げる⼈ に対してお⾦を出すのはいかがでしょう?(但し年収数千万です)
  25. 25. CVPR2018の動向・気付き(13/15) 25 – Best Paperになる論⽂? • 次のトレンドを作る知識を共有 • DynamicFusion(2015),ResNet(2016),SimGAN/DenseNet(2017) • Taskonomy(2018) 転移学習の組合せを網羅的に調査 – 歴史上別々だった異なるタスク同⼠を繋げるモチベーティブな研究 Best Paperの著者リスト ベイエリアオールスターズという感じ http://taskonomy.stanford.edu/ データセットも⼤規模に収集
  26. 26. CVPR2018の動向・気付き(14/15) 26 – SenseTime(CVPR44本)がなぜこんなに論⽂を通せるか? • (下記は推測も含みます) • トップ研究者であるProf. Xiaoou Tangが会社を設⽴ • ⼤学研究室CUHK MMLab./SenseTimeを両輪で成⻑ – 実際にOBがSenseTime⼊りするケースもあり,内外部からインターンの受け ⼊れもあり?で成⻑する仕組みが整う • 潤沢な資⾦(資⾦調達で6億USD(630億円程度)を獲得 https://glotechtrends.com/sensetime- alibaba-funding-180416/ )/豊富な研究設備 研究が進む/⼈材が成⻑するエコシステムが整っている https://www.sensetime.jp/history http://mmlab.ie.cuhk.edu.hk/ CUHK MMLab.は教員7名, ポスドク/Ph.D.学⽣は合計 50+名とも聞く
  27. 27. CVPR2018の動向・気付き(15/15) 27 – 論⽂を投稿しよう! – 出さないと通らないし落ちても次への経験値 • 海外ではPh.D.学⽣/ポスドクが中⼼となり論⽂投稿 • ⽇本は修⼠学⽣が中⼼(もちろん先⽣⽅のサポートもある) • Ph.D.学⽣が増えないからしょうがないとネガティブになるのは早 い!(修⼠の研究プロジェクトでも論⽂は通っている; 下記もし他にもあればお知らせください) – Kuniaki Saito, et al. “Maximum Classifier Discrepancy for Unsupervised Domain Adaptation”(M2 の研究成果; Oral ) – Yuki Fujimura, et al. “Photometric Stereo in Participating Media Considering Shape-Dependent Forward Scatter”(M2の研究成果; Oral) – Naoto Inoue, et al. “Cross-Domain Weakly-Supervised Object Detection through Progressive Domain Adaptation”(M2の研究成果) – Takuma Yagi, et al. “Future Person Localization in First-Person Videos”(M1の研究成果; Spotlight Oral) – Tomoyuki Suzuki, et al. “Anticipating Traffic Accidents With Adaptive Loss and Large-Scale Incident DB”(M1の研究成果) – Daiki Tanaka, et al. “Joint Optimization Framework for Learning with Noisy Labels”(なんとB4の 研究成果) 学⽣からするとメジャー会議への投稿0を1にするのは⼤きい!
  28. 28. 2) 次,何をするべきか? 28
  29. 29. CVPR 2018 + ECCV2018で答え合わせ 29
  30. 30. Next Trend: データ問題の解決 30 • 教師あり学習 vs. 無教師/弱教師 – 少量/無 ラベルで教師有りに勝つ!(というモチベーション) • How good is my GAN?: 勝てなかったがデータ拡張の⽅針を⽰す • 6D Object Detection: この⽂脈で勝ってしまった(BestPaper) • Cut/Paste Learn: 9割くらいの精度まで来た(Oral) [Sundermeyer+, ECCV18]Oral,BP ラベル無しCGデータで実時間6D検出, さらに教師有りを倒した [Remez+, ECCV18]Oral Cut/Pasteで既存セグメントラベルを増 加,教師有りに接近する精度 [Shmelkov+, ECCV18] GANの評価法提案,追加実験のデー タ拡張がポイント
  31. 31. Next Trend: Beyond ImageNet 31 タスクが多様になるのにPre-trainは画像識別? – 恐らくNO!(ダメではないがより良い⽅法を探索したい) – ありものでラベル付/スケール増加[Mahajan+, ECCV18] – Self-supervised的にタスク毎の特徴表現学習 [Mahajan+, ECCV18] FBはSNSのHashtagでラベル付けなし,弱教師付きの 3.5B枚画像DB構築
  32. 32. Next Trend: 新しい⾦脈/鶴橋を作ろう! 32 • デファクトスタンダードを作る – 画像識別のResNet – 物体検出のFaster R-CNN – セグメンテーションのFCN – まだ埋め尽くされていない課題のベースを作る • 問題⾃体も拡張させ,⾃分で⼿法を作るのがベター
  33. 33. cvpaper.challengeでは何をしている? 33 • 新しい評価⽅法を提案 – Neural Joking Machine (CVPR18WS) • ジョーク(ボケ)⽣成AI • ⼤喜利サイト”ボケて”に投稿,訓練されたユーザ評価 • 従来評価が困難な説明⽂の評価を低負担で実現 左の⽣成ボケをダイレクトに投稿 https://arxiv.org/pdf/1805.11850.pdf
  34. 34. cvpaper.challengeでは何をしている? 34 • 顔認識は⼈間に近づいたのか? – Understanding Fake Faces(ECCV18WS) • (精度だけでなく)⼈間の認識に近づいたか調査 • False-positive/Simulacraの傾向を解析 https://arxiv.org/pdf/1809.08391.pdf Positiveだけでなく,Negativeも⼈間らしいか解析
  35. 35. cvpaper.challengeでは何をしている? 35 • 論⽂サマリをCPUが作成,⼈間と強調 – Paper Summary Generation(ICMV18) • PDF⼊⼒,論⽂サマリ出⼒ • アイディアも⼈間xCPUで協調すべき! PDF coming soon.
  36. 36. cvpaper.challengeの研究 36 • 次のトレンドを作れそうな研究を実施 – 根本問題,素朴な疑問から始める – インクリメンタルな研究は少ない 理想はOralに選出/BestPaperを取る研究 熟練者をもってして「(いい意味で)こんな研究⾒たことない」と⾔わせたい
  37. 37. cvpaper.challengeのCVPR採択論⽂ 37 • 本会議2本,WS2本,コンペティション2件 – 本会議に通す⼒は⾝についた,次のレベルに – T. Suzuki*, H. Kataoka*, Y. Aoki, Y. Satoh, “Anticipating Traffic Accidents with Adaptive Loss and Large- scale Incident DB”(本会議論⽂) – K. Hara, H. Kataoka, Y. Satoh, “Can Spatiotemporal 3D CNNs Retrace the History of 2D CNNs and ImageNet?”(本会議論⽂) • GitHubも宜しくお願いします https://github.com/kenshohara/3D-ResNets-PyTorch – Y. Qiu, H. Kataoka, “Image generation associated with music data”(WS論⽂) – K. Yoshida, M. Minoguchi, K. Wani, A. Nakamura, H. Kataoka, “Neural Joking Machine: An image captioning for a humor”(WS論⽂) – T. Wakamiya, T. Ikeya, A. Nakamura, K. Hara, H. Kataoka, “TDU&AIST Submission for ActivityNet Challenge 2018 in Video Caption Task”(ActivityNet Challenge) – K. Hara, H. Kataoka, Y. Satoh, “AIST Submission to ActivityNet Challenge 2018”(ActiivtyNet Challenge) – 論⽂/プレゼン資料等のダウンロードこちら http://hirokatsukataoka.net/
  38. 38. 今後の⽅針 • 今まで以上にチームの⼒が重要 – ⾼品質論⽂には1⼈のパワーでは不⼗分? – cvpaper.challengeでは仕組みを再考 • 従来の研究室:1⼈1テーマ3年間継続(学部~修⼠を想定) • cvpaper.challenge:2~4⼈1テーマ0.5~1年でテーマ拡張/変更
  39. 39. 今後の⽅針 39 • まずは投稿する – 学部/修⼠の学⽣だって通せるポテンシャルは持っている • もちろん,先⽣⽅の⽀援/労⼒が⼤きいことも忘れてはいけない! • Rejectされたとしても投稿と改善で論⽂は磨かれる,経験値を蓄積 していく 2018年中にトップ会議*に20本投稿 (2018/09/29現在,90%まで到達) *Google Scholar Top-20にリストアップされている論⽂
  40. 40. 今後の⽅針 40 • 論⽂を投稿しよう! • 次のトレンドを作ろう!!

×