SlideShare une entreprise Scribd logo
1  sur  26
CVPR2017参加報告
(速報版・四日目)
2017.7.25(現地時間)
@a_hasimoto
このスライドについて
1. 本会議での発表の内容を
2. 印象に残ったものだけ
3. その時の印象と,あとでのreferenceをたどるために
メモしたものです.
9/18(月・祝),関西CVPRML勉強会にて,解説を予定.
→ https://twitter.com/kansaicvprml
私の理解が深まるので,勘違いの指摘や質問,リンクの紹介,そ
の他議論大歓迎.
四日目総評
• YOLO9000の陽キャっぷりがやばい.
• 時系列データに対するself-supervised learningは来年辺り増えそうな
予感.
• 未来を予測するようにモデルを学習
• 先々週に思いついたら,それが実現可能であることを今日, 結果とともに知り
ました.
• データセットと時間とめちゃんこリッチなGPGPU環境が無いと機械学
習系でTop Conferenceは無理,という印象(今更?).
• 日本で太刀打ちできる研究室が何個あるだろうか….
• 今回のCVPRで何個も発表している大学がちらほら
→大学のレベルだけでなく,設備の差が露骨にでている気がする….
• 全く予算もなく,データもない日本の大学では基礎研究すらできない分野にな
りつつある(というか一部有力研究室を除いてほとんどの大学の研究室で不可
能になってる→企業の皆さん,大学の先生をこき使うチャンスですよ!)
Geometric Deep Learning on Graphs and
Manifolds Using Mixture Model CNNs,
Federico Monti et al.
• geometric data: networkなどのgraphのデータ: 地図情報や点群など.
• グラフ構造の中でconvolutionをする→Graph Spectralを利用.
• Graph Fourier空間でconvolution: 概念的にはFourier空間で掛け算す
ればconvolutionになる.
• →Graph上では,様々な”掛け算”が提案されている→手法によって
全然違う結果が得られている
• Mixture Model CNN
• おちた.グラフの構造だけでなく,点座標を取り入れた計算??
• FAUST datasetを操作.点群を自然に動かしている
• グラフ信号処理,去年の夏に勉強したけど,まだ勉強し足りない.
Fine-Grained Recognition as HSnet Search for
Informative Image Parts,
Michael Lam, Behrooz Mahasseni, Sinisa Todorovic
• 凄くよく似た2クラス→違いがある部分(注目すべきパーツ)を見
つけたい.
• part-based modelsはポテンシャルがある.
• ただし,速度が遅い
• 物体認識の問題では,部位情報は事前に与えられていない
• 最初は重なりなくならんだ定数個の矩形(proposal)を.徐々に
クラスを見分けるために重要なパートを見る位置に移動
• HSnetがproposalを変更
• HS: Heuristic functionとSuccessor function
• 要するに,Weak supervised的な処理をする,ということ.
• LSTMを入れた方が結果が良い ← ここはtry & errorぽい
G2DeNet: Global Gaussian Distribution
Embedding Network and Its Application to
Visual Recognition, Qilong Wang, Peihua Li, Lei Zhang
• 学習可能な層の種類を増やしたい.
• Conv, Pooling, FCくらいしかないけど,いいの?
• Gaussianいいよね.
• global Gaussian embedding layerを提案.
• Explicit formを入れよう!
• GaussianをCholesky分解して得られる下三角行列を…??
• ちょっとよくわからなかった,すみません...
YOLO9000: Better, Faster, Stronger,
Joseph Redmon, Ali Farhadi
• Better, Faster, Strongerの元ネタ?
• https://www.youtube.com/watch?v=gAjR4_CbPpQ
• ポスターがネタ.デスクトップ画像もterminalのカラーもネタ.
• https://twitter.com/RanjayKrishna/status/890019079959879680
• https://twitter.com/MonaJalal_/status/890106242768785408
• デモは圧倒的クオリティ.
• 発表スライドにベジータが現れる程度にネタ満載.
• 発表内容は,トリックを増やしたというより,かなり愚直に,
地道に,精度改善に取り組んだ,ということのよう.
• マルチスケールでの学習,入力画像の解像度の向上
• 9000カテゴリの階層構造をwordnetだけでなく,頑張って構築.
Ubernet: Training a Universal Convolutional
Neural Network for Low-, Mid-, and High-Level
Vision Using Diverse Datasets and Limited
Memory, Iasonas Kokkinos
• いろんな画像処理を全部できるようなCNNを作ろう!
• いろんな問題を解いているけど,同時に解けると良いよね
• normal estimation saliency boundary detection, semantic segmentation,
object parts,
• 全部の正解が付いたデータセットはない→各種データセットを継ぎ接ぎで使
う.
• メモリには限界があるので,別々のネットワークを最終層だけ繋ぐ,
とかは無理.
• いろんなデータセットのサンプルをrandomな順番(?)でどんどん学
習!
• でもバッチサイズ10 imageだけだとgradientがほとんど取れない.
• 20 imageだと? (メモ取ってて聴き逃した)
• タスクが多すぎてVGGでは足りない(写真)←本当か?
• 抽象度の違うタスクが混ざりすぎているのではないか,と私は思う.
Object Region Mining With Adversarial Erasing:
A Simple Classification to Semantic Segmentation
Approach, Yunchao Wei
• 画素単位のアノテーションの作成は大変→Weakly-supervised 大事!
• SOTA: Top-down Attention Approaches(従来手法)
• 画像認識に寄与した画素のヒートマップをseedに領域抽出
• 問題点: 認識に寄与する特定の要素しか反応しない→領域全体を綺麗に取れない.
• Adversarial Erasing: ヒートマップが高い部分から領域を特定→そこにマス
クをして,再度認識処理をして新たなヒートマップを計算,繰り返し.
• 画像には複数のタグ→タグ付けされた物体毎に,これをやる.
• いっている通りにやっても上手く動かないような気がする(マスクが
Artifactにならないように,どう処理しているのか謎)
• 途中のpooling layerの出力を0にするとかかな.
• 従来よりは高い精度を達成 (精度55%くらい)
Hidden Layers in Perceptual Learning
Gad Cohen, Daphna Weinshall
• 転移学習時のネットワークの振る舞いに関する解析の論文
• 網膜くらいの原始的なフィルタを作るような信号で学習,別の
フィルタになるように転移学習?
• この辺りの動機などを全然理解していないので,ちょっとこの文献は
理解できていません….
Full Resolution Image Compression With
Recurrent Neural Networks, George Toderici et al.
• 画像圧縮をRNNでやる→なんでこれをCVPRに出したの?→DNN使ってて,
査読プロセスに合いそうだったから. (逆に元のコミュニティでは通らな
い??)
• Neural Image Compression Wishlist
• outperform, single model, progressive(画像を部分毎に圧縮可能)
• One Shot Reconstruction: オリジナル画像をCov-RNNに入れて二値化.
• 復元したものと元画像のresidualを計算→resnet様に何回も繰り返す.
• Additive Reconstruction; 前の結果に対して,残差に基づいて修正パッチ
みたいなものを学習するようにネットワークを作成.
• # これで本当に良くなるのか???
• さらに,出力に対してentropy lossを入れる?
• Kodak Dataset
• Arithmetic CodingやResidual GRU (One Shot) Entropy Codingが精度向上に寄与
• 精度をかなり改善することができた.
Neural Face Editing With Intrinsic Image
Disentangling, Zhixin Shu et al.
• 入力画像からshadeとnormalsをalbedoをCNNで推定
→これらに関する演算が可能に.
• 表情とか様々なコントロールパラメタで顔を編集可能にする by
Adversarial loss
• 本当に,googleがGANでお絵描きしているのをみてもピンと来なかっ
た自分が恥ずかしい.
• 結果,確かに表情などが操作できていて凄い.
• 凄い…が,しかし,目元の印象が大分変わってしまって,別人になっ
ているんですが,それは…w.
Generalized Deep Image to Image Regression,
Venkataraman Santhanam, Vlad I. Morariu, Larry S. Davis
• RGB→Depth,モノクロ→カラーみたいな回帰
浅い層で解像度が半分になった画像に対して
conv→pooling→upsamplingを繰り返して,多重解像度でやる
と精度が上がる,ということ?
• それぞれ画像サイズが半分以下になるので,合計でもパラメタ
は2倍程度
Deep Hashing Network for Unsupervised
Domain Adaptation, Hemanth Venkateswara
• 教師なし転移学習
• k-NNで何処のハッシュに入るかを判定すると精度が◯
• hamming距離を使ってハッシングすると良い
• ↑なんでかわからなかった
• Hashingに AlexNetを使った(何故?)
• source domainで正解付きで学習
→ target のところはentropyベースのlossファンクション
(cross entropy lossのこと??でもunsupervisedだから違う?)で
学習.
• Office-Home Dataset 実写とイラストで手法を評価.
Gaze Embeddings for Zero-Shot Image
Classification, Nour Karessli et al.
• gazeはnovice users + implicitに取得
(implicitってどういうこと?)
• Gaze Collectionを集めたのが一つのcontribution.
• データセットがコントリビューションになるのか….
• gaze feature: xy, duration, sequence, pupil diameter
• ネットワークの設計について
• gaze featureをさっさとfusionするか,処理後にfusionするか,などを
評価.
• 色々,調べました…か.
Not All Pixels Are Equal: Difficulty-Aware
Semantic Segmentation via Deep Layer
Cascade, Xiaoxiao Li, Ziwei Liu, Ping Luo, Chen Change Loy, Xiaoou Tang
• ネットワークがdeepすぎる&Feature Mapが高解像度すぎる.
→ パフォーマンス下げずに早くしたい.
• セグメンテーションが簡単にできる部分と,中間と,難しい部
分がある
• 最初に浅い層で簡単な部分の画素ラベル付けをし,次の層で中間レベ
ルの難しさの部分を処理して,最後に細かい物体や境界付近だけを相
手にした処理をする.
• Region ConvolutionまでReal-timeを達成.
Residual Attention Network for Image
Classification, Fei Wang et al.
• Attention を予測するのに特化したネットワークモデルを作っ
た.
• それ以上の理解ができていないです….
• CNNの研究は,本当に説明がついていないものが多い気がする….
• 4分のshort oralならこんなもの?
Learning Non-Maximum Suppression,
Jan Hosang, Rodrigo Benenson, Bernt Schiele
• maximum suppressionがhand craftedだよね.これをなくそ
う!
• Matching lossを取り入れる.一つだけマッチする,という仮
定をおく.
• 重なっている矩形のIoUや矩形内物体の同一性なども考慮
• 正直,ちょっと細かくどういう要素を考慮したのかは議論から落ちた.
• 上記のように同一物体に起因する矩形の重複に対するloss
functionを設定
• Maximum Suppressionをせずに最初からばっちり矩形をだすような学
習を行った→Non-Maximum Suppression
The Amazing Mysteries of the Gutter: Drawing
Inferences Between Panels in Comic Book
Narratives, Mohit Iyyer, et al.
• コミック工学!
• アメコミ風スライドは読みにくいからマジ勘弁してください.
• The Comics Dataset
• セリフの自動生成
• 前のコマの状態をLSTMにいれてやる.
• テキストや画像の文脈,キャラクターの口調の同一性を全部総合的に
組み合わせる必要
• 会場が広すぎて,「A,B,Cどのセリフが正しいでしょう?」という質問
に誰も答えず,空振り.発表者テンション高すぎ.
• 前フリ長過ぎる.問題の難しさやおもしろさを語って,これを
なんとかするからポスターに来い!という感じに終わった.
• ニッチな研究のshort oralとしては正しい戦略…か?
Deep Learning With Low Precision by Half-
Wave Gaussian Quantization
Zhaowei Cai, Xiaodong He, Jian Sun, Nuno Vasconcelos
• Half-wave Gaussian Quantization: ReLUじゃなくて2段階のス
テップ関数様のカーネルを使いたい
• なぜよくなるの?low precisionだから??
• やっぱり駄目らしい? スライドの構成がややこしい….
• Long tailed Reluを作った←これがコントリビューション??
• インド英語?みたいなかなり早口の訛った英語,つらい.
Creativity: Generating Diverse Questions Using
Variational Autoencoders,
Unnat Jain, Ziyu Zhang, Alexander G. Schwing Program
• 従来→画像からrepresentationを抽出→Questionのマップを作
成する→一番それっぽいQuestionを質問する.
• P(x|z)をRNNを使って作成.LSTMを使う.
• ちょっと全体的に,よくわからなかった.
• 集中して聞けてない...最終日かつshort oral 8本目とはいえ….
Are You Smarter Than a Sixth Grader?
Textbook Question Answering for Multimodal
Machine Comprehension, Aniruddha Kembhavi et al.
• 東大プロジェクトのような話.
• データセットとベンチマーク
• 技術的には自然言語処理のタスクが多そう.
• テキスト-画像間の関係と共に,知識を教科書から自動で学習
し,テストを回答する.
• 東大プロジェクトの報告と同じような難しさを指摘.
• 最近の深層学習ベースのマルチメディア処理で,これから進展しそう,
と感じた.
• こんかい,ワークショップも行われている.
Hallucinating Very Low-Resolution Unaligned
and Noisy Face Images by Transformative
Discriminative Autoencoders, Xin Yu, Fatih Porikli
• 低解像度の顔画像からの高解像度顔復元(Hallucination)
• 特に低解像度画像に激しいノイズがのっている(夜間の監視カ
メラとか??)状況を想定.
• 一旦,ノイズ除去のために decode ->高解像度→ encode→元
の解像度だけどノイズが減っている画像,という前処理を入れ
てから,もう一度decodeして高解像度化すると精度があがる.
• なぜ?
Adversarially Tuned Scene Generation,
VSR Veeravasarapu, Constantin Rothkopf, Ramesh Visvanathan
• GANでの生成に,simulationのコントロールパラメタが欲しい
• simulatedが処理の中に入っていれば,コントロールできるはず,とい
うこと?
• GANをそういう風に使う手法がおなじ会議で提案されすぎてて新規性
に聞こえない….
• 道路の交通シーンを生成する,など.
ポスター: 良く見て聴いてきたリスト
(面白いと思ったもののみ掲載)
• 希望があれば関西CVPRML勉強会で解説.
• Unsupervised Learning of Long-Term Motion Dynamics for Videos, Zelun Luo, Boya
Peng, De-An Huang, Alexandre Alahi, Li Fei-Fei
• 数フレーム先の運動状態を予測するようなタスクを,bottle neckありのネットワークに読み込ませる.
• bottle neck部分の出力=動作特徴!→fine-tuningしてドメイン適応!
• これこそ,先々週のICMEの会期中に私が思いついたものだ!!!
• 2日目くらいにあったドイツの研究グループのself-supervised action learningは別のやり方だったからし
めしめと思っていたのに….
• 子供の頃に周囲のブームが去ってから買ったマリオカートの失敗から成長してない (- -;
• 研究者はマジで嗅覚を働かせて,ブームを先読みして早いもの勝ちの競争を駆け抜けねばならないのか?
→それ,ビジネスじゃない?(泣)
• 3次元(RGB-Dで3Dモーションを予測)でやっていたので2Dでもできる?と聞いたら,ネットワークの最
適化と入力をOptical Flowとかに変えれば行けると思う,という回答.よし,それやろう.
• ちょっと体調不良で余り回れませんでした.
続き
• 希望があれば関西CVPRML勉強会で解説
• 良く見て聴いてきたリスト(面白いと思ったもののみ掲載)
• Online Graph Completion: Multivariate Signal Recovery in Computer Vision, Won Hwa Kim,
Mona Jalal, Seongjae Hwang, Sterling C. Johnson, Vikas Singh
• グラフ信号処理を利用しているように思える.
• 点群の欠損を上手く保管しているみたい.
• やはり,グラフ信号処理の勉強が足りない….
• A Message Passing Algorithm for the Minimum Cost Multicut Problem, Paul Swoboda,
Bjoern Andres
• 普通のgraph cutはグラフを2つにしか分けられない.multicut(3つ以上に分ける)はNP-hard
• 近似非(lower bound)などの詳細がポスターにはなかったが,linearで動くらしい.
• Depth from Defocus in the Wild, Huixuan Tang, Scott Cohen, Brian Price, Stephen Schiller,
Kiriakos N. Kutulakos
• 手法の詳細は不明だが,CNN使ってない!?しかし,かなり出来ていそうだった.スマホ画像に対して動作さ
せていた模様.一見すると,そこまでdefocusが目立つようには見えない画像.

Contenu connexe

Tendances

CVPR2018 参加報告(速報版)初日
CVPR2018 参加報告(速報版)初日CVPR2018 参加報告(速報版)初日
CVPR2018 参加報告(速報版)初日Atsushi Hashimoto
 
CVPR2018 参加報告(速報版)2日目
CVPR2018 参加報告(速報版)2日目CVPR2018 参加報告(速報版)2日目
CVPR2018 参加報告(速報版)2日目Atsushi Hashimoto
 
優れた問いを見つける(中京大学講演)
優れた問いを見つける(中京大学講演)優れた問いを見つける(中京大学講演)
優れた問いを見つける(中京大学講演)cvpaper. challenge
 
これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...
これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...
これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...cvpaper. challenge
 
効率的学習 / Efficient Training(メタサーベイ)
効率的学習 / Efficient Training(メタサーベイ)効率的学習 / Efficient Training(メタサーベイ)
効率的学習 / Efficient Training(メタサーベイ)cvpaper. challenge
 
Edge Computing 「あらゆるものが考える」世界を作るのに必要な技術
Edge Computing 「あらゆるものが考える」世界を作るのに必要な技術Edge Computing 「あらゆるものが考える」世界を作るのに必要な技術
Edge Computing 「あらゆるものが考える」世界を作るのに必要な技術Takeaki Imai
 
cvpaper.challenge -サーベイの共有と可能性について- (画像応用技術専門委員会研究会 2016年7月)
cvpaper.challenge -サーベイの共有と可能性について- (画像応用技術専門委員会研究会 2016年7月)cvpaper.challenge -サーベイの共有と可能性について- (画像応用技術専門委員会研究会 2016年7月)
cvpaper.challenge -サーベイの共有と可能性について- (画像応用技術専門委員会研究会 2016年7月)cvpaper. challenge
 
オトナのプログラミング勉強会 オトナのDeep Learning 2016-11
オトナのプログラミング勉強会 オトナのDeep Learning 2016-11オトナのプログラミング勉強会 オトナのDeep Learning 2016-11
オトナのプログラミング勉強会 オトナのDeep Learning 2016-11Katsuhiro Morishita
 
卒論執筆・スライド作成のポイント
卒論執筆・スライド作成のポイント卒論執筆・スライド作成のポイント
卒論執筆・スライド作成のポイントTsubasa Hirakawa
 
High-impact Papers in Computer Vision: 歴史を変えた/トレンドを創る論文
High-impact Papers in Computer Vision: 歴史を変えた/トレンドを創る論文High-impact Papers in Computer Vision: 歴史を変えた/トレンドを創る論文
High-impact Papers in Computer Vision: 歴史を変えた/トレンドを創る論文cvpaper. challenge
 
論文 Solo Advent Calendar
論文 Solo Advent Calendar論文 Solo Advent Calendar
論文 Solo Advent Calendar諒介 荒木
 
Word2vecの並列実行時の学習速度の改善
Word2vecの並列実行時の学習速度の改善Word2vecの並列実行時の学習速度の改善
Word2vecの並列実行時の学習速度の改善Naoaki Okazaki
 
コンピュータビジョン分野メジャー国際会議 Award までの道のり
コンピュータビジョン分野メジャー国際会議 Award までの道のりコンピュータビジョン分野メジャー国際会議 Award までの道のり
コンピュータビジョン分野メジャー国際会議 Award までの道のりcvpaper. challenge
 
DeNAにおける機械学習・深層学習活用
DeNAにおける機械学習・深層学習活用DeNAにおける機械学習・深層学習活用
DeNAにおける機械学習・深層学習活用Kazuki Fujikawa
 
[DLHacks 実装] DeepPose: Human Pose Estimation via Deep Neural Networks
[DLHacks 実装] DeepPose: Human Pose Estimation via Deep Neural Networks[DLHacks 実装] DeepPose: Human Pose Estimation via Deep Neural Networks
[DLHacks 実装] DeepPose: Human Pose Estimation via Deep Neural NetworksDeep Learning JP
 
ECCV2020 オーラル論文完全読破 (2/2)
ECCV2020 オーラル論文完全読破 (2/2) ECCV2020 オーラル論文完全読破 (2/2)
ECCV2020 オーラル論文完全読破 (2/2) cvpaper. challenge
 
【CVPR 2020 メタサーベイ】Vision & Other Modalities
【CVPR 2020 メタサーベイ】Vision & Other Modalities【CVPR 2020 メタサーベイ】Vision & Other Modalities
【CVPR 2020 メタサーベイ】Vision & Other Modalitiescvpaper. challenge
 

Tendances (20)

CVPR2018 参加報告(速報版)初日
CVPR2018 参加報告(速報版)初日CVPR2018 参加報告(速報版)初日
CVPR2018 参加報告(速報版)初日
 
CVPR2018 参加報告(速報版)2日目
CVPR2018 参加報告(速報版)2日目CVPR2018 参加報告(速報版)2日目
CVPR2018 参加報告(速報版)2日目
 
優れた問いを見つける(中京大学講演)
優れた問いを見つける(中京大学講演)優れた問いを見つける(中京大学講演)
優れた問いを見つける(中京大学講演)
 
これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...
これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...
これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...
 
効率的学習 / Efficient Training(メタサーベイ)
効率的学習 / Efficient Training(メタサーベイ)効率的学習 / Efficient Training(メタサーベイ)
効率的学習 / Efficient Training(メタサーベイ)
 
Edge Computing 「あらゆるものが考える」世界を作るのに必要な技術
Edge Computing 「あらゆるものが考える」世界を作るのに必要な技術Edge Computing 「あらゆるものが考える」世界を作るのに必要な技術
Edge Computing 「あらゆるものが考える」世界を作るのに必要な技術
 
CVPR 2017 報告
CVPR 2017 報告CVPR 2017 報告
CVPR 2017 報告
 
cvpaper.challenge -サーベイの共有と可能性について- (画像応用技術専門委員会研究会 2016年7月)
cvpaper.challenge -サーベイの共有と可能性について- (画像応用技術専門委員会研究会 2016年7月)cvpaper.challenge -サーベイの共有と可能性について- (画像応用技術専門委員会研究会 2016年7月)
cvpaper.challenge -サーベイの共有と可能性について- (画像応用技術専門委員会研究会 2016年7月)
 
オトナのプログラミング勉強会 オトナのDeep Learning 2016-11
オトナのプログラミング勉強会 オトナのDeep Learning 2016-11オトナのプログラミング勉強会 オトナのDeep Learning 2016-11
オトナのプログラミング勉強会 オトナのDeep Learning 2016-11
 
cvpaper.challengeについて
cvpaper.challengeについてcvpaper.challengeについて
cvpaper.challengeについて
 
卒論執筆・スライド作成のポイント
卒論執筆・スライド作成のポイント卒論執筆・スライド作成のポイント
卒論執筆・スライド作成のポイント
 
High-impact Papers in Computer Vision: 歴史を変えた/トレンドを創る論文
High-impact Papers in Computer Vision: 歴史を変えた/トレンドを創る論文High-impact Papers in Computer Vision: 歴史を変えた/トレンドを創る論文
High-impact Papers in Computer Vision: 歴史を変えた/トレンドを創る論文
 
論文 Solo Advent Calendar
論文 Solo Advent Calendar論文 Solo Advent Calendar
論文 Solo Advent Calendar
 
Word2vecの並列実行時の学習速度の改善
Word2vecの並列実行時の学習速度の改善Word2vecの並列実行時の学習速度の改善
Word2vecの並列実行時の学習速度の改善
 
コンピュータビジョン分野メジャー国際会議 Award までの道のり
コンピュータビジョン分野メジャー国際会議 Award までの道のりコンピュータビジョン分野メジャー国際会議 Award までの道のり
コンピュータビジョン分野メジャー国際会議 Award までの道のり
 
DeNAにおける機械学習・深層学習活用
DeNAにおける機械学習・深層学習活用DeNAにおける機械学習・深層学習活用
DeNAにおける機械学習・深層学習活用
 
[DLHacks 実装] DeepPose: Human Pose Estimation via Deep Neural Networks
[DLHacks 実装] DeepPose: Human Pose Estimation via Deep Neural Networks[DLHacks 実装] DeepPose: Human Pose Estimation via Deep Neural Networks
[DLHacks 実装] DeepPose: Human Pose Estimation via Deep Neural Networks
 
ECCV2020 オーラル論文完全読破 (2/2)
ECCV2020 オーラル論文完全読破 (2/2) ECCV2020 オーラル論文完全読破 (2/2)
ECCV2020 オーラル論文完全読破 (2/2)
 
【CVPR 2020 メタサーベイ】Vision & Other Modalities
【CVPR 2020 メタサーベイ】Vision & Other Modalities【CVPR 2020 メタサーベイ】Vision & Other Modalities
【CVPR 2020 メタサーベイ】Vision & Other Modalities
 
Deep learning を用いた画像から説明文の自動生成に関する研究の紹介
Deep learning を用いた画像から説明文の自動生成に関する研究の紹介Deep learning を用いた画像から説明文の自動生成に関する研究の紹介
Deep learning を用いた画像から説明文の自動生成に関する研究の紹介
 

Similaire à CVPR2017 参加報告 速報版 本会議 4日目

2018 07 02_dense_pose
2018 07 02_dense_pose2018 07 02_dense_pose
2018 07 02_dense_poseharmonylab
 
[DL輪読会]Dense Captioning分野のまとめ
[DL輪読会]Dense Captioning分野のまとめ[DL輪読会]Dense Captioning分野のまとめ
[DL輪読会]Dense Captioning分野のまとめDeep Learning JP
 
CNNの可視化手法Grad-CAMの紹介~CNNさん、あなたはどこを見ているの?~ | OHS勉強会#6
CNNの可視化手法Grad-CAMの紹介~CNNさん、あなたはどこを見ているの?~ | OHS勉強会#6CNNの可視化手法Grad-CAMの紹介~CNNさん、あなたはどこを見ているの?~ | OHS勉強会#6
CNNの可視化手法Grad-CAMの紹介~CNNさん、あなたはどこを見ているの?~ | OHS勉強会#6Toshinori Hanya
 
2019/5/24 Chainer familyで始める深層学習 ハンズオンの部
2019/5/24 Chainer familyで始める深層学習 ハンズオンの部2019/5/24 Chainer familyで始める深層学習 ハンズオンの部
2019/5/24 Chainer familyで始める深層学習 ハンズオンの部belltailjp
 
CVPR2016 reading - 特徴量学習とクロスモーダル転移について
CVPR2016 reading - 特徴量学習とクロスモーダル転移についてCVPR2016 reading - 特徴量学習とクロスモーダル転移について
CVPR2016 reading - 特徴量学習とクロスモーダル転移についてAkisato Kimura
 
Learning Spatial Common Sense with Geometry-Aware Recurrent Networks
Learning Spatial Common Sense with Geometry-Aware Recurrent NetworksLearning Spatial Common Sense with Geometry-Aware Recurrent Networks
Learning Spatial Common Sense with Geometry-Aware Recurrent NetworksKento Doi
 
モジュールの凝集度・結合度・インタフェース
モジュールの凝集度・結合度・インタフェースモジュールの凝集度・結合度・インタフェース
モジュールの凝集度・結合度・インタフェースHajime Yanagawa
 
[cvpaper.challenge] 超解像メタサーベイ #meta-study-group勉強会
[cvpaper.challenge] 超解像メタサーベイ #meta-study-group勉強会[cvpaper.challenge] 超解像メタサーベイ #meta-study-group勉強会
[cvpaper.challenge] 超解像メタサーベイ #meta-study-group勉強会S_aiueo32
 
Chainer meetup2016 03-19pub
Chainer meetup2016 03-19pubChainer meetup2016 03-19pub
Chainer meetup2016 03-19pubYuta Kashino
 
[DL輪読会]NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
[DL輪読会]NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis[DL輪読会]NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
[DL輪読会]NeRF: Representing Scenes as Neural Radiance Fields for View SynthesisDeep Learning JP
 
子どもの言語獲得のモデル化とNN Language ModelsNN
子どもの言語獲得のモデル化とNN Language ModelsNN 子どもの言語獲得のモデル化とNN Language ModelsNN
子どもの言語獲得のモデル化とNN Language ModelsNN Chiba Institute of Technology
 
[DL輪読会] Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields
[DL輪読会] Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields [DL輪読会] Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields
[DL輪読会] Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields Deep Learning JP
 
2021 10-07 kdd2021読み会 uc phrase
2021 10-07 kdd2021読み会 uc phrase2021 10-07 kdd2021読み会 uc phrase
2021 10-07 kdd2021読み会 uc phraseTatsuya Shirakawa
 
第18回コンピュータビジョン勉強会@関東「ICCV祭り」発表資料(kanejaki)
第18回コンピュータビジョン勉強会@関東「ICCV祭り」発表資料(kanejaki)第18回コンピュータビジョン勉強会@関東「ICCV祭り」発表資料(kanejaki)
第18回コンピュータビジョン勉強会@関東「ICCV祭り」発表資料(kanejaki)kanejaki
 
[DL輪読会]Learning convolutional neural networks for graphs
[DL輪読会]Learning convolutional neural networks for graphs[DL輪読会]Learning convolutional neural networks for graphs
[DL輪読会]Learning convolutional neural networks for graphsDeep Learning JP
 
Reinforced Cross-Modal Matching and Self-Supervised Imitation Learning for Vi...
Reinforced Cross-Modal Matching and Self-Supervised Imitation Learning for Vi...Reinforced Cross-Modal Matching and Self-Supervised Imitation Learning for Vi...
Reinforced Cross-Modal Matching and Self-Supervised Imitation Learning for Vi...Yoshitaka Ushiku
 
論文紹介:Beyond Short Clips: End-to-End Video-Level Learning With Collaborative M...
論文紹介:Beyond Short Clips: End-to-End Video-Level Learning With Collaborative M...論文紹介:Beyond Short Clips: End-to-End Video-Level Learning With Collaborative M...
論文紹介:Beyond Short Clips: End-to-End Video-Level Learning With Collaborative M...Toru Tamaki
 

Similaire à CVPR2017 参加報告 速報版 本会議 4日目 (20)

Eccv2018 report day3
Eccv2018 report day3Eccv2018 report day3
Eccv2018 report day3
 
2018 07 02_dense_pose
2018 07 02_dense_pose2018 07 02_dense_pose
2018 07 02_dense_pose
 
Eccv2018 report day2
Eccv2018 report day2Eccv2018 report day2
Eccv2018 report day2
 
[DL輪読会]Dense Captioning分野のまとめ
[DL輪読会]Dense Captioning分野のまとめ[DL輪読会]Dense Captioning分野のまとめ
[DL輪読会]Dense Captioning分野のまとめ
 
CNNの可視化手法Grad-CAMの紹介~CNNさん、あなたはどこを見ているの?~ | OHS勉強会#6
CNNの可視化手法Grad-CAMの紹介~CNNさん、あなたはどこを見ているの?~ | OHS勉強会#6CNNの可視化手法Grad-CAMの紹介~CNNさん、あなたはどこを見ているの?~ | OHS勉強会#6
CNNの可視化手法Grad-CAMの紹介~CNNさん、あなたはどこを見ているの?~ | OHS勉強会#6
 
2019/5/24 Chainer familyで始める深層学習 ハンズオンの部
2019/5/24 Chainer familyで始める深層学習 ハンズオンの部2019/5/24 Chainer familyで始める深層学習 ハンズオンの部
2019/5/24 Chainer familyで始める深層学習 ハンズオンの部
 
CVPR2016 reading - 特徴量学習とクロスモーダル転移について
CVPR2016 reading - 特徴量学習とクロスモーダル転移についてCVPR2016 reading - 特徴量学習とクロスモーダル転移について
CVPR2016 reading - 特徴量学習とクロスモーダル転移について
 
Learning Spatial Common Sense with Geometry-Aware Recurrent Networks
Learning Spatial Common Sense with Geometry-Aware Recurrent NetworksLearning Spatial Common Sense with Geometry-Aware Recurrent Networks
Learning Spatial Common Sense with Geometry-Aware Recurrent Networks
 
モジュールの凝集度・結合度・インタフェース
モジュールの凝集度・結合度・インタフェースモジュールの凝集度・結合度・インタフェース
モジュールの凝集度・結合度・インタフェース
 
[cvpaper.challenge] 超解像メタサーベイ #meta-study-group勉強会
[cvpaper.challenge] 超解像メタサーベイ #meta-study-group勉強会[cvpaper.challenge] 超解像メタサーベイ #meta-study-group勉強会
[cvpaper.challenge] 超解像メタサーベイ #meta-study-group勉強会
 
Chainer meetup2016 03-19pub
Chainer meetup2016 03-19pubChainer meetup2016 03-19pub
Chainer meetup2016 03-19pub
 
[DL輪読会]NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
[DL輪読会]NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis[DL輪読会]NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
[DL輪読会]NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
 
子どもの言語獲得のモデル化とNN Language ModelsNN
子どもの言語獲得のモデル化とNN Language ModelsNN 子どもの言語獲得のモデル化とNN Language ModelsNN
子どもの言語獲得のモデル化とNN Language ModelsNN
 
Nuxtjs my friend
Nuxtjs my friendNuxtjs my friend
Nuxtjs my friend
 
[DL輪読会] Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields
[DL輪読会] Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields [DL輪読会] Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields
[DL輪読会] Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields
 
2021 10-07 kdd2021読み会 uc phrase
2021 10-07 kdd2021読み会 uc phrase2021 10-07 kdd2021読み会 uc phrase
2021 10-07 kdd2021読み会 uc phrase
 
第18回コンピュータビジョン勉強会@関東「ICCV祭り」発表資料(kanejaki)
第18回コンピュータビジョン勉強会@関東「ICCV祭り」発表資料(kanejaki)第18回コンピュータビジョン勉強会@関東「ICCV祭り」発表資料(kanejaki)
第18回コンピュータビジョン勉強会@関東「ICCV祭り」発表資料(kanejaki)
 
[DL輪読会]Learning convolutional neural networks for graphs
[DL輪読会]Learning convolutional neural networks for graphs[DL輪読会]Learning convolutional neural networks for graphs
[DL輪読会]Learning convolutional neural networks for graphs
 
Reinforced Cross-Modal Matching and Self-Supervised Imitation Learning for Vi...
Reinforced Cross-Modal Matching and Self-Supervised Imitation Learning for Vi...Reinforced Cross-Modal Matching and Self-Supervised Imitation Learning for Vi...
Reinforced Cross-Modal Matching and Self-Supervised Imitation Learning for Vi...
 
論文紹介:Beyond Short Clips: End-to-End Video-Level Learning With Collaborative M...
論文紹介:Beyond Short Clips: End-to-End Video-Level Learning With Collaborative M...論文紹介:Beyond Short Clips: End-to-End Video-Level Learning With Collaborative M...
論文紹介:Beyond Short Clips: End-to-End Video-Level Learning With Collaborative M...
 

Plus de Atsushi Hashimoto

人の行動をモデル化して予測する -調理作業支援を題材とした行動予測と情報提示-
人の行動をモデル化して予測する -調理作業支援を題材とした行動予測と情報提示- 人の行動をモデル化して予測する -調理作業支援を題材とした行動予測と情報提示-
人の行動をモデル化して予測する -調理作業支援を題材とした行動予測と情報提示- Atsushi Hashimoto
 
ECCV2018参加速報(一日目)
ECCV2018参加速報(一日目)ECCV2018参加速報(一日目)
ECCV2018参加速報(一日目)Atsushi Hashimoto
 
PRMU GC第二期 無形概念認識
PRMU GC第二期 無形概念認識PRMU GC第二期 無形概念認識
PRMU GC第二期 無形概念認識Atsushi Hashimoto
 
Kusk Object Dataset: Recording Access to Objects in Food Preparation
Kusk Object Dataset: Recording Access to Objects in Food PreparationKusk Object Dataset: Recording Access to Objects in Food Preparation
Kusk Object Dataset: Recording Access to Objects in Food PreparationAtsushi Hashimoto
 
人工知能研究振興財団研究助成に対する成果報告
人工知能研究振興財団研究助成に対する成果報告人工知能研究振興財団研究助成に対する成果報告
人工知能研究振興財団研究助成に対する成果報告Atsushi Hashimoto
 
春の情報処理祭り 2015 [リクルートx情報処理学会] CVIM 橋本
春の情報処理祭り 2015 [リクルートx情報処理学会] CVIM 橋本春の情報処理祭り 2015 [リクルートx情報処理学会] CVIM 橋本
春の情報処理祭り 2015 [リクルートx情報処理学会] CVIM 橋本Atsushi Hashimoto
 

Plus de Atsushi Hashimoto (8)

Ocha 20191204
Ocha 20191204Ocha 20191204
Ocha 20191204
 
人の行動をモデル化して予測する -調理作業支援を題材とした行動予測と情報提示-
人の行動をモデル化して予測する -調理作業支援を題材とした行動予測と情報提示- 人の行動をモデル化して予測する -調理作業支援を題材とした行動予測と情報提示-
人の行動をモデル化して予測する -調理作業支援を題材とした行動予測と情報提示-
 
Eccv2018 report day4
Eccv2018 report day4Eccv2018 report day4
Eccv2018 report day4
 
ECCV2018参加速報(一日目)
ECCV2018参加速報(一日目)ECCV2018参加速報(一日目)
ECCV2018参加速報(一日目)
 
PRMU GC第二期 無形概念認識
PRMU GC第二期 無形概念認識PRMU GC第二期 無形概念認識
PRMU GC第二期 無形概念認識
 
Kusk Object Dataset: Recording Access to Objects in Food Preparation
Kusk Object Dataset: Recording Access to Objects in Food PreparationKusk Object Dataset: Recording Access to Objects in Food Preparation
Kusk Object Dataset: Recording Access to Objects in Food Preparation
 
人工知能研究振興財団研究助成に対する成果報告
人工知能研究振興財団研究助成に対する成果報告人工知能研究振興財団研究助成に対する成果報告
人工知能研究振興財団研究助成に対する成果報告
 
春の情報処理祭り 2015 [リクルートx情報処理学会] CVIM 橋本
春の情報処理祭り 2015 [リクルートx情報処理学会] CVIM 橋本春の情報処理祭り 2015 [リクルートx情報処理学会] CVIM 橋本
春の情報処理祭り 2015 [リクルートx情報処理学会] CVIM 橋本
 

Dernier

TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案sugiuralab
 
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineerYuki Kikuchi
 
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfAWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfFumieNakayama
 
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)Hiroshi Tomioka
 
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)UEHARA, Tetsutaro
 
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfクラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfFumieNakayama
 
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...博三 太田
 
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?akihisamiyanaga1
 

Dernier (8)

TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
 
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
 
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfAWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
 
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
 
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
 
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfクラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
 
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
 
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
 

CVPR2017 参加報告 速報版 本会議 4日目

  • 2. このスライドについて 1. 本会議での発表の内容を 2. 印象に残ったものだけ 3. その時の印象と,あとでのreferenceをたどるために メモしたものです. 9/18(月・祝),関西CVPRML勉強会にて,解説を予定. → https://twitter.com/kansaicvprml 私の理解が深まるので,勘違いの指摘や質問,リンクの紹介,そ の他議論大歓迎.
  • 3. 四日目総評 • YOLO9000の陽キャっぷりがやばい. • 時系列データに対するself-supervised learningは来年辺り増えそうな 予感. • 未来を予測するようにモデルを学習 • 先々週に思いついたら,それが実現可能であることを今日, 結果とともに知り ました. • データセットと時間とめちゃんこリッチなGPGPU環境が無いと機械学 習系でTop Conferenceは無理,という印象(今更?). • 日本で太刀打ちできる研究室が何個あるだろうか…. • 今回のCVPRで何個も発表している大学がちらほら →大学のレベルだけでなく,設備の差が露骨にでている気がする…. • 全く予算もなく,データもない日本の大学では基礎研究すらできない分野にな りつつある(というか一部有力研究室を除いてほとんどの大学の研究室で不可 能になってる→企業の皆さん,大学の先生をこき使うチャンスですよ!)
  • 4. Geometric Deep Learning on Graphs and Manifolds Using Mixture Model CNNs, Federico Monti et al. • geometric data: networkなどのgraphのデータ: 地図情報や点群など. • グラフ構造の中でconvolutionをする→Graph Spectralを利用. • Graph Fourier空間でconvolution: 概念的にはFourier空間で掛け算す ればconvolutionになる. • →Graph上では,様々な”掛け算”が提案されている→手法によって 全然違う結果が得られている • Mixture Model CNN • おちた.グラフの構造だけでなく,点座標を取り入れた計算?? • FAUST datasetを操作.点群を自然に動かしている • グラフ信号処理,去年の夏に勉強したけど,まだ勉強し足りない.
  • 5. Fine-Grained Recognition as HSnet Search for Informative Image Parts, Michael Lam, Behrooz Mahasseni, Sinisa Todorovic • 凄くよく似た2クラス→違いがある部分(注目すべきパーツ)を見 つけたい. • part-based modelsはポテンシャルがある. • ただし,速度が遅い • 物体認識の問題では,部位情報は事前に与えられていない • 最初は重なりなくならんだ定数個の矩形(proposal)を.徐々に クラスを見分けるために重要なパートを見る位置に移動 • HSnetがproposalを変更 • HS: Heuristic functionとSuccessor function • 要するに,Weak supervised的な処理をする,ということ. • LSTMを入れた方が結果が良い ← ここはtry & errorぽい
  • 6. G2DeNet: Global Gaussian Distribution Embedding Network and Its Application to Visual Recognition, Qilong Wang, Peihua Li, Lei Zhang • 学習可能な層の種類を増やしたい. • Conv, Pooling, FCくらいしかないけど,いいの? • Gaussianいいよね. • global Gaussian embedding layerを提案. • Explicit formを入れよう! • GaussianをCholesky分解して得られる下三角行列を…?? • ちょっとよくわからなかった,すみません...
  • 7. YOLO9000: Better, Faster, Stronger, Joseph Redmon, Ali Farhadi • Better, Faster, Strongerの元ネタ? • https://www.youtube.com/watch?v=gAjR4_CbPpQ • ポスターがネタ.デスクトップ画像もterminalのカラーもネタ. • https://twitter.com/RanjayKrishna/status/890019079959879680 • https://twitter.com/MonaJalal_/status/890106242768785408 • デモは圧倒的クオリティ. • 発表スライドにベジータが現れる程度にネタ満載. • 発表内容は,トリックを増やしたというより,かなり愚直に, 地道に,精度改善に取り組んだ,ということのよう. • マルチスケールでの学習,入力画像の解像度の向上 • 9000カテゴリの階層構造をwordnetだけでなく,頑張って構築.
  • 8. Ubernet: Training a Universal Convolutional Neural Network for Low-, Mid-, and High-Level Vision Using Diverse Datasets and Limited Memory, Iasonas Kokkinos • いろんな画像処理を全部できるようなCNNを作ろう! • いろんな問題を解いているけど,同時に解けると良いよね • normal estimation saliency boundary detection, semantic segmentation, object parts, • 全部の正解が付いたデータセットはない→各種データセットを継ぎ接ぎで使 う. • メモリには限界があるので,別々のネットワークを最終層だけ繋ぐ, とかは無理. • いろんなデータセットのサンプルをrandomな順番(?)でどんどん学 習! • でもバッチサイズ10 imageだけだとgradientがほとんど取れない. • 20 imageだと? (メモ取ってて聴き逃した) • タスクが多すぎてVGGでは足りない(写真)←本当か? • 抽象度の違うタスクが混ざりすぎているのではないか,と私は思う.
  • 9. Object Region Mining With Adversarial Erasing: A Simple Classification to Semantic Segmentation Approach, Yunchao Wei • 画素単位のアノテーションの作成は大変→Weakly-supervised 大事! • SOTA: Top-down Attention Approaches(従来手法) • 画像認識に寄与した画素のヒートマップをseedに領域抽出 • 問題点: 認識に寄与する特定の要素しか反応しない→領域全体を綺麗に取れない. • Adversarial Erasing: ヒートマップが高い部分から領域を特定→そこにマス クをして,再度認識処理をして新たなヒートマップを計算,繰り返し. • 画像には複数のタグ→タグ付けされた物体毎に,これをやる. • いっている通りにやっても上手く動かないような気がする(マスクが Artifactにならないように,どう処理しているのか謎) • 途中のpooling layerの出力を0にするとかかな. • 従来よりは高い精度を達成 (精度55%くらい)
  • 10. Hidden Layers in Perceptual Learning Gad Cohen, Daphna Weinshall • 転移学習時のネットワークの振る舞いに関する解析の論文 • 網膜くらいの原始的なフィルタを作るような信号で学習,別の フィルタになるように転移学習? • この辺りの動機などを全然理解していないので,ちょっとこの文献は 理解できていません….
  • 11. Full Resolution Image Compression With Recurrent Neural Networks, George Toderici et al. • 画像圧縮をRNNでやる→なんでこれをCVPRに出したの?→DNN使ってて, 査読プロセスに合いそうだったから. (逆に元のコミュニティでは通らな い??) • Neural Image Compression Wishlist • outperform, single model, progressive(画像を部分毎に圧縮可能) • One Shot Reconstruction: オリジナル画像をCov-RNNに入れて二値化. • 復元したものと元画像のresidualを計算→resnet様に何回も繰り返す. • Additive Reconstruction; 前の結果に対して,残差に基づいて修正パッチ みたいなものを学習するようにネットワークを作成. • # これで本当に良くなるのか??? • さらに,出力に対してentropy lossを入れる? • Kodak Dataset • Arithmetic CodingやResidual GRU (One Shot) Entropy Codingが精度向上に寄与 • 精度をかなり改善することができた.
  • 12. Neural Face Editing With Intrinsic Image Disentangling, Zhixin Shu et al. • 入力画像からshadeとnormalsをalbedoをCNNで推定 →これらに関する演算が可能に. • 表情とか様々なコントロールパラメタで顔を編集可能にする by Adversarial loss • 本当に,googleがGANでお絵描きしているのをみてもピンと来なかっ た自分が恥ずかしい. • 結果,確かに表情などが操作できていて凄い. • 凄い…が,しかし,目元の印象が大分変わってしまって,別人になっ ているんですが,それは…w.
  • 13. Generalized Deep Image to Image Regression, Venkataraman Santhanam, Vlad I. Morariu, Larry S. Davis • RGB→Depth,モノクロ→カラーみたいな回帰 浅い層で解像度が半分になった画像に対して conv→pooling→upsamplingを繰り返して,多重解像度でやる と精度が上がる,ということ? • それぞれ画像サイズが半分以下になるので,合計でもパラメタ は2倍程度
  • 14. Deep Hashing Network for Unsupervised Domain Adaptation, Hemanth Venkateswara • 教師なし転移学習 • k-NNで何処のハッシュに入るかを判定すると精度が◯ • hamming距離を使ってハッシングすると良い • ↑なんでかわからなかった • Hashingに AlexNetを使った(何故?) • source domainで正解付きで学習 → target のところはentropyベースのlossファンクション (cross entropy lossのこと??でもunsupervisedだから違う?)で 学習. • Office-Home Dataset 実写とイラストで手法を評価.
  • 15. Gaze Embeddings for Zero-Shot Image Classification, Nour Karessli et al. • gazeはnovice users + implicitに取得 (implicitってどういうこと?) • Gaze Collectionを集めたのが一つのcontribution. • データセットがコントリビューションになるのか…. • gaze feature: xy, duration, sequence, pupil diameter • ネットワークの設計について • gaze featureをさっさとfusionするか,処理後にfusionするか,などを 評価. • 色々,調べました…か.
  • 16. Not All Pixels Are Equal: Difficulty-Aware Semantic Segmentation via Deep Layer Cascade, Xiaoxiao Li, Ziwei Liu, Ping Luo, Chen Change Loy, Xiaoou Tang • ネットワークがdeepすぎる&Feature Mapが高解像度すぎる. → パフォーマンス下げずに早くしたい. • セグメンテーションが簡単にできる部分と,中間と,難しい部 分がある • 最初に浅い層で簡単な部分の画素ラベル付けをし,次の層で中間レベ ルの難しさの部分を処理して,最後に細かい物体や境界付近だけを相 手にした処理をする. • Region ConvolutionまでReal-timeを達成.
  • 17. Residual Attention Network for Image Classification, Fei Wang et al. • Attention を予測するのに特化したネットワークモデルを作っ た. • それ以上の理解ができていないです…. • CNNの研究は,本当に説明がついていないものが多い気がする…. • 4分のshort oralならこんなもの?
  • 18. Learning Non-Maximum Suppression, Jan Hosang, Rodrigo Benenson, Bernt Schiele • maximum suppressionがhand craftedだよね.これをなくそ う! • Matching lossを取り入れる.一つだけマッチする,という仮 定をおく. • 重なっている矩形のIoUや矩形内物体の同一性なども考慮 • 正直,ちょっと細かくどういう要素を考慮したのかは議論から落ちた. • 上記のように同一物体に起因する矩形の重複に対するloss functionを設定 • Maximum Suppressionをせずに最初からばっちり矩形をだすような学 習を行った→Non-Maximum Suppression
  • 19. The Amazing Mysteries of the Gutter: Drawing Inferences Between Panels in Comic Book Narratives, Mohit Iyyer, et al. • コミック工学! • アメコミ風スライドは読みにくいからマジ勘弁してください. • The Comics Dataset • セリフの自動生成 • 前のコマの状態をLSTMにいれてやる. • テキストや画像の文脈,キャラクターの口調の同一性を全部総合的に 組み合わせる必要 • 会場が広すぎて,「A,B,Cどのセリフが正しいでしょう?」という質問 に誰も答えず,空振り.発表者テンション高すぎ. • 前フリ長過ぎる.問題の難しさやおもしろさを語って,これを なんとかするからポスターに来い!という感じに終わった. • ニッチな研究のshort oralとしては正しい戦略…か?
  • 20. Deep Learning With Low Precision by Half- Wave Gaussian Quantization Zhaowei Cai, Xiaodong He, Jian Sun, Nuno Vasconcelos • Half-wave Gaussian Quantization: ReLUじゃなくて2段階のス テップ関数様のカーネルを使いたい • なぜよくなるの?low precisionだから?? • やっぱり駄目らしい? スライドの構成がややこしい…. • Long tailed Reluを作った←これがコントリビューション?? • インド英語?みたいなかなり早口の訛った英語,つらい.
  • 21. Creativity: Generating Diverse Questions Using Variational Autoencoders, Unnat Jain, Ziyu Zhang, Alexander G. Schwing Program • 従来→画像からrepresentationを抽出→Questionのマップを作 成する→一番それっぽいQuestionを質問する. • P(x|z)をRNNを使って作成.LSTMを使う. • ちょっと全体的に,よくわからなかった. • 集中して聞けてない...最終日かつshort oral 8本目とはいえ….
  • 22. Are You Smarter Than a Sixth Grader? Textbook Question Answering for Multimodal Machine Comprehension, Aniruddha Kembhavi et al. • 東大プロジェクトのような話. • データセットとベンチマーク • 技術的には自然言語処理のタスクが多そう. • テキスト-画像間の関係と共に,知識を教科書から自動で学習 し,テストを回答する. • 東大プロジェクトの報告と同じような難しさを指摘. • 最近の深層学習ベースのマルチメディア処理で,これから進展しそう, と感じた. • こんかい,ワークショップも行われている.
  • 23. Hallucinating Very Low-Resolution Unaligned and Noisy Face Images by Transformative Discriminative Autoencoders, Xin Yu, Fatih Porikli • 低解像度の顔画像からの高解像度顔復元(Hallucination) • 特に低解像度画像に激しいノイズがのっている(夜間の監視カ メラとか??)状況を想定. • 一旦,ノイズ除去のために decode ->高解像度→ encode→元 の解像度だけどノイズが減っている画像,という前処理を入れ てから,もう一度decodeして高解像度化すると精度があがる. • なぜ?
  • 24. Adversarially Tuned Scene Generation, VSR Veeravasarapu, Constantin Rothkopf, Ramesh Visvanathan • GANでの生成に,simulationのコントロールパラメタが欲しい • simulatedが処理の中に入っていれば,コントロールできるはず,とい うこと? • GANをそういう風に使う手法がおなじ会議で提案されすぎてて新規性 に聞こえない…. • 道路の交通シーンを生成する,など.
  • 25. ポスター: 良く見て聴いてきたリスト (面白いと思ったもののみ掲載) • 希望があれば関西CVPRML勉強会で解説. • Unsupervised Learning of Long-Term Motion Dynamics for Videos, Zelun Luo, Boya Peng, De-An Huang, Alexandre Alahi, Li Fei-Fei • 数フレーム先の運動状態を予測するようなタスクを,bottle neckありのネットワークに読み込ませる. • bottle neck部分の出力=動作特徴!→fine-tuningしてドメイン適応! • これこそ,先々週のICMEの会期中に私が思いついたものだ!!! • 2日目くらいにあったドイツの研究グループのself-supervised action learningは別のやり方だったからし めしめと思っていたのに…. • 子供の頃に周囲のブームが去ってから買ったマリオカートの失敗から成長してない (- -; • 研究者はマジで嗅覚を働かせて,ブームを先読みして早いもの勝ちの競争を駆け抜けねばならないのか? →それ,ビジネスじゃない?(泣) • 3次元(RGB-Dで3Dモーションを予測)でやっていたので2Dでもできる?と聞いたら,ネットワークの最 適化と入力をOptical Flowとかに変えれば行けると思う,という回答.よし,それやろう. • ちょっと体調不良で余り回れませんでした.
  • 26. 続き • 希望があれば関西CVPRML勉強会で解説 • 良く見て聴いてきたリスト(面白いと思ったもののみ掲載) • Online Graph Completion: Multivariate Signal Recovery in Computer Vision, Won Hwa Kim, Mona Jalal, Seongjae Hwang, Sterling C. Johnson, Vikas Singh • グラフ信号処理を利用しているように思える. • 点群の欠損を上手く保管しているみたい. • やはり,グラフ信号処理の勉強が足りない…. • A Message Passing Algorithm for the Minimum Cost Multicut Problem, Paul Swoboda, Bjoern Andres • 普通のgraph cutはグラフを2つにしか分けられない.multicut(3つ以上に分ける)はNP-hard • 近似非(lower bound)などの詳細がポスターにはなかったが,linearで動くらしい. • Depth from Defocus in the Wild, Huixuan Tang, Scott Cohen, Brian Price, Stephen Schiller, Kiriakos N. Kutulakos • 手法の詳細は不明だが,CNN使ってない!?しかし,かなり出来ていそうだった.スマホ画像に対して動作さ せていた模様.一見すると,そこまでdefocusが目立つようには見えない画像.