CVPR2017 参加報告速報版本会議 4日目

CVPR2017参加報告
(速報版・四日目）
2017.7.25(現地時間)
@a_hasimoto

このスライドについて
1. 本会議での発表の内容を
2. 印象に残ったものだけ
3. その時の印象と，あとでのreferenceをたどるために
メモしたものです．
9/18(月・祝)，関西CVPRML勉強会にて，解説を予定．
→ https://twitter.com/kansaicvprml
私の理解が深まるので，勘違いの指摘や質問，リンクの紹介，そ
の他議論大歓迎．

四日目総評
• YOLO9000の陽キャっぷりがやばい．
• 時系列データに対するself-supervised learningは来年辺り増えそうな
予感．
• 未来を予測するようにモデルを学習
• 先々週に思いついたら，それが実現可能であることを今日，結果とともに知り
ました．
• データセットと時間とめちゃんこリッチなGPGPU環境が無いと機械学
習系でTop Conferenceは無理，という印象（今更?）．
• 日本で太刀打ちできる研究室が何個あるだろうか…．
• 今回のCVPRで何個も発表している大学がちらほら
→大学のレベルだけでなく，設備の差が露骨にでている気がする…．
• 全く予算もなく，データもない日本の大学では基礎研究すらできない分野にな
りつつある（というか一部有力研究室を除いてほとんどの大学の研究室で不可
能になってる→企業の皆さん，大学の先生をこき使うチャンスですよ！）

Geometric Deep Learning on Graphs and
Manifolds Using Mixture Model CNNs,
Federico Monti et al.
• geometric data: networkなどのgraphのデータ: 地図情報や点群など．
• グラフ構造の中でconvolutionをする→Graph Spectralを利用．
• Graph Fourier空間でconvolution: 概念的にはFourier空間で掛け算す
ればconvolutionになる．
• →Graph上では，様々な”掛け算”が提案されている→手法によって
全然違う結果が得られている
• Mixture Model CNN
• おちた．グラフの構造だけでなく，点座標を取り入れた計算??
• FAUST datasetを操作．点群を自然に動かしている
• グラフ信号処理，去年の夏に勉強したけど，まだ勉強し足りない．

Fine-Grained Recognition as HSnet Search for
Informative Image Parts,
Michael Lam, Behrooz Mahasseni, Sinisa Todorovic
• 凄くよく似た2クラス→違いがある部分(注目すべきパーツ)を見
つけたい．
• part-based modelsはポテンシャルがある．
• ただし，速度が遅い
• 物体認識の問題では，部位情報は事前に与えられていない
• 最初は重なりなくならんだ定数個の矩形(proposal)を．徐々に
クラスを見分けるために重要なパートを見る位置に移動
• HSnetがproposalを変更
• HS: Heuristic functionとSuccessor function
• 要するに，Weak supervised的な処理をする，ということ．
• LSTMを入れた方が結果が良い ← ここはtry & errorぽい

G2DeNet: Global Gaussian Distribution
Embedding Network and Its Application to
Visual Recognition, Qilong Wang, Peihua Li, Lei Zhang
• 学習可能な層の種類を増やしたい．
• Conv, Pooling, FCくらいしかないけど，いいの？
• Gaussianいいよね．
• global Gaussian embedding layerを提案．
• Explicit formを入れよう!
• GaussianをCholesky分解して得られる下三角行列を…??
• ちょっとよくわからなかった，すみません...

YOLO9000: Better, Faster, Stronger,
Joseph Redmon, Ali Farhadi
• Better, Faster, Strongerの元ネタ?
• https://www.youtube.com/watch?v=gAjR4_CbPpQ
• ポスターがネタ．デスクトップ画像もterminalのカラーもネタ．
• https://twitter.com/RanjayKrishna/status/890019079959879680
• https://twitter.com/MonaJalal_/status/890106242768785408
• デモは圧倒的クオリティ．
• 発表スライドにベジータが現れる程度にネタ満載．
• 発表内容は，トリックを増やしたというより，かなり愚直に，
地道に，精度改善に取り組んだ，ということのよう．
• マルチスケールでの学習，入力画像の解像度の向上
• 9000カテゴリの階層構造をwordnetだけでなく，頑張って構築．

Ubernet: Training a Universal Convolutional
Neural Network for Low-, Mid-, and High-Level
Vision Using Diverse Datasets and Limited
Memory, Iasonas Kokkinos
• いろんな画像処理を全部できるようなCNNを作ろう！
• いろんな問題を解いているけど，同時に解けると良いよね
• normal estimation saliency boundary detection, semantic segmentation,
object parts,
• 全部の正解が付いたデータセットはない→各種データセットを継ぎ接ぎで使
う．
• メモリには限界があるので，別々のネットワークを最終層だけ繋ぐ，
とかは無理．
• いろんなデータセットのサンプルをrandomな順番(?)でどんどん学
習！
• でもバッチサイズ10 imageだけだとgradientがほとんど取れない．
• 20 imageだと? （メモ取ってて聴き逃した）
• タスクが多すぎてVGGでは足りない（写真）←本当か？
• 抽象度の違うタスクが混ざりすぎているのではないか，と私は思う．

Object Region Mining With Adversarial Erasing:
A Simple Classification to Semantic Segmentation
Approach, Yunchao Wei
• 画素単位のアノテーションの作成は大変→Weakly-supervised 大事！
• SOTA: Top-down Attention Approaches(従来手法）
• 画像認識に寄与した画素のヒートマップをseedに領域抽出
• 問題点: 認識に寄与する特定の要素しか反応しない→領域全体を綺麗に取れない．
• Adversarial Erasing: ヒートマップが高い部分から領域を特定→そこにマス
クをして，再度認識処理をして新たなヒートマップを計算，繰り返し．
• 画像には複数のタグ→タグ付けされた物体毎に，これをやる．
• いっている通りにやっても上手く動かないような気がする（マスクが
Artifactにならないように，どう処理しているのか謎）
• 途中のpooling layerの出力を0にするとかかな．
• 従来よりは高い精度を達成 (精度55%くらい)

Hidden Layers in Perceptual Learning
Gad Cohen, Daphna Weinshall
• 転移学習時のネットワークの振る舞いに関する解析の論文
• 網膜くらいの原始的なフィルタを作るような信号で学習，別の
フィルタになるように転移学習?
• この辺りの動機などを全然理解していないので，ちょっとこの文献は
理解できていません…．

Full Resolution Image Compression With
Recurrent Neural Networks, George Toderici et al.
• 画像圧縮をRNNでやる→なんでこれをCVPRに出したの？→DNN使ってて，
査読プロセスに合いそうだったから． (逆に元のコミュニティでは通らな
い??)
• Neural Image Compression Wishlist
• outperform, single model, progressive(画像を部分毎に圧縮可能）
• One Shot Reconstruction: オリジナル画像をCov-RNNに入れて二値化．
• 復元したものと元画像のresidualを計算→resnet様に何回も繰り返す．
• Additive Reconstruction; 前の結果に対して，残差に基づいて修正パッチ
みたいなものを学習するようにネットワークを作成．
• # これで本当に良くなるのか???
• さらに，出力に対してentropy lossを入れる？
• Kodak Dataset
• Arithmetic CodingやResidual GRU (One Shot) Entropy Codingが精度向上に寄与
• 精度をかなり改善することができた．

Neural Face Editing With Intrinsic Image
Disentangling, Zhixin Shu et al.
• 入力画像からshadeとnormalsをalbedoをCNNで推定
→これらに関する演算が可能に．
• 表情とか様々なコントロールパラメタで顔を編集可能にする by
Adversarial loss
• 本当に，googleがGANでお絵描きしているのをみてもピンと来なかっ
た自分が恥ずかしい．
• 結果，確かに表情などが操作できていて凄い．
• 凄い…が，しかし，目元の印象が大分変わってしまって，別人になっ
ているんですが，それは…w．

Generalized Deep Image to Image Regression,
Venkataraman Santhanam, Vlad I. Morariu, Larry S. Davis
• RGB→Depth,モノクロ→カラーみたいな回帰
浅い層で解像度が半分になった画像に対して
conv→pooling→upsamplingを繰り返して，多重解像度でやる
と精度が上がる，ということ？
• それぞれ画像サイズが半分以下になるので，合計でもパラメタ
は2倍程度

Deep Hashing Network for Unsupervised
Domain Adaptation, Hemanth Venkateswara
• 教師なし転移学習
• k-NNで何処のハッシュに入るかを判定すると精度が◯
• hamming距離を使ってハッシングすると良い
• ↑なんでかわからなかった
• Hashingに AlexNetを使った（何故？）
• source domainで正解付きで学習
→ target のところはentropyベースのlossファンクション
(cross entropy lossのこと??でもunsupervisedだから違う?)で
学習．
• Office-Home Dataset 実写とイラストで手法を評価．

Gaze Embeddings for Zero-Shot Image
Classification, Nour Karessli et al.
• gazeはnovice users + implicitに取得
(implicitってどういうこと？)
• Gaze Collectionを集めたのが一つのcontribution.
• データセットがコントリビューションになるのか…．
• gaze feature: xy, duration, sequence, pupil diameter
• ネットワークの設計について
• gaze featureをさっさとfusionするか，処理後にfusionするか，などを
評価．
• 色々，調べました…か．

Not All Pixels Are Equal: Difficulty-Aware
Semantic Segmentation via Deep Layer
Cascade, Xiaoxiao Li, Ziwei Liu, Ping Luo, Chen Change Loy, Xiaoou Tang
• ネットワークがdeepすぎる&Feature Mapが高解像度すぎる．
→ パフォーマンス下げずに早くしたい．
• セグメンテーションが簡単にできる部分と，中間と，難しい部
分がある
• 最初に浅い層で簡単な部分の画素ラベル付けをし，次の層で中間レベ
ルの難しさの部分を処理して，最後に細かい物体や境界付近だけを相
手にした処理をする．
• Region ConvolutionまでReal-timeを達成．

Residual Attention Network for Image
Classification, Fei Wang et al.
• Attention を予測するのに特化したネットワークモデルを作っ
た．
• それ以上の理解ができていないです…．
• CNNの研究は，本当に説明がついていないものが多い気がする…．
• 4分のshort oralならこんなもの？

Learning Non-Maximum Suppression,
Jan Hosang, Rodrigo Benenson, Bernt Schiele
• maximum suppressionがhand craftedだよね．これをなくそ
う！
• Matching lossを取り入れる．一つだけマッチする，という仮
定をおく．
• 重なっている矩形のIoUや矩形内物体の同一性なども考慮
• 正直，ちょっと細かくどういう要素を考慮したのかは議論から落ちた．
• 上記のように同一物体に起因する矩形の重複に対するloss
functionを設定
• Maximum Suppressionをせずに最初からばっちり矩形をだすような学
習を行った→Non-Maximum Suppression

The Amazing Mysteries of the Gutter: Drawing
Inferences Between Panels in Comic Book
Narratives, Mohit Iyyer, et al.
• コミック工学！
• アメコミ風スライドは読みにくいからマジ勘弁してください．
• The Comics Dataset
• セリフの自動生成
• 前のコマの状態をLSTMにいれてやる．
• テキストや画像の文脈，キャラクターの口調の同一性を全部総合的に
組み合わせる必要
• 会場が広すぎて，「A,B,Cどのセリフが正しいでしょう？」という質問
に誰も答えず，空振り．発表者テンション高すぎ．
• 前フリ長過ぎる．問題の難しさやおもしろさを語って，これを
なんとかするからポスターに来い！という感じに終わった．
• ニッチな研究のshort oralとしては正しい戦略…か？

Deep Learning With Low Precision by Half-
Wave Gaussian Quantization
Zhaowei Cai, Xiaodong He, Jian Sun, Nuno Vasconcelos
• Half-wave Gaussian Quantization: ReLUじゃなくて2段階のス
テップ関数様のカーネルを使いたい
• なぜよくなるの？low precisionだから??
• やっぱり駄目らしい? スライドの構成がややこしい…．
• Long tailed Reluを作った←これがコントリビューション??
• インド英語?みたいなかなり早口の訛った英語，つらい．

Creativity: Generating Diverse Questions Using
Variational Autoencoders,
Unnat Jain, Ziyu Zhang, Alexander G. Schwing Program
• 従来→画像からrepresentationを抽出→Questionのマップを作
成する→一番それっぽいQuestionを質問する．
• P(x|z)をRNNを使って作成．LSTMを使う．
• ちょっと全体的に，よくわからなかった．
• 集中して聞けてない...最終日かつshort oral 8本目とはいえ…．

Are You Smarter Than a Sixth Grader?
Textbook Question Answering for Multimodal
Machine Comprehension, Aniruddha Kembhavi et al.
• 東大プロジェクトのような話．
• データセットとベンチマーク
• 技術的には自然言語処理のタスクが多そう．
• テキスト-画像間の関係と共に，知識を教科書から自動で学習
し，テストを回答する．
• 東大プロジェクトの報告と同じような難しさを指摘．
• 最近の深層学習ベースのマルチメディア処理で，これから進展しそう，
と感じた．
• こんかい，ワークショップも行われている．

Hallucinating Very Low-Resolution Unaligned
and Noisy Face Images by Transformative
Discriminative Autoencoders, Xin Yu, Fatih Porikli
• 低解像度の顔画像からの高解像度顔復元（Hallucination）
• 特に低解像度画像に激しいノイズがのっている（夜間の監視カ
メラとか??）状況を想定．
• 一旦，ノイズ除去のために decode ->高解像度→ encode→元
の解像度だけどノイズが減っている画像，という前処理を入れ
てから，もう一度decodeして高解像度化すると精度があがる．
• なぜ？

Adversarially Tuned Scene Generation,
VSR Veeravasarapu, Constantin Rothkopf, Ramesh Visvanathan
• GANでの生成に，simulationのコントロールパラメタが欲しい
• simulatedが処理の中に入っていれば，コントロールできるはず，とい
うこと？
• GANをそういう風に使う手法がおなじ会議で提案されすぎてて新規性
に聞こえない…．
• 道路の交通シーンを生成する，など．

ポスター: 良く見て聴いてきたリスト
（面白いと思ったもののみ掲載）
• 希望があれば関西CVPRML勉強会で解説．
• Unsupervised Learning of Long-Term Motion Dynamics for Videos, Zelun Luo, Boya
Peng, De-An Huang, Alexandre Alahi, Li Fei-Fei
• 数フレーム先の運動状態を予測するようなタスクを，bottle neckありのネットワークに読み込ませる．
• bottle neck部分の出力=動作特徴！→fine-tuningしてドメイン適応！
• これこそ，先々週のICMEの会期中に私が思いついたものだ！！！
• 2日目くらいにあったドイツの研究グループのself-supervised action learningは別のやり方だったからし
めしめと思っていたのに…．
• 子供の頃に周囲のブームが去ってから買ったマリオカートの失敗から成長してない (- -;
• 研究者はマジで嗅覚を働かせて，ブームを先読みして早いもの勝ちの競争を駆け抜けねばならないのか？
→それ，ビジネスじゃない？（泣）
• 3次元(RGB-Dで3Dモーションを予測）でやっていたので2Dでもできる？と聞いたら，ネットワークの最
適化と入力をOptical Flowとかに変えれば行けると思う，という回答．よし，それやろう．
• ちょっと体調不良で余り回れませんでした．

続き
• 希望があれば関西CVPRML勉強会で解説
• 良く見て聴いてきたリスト（面白いと思ったもののみ掲載）
• Online Graph Completion: Multivariate Signal Recovery in Computer Vision, Won Hwa Kim,
Mona Jalal, Seongjae Hwang, Sterling C. Johnson, Vikas Singh
• グラフ信号処理を利用しているように思える．
• 点群の欠損を上手く保管しているみたい．
• やはり，グラフ信号処理の勉強が足りない…．
• A Message Passing Algorithm for the Minimum Cost Multicut Problem, Paul Swoboda,
Bjoern Andres
• 普通のgraph cutはグラフを2つにしか分けられない．multicut(3つ以上に分ける)はNP-hard
• 近似非(lower bound)などの詳細がポスターにはなかったが，linearで動くらしい．
• Depth from Defocus in the Wild, Huixuan Tang, Scott Cohen, Brian Price, Stephen Schiller,
Kiriakos N. Kutulakos
• 手法の詳細は不明だが，CNN使ってない！？しかし，かなり出来ていそうだった．スマホ画像に対して動作さ
せていた模様．一見すると，そこまでdefocusが目立つようには見えない画像．

CVPR2017 参加報告速報版本会議 4日目

Recommandé

Recommandé

Contenu connexe

Tendances

Tendances (20)

Similaire à CVPR2017 参加報告速報版本会議 4日目

Similaire à CVPR2017 参加報告速報版本会議 4日目 (20)

Plus de Atsushi Hashimoto

Plus de Atsushi Hashimoto (8)

Dernier

Dernier (8)