Eccv2018 report day4

ECCV2018参加速報
(4日目)
橋本敦史
京大美濃研⇢OMRON SINIC X Corp. (OSX)
2018.4より研究職に転職しました

使用上の注意
• これは個人的なメモ資料です．いわば「チラシの裏」です．こ
の資料をみて，なんじゃこりゃ…と思われた方には大変申し訳
ありません．もっと素敵な資料はたくさんあると思いますので，
そっと閉じて，他をあたって頂ければ幸いです．
• この資料は「チラシの裏」ですが，下記はまんまチラシです．
• 弊社ではインターン生を年中募集しています．東京から遠隔にお住ま
いの方でも長期休みを利用してフレキシブルにインターンしていただ
けます．東京にお住まいの方でも，週に数回など，授業・研究の合間
に働きながらスキルを身に着けていただけます．詳しくはこちら(怪
しいURLですが，弊社のスタートアップ感の迸りです)

実装が公開されているものまとめのリンク
• https://zhuanlan.zhihu.com/p/43489728
ついでに国際会議自分も行きたい！と思っ
た方へ(OSXの宣伝)．
• いっしょに研究するインターン生を募集してます！
• なんと！持ち込みのテーマも考慮します！
• 実際に持ち込みテーマで研究している人も早くも登場してます！
• 4月に出来たばかりですが，バリバリ研究してます！

Oral Session 4A
O-4A-
01
Group Normalization Yuxin Wu, Facebook; Kaiming He*,
Facebook Inc., USA
O-4A-
02
Deep Expander Networks: Efficient
Deep Networks from Graph Theory
Ameya Prabhu*, IIIT Hyderabad; Girish
Varma, IIIT Hyderabad; Anoop
Namboodiri, IIIT Hyderbad
O-4A-
03
Towards Realistic Predictors Pei Wang*, UC San Diego; Nuno
Vasconcelos, UC San Diego
O-4A-
04
Learning SO(3) Equivariant
Representations with Spherical CNNs
Carlos Esteves*, University of
Pennsylvania; Kostas Daniilidis,
University of Pennsylvania; Ameesh
Makadia, Google Research; Christine
Allec-Blanchette, University of
Pennsylvania

Group Normalization
• Honorable Mention Award (そこまでか？）
• Batch Normalizationは大事．でもBatch Sizeが小さいと使えない
• いくつかのチャンネルをGroupにして，sample毎にNormalization
すれば，Batch Sizeに非依存になっていい感じ．
• 実験的に，batch sizeの違いに対してRobustかつSOTAレベルの精
度を確認．
• batch sizeが確保できていなかった手法では精度向上など．
Oral

Deep Expander Networks: Efficient Deep
Networks from Graph Theory
• 枝刈りする論文．
• かなりのモデル圧縮に成功．
• 速度の比較は（実装の最適化ができていないため）行われていない．
Oral

Towards Realistic Predictors
• 人間は識別が難しい場合には，難しいといえる
• モデルもそうあるべき．
• クラス分類問題で，確信度をそのまま使う？⇢Unstable
• Hardnessを予測するbranchをつける
• 1次元のsigmoidを出力
• 正解は，正解ラベルクラスに対するmain branchの確信度
• Main branchでもharadnessで重み付けしたloss -> 難しいものは間違
えても良い
• Curriculum Learningとの関連に関する質問がでたが，そもそもやりたいことが
違う（入出力が違う）などとの回答．
Oral

Learning SO(3) Equivariant Representations
with Spherical CNNs
• 3D回転不変な特徴を得たい．
• 物体を囲む球面を用意して，そこに画素値を投影
• Spherical CNNsでembedding
• Spectralほげが出てきたけど，落ちた．
Oral

A New Large Scale Dynamic Texture Dataset
with Application to ConvNet Understanding
•
Poster

Learnable PINs: Cross-Modal Embeddings
for Person Identity
•
Poster

Deep Clustering for Unsupervised Learning
of Visual Features
•
Poster

Cross-Modal and Hierarchical Modeling of
Video and Text
•
Poster

Object Level Visual Reasoning in Videos
•
Poster

SkipNet: Learning Dynamic Routing in
Convolutional Networks
•
Poster

Deep Pictorial Gaze Estimation
•
Poster

Less is More: Picking Informative Frames
for Video Captioning
• 個人的なBest Paper，というかしてやられたと思った論文．
• LSTMに食わせるFrameを強化学習で選ぶ．
• 報酬1: Caption生成(メインタスク）
• 報酬2(ペナルティ):
• 動きや見えが類似するフレームを
選択することは避ける
• 沢山フレームを選択することは
避ける
•
Poster

Triplet Loss in Siamese Network for Object
Tracking
•
Poster

Single Image Intrinsic Decomposition
without a Single Intrinsic Image
•
Poster

BiSeNet: Bilateral Segmentation Network
for Real-time Semantic Segmentation
•
Poster

Oral Session 4B
O-4B-
01
CornerNet: Detecting Objects as Paired
Keypoints
Hei Law*, University of Michigan; Jia Deng,
University of Michigan
O-4B-
02
RelocNet: Continous Metric Learning
Relocalisation using Neural Nets
Vassileios Balntas*, University of Oxford;
Victor Prisacariu, University of Oxford; Shuda
Li, University of Oxford
O-4B-
03
The Contextual Loss for Image Transformation
with Non-Aligned Data
Roey Mechrez*, Technion; Itamar Talmi,
Technion; Lihi Zelnik-Manor, Technion
O-4B-
04
Acquisition of Localization Confidence for
Accurate Object Detection
Borui Jiang*, Peking University; Ruixuan Luo,
Peking University; Jiayuan Mao, Tsinghua
University; Tete Xiao, Peking University;
Yuning Jiang, Megvii(Face++) Inc
O-4B-
05
Deep Model-Based 6D Pose Refinement in
RGB
Fabian Manhardt*, TU Munich; Wadim Kehl,
Toyota Research Institute; Nassir Navab,
Technische Universität München, Germany;
Federico Tombari, Technical University of
Munich, Germany

CornerNet: Detecting Objects as Paired
Keypoints
• 物体検出の従来手法はAnchorBox作りまくりで無駄に重い．
• 矩形の左上の点と右下の点のMatching問題にしよう！
• Networkを2つのbranchに分ける．
• それぞれ矩形の左上/右下の点候補を複数出力
• 点候補には，それに対応する物体の特徴も付随．
• 物体の特徴に基づいて，Matchingが正しくできるように学習．
• 矩形の左上，右下は必ずしもCorner Pointではない
• 垂直方向，水平方向のPoolingを適応する．
• 2 stage object detectorのSOTAやMask-RCNNよりは精度高い
(segmentationじゃなくて矩形のIOU）
Oral

RelocNet: Continous Metric Learning
Relocalisation using Neural Nets
• SfMとかで3DMap作った後で，その空間を動き回っているカメ
ラがそのマップ中のどこにいるかを推定⇢Relocation
• これにNeural Networkを使ったよ．
• 空間中のシーン検索+カメラの位置ずれ推定問題を解けるようネット
ワークを設計，学習．
Oral

The Contextual Loss for Image
Transformation with Non-Aligned Data
• Euclid距離はSemanticを考慮しない画像類似度．
• Pixelの色で比較するのはやめよう．
• 2枚の画像の一方の特徴マップのgrid毎(?)，Semantic特徴(その
gridのchannelsを1次元特徴としたもの?)が最も似ている
grid(?)を選ぶ．
• 多対一の対応が出来うる．
• 画像が類似しているなら，一対一対応になるはず．
• (Gridやら特徴は手法に応じてreplace可能だからか名言してなかっ
た）
• 色々なタスクで精度向上．
Oral

Acquisition of Localization Confidence for
Accurate Object Detection
• Object Detectionの問題で，
• 「物体識別が確実にできる矩形」と「正解矩形に近い矩形」には差が
ある．
• Non-Max Suppressionとかにおいて，
• 物体識別の確信度と矩形が正解に近いことに対する確信度(Localization
Confidence)の２つの指標を出力するようにする．
• 最終出力は下記をいいところどりする．
• 矩形: 確信度が一番高いもの
• 物体ラベル: 識別の確信度が一番高いもの
• 実際には，矩形の探索の部分もiterativeにするように工夫してたかも
(でも，勘違いかも．うろ覚え)
Oral

Deep Model-Based 6D Pose Refinement in
RGB
• Deep LearningでRGB単独から6D pose Estimation
• これ系ばっかりOralになっている．ECCVの好み???
• 特徴
• RGB-Only, Ambiguity-Free (未知物体でもある程度動く）
• Precise
• もう一個あったが写真に写ってなかった(汗)
Oral

Oral 4C
O-4C-
01
DeepTAM: Deep Tracking and Mapping Huizhong Zhou*, University of Freiburg;
Benjamin Ummenhofer, University of Freiburg;
Thomas Brox, University of Freiburg
O-4C-
02
ContextVP: Fully Context-Aware Video
Prediction
Wonmin Byeon*, NVIDIA; Qin Wang, ETH
Zurich; Rupesh Kumar Srivastava,
NNAISENSE; Petros Koumoutsakos, ETH
Zurich
O-4C-
03
Saliency Benchmarking Made Easy:
Separating Models, Maps and Metrics
Matthias Kümmerer*, University of Tübingen;
Thomas Wallis, University of Tübingen;
Matthias Bethge, University of Tübingen
O-4C-
04
Museum Exhibit Identification Challenge for
the Supervised Domain Adaptation.
Piotr Koniusz*, Data61/CSIRO, ANU; Yusuf
Tas, Data61; Hongguang Zhang, Australian
National University; Mehrtash Harandi,
Monash University; Fatih Porikli, ANU; Rui
Zhang, University of Canberra
O-4C-
05
Multi-Attention Multi-Class Constraint for
Fine-grained Image Recognition
Ming Sun, baidu; Yuchen Yuan, Baidu Inc.;
Feng Zhou*, Baidu Research; Errui Ding, Baidu
Inc.

DeepTAM: Deep Tracking and Mapping
• 自己位置推定
• SfMをやるけど，単独のフレームでも歩いていど深度を推定できるよ
うにしたり，してた？ちょっとしっかり聞いていなかった．
• そろそろ3次元のいち推定系の話に興味が薄いのがバレているだろうな…．
Oral

ContextVP: Fully Context-Aware Video
Prediction
• https://wonmin-byeon.github.io/publication/2018-eccv
• ConvLSTMでの未来画像生成結果ってボケるよね
• 未来の不確実性
• LSTMの構造的な問題（Blind Spot Problemというのがあるらしい）
• 後者の問題に対応するため，KxKのカーネルに方向性をもたせ
る(次ページのポスター，左下辺り)
Oral

Saliency Benchmarking Made Easy:
Separating Models, Maps and Metrics
• なんだか，この人の英語，頭に入ってこない…．
• Saliency のデータセット，色々あるのに，正解に一貫性がない
(?)のか，どれでも動く手法っていうのが中々でないよね，とい
うことを色々主張していたような…
Oral

Museum Exhibit Identification Challenge for
the Supervised Domain Adaptation.
• Domain Adaptationの新しいデータセットを作った．
• Museum Exhibit Dataset(だっけ?)
• 展示物をIdentifyする問題のDataset
• TrainingできるDomainは博物館側で取ったきれいな画像（正面から
写っている，一つずつ小さいものもズームされている）
• Test Domainは来館者が取った画像．
• 正面じゃない
• Occlusion
• 小さい
• 座長が興味なさそうに質問してたのが印象的．
Oral

Multi-Attention Multi-Class Constraint for
Fine-grained Image Recognition
• Fin—grained Recognitionのために，Attention Mapを一緒に学
習したい．
• 入力はペアの画像．
• 正解ペアかどうか，をAttentionがかかった特徴の比較によって識別
• （単独のstreamで別途カテゴリ識別も学習?）
• Triplet Lossを使ったMetric Learning
• Attention, Category共に正解⇢近づける．
• Attention, Categoryの一方が不正解⇢どちらが不正解によらず一定の
距離を離す
• Negative-Negativeペア: むっちゃ離す
• Attentionの正解データがいるような気がする．データセット
作った？そこの部分が詳細不明．
Oral

Domain transfer through deep activation
matching
• Domain変換するときに，最終層の出力に対するAdv. Lossだけ
でなくて，各レイヤーの出力も合うように使用，という話っぽ
い．
• 蒸留と違うのか？
Poster

Visual Coreference Resolution in Visual
Dialog using Neural Module Networks
• 文章における参照（「それ」とか「The boat」が前の文章の何
に対応するか）を推定する．
• 同じ物体が違う呼ばれ方を言える．
• 竜頭の船
• Dragon Head Boat
• The boat
• it
• The dragon
• 問題設定ばかりみてて，
解き方みてなかった(汗
Poster

Look Before You Leap: Bridging Model-Free
and Model-Based Reinforcement Learning for
Planned-Ahead Vision-and-Language
Navigation
• 以前の関東CV勉強会で牛久先生がVision-and-Language
Navigationの論文を紹介していたのを思い出したので写真を
取っておきました．
Poster

Variational Wasserstein Clustering
• 数式を追うには4日目の最後のポスターセッションは糖分が足
りない…
Poster

Improving Spatiotemporal Self-Supervision
by Deep Reinforcement Learning
• 時系列のSelf-supervision: Sequence Sorting
• 空間方向のSelf-supervision: Zigsow
• どちらも並び替え．どう並べ替えたら学習効率が良い?
• 強化学習でAgentにやらせる．
• 報酬はValidation Setの精度向上!
Poster

Tschüssy, München!! Rückflug nach Japan.

Eccv2018 report day4

Recommandé

Recommandé

Contenu connexe

Similaire à Eccv2018 report day4

Similaire à Eccv2018 report day4 (16)

Plus de Atsushi Hashimoto

Plus de Atsushi Hashimoto (13)

Eccv2018 report day4