7. Best Paper Awards (x2)
• “Densely Connected Convolutional Networks”
Gao Huang et al.
• https://arxiv.org/abs/1608.06993
• https://github.com/liuzhuang13/DenseNet
• https://github.com/titu1994/DenseNet
• “Learning from Simulated and Unsupervised Images through
Adversarial Training”
Ashish Shrivastaba et al.
• https://arxiv.org/abs/1612.07828
• https://github.com/carpedm20/simulated-unsupervised-tensorflow
8. Best Honorable mention award (x2)
• “Annotating Object Instances with a Polygon-RNN”
Lius Castrejon et al.
• https://arxiv.org/abs/1704.05548
• “Yolo9000: Better, Faster, Stronger”
Joseph Redmon & Ali Farhadi
• https://arxiv.org/abs/1612.08242
• https://github.com/philipperemy/yolo-9000
• https://github.com/allanzelener/YAD2K
9. Best Student Paper Award
• “Computational Imaging on the Electric Grid”
Mark Sheinin et al.
• http://webee.technion.ac.il/~yoav/publications/ACam_CVPR.pdf
10. Longuet-Higgins Prize (test of time award)
• Object Retrieval with Large Vocabularies and Fast Spatial
Matching, J Philbin et al., CVPR2007
• http://vc.cs.nthu.edu.tw/home/paper/codfiles/hywang/2008010815
43/Object_retrieval_with_large_vocabularies_and_fast_spatial.ppt
• http://ieeexplore.ieee.org/document/4270197/
11. PointNet: Deep Learning on Point Sets for 3D
Classification and Segmentation
(Oral)
• R. Qi Charles, Hao Su, Mo Kaichun, Leonidas J. Guibas
• Supplemental Material
• code: https://github.com/charlesq34/pointnet
• 3次元データの表現形式として,他の形式への変換が用意なポ
イントクラウドをCNNに入れて深層学習の恩恵を3次元データ
いも取り入れる
• 技術的課題: 点群は画像のようにxyのような構造(並び)がない
• アイディア: ちょっと読みきれなかった.後で読む価値大.
13. Photo-Realistic Single Image Super-Resolution
Using a Generative Adversarial Network
• Christian Ledig, Lucas Theis, Ferenc Huszár, Jose Caballero,
Andrew Cunningham, Alejandro Acosta, Andrew Aitken,
Alykhan Tejani, Johannes Totz, Zehan Wang, Wenzhe Shi
• ResNetベースの超解像に対して,GANで,それを騙すような
入力を作成して学習を強化した手法,と理解.
• GANで学習サンプル水増し系が,今回のCVPRで何個か見かけた.
• 4x4倍の解像度の画像がかなり綺麗.
• 人間にかろうじて読める程度のナンバープレートも綺麗に復元
絶対認識要素入っている感じ満載.
• ここまで来たか,という感じ.
14. Deep Reinforcement Learning-Based
Image Captioning With Embedding Reward
• Zhou Ren, Xiaoyu Wang, Ning Zhang, Xutao Lv, Li-Jia Li
• RNNでの文生成プロセスはビームサーチ的.
• 数個先までの文生成を時系列と考えて報酬ベースの強化学習の
枠組みをいれたら良いのでは?
15. From Red Wine to Red Tomato:
Composition With Context
• Ishan Misra, Abhinav Gupta, Martial Hebert
• 形容詞の学習と認識
• 精度はmAPが6%弱.まだまだ改善の余地あり.
• 私がPRMUグランドチャレンジで予想したネタがもう出てき始
めた(というか下記の発表をしていた頃に投稿されてた).
• https://www.slideshare.net/atsushihasimoto/prmu-gc
• 名詞と形容詞を独立に識別するCNNと,セットになったアノ
テーションに対して学習したCNNの積が一致するように学習→
名詞・形容詞認識器が独立に,かつ,組合せが出力となるよう
に学習される→未知の名詞・形容詞の組合せが認識できる可能
性??
16. Weakly Supervised Action Learning With
RNN Based Fine-To-Coarse Modeling,
• Alexander Richard, Hilde Kuehne, Juergen Gall
• 複数のアクションが入っているVideo Clipに,自然言語のキャ
プションがアノテーションされている入力を仮定.
• 文の記述順とビデオ内の動作の順序は同一であることが前提.
• 自動的にアクションの区切り(場合によってはbackground
actionクラス)を推定しつつ,動作認識を学習.
• 編集済みの映像を前提としているので監視カメラとかでは辛い
とのこと.
17. Captioning Images With Diverse Objects,
• Subhashini Venugopalan, Lisa Anne Hendricks, Marcus
Rohrbach, Raymond Mooney, Trevor Darrell, Kate Saenko
• Video Captioningのデータセットは語彙が少ないので,Image
Captioning用のデータセットの恩恵を受けましょう.
• このために色々苦労してモデルを作っている感じ.
• 下記のposter発表とネタが被っていた??
• “Video Captioning with Transferred Semantic Attributes”, Yingwei Pn et al.
18. Self-Critical Sequence Training for Image
Captioning,
• Steven J. Rennie, Etienne Marcheret, Youssef Mroueh, Jerret
Ross, Vaibhava Goel
• ちょっと集中力切れてしまった.
• こういう人間でも説明が難しい画像へのキャプショニングが少
しはできるようになる,らしい.
https://www.kenya-getaways.com/6-day-fossil-
hunting/
21. Unsupervised Visual-Linguistic Reference
Resolution in Instructional Videos,
• De-An Huang, Joseph J. Lim, Li Fei- Fei, Juan Carlos Niebles
• 言語処理側で,教師なしで作業のワークフロー(tree)を抽出す
る手法に対して,映像側でも類似のワークフロー(tree)を出し
て,グラフのズレなどに対してEMアルゴリズムで最適化.
• やろうとしていたことを(unsupervisedで)先にやられて過呼吸
になりそう.でも精度は50%くらいなのでかなり低い?
22. Temporal Convolutional Networks for
Action Segmentation and Detection,
• Colin Lea, Michael D. Flynn, René Vidal, Austin Reiter,
Gregory D. Hager
• 全フレームの特徴量を抽出後に,それを入力としてAuto
Encoder的に動作認識をする.かなり力技な印象.
• それでもLSTMより良い精度がでる←オフライン処理だから??
24. Visual Dialog
• Abhishek Das, Satwik Kottur, Khushi Gupta, Avi Singh,
Deshraj Yadav, José M. F. Moura, Devi Parikh, Dhruv Batra
• 画像についての対話を元に,画像についての自然言語での質問
に対して応答ができるようにしたもの.
25. Fully-Adaptive Feature Sharing in Multi-Task
Networks With Applications in Person Attribute
Classification
• Yongxi Lu, Abhishek Kumar, Shuangfei Zhai, Yu Cheng, Tara
Javidi, Rogerio Feris
• https://github.com/samim23/GitXiv/issues/55
• Multi-task CNNを作成する際に,どの層を連結させたら良いの
か?という問題に対するアプローチ.
• 昔の特徴量選択と一緒で,全通り試すと組合せ爆発.
• 学習の結果,特徴が似ているものをまとめていくと精度が高
い?ということを経験的に発見した模様.
26. CLEVR: A Diagnostic Dataset for
Compositional Language and Elementary
Visual Reasoning
• Justin Johnson, Bharath Hariharan, Laurens van der Maaten,
Li Fei-Fei, C. Lawrence Zitnick, Ross Girshick
• 色や形,場所(Elementary Visual Reason)で,環境中の物体を
指示するための文を生成するための合成データセットを作成.
• 左にある金属球,赤い立方体,みたいなの.