9. What Makes a Video a Video: Analyzing
Temporal Information in Video Understanding
Models and Datasets, De-An Huang, et. al.
• 虎の映像に対し「これ虎的にはplayful」と言われて会場で笑いが起
きる.
• 本当にtwo-stream modelはtemporal informationを含んでいるか?
• C3D trained on UCF101で,時間変化を捉えるEncoderへの入力に対し
て,
1. 同じフレームで埋め尽くす→精度がかなり下がるからやっぱりtemporalは何
かしら見てる
2. 最初のフレームから自動生成した動画を入れる→-10%くらいまではいく,
3. 良さげなフレームを選んで自動生成→-6%
4. OracleSelector(神のみぞ知る一番いいフレーム)で自動生成
→ 従来手法を上回る!!!
• 本当に動きはいるのだろうか?あるいは,活用できているのか?
Spotlight
10. Fast Video Object Segmentation by Reference-
Guided Mask Propagation, S. W. Oh, et. al.
• Linear 3DMM Revisited
• Video Object Segmentation
• 1frame目に与えられたSegmentationから分割を追跡
• online learningすると正確だけど遅い(?)
• Reference-Guided Detection
• 最初の画像の対象物体領域をMaskしてEncode, 現在のフレームとのtwo
stream
• 前のフレームのMaskを観測画像に足すと良い.
Spotlight
18. • What Have We Learned From Deep Representations for Action
Recognition? (論文既読)
• 学習されたCNNのある層のあるチャンネルが何に反応しているか,の
可視化 with Two-Streamモデル.
• 学習済みモデルのパラメタは固定して,目的の層がMaxに活性化して
いる状態を下記の手順で作成
1. 学習データで,実際どれくらい反応したのか,最大値を場所ごとに記録
2. 入力に白色ノイズを入れて,誤差逆伝播で最大値との誤差をなくすよう学習
• 入力の時空間的な連続性に制約を入れることで,解析対象の信号に対するHigh/Low-
pass filter的な制御を書けることができる.
• しかし,結構「曇りなき眼」で見ないと,結論の全てには同意できな
いw
• Face Aging With Identity-Preserved Conditional Generative
Adversarial Networks,
• 山程あったTwo-Streamに分ける系の一つ.
19. • Unsupervised Cross-Dataset Person Re-Identification by Transfer
Learning of Spatial-Temporal Patterns,
• 著者不在&文字情報過多につき,パス.
• 図もわかりにくい…
• Unsupervised Domain Adaptation With Similarity Learning
• 詳細忘却…思い出せない…
• Embeddingとか他のとは違う,もっとアドホックなやり方っぽかった.
22. Total Capture: A 3D Deformation Model for
Tracking Faces, Hands, and Bodies, H. Joo et. al.
• OpenPoseからガンガン来ているCMUのプロジェクトの続編
• The Goal: Face, Hand, Bodyを全部同時にmotion capture! > Total body
motion capture
• Face, body, handそれぞれ沢山研究がある→全て統合
• デモ映像,手と顔だけが詳細だから,ちょっと気持ち悪いw
• bodyと他の2つが解像度違うから,ちょっと工夫が必要.
• 生成したbodyの顔と手の位置に,生成した顔と手を合成.
• Foot Keypointもちょっと追加?
• 観測した点群をICPでfitting ←ECCV当りでこれを改善して刻んで来そう…
• 顔と手のつなぎ目は専用に別のlossを作成するなど.
• Frank model / Adam model / bone model
• 新しいOpenPoseのバージョンリリースを用意.
Oral, Best Student Paper
23. Augmented Skeleton Space Transfer for Depth-
Based Hand Pose Estimation, S. Baek et.al.
• Real Synthetic Data Collection
• 2.5D -> 3D projection →missing pixels, changing hand shape
• skelton spaceで類似したサンプルを探して埋める??
• CVPR2015のbest paper(Dynamic Fusion)とかがあれば,これいらないん
じゃ…という気もする.one-shotでできるからいいのかな.手法の使い
所がわからない.
• joint training of HPE/HPG/HPDx/HPDy で学習.
Oral
27. Unsupervised Learning and Segmentation of Complex
Activities From Video, Fadime Sener, Angela Yao
• コーヒーを入れるだけで6 activity.
• Given: Collection of videos, all of the same complex activity K
• 順番も変わるし,関係ないフレームもあるし,put stove/take
from stove// variational appearance/ skips
• めっちゃ難し.
• video segmentの順番を決めたい.
• appearanceの類似性でクラスタリング
• Mallows modelを使う.
• Datasets: Breakfast Actions / Inria Instructional Videos
Spotlight
34. TextureGAN: Controlling Deep Image Synthesis
With Texture Patches, Wenqi Xian et. al.
• Generalized Style Transfer
• Represent each style and content with a small set of reference images
• → Paired Cycle-GANの方がstyleを1枚でできるから楽しい?
• 英語綺麗すぎて草.アナウンサーみたい.
• inputはtexture (一部)と線画のカバン→テクスチャが貼られた画
像を生成するGAN.
Spotlight
41. Deep Cross-Media Knowledge Transfer, Xin
Huang, Yuxin Peng et. al.
• Cross-media retrieval, across different media types (image-text)
• この手の発表は今回山程あったので,ほんと飽きてきたかも.
Spotlight
42. A Variational U-Net for Conditional Appearance
and Shape Generation, Patrick Esser, et. al.
• shape/pose/viewpointなど,コントロールしやすい項目をパラメ
タとしてappearanceを生成させることで,variationを増やす?
• 具体的な工夫は発表から読み取れなかった.
Spotlight
43. Detach and Adapt: Learning Cross-Domain
Disentangled Deep Representation, Y. C. Liu et. al.
• もう,名前で何やったかわかるはず.
Spotlight
44. Learning Deep Structured Active Contours
End-toEnd, Diego Marcos et. al.
• Snakeはいろんなlossが入っている.
• でもチューニングが面倒だった.みんなも覚えているだろ?(幻聴)
• Instance segmentation now. It works
• でも,それで本当にいいの?なんでもできる?学習重くない?
知らない物体には使えなくない?(橋本翻訳)
• CNNで良いsnakeの初期値を与える!という学習w
• Interactive Active Contours+強化学習の方が筋が良くない?
↑来年のCVPR2019でげふんげふん
Spotlight
45. Deep Learning Under Privileged Information
Using Heteroscedastic Dropout, J. Lambert et. al.
• ん?ちょっとわからない.
• Key Result: LUPI enables learning with Less Data. しかし精度を上げ
るものではない.
• Deep LUPI → サンプル数制限付きのImageNetでNo. 1.
46. Smooth Neighbors on Teacher Graphs for
Semi Supervised Learning, Yucen Luo et. al.
• 従来はデータ点間の繋がりを無視→ちょい工夫.
• https://github.com/xinmei9322/SNTG
ちょっと力尽きてきた.というかそろそろ自分の研究したくなってきた.
47. Interpret Neural Networks by Identifying Critical
Data Routing Paths, Yulong Wang et. al.
• interpretabilityは大事!(さっきも聞いたな)
• Critical Data Routing Pathsを特定することで,解釈できるようにす
る!
• Distillation Guided Routing
• channel pruningとknowledge distillationで.
• ちょっとすんなりわからなかった.control gatesを効率的に学習.
• intra-class clusteringは結構いい感じにrouteと対応する?
• 要するに,モデルを蒸留していって,数本のパスが1つのカテゴリに
対応するようにしちゃうってこと?
48. Deep Spatio-Temporal Random Fields for
Efficient Video Segmentation, S. Chandra et. al.
• Frame-by-Frame Prediction
• Video G-CRF めっちゃすごい!キッチンで使えそう.
• Deep Spatio-Temporal G-CRF
• ノードごとにprediction
• CRFをDenseに設定すると,いいんだけど,すごい思い.
• WeightのRankはめっちゃ低いはず.
• Inputs → S/Uの他にT-embeddingを用意. → CRF!
49. Customized Image Narrative Generation via Interactive
Visual Question Generation and Answering, A. S. et. al.
• Image Description Task
• Descriptorの興味に応じて生成モデルを変える.
• asking questions!
• We need questions whose answers can vary
• Visual Question G(G何?)をして興味を推定.
• 動物が二種類いる画像→どんな動物がいる? のような質問を生成.
• 着眼点が面白い.発展がありそう?
50. • Improvements to Context Based Self-Supervised Learning
• Self-supervised learningが好きすぎるちょっと危ないおじちゃんだったw
• Chroma-blur (La*b*空間で色のblurをかける)
• もう一つのタスクがよくわからなかった(単純な英語の語彙力不足?)
• 根拠がないなぁ…日曜大工的.
• Boosting Self-Supervised Learning via Knowledge Transfer
• Pseud-Taskで学習→クラスタリング→クラスタラベルを識別させる??
• 最後のPseud-label Assignmentのlabelがクラスタリング由来なのかどうか不明
• Pseud-TaskとしてもJigsawのピースに偽物をいれたJigsaw++を提案
• Towards Universal Representation for Unseen Action Recognition
• 動作識別のUnsupervised Domain Adaptation
• 動作ラベルの言語的特徴量を利用したknowledge transferぽいこと.