SlideShare une entreprise Scribd logo
1  sur  108
Télécharger pour lire hors ligne
cvpaper.challenge
Twitter@CVPaperChalleng
http://www.slideshare.net/cvpaperchallenge
【103】
H. Kiani, T. Sim, S. Lucey, “Correlation Filters with Limited Boundaries“, in CVPR2015.
[Bolme+, CVPR2010][YouTube]論文により Minimum Output Sum of Squared Error (MOSSE)が提案されて以来,コンピュータビジョン分野において再度
Correlation Filters(相関フィルタ)を用いた検出や追跡の流れがきている.Bolme らの手法では旧来の検出や追跡の問題であった回転・スケール・照明変
動・部分的なオクルージョンに対応した.MOSSE の相関フィルタはリッジ回帰の問題として表現できる.ここで,MOSSE の問題としては信号処理の問題な
ので下図(c)のテクスチャを同じに扱ってしまう”boundary effect”が問題としてあげられる.提案手法ではこの問題を解決するために信号のサイズをフィルタ
よりも大きくして学習した.さらには masking matrix P も導入してある入力信号が active/inactive であるかを評価.Alternating Direction Method of
Multipliers (ADMM)を用いることで凸最適化に対する分布に対して有効である.下の表に示す実験結果では,各テストセットに対して追跡を行った結果を
示している.ベースラインの MOSSE ほどの処理速度(600fps)が出ていないが,100fps 以上の追跡処理可能であり,さらには精度が非常に高い.オクルー
ジョンや回転,スケール変動にも対応できている.詳しい処理結果は動画参照.
Link(s) 論文ページ:
http://www.cv-
foundation.org/openaccess/content_cvpr_2015/papers/Galoogahi_Correlation_Filters_With_2015_CVPR_paper.pdf
プロジェクトページ(Matlab コードあり):
http://www.hamedkiani.com/cfwlb.html
YouTube:
https://www.youtube.com/watch?v=wBqofMLVcYc
【104】
K. He, J. Sun, “Convolutional Neural Networks at Constrained Time Cost“, in CVPR2015.
限られたリソース(計算環境や処理時間等)の中でディープラーニングのフレームワークである CNN をいかに学習させ,識別するかという問題を考える.こ
れに対して,構造の深さ,幅,フィルタサイズ,ストライドなど CNN のパラメータ設定について考察.層の深さが重要であり,幅やフィルタサイズはあまり重
要でないということを実証した.コアとなる設計として”layer replacement”を提案する.これは,時間の短縮のため幾つかの層は他の層に置き換えることがで
きるという仮定である.結果としては処理コストを抑えながら精度の高いモデルを実現した.実験から,(1) ニューラルネットの深さは精度向上のためにプライ
オリティが高く,幅やフィルタサイズを小さくしたとしても精度は向上する (2) 極端に深さが増えて来ると,精度向上が頭打ちになる.この時には,主に深さに
よって処理コストが大きくなり,幅やフィルタサイズに必ずしもトレードオフの関係があるわけではない.以上の知見を,AlexNet をベースラインとして改良し
た結果,top-5 エラー率が 11.8%となり,ベースラインよりもエラー率が 4.2%低下した.
深さ d とフィルタサイズ s の関係性を調査した結果,d が増えれば増えるほどフィルタサイズ s は小さくできることが判明した.また,深さ d と幅 n では d が
増えれば n は狭くでき,フィルタサイズ s と幅 n の関係性においては深さ d ほどのトレードオフの関係性は見られなかった.
Link(s) 論文ページ:
http://www.cv-
foundation.org/openaccess/content_cvpr_2015/papers/He_Convolutional_Neural_Networks_2015_CVPR_paper.pdf
著者ページ:
http://research.microsoft.com/en-us/um/people/kahe/
【105】
T.-Y. Lin, Y. Cui, S. Belongie, J. Hays, “Learning Deep Representations for Ground-to-Aerial Geolocalization“, in CVPR2015.
空撮画像は比較的簡単に手に入るようになっている(ストリートビューなど) 状態である.提案手法では ground-level の画像(路上で撮影した画像)をクエリ
画像として入力し,空撮画像の位置を特定する問題設定とする.ここでは公開データセットから収集した 78000 枚の画像ペアを用いる.この地面から撮影
された画像(ストリートビュー画像, street-view imagery)と空撮画像(aerial image)をペアとして位置を特定する問題が新しい設定である.特徴量としては
CNN 特徴を用いており,この問題設定と合わせた手法のことを Where-CNN と呼んでいる.データセットには 7 つの都市-- San Francisco, San Diego,
Chicago, Charleston, Tokyo, Rome, Lyon から撮影された画像が含まれている.CNN が提案手法であるが,比較のために hand-crafted features, オリジナル
の CNN 特徴,学習された(fine-tuned?)CNN 特徴をもちいる.論文では Siamese Network, DeepFace, DeepRanking を参考にしたと述べている.学習では,
ストリートビュー画像 x と空撮画像 y をペアとして,それぞれ同じ構造の 2 つの CNN に別々に入力してペア(x,y)を学習する.(ストリートビュー画像 x=>
CNN1, 空撮画像 y=> CNN2 といった具合に) 提案手法の精度は 43.6%であり,最も高い精度を示した.以下,ImageNet-CNN が 11.3%, hand-crafted 特
徴が 7.6%, ランダムで 4.8%である.
Link(s) 論文ページ:
http://cs.brown.edu/people/hays/papers/deep_geo.pdf
ポスター:
http://yincui.org/posters/CVPR15_DeepGeo.pdf
【106】
A.Mahendran, A. Vedaldi, “Understanding Deep Image Representations by Inverting Them“, in CVPR2015.
CNN の可視化表現方法に関する解析.例えば CNN は出力層を取り出して見ると図 1 のような 5 つの表現方法が考えられる. ここでの提案は,CNN 特
徴だけでなく SIFT や HOG を含めた特徴量の逆変換的表現である.この変換をランダムノイズが混ざっている部分から始め,画像特徴と画像の事前確率
のみから表現する.画像の事前確率に従って正規化や損失に関しても評価.また,この手法は HOGgles よりも簡潔かつ効果的に可視化手法もできること
を示した.実験では,特徴量からの復元も実施しており(図 2),復元率の面でもエラー値が減少している.
図 1
図 2
Link(s) 論文ページ:
http://www.cv-
foundation.org/openaccess/content_cvpr_2015/papers/Mahendran_Understanding_Deep_Image_2015_CVPR_paper.pdf
GitHub code:
https://github.com/aravindhm/deep-goggle
【107】
J. Long, E. Shelhamer, T. Darrell, “Fully Convolutional Networks for Semantic Segmentation“, in CVPR2015.
全結合畳み込みネット(FCNs; fully convolutional networks)によりピクセル毎のセグメンテーションを実行する課題.ニューラルネットにおける end-to-end の
トレーニングであり,入力画像とセグメンテーション画像にておいてピクセル同士が対応付けられている.ここでは FCNs により,密な空間に対してセグメント
情報を描画することにある.ネットワークアーキテクチャとして,AlexNet, VGG Net, GoogLeNet を適用しており,さらにはセグメンテーションのために Fine-
tuning をしている.任意の画像サイズに対して,また密なセグメンテーションを実現可能である.表は FCN -AlexNet, -VGG16, -GoogLeNet のセグメンテー
ションの精度,処理時間やその他のパラメータを示している.
Link(s) 論文ページ:
http://www.cv-
foundation.org/openaccess/content_cvpr_2015/papers/Long_Fully_Convolutional_Networks_2015_CVPR_paper.pdf
著者ページ:
http://www.cs.berkeley.edu/~jonlong/
コード(Caffe モデル):
https://github.com/BVLC/caffe/wiki/Model-Zoo#fcn
【108】
M. Liang, X. Hu, “Recurrent Convolutional Neural Network for Object Recognition“, in CVPR2015.
CNN はコンピュータビジョンの分野において成功しているフレームワークであるが,再帰的に畳み込む方がより良い特徴を得られるという提案.ここで,
recurrent convolutional neural network (RCNN)を提案する.RCNN で重要なのは同一の畳み込み層にて再帰的に畳み込みを繰り返すことであり,この層
のことを recurrent convolutional layer (RCL)と呼んでいる.ここで,RCL の各ニューロンでは,前の層からの入力(feed-forward input)と再帰的な入力
(recurrent input)があり,それぞれ feed-forward weights と recurrent weights により重み付けされる.さらに,バイアス項も含まれる.このモデルは CIFAR-10,
CIFAR-100, MNIST, SVHN のデータセットにて実験され,それぞれ state-of-the-art な性能を達成した.
Link(s) 論文ページ:
http://www.cv-
foundation.org/openaccess/content_cvpr_2015/papers/Liang_Recurrent_Convolutional_Neural_2015_CVPR_paper.pdf
【109】
H. Jiang, “Matching Bags of Regions in RGBD images“, in CVPR2015.
RGBD 画像のペアを与えて,ペア間の領域対応付けの問題を考案する.下図の(a)(b)が source, (c)(d)を target として、領域の対応づける.Global region
constraints を用いた min-cost bipartite matching によりこの問題を解決する(e).(f)(g)がそれぞれの対応付け結果である.
Link(s) 論文ページ:
http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Jiang_Matching_Bags_of_2015_CVPR_paper.pdf
【110】
J. Yan, Y. Yu, X. Zhu, Z. Lei, S. Z. Li, “Object Detection by Labeling Superpixels“, in CVPR2015.
物体検出の問題として,部分的なオクルージョンや物体のスケール(aspect ratio)が挙げられる.現在の物体検出のアルゴリズムでは数万以上の bounding
box から複数クラスの物体かそうでないかを見分ける必要があるため,確実に誤りが発生する.また,画像内から物体の位置を正確に見分けることは非常
に困難な課題である.これらの問題を解決すべく,物体検出問題に superpixel を介入する.少なくともひとつの superpixel は同じクラスに含まれるとして扱
うことで,検出の位置ずれを少なくなる.物体間のオクルージョンが発生した際には,従来の物体検出法では困難でも,superpixel を用いることで問題を優
しくする.
下図は,今回のコントリビューションである.(a)sliding window や(b)selective search では物体の矩形がばらついているが,superpixel なら最初からまとまっ
た状態で物体を判定できる.識別には state-of-the-art である RCNN や very deep CNN (VGGNet や GoogLeNet)などとも組み合わせて用いることができ,
これまでの物体検出を向上させることに成功した.
Link(s) 論文ページ:
http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Yan_Object_Detection_by_2015_CVPR_paper.pdf
著者ページ:
http://www.cbsr.ia.ac.cn/users/jjyan/main.htm
【111】
Y. Song, J. Vallmitjana, A. Stent, A. Jaimes, “TVSum: Summarizing Web Videos Using Titles“, in CVPR2015.
ビデオサマライズに関する研究.”summary worthy”という指標を用いてビデオサマライズの問題を試みた.youtube などのビデオタイトルはビデオの内容に
関連して名付けられているので,それを 事前情報として用いる.結果的には,タイトルから取得した事前情報に関連するシーンを抽出することに成功した.
例えば下図ではニュースレポートのシーンである.TVSum50 Dataset というデータセットも同時に公開した.50 のビデオが含まれており,クラウドソーシング
によりつけられた重要度のスコア値がアノテーションされている.実験では F1 スコア値が従来では SumMe dataset にて 0.234 であったのに対して提案法で
は 0.2655 を,TVSum dataset では 0.4979 を達成した.
Link(s) 論文ページ:
http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Song_TVSum_Summarizing_Web_2015_CVPR_paper.pdf
著者ページ:
http://people.csail.mit.edu/yalesong/home/
ポスター:
http://people.csail.mit.edu/yalesong/publications/SongVSJ2015CVPRPoster.pdf
【112】
K. Fragkiadaki, P. Arbeláez, P. Felsen, J. Malik, “Learning to Segment Moving Objects in Videos“, in CVPR2015.
Moving Objectness を用いて,ビデオ内の移動オブジェクトに対してランク付けをする方法を提案している.オプティカルフローを用いたデータセットから移
動物体の外観特徴を学習し,動きの境界を抽出する.抽出された境界情報は Moving Object Proposals(MOP)によって,画素との関係性を対応付ける.し
かし、動画上の移動物体は常に動き続けているわけではないため、オブジェクトが停止している場合はオプティカルフローを取得することができない.それ
に対して、Random Walker を用いて時空間 MOP を拡張することで,停止状態を含んだ移動物体の追跡を実現している.
Link(s) 論文ページ:
http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Fragkiadaki_Learning_to_Segment_2015_CVPR_paper.pdf
【113】
M. Tan, Q. Shi, A. Hengel, C. Shen, J. Gao, F. Hu, Z. Zhang, “Learning Graph Structure for Multi-Label Image Classification via
Clique Generation“, in CVPR2015.
Clique Generating Machine(CGM)によるマルチラベル画像分類のためのグラフ構造の学習が提案されている.CGM における疎なグラフ構造を学ぶため
に、Convex Programming Model を提案.特徴入力およびラベルを考慮したデータから,グラフ構造とモデルパラメータを学習する.この方法により学習さ
れたグラフ構造およびパラメータは,データにうまくマッチングさせることが可能となる.グラフを学習するための関連クリークを見つけるために,SSVMs
framework に指標として 0-1 のポテンシャルベクトルを設定し,疎な解に誘導するためのベクターに 0-norm の条件定義を設定している.
Link(s) 論文ページ:
http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Tan_Learning_Graph_Structure_2015_CVPR_paper.pdf
【114】
Jason Rock, Tanmay Gupta, Justin Thorsen, JunYoung Gwak, Daeyun Shin, Derek Hoiem, “Completing 3D Object Shape from
One Depth Image“, in CVPR2015.
単眼の Depth 画像から 3D モデルを再構成する手法の提案.
この手法では,3 段階で 3D 再構成している.
Retrival:
Random Forest Hasning を用いて再構成した画像と類似した物体の Depth 画像をマッチングする
Defomation:
物体の対称性(symmetry)などを考慮しながら,余計な点群を除去し,欠けている点群を補完する
Completion:
取得した Depth 画像と生成したモデルをボクセル単位で組み合わせて,3D 再構成を実現する.
SHREC12 dataset を用いて実験した結果も示す.
Link(s) 【論文】
http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Rock_Completing_3D_Object_2015_CVPR_paper.pdf
【プロジェクトページ(動画・コードあり)】
http://vision.cs.uiuc.edu/projects/shaperecon/
【115】
Vassileios Balntas, Lilian Tang and Krystian Mikolajczyk, “BOLD - Binary Online Learned Descriptor For Efficient Image
Matching“, in CVPR2015.
新しいバイナリ記述子の提案.
Global offline optimization:
BRIEF の要領でパッチごとに特徴量を計算する.すべての選択テストと新しい候補の間の相関を繰り返し検証することによって,discriminative な特徴を選
択する.
Local online learning:
LDA のような最適化によって内部クラスの距離を最小化する.各パッチに異なるクラスを割り当て,アフィン変換によって内部クラスの分散を推定する.
Matching of locally adapted descriptor:
Global な特徴と Local な特徴をハミング距離でマッチングする.
Link(s) 【論文】
http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Balntas_BOLD_-_Binary_2015_CVPR_paper.pdf
【プロジェクトページ】
http://vbalnt.io/
【116】
D.-Y. Lee, J.-Y. Sim, C.-S. Kim, “Multihypothesis Trajectory Analysis for Robust Visual Tracking“, in CVPR2015.
追跡アルゴリズムの難しさは特徴抽出の頑健性,オクルージョン,突発的な照明変動などに依存する.提案手法では,複数の手がかり(multihypothesis)を
用いて追跡アルゴリズムを構成する.複数の追跡手法を用い,またメモリベースの追跡から取得した動線の解析を導入して最終的な追跡結果を得る.ここ
では 3 種類の追跡手法--texture, color, illumination invariant information を用いる.ある単位時間あたりはそれら別々の追跡手法にてそれぞれの動線を
得る.3 つのうちからベストな追跡手法を選択,または評価するために信頼度を計算する.幾何的な類似度,cyclic weight, またアピアランスの類似度を計
算する.時間軸の追跡を得た後に,時間軸の逆である backward の追跡も評価して最終的な追跡結果を得る.
下の表で Visual Tracker Benchmark v1.0 を用いて評価した結果である.STRUCK[Hare+, ICCV2011],KCF[Henriques+, TPAMI2015], MEEM[Zhang+,
ECCV2014]の手法と比較した結果,提案手法である MTA がもっとも高い性能を示した.
Link(s) 論文ページ:
http://www.cv-
foundation.org/openaccess/content_cvpr_2015/papers/Lee_Multihypothesis_Trajectory_Analysis_2015_CVPR_paper.pdf
【117】
J. Xiao, R. Stolkin, A. Leonardis, “Single target tracking using adaptive clustering decision trees and dynamic multi-level
appearace models“, in CVPR2015.
対象物体が単一である場合の追跡手法について考案する.Top-layer, Middle-layer, Bottom-layer に分割して追跡アルゴリズムを考案.下図はフロー図を
示している.Top-layer では前景/背景の分離を示しており,次の層での入力とする.Middle-layer では superpixel のアルゴリズムである SLIC によりセグメン
ト分割される.superpixel をベースとしたパーツマッチングを decision tree を用いて行う.その結果をベースにして前景/背景を更新し,追跡結果を得る.こ
の結果,bounding box だけでなく,セグメンテーションも同時に行うことができる.データセットには VOT challenge を用いている.フロー図だけでなく,追跡
結果を下に示す.
Link(s) 論文ページ:
http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Xiao_Single_Target_Tracking_2015_CVPR_paper.pdf
著者ページ:
http://postgrad.eee.bham.ac.uk/xiaoj/Publications.htm
【118】
D. Han, J. Kim, “Unsupervised Simultaneous Orthogonal Basis Clustering Feature Selection“, in CVPR2015.
教師なしの特徴取得方法: Simultaneous Orthogonal basis Clustering Feature Selection (SOCFS)に関する提案.Projection ステップでは target matrix を用
いて data points を projected data points に投影する.Orthogonal basis clustering (正規直交基底によるクラスタリング)では projection ステップにて投影され
た特徴空間でのベクトルから潜在的なクラスタ中心を求め,識別しやすい形にする.各データセット(LUNG, COIL20, Isolet 1, USPS, YaleB, UMIST,
AT&T)に適用した実験では,従来の教師なしの特徴取得手法(MV, LS, MCFS, UDFS, NDFS, RUFS)よりも精度が向上した.
Link(s) 論文ページ:
http://www.cv-
foundation.org/openaccess/content_cvpr_2015/papers/Han_Unsupervised_Simultaneous_Orthogonal_2015_CVPR_paper.pdf
研究室ページ:
https://sites.google.com/site/siitkaist/
【119】
Peng Zhang, Wengang Zhou, Lei Wu, Houqiang Li, “SOM: Semantic Obviousness Metric for Image Quality Assessment“, in
CVPR2015.
参照なしで画像の品質評価をする手法.画像から物体らしい領域を抽出し,semantic obvious 特徴と局所特徴を抽出する.そして,それを統合し,SVR で
回帰式を生成することで品質を数値化する.下図のように,解像度を低下させると,画像の品質も落ちていることが確認できる.(データセットは LIVE と
TID2008)
Link(s) 【論文】
http://www.cv-
foundation.org/openaccess/content_cvpr_2015/papers/Zhang_SOM_Semantic_Obviousness_2015_CVPR_paper.pdf
【120】
Kaili Zhao, Wen-Sheng Chu, Fernando De la Torre, Jeffrey F. Cohn, Honggang Zhang, “Joint Patch and Multi-label Learning for
Facial Action Unit Detection“, in CVPR2015.
Joint Patch と Multi-label learning による顔の行動符号化システム(FACS).
顔の関節を検出し,その関節を中心にしたパッチを生成する.そして,パッチがどのラベル(AU1 など)に属しているかを学習することで,Facial Action
Coding systems(FACS)の推定を実現している.
Link(s) 【プロジェクトページ】
https://www.ri.cmu.edu/publication_view.html?pub_id=7935
【ポスター】
http://humansensing.cs.cmu.edu/wschu/papers/doc/cvpr15_jpml_poster_low.pdf
【121】
L. D. Pero, S. Ricco, R. Sukthankar, V. Ferrari, “Articulated Motion Discovery using Pairs of Trajectories“, in CVPR2015.
ボトムアップかつ unsupervised な文節ごとのモーションパターン(articulated motion pattern)検出を行う.非制約(in the wild)の動画認識であるため,構造化
やトリミングされていない動画からのモーション検出や対応付けを行う.下図は虎の articulated motion pattern 検出である.提案手法では追跡している動線
(PoTs; pairs of trajectories)を特徴としている.また,下図の場合の行動は虎の running, walking, turning を示している.PoTs の中から共通の特徴量を探索
する課題.
また,関節中心は(感覚的に)モーションの中心として,位置の変位(displacement)を特徴として記述する.モーションの中心からの移動角度と正規化された
displacement を記録.
実験のデータセットは National Geographic documentaries から 500 ショット, 80,000 フレーム取り出した映像や YouTube Objects dataset から犬のクラスを
100 ショット抽出した.
Link(s) 論文ページ:
http://www.cv-
foundation.org/openaccess/content_cvpr_2015/papers/Pero_Articulated_Motion_Discovery_2015_CVPR_paper.pdf
【122】
Justin Johnson, Ranjay Krishna, Michael Stark, Li-Jia Li, David A. Shamma, Michael S. Bernstein, Li Fei-Fei, “Image Retrieval
using Scene Graphs”, in CVPR2015.
シーングラフの概念に基づいた意味的な画像検索のための新規のフレームワークを提案している.提案したシーングラフはオブジェクト(「人間」、「ボート」
)と,属性(「ボートが白である」)と,オブジェクト間の関係(「男が船の上に立っている」)から構成される.最終的にシーングラフをクエリとして意味的な画像
検索を行うための条件付き確率場モデルを設計した.また,画像にアースされた 5,000 人分のシーングラフを含む新しいデータセット(第 1 著者のサイトに
有り)を導入し提案手法を評価する.データセット内のオブジェクトクラスと属性は R-CNN の検出器の学習によってモデル化されている.完全なシーングラ
フと部分シーングラフを比較し,提案手法がオブジェクトのみ、または低レベルの画像特徴を使用した検索方法よりも優れていることを示す.さらに完全な
シーングラフはベースラインの手法より物体の位置特定に優れていることを示す.
シーングラフはオブジェクト「女の子」と属性「女の子は金髪である」と関係「女の子がラケットを持っている」を復号化している.アースがオブジェクトごとの
シーングラフと画像の領域を関連付けている.画像、シーングラフ、およびアースは,現実世界シーングラフのデータセットから描写される.
Fig. 1: シーングラフ(下)とアース(上) Fig. 2 : 提案手法の結果: シーン全体での検索(a) 部分シーンでの検索(b) 物体の位置を特定したうえでの検索(c)
Link(s) 著者ページ:
http://cs.stanford.edu/people/jcjohns/
【123】
J. Byrne, “Nested Motion Descriptors“, in CVPR2015.
行動認識の問題のひとつとして行動中心で特徴を取得することが挙げられる.この問題は行動検出の際にラベル付けの精度に直接的に関わってくる.行
動認識ではいかに識別に有効なモーション特徴を抽出し,背景やカメラモーションなど関係ない動作を省くかが重要である.近年では行動認識は 10 クラ
ス前後から数百クラスの分類に興味が移行しており,ますます行動の中心を特定する必要性があるといえる.提案手法では,binary local motion descriptor
を用いた特徴表現方法のことを nested motion descriptors (NMD)と呼ぶ.この手法は nested shape descriptors (NSD) [Byrne+, ICCV2013]を改良して時系
列行動にも対応したものである.この論文のコントリビューションとして,カメラの移動があったとしてもスケールや勾配を評価できることにある.下図は NMD
の流れを示しており,まずは勾配やスケールを判断し,次に相対的な動作解析により動きの速度やその位置を蓄積する.Log-spiral normalization により異
なる速度や異なるスケールの特徴を評価することができる.
Link(s) 論文ページ:
http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Byrne_Nested_Motion_Descriptors_2015_CVPR_paper.pdf
YouTube:
https://www.youtube.com/watch?v=RfJJHmXnRAw
【124】
Dingwen Zhang, Junwei Han, Chao Li and Jingdong Wang, “Co-saliency Detection via Looking Deep and Wide “, in CVPR2015.
CNN を用いた共起 Saliency(co-saliency)の検出.初めに,対象の画像から CNN 特徴を抽出し,類似した画像を抽出する.そして,画像の中から物体らし
いものを提案する.次に,Bayesian 処理を用いて各パッチから共起 Saliency のスコアを算出する.最後に,画像全体での共起 Saliency を SuperPixel 単位
でスコアを算出し,共起 Saliency を生成する.手法のおおまかな流れは以下の通りである.実験の結果図も下記に示す.
Link(s) 【論文】
http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Zhang_Co-Saliency_Detection_via_2015_CVPR_paper.pdf
【125】
H. J. Chang, Y. Demiris, “Unsupervised Learning of Complex Articulated Kinematic Structures combining Motion and Skeleton
Information“, in CVPR2015.
手領域の関節位置を求めることはコンピュータビジョンだけでなくロボティクスにおいても重要な課題となりつつある.RGBD を入力とした人体やハンドの関
節トラッキングに関しては成功したフレームワークがすでに提案されている([Shotton+, CVPR2011], [Tang+, CVPR2014])が,任意の物体に対する関節トラ
ッキングはチャレンジングな課題である.提案手法では動作特徴量や(荒い)スケルトンを統合して精巧かつ最もらしい関節位置を推定する.結果は動画参
照.
Link(s) 論文ページ:
http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Chang_Unsupervised_Learning_of_2015_CVPR_paper.pdf
プロジェクトページ:
https://hyungjinchang.wordpress.com/research/kinematic-structure-learning/
YouTube:
https://www.youtube.com/watch?v=l431rT0S29U
【126】
Grant Van Horn, Steve Branson, Ryan Farrell, Scott Haber, Jessie Barry, Panos Ipeirotis, Pietro Perona, Serge Belongie, “Building
a bird recognition app and large scale dataset with citizen scientists: The fine print in fine-grained dataset collection “, in
CVPR2015.
鳥の画像データセットの提案(NABirds).
画像総枚数:48,562
カテゴリー:555
また,各画像には鳥の部位の Annotation も入っている(羽根や嘴など).
Link(s) 【論文】
http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Horn_Building_a_Bird_2015_CVPR_paper.pdf
【127】
Xiao-Yuan Jing, Xiaoke Zhu, Fei Wu, Xinge You, Qinglong Liu, Dong Yue, Ruimin Hu, Baowen Xu, “Super-resolution Person
Re-identification with Semi-coupled Low-rank Discriminant Dictionary Learning “, in CVPR2015.
低解像度の画像での Person Re-ID.
ギャラリー画像は画質がいいが,一般的に監視カメラから撮影されるものは画像の劣化が激しい.それに対処するための手法を提案している.CamA で撮
影した画像とそれを劣化させた画像を生成し,パッチごとにクラスタリングして辞書を作る.そして,CamB で撮影した劣化画像のパッチがどのクラスタに分
類するのかを判別し,その情報をもとに距離を算出する.
Link(s) 【論文】
http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Jing_Super-Resolution_Person_Re-
Identification_2015_CVPR_paper.pdf
【128】
Sakrapee Paisitkriangkrai, Chunhua Shen, Anton ven den Hengel, “Learning to rank in person re-identification with metric
ensembles“, in CVPR2015.
複数の特徴と Metric Learning を組み合わせた Person Re-ID.
Metric Learning では,TOP RANK を認識するための学習とそれ以外を認識するための学習を組み合わせる,
特徴では,SIFT,Lab,LBP,RGB,Region Covariance Pattern,CNN 特徴を組み合わせている.
Link(s) 【論文】
http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Paisitkriangkrai_Learning_to_Rank_2015_CVPR_paper.pdf
【129】
Ning Zhang, Manohar Paluri, Yaniv Taigman, Rob Fergus, Lubomir Bourdev, “Beyond Frontal Faces: Improving Person
Recognition Using Multiple Cues“, in CVPR2015.
一般的な写真を用いた Person Re-ID における顔・衣服・姿勢のデータセット(PIPER).
People In Photo Albums Dataset(PIPER)の提案.
以下のような統計データを有している.
体が画像からはみ出している場合やオクルージョン,姿勢が大きく変化している場合など,様々なシーンで撮影されている.
Link(s) 【論文】
http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Zhang_Beyond_Frontal_Faces_2015_CVPR_paper.pdf
【130】
A.Karpathy, L. Fei-Fei, “Deep Visual-Semantic Alignments for Generating Image Descriptors“, in CVPR2015.
ほとんどの画像認識のアプローチはカテゴリのタグ付けにフォーカスされているが,自然言語処理の進歩によって画像からのテキスト生成ができるようにな
ったと主張.ここでは画像生成分に関するチャレンジを提案する.下図 1 ではランク付けや例文・位置まで含めた物体のカテゴリを分類している.下図 2 で
は Bidirectional RNN(図 2 左 Bidirectional Recurrent Neural Networks)や Multimodal RNN を示している.Bidirectional RNN では例文と物体領域との用
例を学習・モデリングし,Multimodal RNN は与えられた画像から説明文を生成するための学習をする.Multimodal RNN は画像=>Convolutional Neural
Networks (CNN) => RNN という流れであり,CNN により畳み込んだ特徴を言語化するために RNN に引き渡す.
図 1
図 2
Link(s) 論文ページ:
http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Karpathy_Deep_Visual-
Semantic_Alignments_2015_CVPR_paper.pdf
【131】
J. Dong, N. Karianakis, D. Davis, J. Hernandez, J. Balzer, S. Soatto, “Multi-View Feature Engineering and Learning“, in
CVPR2015.
Lambert-Ambient Model を用いて,スケーリングやオクルージョンを含む対応関係についてモデリングする.既存の特徴量である SIFT や HOG などを用
いるが,さらに理想的な近似方法を探る.最初は単一の画像にて特徴取得する方法を探る.これは限られた環境下,特に画像面と投影面が平行であるこ
とを前提とした設計である.このような環境においては SIFT や HOG などの特徴マッチングは限定的な環境でのみ動作し,撮影環境が変わった場合には
マッチング性能が落ちてしまう.これを multi-view の場合に拡張した multi-view HOG(MV-HOG)を提案する.優位な特徴点からの記述や画像面に平行
な並進や直交からの移動を考慮する.感覚的には複数画像による見え方のバリエーションを相殺するように特徴表現する.
Link(s) 論文ページ:
http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Dong_Multi-
View_Feature_Engineering_2015_CVPR_paper.pdf
研究室ページ:
http://vision.ucla.edu/publications.html
【132】
Hakan Bilen, Marco Pedersoli, Tinne Tuytelaars, “Weakly Supervised Object Detection with Convex Clustering“, in CVPR2015.
弱教師あり学習での一般物体認識.
同じクラスの物体間の類似性を求めることで最適化する.
Latent SVM でパーツ毎のクラス分類をし,Convex Clustering でクラスタリングしている.
Link(s) 【論文】
http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Bilen_Weakly_Supervised_Object_2015_CVPR_paper.pdf
【133】
Rabeeh Karimi Mahabadi, Christian Häne, Marc Pollefeys, “Segment Based 3D Object Shape Priors“, in CVPR2015.
物体を単純な形状の組み合わせとして仮定し,3D 再構成する手法の提案.
机であれば,卓上・脚・地面の組み合わせで構成されている.
木であれば,葉・幹・地面の組み合わせで構成されている,といったように,セグメントベースでパーツを検出し,3D 再構成の精度を高めている.
Link(s) 【論文】
http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Mahabadi_Segment_Based_3D_2015_CVPR_paper.pdf
【134】
X. Han, T. Leung, Y. Jia, R. Sukthankar, A. C. Berg, “MatchNet: Unifying Feature and Metric Learning for Patch-Based
Matching“, in CVPR2015.
パッチベースの画像マッチングは拡張性があるコンピュータビジョンの技術である.提案法である「MatchNet」は 3 層の全結合層からなる CNN により構成
されている,特徴学習である.この論文では,いかに二つのネットワークを統合して学習するかについて説明する.下図では MatchNet のアーキテクチャを
示しており,A: Metric network や B: Feature network を統合して学習する.Feature network においてはエンコーディングや,より層が進むと次元が削減さ
れていく.Metric network では特徴同士の比較が行われる.トレーニング段階では feature net は二つの平行した畳み込み層がパッチのペアにより構成さ
れ,パラメータも共有される.2 つの平行した畳み込み層は metric network への入力として連結される.トレーニング C ではパッチペアをサンプルとして
cross-entropy を最小化するように統合学習が行われる.D: MatchNet による推定ではそれぞれのパッチから feature network,metric network により
pairwise のマッチングスコアを取得する.
Link(s) 論文ページ:
http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Han_MatchNet_Unifying_Feature_2015_CVPR_paper.pdf
著者ページ:
http://www.cs.unc.edu/~xufeng/
MatchNet ページ:
http://www.cs.unc.edu/~xufeng/matchnet/
【135】
J. Zhao, C. Siagian, L. Itti, “Fixation Bank: Learning to Reweight Fixation Candidates“, in CVPR2015.
Saliency マップの研究.図 1 は Location-dependent weighting の例である.Linear Regression(LR)ではそれぞれのチャネルから不要な重みが入ってしまう
.これを Fixation Bank からの参照による re-weighting によりピークを際立たせる.Fixation Bank はデータドリブンの枠組みであり,color/ intensity/
orientation/ motion から重要度の高い部分を(学習ベースの)マイニングする.この Fixation Bank を,4 つのチャネルから候補領域の抽出,特徴マップの分
解,ブロックごとの辞書作成により構成する.図 2 は各手法との比較である.
図 1
図 2
Link(s) 論文ページ:
http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Zhao_Fixation_Bank_Learning_2015_CVPR_paper.pdf
【136】
Christian Rupprecht, Loïc Peter, Nassir Navab, “Image Segmentation in Twenty Questions“, in CVPR2015.
20 回の yes/no の質問で画像をセグメンテーションする手法.
声による回答によって,hand-free なセグメンテーションシステムを実現している.
画像に十字架が表示され,それがセグメント対象の内側に入っているかどうかを回答する.その質問を 20 回繰り返し,セグメントする.
毎回のピクセル選択は MMarkov Chain Monte Carlo 法を用いている.
Link(s) 【論文】
http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Rupprecht_Image_Segmentation_in_2015_CVPR_paper.pdf
【137】
X. Lin, D. Parikh, “Don’t Just Listen, Use Your Imagination: Leveraging Visual Common Sense for Non-Visual Tasks“, in
CVPR2015.
テキストのみによる認識と,テキスト+視覚情報を用いた認識とを比較して,視覚情報の有効性を実証.その際に,2 つのタスク fill-in-the-bank (FITB)と
visual paraphrasing (VP)を解いている.通常ではテキストのみによる回答をするところでも,視覚情報によるイマジネーションを導入してより「イメージしやす
い」回答をコンピュータに用意させる.visual common sense(見たら暗黙的に分かる?)というものを認識に導入したいということ.
Link(s) 論文ページ:
http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Lin_Dont_Just_Listen_2015_CVPR_paper.pdf
プロジェクトページ(コード,データセットあり):
https://filebox.ece.vt.edu/~linxiao/imagine/
プレゼンテーション:
https://filebox.ece.vt.edu/%7Elinxiao/imagine/site_data/presentation.pptx
ポスター:
https://filebox.ece.vt.edu/~linxiao/imagine/site_data/Poster.pdf
【138】
M. Dixit, S. Chen, D. Gao, N. Rasiwasia, N. Vasconcelos, “Scene Classification with Semantic Fisher Vectors“, in CVPR2015.
コンピュータビジョンのシーン認識タスクは長らく low-level もしくは mid-level による Bags of semantics (BoS)により発展してきた.しかし,信頼出来る
semantic 認識はラベル付けに依存すること,Fisher vector などが semantic な表現に優れていなかったことがあり,あまり高い精度を達成できなかったと思
われる.Convolutional Neural Networks (CNN)の登場により物体認識の精度を向上させるに至っているが,シーンに依存しない特徴表現というのは依然と
してチャレンジングな課題である.これを解決すべく,multinomial なパラメータ表現として Dirichlet mixture によるモデリングを導入する.すなわち,BoS の
表現能力を高めるために Dirichlet Mixture Fisher Vector (DMM-FV)を提案する.
実験では fine-tuned な CNN モデルよりも精度が高くなることを実証した.
Link(s) 論文ページ:
http://www.svcl.ucsd.edu/publications/conference/2015/Bag_of_semantics/logFV.pdf
著者ページ:
http://www.svcl.ucsd.edu/~mandar/
【139】
A. Gordo, “Supervised Mid-Level Features for Word Image Representation“, in CVPR2015.
文字認識のための mid-level 特徴表現を考案する研究.前提として bounding box として切り抜かれた文字画像から特徴を学習するが,テスト時には非制
約の画像から検出や認識を実行する.下図は文字認識のフロー図である.(図中上)従来の文字認識手法では low-level の特徴抽出には dense
SIFT+Fisher vectors を適用する.Geometry に対応するために spatial pyramid も適用する.(図中下)low-level の特徴取得として dense SIFT+Fisher
vectors(この Fisher vector を local FV と呼んでいる)までは従来法と同じであるが,spatial pyramid を取得する際にブロックごとの特徴記述を施している.こ
のブロックごとの記述が mid-level な記述であり,最終的にさらにその特徴量を Fisher vector にプーリングする.この最終的に取得した Fisher vector を
Global FV と呼んでいる.
Street view text (SVT) dataset や IIIT5K dataset における実験では,表のような結果になった.SVT では Deep CNN が,IIIT5K においては提案手法が最
高性能を実現した.
Link(s) 論文ページ:
http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Gordo_Supervised_Mid-
Level_Features_2015_CVPR_paper.pdf
【140】
S. Shankar, V. K. Garg, R. Cipolla, “DEEP-CARVING: Discovering Visual Attributes by Carving Deep Neural Nets“, in
CVPR2015.
非常に有効な学習方法である Deep-Carved CNN により,複数の Attribute を同時に推定する.提案手法では CNN アーキテクチャとして AlexNet をベー
スにしているが,学習に sigmoid cross-entropy loss を適用して損失を最小化する.その他,複数ラベルの確率を用いて学習する.下図の緑は正しく推定で
きた例,赤が誤って推定した例である.図の上は Sun Attribute Dataset (SAD),下は CAMIT-Natural Scenes Attributes Dataset (CAMIT-NSAD)に対して
処理した結果である.複数の attribute は共起性があるということも判明した.
ベースラインに AlexNet (softmax や sigmoid cross entropy loss ),MIT Places Dataset により fine-tune された AlexNet を用いた.比較により,Deep-Carved
CNN が最も精度よく複数の Attribute を推定できることが判明した.
Link(s) 論文ページ:
http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Shankar_DEEP-
CARVING_Discovering_Visual_2015_CVPR_paper.pdf
【141】
F. Zhao, Y. Huang, L. Wang, T. Tan, “Deep Semantic Ranking Based Hashing for Multi-Label Image Retrieval“, in CVPR2015.
Semantic ranking や deep learning を用いた多階層類似度に基づく複数ラベルのハッシング.下図は Deep Semantic Ranking based Hashing (DSRH)である
.Multi-label が付けられた画像から,意味的に近いものを集めていく.順伝播と逆伝播を行う中でネットワークを学習する.バイナリハッシングは 5 層の畳
み込み層と 2 層の全結合層,最後に Hash Layer によりバイナリハッシングとして出力される.全結合層からは順伝播とは別にそれぞれ Hash Layer に特徴
を渡している.(FC1 は FC2 と Hash Layer に伝播,FC2 は Hash Layer のみに伝播)
Link(s) 論文ページ:
http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Zhao_Deep_Semantic_Ranking_2015_CVPR_paper.pdf
【142】
Thorsten Beier, Fred A. Hamprecht, Jörg H. Kappes, “Fusion Moves for Correlation Clustering“, in CVPR2015.
Large Scale な相関クラスタリングの提案.
この研究の contribution は以下の通り.
1:凝集クラスタリングに基づく新しエネルギー関数の定義
2:多面体 multicut 手法の性能向上
3:fusion moves という手法の改良版,cluster-fusion moves の提案
Link(s) 【論文】
http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Beier_Fusion_Moves_for_2015_CVPR_paper.pdf
【143】
M. Rastegari, C. Keskin, P. Kohli, S. Izadi, “Computationally Bounded Retrieval“, in CVPR2015.
画像検索,特にバイナリコードにおける計算時間の考察.バイナリコードには,例えば nearest neighbors などの対応を求めたり,ハミング距離計算,バイナ
リコードの計算,エンコード,射影関数(mapping function),出力などがある.入力 d-dims と出力 k-dims の次元数が大きいのであれば,バイナリ変換する
関数がかなりの計算コストなってしまう.単純に計算すると計算オーダが O(dk)になってしまう.現在までには,この問題を Bilinear projection (O(d√k))や
FFT(O(dlog(d)))により計算時間を削減してきた.提案手法では,バイナリコードの計算時間を抑えるような最適化を,sparse projection により実現する.入
力と出力のペア(x,y)を元にして学習サンプルとの損失が最小になるように最適化する.この際に最適化パラメータベクトルである w を学習する.ここではバ
イナリコードであるという拘束があるので,これを計算時間を抑えるような条件を付けて最適化式を数式化している.下図は提案手法である SBE と頻出の
既存手法である kd-tree を比較した例である.この比較例ではおよそ 100 倍の計算時間の開きがある.SBE は計算時間の面において高速になっている.
Link(s) 論文ページ:
http://www.cv-
foundation.org/openaccess/content_cvpr_2015/papers/Rastegari_Computationally_Bounded_Retrieval_2015_CVPR_paper.pdf
【144】
Xiaojie Guo, Yi Ma, “Fusion Moves for Correlation Clustering“, in CVPR2015.
ノイズ画像から tensor を復元する画像復元手法.
Response to Multi-directional Derivative-like Filters(RMDF)というフィルタと Generalized Tensor Total Variation Norm(GTV)を定義することで画像を復元し
ている.下記が結果図である.
Link(s) 【論文】
http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Guo_Generalized_Tensor_Total_2015_CVPR_paper.pdf
【145】
S. Su, W. Heidrich, “Rolling Shutter Motion Deblurring“, in CVPR2015.
ローリングシャッターにおけるデブラーの論文.ローリングシャッターでは一枚の画像においても撮像するタイミングが微小に異なるため,それをデブラーす
る.グローバルなカメラ動作の軌跡を計算することでこの問題に取り組んだ.図 1 はローリングシャッターに起因した異なるスキャンラインとカメラ動作を用い
ている.図 2 はそれによりデブラーされた比較である.図 2 上ではブラーが除去されていないが,図 2 下ではデブラーに成功している.
図 1
図 2
Link(s) 論文ページ:
http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Su_Rolling_Shutter_Motion_2015_CVPR_paper.pdf
プロジェクトページ:
http://www.cs.ubc.ca/labs/imager/tr/2015/RollingShutterMotionDeblurring/
【146】
A. Dosovitskiy, J. T., Springenberg, T. Brox, “Learning to Generate Chairs with Convolutional Neural Networks“, in CVPR2015.
イスの general なモデルを CNN によりモーフィングして生成するという研究.図 1 は 2 つのイスのモデル(図 1 左上と図 1 左下)を滑らかに形状変化させた
例.入力はイスのタイプ,カメラビューの角度,変換パラメータ.3 次元のモデルを与えるが,2 次元に投影する際にはイスのタイプ,視点,色,明るさ,彩度
やスケールを考慮する.ニューラルネットでは誤差逆伝播によりユークリッド再構成誤差を最小化する.図 2 は CNN の構成である.従来の CNN とは,畳
み込み層と全結合層が逆になっている構成であり,入力のラベル情報から全結合層,逆畳み込み層,と経るごとに画像を復元していく.最初の 5 層までが
全結合層で,その後特徴量を 2 分して 4 層の畳み込み層を通過することとなる.この構成により RGB のイスモデルと segmentation に分解して生成モデル
を構成するニューラルネットが完成する.
図 1
図 2
Link(s) 論文ページ:
http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Dosovitskiy_Learning_to_Generate_2015_CVPR_paper.pdf
【147】
P.-L. Hsieh, C. Ma, J. Yu, H. Li, “Unconstrained Realtime Facial Performance Capture“, in CVPR2015.
図 1 は calibration-free なリアルタイム顔追跡である.髪や手,服によるオクルージョンが激しくても顔のトラッキングができている上に,オクルージョン領域ま
で推定できた上で顔部分を表示している.図 2 では提案手法のフロー図を示しており,RGB-D の入力から顔の領域やモーションを推定するなどして最終
的に顔領域を追跡・セグメンテーションしている.詳細な結果は YouTube 動画参照.
図 1
図 2
Link(s) 論文ページ:
http://www.cv-
foundation.org/openaccess/content_cvpr_2015/papers/Hsieh_Unconstrained_Realtime_Facial_2015_CVPR_paper.pdf
著者ページ:
http://www.hao-li.com/Hao_Li/Hao_Li_-_about_me.html
YouTube:
https://www.youtube.com/watch?v=QqXjVs6Tgm8
【148】
Z. Wu, S. Song, A. Khosla, F. Yu, L. Zhang, X. Tang, J. Xiao, “3D ShapeNets: A Deep Representation for Volumetric Shapes“, in
CVPR2015.
3 次元のキーポイントマッチングに関しては強い手法があったが,3 次元形状の特徴量については強力な手法を構築する必要がある.Kinect の登場により
2.5D の距離画像が容易に取得できるようになり,3D データを取得することも困難ではなくなってきた.提案手法では,汎用的な 3 次元形状表現方法を考
案する.形状表現については hand-coding ではなく,データドリブンで 3 次元形状を学習.このために,3D ボクセルに区切られたデータから 3 次元形状の
分布を確率として表現する.それぞれの 3D メッシュはバイナリテンソルとして表現される.1=>ボクセルはメッシュ表面の内側に,0=>ボクセルはメッシュの
外側に存在すると表現.Convolutional Deep Belief Network (CDBN)を用いて複雑な 3 次元形状の確率分布学習する.CDBN は畳み込み層や全結合層
により構成されており,プーリング層は含まれていないものとする.CDBN の学習が済んで 3 次元形状に対する pre-trained モデルが構成できたら,ボクセ
ルデータ x と物体のカテゴリの同時確率である p(x,y)を学習する.
また,独自のデータセットである ModelNet を作成した(図 2).ModelNet は 3D の CAD モデルから構成されていて,151,128 の 3D CAD の物体が含まれ
ていて,ユニークカテゴリ数は 660 である.
図 1
図 2
Link(s) 論文ページ:
http://3dshapenets.cs.princeton.edu/paper.pdf
プロジェクトページ:
http://3dshapenets.cs.princeton.edu/
オーラルプレゼンテーション:
http://vision.princeton.edu/talks/2015_CVPR/2015_3DshapeNets_CVPR.pptx
【149】
Z. Xu, Y. Yang, A. G. Hauptmann, “A Discriminative CNN Video Representation for Event Detection“, in CVPR2015.
Dense Trajectories(DT)やその改良版である Improved DT(IDT)はイベント認識において優位な手法がであることが実証されてきた.IDT は良好な性能を
確保できるものの,大規模なデータとなった場合の計算コストが非常に高く,リアルタイムでの処理ができていないのが現状である.TRECVID2014 のコン
テストでは 200,000 のビデオが含まれており,8,000 時間に及ぶイベントが含まれている.500 コアの計算リソースをもってしても,特徴取得に 1 週間かかる
という報告がある[Aly+, TRECVID2013].そのため,計算コストがかからない,良好な特徴表現が必要になる.ひとつの解決策は Convolutional Neural
Networks (CNNs)を時系列特徴表現ができるように拡張する(CNN video representation)ことである.ここでは CNN 特徴を時系列でプーリングしただけでな
く,局所特徴から時系列の CNN 特徴までエンコーディングした(下図).さらに CNN video representation を高速化するために Product Quantization を導入
した.TRECVID MED13/14(10Ex/100Ex)データセットを用いた実験では,IDT よりも高い性能を示した.さらに,CNN video representation と IDT, 音声認
識で用いられる MFCC を組み合わせると TRECVID MED13 100Ex にて 48.6%,同 10Ex にて 32.2%の精度を達成した.
Link(s) 論文ページ:
http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Xu_A_Discriminative_CNN_2015_CVPR_paper.pdf
著者ページ:
http://www.cs.cmu.edu/~zhongwen/
【150】
K.-W. Cheng, Y.-T. Chen, W.-H. Fang, “Video Anomaly Detection and Localization Using Hierarchical Feature Representation
and Gaussian Process Regression“, in CVPR2015.
ビデオイベントからの異常検知はローカルとグローバルな異常に分類される.ローカルな異常は画像全体が近隣のイベントと比べて異常かどうかを判断す
るのに対して,グローバルな異常は画像全体で複数,さらには時間的にもどこに生起するのかわからない異常を検出する課題であると定義.この提案では
,グローバな異常検出を扱うこととし,階層的な特徴表現や Gaussian Process Regression (GPR)を適用することで異常検知を実現する.階層的な特徴表現
は Low-level,High-level に分類され,まず Low-level では STIP(space-time interesting points)を適用する.さらに High-level な特徴表現ではイベント間の
関係性を記述するとして,取得した STIP 間の評価を行う.この High-level 特徴量を GPR による回帰により,ノンパラメトリックに評価する.
Link(s) 論文ページ:
http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Cheng_Video_Anomaly_Detection_2015_CVPR_paper.pdf
【151】
A. Y.-S. Chia, U. Bandara, X. Wang, H. Hirano, “Protecting Against Screenshots: An Image Processing Approach“, in
CVPR2015.
プライバシーや機密情報が盗まれないように,スクリーンショットに対して保護するという研究.入力をスクリーンショット画像として,画像を歪ませた上でビュ
ーアーに返却する.この変換は,人間にとってすぐに判別可能かつリアルタイム,自動で読み取りができるようにする.(コンピュータにとって認識しづらい
Captcha 自動生成のようなもの?)
Link(s) 論文ページ:
http://www.cv-
foundation.org/openaccess/content_cvpr_2015/papers/Chia_Protecting_Against_Screenshots_2015_CVPR_paper.pdf
著者ページ:
https://sites.google.com/site/alexchiays/
【152】
J. Zbontar, Y. LeCun, “Computing the Stereo Matching Cost with a Convolutional Neural Network“, in CVPR2015.
平行ステレオの課題において,視差がわかっているという前提でステレオマッチングのためのパッチを CNN により学習する.入力はパッチ,CNN の計算
による出力はステレオマッチングの評価値である.データセットには KITTI データセットのステレオ画像を用いており,エラー率は 2.61%であったという.図
1 は両眼の視差画像であり,ステレオマッチングの視差が出力されている.学習は 4500 万枚の平行ステレオにより取得されたペアパッチである.ニューラ
ルネットのアーキテクチャは図 2 に示されている.入力は左右の画像をそれぞれ入力する.最初の層(L1)のみが畳み込み層であり,L2, L3 はそれぞれの
画像の全結合層,L4 から L7 までが結合した特徴の全結合層である.L8 が出力層であり,Ccnn(p, d)を返却する.
図 1
図 2
Link(s) 論文ページ:
http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Zbontar_Computing_the_Stereo_2015_CVPR_paper.pdf
著者ページ:
http://www.fri.uni-lj.si/en/jure-zbontar/default.html
【153】
Y.-X. Wang, M. Hebert, “Model Recommendation: Generating Object Detectors from Few Samples“, in CVPR2015.
多数の学習画像が手に入れば効果的であるが,多くの場面において少数の学習サンプルで良好な性能を発揮する学習方法も必要である.ここでは,各ク
ラス少数の学習サンプルで,かつ従来の教師あり学習に頼ることなく学習するフレームワークを提案する.
下図は Unsupervised Hyper-Training Phase と Training Phase である.Unsupervised Hyper-Training Phase ではあらかじめ学習・蓄積されたサンプルにより
生成された検出器から評価値をつけておく.新しいタスクやカテゴリに対しては,評価値を参照して物体らしさの推定値を付けていく.この評価値をつける
工程で Collaborative Filtering (協調フィルタ)を適用している.
Link(s) 論文ページ:
http://www.cv-
foundation.org/openaccess/content_cvpr_2015/papers/Wang_Model_Recommendation_Generating_2015_CVPR_paper.pdf
プロジェクトページ:
http://www.cs.cmu.edu/~yuxiongw/modelrecommendation_objectdetection.html
【154】
O. Russakovsky, L.-J. Li, L. Fei-Fei, “Best of both worlds: human-machine collaboration for object annotation“, in CVPR2015.
物体の効率的かつ高精度な検出のために,クラウドソーシングを活用したアノテーション方法についても言及する.システムへの入力は画像であり,その画
像に対してアノテーションするわけだが,拘束条件として(1) ラベル付けの活用性,(2) ラベル付けの精度,(3) 人間がアノテーションするコストを最小限にす
る,ということが挙げられる.そのため,人間がアノテーションするコストを最小限にしつつ,アノテーションの成果を最大にあげるシステムを考案する.下図
はそのシステムであり,コンピュータの検出器により出力した結果を人間がインタラクティブにタグ付けを直していく.機械の出力と人間とのインタラクション
により最終的に誤りのない出力となる.しかし,最初の機械の出力では誤りも多い中で bounding box のひとつひとつを人間に聞いていくのは極めて大変な
作業になりかねない.提案のモデルとして,ベストクエスチョンを自動的に選択してくれるというものである.人間のコストと精度はトレードオフの関係にある
が,この質問を Markov decision process (MDP)により決定する.MDP では状態 S,アクション A,遷移確率 P と報酬 R によりモデリングされる.状態 S は
画像 I により計算される.アクション A は下図の Human tasks を質問として聞く際に必要である.状態 S から S’に遷移する際の A が評価されれば,報酬 R
は高くなる.このシステムを実際に使用してみたところ,アノテーションの速度が向上している.(1) コンピュータビジョンシステムと人間のインタラクションはア
ノテーションにおいて効果的であり,(2) MDP はその際に効果的なモデルである.(3) 複雑な人間のタスクは効率的にすることができ,(4) 提案のアノテーシ
ョンシステムは ILSVRC の検出手法のみをベースにするよりも効率が良いという結果になった.
“computer vision perspective, current object detectors are far from perfect”と述べているように,ディープラーニングを始めとする手法が確立している現在に
おいてもなお,コンピュータビジョンはやることが多いと位置付けている.
Link(s) 論文ページ:
http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Russakovsky_Best_of_Both_2015_CVPR_paper.pdf
プロジェクトページ:
http://ai.stanford.edu/~olga/best_of_both_worlds.html
著者ページ:
http://ai.stanford.edu/~olga/
【155】
Mathias Gallardo, Daniel Pizarro, Adrien Bartoli and Toby Collins, “Shape-from-Template in Flatland“, in CVPR2015.
曲面の形状推定する手法.1D テンプレートを事前に作成し,そのテンプレートが画像でどのように投影されているかを算出することで,曲面形状を推定し
ている.
Link(s) 【論文】
http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Gallardo_Shape-From-
Template_in_Flatland_2015_CVPR_paper.pdf
【156】
Artem Rozantsev, Vincent Lepetit, Pascal Fua, “Flying Objects Detection from a Single Moving Camera“, in CVPR2015.
単眼カメラで飛行物体を検出する.
画像のブレ補正でノイズなどを除去した後,回帰ベースで飛行物体を検出する.
実験では外観ベース(CNN など)やモーションベース(MultiCue 背景差分)などと比較している.
データセットは UAV と Aircraft dataset を用いている.
Link(s) 【論文】
http://www.cv-
foundation.org/openaccess/content_cvpr_2015/papers/Rozantsev_Flying_Objects_Detection_2015_CVPR_paper.pdf
【157】
R. Anirudh, P. Turaga, J. Su, A. Srivastava, “Elastic Functional Coding of Human Actinos: From Vector-Fields to Latent
Variables“, in CVPR2015.
下図は提案手法の全体図である.特徴の表現を Riemannian manifold(多様体)を用いて実現しており,(Riemannian)多様体空間での軌跡を行動に対する
特徴として取り扱う.ここで,低次元空間は多様体空間において再構築しやすく,人物の行動を可視化しやすくする.特徴表現,比較,変換などがしやす
い多様体空間を構成することが精度を高めるためにも重要項目である.ここで,距離空間を設定するための射影方法が重要課題であり,dynamic time
warping (DTW)が mis-alignment 問題を解決する手法のひとつであるが,距離計算において曖昧性が残り自然な特徴の射影ができないという問題がある
ため,Transport Square-Root Velocity Function (TSRVF)により特徴空間を射影する.この TSRVF をベースにして Manifold Functional PCA (mfPCA)を構
築している.この特徴空間により,1 次もしくは 2 次(first and second order)の統計量を扱うことができ,より高次の特徴空間を扱うことに成功した.下の表は
MSRAction3D dataset に対しての処理結果である.
Link(s) 論文ページ:
http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Anirudh_Elastic_Functional_Coding_2015_CVPR_paper.pdf
【158】
B. Micusik, H. Wildenauer, “Descriptor Free Visual Indoor Localization with Line Segments“, in CVPR2015.
屋内環境における視覚による位置特定(indoor visual localization problem)に関する研究.特徴点検出と特徴点のマッチングは使用せず,代わりにクエリ画
像からの直線の検出により 3D モデルを構築することとした.提案手法はテクスチャの少ない環境において効果的であることとを示し,テクスチャに依存す
ることなく 3D モデルの構築を目指す.
下図は位置特定の概念図である.クエリ画像(入力画像)は 1 であり,直線検出した結果が 2 である.3 には virtual view にて 3 次元直線モデルとのマッチ
ング示されており,ベストマッチングした位置(4)にて位置特定する.5 では特定された位置とカメラの姿勢が推定された結果が示されている.
Link(s) 論文ページ:
http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Micusik_Descriptor_Free_Visual_2015_CVPR_paper.pdf
【159】
L. Wang, H. Lu, X. Ruan, M.-H. Yang, “Deep Networks for Saliency Detection via Local Estimation and Global Search“, in
CVPR2015.
従来の顕著性マップに関する研究(e.g. [Itti et al., PAMI1998])はボトムアップな手法であった.ローカルやグローバルな手法が提案されてきたが,その手
法は周囲との相関値をとるということをベースにしていた.しかし,意図した物体が周囲の背景と類似している場合には顕著性がうまく出ないという問題があ
る.(それは顕著性ではないのでは?)この問題を解決すべく,deep neural networks (DNNs)を用いてローカル・グローバルな手法を両立させる LEGS(local
and global search)を提案する.ローカル推定(DNN-L)ではあるピクセルが顕著かそうでないかを評価して,グローバル推定(DNN-G)ではグローバルに特徴
取得して領域から顕著性の推定値を算出する.
Link(s) 論文ページ:
http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Wang_Deep_Networks_for_2015_CVPR_paper.pdf
【160】
Z. Wu, F. Li, R. Sukthankar, J. M. Rehg, “Robust Video Segment Proposals with Painless Occlusion Handling“, in CVPR2015.
動画に対するセグメンテーションの提案.オクルージョンが激しい場面においても前処理として候補領域を提案する.長期間のアピアランスモデルを Least-
square ベースの学習手法[Li+, ICCV2013]によりトレーニングする.Li らの手法と違うのは,初期フレームにて状態を与える必要がないということや完全な
オクルージョンに対応している点である.下図はオクルージョンがある場合の対処法である.C はセグメンテーションのパラメータであり,セグメンテーション
中に更新し続ける.
Link(s) 論文ページ:
http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Wu_Robust_Video_Segment_2015_CVPR_paper.pdf
【161】
B. Liu, X. He, “Multiclass Semantic Video Segmentation with Object-level Active Inference“, in CVPR2015.
動画に対するセグメンテーションとマルチクラスの意味付け問題.supervoxel による前処理結果と,物体の仮説を候補領域として与えることにより,spatio-
temporal dense CRF によりセグメンテーションと意味付けを同時に達成する(図 1).グラフによる報酬学習には,Markov decision process (MDP)を適用して
最適化問題を解いている.図 2 は入力,ground truth (GT)と処理結果である.
図 1
図 2
Link(s) 論文ページ:
http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Liu_Multiclass_Semantic_Video_2015_CVPR_paper.pdf
著者ページ:
http://users.cecs.anu.edu.au/~u5153693/publication.html
【162】
X. Wang, Q. Ji, “Video Event Recognition with Deep HIerarchical Context Model“, in CVPR2015.
Deep Hierarchical Context Model を用いたイベント認識に関する研究.Deep hierarchical context model により 3 レベル (prior-level, semantic-level, feature-
level)の学習と統合を同時に行う.イベントに関連する環境や人物,動物体などから特徴表現とそのインタラクションを表現している.VIRAT 2.0 dataset に
対して実装した結果はグラフの通り.
Link(s) 論文ページ:
http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Wang_Video_Event_Recognition_2015_CVPR_paper.pdf
【163】
C. L. Teo, C. Fermuller, Y. Aloimonos, “Fast 2D Border Ownership Assignmnent“, in CVPR2015.
2 次元画像において効率的な border ownership (境界線がどこにあるか,その領域は背景と前景のどちらに所属するか)を求める問題.著者らはこの問題
に対し,Structural random forests (SRF)を用いることにより取り組んだ.提案手法は計算時間を短縮しただけでなく,精度の面でも向上した.320x240pixels
の画像に対して 0.1 秒で処理可能であり,従来法が Berkeley Segmentation dataset (BSDS)において 69.1%であるのに対して 74.7%を達成した.
Link(s) 論文ページ:
http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Teo_Fast_2D_Border_2015_CVPR_paper.pdf
プロジェクトページ:
http://www.umiacs.umd.edu/~cteo/BOWN_SRF/
【164】
Y. Yang, Z. Lu, G. Sundaramoorthi, “Coarse-to-Fine Region Selection and Matching“, in CVPR2015.
粗密探索により領域選択とマッチングする論文.物体の見え方が変更しても,角度やスケールを変換させた状態でマッチングする(図 1).マッチングが成功
した場合は大きな領域として,マッチングがうまく行かない場合にはさらに密に探索する.これにより,すべての領域を密に探索することなく特徴のマッチン
グを可能にする.マッチングした際には階層的なアフィンスペースにて回転やスケーリングを考慮したマッチングを行う.図 2 では提案手法と ASIFT,
Hessian Affine, MSER との比較をして定性的に有効性を示した.また,Precision-Recall curve による評価においても,最も優れた性能を示した.
図 1
図 2
Link(s) 論文ページ:
http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Yang_Coarse-To-
Fine_Region_Selection_2015_CVPR_paper.pdf
【165】
Mi Zhang, Jian Yao, Menghan Xia, Yi Zhang, Kai Li and Yaping Liu , “Line-Based Multi-Label Energy Optimization for Fisheye
Image Rectification and Calibration “, in CVPR2015.
直線検出によって魚眼レンズの歪みを補正する手法.
魚眼レンズで撮影した画像から,歪みを考慮した直線を検出する.そして,その直線の中から元画像を構成する直線を自動選択する(Automatic circular
Arcs Selection).
歪み補正の結果
Link(s) 【論文】
http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Zhang_Line-Based_Multi-
Label_Energy_2015_CVPR_paper.pdf
【166】
D. Perra, R. K. Gupta, J.-M. Frahm, “Adaptive Eye-Camera Calibration for Head-Worn Devices“, in CVPR2015.
視線推定に関するキャリブレーションの論文.Head-worn デバイス(頭に取り付けたメガネ状のデバイスから目領域を映すカメラ)を用いた連続的かつ局所
最適化によりキャリブレーションを実現する.図 1 のように人物の目を写した画像から pupil や glint の検出, gaze 方向推定を行う.そこで生じたエラーを顕
著性マップとの誤差を最小化するよう最適化する(図 2).最適化の手法としては least-squares optimization (最小二乗最適化)を用いる.いかに Head-worn
デバイスからキャリブレーションを高精度に行うかを解決した.
図 1
図 2
Link(s) 論文ページ:
http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Perra_Adaptive_Eye-
Camera_Calibration_2015_CVPR_paper.pdf
【167】
Hang Zhang, Kristin Dana, Ko Nishino, “Reflectance Hashing for Material Recognition“, in CVPR2015.
反射から画像に写った物体の素材を認識する手法.
ラベル付きの学習画像から複数のフィルタ(Gaussian, Laplacian and oriented gradient)で特徴を抽出し,クラスタリングしておく.それを Textons として保持し
ておく,入力画像にたいして同じフィルタ特徴を抽出することで素材を認識している.
Link(s) 【論文】
http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Zhang_Reflectance_Hashing_for_2015_CVPR_paper.pdf
【168】
L. Niu, W. Li, D. Xu, “Visual Recognition by Learning from Web Data: A Weakly Supervised Domain Generalization Approach“,
in CVPR2015.
ウェブから取得した画像/動画からいかに情報を少なく(弱教師学習)学習するのかを考察.データによって偏りがあり,いかに攻略するかが鍵となる.この問
題は,dataset bias problem と呼ばれている.ターゲットドメインが取得できない時には,関連する項目から domain adaptation が必要であり,未知のターゲッ
トドメインを推定する必要が生じる.この問題を解くために,domain generalization という設定(WSDG; weakly supervised domain generalization)にする.具
体的には,トレーニング画像や動画はタグが付いているが,確実性に欠けるということやテスト時のターゲットドメインはデータの分散値がトレーニング時と
は異なるという問題を解く必要がある.著者らは Multiple Instance Learning (MIL)適用して,マルチクラスの MIL 分類として解くことでこの解決を図った.
下図では,弱教師ありの画像(画像のテキストによるタグ付け)を入力として,MIL ベースの手法による潜在的なドメイン推定を行い,最終的にはどのドメイン
をつけるべきかというラベルを推定する.表は実験結果であり,ラベルノイズを最小化している.
Link(s) 論文ページ:
http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Niu_Visual_Recognition_by_2015_CVPR_paper.pdf
【169】
Lianli Gao, Jingkuan Song, Feiping Nie, Yan Yan, Nicu Sebe, Heng Tao Shen, “Optimal Graph Learning with Partial Tags and
Multiple Features for Image and Video Annotation “, in CVPR2015.
ビデオや画像のためのラベル付け手法の提案.
ビデオや画像から複数の特徴を抽出し,1 つの特徴で 1 つのラベルをつけていく.それを optical graph で最適化し,semi-supervised learning で学習する
ことによって,より頑健なラベル付けを可能にしている.(optimal graph learning: OGL)
実験では IXMAS dataset を用いた.
Link(s) 【論文】
http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Gao_Optimal_Graph_Learning_2015_CVPR_paper.pdf
【170】
S. Zagoruyko, N. Komodakis, “Learning to Compare Image Patches via Convolutional Neural Networks“, in CVPR2015.
二つの画像を Convolutional Neural Networks (CNN)に入力して,類似度計算.コントリビューションとして,(i)いかに deep learning のフレームワークの中で
(特徴設計することなく)類似度を計算するか. (ii) その際のネットワークアーキテクチャを提案する. (iii) SIFT や DAISY など既存の特徴記述方法よりも高
い性能をたたき出すことが挙げられる.ベースとなるニューラルネットのアーキテクチャは Siamese,pseudo-siamese, 2 チャネル,入力が 2 枚の画像,
spatial-pyramid pooling (SPP)という特徴がある(下図参照).表では実験結果を示しており,convex optimization の 2.45 倍,SIFT の 6.65 倍のスコア値を示
した.
Link(s) 論文ページ:
http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Zagoruyko_Learning_to_Compare_2015_CVPR_paper.pdf
プロジェクトページ:
http://imagine.enpc.fr/~zagoruys/deepcompare.html
【171】
M. Rochan, Y. Wang, “Weakly Supervised Localization of Novel Objects Using Appearance Transfer“, in CVPR2015.
最近の ConvNet+ImageNet の成功により,1000 クラスの画像認識問題を解くに至っている.しかし,学習したクラスのみが認識対象であるため,容易にクラ
スを追加することはできない.ここでは,元々あるモデルからいかにクラスを追加するかというアピアランスの転移問題を考案する.下図は提案手法の概要
である.図の左上では弱教師(画像の物体名)が割り振られており(novel object),一方で位置も含めたタグ付けが行われている画像を与えておく.タグ付け
した画像は必ずしも対象となる物体のものではなく,knowledge transfer(転移学習)によりアピランスモデルを獲得する(familiar).位置も含めた最終的な検
出は,novel object と familiar objects により得ることができる.
Link(s) 論文ページ:
http://www.cv-
foundation.org/openaccess/content_cvpr_2015/papers/Rochan_Weakly_Supervised_Localization_2015_CVPR_paper.pdf
【172】
J. Valentin, M. Niessner, J. Shotton, A. Fitzgibbon, S. Izadi, P. Torr, “Exploiting Uncertainty in Regression Forests for Accurate
Camera Relocalization“, in CVPR2015.
RGB-D を入力とした camera relocalization (画像からカメラの位置や姿勢を推定)方法の改善を提案する.この論文では,Regression forest を適用して 3 次
元の位置や姿勢を推定するための mixtures of anisotropic 3D Gaussians を計算する.実験では,ベースライン手法 79.3%や 67.6%であったのに対して提
案手法では 89.5%と良好な性能を示した.
下図は提案手法のフレームワークであり,RGB-D を入力とする.サンプリング点を獲得して Regression forest へと入力することで,シーン中の位置を推定
する.さらには RANSAC による繰り返し処理により最適化するという流れである.
Link(s) 論文ページ:
http://www.cv-
foundation.org/openaccess/content_cvpr_2015/papers/Valentin_Exploiting_Uncertainty_in_2015_CVPR_paper.pdf
【173】
T. D. Kulkarni, P. Kohli, J. B. Tenenbaum, V. Mansinghka, “Picture: a probablistic programming language for scene perception“,
in CVPR2015.
Discriminative model(識別的モデル)と Generative model(生成モデル)から 3D の再構成問題を解くための probabilistic programming language を提案する
.ここでは,3 次元顔認識,3 次元物体構成,3 次元人物姿勢推定を対象としてあつかう.下図では概要を示している.シーンが与えられ,対象がレンダリ
ングされた際に,表現するレイヤー(deep neural net, contours, skeletons, pixels)があり,さらに観測された画像を参照して尤度や尤度によらない比較が行わ
れる.Generative model の推定法には MCMC や Hamiltonian MC を用いる.再構成された 3 次元の顔や物体,人物姿勢の例が図の下に表示されている
.
Link(s) 論文ページ:
http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Kulkarni_Picture_A_Probabilistic_2015_CVPR_paper.pdf
プロジェクトページ:
http://mrkulk.github.io/www_cvpr15/
【174】
B. Taylor, V. Karasev, S. Soatto, “Causal Video Object Segmentation From Persistence of Occlusions“, in CVPR2015.
ビデオに対するセグメンテーション手法について提案した.オクルージョンが発生している場面に対しても頑健に領域が推定できる.小さい物体においても
正しく推定できている.例えば,下図の一番右の腕の領域にある赤領域はバッグのストラップの領域である.
ここでは,モーションやアピアランスの事前情報を用いてオクルージョンの領域を推定しつつセグメンテーションを達成している.
Link(s) 論文ページ:
http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Taylor_Causal_Video_Object_2015_CVPR_paper.pdf
【175】
W. Li, N. Vasconcelos, “Multiple Instance Learning for Soft Bags via Top Instances“, in CVPR2015.
Multiple Instance Learning (MIL)は弱教師あり学習の一種であり,画像認識の場合においては例えば画像の中に写っている物体の(位置を与えずに)タグ
を付けておいて統計的解析を行うと認識の特徴量が自動で学習されるという仕組みである.これを,positive bag と negative bag の 2 種に分けることにより,
有効な特徴を自動で学習してくれるのが MIL の利点である.しかし,positive よりも圧倒的に negative サンプルの方が多い場面があり,また positive と
negative が類似している場合も存在する.これを,soft bags という柔軟な表現法にすることでクラス間やサンプルが入った bag の表現能力を高めるという手
法.
Link(s) 論文ページ:
http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Li_Multiple_Instance_Learning_2015_CVPR_paper.pdf
【176】
J. Wu, Y. Yu, C. Huang, K. Yu, “Deep Multiple Instance Learning for Image Classification and Auto-Annotation“, in CVPR2015.
Deep Learning に Multiple Instance Learning (MIL)を導入し,弱教師付き学習を導入することで,識別や識別のためのアノテーションを自動化するという論
文.クラスをインスタンスのバッグ,サンプルをそれぞれのバッグとみなして学習する.下図ではそれぞれ候補領域と画像タグから MIL により学習することで
,物体の検出が成功している.論文では候補領域(object proposal)とアノテーション(keywords)の情報から同時学習のための対応行列を計算する.これに
より Deep Multiple Instance Learning の弱教師あり学習が実行できる.表は MIT Indoor Scene 67 dataset による実験であり,提案手法である DMIL の候補
領域とアノテーションの同時学習が 61.2%と良好な性能であることが判明した.CNN 特徴による識別では 57.7%である.MLrep が 64.0%であるが,これは
処理コストが大きく,なおかつデータセットに fine-tuning している.
Link(s) 論文ページ:
http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Wu_Deep_Multiple_Instance_2015_CVPR_paper.pdf
【177】
A. Babenko, V. Lempithsky, “Tree Quantization for Large-Scale Similarity Search and Classification“, in CVPR2015.
大規模画像データ探索の問題をいかに効率良く行うかという問題設定.従来では product quantization (PQ) [Jegou+, TPAMI2011]が提案されており,ベク
トルの次元数をグループ分けしてクラスタリングするという手法を採用していた.これに対して additive quantization (AQ)は PQ と違うところはベクトルの次元
数がフルで取得するところにある.しかし,AQ の弱点は AQ にあり, 問題点を解決するために Tree Quantization (TQ)が用いられる.下図が TQ のフロー
図であり,木構造で codewords が格納されている.
Link(s) 論文ページ:
http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Babenko_Tree_Quantization_for_2015_CVPR_paper.pdf
【178】
G. Dogan, J. Bernal, C. R. Hagwood, “A Fast Algorithm for Elastic Shape Distances between Closed Planar Curves“, in
CVPR2015.
高速かつ繰り返し処理によりヒューリスティックに elastic な形状を求めるアルゴリズムを考案した.提案手法は[Srivastava+, TPAMI2011]の手法を参考にし
ている.Srivastava らの手法は dynamic programming (DP)をもとにパラメータを求めているが,提案手法では非線形制約最適化手法を用いることで再帰的
にパラメータを決定することができる.
Link(s) 論文ページ:
http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Dogan_A_Fast_Algorithm_2015_CVPR_paper.pdf
【179】
J. C. Rubio, B. Ommer, “Regularizing Max-Margin Exemplars by Reconstruction and Generative Models“, in CVPR2015.
Positive クラスからあらかじめ特徴を抽出しておき,local discriminative analysis (LDA)によりマージンを求めておく.提案手法ではさらに, positive と
negative クラスを生成モデルにより作成し,特徴空間における max-margin を最適化する.この処理により,提案手法は PASCAL07 データセットにてオリジ
ナルの Exemplar SVM(33.0%)よりも精度が高い 34.6%/33.6%を達成し,なおかつ学習時間の面でも Exemplar SVM が約 40 時間かかるところを提案手法
は 14 時間/14 分で実現できている.
Link(s) 論文ページ:
http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Rubio_Regularizing_Max-
Margin_Exemplars_2015_CVPR_paper.pdf
【180】
D. Lee, H. Park, C. D. Yoo, “Face Alignment using Cascade Gaussian Process Regression Trees“, in CVPR2015.
顔の傾き(face alignment)があったとしても,回帰モデルや繰り返し処理を行うことで顔の特徴点にフィッティングする.従来ではこの問題に対して gradient
boosting と呼ばれる方法が適用されていたが,これを cascade Gaussian Process Regression Trees (cGPRT)を用いることで精度よく傾きがある状態でも顔の
特徴点位置を推定する. cGPRT に入力される特徴は local retinal patterns の Difference of Gaussian (DoG)である.図 1 は繰り返し処理による顔特徴点の
推定の様子であり,図 2 は DoG の取得(a),local retinal patterns(b),特徴量の比較を示す.
図 1
図 2
Link(s) 論文ページ:
http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Lee_Face_Alignment_Using_2015_CVPR_paper.pdf
【181】
M. Kabra, A. Robie, K. Branson, “Understanding Classifier Errors by Examining Influential Neighbors“, in CVPR2015.
特徴空間においてクラス間の influential な サンプルを見つけて距離指標を与える論文.これにより,識別境界あたりの学習を密に行うことができ,識別の
エラーを理解することでエラー率が低減できるとしている.下図のように influential なサンプルを理解し,同じクラス同士のサンプル間の距離が近くなるよう
に特徴空間を設計する.
Link(s) 論文ページ:
http://www.cv-
foundation.org/openaccess/content_cvpr_2015/papers/Kabra_Understanding_Classifier_Errors_2015_CVPR_paper.pdf
【182】
T.-H. Chao, Y.-L. Lin, Y.-H. Kuo, W. H. Hsu, “Scalable Object by Filter Compression with Regularized Sparse Coding“, in
CVPR2015.
提案手法である Regularized Sparse Coding により,学習データセットを正規化し,オンラインの処理工程ではその正規化結果を用いて物体を認識する.特
徴としては DPM によるフィルタリングを行い,コードブックを生成しておく.生成したコードブックを参照して,学習サンプルの特徴を蓄積していく.この際に
スパースコーディングによる拡張された空間に投影して識別率を高めるための処理とする(performance augmented sparse activation).オンラインの処理をす
る際には,フィルタリングの処理は入力データの変換の際のみに適用され,特徴空間のサンプルと比較する.このモデルによりオリジナルの DPM からおよ
そ 16 倍高速化を実現し,1.25%のメモリ量で処理,0.04mAP の減少で済んだと述べている.
Link(s) 論文ページ:
http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Chao_Scalable_Object_Detection_2015_CVPR_paper.pdf
【183】
R. Kennedy, C. J. Taylor, “Hierarchically-Constrained Optical Flow“, in CVPR2015.
オプティカルフローは 2 フレーム間のモーションベクトルを推定する手法である.近年ではこの問題に対してグラフィカルモデルを適用した例が多く,グラフ
最適化によりモーションベクトルを推定してきた.しかし,グローバルに推定することは NP-hard になってしまい困難な課題である.そこで提案手法では
Tree-base のグラフモデルを設定することでこの計算時間の問題を解決した.ここでは tree-structured Markov random field (MRF)を適用して画像に対する
オプティカルフロー空間を推定する.図 1 は提案モデルの概念図である.エッジの重みがセグメントの評価値となり,最終的にはそれぞれのピクセルに対
する出力結果となる.図 2 が提案手法を用いた結果である.
図 1
図 2
Link(s) 論文ページ:
http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Kennedy_Hierarchically-
Constrained_Optical_Flow_2015_CVPR_paper.pdf
【184】
X. Zhou, S. Leonardos, X. Hu, K. Daniilidis, “3D Shape Estimation from 2D Landmarks: A Convex Relaxation Approach“, in
CVPR2015.
2 次元の特徴点から人物の 3 次元姿勢を推定する問題.2D の特徴点-3 次元形状の最適化には凸最適化によりそれぞれの空間のマッチングを行う.顔
の 3 次元再構成問題である active shape model の姿勢推定版と思えば良いが,人物姿勢推定のようなより複雑な空間においてマッチングするために拡張
している.spectral-norm regularization により損失関数を計算して誤差を最小化した.下図の右から左はそれぞれ,入力の 2D 特徴点,3 次元復元,凸最
適化による最適化例である.実験では人物姿勢のみならず,クルマの 2 次元特徴点から 3 次元形状を復元している.
Link(s) 論文ページ:
http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Zhou_3D_Shape_Estimation_2015_CVPR_paper.pdf
【185】
A. Eriksson, T. T. Pham, T.-J. Chin, I. Reid, “The k-support Norm and Convex Envelopes of Cardinality and Rank“, in
CVPR2015.
コンピュータビジョンにおいて sparsity(スパース性)は二つの大きな研究目的があり,ひとつは計算コストの削減,もう一つはモデルの簡略化が挙げられ,い
かに計算コスト少なく高精度な手法を考案するかがキーである.[Lai+, ECCV2014]では[Argyriou+, NIPS2012]の改良として k-support norm の正規最適化
問題を解いた.Argyriou らは Lai らの手法をバイナリ探索問題として置き換えることで改良を施した.この手法は計算時間の面で改良したと言えるが,未だ
膨大な計算時間がかかってしまい非効率である.提案手法ではこの問題を convex envelopes(凸包絡)として与えられた集合を含む最小の凸集合とみなし
て最適化を行う.ここで nuclear norm や spectral k-support norm も評価している.下図はノイズ画像(中央)と spectral k-support norm(右)を用いてノイズ除去
をした結果である.
Link(s) 論文ページ:
http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Eriksson_The_k-Support_Norm_2015_CVPR_paper.pdf
【186】
Q. Sun, A. Laddha, D. Batra, “Active Learning for Structured Probabilistic Models with Histogram Approximation“, in
CVPR2015.
提案手法では,Conditional Random Fields (CRFs)のような確率モデルを,active learning により最適化する手法する方法を考案する.主なコントリビューシ
ョンは[Martin+, Foundations and Trends in Machine Learning 2008]の手法を用いてエントロピー計算を近似してモデルを求める部分である.下図は提案手
法の概念図であり,Histogram Approximation を提案して,エントロピー計算を行ったことにより,セグメンテーションの結果を良好にした.実験では,Gibbs
sampling などの分布推定方法よりも高いセグメンテーションの精度を実現した.
Link(s) 論文ページ:
http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Sun_Active_Learning_for_2015_CVPR_paper.pdf
著者ページ:
https://filebox.ece.vt.edu/~dbatra/pubs.html
【187】
B. Klein, G. Lev, G. Sadeh, L. Wolf, “Associating Neural Word Embeddings with Deep Image Representations using Fisher
Vectors“, in CVPR2015.
最近では画像の生成文が非常に注目されている.画像生成文とは,画像を入力するとその画像を説明する文章が出力されるという課題である.この問題
に対して word2vec を導入したモデルで,Fisher Vector による認識結果を照らし合わせると効果的な画像生成文ができるという提案.この論文では Fisher
Vector 表現をする際に Gaussian Mixture Model (GMM)ではなく Laplacian Mixture Model (LMM)によりベクトルを生成する方が画像生成文に対しては有
効であると述べている.分布の推定には Expectation-Maximization(EM)推定を用いている.さらには,ふたつの分布をひとつのモデルとして扱うために
Hybrid Gaussian-Laplacian Mxiture Model (HGLMM)を提案して認識に適用.画像ベクトルは CNN の VGG モデルにより表現し,テキストは word2vec に
より表現.これは HGLMM を分布に持つ Fisher Vector により変換される.さらには Text=>Image のマッチングには Canonical Correlations Analysis (CCA)
によりマッチングを実行する.下の表は関連手法との比較を示し,提案法が良好な性能を示していることがわかる.
Link(s) 論文ページ:
http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Klein_Associating_Neural_Word_2015_CVPR_paper.pdf
【188】
H. Fu, D. Xu, S. Lin, J. Liu, “Object-based RGBD Image Co-segmentation with Mutex Constraints“, in CVPR2015.
co-segmentation は前景領域が与えられた際,異なる画像において類似する前景領域を抽出する問題である.提案手法では,RGBD を入力とした前景に
対する co-saliency map を作成した上でオブジェクトベースの co-segmentation を行う.下図は RGB と D 画像,co-saliency マップ,最終的な co-
segmentation の結果を示す.ここでは mutual exclusion による拘束(mutex constraints; mutex; 相互排除)も与えることで従来の RGB-D による co-
segmentation よりも高い性能を示した.
Link(s) 論文ページ:
http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Fu_Object-Based_RGBD_Image_2015_CVPR_paper.pdf
プロジェクトページ:
https://sites.google.com/site/huazhufu/home/rgbdseg
【189】
W. Yang, Y. Ji, H. Lin, Y. Yang, S. B. Kang, J. Yu, “Ambient Occlusion via Compressive Visibility Estimation“, in CVPR2015.
形状の特性として,ambient occlusion (入り組んだオクルージョン)が非常に困難であるが,形状復元する際には非常に困難な問題となる.提案手法では,
ambient occlusion 問題に対して複数の光源を照射して形状を復元することにより,有効な解決策を与える.下図が提案手法のシステム構成とその結果で
ある.
Link(s) 論文ページ:
http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Yang_Ambient_Occlusion_via_2015_CVPR_paper.pdf
著者ページ:
http://research.microsoft.com/en-us/um/people/sbkang/publications/
【190】
F. Yan, K. Mikolajczyk, “Deep Correlation for Matching Images and Text“, in CVPR2015.
提案手法では Deep canonical correlation analysis (DCCA)を用いることで画像とテキストをマッチングするための潜在空間を学習する.DCCA は二つのベ
クトル間の相関値を deep neural network により計算する手法であり,[Andrew+, ICML2013]により提案された.提案手法ではこの DCCA を用いることでよ
り大規模な特徴空間においてもマッチングを実現させ,複雑な文章を生成することに成功した.Flickr30k dataset を用いた実験においても良好な性能を実
現した.
Link(s) 論文ページ:
http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Yan_Deep_Correlation_for_2015_CVPR_paper.pdf
プロジェクトページ:
https://sites.google.com/site/visenproject/home
【191】
H. Zhang, J. Yang, “Intra-Frame Deblurring by Leveraging Inter-Frame Camera Motion“, in CVPR2015.
ビデオに対するデブラーの手法としては,大きく分けて二つある.ひとつはフレーム内にて独立にデブラーしてフレームをつなぎ合わせる手法,もうひとつ
はフレーム間でカメラモーション推定をする手法である.提案手法ではこの両者を組み合わせることにより,効果的な動画に対するデブラー手法を提案す
る.カメラ間の動きを推定するためには画像のモーション推定を密に行う必要があり,ブラー自体を推定するためにはモーションが取得できていると高精度
に推定ができる.これを同時に解くための最適化としてデータ項(data term)と時系列項(temporal term),正規化項(generic regularization term)を定義して最
適化問題を解く.従来のデブラー法との比較は下記に示される.提案法では,文字まではっきりと復元されている.
Link(s) 論文ページ:
http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Zhang_Intra-Frame_Deblurring_by_2015_CVPR_paper.pdf
プロジェクトページ:
https://sites.google.com/site/hczhang1/projects/video_deblur
【2015.07】(2/2)cvpaper.challenge@CVPR2015
【2015.07】(2/2)cvpaper.challenge@CVPR2015
【2015.07】(2/2)cvpaper.challenge@CVPR2015
【2015.07】(2/2)cvpaper.challenge@CVPR2015
【2015.07】(2/2)cvpaper.challenge@CVPR2015
【2015.07】(2/2)cvpaper.challenge@CVPR2015
【2015.07】(2/2)cvpaper.challenge@CVPR2015
【2015.07】(2/2)cvpaper.challenge@CVPR2015
【2015.07】(2/2)cvpaper.challenge@CVPR2015
【2015.07】(2/2)cvpaper.challenge@CVPR2015
【2015.07】(2/2)cvpaper.challenge@CVPR2015
【2015.07】(2/2)cvpaper.challenge@CVPR2015
【2015.07】(2/2)cvpaper.challenge@CVPR2015
【2015.07】(2/2)cvpaper.challenge@CVPR2015

Contenu connexe

Tendances

【2015.08】(3/5)cvpaper.challenge@CVPR2015
【2015.08】(3/5)cvpaper.challenge@CVPR2015【2015.08】(3/5)cvpaper.challenge@CVPR2015
【2015.08】(3/5)cvpaper.challenge@CVPR2015cvpaper. challenge
 
【2016.07】cvpaper.challenge2016
【2016.07】cvpaper.challenge2016【2016.07】cvpaper.challenge2016
【2016.07】cvpaper.challenge2016cvpaper. challenge
 
【2017.05】 cvpaper.challenge 2017
【2017.05】 cvpaper.challenge 2017【2017.05】 cvpaper.challenge 2017
【2017.05】 cvpaper.challenge 2017cvpaper. challenge
 
【2016.02】cvpaper.challenge2016
【2016.02】cvpaper.challenge2016【2016.02】cvpaper.challenge2016
【2016.02】cvpaper.challenge2016cvpaper. challenge
 
【2016.01】(2/3)cvpaper.challenge2016
【2016.01】(2/3)cvpaper.challenge2016【2016.01】(2/3)cvpaper.challenge2016
【2016.01】(2/3)cvpaper.challenge2016cvpaper. challenge
 
【2016.06】cvpaper.challenge2016
【2016.06】cvpaper.challenge2016【2016.06】cvpaper.challenge2016
【2016.06】cvpaper.challenge2016cvpaper. challenge
 
【2016.12】cvpaper.challenge2016
【2016.12】cvpaper.challenge2016【2016.12】cvpaper.challenge2016
【2016.12】cvpaper.challenge2016cvpaper. challenge
 
【2016.08】cvpaper.challenge2016
【2016.08】cvpaper.challenge2016【2016.08】cvpaper.challenge2016
【2016.08】cvpaper.challenge2016cvpaper. challenge
 
【2016.04】cvpaper.challenge2016
【2016.04】cvpaper.challenge2016【2016.04】cvpaper.challenge2016
【2016.04】cvpaper.challenge2016cvpaper. challenge
 
【2016.05】cvpaper.challenge2016
【2016.05】cvpaper.challenge2016【2016.05】cvpaper.challenge2016
【2016.05】cvpaper.challenge2016cvpaper. challenge
 
【2016.03】cvpaper.challenge2016
【2016.03】cvpaper.challenge2016【2016.03】cvpaper.challenge2016
【2016.03】cvpaper.challenge2016cvpaper. challenge
 
【2016.01】(3/3)cvpaper.challenge2016
【2016.01】(3/3)cvpaper.challenge2016【2016.01】(3/3)cvpaper.challenge2016
【2016.01】(3/3)cvpaper.challenge2016cvpaper. challenge
 
【2016.01】(1/3)cvpaper.challenge2016
【2016.01】(1/3)cvpaper.challenge2016【2016.01】(1/3)cvpaper.challenge2016
【2016.01】(1/3)cvpaper.challenge2016cvpaper. challenge
 
cvpaper.challenge@CVPR2015(Action Recognition)
cvpaper.challenge@CVPR2015(Action Recognition)cvpaper.challenge@CVPR2015(Action Recognition)
cvpaper.challenge@CVPR2015(Action Recognition)cvpaper. challenge
 
cvpaper.challenge@CVPR2015(Re-ID)
cvpaper.challenge@CVPR2015(Re-ID)cvpaper.challenge@CVPR2015(Re-ID)
cvpaper.challenge@CVPR2015(Re-ID)cvpaper. challenge
 
cvpaper.challenge@CVPR2015(Dataset)
cvpaper.challenge@CVPR2015(Dataset)cvpaper.challenge@CVPR2015(Dataset)
cvpaper.challenge@CVPR2015(Dataset)cvpaper. challenge
 
【2016.10】cvpaper.challenge2016
【2016.10】cvpaper.challenge2016【2016.10】cvpaper.challenge2016
【2016.10】cvpaper.challenge2016cvpaper. challenge
 
cvpaper.challenge@CVPR2015(Attribute)
cvpaper.challenge@CVPR2015(Attribute)cvpaper.challenge@CVPR2015(Attribute)
cvpaper.challenge@CVPR2015(Attribute)cvpaper. challenge
 
【2017.06】 cvpaper.challenge 2017
【2017.06】 cvpaper.challenge 2017【2017.06】 cvpaper.challenge 2017
【2017.06】 cvpaper.challenge 2017cvpaper. challenge
 

Tendances (20)

【2015.08】(3/5)cvpaper.challenge@CVPR2015
【2015.08】(3/5)cvpaper.challenge@CVPR2015【2015.08】(3/5)cvpaper.challenge@CVPR2015
【2015.08】(3/5)cvpaper.challenge@CVPR2015
 
【2016.07】cvpaper.challenge2016
【2016.07】cvpaper.challenge2016【2016.07】cvpaper.challenge2016
【2016.07】cvpaper.challenge2016
 
【2017.05】 cvpaper.challenge 2017
【2017.05】 cvpaper.challenge 2017【2017.05】 cvpaper.challenge 2017
【2017.05】 cvpaper.challenge 2017
 
【2016.02】cvpaper.challenge2016
【2016.02】cvpaper.challenge2016【2016.02】cvpaper.challenge2016
【2016.02】cvpaper.challenge2016
 
【2016.01】(2/3)cvpaper.challenge2016
【2016.01】(2/3)cvpaper.challenge2016【2016.01】(2/3)cvpaper.challenge2016
【2016.01】(2/3)cvpaper.challenge2016
 
【2016.06】cvpaper.challenge2016
【2016.06】cvpaper.challenge2016【2016.06】cvpaper.challenge2016
【2016.06】cvpaper.challenge2016
 
【2016.12】cvpaper.challenge2016
【2016.12】cvpaper.challenge2016【2016.12】cvpaper.challenge2016
【2016.12】cvpaper.challenge2016
 
【2016.08】cvpaper.challenge2016
【2016.08】cvpaper.challenge2016【2016.08】cvpaper.challenge2016
【2016.08】cvpaper.challenge2016
 
【2016.04】cvpaper.challenge2016
【2016.04】cvpaper.challenge2016【2016.04】cvpaper.challenge2016
【2016.04】cvpaper.challenge2016
 
【2016.05】cvpaper.challenge2016
【2016.05】cvpaper.challenge2016【2016.05】cvpaper.challenge2016
【2016.05】cvpaper.challenge2016
 
【2016.03】cvpaper.challenge2016
【2016.03】cvpaper.challenge2016【2016.03】cvpaper.challenge2016
【2016.03】cvpaper.challenge2016
 
【2016.01】(3/3)cvpaper.challenge2016
【2016.01】(3/3)cvpaper.challenge2016【2016.01】(3/3)cvpaper.challenge2016
【2016.01】(3/3)cvpaper.challenge2016
 
【2016.01】(1/3)cvpaper.challenge2016
【2016.01】(1/3)cvpaper.challenge2016【2016.01】(1/3)cvpaper.challenge2016
【2016.01】(1/3)cvpaper.challenge2016
 
cvpaper.challenge@CVPR2015(Action Recognition)
cvpaper.challenge@CVPR2015(Action Recognition)cvpaper.challenge@CVPR2015(Action Recognition)
cvpaper.challenge@CVPR2015(Action Recognition)
 
cvpaper.challenge@CVPR2015(Re-ID)
cvpaper.challenge@CVPR2015(Re-ID)cvpaper.challenge@CVPR2015(Re-ID)
cvpaper.challenge@CVPR2015(Re-ID)
 
cvpaper.challenge@CVPR2015(Dataset)
cvpaper.challenge@CVPR2015(Dataset)cvpaper.challenge@CVPR2015(Dataset)
cvpaper.challenge@CVPR2015(Dataset)
 
【2016.10】cvpaper.challenge2016
【2016.10】cvpaper.challenge2016【2016.10】cvpaper.challenge2016
【2016.10】cvpaper.challenge2016
 
cvpaper.challenge@CVPR2015(Attribute)
cvpaper.challenge@CVPR2015(Attribute)cvpaper.challenge@CVPR2015(Attribute)
cvpaper.challenge@CVPR2015(Attribute)
 
【2017.06】 cvpaper.challenge 2017
【2017.06】 cvpaper.challenge 2017【2017.06】 cvpaper.challenge 2017
【2017.06】 cvpaper.challenge 2017
 
CVPR 2016 まとめ v1
CVPR 2016 まとめ v1CVPR 2016 まとめ v1
CVPR 2016 まとめ v1
 

En vedette

cvpaper.challenge in CVPR2015 (PRMU2015年12月)
cvpaper.challenge in CVPR2015 (PRMU2015年12月)cvpaper.challenge in CVPR2015 (PRMU2015年12月)
cvpaper.challenge in CVPR2015 (PRMU2015年12月)cvpaper. challenge
 
TensorFlowによるCNNアーキテクチャ構築
TensorFlowによるCNNアーキテクチャ構築TensorFlowによるCNNアーキテクチャ構築
TensorFlowによるCNNアーキテクチャ構築Hirokatsu Kataoka
 
cvpaper.challenge@CVPR2015(Deep Neural Networks)
cvpaper.challenge@CVPR2015(Deep Neural Networks)cvpaper.challenge@CVPR2015(Deep Neural Networks)
cvpaper.challenge@CVPR2015(Deep Neural Networks)cvpaper. challenge
 
Convolutional Neural Networks のトレンド @WBAFLカジュアルトーク#2
Convolutional Neural Networks のトレンド @WBAFLカジュアルトーク#2Convolutional Neural Networks のトレンド @WBAFLカジュアルトーク#2
Convolutional Neural Networks のトレンド @WBAFLカジュアルトーク#2Daiki Shimada
 
これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...
これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...
これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...cvpaper. challenge
 
【チュートリアル】動的な人物・物体認識技術 -Dense Trajectories-
【チュートリアル】動的な人物・物体認識技術 -Dense Trajectories-【チュートリアル】動的な人物・物体認識技術 -Dense Trajectories-
【チュートリアル】動的な人物・物体認識技術 -Dense Trajectories-Hirokatsu Kataoka
 
【チュートリアル】コンピュータビジョンによる動画認識
【チュートリアル】コンピュータビジョンによる動画認識【チュートリアル】コンピュータビジョンによる動画認識
【チュートリアル】コンピュータビジョンによる動画認識Hirokatsu Kataoka
 
introduce to Multimodal Deep Learning for Robust RGB-D Object Recognition
introduce to Multimodal Deep Learning for Robust RGB-D Object Recognitionintroduce to Multimodal Deep Learning for Robust RGB-D Object Recognition
introduce to Multimodal Deep Learning for Robust RGB-D Object RecognitionWEBFARMER. ltd.
 
Extended Co-occurrence HOG with Dense Trajectories for Fine-grained Activity ...
Extended Co-occurrence HOG with Dense Trajectories for Fine-grained Activity ...Extended Co-occurrence HOG with Dense Trajectories for Fine-grained Activity ...
Extended Co-occurrence HOG with Dense Trajectories for Fine-grained Activity ...Hirokatsu Kataoka
 

En vedette (11)

cvpaper.challengeについて
cvpaper.challengeについてcvpaper.challengeについて
cvpaper.challengeについて
 
cvpaper.challenge in CVPR2015 (PRMU2015年12月)
cvpaper.challenge in CVPR2015 (PRMU2015年12月)cvpaper.challenge in CVPR2015 (PRMU2015年12月)
cvpaper.challenge in CVPR2015 (PRMU2015年12月)
 
TensorFlowによるCNNアーキテクチャ構築
TensorFlowによるCNNアーキテクチャ構築TensorFlowによるCNNアーキテクチャ構築
TensorFlowによるCNNアーキテクチャ構築
 
cvpaper.challenge@CVPR2015(Deep Neural Networks)
cvpaper.challenge@CVPR2015(Deep Neural Networks)cvpaper.challenge@CVPR2015(Deep Neural Networks)
cvpaper.challenge@CVPR2015(Deep Neural Networks)
 
cvpaper.challenge@R-CNN
cvpaper.challenge@R-CNNcvpaper.challenge@R-CNN
cvpaper.challenge@R-CNN
 
Convolutional Neural Networks のトレンド @WBAFLカジュアルトーク#2
Convolutional Neural Networks のトレンド @WBAFLカジュアルトーク#2Convolutional Neural Networks のトレンド @WBAFLカジュアルトーク#2
Convolutional Neural Networks のトレンド @WBAFLカジュアルトーク#2
 
これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...
これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...
これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...
 
【チュートリアル】動的な人物・物体認識技術 -Dense Trajectories-
【チュートリアル】動的な人物・物体認識技術 -Dense Trajectories-【チュートリアル】動的な人物・物体認識技術 -Dense Trajectories-
【チュートリアル】動的な人物・物体認識技術 -Dense Trajectories-
 
【チュートリアル】コンピュータビジョンによる動画認識
【チュートリアル】コンピュータビジョンによる動画認識【チュートリアル】コンピュータビジョンによる動画認識
【チュートリアル】コンピュータビジョンによる動画認識
 
introduce to Multimodal Deep Learning for Robust RGB-D Object Recognition
introduce to Multimodal Deep Learning for Robust RGB-D Object Recognitionintroduce to Multimodal Deep Learning for Robust RGB-D Object Recognition
introduce to Multimodal Deep Learning for Robust RGB-D Object Recognition
 
Extended Co-occurrence HOG with Dense Trajectories for Fine-grained Activity ...
Extended Co-occurrence HOG with Dense Trajectories for Fine-grained Activity ...Extended Co-occurrence HOG with Dense Trajectories for Fine-grained Activity ...
Extended Co-occurrence HOG with Dense Trajectories for Fine-grained Activity ...
 

【2015.07】(2/2)cvpaper.challenge@CVPR2015

  • 2. 【103】 H. Kiani, T. Sim, S. Lucey, “Correlation Filters with Limited Boundaries“, in CVPR2015. [Bolme+, CVPR2010][YouTube]論文により Minimum Output Sum of Squared Error (MOSSE)が提案されて以来,コンピュータビジョン分野において再度 Correlation Filters(相関フィルタ)を用いた検出や追跡の流れがきている.Bolme らの手法では旧来の検出や追跡の問題であった回転・スケール・照明変 動・部分的なオクルージョンに対応した.MOSSE の相関フィルタはリッジ回帰の問題として表現できる.ここで,MOSSE の問題としては信号処理の問題な ので下図(c)のテクスチャを同じに扱ってしまう”boundary effect”が問題としてあげられる.提案手法ではこの問題を解決するために信号のサイズをフィルタ よりも大きくして学習した.さらには masking matrix P も導入してある入力信号が active/inactive であるかを評価.Alternating Direction Method of Multipliers (ADMM)を用いることで凸最適化に対する分布に対して有効である.下の表に示す実験結果では,各テストセットに対して追跡を行った結果を 示している.ベースラインの MOSSE ほどの処理速度(600fps)が出ていないが,100fps 以上の追跡処理可能であり,さらには精度が非常に高い.オクルー ジョンや回転,スケール変動にも対応できている.詳しい処理結果は動画参照.
  • 4. 【104】 K. He, J. Sun, “Convolutional Neural Networks at Constrained Time Cost“, in CVPR2015. 限られたリソース(計算環境や処理時間等)の中でディープラーニングのフレームワークである CNN をいかに学習させ,識別するかという問題を考える.こ れに対して,構造の深さ,幅,フィルタサイズ,ストライドなど CNN のパラメータ設定について考察.層の深さが重要であり,幅やフィルタサイズはあまり重 要でないということを実証した.コアとなる設計として”layer replacement”を提案する.これは,時間の短縮のため幾つかの層は他の層に置き換えることがで きるという仮定である.結果としては処理コストを抑えながら精度の高いモデルを実現した.実験から,(1) ニューラルネットの深さは精度向上のためにプライ オリティが高く,幅やフィルタサイズを小さくしたとしても精度は向上する (2) 極端に深さが増えて来ると,精度向上が頭打ちになる.この時には,主に深さに よって処理コストが大きくなり,幅やフィルタサイズに必ずしもトレードオフの関係があるわけではない.以上の知見を,AlexNet をベースラインとして改良し た結果,top-5 エラー率が 11.8%となり,ベースラインよりもエラー率が 4.2%低下した. 深さ d とフィルタサイズ s の関係性を調査した結果,d が増えれば増えるほどフィルタサイズ s は小さくできることが判明した.また,深さ d と幅 n では d が 増えれば n は狭くでき,フィルタサイズ s と幅 n の関係性においては深さ d ほどのトレードオフの関係性は見られなかった. Link(s) 論文ページ: http://www.cv- foundation.org/openaccess/content_cvpr_2015/papers/He_Convolutional_Neural_Networks_2015_CVPR_paper.pdf 著者ページ: http://research.microsoft.com/en-us/um/people/kahe/
  • 5. 【105】 T.-Y. Lin, Y. Cui, S. Belongie, J. Hays, “Learning Deep Representations for Ground-to-Aerial Geolocalization“, in CVPR2015. 空撮画像は比較的簡単に手に入るようになっている(ストリートビューなど) 状態である.提案手法では ground-level の画像(路上で撮影した画像)をクエリ 画像として入力し,空撮画像の位置を特定する問題設定とする.ここでは公開データセットから収集した 78000 枚の画像ペアを用いる.この地面から撮影 された画像(ストリートビュー画像, street-view imagery)と空撮画像(aerial image)をペアとして位置を特定する問題が新しい設定である.特徴量としては CNN 特徴を用いており,この問題設定と合わせた手法のことを Where-CNN と呼んでいる.データセットには 7 つの都市-- San Francisco, San Diego, Chicago, Charleston, Tokyo, Rome, Lyon から撮影された画像が含まれている.CNN が提案手法であるが,比較のために hand-crafted features, オリジナル の CNN 特徴,学習された(fine-tuned?)CNN 特徴をもちいる.論文では Siamese Network, DeepFace, DeepRanking を参考にしたと述べている.学習では, ストリートビュー画像 x と空撮画像 y をペアとして,それぞれ同じ構造の 2 つの CNN に別々に入力してペア(x,y)を学習する.(ストリートビュー画像 x=> CNN1, 空撮画像 y=> CNN2 といった具合に) 提案手法の精度は 43.6%であり,最も高い精度を示した.以下,ImageNet-CNN が 11.3%, hand-crafted 特 徴が 7.6%, ランダムで 4.8%である. Link(s) 論文ページ: http://cs.brown.edu/people/hays/papers/deep_geo.pdf ポスター: http://yincui.org/posters/CVPR15_DeepGeo.pdf
  • 6. 【106】 A.Mahendran, A. Vedaldi, “Understanding Deep Image Representations by Inverting Them“, in CVPR2015. CNN の可視化表現方法に関する解析.例えば CNN は出力層を取り出して見ると図 1 のような 5 つの表現方法が考えられる. ここでの提案は,CNN 特 徴だけでなく SIFT や HOG を含めた特徴量の逆変換的表現である.この変換をランダムノイズが混ざっている部分から始め,画像特徴と画像の事前確率 のみから表現する.画像の事前確率に従って正規化や損失に関しても評価.また,この手法は HOGgles よりも簡潔かつ効果的に可視化手法もできること を示した.実験では,特徴量からの復元も実施しており(図 2),復元率の面でもエラー値が減少している. 図 1
  • 8. 【107】 J. Long, E. Shelhamer, T. Darrell, “Fully Convolutional Networks for Semantic Segmentation“, in CVPR2015. 全結合畳み込みネット(FCNs; fully convolutional networks)によりピクセル毎のセグメンテーションを実行する課題.ニューラルネットにおける end-to-end の トレーニングであり,入力画像とセグメンテーション画像にておいてピクセル同士が対応付けられている.ここでは FCNs により,密な空間に対してセグメント 情報を描画することにある.ネットワークアーキテクチャとして,AlexNet, VGG Net, GoogLeNet を適用しており,さらにはセグメンテーションのために Fine- tuning をしている.任意の画像サイズに対して,また密なセグメンテーションを実現可能である.表は FCN -AlexNet, -VGG16, -GoogLeNet のセグメンテー ションの精度,処理時間やその他のパラメータを示している. Link(s) 論文ページ: http://www.cv- foundation.org/openaccess/content_cvpr_2015/papers/Long_Fully_Convolutional_Networks_2015_CVPR_paper.pdf 著者ページ: http://www.cs.berkeley.edu/~jonlong/ コード(Caffe モデル): https://github.com/BVLC/caffe/wiki/Model-Zoo#fcn
  • 9. 【108】 M. Liang, X. Hu, “Recurrent Convolutional Neural Network for Object Recognition“, in CVPR2015. CNN はコンピュータビジョンの分野において成功しているフレームワークであるが,再帰的に畳み込む方がより良い特徴を得られるという提案.ここで, recurrent convolutional neural network (RCNN)を提案する.RCNN で重要なのは同一の畳み込み層にて再帰的に畳み込みを繰り返すことであり,この層 のことを recurrent convolutional layer (RCL)と呼んでいる.ここで,RCL の各ニューロンでは,前の層からの入力(feed-forward input)と再帰的な入力 (recurrent input)があり,それぞれ feed-forward weights と recurrent weights により重み付けされる.さらに,バイアス項も含まれる.このモデルは CIFAR-10, CIFAR-100, MNIST, SVHN のデータセットにて実験され,それぞれ state-of-the-art な性能を達成した. Link(s) 論文ページ: http://www.cv- foundation.org/openaccess/content_cvpr_2015/papers/Liang_Recurrent_Convolutional_Neural_2015_CVPR_paper.pdf
  • 10. 【109】 H. Jiang, “Matching Bags of Regions in RGBD images“, in CVPR2015. RGBD 画像のペアを与えて,ペア間の領域対応付けの問題を考案する.下図の(a)(b)が source, (c)(d)を target として、領域の対応づける.Global region constraints を用いた min-cost bipartite matching によりこの問題を解決する(e).(f)(g)がそれぞれの対応付け結果である. Link(s) 論文ページ: http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Jiang_Matching_Bags_of_2015_CVPR_paper.pdf
  • 11. 【110】 J. Yan, Y. Yu, X. Zhu, Z. Lei, S. Z. Li, “Object Detection by Labeling Superpixels“, in CVPR2015. 物体検出の問題として,部分的なオクルージョンや物体のスケール(aspect ratio)が挙げられる.現在の物体検出のアルゴリズムでは数万以上の bounding box から複数クラスの物体かそうでないかを見分ける必要があるため,確実に誤りが発生する.また,画像内から物体の位置を正確に見分けることは非常 に困難な課題である.これらの問題を解決すべく,物体検出問題に superpixel を介入する.少なくともひとつの superpixel は同じクラスに含まれるとして扱 うことで,検出の位置ずれを少なくなる.物体間のオクルージョンが発生した際には,従来の物体検出法では困難でも,superpixel を用いることで問題を優 しくする. 下図は,今回のコントリビューションである.(a)sliding window や(b)selective search では物体の矩形がばらついているが,superpixel なら最初からまとまっ た状態で物体を判定できる.識別には state-of-the-art である RCNN や very deep CNN (VGGNet や GoogLeNet)などとも組み合わせて用いることができ, これまでの物体検出を向上させることに成功した. Link(s) 論文ページ: http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Yan_Object_Detection_by_2015_CVPR_paper.pdf 著者ページ: http://www.cbsr.ia.ac.cn/users/jjyan/main.htm
  • 12. 【111】 Y. Song, J. Vallmitjana, A. Stent, A. Jaimes, “TVSum: Summarizing Web Videos Using Titles“, in CVPR2015. ビデオサマライズに関する研究.”summary worthy”という指標を用いてビデオサマライズの問題を試みた.youtube などのビデオタイトルはビデオの内容に 関連して名付けられているので,それを 事前情報として用いる.結果的には,タイトルから取得した事前情報に関連するシーンを抽出することに成功した. 例えば下図ではニュースレポートのシーンである.TVSum50 Dataset というデータセットも同時に公開した.50 のビデオが含まれており,クラウドソーシング によりつけられた重要度のスコア値がアノテーションされている.実験では F1 スコア値が従来では SumMe dataset にて 0.234 であったのに対して提案法で は 0.2655 を,TVSum dataset では 0.4979 を達成した. Link(s) 論文ページ: http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Song_TVSum_Summarizing_Web_2015_CVPR_paper.pdf 著者ページ: http://people.csail.mit.edu/yalesong/home/ ポスター: http://people.csail.mit.edu/yalesong/publications/SongVSJ2015CVPRPoster.pdf
  • 13. 【112】 K. Fragkiadaki, P. Arbeláez, P. Felsen, J. Malik, “Learning to Segment Moving Objects in Videos“, in CVPR2015. Moving Objectness を用いて,ビデオ内の移動オブジェクトに対してランク付けをする方法を提案している.オプティカルフローを用いたデータセットから移 動物体の外観特徴を学習し,動きの境界を抽出する.抽出された境界情報は Moving Object Proposals(MOP)によって,画素との関係性を対応付ける.し かし、動画上の移動物体は常に動き続けているわけではないため、オブジェクトが停止している場合はオプティカルフローを取得することができない.それ に対して、Random Walker を用いて時空間 MOP を拡張することで,停止状態を含んだ移動物体の追跡を実現している. Link(s) 論文ページ: http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Fragkiadaki_Learning_to_Segment_2015_CVPR_paper.pdf
  • 14. 【113】 M. Tan, Q. Shi, A. Hengel, C. Shen, J. Gao, F. Hu, Z. Zhang, “Learning Graph Structure for Multi-Label Image Classification via Clique Generation“, in CVPR2015. Clique Generating Machine(CGM)によるマルチラベル画像分類のためのグラフ構造の学習が提案されている.CGM における疎なグラフ構造を学ぶため に、Convex Programming Model を提案.特徴入力およびラベルを考慮したデータから,グラフ構造とモデルパラメータを学習する.この方法により学習さ れたグラフ構造およびパラメータは,データにうまくマッチングさせることが可能となる.グラフを学習するための関連クリークを見つけるために,SSVMs framework に指標として 0-1 のポテンシャルベクトルを設定し,疎な解に誘導するためのベクターに 0-norm の条件定義を設定している. Link(s) 論文ページ: http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Tan_Learning_Graph_Structure_2015_CVPR_paper.pdf
  • 15. 【114】 Jason Rock, Tanmay Gupta, Justin Thorsen, JunYoung Gwak, Daeyun Shin, Derek Hoiem, “Completing 3D Object Shape from One Depth Image“, in CVPR2015. 単眼の Depth 画像から 3D モデルを再構成する手法の提案. この手法では,3 段階で 3D 再構成している. Retrival: Random Forest Hasning を用いて再構成した画像と類似した物体の Depth 画像をマッチングする Defomation: 物体の対称性(symmetry)などを考慮しながら,余計な点群を除去し,欠けている点群を補完する Completion: 取得した Depth 画像と生成したモデルをボクセル単位で組み合わせて,3D 再構成を実現する. SHREC12 dataset を用いて実験した結果も示す. Link(s) 【論文】 http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Rock_Completing_3D_Object_2015_CVPR_paper.pdf 【プロジェクトページ(動画・コードあり)】 http://vision.cs.uiuc.edu/projects/shaperecon/
  • 16. 【115】 Vassileios Balntas, Lilian Tang and Krystian Mikolajczyk, “BOLD - Binary Online Learned Descriptor For Efficient Image Matching“, in CVPR2015. 新しいバイナリ記述子の提案. Global offline optimization: BRIEF の要領でパッチごとに特徴量を計算する.すべての選択テストと新しい候補の間の相関を繰り返し検証することによって,discriminative な特徴を選 択する. Local online learning: LDA のような最適化によって内部クラスの距離を最小化する.各パッチに異なるクラスを割り当て,アフィン変換によって内部クラスの分散を推定する. Matching of locally adapted descriptor: Global な特徴と Local な特徴をハミング距離でマッチングする. Link(s) 【論文】 http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Balntas_BOLD_-_Binary_2015_CVPR_paper.pdf 【プロジェクトページ】 http://vbalnt.io/
  • 17. 【116】 D.-Y. Lee, J.-Y. Sim, C.-S. Kim, “Multihypothesis Trajectory Analysis for Robust Visual Tracking“, in CVPR2015. 追跡アルゴリズムの難しさは特徴抽出の頑健性,オクルージョン,突発的な照明変動などに依存する.提案手法では,複数の手がかり(multihypothesis)を 用いて追跡アルゴリズムを構成する.複数の追跡手法を用い,またメモリベースの追跡から取得した動線の解析を導入して最終的な追跡結果を得る.ここ では 3 種類の追跡手法--texture, color, illumination invariant information を用いる.ある単位時間あたりはそれら別々の追跡手法にてそれぞれの動線を 得る.3 つのうちからベストな追跡手法を選択,または評価するために信頼度を計算する.幾何的な類似度,cyclic weight, またアピアランスの類似度を計 算する.時間軸の追跡を得た後に,時間軸の逆である backward の追跡も評価して最終的な追跡結果を得る. 下の表で Visual Tracker Benchmark v1.0 を用いて評価した結果である.STRUCK[Hare+, ICCV2011],KCF[Henriques+, TPAMI2015], MEEM[Zhang+, ECCV2014]の手法と比較した結果,提案手法である MTA がもっとも高い性能を示した. Link(s) 論文ページ: http://www.cv- foundation.org/openaccess/content_cvpr_2015/papers/Lee_Multihypothesis_Trajectory_Analysis_2015_CVPR_paper.pdf
  • 18. 【117】 J. Xiao, R. Stolkin, A. Leonardis, “Single target tracking using adaptive clustering decision trees and dynamic multi-level appearace models“, in CVPR2015. 対象物体が単一である場合の追跡手法について考案する.Top-layer, Middle-layer, Bottom-layer に分割して追跡アルゴリズムを考案.下図はフロー図を 示している.Top-layer では前景/背景の分離を示しており,次の層での入力とする.Middle-layer では superpixel のアルゴリズムである SLIC によりセグメン ト分割される.superpixel をベースとしたパーツマッチングを decision tree を用いて行う.その結果をベースにして前景/背景を更新し,追跡結果を得る.こ の結果,bounding box だけでなく,セグメンテーションも同時に行うことができる.データセットには VOT challenge を用いている.フロー図だけでなく,追跡 結果を下に示す. Link(s) 論文ページ: http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Xiao_Single_Target_Tracking_2015_CVPR_paper.pdf 著者ページ: http://postgrad.eee.bham.ac.uk/xiaoj/Publications.htm
  • 19. 【118】 D. Han, J. Kim, “Unsupervised Simultaneous Orthogonal Basis Clustering Feature Selection“, in CVPR2015. 教師なしの特徴取得方法: Simultaneous Orthogonal basis Clustering Feature Selection (SOCFS)に関する提案.Projection ステップでは target matrix を用 いて data points を projected data points に投影する.Orthogonal basis clustering (正規直交基底によるクラスタリング)では projection ステップにて投影され た特徴空間でのベクトルから潜在的なクラスタ中心を求め,識別しやすい形にする.各データセット(LUNG, COIL20, Isolet 1, USPS, YaleB, UMIST, AT&T)に適用した実験では,従来の教師なしの特徴取得手法(MV, LS, MCFS, UDFS, NDFS, RUFS)よりも精度が向上した. Link(s) 論文ページ: http://www.cv- foundation.org/openaccess/content_cvpr_2015/papers/Han_Unsupervised_Simultaneous_Orthogonal_2015_CVPR_paper.pdf 研究室ページ: https://sites.google.com/site/siitkaist/
  • 20. 【119】 Peng Zhang, Wengang Zhou, Lei Wu, Houqiang Li, “SOM: Semantic Obviousness Metric for Image Quality Assessment“, in CVPR2015. 参照なしで画像の品質評価をする手法.画像から物体らしい領域を抽出し,semantic obvious 特徴と局所特徴を抽出する.そして,それを統合し,SVR で 回帰式を生成することで品質を数値化する.下図のように,解像度を低下させると,画像の品質も落ちていることが確認できる.(データセットは LIVE と TID2008) Link(s) 【論文】 http://www.cv- foundation.org/openaccess/content_cvpr_2015/papers/Zhang_SOM_Semantic_Obviousness_2015_CVPR_paper.pdf
  • 21. 【120】 Kaili Zhao, Wen-Sheng Chu, Fernando De la Torre, Jeffrey F. Cohn, Honggang Zhang, “Joint Patch and Multi-label Learning for Facial Action Unit Detection“, in CVPR2015. Joint Patch と Multi-label learning による顔の行動符号化システム(FACS). 顔の関節を検出し,その関節を中心にしたパッチを生成する.そして,パッチがどのラベル(AU1 など)に属しているかを学習することで,Facial Action Coding systems(FACS)の推定を実現している. Link(s) 【プロジェクトページ】 https://www.ri.cmu.edu/publication_view.html?pub_id=7935 【ポスター】 http://humansensing.cs.cmu.edu/wschu/papers/doc/cvpr15_jpml_poster_low.pdf
  • 22. 【121】 L. D. Pero, S. Ricco, R. Sukthankar, V. Ferrari, “Articulated Motion Discovery using Pairs of Trajectories“, in CVPR2015. ボトムアップかつ unsupervised な文節ごとのモーションパターン(articulated motion pattern)検出を行う.非制約(in the wild)の動画認識であるため,構造化 やトリミングされていない動画からのモーション検出や対応付けを行う.下図は虎の articulated motion pattern 検出である.提案手法では追跡している動線 (PoTs; pairs of trajectories)を特徴としている.また,下図の場合の行動は虎の running, walking, turning を示している.PoTs の中から共通の特徴量を探索 する課題. また,関節中心は(感覚的に)モーションの中心として,位置の変位(displacement)を特徴として記述する.モーションの中心からの移動角度と正規化された displacement を記録. 実験のデータセットは National Geographic documentaries から 500 ショット, 80,000 フレーム取り出した映像や YouTube Objects dataset から犬のクラスを 100 ショット抽出した. Link(s) 論文ページ: http://www.cv- foundation.org/openaccess/content_cvpr_2015/papers/Pero_Articulated_Motion_Discovery_2015_CVPR_paper.pdf
  • 23. 【122】 Justin Johnson, Ranjay Krishna, Michael Stark, Li-Jia Li, David A. Shamma, Michael S. Bernstein, Li Fei-Fei, “Image Retrieval using Scene Graphs”, in CVPR2015. シーングラフの概念に基づいた意味的な画像検索のための新規のフレームワークを提案している.提案したシーングラフはオブジェクト(「人間」、「ボート」 )と,属性(「ボートが白である」)と,オブジェクト間の関係(「男が船の上に立っている」)から構成される.最終的にシーングラフをクエリとして意味的な画像 検索を行うための条件付き確率場モデルを設計した.また,画像にアースされた 5,000 人分のシーングラフを含む新しいデータセット(第 1 著者のサイトに 有り)を導入し提案手法を評価する.データセット内のオブジェクトクラスと属性は R-CNN の検出器の学習によってモデル化されている.完全なシーングラ フと部分シーングラフを比較し,提案手法がオブジェクトのみ、または低レベルの画像特徴を使用した検索方法よりも優れていることを示す.さらに完全な シーングラフはベースラインの手法より物体の位置特定に優れていることを示す. シーングラフはオブジェクト「女の子」と属性「女の子は金髪である」と関係「女の子がラケットを持っている」を復号化している.アースがオブジェクトごとの シーングラフと画像の領域を関連付けている.画像、シーングラフ、およびアースは,現実世界シーングラフのデータセットから描写される. Fig. 1: シーングラフ(下)とアース(上) Fig. 2 : 提案手法の結果: シーン全体での検索(a) 部分シーンでの検索(b) 物体の位置を特定したうえでの検索(c) Link(s) 著者ページ: http://cs.stanford.edu/people/jcjohns/
  • 24. 【123】 J. Byrne, “Nested Motion Descriptors“, in CVPR2015. 行動認識の問題のひとつとして行動中心で特徴を取得することが挙げられる.この問題は行動検出の際にラベル付けの精度に直接的に関わってくる.行 動認識ではいかに識別に有効なモーション特徴を抽出し,背景やカメラモーションなど関係ない動作を省くかが重要である.近年では行動認識は 10 クラ ス前後から数百クラスの分類に興味が移行しており,ますます行動の中心を特定する必要性があるといえる.提案手法では,binary local motion descriptor を用いた特徴表現方法のことを nested motion descriptors (NMD)と呼ぶ.この手法は nested shape descriptors (NSD) [Byrne+, ICCV2013]を改良して時系 列行動にも対応したものである.この論文のコントリビューションとして,カメラの移動があったとしてもスケールや勾配を評価できることにある.下図は NMD の流れを示しており,まずは勾配やスケールを判断し,次に相対的な動作解析により動きの速度やその位置を蓄積する.Log-spiral normalization により異 なる速度や異なるスケールの特徴を評価することができる. Link(s) 論文ページ: http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Byrne_Nested_Motion_Descriptors_2015_CVPR_paper.pdf YouTube: https://www.youtube.com/watch?v=RfJJHmXnRAw
  • 25. 【124】 Dingwen Zhang, Junwei Han, Chao Li and Jingdong Wang, “Co-saliency Detection via Looking Deep and Wide “, in CVPR2015. CNN を用いた共起 Saliency(co-saliency)の検出.初めに,対象の画像から CNN 特徴を抽出し,類似した画像を抽出する.そして,画像の中から物体らし いものを提案する.次に,Bayesian 処理を用いて各パッチから共起 Saliency のスコアを算出する.最後に,画像全体での共起 Saliency を SuperPixel 単位 でスコアを算出し,共起 Saliency を生成する.手法のおおまかな流れは以下の通りである.実験の結果図も下記に示す. Link(s) 【論文】 http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Zhang_Co-Saliency_Detection_via_2015_CVPR_paper.pdf
  • 26. 【125】 H. J. Chang, Y. Demiris, “Unsupervised Learning of Complex Articulated Kinematic Structures combining Motion and Skeleton Information“, in CVPR2015. 手領域の関節位置を求めることはコンピュータビジョンだけでなくロボティクスにおいても重要な課題となりつつある.RGBD を入力とした人体やハンドの関 節トラッキングに関しては成功したフレームワークがすでに提案されている([Shotton+, CVPR2011], [Tang+, CVPR2014])が,任意の物体に対する関節トラ ッキングはチャレンジングな課題である.提案手法では動作特徴量や(荒い)スケルトンを統合して精巧かつ最もらしい関節位置を推定する.結果は動画参 照. Link(s) 論文ページ: http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Chang_Unsupervised_Learning_of_2015_CVPR_paper.pdf プロジェクトページ: https://hyungjinchang.wordpress.com/research/kinematic-structure-learning/ YouTube: https://www.youtube.com/watch?v=l431rT0S29U
  • 27. 【126】 Grant Van Horn, Steve Branson, Ryan Farrell, Scott Haber, Jessie Barry, Panos Ipeirotis, Pietro Perona, Serge Belongie, “Building a bird recognition app and large scale dataset with citizen scientists: The fine print in fine-grained dataset collection “, in CVPR2015. 鳥の画像データセットの提案(NABirds). 画像総枚数:48,562 カテゴリー:555 また,各画像には鳥の部位の Annotation も入っている(羽根や嘴など). Link(s) 【論文】 http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Horn_Building_a_Bird_2015_CVPR_paper.pdf
  • 28. 【127】 Xiao-Yuan Jing, Xiaoke Zhu, Fei Wu, Xinge You, Qinglong Liu, Dong Yue, Ruimin Hu, Baowen Xu, “Super-resolution Person Re-identification with Semi-coupled Low-rank Discriminant Dictionary Learning “, in CVPR2015. 低解像度の画像での Person Re-ID. ギャラリー画像は画質がいいが,一般的に監視カメラから撮影されるものは画像の劣化が激しい.それに対処するための手法を提案している.CamA で撮 影した画像とそれを劣化させた画像を生成し,パッチごとにクラスタリングして辞書を作る.そして,CamB で撮影した劣化画像のパッチがどのクラスタに分 類するのかを判別し,その情報をもとに距離を算出する. Link(s) 【論文】 http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Jing_Super-Resolution_Person_Re- Identification_2015_CVPR_paper.pdf
  • 29. 【128】 Sakrapee Paisitkriangkrai, Chunhua Shen, Anton ven den Hengel, “Learning to rank in person re-identification with metric ensembles“, in CVPR2015. 複数の特徴と Metric Learning を組み合わせた Person Re-ID. Metric Learning では,TOP RANK を認識するための学習とそれ以外を認識するための学習を組み合わせる, 特徴では,SIFT,Lab,LBP,RGB,Region Covariance Pattern,CNN 特徴を組み合わせている. Link(s) 【論文】 http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Paisitkriangkrai_Learning_to_Rank_2015_CVPR_paper.pdf
  • 30. 【129】 Ning Zhang, Manohar Paluri, Yaniv Taigman, Rob Fergus, Lubomir Bourdev, “Beyond Frontal Faces: Improving Person Recognition Using Multiple Cues“, in CVPR2015. 一般的な写真を用いた Person Re-ID における顔・衣服・姿勢のデータセット(PIPER). People In Photo Albums Dataset(PIPER)の提案. 以下のような統計データを有している. 体が画像からはみ出している場合やオクルージョン,姿勢が大きく変化している場合など,様々なシーンで撮影されている. Link(s) 【論文】 http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Zhang_Beyond_Frontal_Faces_2015_CVPR_paper.pdf
  • 31. 【130】 A.Karpathy, L. Fei-Fei, “Deep Visual-Semantic Alignments for Generating Image Descriptors“, in CVPR2015. ほとんどの画像認識のアプローチはカテゴリのタグ付けにフォーカスされているが,自然言語処理の進歩によって画像からのテキスト生成ができるようにな ったと主張.ここでは画像生成分に関するチャレンジを提案する.下図 1 ではランク付けや例文・位置まで含めた物体のカテゴリを分類している.下図 2 で は Bidirectional RNN(図 2 左 Bidirectional Recurrent Neural Networks)や Multimodal RNN を示している.Bidirectional RNN では例文と物体領域との用 例を学習・モデリングし,Multimodal RNN は与えられた画像から説明文を生成するための学習をする.Multimodal RNN は画像=>Convolutional Neural Networks (CNN) => RNN という流れであり,CNN により畳み込んだ特徴を言語化するために RNN に引き渡す. 図 1 図 2 Link(s) 論文ページ: http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Karpathy_Deep_Visual- Semantic_Alignments_2015_CVPR_paper.pdf
  • 32. 【131】 J. Dong, N. Karianakis, D. Davis, J. Hernandez, J. Balzer, S. Soatto, “Multi-View Feature Engineering and Learning“, in CVPR2015. Lambert-Ambient Model を用いて,スケーリングやオクルージョンを含む対応関係についてモデリングする.既存の特徴量である SIFT や HOG などを用 いるが,さらに理想的な近似方法を探る.最初は単一の画像にて特徴取得する方法を探る.これは限られた環境下,特に画像面と投影面が平行であるこ とを前提とした設計である.このような環境においては SIFT や HOG などの特徴マッチングは限定的な環境でのみ動作し,撮影環境が変わった場合には マッチング性能が落ちてしまう.これを multi-view の場合に拡張した multi-view HOG(MV-HOG)を提案する.優位な特徴点からの記述や画像面に平行 な並進や直交からの移動を考慮する.感覚的には複数画像による見え方のバリエーションを相殺するように特徴表現する. Link(s) 論文ページ: http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Dong_Multi- View_Feature_Engineering_2015_CVPR_paper.pdf 研究室ページ: http://vision.ucla.edu/publications.html
  • 33. 【132】 Hakan Bilen, Marco Pedersoli, Tinne Tuytelaars, “Weakly Supervised Object Detection with Convex Clustering“, in CVPR2015. 弱教師あり学習での一般物体認識. 同じクラスの物体間の類似性を求めることで最適化する. Latent SVM でパーツ毎のクラス分類をし,Convex Clustering でクラスタリングしている. Link(s) 【論文】 http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Bilen_Weakly_Supervised_Object_2015_CVPR_paper.pdf
  • 34. 【133】 Rabeeh Karimi Mahabadi, Christian Häne, Marc Pollefeys, “Segment Based 3D Object Shape Priors“, in CVPR2015. 物体を単純な形状の組み合わせとして仮定し,3D 再構成する手法の提案. 机であれば,卓上・脚・地面の組み合わせで構成されている. 木であれば,葉・幹・地面の組み合わせで構成されている,といったように,セグメントベースでパーツを検出し,3D 再構成の精度を高めている. Link(s) 【論文】 http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Mahabadi_Segment_Based_3D_2015_CVPR_paper.pdf
  • 35. 【134】 X. Han, T. Leung, Y. Jia, R. Sukthankar, A. C. Berg, “MatchNet: Unifying Feature and Metric Learning for Patch-Based Matching“, in CVPR2015. パッチベースの画像マッチングは拡張性があるコンピュータビジョンの技術である.提案法である「MatchNet」は 3 層の全結合層からなる CNN により構成 されている,特徴学習である.この論文では,いかに二つのネットワークを統合して学習するかについて説明する.下図では MatchNet のアーキテクチャを 示しており,A: Metric network や B: Feature network を統合して学習する.Feature network においてはエンコーディングや,より層が進むと次元が削減さ れていく.Metric network では特徴同士の比較が行われる.トレーニング段階では feature net は二つの平行した畳み込み層がパッチのペアにより構成さ れ,パラメータも共有される.2 つの平行した畳み込み層は metric network への入力として連結される.トレーニング C ではパッチペアをサンプルとして cross-entropy を最小化するように統合学習が行われる.D: MatchNet による推定ではそれぞれのパッチから feature network,metric network により pairwise のマッチングスコアを取得する. Link(s) 論文ページ: http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Han_MatchNet_Unifying_Feature_2015_CVPR_paper.pdf 著者ページ: http://www.cs.unc.edu/~xufeng/ MatchNet ページ: http://www.cs.unc.edu/~xufeng/matchnet/
  • 36. 【135】 J. Zhao, C. Siagian, L. Itti, “Fixation Bank: Learning to Reweight Fixation Candidates“, in CVPR2015. Saliency マップの研究.図 1 は Location-dependent weighting の例である.Linear Regression(LR)ではそれぞれのチャネルから不要な重みが入ってしまう .これを Fixation Bank からの参照による re-weighting によりピークを際立たせる.Fixation Bank はデータドリブンの枠組みであり,color/ intensity/ orientation/ motion から重要度の高い部分を(学習ベースの)マイニングする.この Fixation Bank を,4 つのチャネルから候補領域の抽出,特徴マップの分 解,ブロックごとの辞書作成により構成する.図 2 は各手法との比較である. 図 1 図 2 Link(s) 論文ページ: http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Zhao_Fixation_Bank_Learning_2015_CVPR_paper.pdf
  • 37. 【136】 Christian Rupprecht, Loïc Peter, Nassir Navab, “Image Segmentation in Twenty Questions“, in CVPR2015. 20 回の yes/no の質問で画像をセグメンテーションする手法. 声による回答によって,hand-free なセグメンテーションシステムを実現している. 画像に十字架が表示され,それがセグメント対象の内側に入っているかどうかを回答する.その質問を 20 回繰り返し,セグメントする. 毎回のピクセル選択は MMarkov Chain Monte Carlo 法を用いている. Link(s) 【論文】 http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Rupprecht_Image_Segmentation_in_2015_CVPR_paper.pdf
  • 38. 【137】 X. Lin, D. Parikh, “Don’t Just Listen, Use Your Imagination: Leveraging Visual Common Sense for Non-Visual Tasks“, in CVPR2015. テキストのみによる認識と,テキスト+視覚情報を用いた認識とを比較して,視覚情報の有効性を実証.その際に,2 つのタスク fill-in-the-bank (FITB)と visual paraphrasing (VP)を解いている.通常ではテキストのみによる回答をするところでも,視覚情報によるイマジネーションを導入してより「イメージしやす い」回答をコンピュータに用意させる.visual common sense(見たら暗黙的に分かる?)というものを認識に導入したいということ. Link(s) 論文ページ: http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Lin_Dont_Just_Listen_2015_CVPR_paper.pdf プロジェクトページ(コード,データセットあり): https://filebox.ece.vt.edu/~linxiao/imagine/ プレゼンテーション: https://filebox.ece.vt.edu/%7Elinxiao/imagine/site_data/presentation.pptx ポスター: https://filebox.ece.vt.edu/~linxiao/imagine/site_data/Poster.pdf
  • 39. 【138】 M. Dixit, S. Chen, D. Gao, N. Rasiwasia, N. Vasconcelos, “Scene Classification with Semantic Fisher Vectors“, in CVPR2015. コンピュータビジョンのシーン認識タスクは長らく low-level もしくは mid-level による Bags of semantics (BoS)により発展してきた.しかし,信頼出来る semantic 認識はラベル付けに依存すること,Fisher vector などが semantic な表現に優れていなかったことがあり,あまり高い精度を達成できなかったと思 われる.Convolutional Neural Networks (CNN)の登場により物体認識の精度を向上させるに至っているが,シーンに依存しない特徴表現というのは依然と してチャレンジングな課題である.これを解決すべく,multinomial なパラメータ表現として Dirichlet mixture によるモデリングを導入する.すなわち,BoS の 表現能力を高めるために Dirichlet Mixture Fisher Vector (DMM-FV)を提案する. 実験では fine-tuned な CNN モデルよりも精度が高くなることを実証した. Link(s) 論文ページ: http://www.svcl.ucsd.edu/publications/conference/2015/Bag_of_semantics/logFV.pdf 著者ページ: http://www.svcl.ucsd.edu/~mandar/
  • 40. 【139】 A. Gordo, “Supervised Mid-Level Features for Word Image Representation“, in CVPR2015. 文字認識のための mid-level 特徴表現を考案する研究.前提として bounding box として切り抜かれた文字画像から特徴を学習するが,テスト時には非制 約の画像から検出や認識を実行する.下図は文字認識のフロー図である.(図中上)従来の文字認識手法では low-level の特徴抽出には dense SIFT+Fisher vectors を適用する.Geometry に対応するために spatial pyramid も適用する.(図中下)low-level の特徴取得として dense SIFT+Fisher vectors(この Fisher vector を local FV と呼んでいる)までは従来法と同じであるが,spatial pyramid を取得する際にブロックごとの特徴記述を施している.こ のブロックごとの記述が mid-level な記述であり,最終的にさらにその特徴量を Fisher vector にプーリングする.この最終的に取得した Fisher vector を Global FV と呼んでいる. Street view text (SVT) dataset や IIIT5K dataset における実験では,表のような結果になった.SVT では Deep CNN が,IIIT5K においては提案手法が最 高性能を実現した. Link(s) 論文ページ: http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Gordo_Supervised_Mid- Level_Features_2015_CVPR_paper.pdf
  • 41. 【140】 S. Shankar, V. K. Garg, R. Cipolla, “DEEP-CARVING: Discovering Visual Attributes by Carving Deep Neural Nets“, in CVPR2015. 非常に有効な学習方法である Deep-Carved CNN により,複数の Attribute を同時に推定する.提案手法では CNN アーキテクチャとして AlexNet をベー スにしているが,学習に sigmoid cross-entropy loss を適用して損失を最小化する.その他,複数ラベルの確率を用いて学習する.下図の緑は正しく推定で きた例,赤が誤って推定した例である.図の上は Sun Attribute Dataset (SAD),下は CAMIT-Natural Scenes Attributes Dataset (CAMIT-NSAD)に対して 処理した結果である.複数の attribute は共起性があるということも判明した. ベースラインに AlexNet (softmax や sigmoid cross entropy loss ),MIT Places Dataset により fine-tune された AlexNet を用いた.比較により,Deep-Carved CNN が最も精度よく複数の Attribute を推定できることが判明した. Link(s) 論文ページ: http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Shankar_DEEP- CARVING_Discovering_Visual_2015_CVPR_paper.pdf
  • 42. 【141】 F. Zhao, Y. Huang, L. Wang, T. Tan, “Deep Semantic Ranking Based Hashing for Multi-Label Image Retrieval“, in CVPR2015. Semantic ranking や deep learning を用いた多階層類似度に基づく複数ラベルのハッシング.下図は Deep Semantic Ranking based Hashing (DSRH)である .Multi-label が付けられた画像から,意味的に近いものを集めていく.順伝播と逆伝播を行う中でネットワークを学習する.バイナリハッシングは 5 層の畳 み込み層と 2 層の全結合層,最後に Hash Layer によりバイナリハッシングとして出力される.全結合層からは順伝播とは別にそれぞれ Hash Layer に特徴 を渡している.(FC1 は FC2 と Hash Layer に伝播,FC2 は Hash Layer のみに伝播) Link(s) 論文ページ: http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Zhao_Deep_Semantic_Ranking_2015_CVPR_paper.pdf
  • 43. 【142】 Thorsten Beier, Fred A. Hamprecht, Jörg H. Kappes, “Fusion Moves for Correlation Clustering“, in CVPR2015. Large Scale な相関クラスタリングの提案. この研究の contribution は以下の通り. 1:凝集クラスタリングに基づく新しエネルギー関数の定義 2:多面体 multicut 手法の性能向上 3:fusion moves という手法の改良版,cluster-fusion moves の提案 Link(s) 【論文】 http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Beier_Fusion_Moves_for_2015_CVPR_paper.pdf
  • 44. 【143】 M. Rastegari, C. Keskin, P. Kohli, S. Izadi, “Computationally Bounded Retrieval“, in CVPR2015. 画像検索,特にバイナリコードにおける計算時間の考察.バイナリコードには,例えば nearest neighbors などの対応を求めたり,ハミング距離計算,バイナ リコードの計算,エンコード,射影関数(mapping function),出力などがある.入力 d-dims と出力 k-dims の次元数が大きいのであれば,バイナリ変換する 関数がかなりの計算コストなってしまう.単純に計算すると計算オーダが O(dk)になってしまう.現在までには,この問題を Bilinear projection (O(d√k))や FFT(O(dlog(d)))により計算時間を削減してきた.提案手法では,バイナリコードの計算時間を抑えるような最適化を,sparse projection により実現する.入 力と出力のペア(x,y)を元にして学習サンプルとの損失が最小になるように最適化する.この際に最適化パラメータベクトルである w を学習する.ここではバ イナリコードであるという拘束があるので,これを計算時間を抑えるような条件を付けて最適化式を数式化している.下図は提案手法である SBE と頻出の 既存手法である kd-tree を比較した例である.この比較例ではおよそ 100 倍の計算時間の開きがある.SBE は計算時間の面において高速になっている. Link(s) 論文ページ: http://www.cv- foundation.org/openaccess/content_cvpr_2015/papers/Rastegari_Computationally_Bounded_Retrieval_2015_CVPR_paper.pdf
  • 45. 【144】 Xiaojie Guo, Yi Ma, “Fusion Moves for Correlation Clustering“, in CVPR2015. ノイズ画像から tensor を復元する画像復元手法. Response to Multi-directional Derivative-like Filters(RMDF)というフィルタと Generalized Tensor Total Variation Norm(GTV)を定義することで画像を復元し ている.下記が結果図である. Link(s) 【論文】 http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Guo_Generalized_Tensor_Total_2015_CVPR_paper.pdf
  • 46. 【145】 S. Su, W. Heidrich, “Rolling Shutter Motion Deblurring“, in CVPR2015. ローリングシャッターにおけるデブラーの論文.ローリングシャッターでは一枚の画像においても撮像するタイミングが微小に異なるため,それをデブラーす る.グローバルなカメラ動作の軌跡を計算することでこの問題に取り組んだ.図 1 はローリングシャッターに起因した異なるスキャンラインとカメラ動作を用い ている.図 2 はそれによりデブラーされた比較である.図 2 上ではブラーが除去されていないが,図 2 下ではデブラーに成功している. 図 1 図 2 Link(s) 論文ページ: http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Su_Rolling_Shutter_Motion_2015_CVPR_paper.pdf プロジェクトページ: http://www.cs.ubc.ca/labs/imager/tr/2015/RollingShutterMotionDeblurring/
  • 47. 【146】 A. Dosovitskiy, J. T., Springenberg, T. Brox, “Learning to Generate Chairs with Convolutional Neural Networks“, in CVPR2015. イスの general なモデルを CNN によりモーフィングして生成するという研究.図 1 は 2 つのイスのモデル(図 1 左上と図 1 左下)を滑らかに形状変化させた 例.入力はイスのタイプ,カメラビューの角度,変換パラメータ.3 次元のモデルを与えるが,2 次元に投影する際にはイスのタイプ,視点,色,明るさ,彩度 やスケールを考慮する.ニューラルネットでは誤差逆伝播によりユークリッド再構成誤差を最小化する.図 2 は CNN の構成である.従来の CNN とは,畳 み込み層と全結合層が逆になっている構成であり,入力のラベル情報から全結合層,逆畳み込み層,と経るごとに画像を復元していく.最初の 5 層までが 全結合層で,その後特徴量を 2 分して 4 層の畳み込み層を通過することとなる.この構成により RGB のイスモデルと segmentation に分解して生成モデル を構成するニューラルネットが完成する. 図 1
  • 49. 【147】 P.-L. Hsieh, C. Ma, J. Yu, H. Li, “Unconstrained Realtime Facial Performance Capture“, in CVPR2015. 図 1 は calibration-free なリアルタイム顔追跡である.髪や手,服によるオクルージョンが激しくても顔のトラッキングができている上に,オクルージョン領域ま で推定できた上で顔部分を表示している.図 2 では提案手法のフロー図を示しており,RGB-D の入力から顔の領域やモーションを推定するなどして最終 的に顔領域を追跡・セグメンテーションしている.詳細な結果は YouTube 動画参照. 図 1 図 2 Link(s) 論文ページ: http://www.cv- foundation.org/openaccess/content_cvpr_2015/papers/Hsieh_Unconstrained_Realtime_Facial_2015_CVPR_paper.pdf 著者ページ: http://www.hao-li.com/Hao_Li/Hao_Li_-_about_me.html YouTube: https://www.youtube.com/watch?v=QqXjVs6Tgm8
  • 50. 【148】 Z. Wu, S. Song, A. Khosla, F. Yu, L. Zhang, X. Tang, J. Xiao, “3D ShapeNets: A Deep Representation for Volumetric Shapes“, in CVPR2015. 3 次元のキーポイントマッチングに関しては強い手法があったが,3 次元形状の特徴量については強力な手法を構築する必要がある.Kinect の登場により 2.5D の距離画像が容易に取得できるようになり,3D データを取得することも困難ではなくなってきた.提案手法では,汎用的な 3 次元形状表現方法を考 案する.形状表現については hand-coding ではなく,データドリブンで 3 次元形状を学習.このために,3D ボクセルに区切られたデータから 3 次元形状の 分布を確率として表現する.それぞれの 3D メッシュはバイナリテンソルとして表現される.1=>ボクセルはメッシュ表面の内側に,0=>ボクセルはメッシュの 外側に存在すると表現.Convolutional Deep Belief Network (CDBN)を用いて複雑な 3 次元形状の確率分布学習する.CDBN は畳み込み層や全結合層 により構成されており,プーリング層は含まれていないものとする.CDBN の学習が済んで 3 次元形状に対する pre-trained モデルが構成できたら,ボクセ ルデータ x と物体のカテゴリの同時確率である p(x,y)を学習する. また,独自のデータセットである ModelNet を作成した(図 2).ModelNet は 3D の CAD モデルから構成されていて,151,128 の 3D CAD の物体が含まれ ていて,ユニークカテゴリ数は 660 である. 図 1
  • 52. 【149】 Z. Xu, Y. Yang, A. G. Hauptmann, “A Discriminative CNN Video Representation for Event Detection“, in CVPR2015. Dense Trajectories(DT)やその改良版である Improved DT(IDT)はイベント認識において優位な手法がであることが実証されてきた.IDT は良好な性能を 確保できるものの,大規模なデータとなった場合の計算コストが非常に高く,リアルタイムでの処理ができていないのが現状である.TRECVID2014 のコン テストでは 200,000 のビデオが含まれており,8,000 時間に及ぶイベントが含まれている.500 コアの計算リソースをもってしても,特徴取得に 1 週間かかる という報告がある[Aly+, TRECVID2013].そのため,計算コストがかからない,良好な特徴表現が必要になる.ひとつの解決策は Convolutional Neural Networks (CNNs)を時系列特徴表現ができるように拡張する(CNN video representation)ことである.ここでは CNN 特徴を時系列でプーリングしただけでな く,局所特徴から時系列の CNN 特徴までエンコーディングした(下図).さらに CNN video representation を高速化するために Product Quantization を導入 した.TRECVID MED13/14(10Ex/100Ex)データセットを用いた実験では,IDT よりも高い性能を示した.さらに,CNN video representation と IDT, 音声認 識で用いられる MFCC を組み合わせると TRECVID MED13 100Ex にて 48.6%,同 10Ex にて 32.2%の精度を達成した. Link(s) 論文ページ: http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Xu_A_Discriminative_CNN_2015_CVPR_paper.pdf 著者ページ: http://www.cs.cmu.edu/~zhongwen/
  • 53. 【150】 K.-W. Cheng, Y.-T. Chen, W.-H. Fang, “Video Anomaly Detection and Localization Using Hierarchical Feature Representation and Gaussian Process Regression“, in CVPR2015. ビデオイベントからの異常検知はローカルとグローバルな異常に分類される.ローカルな異常は画像全体が近隣のイベントと比べて異常かどうかを判断す るのに対して,グローバルな異常は画像全体で複数,さらには時間的にもどこに生起するのかわからない異常を検出する課題であると定義.この提案では ,グローバな異常検出を扱うこととし,階層的な特徴表現や Gaussian Process Regression (GPR)を適用することで異常検知を実現する.階層的な特徴表現 は Low-level,High-level に分類され,まず Low-level では STIP(space-time interesting points)を適用する.さらに High-level な特徴表現ではイベント間の 関係性を記述するとして,取得した STIP 間の評価を行う.この High-level 特徴量を GPR による回帰により,ノンパラメトリックに評価する. Link(s) 論文ページ: http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Cheng_Video_Anomaly_Detection_2015_CVPR_paper.pdf
  • 54. 【151】 A. Y.-S. Chia, U. Bandara, X. Wang, H. Hirano, “Protecting Against Screenshots: An Image Processing Approach“, in CVPR2015. プライバシーや機密情報が盗まれないように,スクリーンショットに対して保護するという研究.入力をスクリーンショット画像として,画像を歪ませた上でビュ ーアーに返却する.この変換は,人間にとってすぐに判別可能かつリアルタイム,自動で読み取りができるようにする.(コンピュータにとって認識しづらい Captcha 自動生成のようなもの?) Link(s) 論文ページ: http://www.cv- foundation.org/openaccess/content_cvpr_2015/papers/Chia_Protecting_Against_Screenshots_2015_CVPR_paper.pdf 著者ページ: https://sites.google.com/site/alexchiays/
  • 55. 【152】 J. Zbontar, Y. LeCun, “Computing the Stereo Matching Cost with a Convolutional Neural Network“, in CVPR2015. 平行ステレオの課題において,視差がわかっているという前提でステレオマッチングのためのパッチを CNN により学習する.入力はパッチ,CNN の計算 による出力はステレオマッチングの評価値である.データセットには KITTI データセットのステレオ画像を用いており,エラー率は 2.61%であったという.図 1 は両眼の視差画像であり,ステレオマッチングの視差が出力されている.学習は 4500 万枚の平行ステレオにより取得されたペアパッチである.ニューラ ルネットのアーキテクチャは図 2 に示されている.入力は左右の画像をそれぞれ入力する.最初の層(L1)のみが畳み込み層であり,L2, L3 はそれぞれの 画像の全結合層,L4 から L7 までが結合した特徴の全結合層である.L8 が出力層であり,Ccnn(p, d)を返却する. 図 1 図 2 Link(s) 論文ページ: http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Zbontar_Computing_the_Stereo_2015_CVPR_paper.pdf 著者ページ: http://www.fri.uni-lj.si/en/jure-zbontar/default.html
  • 56. 【153】 Y.-X. Wang, M. Hebert, “Model Recommendation: Generating Object Detectors from Few Samples“, in CVPR2015. 多数の学習画像が手に入れば効果的であるが,多くの場面において少数の学習サンプルで良好な性能を発揮する学習方法も必要である.ここでは,各ク ラス少数の学習サンプルで,かつ従来の教師あり学習に頼ることなく学習するフレームワークを提案する. 下図は Unsupervised Hyper-Training Phase と Training Phase である.Unsupervised Hyper-Training Phase ではあらかじめ学習・蓄積されたサンプルにより 生成された検出器から評価値をつけておく.新しいタスクやカテゴリに対しては,評価値を参照して物体らしさの推定値を付けていく.この評価値をつける 工程で Collaborative Filtering (協調フィルタ)を適用している. Link(s) 論文ページ: http://www.cv- foundation.org/openaccess/content_cvpr_2015/papers/Wang_Model_Recommendation_Generating_2015_CVPR_paper.pdf プロジェクトページ: http://www.cs.cmu.edu/~yuxiongw/modelrecommendation_objectdetection.html
  • 57. 【154】 O. Russakovsky, L.-J. Li, L. Fei-Fei, “Best of both worlds: human-machine collaboration for object annotation“, in CVPR2015. 物体の効率的かつ高精度な検出のために,クラウドソーシングを活用したアノテーション方法についても言及する.システムへの入力は画像であり,その画 像に対してアノテーションするわけだが,拘束条件として(1) ラベル付けの活用性,(2) ラベル付けの精度,(3) 人間がアノテーションするコストを最小限にす る,ということが挙げられる.そのため,人間がアノテーションするコストを最小限にしつつ,アノテーションの成果を最大にあげるシステムを考案する.下図 はそのシステムであり,コンピュータの検出器により出力した結果を人間がインタラクティブにタグ付けを直していく.機械の出力と人間とのインタラクション により最終的に誤りのない出力となる.しかし,最初の機械の出力では誤りも多い中で bounding box のひとつひとつを人間に聞いていくのは極めて大変な 作業になりかねない.提案のモデルとして,ベストクエスチョンを自動的に選択してくれるというものである.人間のコストと精度はトレードオフの関係にある が,この質問を Markov decision process (MDP)により決定する.MDP では状態 S,アクション A,遷移確率 P と報酬 R によりモデリングされる.状態 S は 画像 I により計算される.アクション A は下図の Human tasks を質問として聞く際に必要である.状態 S から S’に遷移する際の A が評価されれば,報酬 R は高くなる.このシステムを実際に使用してみたところ,アノテーションの速度が向上している.(1) コンピュータビジョンシステムと人間のインタラクションはア ノテーションにおいて効果的であり,(2) MDP はその際に効果的なモデルである.(3) 複雑な人間のタスクは効率的にすることができ,(4) 提案のアノテーシ ョンシステムは ILSVRC の検出手法のみをベースにするよりも効率が良いという結果になった. “computer vision perspective, current object detectors are far from perfect”と述べているように,ディープラーニングを始めとする手法が確立している現在に おいてもなお,コンピュータビジョンはやることが多いと位置付けている. Link(s) 論文ページ: http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Russakovsky_Best_of_Both_2015_CVPR_paper.pdf プロジェクトページ: http://ai.stanford.edu/~olga/best_of_both_worlds.html 著者ページ: http://ai.stanford.edu/~olga/
  • 58. 【155】 Mathias Gallardo, Daniel Pizarro, Adrien Bartoli and Toby Collins, “Shape-from-Template in Flatland“, in CVPR2015. 曲面の形状推定する手法.1D テンプレートを事前に作成し,そのテンプレートが画像でどのように投影されているかを算出することで,曲面形状を推定し ている. Link(s) 【論文】 http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Gallardo_Shape-From- Template_in_Flatland_2015_CVPR_paper.pdf
  • 59. 【156】 Artem Rozantsev, Vincent Lepetit, Pascal Fua, “Flying Objects Detection from a Single Moving Camera“, in CVPR2015. 単眼カメラで飛行物体を検出する. 画像のブレ補正でノイズなどを除去した後,回帰ベースで飛行物体を検出する. 実験では外観ベース(CNN など)やモーションベース(MultiCue 背景差分)などと比較している. データセットは UAV と Aircraft dataset を用いている. Link(s) 【論文】 http://www.cv- foundation.org/openaccess/content_cvpr_2015/papers/Rozantsev_Flying_Objects_Detection_2015_CVPR_paper.pdf
  • 60. 【157】 R. Anirudh, P. Turaga, J. Su, A. Srivastava, “Elastic Functional Coding of Human Actinos: From Vector-Fields to Latent Variables“, in CVPR2015. 下図は提案手法の全体図である.特徴の表現を Riemannian manifold(多様体)を用いて実現しており,(Riemannian)多様体空間での軌跡を行動に対する 特徴として取り扱う.ここで,低次元空間は多様体空間において再構築しやすく,人物の行動を可視化しやすくする.特徴表現,比較,変換などがしやす い多様体空間を構成することが精度を高めるためにも重要項目である.ここで,距離空間を設定するための射影方法が重要課題であり,dynamic time warping (DTW)が mis-alignment 問題を解決する手法のひとつであるが,距離計算において曖昧性が残り自然な特徴の射影ができないという問題がある ため,Transport Square-Root Velocity Function (TSRVF)により特徴空間を射影する.この TSRVF をベースにして Manifold Functional PCA (mfPCA)を構 築している.この特徴空間により,1 次もしくは 2 次(first and second order)の統計量を扱うことができ,より高次の特徴空間を扱うことに成功した.下の表は MSRAction3D dataset に対しての処理結果である. Link(s) 論文ページ: http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Anirudh_Elastic_Functional_Coding_2015_CVPR_paper.pdf
  • 61. 【158】 B. Micusik, H. Wildenauer, “Descriptor Free Visual Indoor Localization with Line Segments“, in CVPR2015. 屋内環境における視覚による位置特定(indoor visual localization problem)に関する研究.特徴点検出と特徴点のマッチングは使用せず,代わりにクエリ画 像からの直線の検出により 3D モデルを構築することとした.提案手法はテクスチャの少ない環境において効果的であることとを示し,テクスチャに依存す ることなく 3D モデルの構築を目指す. 下図は位置特定の概念図である.クエリ画像(入力画像)は 1 であり,直線検出した結果が 2 である.3 には virtual view にて 3 次元直線モデルとのマッチ ング示されており,ベストマッチングした位置(4)にて位置特定する.5 では特定された位置とカメラの姿勢が推定された結果が示されている. Link(s) 論文ページ: http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Micusik_Descriptor_Free_Visual_2015_CVPR_paper.pdf
  • 62. 【159】 L. Wang, H. Lu, X. Ruan, M.-H. Yang, “Deep Networks for Saliency Detection via Local Estimation and Global Search“, in CVPR2015. 従来の顕著性マップに関する研究(e.g. [Itti et al., PAMI1998])はボトムアップな手法であった.ローカルやグローバルな手法が提案されてきたが,その手 法は周囲との相関値をとるということをベースにしていた.しかし,意図した物体が周囲の背景と類似している場合には顕著性がうまく出ないという問題があ る.(それは顕著性ではないのでは?)この問題を解決すべく,deep neural networks (DNNs)を用いてローカル・グローバルな手法を両立させる LEGS(local and global search)を提案する.ローカル推定(DNN-L)ではあるピクセルが顕著かそうでないかを評価して,グローバル推定(DNN-G)ではグローバルに特徴 取得して領域から顕著性の推定値を算出する. Link(s) 論文ページ: http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Wang_Deep_Networks_for_2015_CVPR_paper.pdf
  • 63. 【160】 Z. Wu, F. Li, R. Sukthankar, J. M. Rehg, “Robust Video Segment Proposals with Painless Occlusion Handling“, in CVPR2015. 動画に対するセグメンテーションの提案.オクルージョンが激しい場面においても前処理として候補領域を提案する.長期間のアピアランスモデルを Least- square ベースの学習手法[Li+, ICCV2013]によりトレーニングする.Li らの手法と違うのは,初期フレームにて状態を与える必要がないということや完全な オクルージョンに対応している点である.下図はオクルージョンがある場合の対処法である.C はセグメンテーションのパラメータであり,セグメンテーション 中に更新し続ける. Link(s) 論文ページ: http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Wu_Robust_Video_Segment_2015_CVPR_paper.pdf
  • 64. 【161】 B. Liu, X. He, “Multiclass Semantic Video Segmentation with Object-level Active Inference“, in CVPR2015. 動画に対するセグメンテーションとマルチクラスの意味付け問題.supervoxel による前処理結果と,物体の仮説を候補領域として与えることにより,spatio- temporal dense CRF によりセグメンテーションと意味付けを同時に達成する(図 1).グラフによる報酬学習には,Markov decision process (MDP)を適用して 最適化問題を解いている.図 2 は入力,ground truth (GT)と処理結果である. 図 1 図 2 Link(s) 論文ページ: http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Liu_Multiclass_Semantic_Video_2015_CVPR_paper.pdf 著者ページ: http://users.cecs.anu.edu.au/~u5153693/publication.html
  • 65. 【162】 X. Wang, Q. Ji, “Video Event Recognition with Deep HIerarchical Context Model“, in CVPR2015. Deep Hierarchical Context Model を用いたイベント認識に関する研究.Deep hierarchical context model により 3 レベル (prior-level, semantic-level, feature- level)の学習と統合を同時に行う.イベントに関連する環境や人物,動物体などから特徴表現とそのインタラクションを表現している.VIRAT 2.0 dataset に 対して実装した結果はグラフの通り. Link(s) 論文ページ: http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Wang_Video_Event_Recognition_2015_CVPR_paper.pdf
  • 66. 【163】 C. L. Teo, C. Fermuller, Y. Aloimonos, “Fast 2D Border Ownership Assignmnent“, in CVPR2015. 2 次元画像において効率的な border ownership (境界線がどこにあるか,その領域は背景と前景のどちらに所属するか)を求める問題.著者らはこの問題 に対し,Structural random forests (SRF)を用いることにより取り組んだ.提案手法は計算時間を短縮しただけでなく,精度の面でも向上した.320x240pixels の画像に対して 0.1 秒で処理可能であり,従来法が Berkeley Segmentation dataset (BSDS)において 69.1%であるのに対して 74.7%を達成した. Link(s) 論文ページ: http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Teo_Fast_2D_Border_2015_CVPR_paper.pdf プロジェクトページ: http://www.umiacs.umd.edu/~cteo/BOWN_SRF/
  • 67. 【164】 Y. Yang, Z. Lu, G. Sundaramoorthi, “Coarse-to-Fine Region Selection and Matching“, in CVPR2015. 粗密探索により領域選択とマッチングする論文.物体の見え方が変更しても,角度やスケールを変換させた状態でマッチングする(図 1).マッチングが成功 した場合は大きな領域として,マッチングがうまく行かない場合にはさらに密に探索する.これにより,すべての領域を密に探索することなく特徴のマッチン グを可能にする.マッチングした際には階層的なアフィンスペースにて回転やスケーリングを考慮したマッチングを行う.図 2 では提案手法と ASIFT, Hessian Affine, MSER との比較をして定性的に有効性を示した.また,Precision-Recall curve による評価においても,最も優れた性能を示した. 図 1 図 2 Link(s) 論文ページ: http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Yang_Coarse-To- Fine_Region_Selection_2015_CVPR_paper.pdf
  • 68. 【165】 Mi Zhang, Jian Yao, Menghan Xia, Yi Zhang, Kai Li and Yaping Liu , “Line-Based Multi-Label Energy Optimization for Fisheye Image Rectification and Calibration “, in CVPR2015. 直線検出によって魚眼レンズの歪みを補正する手法. 魚眼レンズで撮影した画像から,歪みを考慮した直線を検出する.そして,その直線の中から元画像を構成する直線を自動選択する(Automatic circular Arcs Selection). 歪み補正の結果 Link(s) 【論文】 http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Zhang_Line-Based_Multi- Label_Energy_2015_CVPR_paper.pdf
  • 69. 【166】 D. Perra, R. K. Gupta, J.-M. Frahm, “Adaptive Eye-Camera Calibration for Head-Worn Devices“, in CVPR2015. 視線推定に関するキャリブレーションの論文.Head-worn デバイス(頭に取り付けたメガネ状のデバイスから目領域を映すカメラ)を用いた連続的かつ局所 最適化によりキャリブレーションを実現する.図 1 のように人物の目を写した画像から pupil や glint の検出, gaze 方向推定を行う.そこで生じたエラーを顕 著性マップとの誤差を最小化するよう最適化する(図 2).最適化の手法としては least-squares optimization (最小二乗最適化)を用いる.いかに Head-worn デバイスからキャリブレーションを高精度に行うかを解決した. 図 1 図 2 Link(s) 論文ページ: http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Perra_Adaptive_Eye- Camera_Calibration_2015_CVPR_paper.pdf
  • 70. 【167】 Hang Zhang, Kristin Dana, Ko Nishino, “Reflectance Hashing for Material Recognition“, in CVPR2015. 反射から画像に写った物体の素材を認識する手法. ラベル付きの学習画像から複数のフィルタ(Gaussian, Laplacian and oriented gradient)で特徴を抽出し,クラスタリングしておく.それを Textons として保持し ておく,入力画像にたいして同じフィルタ特徴を抽出することで素材を認識している. Link(s) 【論文】 http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Zhang_Reflectance_Hashing_for_2015_CVPR_paper.pdf
  • 71. 【168】 L. Niu, W. Li, D. Xu, “Visual Recognition by Learning from Web Data: A Weakly Supervised Domain Generalization Approach“, in CVPR2015. ウェブから取得した画像/動画からいかに情報を少なく(弱教師学習)学習するのかを考察.データによって偏りがあり,いかに攻略するかが鍵となる.この問 題は,dataset bias problem と呼ばれている.ターゲットドメインが取得できない時には,関連する項目から domain adaptation が必要であり,未知のターゲッ トドメインを推定する必要が生じる.この問題を解くために,domain generalization という設定(WSDG; weakly supervised domain generalization)にする.具 体的には,トレーニング画像や動画はタグが付いているが,確実性に欠けるということやテスト時のターゲットドメインはデータの分散値がトレーニング時と は異なるという問題を解く必要がある.著者らは Multiple Instance Learning (MIL)適用して,マルチクラスの MIL 分類として解くことでこの解決を図った. 下図では,弱教師ありの画像(画像のテキストによるタグ付け)を入力として,MIL ベースの手法による潜在的なドメイン推定を行い,最終的にはどのドメイン をつけるべきかというラベルを推定する.表は実験結果であり,ラベルノイズを最小化している. Link(s) 論文ページ: http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Niu_Visual_Recognition_by_2015_CVPR_paper.pdf
  • 72. 【169】 Lianli Gao, Jingkuan Song, Feiping Nie, Yan Yan, Nicu Sebe, Heng Tao Shen, “Optimal Graph Learning with Partial Tags and Multiple Features for Image and Video Annotation “, in CVPR2015. ビデオや画像のためのラベル付け手法の提案. ビデオや画像から複数の特徴を抽出し,1 つの特徴で 1 つのラベルをつけていく.それを optical graph で最適化し,semi-supervised learning で学習する ことによって,より頑健なラベル付けを可能にしている.(optimal graph learning: OGL) 実験では IXMAS dataset を用いた. Link(s) 【論文】 http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Gao_Optimal_Graph_Learning_2015_CVPR_paper.pdf
  • 73. 【170】 S. Zagoruyko, N. Komodakis, “Learning to Compare Image Patches via Convolutional Neural Networks“, in CVPR2015. 二つの画像を Convolutional Neural Networks (CNN)に入力して,類似度計算.コントリビューションとして,(i)いかに deep learning のフレームワークの中で (特徴設計することなく)類似度を計算するか. (ii) その際のネットワークアーキテクチャを提案する. (iii) SIFT や DAISY など既存の特徴記述方法よりも高 い性能をたたき出すことが挙げられる.ベースとなるニューラルネットのアーキテクチャは Siamese,pseudo-siamese, 2 チャネル,入力が 2 枚の画像, spatial-pyramid pooling (SPP)という特徴がある(下図参照).表では実験結果を示しており,convex optimization の 2.45 倍,SIFT の 6.65 倍のスコア値を示 した. Link(s) 論文ページ: http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Zagoruyko_Learning_to_Compare_2015_CVPR_paper.pdf プロジェクトページ: http://imagine.enpc.fr/~zagoruys/deepcompare.html
  • 74. 【171】 M. Rochan, Y. Wang, “Weakly Supervised Localization of Novel Objects Using Appearance Transfer“, in CVPR2015. 最近の ConvNet+ImageNet の成功により,1000 クラスの画像認識問題を解くに至っている.しかし,学習したクラスのみが認識対象であるため,容易にクラ スを追加することはできない.ここでは,元々あるモデルからいかにクラスを追加するかというアピアランスの転移問題を考案する.下図は提案手法の概要 である.図の左上では弱教師(画像の物体名)が割り振られており(novel object),一方で位置も含めたタグ付けが行われている画像を与えておく.タグ付け した画像は必ずしも対象となる物体のものではなく,knowledge transfer(転移学習)によりアピランスモデルを獲得する(familiar).位置も含めた最終的な検 出は,novel object と familiar objects により得ることができる. Link(s) 論文ページ: http://www.cv- foundation.org/openaccess/content_cvpr_2015/papers/Rochan_Weakly_Supervised_Localization_2015_CVPR_paper.pdf
  • 75. 【172】 J. Valentin, M. Niessner, J. Shotton, A. Fitzgibbon, S. Izadi, P. Torr, “Exploiting Uncertainty in Regression Forests for Accurate Camera Relocalization“, in CVPR2015. RGB-D を入力とした camera relocalization (画像からカメラの位置や姿勢を推定)方法の改善を提案する.この論文では,Regression forest を適用して 3 次 元の位置や姿勢を推定するための mixtures of anisotropic 3D Gaussians を計算する.実験では,ベースライン手法 79.3%や 67.6%であったのに対して提 案手法では 89.5%と良好な性能を示した. 下図は提案手法のフレームワークであり,RGB-D を入力とする.サンプリング点を獲得して Regression forest へと入力することで,シーン中の位置を推定 する.さらには RANSAC による繰り返し処理により最適化するという流れである. Link(s) 論文ページ: http://www.cv- foundation.org/openaccess/content_cvpr_2015/papers/Valentin_Exploiting_Uncertainty_in_2015_CVPR_paper.pdf
  • 76. 【173】 T. D. Kulkarni, P. Kohli, J. B. Tenenbaum, V. Mansinghka, “Picture: a probablistic programming language for scene perception“, in CVPR2015. Discriminative model(識別的モデル)と Generative model(生成モデル)から 3D の再構成問題を解くための probabilistic programming language を提案する .ここでは,3 次元顔認識,3 次元物体構成,3 次元人物姿勢推定を対象としてあつかう.下図では概要を示している.シーンが与えられ,対象がレンダリ ングされた際に,表現するレイヤー(deep neural net, contours, skeletons, pixels)があり,さらに観測された画像を参照して尤度や尤度によらない比較が行わ れる.Generative model の推定法には MCMC や Hamiltonian MC を用いる.再構成された 3 次元の顔や物体,人物姿勢の例が図の下に表示されている . Link(s) 論文ページ: http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Kulkarni_Picture_A_Probabilistic_2015_CVPR_paper.pdf プロジェクトページ: http://mrkulk.github.io/www_cvpr15/
  • 77. 【174】 B. Taylor, V. Karasev, S. Soatto, “Causal Video Object Segmentation From Persistence of Occlusions“, in CVPR2015. ビデオに対するセグメンテーション手法について提案した.オクルージョンが発生している場面に対しても頑健に領域が推定できる.小さい物体においても 正しく推定できている.例えば,下図の一番右の腕の領域にある赤領域はバッグのストラップの領域である. ここでは,モーションやアピアランスの事前情報を用いてオクルージョンの領域を推定しつつセグメンテーションを達成している. Link(s) 論文ページ: http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Taylor_Causal_Video_Object_2015_CVPR_paper.pdf
  • 78. 【175】 W. Li, N. Vasconcelos, “Multiple Instance Learning for Soft Bags via Top Instances“, in CVPR2015. Multiple Instance Learning (MIL)は弱教師あり学習の一種であり,画像認識の場合においては例えば画像の中に写っている物体の(位置を与えずに)タグ を付けておいて統計的解析を行うと認識の特徴量が自動で学習されるという仕組みである.これを,positive bag と negative bag の 2 種に分けることにより, 有効な特徴を自動で学習してくれるのが MIL の利点である.しかし,positive よりも圧倒的に negative サンプルの方が多い場面があり,また positive と negative が類似している場合も存在する.これを,soft bags という柔軟な表現法にすることでクラス間やサンプルが入った bag の表現能力を高めるという手 法. Link(s) 論文ページ: http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Li_Multiple_Instance_Learning_2015_CVPR_paper.pdf
  • 79. 【176】 J. Wu, Y. Yu, C. Huang, K. Yu, “Deep Multiple Instance Learning for Image Classification and Auto-Annotation“, in CVPR2015. Deep Learning に Multiple Instance Learning (MIL)を導入し,弱教師付き学習を導入することで,識別や識別のためのアノテーションを自動化するという論 文.クラスをインスタンスのバッグ,サンプルをそれぞれのバッグとみなして学習する.下図ではそれぞれ候補領域と画像タグから MIL により学習することで ,物体の検出が成功している.論文では候補領域(object proposal)とアノテーション(keywords)の情報から同時学習のための対応行列を計算する.これに より Deep Multiple Instance Learning の弱教師あり学習が実行できる.表は MIT Indoor Scene 67 dataset による実験であり,提案手法である DMIL の候補 領域とアノテーションの同時学習が 61.2%と良好な性能であることが判明した.CNN 特徴による識別では 57.7%である.MLrep が 64.0%であるが,これは 処理コストが大きく,なおかつデータセットに fine-tuning している. Link(s) 論文ページ: http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Wu_Deep_Multiple_Instance_2015_CVPR_paper.pdf
  • 80. 【177】 A. Babenko, V. Lempithsky, “Tree Quantization for Large-Scale Similarity Search and Classification“, in CVPR2015. 大規模画像データ探索の問題をいかに効率良く行うかという問題設定.従来では product quantization (PQ) [Jegou+, TPAMI2011]が提案されており,ベク トルの次元数をグループ分けしてクラスタリングするという手法を採用していた.これに対して additive quantization (AQ)は PQ と違うところはベクトルの次元 数がフルで取得するところにある.しかし,AQ の弱点は AQ にあり, 問題点を解決するために Tree Quantization (TQ)が用いられる.下図が TQ のフロー 図であり,木構造で codewords が格納されている. Link(s) 論文ページ: http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Babenko_Tree_Quantization_for_2015_CVPR_paper.pdf
  • 81. 【178】 G. Dogan, J. Bernal, C. R. Hagwood, “A Fast Algorithm for Elastic Shape Distances between Closed Planar Curves“, in CVPR2015. 高速かつ繰り返し処理によりヒューリスティックに elastic な形状を求めるアルゴリズムを考案した.提案手法は[Srivastava+, TPAMI2011]の手法を参考にし ている.Srivastava らの手法は dynamic programming (DP)をもとにパラメータを求めているが,提案手法では非線形制約最適化手法を用いることで再帰的 にパラメータを決定することができる. Link(s) 論文ページ: http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Dogan_A_Fast_Algorithm_2015_CVPR_paper.pdf
  • 82. 【179】 J. C. Rubio, B. Ommer, “Regularizing Max-Margin Exemplars by Reconstruction and Generative Models“, in CVPR2015. Positive クラスからあらかじめ特徴を抽出しておき,local discriminative analysis (LDA)によりマージンを求めておく.提案手法ではさらに, positive と negative クラスを生成モデルにより作成し,特徴空間における max-margin を最適化する.この処理により,提案手法は PASCAL07 データセットにてオリジ ナルの Exemplar SVM(33.0%)よりも精度が高い 34.6%/33.6%を達成し,なおかつ学習時間の面でも Exemplar SVM が約 40 時間かかるところを提案手法 は 14 時間/14 分で実現できている. Link(s) 論文ページ: http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Rubio_Regularizing_Max- Margin_Exemplars_2015_CVPR_paper.pdf
  • 83. 【180】 D. Lee, H. Park, C. D. Yoo, “Face Alignment using Cascade Gaussian Process Regression Trees“, in CVPR2015. 顔の傾き(face alignment)があったとしても,回帰モデルや繰り返し処理を行うことで顔の特徴点にフィッティングする.従来ではこの問題に対して gradient boosting と呼ばれる方法が適用されていたが,これを cascade Gaussian Process Regression Trees (cGPRT)を用いることで精度よく傾きがある状態でも顔の 特徴点位置を推定する. cGPRT に入力される特徴は local retinal patterns の Difference of Gaussian (DoG)である.図 1 は繰り返し処理による顔特徴点の 推定の様子であり,図 2 は DoG の取得(a),local retinal patterns(b),特徴量の比較を示す. 図 1 図 2 Link(s) 論文ページ: http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Lee_Face_Alignment_Using_2015_CVPR_paper.pdf
  • 84. 【181】 M. Kabra, A. Robie, K. Branson, “Understanding Classifier Errors by Examining Influential Neighbors“, in CVPR2015. 特徴空間においてクラス間の influential な サンプルを見つけて距離指標を与える論文.これにより,識別境界あたりの学習を密に行うことができ,識別の エラーを理解することでエラー率が低減できるとしている.下図のように influential なサンプルを理解し,同じクラス同士のサンプル間の距離が近くなるよう に特徴空間を設計する. Link(s) 論文ページ: http://www.cv- foundation.org/openaccess/content_cvpr_2015/papers/Kabra_Understanding_Classifier_Errors_2015_CVPR_paper.pdf
  • 85. 【182】 T.-H. Chao, Y.-L. Lin, Y.-H. Kuo, W. H. Hsu, “Scalable Object by Filter Compression with Regularized Sparse Coding“, in CVPR2015. 提案手法である Regularized Sparse Coding により,学習データセットを正規化し,オンラインの処理工程ではその正規化結果を用いて物体を認識する.特 徴としては DPM によるフィルタリングを行い,コードブックを生成しておく.生成したコードブックを参照して,学習サンプルの特徴を蓄積していく.この際に スパースコーディングによる拡張された空間に投影して識別率を高めるための処理とする(performance augmented sparse activation).オンラインの処理をす る際には,フィルタリングの処理は入力データの変換の際のみに適用され,特徴空間のサンプルと比較する.このモデルによりオリジナルの DPM からおよ そ 16 倍高速化を実現し,1.25%のメモリ量で処理,0.04mAP の減少で済んだと述べている. Link(s) 論文ページ: http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Chao_Scalable_Object_Detection_2015_CVPR_paper.pdf
  • 86. 【183】 R. Kennedy, C. J. Taylor, “Hierarchically-Constrained Optical Flow“, in CVPR2015. オプティカルフローは 2 フレーム間のモーションベクトルを推定する手法である.近年ではこの問題に対してグラフィカルモデルを適用した例が多く,グラフ 最適化によりモーションベクトルを推定してきた.しかし,グローバルに推定することは NP-hard になってしまい困難な課題である.そこで提案手法では Tree-base のグラフモデルを設定することでこの計算時間の問題を解決した.ここでは tree-structured Markov random field (MRF)を適用して画像に対する オプティカルフロー空間を推定する.図 1 は提案モデルの概念図である.エッジの重みがセグメントの評価値となり,最終的にはそれぞれのピクセルに対 する出力結果となる.図 2 が提案手法を用いた結果である. 図 1 図 2 Link(s) 論文ページ: http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Kennedy_Hierarchically- Constrained_Optical_Flow_2015_CVPR_paper.pdf
  • 87. 【184】 X. Zhou, S. Leonardos, X. Hu, K. Daniilidis, “3D Shape Estimation from 2D Landmarks: A Convex Relaxation Approach“, in CVPR2015. 2 次元の特徴点から人物の 3 次元姿勢を推定する問題.2D の特徴点-3 次元形状の最適化には凸最適化によりそれぞれの空間のマッチングを行う.顔 の 3 次元再構成問題である active shape model の姿勢推定版と思えば良いが,人物姿勢推定のようなより複雑な空間においてマッチングするために拡張 している.spectral-norm regularization により損失関数を計算して誤差を最小化した.下図の右から左はそれぞれ,入力の 2D 特徴点,3 次元復元,凸最 適化による最適化例である.実験では人物姿勢のみならず,クルマの 2 次元特徴点から 3 次元形状を復元している. Link(s) 論文ページ: http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Zhou_3D_Shape_Estimation_2015_CVPR_paper.pdf
  • 88. 【185】 A. Eriksson, T. T. Pham, T.-J. Chin, I. Reid, “The k-support Norm and Convex Envelopes of Cardinality and Rank“, in CVPR2015. コンピュータビジョンにおいて sparsity(スパース性)は二つの大きな研究目的があり,ひとつは計算コストの削減,もう一つはモデルの簡略化が挙げられ,い かに計算コスト少なく高精度な手法を考案するかがキーである.[Lai+, ECCV2014]では[Argyriou+, NIPS2012]の改良として k-support norm の正規最適化 問題を解いた.Argyriou らは Lai らの手法をバイナリ探索問題として置き換えることで改良を施した.この手法は計算時間の面で改良したと言えるが,未だ 膨大な計算時間がかかってしまい非効率である.提案手法ではこの問題を convex envelopes(凸包絡)として与えられた集合を含む最小の凸集合とみなし て最適化を行う.ここで nuclear norm や spectral k-support norm も評価している.下図はノイズ画像(中央)と spectral k-support norm(右)を用いてノイズ除去 をした結果である. Link(s) 論文ページ: http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Eriksson_The_k-Support_Norm_2015_CVPR_paper.pdf
  • 89. 【186】 Q. Sun, A. Laddha, D. Batra, “Active Learning for Structured Probabilistic Models with Histogram Approximation“, in CVPR2015. 提案手法では,Conditional Random Fields (CRFs)のような確率モデルを,active learning により最適化する手法する方法を考案する.主なコントリビューシ ョンは[Martin+, Foundations and Trends in Machine Learning 2008]の手法を用いてエントロピー計算を近似してモデルを求める部分である.下図は提案手 法の概念図であり,Histogram Approximation を提案して,エントロピー計算を行ったことにより,セグメンテーションの結果を良好にした.実験では,Gibbs sampling などの分布推定方法よりも高いセグメンテーションの精度を実現した. Link(s) 論文ページ: http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Sun_Active_Learning_for_2015_CVPR_paper.pdf 著者ページ: https://filebox.ece.vt.edu/~dbatra/pubs.html
  • 90. 【187】 B. Klein, G. Lev, G. Sadeh, L. Wolf, “Associating Neural Word Embeddings with Deep Image Representations using Fisher Vectors“, in CVPR2015. 最近では画像の生成文が非常に注目されている.画像生成文とは,画像を入力するとその画像を説明する文章が出力されるという課題である.この問題 に対して word2vec を導入したモデルで,Fisher Vector による認識結果を照らし合わせると効果的な画像生成文ができるという提案.この論文では Fisher Vector 表現をする際に Gaussian Mixture Model (GMM)ではなく Laplacian Mixture Model (LMM)によりベクトルを生成する方が画像生成文に対しては有 効であると述べている.分布の推定には Expectation-Maximization(EM)推定を用いている.さらには,ふたつの分布をひとつのモデルとして扱うために Hybrid Gaussian-Laplacian Mxiture Model (HGLMM)を提案して認識に適用.画像ベクトルは CNN の VGG モデルにより表現し,テキストは word2vec に より表現.これは HGLMM を分布に持つ Fisher Vector により変換される.さらには Text=>Image のマッチングには Canonical Correlations Analysis (CCA) によりマッチングを実行する.下の表は関連手法との比較を示し,提案法が良好な性能を示していることがわかる. Link(s) 論文ページ: http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Klein_Associating_Neural_Word_2015_CVPR_paper.pdf
  • 91. 【188】 H. Fu, D. Xu, S. Lin, J. Liu, “Object-based RGBD Image Co-segmentation with Mutex Constraints“, in CVPR2015. co-segmentation は前景領域が与えられた際,異なる画像において類似する前景領域を抽出する問題である.提案手法では,RGBD を入力とした前景に 対する co-saliency map を作成した上でオブジェクトベースの co-segmentation を行う.下図は RGB と D 画像,co-saliency マップ,最終的な co- segmentation の結果を示す.ここでは mutual exclusion による拘束(mutex constraints; mutex; 相互排除)も与えることで従来の RGB-D による co- segmentation よりも高い性能を示した. Link(s) 論文ページ: http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Fu_Object-Based_RGBD_Image_2015_CVPR_paper.pdf プロジェクトページ: https://sites.google.com/site/huazhufu/home/rgbdseg
  • 92. 【189】 W. Yang, Y. Ji, H. Lin, Y. Yang, S. B. Kang, J. Yu, “Ambient Occlusion via Compressive Visibility Estimation“, in CVPR2015. 形状の特性として,ambient occlusion (入り組んだオクルージョン)が非常に困難であるが,形状復元する際には非常に困難な問題となる.提案手法では, ambient occlusion 問題に対して複数の光源を照射して形状を復元することにより,有効な解決策を与える.下図が提案手法のシステム構成とその結果で ある. Link(s) 論文ページ: http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Yang_Ambient_Occlusion_via_2015_CVPR_paper.pdf 著者ページ: http://research.microsoft.com/en-us/um/people/sbkang/publications/
  • 93. 【190】 F. Yan, K. Mikolajczyk, “Deep Correlation for Matching Images and Text“, in CVPR2015. 提案手法では Deep canonical correlation analysis (DCCA)を用いることで画像とテキストをマッチングするための潜在空間を学習する.DCCA は二つのベ クトル間の相関値を deep neural network により計算する手法であり,[Andrew+, ICML2013]により提案された.提案手法ではこの DCCA を用いることでよ り大規模な特徴空間においてもマッチングを実現させ,複雑な文章を生成することに成功した.Flickr30k dataset を用いた実験においても良好な性能を実 現した. Link(s) 論文ページ: http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Yan_Deep_Correlation_for_2015_CVPR_paper.pdf プロジェクトページ: https://sites.google.com/site/visenproject/home
  • 94. 【191】 H. Zhang, J. Yang, “Intra-Frame Deblurring by Leveraging Inter-Frame Camera Motion“, in CVPR2015. ビデオに対するデブラーの手法としては,大きく分けて二つある.ひとつはフレーム内にて独立にデブラーしてフレームをつなぎ合わせる手法,もうひとつ はフレーム間でカメラモーション推定をする手法である.提案手法ではこの両者を組み合わせることにより,効果的な動画に対するデブラー手法を提案す る.カメラ間の動きを推定するためには画像のモーション推定を密に行う必要があり,ブラー自体を推定するためにはモーションが取得できていると高精度 に推定ができる.これを同時に解くための最適化としてデータ項(data term)と時系列項(temporal term),正規化項(generic regularization term)を定義して最 適化問題を解く.従来のデブラー法との比較は下記に示される.提案法では,文字まではっきりと復元されている. Link(s) 論文ページ: http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Zhang_Intra-Frame_Deblurring_by_2015_CVPR_paper.pdf プロジェクトページ: https://sites.google.com/site/hczhang1/projects/video_deblur