大規模画像認識とその周辺

大規模画像認識技術とその周辺

@n_hidekey

Contents
}  大規模画像データで出来ることの例
}  一般物体認識の紹介
}  大規模化の流れと最近の手法について
}  大規模一般物体認識コンペティション
}  他分野との融合的領域など

大規模画像データの時代
}  Webサービスへの画像投稿は日常の一部
}  Flickr： 60億枚の画像（2011年）
}  Facebook: 毎年30億枚画像投稿
}  Youtube: 毎日約8年分の動画がアップロード

}  何らかのメタ情報が付与される場合も多い
}  タグ、コメント、EXIF、位置情報、・・・

}  これらの大量のデータを用いることで、従来考えられ
なかったさまざまなアプリケーションが登場している

画像補完
}  Scene completion using millions of photographs [Hays
et al., SIGGRAPH 07]
}  類似画像を利用した画像の合成・補完
}  データベースが大きくなるほど性能向上

入力画像
ユーザ指定類似画像
合成画像
のマスク

画像・位置変換
}  IM2GPS [Hays et al., CVPR 08]
}  位置情報付き画像データベースを用い、画像だけから撮影
された場所を推定

入力画像
類似画像

三次元再構築
}  Photo tourism [Snavely et al., SIGGRAPH 06]
}  大量の画像の幾何的な位置合わせを行い、元の三次元対象物を復元

}  [Agarwal et al., ICCV 09]
}  [Furukawa et al., CVPR 10]
}  http://www.youtube.com/watch?v=ofHFOr2nRxU

画像の美観評価
}  High level describable attributes for predicting
aesthetics and interestingness [Dhar et al., CVPR 11]
}  大量の写真に対するユーザの評価を利用することで、
写真の良しあしを学習

画像カテゴリ識別
}  大量のweb画像を用いたパターン認識

}  Tiny images [Torralba et al., PAMI 08]
}  8000万枚の訓練画像を用い、
最近傍識別

}  ARISTA [Wang et al., CVPR 10]
}  20億枚！

大量の画像で出来ることの例

}  画像カテゴリ識別
}  類似画像検索
}  美観評価
}  位置推定
}  画像補完
}  白黒画像着色
}  超解像度
}  三次元再構築
}  …

一般画像認識（一般物体認識）
}  制約をおかない実世界環境の画像を単語で記述
}  一般的な物体やシーン、形容詞（印象語）
}  2000年代以降急速に発展（コンピュータビジョンの人気分野）
}  幅広い応用先
-画像検索、ロボット、バーチャルリアリティ、ライフログ、デジタルカメラ…

一般画像認識の難しさ ①物理的変動
o  視点，スケール，背景

o  照明変化

credit: S. Ullman

o  オクルージョン（干渉）

Lowe, 1999

一般画像認識の難しさ ②カテゴリ内変動

[Fei-Fei et al. CVPR2007 Tutorial]

一般画像認識の難しさ ③膨大なカテゴリ数

[Fei-Fei et al. CVPR2007 Tutorial]

一般画像認識の大規模化
}  実世界の画像は見え”の幅が非常に大きい
}  大規模な訓練データセットを用いた学習が必要不可欠

Corel5K Caltech256 NUS-WIDE ImageNet ARISTA
(2002) (2007) (2009) (2011) (2008)
5,000枚
30,000枚
20万枚
1400万枚
20億枚

10 2 10 3 10 4 10 5 10 6 10 7 10 8 10 9
Caltech101 SUN397 ILSVRC TinyImage
(2004) (2010) (2010) (2008)
9,000枚
10万枚
140万枚
8000万枚

大規模化の効果 (例)
}  Flickr画像を用いたK最近傍識別
似た画像を探して、そのラベルを利用

} 

100K dataset
1.6M dataset
12M dataset
認
識 football soccer varsity girls boys football soccer festival college church stainedglass football
結 travel party family school high
futbol park people cycling bath city vacation travel
果 marchingband vacation
cathedral window glass

近
傍
画
像

解決すべき重要な課題： Semantic gap
}  事例の類似度をどう定義すべきか？
}  例えば、単純なカラーヒストグラムだと
右の二つの画像は非常に近い値となる

I look my dog contest: http://
www.hemmy.net/2006/06/25/i-
look-like-my-dog-contest/

}  もともと物理的な信号に過ぎない画像と意味との間には
大きな隔たりがある

}  さまざまな性質をもった大量の画像特徴が必要
}  色、形状、自己類似性、・・・（基本的に力技で列挙）
}  識別的アプローチが中心

特徴次元数と識別性能
}  大規模データの恩恵を受けるためには、高次元の画
像特徴量が必要
}  [Sánchez & Perronnin, CVPR 11]
32768次元

識
2048次元
別
性
能

4万5千枚
92万枚

学習画像数

特徴次元数の推移
}  1990~2000 数百次元程度
}  Color histogram, Edge histogram , color correlogram, etc.

}  2001 GIST (960次元)
}  2004 Bag of visual words （数千~数万次元）
}  2005 HOG (数千次元)
}  2009 [Schwartz et al., ICCV 09] （17万次元）
}  2010 [Lin et al., CVPR 10] （26万次元）
}  2011 [Sanchez et al., CVPR 11] （52万次元）

画像特徴ベクトル抽出の一般的な枠組み
⎛ 0.5 ⎞
⎜ ⎟
⎜1.2 ⎟
⎜ 0.1 ⎟
⎜ ⎟
⎜  ⎟
⎜  ⎟
⎝ ⎠

1. 局所特徴抽出 2. 局所特徴分布から
}  1-1. 特徴点検出大域特徴ベクトルを作成
(Operator, grid)
}  1-2. 特徴記述分布の情報や分布間の計量を
(SIFT, SURF, )
いかにして損なわずにコーディング
するか？

Bag-of-Visual-Words (BoVW) [Csurka et al. 2004]
n  ベクトル量子化により局所特徴をヒストグラムへコーディング
n  局所特徴の数を数えるだけなので、分布情報を必ずしも
十分に活用できない

学
前習
処用
理
画
像
局所特徴
Visual words

未
知
画
像
Credit: K. Yanai

最近の発展① スパースコーディング
}  BoVWの枠組みで、Reconstruction error を低減させる
}  局所特徴の空間はサンプル数の割に高次元
}  分布の局所的な構造をうまくとらえたい

[Yang+, CVPR’09]
[Wang+, CVPR’10]

最近の発展② 高次統計量の利用
N: visual wordの数 (10^3∼10^4)
d: 局所特徴量の次元数 (10∼100)

手法
統計量
特徴ベクトルの次元数
BoVW
個数（割合）
N
VLAD [Jegou+,CVPR 10]
平均
Nd
Super vector [Zhou+, ECCV 10]
割合+平均
N(d+1)
Fisher vector [Perronnin+, ECCV 10]
平均+分散
2Nd

Global Gaussian
平均+分散共分散
d(d+1)/2 (N=1)
[Nakayama+, CVPR 10]

VLAT [Picard+ ICIP 11]
平均+分散共分散
Nd(d+1)/2
基本的には、局所特徴分布のさまざまな統計量を素性として特
徴ベクトル化していると解釈できる
線形識別が可能なように計量を考えて設計されている

Key players
}  Hervé Jégou (INRIA)
}  VLAD, hamming embedding
}  類似画像検索
}  Product quantization という量子化手法がかなり良いらしく、
注目されている

}  Florent Perronnin (XRCE)
}  Fisher vector
}  画像識別
}  最近はPQも応用している

}  CVPR 2012 でチュートリアルやるそうです

大規模画像認識コンペティション
}  Large-scale visual recognition challenge 2010
}  1000クラスの一般物体識別
}  120万枚の学習画像、15万枚のテスト画像
}  Top 5 hit rate で評価

}  ImageNet [Fei-Fei et al.] のデータセットの一部
}  Amazon Mechanical TurkでWeb画像にラベル付け
}  現在、約1420万画像、2万2千カテゴリのデータが蓄積
}  WordNetの概念構造を利用

Credit: Fei-Fei Li

スケール感
}  抽出する局所特徴はかなりのデータ量になる
}  一枚の画像から、数千∼数万点程度
（基本的に、抽出数を増やすほど性能が向上）
}  10,000（局所特徴数/画像）×128（局所特徴の次元数）×4（byte） = 5MB
}  120万枚だと5MB×1.2M = 6TB
}  複数の局所特徴を用いるとさらに爆発

}  最終的な特徴ベクトルも、高次元かつ密になる場合が多い
}  例えば、[Sánchez+, 2011]では524K次元
}  524K（次元）×4（byte）×1.2M = 2.8TB

}  こだわりだせばいくらでもデータ量は増える

結果
}  参加11チーム
}  1位 NEC+UIUC (72%) 80,000~260,000 dim ×6

}  2位 Xerox Research (64%) 260,000 dim ×2

}  3位 ISI(55%) 12,000 dim

}  4位 UC Irvine (53%)
}  5位 MIT (46%)

}  認識結果例
}  http://www.isi.imi.i.u-tokyo.ac.jp/pattern/ilsvrc/index.html

2010年のトップ NEC-UIUC
}  LCC + super vector coding
}  6つの識別器を学習し、投票で決定
}  Hadoopで画像特徴抽出
}  線形SVM (Averaging SGD)
}  8コアマシンで、LCC→2日、Super vector→7日

2011年のトップ XRCE-Europe
}  Fisher vector
}  520K dim ×2 (SIFT, color)
}  画像特徴抽出
}  16CPUマシン一台で2日（※）
}  線形SVM (SGD)
}  16CPUマシン一台で1.5日

（※）論文にははっきり書かれていないが、ストレージ周りはかなり工夫しな
いとこの速さは無理な気がする

大規模一般画像認識の現状
}  特徴抽出に関する手法的な準備は整いつつある
}  大規模な線形識別の問題に帰着 → オンライン学習など
}  今後、さらに高次元化が進むと予想される
}  スパースコーディング（疎） vs Fisher vector（密）

}  処理する中間データは膨大
}  主にIOがボトルネックになる

}  データ構造、ファイルシステム、ハードウェアなど含めた
トータルな実装力が必要
}  2011年のTRECVIDでは、東工大チームがTSUBAME 2.0を用い優勝
}  一般には、GPGPU+Hadoopによる特徴抽出が定番になりそう
}  まだこのへんをちゃんと考えているものは少ない

その他ホットな話題
}  そもそもカテゴリはどう定めるべきか？
}  Attribute（プリミティブ） [Lampert et al., CVPR 09]

}  概念階層構造の構築
}  クラウドソーシング [Li et al., CVPR 10]
}  Webデータから発見 [Berg et al., ECCV 10]

その他ホットな話題
}  転移学習
}  Web画像で学習→携帯で撮影した実画像を認識 
[Saenko et al., ECCV 10]

他分野との融合・連携

例1. CV + NLP
}  Automatic sentence generation from images [Ushiku et al., 2011]

Credit: Yoshitaka Ushiku

例1. CV + NLP
}  自然言語で画像要約 & 文章で画像検索
}  Every Picture Tells a Story: Generating Sentences from Images [Farhadi et al., ECCV 10]
}  Composing Simple Image Descriptions using Web-scale N-grams [Li et al., CoNLL 11]
}  Corpus-Guided Sentence Generation of Natural Images [Yang et al., EMNLP 11]
}  Im2Text: Describing Images Using 1 Million Captioned Photographs [Ordonez et al.,
NIPS 11]
}  Baby Talk: Understanding and Generating Simple Image Descriptions [Kulkarni et al.,
CVPR 11]
}  Automatic Sentence Generation from Images [Ushiku et al., ACMMM 11]
}  Midge: Generating Image Descriptions From Computer Vision Detections [Mitchell et al.,
EACL 12]
}  Collective Generation of Natural Image Descriptions [Kuznetsova et al., ACL 12]

}  NIPS 2011: Workshop on Integrating Language and Vision

例2. Multimedia Advertising
}  VideoSense [Mei et al., 2009] ← MSRAのマルチメディア解析チーム
}  コンテンツ連動型広告に、画像・動画像解析を応用

}  VisiAds [Scott et al., ICME 09]

マルチメディア情報処理：今後の展望
}  複数のメディアの融合
}  テキスト、画像、動画像、音声、メタ情報、行動情報、…
}  研究チャンス、ビジネスチャンス

}  非言語的コンテンツ
}  画像、動画像、音声など (Semantic-gapが難題)
}  大規模に処理するための道筋は開けてきた

}  多様・非均質な情報を統合的に扱う準備は必要
}  各メディア特有の前処理
}  データ構造、分散処理 etc.

大規模画像認識とその周辺

Recommandé

Recommandé

Contenu connexe

Tendances

Tendances (20)

En vedette

En vedette (20)

Similaire à 大規模画像認識とその周辺

Similaire à 大規模画像認識とその周辺 (20)

Dernier

Dernier (11)

大規模画像認識とその周辺