関西CVPRML 2011.8.27

CVPR2011 Paper Digest
(1) Interactive building a discriminative
vocabulary of nameable attributes
(2) Recognition using visual phrases

木村昭悟＠ NTTコミュニケーション科学基礎研究所
Twitter ID: @_akisato

なぜこの2本を選んだのか？
 「画像を理解する」をどう問題に落とす？
像を解す」をう問題落す
 物体認識…？ Person
Horse

[ Full description ]
A woman wearing a blue cloth and gray tights is riding on a galloping
white horse at a beautiful sandy beach under a clear sky.

物体認識をしただけでは，
物体認識をしただけでは
実は何も理解できていない！
（物体だけを認識する一般物体認識の終焉）
（物体だけを認識する般物体認識の終焉）
2 関西CVPRML (August 27, 2011)

何が足りないのか？ (1)
 物体
物体などの属性が足りない
属性足り
 でも画像だけで Sky: clear Person: female
全部できる気がしない Horse: white

[ Full description ] Beach: beautiful, sandy

第論文の主題属性辞書をインタラクティ
第1論文の主題：属性辞書をインタラクティブに学習
学習


何が足りないのか？ (2)
 物体間関係性足り
物体間の関係性が足りない
A person is wearing clothes.

[ Full description ] A person is riding on a horse.
A woman wearing a blue cloth and gray tights is riding on a white horse
at a beautiful sandy beach under a clear sky.

第論文の主題物体その関係性をクラ
第2論文の主題：物体とその関係性をクラスと見なす認識
見なす認識


Interactively building a
discriminative vocabulary of
nameable attributes
（こちらが一応今日の主題…のはず）
題

D. Parikh @ Toyota Technological Institute, Chicago
K. Grauman @ University of Texas at Austin

やりたいこと
 物体
物体・シーンの属性の辞書・モデルを
属性辞書を
インタラクティブに構築する

物体やシーンはそれぞれ
違うラベルが付いているけど，
違うラベルが付いているけど何か名前があるかも！
何か傾向があるような気がする… 聞いてみよう！


アプローチ
 物体ラ
物体クラスとは異なる類似性を見つける
異類性を見

クラス分類を壊さないような
2クラス識別面を見つける

ユーザに見せる画像を
適切に選択

尤もらしい仮説だけを
選択して提示

類似性発見の方法
Mixture of Probabilistic PCAs 教師なし（物体も属性も関係なし）で
でモデル化，適切な仮説のみ選択最大マージンクラスタリング

現在の属性辞書現在の属性辞書で
（この図では1つだけど分離しにくい物体クラスの
いっぱいあってもOK）集合を見つける by normalized cuts


提示する画像の選択

識別面に直交する軸を等間隔に区切る

区切った領域内で，識別面の真ん中に
区切った領域内で識別面の真ん中に最大マジンクラスタリングで得られた
最大マージンクラスタリングで得られた
最も近いサンプルを選択識別面（＝属性候補）


ユーザに何を尋ねるか？

• この属性の名前は？（以降はもし属性に名前があれば回答）
• 左右，どちらに行くほどその特性が強くなるか？
• この画像列がその属性を表現するものとして，
どの程度尤もらしいか（4段階評価）？

データセット
 Outdoor scene recognition (OSR)
g ( )
 http://people.csail.mit.edu/torralba/code/spatialenvelope/
 Animals with attributes (AWA)
 http://attributes.kyb.tuebingen.mpg.de
 共通事項
 各データセットから8物体クラスを選択
 1画像1クラスとなるように加工された画像もある
 属性の種類は主旨(gist)と色に限定
 インタラクションはMechanical Turk経由


クラス選択と仮説選択の効果
クラス選択

クラスのランダム選択や
クラス選択なしに比べ，
クラス選択なしに比べ
意味ある仮説を適切に
選択できている

仮説選択

仮説のランダム選択と
比較して，
比較して
意味ある仮説を
適切に選択できている


全体としての効果
 インタラクションを重ねれば，
ラを，
属性辞書は着実に構築されます．

 なので，当然，認識精度も向上します．
なので当然認識精度も少し向上します


続編がICCV2011で発表されます
 Title: Related attributes

Attributeに関する
ランキング関数を学習
関数

Zero-shot learning?
g
何それ，おいしいの？
ランキング関数は
識別直交軸上の値？


Recognition
using visual phrases

M.A. Sadeghi @ Institute for Research in Fundamental Science
A. Farhadi @ University of Illinois at Urbana-Champaign

やりたいこと
 物体そ関係性を認識す
物体とその関係性を認識する

Person_nextto_bicycle Person_drinking_bottle

Person_riding_bicycle
Person riding bicycle Dog_lyingon_sofa
Dog lyingon sofa


アプローチ
1. 関係性物体様，
関係性も物体同様，１つの「クラス」と見なす．
ラ」見す
 なので，真に関係性を認識しているわけではない．
2.
2 クラス間の位置関係を考慮して，
クラス間の位置関係を考慮して
クラス別での認識結果を修正（追加・削除）
1

2


各クラスのモデル
粗めPCA-HOG
 Deformable part model
p
[Felzenszwalb+ 2010]
 PASCAL VOC 標準ソフト採用
物体パーツごとの細かめPCA-HOG
bicycle

パーツ位置ずれ/変形に対するコスト

Felzenszwalb et al. “Object Detection with Discriminatively Trained Part Based
Object
Models,”IEEE Trans. PAMI, Vol.32, No.9, 2010. http://people.cs.uchicago.edu/~pff/latent/

各クラスの認識
粗めHOG 細かめHOG （解像度2倍）

Input image

Model (person)


クラス別認識結果の統合
i番目のbounding boxを
最終結果に使うかどうか？ i番目のbounding boxの
クラスインデックス

person
person

i番目使わない → all 0 のベクトル
person bag i番目使う → i番目のbounding boxの特徴表現

クラス別に，位置関係・尤度・サイズ比等を考慮した
クラス別に位置関係・尤度・サイズ比等を考慮した
「何らか」の(9K+1)次元ベクトル（ダッテナニモカイテナイシ）

識別軸 w でクラス判別を行う線形(structured)SVM

結果統合モデルの学習
 Structured SVMの設計
設

n番目の画像全体での仮説と正解とのハミング距離
bounding boxes の評価値
bounding boxの
使用/不使用に関する仮説

 仮説最適化と目的関数最大化の繰り返しで学習


データセット http://vision.cs.uiuc.edu/phrasal/
http://vision cs uiuc edu/phrasal/
 Bingでphraseを検索，以降は手動作業…
g p を検索，降動作業
 25クラス = 8 objects + 17 phrases
 画像 2769枚 (822枚 = negative examples)
 各クラス平均120枚のpositives
 5067 bounding boxes （phrases:1796, objects:3271)
b di b
Dog jumping

Person drinking
bottle
b ttl

Person lying
on sofa


関係性認識の精度が良くなります
 精度が大きく向上した10 phrasesでのPR曲線
p


関係性認識の精度が良くなります

多くのphrasesで
baselineを大きく上回る性能
b li を大きく上回る性能

どのような状況が得手/不得手
か，があまり明らかでない


物体認識の精度も少し良くなります
Deformable part model [Felzenszwalb+ PAMI2010]
（Baselineとなる物体検出器，page
（Baselineとなる物体検出器 page 10 参照）

Structured learning for
multi-class object layout [Desai+ ICCV2010]
（scoring functionを使った物体関係モデルを用いた検出器）


物体認識の精度も良くなります


さいごのまとめ

木村昭悟＠ NTTコミュニケーション科学基礎研究所
Twitter ID: @_akisato

それでもやっぱりまだ足りない…
それでもやっぱりまだ足りない
 物体動作足り
物体の動作が足りない → 第2論文でできたのはごく一部
 風景を系統的に理解できない
→ 物体・属性・関係性・動作の総合体，かなぁ
物体属性関係性動作の総合体，かなぁ

Beach = sky(upper) +
water(middle) + sand(lower)??

A horse is galloping.


 説明
説明文自体を直接生成する
体を直接成す
 ここ1年でいくつかの研究が出てきたが，
手法の完成度としてはまだ2合目程度
• Yang et al.“Corpus-Guided Sentence Generation of Natural Images”, EMNLP2011
• Ushiku et al.”Automatic Sentence Generation from Images,” to appear, ACMMM2011

[ Full description ]
hi h b if l d b h d l k

 意外性が足りない
性足り
→ Context重視の方針を追求することの功罪

Relatively easy Seems to be hard


追記：自分ができなくても言わねばならぬこと

 作ったモノ（手法・DB等）を使える状態にしよう
 すぐに使える水準まで技術を高める
 作ったモノをみんなに使ってもらう努力をする
使
 Video segmentation datasetを公開しています．
 でもなければ，誰でも再現可能な技術を作る
 MIRU2011 OS1-2は，その試みの1つです．
OS1 2はその試みの1 です
 3年も経てばold-fashion,20年経てば忘れられる
 この分野のacademiaで生きるなら，それについていく覚悟が必須
この分野のacademiaで生きるならそれについていく覚悟が必須

 選択肢は広く，実行するモノは数少なく
 良い問題に当たる確率は確実に上がる
 分野が変われば技術も変わる，そこから学ぶ

Thank you for your kind attention
attention.

 Any questions/comments/discussions ?

Corresponding author
Akisato Kimura Ph D @ NTT CS Labs.
Kimura, Ph.D Labs

[E-mail] akisato <at> ieee.org [Twitter] _akisato
[web] Pl
[ b] Please search by “Akisato Ki
h b “Aki t Kimura” ”

関西CVPRML 2011.8.27

Recommandé

Recommandé

Contenu connexe

Similaire à 関西CVPRML 2011.8.27

Similaire à 関西CVPRML 2011.8.27 (8)

Plus de Akisato Kimura

Plus de Akisato Kimura (20)

関西CVPRML 2011.8.27