SlideShare une entreprise Scribd logo
1  sur  32
Télécharger pour lire hors ligne
CVPR2011 Paper Digest
 (1) Interactive building a discriminative
       vocabulary of nameable attributes
     (2) Recognition using visual phrases

木村 昭悟 @ NTTコミュニケーション科学基礎研究所
                 Twitter ID: @_akisato
なぜこの2本を選んだのか?
   「画像を理解する」をどう問題に落とす?
      像を 解す 」を う問題 落 す
       物体認識…?                                                        Person
                                                    Horse




        [ Full description ]
        A woman wearing a blue cloth and gray tights is riding on a galloping
        white horse at a beautiful sandy beach under a clear sky.

                    物体認識をしただけでは,
                    物体認識をしただけでは
                   実は何も理解できていない!
                     (物体だけを認識する一般物体認識の終焉)
                     (物体だけを認識する 般物体認識の終焉)
2                                                    関西CVPRML (August 27, 2011)
何が足りないのか? (1)
   物体
    物体などの属性が足りない
         属性 足り
       でも画像だけで                          Sky: clear             Person: female
        全部できる気がしない                            Horse: white




        [ Full description ]                Beach: beautiful, sandy
        A woman wearing a blue cloth and gray tights is riding on a galloping
        white horse at a beautiful sandy beach under a clear sky.

           第 論文の主題 属性辞書をインタラクティ
           第1論文の主題: 属性辞書をインタラクティブに学習
                                  学習

3                                                     関西CVPRML (August 27, 2011)
何が足りないのか? (2)
   物体間 関係性 足り
    物体間の関係性が足りない
                                              A person is wearing clothes.




    [ Full description ]               A person is riding on a horse.
    A woman wearing a blue cloth and gray tights is riding on a white horse
    at a beautiful sandy beach under a clear sky.

    第 論文の主題 物体 その関係性をクラ
    第2論文の主題: 物体とその関係性をクラスと見なす認識
                          見なす認識

4                                                関西CVPRML (August 27, 2011)
Interactively building a
 discriminative vocabulary of
         nameable attributes
                (こちらが一応今日の主題…のはず)
                           題


D. Parikh @ Toyota Technological Institute, Chicago
       K. Grauman @ University of Texas at Austin
やりたいこと
   物体
    物体・シーンの属性の辞書・モデルを
            属性 辞書   を
    インタラクティブに構築する




物体やシーンはそれぞれ
違うラベルが付いているけど,
違うラベルが付いているけど     何か名前があるかも!
何か傾向があるような気がする…   聞いてみよう!


6                 関西CVPRML (August 27, 2011)
アプローチ
    物体 ラ
     物体クラスとは異なる類似性を見つける
            異  類 性を見



クラス分類を壊さないような
 2クラス識別面を見つける


                             ユーザに見せる画像を
                               適切に選択


           尤もらしい仮説だけを
             選択して提示
 7                      関西CVPRML (August 27, 2011)
類似性発見の方法
Mixture of Probabilistic PCAs    教師なし(物体も属性も関係なし)で
でモデル化,適切な仮説のみ選択                  最大マージンクラスタリング




   現在の属性辞書                 現在の属性辞書で
   (この図では1つだけど             分離しにくい物体クラスの
    いっぱいあってもOK)            集合を見つける by normalized cuts

   8                                   関西CVPRML (August 27, 2011)
提示する画像の選択

        識別面に直交する軸を等間隔に区切る

区切った領域内で,識別面の真ん中に
区切った領域内で 識別面の真ん中に   最大マ ジンクラスタリングで得られた
                    最大マージンクラスタリングで得られた
最も近いサンプルを選択         識別面 (=属性候補)




 9                      関西CVPRML (August 27, 2011)
ユーザに何を尋ねるか?




• この属性の名前は? (以降はもし属性に名前があれば回答)
• 左右,どちらに行くほどその特性が強くなるか?
• この画像列がその属性を表現するものとして,
  どの程度尤もらしいか (4段階評価)?
10                 関西CVPRML (August 27, 2011)
データセット
   Outdoor scene recognition (OSR)
                      g       (   )
       http://people.csail.mit.edu/torralba/code/spatialenvelope/
   Animals with attributes (AWA)
       http://attributes.kyb.tuebingen.mpg.de
   共通事項
       各データセットから8物体クラスを選択
       1画像1クラスとなるように加工された画像もある
       属性の種類は主旨(gist)と色に限定
       インタラクションはMechanical Turk経由

11                                             関西CVPRML (August 27, 2011)
クラス選択と仮説選択の効果
                       クラス選択

                クラスのランダム選択や
                クラス選択なしに比べ,
                クラス選択なしに比べ
                意味ある仮説を適切に
                  選択できている



      仮説選択

仮説のランダム選択と
   比較して,
   比較して
 意味ある仮説を
適切に選択できている

 12          関西CVPRML (August 27, 2011)
全体としての効果
   インタラクションを重ねれば,
       ラ    を    ,
    属性辞書は着実に構築されます.




   なので,当然,認識精度も 向上します.
    なので 当然 認識精度も少し向上します




13               関西CVPRML (August 27, 2011)
続編がICCV2011で発表されます
   Title: Related attributes


           Attributeに関する
          ランキング関数を学習
                   関数




     Zero-shot learning?
                      g
     何それ,おいしいの?
                            ランキング関数は
                           識別直交軸上の値?

14                            関西CVPRML (August 27, 2011)
Recognition
                  using visual phrases


M.A. Sadeghi @ Institute for Research in Fundamental Science
      A. Farhadi @ University of Illinois at Urbana-Champaign
やりたいこと
   物体 そ 関係性を認識す
    物体とその関係性を認識する




     Person_nextto_bicycle   Person_drinking_bottle




     Person_riding_bicycle
     Person riding bicycle     Dog_lyingon_sofa
                               Dog lyingon sofa

16                              関西CVPRML (August 27, 2011)
アプローチ
1.    関係性 物体 様,
      関係性も物体同様,1つの「クラス」と見なす.
                    ラ 」 見 す
     なので,真に関係性を認識しているわけではない.
2.
2     クラス間の位置関係を考慮して,
      クラス間の位置関係を考慮して
      クラス別での認識結果を修正 (追加・削除)
          1

                         2




 17                 関西CVPRML (August 27, 2011)
各クラスのモデル
                                                                 粗めPCA-HOG
   Deformable part model
               p
    [Felzenszwalb+ 2010]
         PASCAL VOC 標準ソフト採用
                                                  物体パーツごとの細かめPCA-HOG
             bicycle



                                              パーツ位置ずれ/変形に対するコスト




Felzenszwalb et al. “Object Detection with Discriminatively Trained Part Based
                     Object
Models,”IEEE Trans. PAMI, Vol.32, No.9, 2010. http://people.cs.uchicago.edu/~pff/latent/
 18                                                     関西CVPRML (August 27, 2011)
各クラスの認識
                               粗めHOG   細かめHOG (解像度2倍)




Input image




              Model (person)




   19                                   関西CVPRML (August 27, 2011)
クラス別認識結果の統合
                           i番目のbounding boxを
                           最終結果に使うかどうか? i番目のbounding boxの
                                                クラス インデックス


person
            person



                           i番目使わない → all 0 のベクトル
  person             bag   i番目使う → i番目のbounding boxの特徴表現

                           クラス別に,位置関係・尤度・サイズ比等を考慮した
                           クラス別に 位置関係・尤度・サイズ比等を考慮した
                           「何らか」の(9K+1)次元ベクトル (ダッテナニモカイテナイシ)

         識別軸 w でクラス判別を行う線形(structured)SVM
   20                                    関西CVPRML (August 27, 2011)
結果統合モデルの学習
    Structured SVMの設計
                    設




n番目の画像全体での                     仮説と正解とのハミング距離
bounding boxes の評価値
                      bounding boxの
                      使用/不使用に関する仮説


        仮説最適化と目的関数最大化の繰り返しで学習

  21                             関西CVPRML (August 27, 2011)
データセット                  http://vision.cs.uiuc.edu/phrasal/
                         http://vision cs uiuc edu/phrasal/
    Bingでphraseを検索,以降は手動作業…
        g p     を検索, 降  動作業
        25クラス = 8 objects + 17 phrases
        画像 2769枚 (822枚 = negative examples)
        各クラス 平均120枚のpositives
        5067 bounding boxes (phrases:1796, objects:3271)
              b   di b
   Dog jumping


Person drinking
         bottle
         b ttl

  Person lying
       on sofa

   22                                     関西CVPRML (August 27, 2011)
関係性認識の精度が良くなります
   精度が大きく向上した10 phrasesでのPR曲線
                 p




23                  関西CVPRML (August 27, 2011)
関係性認識の精度が良くなります




              多くのphrasesで
              baselineを大きく上回る性能
              b   li を大きく上回る性能




            どのような状況が得手/不得手
            か,があまり明らかでない



24         関西CVPRML (August 27, 2011)
物体認識の精度も少し良くなります
     Deformable part model [Felzenszwalb+ PAMI2010]
     (Baselineとなる物体検出器,page
     (Baselineとなる物体検出器 page 10 参照)


      Structured learning for
      multi-class object layout [Desai+ ICCV2010]
      (scoring functionを使った物体関係モデルを用いた検出器)




25                           関西CVPRML (August 27, 2011)
物体認識の精度も良くなります




26         関西CVPRML (August 27, 2011)
さいごのまとめ




木村 昭悟 @ NTTコミュニケーション科学基礎研究所
                 Twitter ID: @_akisato
それでもやっぱりまだ足りない…
それでもやっぱりまだ足りない
 物体 動作 足り
  物体の動作が足りない → 第2論文でできたのはごく一部
 風景を系統的に理解できない
     → 物体・属性・関係性・動作の総合体,かなぁ
       物体 属性 関係性 動作の総合体,かなぁ


                             Beach = sky(upper) +
                        water(middle) + sand(lower)??




                             A horse is galloping.


28                        関西CVPRML (August 27, 2011)
それでもやっぱりまだ足りない…
それでもやっぱりまだ足りない
   説明
    説明文自体を直接生成する
        体を直接 成す
       ここ1年でいくつかの研究が出てきたが,
        手法の完成度としてはまだ2合目程度
• Yang et al.“Corpus-Guided Sentence Generation of Natural Images”, EMNLP2011
• Ushiku et al.”Automatic Sentence Generation from Images,” to appear, ACMMM2011




        [ Full description ]
        A woman wearing a blue cloth and gray tights is riding on a galloping
        white horse at a beautiful sandy beach under a clear sky.
          hi h           b    if l    d b h d           l     k
29                                                      関西CVPRML (August 27, 2011)
それでもやっぱりまだ足りない…
それでもやっぱりまだ足りない
   意外性が足りない
      性 足り
     → Context重視の方針を追求することの功罪

     Relatively easy   Seems to be hard




30                      関西CVPRML (August 27, 2011)
追記:            自分ができなくても言わねばならぬこと

   作ったモノ(手法・DB等)を使える状態にしよう
       すぐに使える水準まで技術を高める
       作ったモノをみんなに使ってもらう努力をする
                  使
             Video segmentation datasetを公開しています.
       でもなければ,誰でも再現可能な技術を作る
             MIRU2011 OS1-2は,その試みの1つです.
                       OS1 2は その試みの1 です
       3年も経てばold-fashion,20年経てば忘れられる
             この分野のacademiaで生きるなら,それについていく覚悟が必須
              この分野のacademiaで生きるなら それについていく覚悟が必須


   選択肢は広く,実行するモノは数少なく
       良い問題に当たる確率は確実に上がる
       分野が変われば技術も変わる,そこから学ぶ
31                                        関西CVPRML (August 27, 2011)
Thank you for your kind attention
                        attention.




   Any questions/comments/discussions ?


                                      Corresponding author
                    Akisato Kimura Ph D @ NTT CS Labs.
                            Kimura, Ph.D             Labs

         [E-mail] akisato <at> ieee.org    [Twitter] _akisato
                    [web] Pl
                    [ b] Please search by “Akisato Ki
                                       h b “Aki t Kimura”   ”
32                                            関西CVPRML (August 27, 2011)

Contenu connexe

Similaire à 関西CVPRML 2011.8.27

Rm20140625 10key
Rm20140625 10keyRm20140625 10key
Rm20140625 10key
youwatari
 

Similaire à 関西CVPRML 2011.8.27 (8)

関西CVPRML勉強会 2011.9.23
関西CVPRML勉強会 2011.9.23関西CVPRML勉強会 2011.9.23
関西CVPRML勉強会 2011.9.23
 
PARIS at SWIM seminar
PARIS at SWIM seminarPARIS at SWIM seminar
PARIS at SWIM seminar
 
[DL輪読会]End-to-End Object Detection with Transformers
[DL輪読会]End-to-End Object Detection with Transformers[DL輪読会]End-to-End Object Detection with Transformers
[DL輪読会]End-to-End Object Detection with Transformers
 
Rm20140625 10key
Rm20140625 10keyRm20140625 10key
Rm20140625 10key
 
javaオブジェクトシステム
javaオブジェクトシステム javaオブジェクトシステム
javaオブジェクトシステム
 
【2016.02】cvpaper.challenge2016
【2016.02】cvpaper.challenge2016【2016.02】cvpaper.challenge2016
【2016.02】cvpaper.challenge2016
 
Semi supervised, weakly-supervised, unsupervised, and active learning
Semi supervised, weakly-supervised, unsupervised, and active learningSemi supervised, weakly-supervised, unsupervised, and active learning
Semi supervised, weakly-supervised, unsupervised, and active learning
 
Wikipedia からの大規模な汎用オントロジー構築
Wikipedia からの大規模な汎用オントロジー構築Wikipedia からの大規模な汎用オントロジー構築
Wikipedia からの大規模な汎用オントロジー構築
 

Plus de Akisato Kimura

CVPR2015 reading "Understainding image virality" (in Japanese)
CVPR2015 reading "Understainding image virality" (in Japanese)CVPR2015 reading "Understainding image virality" (in Japanese)
CVPR2015 reading "Understainding image virality" (in Japanese)
Akisato Kimura
 
関西CVPRML勉強会 2012.2.18 (一般物体認識 - データセット)
関西CVPRML勉強会 2012.2.18 (一般物体認識 - データセット)関西CVPRML勉強会 2012.2.18 (一般物体認識 - データセット)
関西CVPRML勉強会 2012.2.18 (一般物体認識 - データセット)
Akisato Kimura
 
関西CVPRML勉強会(特定物体認識) 2012.1.14
関西CVPRML勉強会(特定物体認識) 2012.1.14関西CVPRML勉強会(特定物体認識) 2012.1.14
関西CVPRML勉強会(特定物体認識) 2012.1.14
Akisato Kimura
 
関西CVPRML勉強会 kernel PCA
関西CVPRML勉強会 kernel PCA関西CVPRML勉強会 kernel PCA
関西CVPRML勉強会 kernel PCA
Akisato Kimura
 

Plus de Akisato Kimura (20)

Paper reading - Dropout as a Bayesian Approximation: Representing Model Uncer...
Paper reading - Dropout as a Bayesian Approximation: Representing Model Uncer...Paper reading - Dropout as a Bayesian Approximation: Representing Model Uncer...
Paper reading - Dropout as a Bayesian Approximation: Representing Model Uncer...
 
Paper reading - Dropout as a Bayesian Approximation: Representing Model Uncer...
Paper reading - Dropout as a Bayesian Approximation: Representing Model Uncer...Paper reading - Dropout as a Bayesian Approximation: Representing Model Uncer...
Paper reading - Dropout as a Bayesian Approximation: Representing Model Uncer...
 
多変量解析の一般化
多変量解析の一般化多変量解析の一般化
多変量解析の一般化
 
CVPR2016 reading - 特徴量学習とクロスモーダル転移について
CVPR2016 reading - 特徴量学習とクロスモーダル転移についてCVPR2016 reading - 特徴量学習とクロスモーダル転移について
CVPR2016 reading - 特徴量学習とクロスモーダル転移について
 
NIPS2015 reading - Learning visual biases from human imagination
NIPS2015 reading - Learning visual biases from human imaginationNIPS2015 reading - Learning visual biases from human imagination
NIPS2015 reading - Learning visual biases from human imagination
 
CVPR2015 reading "Global refinement of random forest"
CVPR2015 reading "Global refinement of random forest"CVPR2015 reading "Global refinement of random forest"
CVPR2015 reading "Global refinement of random forest"
 
CVPR2015 reading "Understainding image virality" (in Japanese)
CVPR2015 reading "Understainding image virality" (in Japanese)CVPR2015 reading "Understainding image virality" (in Japanese)
CVPR2015 reading "Understainding image virality" (in Japanese)
 
NIPS2014 reading - Top rank optimization in linear time
NIPS2014 reading - Top rank optimization in linear timeNIPS2014 reading - Top rank optimization in linear time
NIPS2014 reading - Top rank optimization in linear time
 
CVPR2014 reading "Reconstructing storyline graphs for image recommendation fr...
CVPR2014 reading "Reconstructing storyline graphs for image recommendation fr...CVPR2014 reading "Reconstructing storyline graphs for image recommendation fr...
CVPR2014 reading "Reconstructing storyline graphs for image recommendation fr...
 
ICCV2013 reading: Learning to rank using privileged information
ICCV2013 reading: Learning to rank using privileged informationICCV2013 reading: Learning to rank using privileged information
ICCV2013 reading: Learning to rank using privileged information
 
ACMMM 2013 reading: Large-scale visual sentiment ontology and detectors using...
ACMMM 2013 reading: Large-scale visual sentiment ontology and detectors using...ACMMM 2013 reading: Large-scale visual sentiment ontology and detectors using...
ACMMM 2013 reading: Large-scale visual sentiment ontology and detectors using...
 
IJCAI13 Paper review: Large-scale spectral clustering on graphs
IJCAI13 Paper review: Large-scale spectral clustering on graphsIJCAI13 Paper review: Large-scale spectral clustering on graphs
IJCAI13 Paper review: Large-scale spectral clustering on graphs
 
ICWSM12 Brief Review
ICWSM12 Brief ReviewICWSM12 Brief Review
ICWSM12 Brief Review
 
関西CVPRML勉強会 2012.2.18 (一般物体認識 - データセット)
関西CVPRML勉強会 2012.2.18 (一般物体認識 - データセット)関西CVPRML勉強会 2012.2.18 (一般物体認識 - データセット)
関西CVPRML勉強会 2012.2.18 (一般物体認識 - データセット)
 
関西CVPRML勉強会(特定物体認識) 2012.1.14
関西CVPRML勉強会(特定物体認識) 2012.1.14関西CVPRML勉強会(特定物体認識) 2012.1.14
関西CVPRML勉強会(特定物体認識) 2012.1.14
 
人間の視覚的注意を予測するモデル - 動的ベイジアンネットワークに基づく 最新のアプローチ -
人間の視覚的注意を予測するモデル - 動的ベイジアンネットワークに基づく 最新のアプローチ -人間の視覚的注意を予測するモデル - 動的ベイジアンネットワークに基づく 最新のアプローチ -
人間の視覚的注意を予測するモデル - 動的ベイジアンネットワークに基づく 最新のアプローチ -
 
広島画像情報学セミナ 2011.9.16
広島画像情報学セミナ 2011.9.16広島画像情報学セミナ 2011.9.16
広島画像情報学セミナ 2011.9.16
 
Japan CV Day 2011 Position Talk for Panel Discussion
Japan CV Day 2011 Position Talk for Panel DiscussionJapan CV Day 2011 Position Talk for Panel Discussion
Japan CV Day 2011 Position Talk for Panel Discussion
 
MIRU2011 OS1-2 拡張ペアワイズ表現を用いた一般化多変量解析
MIRU2011 OS1-2 拡張ペアワイズ表現を用いた一般化多変量解析MIRU2011 OS1-2 拡張ペアワイズ表現を用いた一般化多変量解析
MIRU2011 OS1-2 拡張ペアワイズ表現を用いた一般化多変量解析
 
関西CVPRML勉強会 kernel PCA
関西CVPRML勉強会 kernel PCA関西CVPRML勉強会 kernel PCA
関西CVPRML勉強会 kernel PCA
 

関西CVPRML 2011.8.27

  • 1. CVPR2011 Paper Digest (1) Interactive building a discriminative vocabulary of nameable attributes (2) Recognition using visual phrases 木村 昭悟 @ NTTコミュニケーション科学基礎研究所 Twitter ID: @_akisato
  • 2. なぜこの2本を選んだのか?  「画像を理解する」をどう問題に落とす? 像を 解す 」を う問題 落 す  物体認識…? Person Horse [ Full description ] A woman wearing a blue cloth and gray tights is riding on a galloping white horse at a beautiful sandy beach under a clear sky. 物体認識をしただけでは, 物体認識をしただけでは 実は何も理解できていない! (物体だけを認識する一般物体認識の終焉) (物体だけを認識する 般物体認識の終焉) 2 関西CVPRML (August 27, 2011)
  • 3. 何が足りないのか? (1)  物体 物体などの属性が足りない 属性 足り  でも画像だけで Sky: clear Person: female 全部できる気がしない Horse: white [ Full description ] Beach: beautiful, sandy A woman wearing a blue cloth and gray tights is riding on a galloping white horse at a beautiful sandy beach under a clear sky. 第 論文の主題 属性辞書をインタラクティ 第1論文の主題: 属性辞書をインタラクティブに学習 学習 3 関西CVPRML (August 27, 2011)
  • 4. 何が足りないのか? (2)  物体間 関係性 足り 物体間の関係性が足りない A person is wearing clothes. [ Full description ] A person is riding on a horse. A woman wearing a blue cloth and gray tights is riding on a white horse at a beautiful sandy beach under a clear sky. 第 論文の主題 物体 その関係性をクラ 第2論文の主題: 物体とその関係性をクラスと見なす認識 見なす認識 4 関西CVPRML (August 27, 2011)
  • 5. Interactively building a discriminative vocabulary of nameable attributes (こちらが一応今日の主題…のはず) 題 D. Parikh @ Toyota Technological Institute, Chicago K. Grauman @ University of Texas at Austin
  • 6. やりたいこと  物体 物体・シーンの属性の辞書・モデルを 属性 辞書 を インタラクティブに構築する 物体やシーンはそれぞれ 違うラベルが付いているけど, 違うラベルが付いているけど 何か名前があるかも! 何か傾向があるような気がする… 聞いてみよう! 6 関西CVPRML (August 27, 2011)
  • 7. アプローチ  物体 ラ 物体クラスとは異なる類似性を見つける 異 類 性を見 クラス分類を壊さないような 2クラス識別面を見つける ユーザに見せる画像を 適切に選択 尤もらしい仮説だけを 選択して提示 7 関西CVPRML (August 27, 2011)
  • 8. 類似性発見の方法 Mixture of Probabilistic PCAs 教師なし(物体も属性も関係なし)で でモデル化,適切な仮説のみ選択 最大マージンクラスタリング 現在の属性辞書 現在の属性辞書で (この図では1つだけど 分離しにくい物体クラスの いっぱいあってもOK) 集合を見つける by normalized cuts 8 関西CVPRML (August 27, 2011)
  • 9. 提示する画像の選択 識別面に直交する軸を等間隔に区切る 区切った領域内で,識別面の真ん中に 区切った領域内で 識別面の真ん中に 最大マ ジンクラスタリングで得られた 最大マージンクラスタリングで得られた 最も近いサンプルを選択 識別面 (=属性候補) 9 関西CVPRML (August 27, 2011)
  • 10. ユーザに何を尋ねるか? • この属性の名前は? (以降はもし属性に名前があれば回答) • 左右,どちらに行くほどその特性が強くなるか? • この画像列がその属性を表現するものとして, どの程度尤もらしいか (4段階評価)? 10 関西CVPRML (August 27, 2011)
  • 11. データセット  Outdoor scene recognition (OSR) g ( )  http://people.csail.mit.edu/torralba/code/spatialenvelope/  Animals with attributes (AWA)  http://attributes.kyb.tuebingen.mpg.de  共通事項  各データセットから8物体クラスを選択  1画像1クラスとなるように加工された画像もある  属性の種類は主旨(gist)と色に限定  インタラクションはMechanical Turk経由 11 関西CVPRML (August 27, 2011)
  • 12. クラス選択と仮説選択の効果 クラス選択 クラスのランダム選択や クラス選択なしに比べ, クラス選択なしに比べ 意味ある仮説を適切に 選択できている 仮説選択 仮説のランダム選択と 比較して, 比較して 意味ある仮説を 適切に選択できている 12 関西CVPRML (August 27, 2011)
  • 13. 全体としての効果  インタラクションを重ねれば, ラ を , 属性辞書は着実に構築されます.  なので,当然,認識精度も 向上します. なので 当然 認識精度も少し向上します 13 関西CVPRML (August 27, 2011)
  • 14. 続編がICCV2011で発表されます  Title: Related attributes Attributeに関する ランキング関数を学習 関数 Zero-shot learning? g 何それ,おいしいの? ランキング関数は 識別直交軸上の値? 14 関西CVPRML (August 27, 2011)
  • 15. Recognition using visual phrases M.A. Sadeghi @ Institute for Research in Fundamental Science A. Farhadi @ University of Illinois at Urbana-Champaign
  • 16. やりたいこと  物体 そ 関係性を認識す 物体とその関係性を認識する Person_nextto_bicycle Person_drinking_bottle Person_riding_bicycle Person riding bicycle Dog_lyingon_sofa Dog lyingon sofa 16 関西CVPRML (August 27, 2011)
  • 17. アプローチ 1. 関係性 物体 様, 関係性も物体同様,1つの「クラス」と見なす. ラ 」 見 す  なので,真に関係性を認識しているわけではない. 2. 2 クラス間の位置関係を考慮して, クラス間の位置関係を考慮して クラス別での認識結果を修正 (追加・削除) 1 2 17 関西CVPRML (August 27, 2011)
  • 18. 各クラスのモデル 粗めPCA-HOG  Deformable part model p [Felzenszwalb+ 2010]  PASCAL VOC 標準ソフト採用 物体パーツごとの細かめPCA-HOG bicycle パーツ位置ずれ/変形に対するコスト Felzenszwalb et al. “Object Detection with Discriminatively Trained Part Based Object Models,”IEEE Trans. PAMI, Vol.32, No.9, 2010. http://people.cs.uchicago.edu/~pff/latent/ 18 関西CVPRML (August 27, 2011)
  • 19. 各クラスの認識 粗めHOG 細かめHOG (解像度2倍) Input image Model (person) 19 関西CVPRML (August 27, 2011)
  • 20. クラス別認識結果の統合 i番目のbounding boxを 最終結果に使うかどうか? i番目のbounding boxの クラス インデックス person person i番目使わない → all 0 のベクトル person bag i番目使う → i番目のbounding boxの特徴表現 クラス別に,位置関係・尤度・サイズ比等を考慮した クラス別に 位置関係・尤度・サイズ比等を考慮した 「何らか」の(9K+1)次元ベクトル (ダッテナニモカイテナイシ) 識別軸 w でクラス判別を行う線形(structured)SVM 20 関西CVPRML (August 27, 2011)
  • 21. 結果統合モデルの学習  Structured SVMの設計 設 n番目の画像全体での 仮説と正解とのハミング距離 bounding boxes の評価値 bounding boxの 使用/不使用に関する仮説  仮説最適化と目的関数最大化の繰り返しで学習 21 関西CVPRML (August 27, 2011)
  • 22. データセット http://vision.cs.uiuc.edu/phrasal/ http://vision cs uiuc edu/phrasal/  Bingでphraseを検索,以降は手動作業… g p を検索, 降 動作業  25クラス = 8 objects + 17 phrases  画像 2769枚 (822枚 = negative examples)  各クラス 平均120枚のpositives  5067 bounding boxes (phrases:1796, objects:3271) b di b Dog jumping Person drinking bottle b ttl Person lying on sofa 22 関西CVPRML (August 27, 2011)
  • 23. 関係性認識の精度が良くなります  精度が大きく向上した10 phrasesでのPR曲線 p 23 関西CVPRML (August 27, 2011)
  • 24. 関係性認識の精度が良くなります 多くのphrasesで baselineを大きく上回る性能 b li を大きく上回る性能 どのような状況が得手/不得手 か,があまり明らかでない 24 関西CVPRML (August 27, 2011)
  • 25. 物体認識の精度も少し良くなります Deformable part model [Felzenszwalb+ PAMI2010] (Baselineとなる物体検出器,page (Baselineとなる物体検出器 page 10 参照) Structured learning for multi-class object layout [Desai+ ICCV2010] (scoring functionを使った物体関係モデルを用いた検出器) 25 関西CVPRML (August 27, 2011)
  • 26. 物体認識の精度も良くなります 26 関西CVPRML (August 27, 2011)
  • 27. さいごのまとめ 木村 昭悟 @ NTTコミュニケーション科学基礎研究所 Twitter ID: @_akisato
  • 28. それでもやっぱりまだ足りない… それでもやっぱりまだ足りない  物体 動作 足り 物体の動作が足りない → 第2論文でできたのはごく一部  風景を系統的に理解できない → 物体・属性・関係性・動作の総合体,かなぁ 物体 属性 関係性 動作の総合体,かなぁ Beach = sky(upper) + water(middle) + sand(lower)?? A horse is galloping. 28 関西CVPRML (August 27, 2011)
  • 29. それでもやっぱりまだ足りない… それでもやっぱりまだ足りない  説明 説明文自体を直接生成する 体を直接 成す  ここ1年でいくつかの研究が出てきたが, 手法の完成度としてはまだ2合目程度 • Yang et al.“Corpus-Guided Sentence Generation of Natural Images”, EMNLP2011 • Ushiku et al.”Automatic Sentence Generation from Images,” to appear, ACMMM2011 [ Full description ] A woman wearing a blue cloth and gray tights is riding on a galloping white horse at a beautiful sandy beach under a clear sky. hi h b if l d b h d l k 29 関西CVPRML (August 27, 2011)
  • 30. それでもやっぱりまだ足りない… それでもやっぱりまだ足りない  意外性が足りない 性 足り → Context重視の方針を追求することの功罪 Relatively easy Seems to be hard 30 関西CVPRML (August 27, 2011)
  • 31. 追記: 自分ができなくても言わねばならぬこと  作ったモノ(手法・DB等)を使える状態にしよう  すぐに使える水準まで技術を高める  作ったモノをみんなに使ってもらう努力をする 使  Video segmentation datasetを公開しています.  でもなければ,誰でも再現可能な技術を作る  MIRU2011 OS1-2は,その試みの1つです. OS1 2は その試みの1 です  3年も経てばold-fashion,20年経てば忘れられる  この分野のacademiaで生きるなら,それについていく覚悟が必須 この分野のacademiaで生きるなら それについていく覚悟が必須  選択肢は広く,実行するモノは数少なく  良い問題に当たる確率は確実に上がる  分野が変われば技術も変わる,そこから学ぶ 31 関西CVPRML (August 27, 2011)
  • 32. Thank you for your kind attention attention.  Any questions/comments/discussions ? Corresponding author Akisato Kimura Ph D @ NTT CS Labs. Kimura, Ph.D Labs [E-mail] akisato <at> ieee.org [Twitter] _akisato [web] Pl [ b] Please search by “Akisato Ki h b “Aki t Kimura” ” 32 関西CVPRML (August 27, 2011)