Detecting attended visual targets in video の勉強会用資料

Detecting Attended Visual Targets in
Video
Eunji Chong1 Yongxin Wang2 Nataniel Ruiz3 James M. Rehg1
1Georgia Institute of Technology 2Carnegie Mellon University 3Boston University
資料作成者: 尾崎安範
株式会社サイバーエージェント AI Lab

尾崎安範 (@alfredplpl)
• 例によって⾃⼰紹介
サイバーエージェント研究員兼
⼤阪⼤学招聘研究員兼
⼤阪⼤学⽯⿊研究室社会⼈博⼠１年⽣
← NTT研（開発寄り）研究員
← 東京⼤学⼤学院情報理⼯学系研究科
最近やっていること
ロボットによる広告宣伝を⽬的とした
画像認識技術の技術開発

この論⽂についてなぜ話すのか
• そもそもなぜ資料作成者がロボット⽤の技術を作っているか
というと、⾃分の⼼というものを理解したいからという動機
がある
• 本研究では、⾃分が⾒た他⼈の⼼の状態（特に注意）を推察
できるようにする技術であり、⾃分の⼼を理解するのには
うってつけの研究課題
• 以上の２つから、この論⽂を調べて話すことにした

TL; DR
• ⼈間の社会的⾏動、実世界でのインタラクション、⾃閉症へ
の理解などにおいて、注視⾏動を理解することは重要である
• そこで注視⾏動を認識するために、映像に写っている⼈が、
映像に写っているどの対象を⾒ているか予測する⼿法を深層
学習ベースで提案した
• 評価実験の結果、関連⼿法よりも提案⼿法が定量的に優れて
いることがわかった

背景
• 注視⾏動はさまざまな応⽤においてとても重要
⼈間の社会的⾏動、実世界でのインタラクション、⾃閉症への理解など
• 最近画像に写っている⼈が、画像に写っているどの対象を⾒
ているか予測する⼿法がたくさんでてきた
• そこで、映像に写っている⼈が、映像に写っているどの対象
を⾒ているか予測する⼿法を考えた

背景︓学術的貢献
• 動的な注視を学習し予測するための時空間深層学習⽤ニュー
ラルネットワークアーキテクチャを提案した
• 複雑な注視⾏動を伴う場合において注視対象を付与した映像
データセットVideoAttentionTargetを作成した
• VideoAttentionTarget（や⾃閉症者が写ったデータセット）に
おいて注視対象を予測するタスクにおいてSOTAを達成

関連研究とタスクの新規性
• 注視対象予測
最も似ているタスクであるが、他の研究は画像（例えば[1]）を対象にし
ているのに対し、本研究は映像を対象にしている。
• 注視⾏動認識
注視⾏動の関係性や意味を表現するタスク（例えば[2]）であり、これは
注視対象予測を基盤とした中間レベルの表現を抽出する研究と⾔える
以上から新規性があると主張している
[1] Adria Recasens, Aditya Khosla, Carl Vondrick, and Antonio Torralba. “Where are they looking?” In Advances in Neural
Information Processing Systems, pages 199–207, 2015.
[2] Manuel J Marin-Jimenez, Vicky Kalogeiton, Pablo Medina-Suarez, and Andrew Zisserman. “Laeo-net: revisiting people
looking at each other in videos”, CVPR, pages 3477–3485, 2019.
←[1]より引⽤ ←[2]より引⽤

新規タスク向けデータセットの作成
• YouTubeから50個、1秒から80秒までの動画に顔と
どこを⾒ているかを⼀コマ⼀コマ⼈⼿でアノテート
約16万個（︕︖）のバウンディングボックスを４⼈のアノ
テーターにつけてもらっているらしい
• 全体の約20%分をテストセットとして抽出

新規タスクを解決する提案⼿法の概要
• 映像の１フレームと頭の位置、頭の画像を⼊⼒とし、注視の
対象がいるらしさをヒートマップとして出⼒する
• ⼿法は⼤きく３つのブランチ、頭部条件ブランチ、メイン
シーンブランチ、リカレントアテンション予測モジュールに
分かれる。

提案⼿法: 頭部条件ブランチ
• 頭の状態を抽象化するブランチ
• 頭の画像をResNet-50 (HeadConv) で特徴抽出したあと、頭部特徴マップ
と頭の位置とMax Poolingとかを使って結合する。
• その結果を “Attention Layer”と呼ぶ全結合層でAttentionマップを算出する

提案⼿法:メインシーンブランチ
• 抽象化した頭の情報とシーン全体の情報を符号化するブランチ
• 既存⼿法のCNNを使い、シーン全体からシーン特徴マップを抽出。
• シーン特徴マップとAttentionマップの出⼒を掛け合わせる
• さらに頭部特徴マップを連結させる
• その連結したマップを畳み込み層でエンコードする

提案⼿法:リカレントアテンション予測
モジュール
• エンコードされた情報はConv-LSTMの中で時系列に保持され
る。
• Conv-LSTMから時系列情報を加味したエンコードされた情報
が出てくるが、そこからDeconvによりヒートマップを作成す
る

提案⼿法:ヒートマップ変調
• 「フレーム内に注視対象があるか︖」レイヤーから、注視対
象があるっぽいほど⾼くなるらしいスカラーの値αが吐き出
される
• そのαを⽤いて変調することでヒートマップの値を調整する
らしい

提案⼿法: 損失関数
ヒートマップの誤差
フレーム内に注視対象が
あるかどうか
適当な重み

データセットを使った評価実験
• 時空間注視対象予測の性能評価を⾏うために以下の実験条件
で評価実験をおこなった
評価データセット
VideoAttentionTarget
評価⼿法
ランダム、関連⼿法、提案⼿法、⼈間による推定など
評価指標
AUC: フレームをセルに分割した際にそのセルが注視の対象に含まれて
いるかどうかのROC曲線を描いて、その内側の⾯積
Distance: ヒートマップの最⼤値の位置と
注視の対象の中⼼からのズレ具合
Out-of-Frame AP: 注視の対象がフレーム内にあるかないかのAP

評価実験の定量的結果
• すべての評価指標において提案⼿法は関連⼿法よりかは良
かった
• ⼀⽅で、⼈間に⽐べると、提案⼿法のほうが悪かった

評価実験の定性的結果
• 下図の通りの結果になった
⻩⾊がPrediction, ⾚線がGround Truth

資料作成者による考察
• 定量的な指標を⾒る限り、提案⼿法と関連⼿法と正直⼤差は
なく、テストデータ次第ではという程度の差。
• 提案⼿法の条件を⾒ると、時間情報を加えてもわずかしか向
上していない
• ⼈間による推定と提案⼿法の差はあるが、これ以上あんまり
改善できなさそうな感じはある
• 定性的な結果を⾒る限り、（チャンピョンデータだと思うけ
ど）そこそこ推定できているように思える

幼児が発する社会的意図の検出
• 幼児が発する社会的意図の検出をそれなりに検出できたらし
い

社会的場⾯における注意共有の検出
• 社会的場⾯における注意共有が精度良く検出できた

まとめ
• ⼈間の社会的⾏動、実世界でのインタラクション、⾃閉症へ
の理解などにおいて、注視⾏動を理解することは重要である
• そこで注視⾏動を認識するために、映像に写っている⼈が、
映像に写っているどの対象を⾒ているか予測する⼿法を深層
学習ベースで提案した
• 評価実験の結果、関連⼿法よりも提案⼿法が定量的に優れて
いることがわかった

資料作成者の個⼈的な感想
• 論⽂の節々から⾃閉症の話題が出てくる。ラストオーサーの
ホームページにある研究概要を⾒ると、研究の⽬的として⾃
閉症や発達障害の診断や治療を⽀援することある。
• 技術的なところが少なめなのはこの⽬的が理由だと思われる
が、もう少し技術的な点を詳しく書いてほしかったというき
もちがある

最後に
• 弊部署AI LabではCVやHCI領域の機械学習エンジニアと
博⼠インターン⽣を募集しています
本研究のようなことに興味がある⽅はぜひ
• 詳しくはWebで︕
機械学習エンジニア
https://cyberagent.ai/careers/
https://hrmos.co/pages/cyberagent-group/jobs/0000458
博⼠インターン⽣
https://www.cyberagent.co.jp/form/id=113
←実はカジュアル⾯談へのリンクでした

Detecting attended visual targets in video の勉強会用資料

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to Detecting attended visual targets in video の勉強会用資料

Similar to Detecting attended visual targets in video の勉強会用資料 (20)

More from Yasunori Ozaki

More from Yasunori Ozaki (13)

Detecting attended visual targets in video の勉強会用資料