SlideShare a Scribd company logo
1 of 23
Download to read offline
Detecting Attended Visual Targets in
Video
Eunji Chong1 Yongxin Wang2 Nataniel Ruiz3 James M. Rehg1
1Georgia Institute of Technology 2Carnegie Mellon University 3Boston University
資料作成者: 尾崎安範
株式会社サイバーエージェント AI Lab
尾崎安範 (@alfredplpl)
• 例によって⾃⼰紹介
サイバーエージェント 研究員 兼
⼤阪⼤学 招聘研究員 兼
⼤阪⼤学 ⽯⿊研究室 社会⼈博⼠1年⽣
← NTT研(開発寄り) 研究員
← 東京⼤学 ⼤学院情報理⼯学系研究科
最近やっていること
ロボットによる広告宣伝を⽬的とした
画像認識技術の技術開発
この論⽂についてなぜ話すのか
• そもそもなぜ資料作成者がロボット⽤の技術を作っているか
というと、⾃分の⼼というものを理解したいからという動機
がある
• 本研究では、⾃分が⾒た他⼈の⼼の状態(特に注意)を推察
できるようにする技術であり、⾃分の⼼を理解するのには
うってつけの研究課題
• 以上の2つから、この論⽂を調べて話すことにした
TL; DR
• ⼈間の社会的⾏動、実世界でのインタラクション、⾃閉症へ
の理解などにおいて、注視⾏動を理解することは重要である
• そこで注視⾏動を認識するために、映像に写っている⼈が、
映像に写っているどの対象を⾒ているか予測する⼿法を深層
学習ベースで提案した
• 評価実験の結果、関連⼿法よりも提案⼿法が定量的に優れて
いることがわかった
背景
• 注視⾏動はさまざまな応⽤においてとても重要
⼈間の社会的⾏動、実世界でのインタラクション、⾃閉症への理解など
• 最近画像に写っている⼈が、画像に写っているどの対象を⾒
ているか予測する⼿法がたくさんでてきた
• そこで、映像に写っている⼈が、映像に写っているどの対象
を⾒ているか予測する⼿法を考えた
背景︓学術的貢献
• 動的な注視を学習し予測するための時空間深層学習⽤ニュー
ラルネットワークアーキテクチャを提案した
• 複雑な注視⾏動を伴う場合において注視対象を付与した映像
データセットVideoAttentionTargetを作成した
• VideoAttentionTarget(や⾃閉症者が写ったデータセット)に
おいて注視対象を予測するタスクにおいてSOTAを達成
関連研究とタスクの新規性
• 注視対象予測
最も似ているタスクであるが、他の研究は画像(例えば[1])を対象にし
ているのに対し、本研究は映像を対象にしている。
• 注視⾏動認識
注視⾏動の関係性や意味を表現するタスク(例えば[2])であり、これは
注視対象予測を基盤とした中間レベルの表現を抽出する研究と⾔える
以上から新規性があると主張している
[1] Adria Recasens, Aditya Khosla, Carl Vondrick, and Antonio Torralba. “Where are they looking?” In Advances in Neural
Information Processing Systems, pages 199–207, 2015.
[2] Manuel J Marin-Jimenez, Vicky Kalogeiton, Pablo Medina-Suarez, and Andrew Zisserman. “Laeo-net: revisiting people
looking at each other in videos”, CVPR, pages 3477–3485, 2019.
←[1]より引⽤ ←[2]より引⽤
新規タスク向けデータセットの作成
• YouTubeから50個、1秒から80秒までの動画に顔と
どこを⾒ているかを⼀コマ⼀コマ⼈⼿でアノテート
約16万個(︕︖)のバウンディングボックスを4⼈のアノ
テーターにつけてもらっているらしい
• 全体の約20%分をテストセットとして抽出
新規タスクを解決する提案⼿法の概要
• 映像の1フレームと頭の位置、頭の画像を⼊⼒とし、注視の
対象がいるらしさをヒートマップとして出⼒する
• ⼿法は⼤きく3つのブランチ、頭部条件ブランチ、メイン
シーンブランチ、リカレントアテンション予測モジュールに
分かれる。
提案⼿法: 頭部条件ブランチ
• 頭の状態を抽象化するブランチ
• 頭の画像をResNet-50 (HeadConv) で特徴抽出したあと、頭部特徴マップ
と頭の位置とMax Poolingとかを使って結合する。
• その結果を “Attention Layer”と呼ぶ全結合層でAttentionマップを算出する
提案⼿法:メインシーンブランチ
• 抽象化した頭の情報とシーン全体の情報を符号化するブランチ
• 既存⼿法のCNNを使い、シーン全体からシーン特徴マップを抽出。
• シーン特徴マップとAttentionマップの出⼒を掛け合わせる
• さらに頭部特徴マップを連結させる
• その連結したマップを畳み込み層でエンコードする
提案⼿法:リカレントアテンション予測
モジュール
• エンコードされた情報はConv-LSTMの中で時系列に保持され
る。
• Conv-LSTMから時系列情報を加味したエンコードされた情報
が出てくるが、そこからDeconvによりヒートマップを作成す
る
提案⼿法:ヒートマップ変調
• 「フレーム内に注視対象があるか︖」レイヤーから、注視対
象があるっぽいほど⾼くなるらしいスカラーの値αが吐き出
される
• そのαを⽤いて変調することでヒートマップの値を調整する
らしい
提案⼿法: 損失関数
ヒートマップの誤差
フレーム内に注視対象が
あるかどうか
適当な重み
データセットを使った評価実験
• 時空間注視対象予測の性能評価を⾏うために以下の実験条件
で評価実験をおこなった
評価データセット
VideoAttentionTarget
評価⼿法
ランダム、関連⼿法、提案⼿法、⼈間による推定など
評価指標
AUC: フレームをセルに分割した際にそのセルが注視の対象に含まれて
いるかどうかのROC曲線を描いて、その内側の⾯積
Distance: ヒートマップの最⼤値の位置と
注視の対象の中⼼からのズレ具合
Out-of-Frame AP: 注視の対象がフレーム内にあるかないかのAP
評価実験の定量的結果
• すべての評価指標において提案⼿法は関連⼿法よりかは良
かった
• ⼀⽅で、⼈間に⽐べると、提案⼿法のほうが悪かった
評価実験の定性的結果
• 下図の通りの結果になった
⻩⾊がPrediction, ⾚線がGround Truth
資料作成者による考察
• 定量的な指標を⾒る限り、提案⼿法と関連⼿法と正直⼤差は
なく、テストデータ次第ではという程度の差。
• 提案⼿法の条件を⾒ると、時間情報を加えてもわずかしか向
上していない
• ⼈間による推定と提案⼿法の差はあるが、これ以上あんまり
改善できなさそうな感じはある
• 定性的な結果を⾒る限り、(チャンピョンデータだと思うけ
ど)そこそこ推定できているように思える
幼児が発する社会的意図の検出
• 幼児が発する社会的意図の検出をそれなりに検出できたらし
い
社会的場⾯における注意共有の検出
• 社会的場⾯における注意共有が精度良く検出できた
まとめ
• ⼈間の社会的⾏動、実世界でのインタラクション、⾃閉症へ
の理解などにおいて、注視⾏動を理解することは重要である
• そこで注視⾏動を認識するために、映像に写っている⼈が、
映像に写っているどの対象を⾒ているか予測する⼿法を深層
学習ベースで提案した
• 評価実験の結果、関連⼿法よりも提案⼿法が定量的に優れて
いることがわかった
資料作成者の個⼈的な感想
• 論⽂の節々から⾃閉症の話題が出てくる。ラストオーサーの
ホームページにある研究概要を⾒ると、研究の⽬的として⾃
閉症や発達障害の診断や治療を⽀援することある。
• 技術的なところが少なめなのはこの⽬的が理由だと思われる
が、もう少し技術的な点を詳しく書いてほしかったというき
もちがある
最後に
• 弊部署AI LabではCVやHCI領域の機械学習エンジニアと
博⼠インターン⽣を募集しています
本研究のようなことに興味がある⽅はぜひ
• 詳しくはWebで︕
機械学習エンジニア
https://cyberagent.ai/careers/
https://hrmos.co/pages/cyberagent-group/jobs/0000458
博⼠インターン⽣
https://www.cyberagent.co.jp/form/id=113
←実はカジュアル⾯談へのリンクでした

More Related Content

What's hot

What's hot (20)

【DL輪読会】Flamingo: a Visual Language Model for Few-Shot Learning 画像×言語の大規模基盤モ...
【DL輪読会】Flamingo: a Visual Language Model for Few-Shot Learning   画像×言語の大規模基盤モ...【DL輪読会】Flamingo: a Visual Language Model for Few-Shot Learning   画像×言語の大規模基盤モ...
【DL輪読会】Flamingo: a Visual Language Model for Few-Shot Learning 画像×言語の大規模基盤モ...
 
【DL輪読会】Dropout Reduces Underfitting
【DL輪読会】Dropout Reduces Underfitting【DL輪読会】Dropout Reduces Underfitting
【DL輪読会】Dropout Reduces Underfitting
 
[DL輪読会]Few-Shot Unsupervised Image-to-Image Translation
[DL輪読会]Few-Shot Unsupervised Image-to-Image Translation[DL輪読会]Few-Shot Unsupervised Image-to-Image Translation
[DL輪読会]Few-Shot Unsupervised Image-to-Image Translation
 
【メタサーベイ】Transformerから基盤モデルまでの流れ / From Transformer to Foundation Models
【メタサーベイ】Transformerから基盤モデルまでの流れ / From Transformer to Foundation Models【メタサーベイ】Transformerから基盤モデルまでの流れ / From Transformer to Foundation Models
【メタサーベイ】Transformerから基盤モデルまでの流れ / From Transformer to Foundation Models
 
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing
[DL輪読会]GLIDE: Guided Language to Image Diffusion  for Generation and Editing[DL輪読会]GLIDE: Guided Language to Image Diffusion  for Generation and Editing
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing
 
[DL輪読会]data2vec: A General Framework for Self-supervised Learning in Speech,...
[DL輪読会]data2vec: A General Framework for  Self-supervised Learning in Speech,...[DL輪読会]data2vec: A General Framework for  Self-supervised Learning in Speech,...
[DL輪読会]data2vec: A General Framework for Self-supervised Learning in Speech,...
 
[DL輪読会]BERT: Pre-training of Deep Bidirectional Transformers for Language Und...
[DL輪読会]BERT: Pre-training of Deep Bidirectional Transformers for Language Und...[DL輪読会]BERT: Pre-training of Deep Bidirectional Transformers for Language Und...
[DL輪読会]BERT: Pre-training of Deep Bidirectional Transformers for Language Und...
 
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
 
物体検出の歴史(R-CNNからSSD・YOLOまで)
物体検出の歴史(R-CNNからSSD・YOLOまで)物体検出の歴史(R-CNNからSSD・YOLOまで)
物体検出の歴史(R-CNNからSSD・YOLOまで)
 
【DL輪読会】Perceiver io a general architecture for structured inputs & outputs
【DL輪読会】Perceiver io  a general architecture for structured inputs & outputs 【DL輪読会】Perceiver io  a general architecture for structured inputs & outputs
【DL輪読会】Perceiver io a general architecture for structured inputs & outputs
 
自己教師学習(Self-Supervised Learning)
自己教師学習(Self-Supervised Learning)自己教師学習(Self-Supervised Learning)
自己教師学習(Self-Supervised Learning)
 
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...
 
【メタサーベイ】Video Transformer
 【メタサーベイ】Video Transformer 【メタサーベイ】Video Transformer
【メタサーベイ】Video Transformer
 
Semantic segmentation
Semantic segmentationSemantic segmentation
Semantic segmentation
 
最近のDeep Learning (NLP) 界隈におけるAttention事情
最近のDeep Learning (NLP) 界隈におけるAttention事情最近のDeep Learning (NLP) 界隈におけるAttention事情
最近のDeep Learning (NLP) 界隈におけるAttention事情
 
[DL輪読会]Set Transformer: A Framework for Attention-based Permutation-Invariant...
[DL輪読会]Set Transformer: A Framework for Attention-based Permutation-Invariant...[DL輪読会]Set Transformer: A Framework for Attention-based Permutation-Invariant...
[DL輪読会]Set Transformer: A Framework for Attention-based Permutation-Invariant...
 
画像をテキストで検索したい!(OpenAI CLIP) - VRC-LT #15
画像をテキストで検索したい!(OpenAI CLIP) - VRC-LT #15画像をテキストで検索したい!(OpenAI CLIP) - VRC-LT #15
画像をテキストで検索したい!(OpenAI CLIP) - VRC-LT #15
 
FineDiving: A Fine-grained Dataset for Procedure-aware Action Quality Assessm...
FineDiving: A Fine-grained Dataset for Procedure-aware Action Quality Assessm...FineDiving: A Fine-grained Dataset for Procedure-aware Action Quality Assessm...
FineDiving: A Fine-grained Dataset for Procedure-aware Action Quality Assessm...
 
[DL輪読会]Focal Loss for Dense Object Detection
[DL輪読会]Focal Loss for Dense Object Detection[DL輪読会]Focal Loss for Dense Object Detection
[DL輪読会]Focal Loss for Dense Object Detection
 
【DL輪読会】"A Generalist Agent"
【DL輪読会】"A Generalist Agent"【DL輪読会】"A Generalist Agent"
【DL輪読会】"A Generalist Agent"
 

Similar to Detecting attended visual targets in video の勉強会用資料

立教大学MBA:AIの最先端技術によるこれからの価値創造
立教大学MBA:AIの最先端技術によるこれからの価値創造立教大学MBA:AIの最先端技術によるこれからの価値創造
立教大学MBA:AIの最先端技術によるこれからの価値創造
Osaka University
 

Similar to Detecting attended visual targets in video の勉強会用資料 (20)

CVPR2019読み会 (Rethinking the Evaluation of Video Summaries)
CVPR2019読み会 (Rethinking the Evaluation of Video Summaries)CVPR2019読み会 (Rethinking the Evaluation of Video Summaries)
CVPR2019読み会 (Rethinking the Evaluation of Video Summaries)
 
【DL輪読会】Reflash Dropout in Image Super-Resolution
【DL輪読会】Reflash Dropout in Image Super-Resolution【DL輪読会】Reflash Dropout in Image Super-Resolution
【DL輪読会】Reflash Dropout in Image Super-Resolution
 
インタラクションのためのコンピュータビジョンのお仕事
インタラクションのためのコンピュータビジョンのお仕事インタラクションのためのコンピュータビジョンのお仕事
インタラクションのためのコンピュータビジョンのお仕事
 
第四回 全日本CV勉強会スライド(MOTS: Multi-Object Tracking and Segmentation)
第四回 全日本CV勉強会スライド(MOTS: Multi-Object Tracking and Segmentation)第四回 全日本CV勉強会スライド(MOTS: Multi-Object Tracking and Segmentation)
第四回 全日本CV勉強会スライド(MOTS: Multi-Object Tracking and Segmentation)
 
【schoo WEB-campus】テレビの「還暦」を考える 先生:石田 英敬
【schoo WEB-campus】テレビの「還暦」を考える 先生:石田 英敬【schoo WEB-campus】テレビの「還暦」を考える 先生:石田 英敬
【schoo WEB-campus】テレビの「還暦」を考える 先生:石田 英敬
 
第六回全日本コンピュータビジョン勉強会資料 UniT (旧題: Transformer is all you need)
第六回全日本コンピュータビジョン勉強会資料 UniT (旧題: Transformer is all you need)第六回全日本コンピュータビジョン勉強会資料 UniT (旧題: Transformer is all you need)
第六回全日本コンピュータビジョン勉強会資料 UniT (旧題: Transformer is all you need)
 
Homo Deus 読書会話題提供
Homo Deus 読書会話題提供Homo Deus 読書会話題提供
Homo Deus 読書会話題提供
 
広告業界の俯瞰
広告業界の俯瞰広告業界の俯瞰
広告業界の俯瞰
 
運用で泣かないアーキテクチャで動く原稿作成支援システム ~リクルートにおけるDeepLearning活用事例~
運用で泣かないアーキテクチャで動く原稿作成支援システム ~リクルートにおけるDeepLearning活用事例~運用で泣かないアーキテクチャで動く原稿作成支援システム ~リクルートにおけるDeepLearning活用事例~
運用で泣かないアーキテクチャで動く原稿作成支援システム ~リクルートにおけるDeepLearning活用事例~
 
人生の意思決定を支える社会インフラとしての図書館
人生の意思決定を支える社会インフラとしての図書館人生の意思決定を支える社会インフラとしての図書館
人生の意思決定を支える社会インフラとしての図書館
 
mlabforum2012_okanohara
mlabforum2012_okanoharamlabforum2012_okanohara
mlabforum2012_okanohara
 
立教大学MBA:AIの最先端技術によるこれからの価値創造
立教大学MBA:AIの最先端技術によるこれからの価値創造立教大学MBA:AIの最先端技術によるこれからの価値創造
立教大学MBA:AIの最先端技術によるこれからの価値創造
 
不動産物件データセットを用いた研究開発事例と、大学との共同研究の取り組みの紹介
不動産物件データセットを用いた研究開発事例と、大学との共同研究の取り組みの紹介不動産物件データセットを用いた研究開発事例と、大学との共同研究の取り組みの紹介
不動産物件データセットを用いた研究開発事例と、大学との共同研究の取り組みの紹介
 
Presentation oct-2018-tokyo r
Presentation oct-2018-tokyo rPresentation oct-2018-tokyo r
Presentation oct-2018-tokyo r
 
Jupyterで手順再現!Elasticsearch構築・運用を実行可能ドキュメントで機械化してみた
Jupyterで手順再現!Elasticsearch構築・運用を実行可能ドキュメントで機械化してみたJupyterで手順再現!Elasticsearch構築・運用を実行可能ドキュメントで機械化してみた
Jupyterで手順再現!Elasticsearch構築・運用を実行可能ドキュメントで機械化してみた
 
Os 12 記号創発ロボティクス / OS趣旨説明@JSAI2015
Os 12 記号創発ロボティクス / OS趣旨説明@JSAI2015 Os 12 記号創発ロボティクス / OS趣旨説明@JSAI2015
Os 12 記号創発ロボティクス / OS趣旨説明@JSAI2015
 
ディープラーニングによる時系列データの異常検知
ディープラーニングによる時系列データの異常検知ディープラーニングによる時系列データの異常検知
ディープラーニングによる時系列データの異常検知
 
Logic, Data Science and Institutional Research
Logic, Data Science and Institutional ResearchLogic, Data Science and Institutional Research
Logic, Data Science and Institutional Research
 
福岡市内のベンチャー企業が取り組む最新It技術
福岡市内のベンチャー企業が取り組む最新It技術福岡市内のベンチャー企業が取り組む最新It技術
福岡市内のベンチャー企業が取り組む最新It技術
 
ディープラーニングで株価予測をやってみた
ディープラーニングで株価予測をやってみたディープラーニングで株価予測をやってみた
ディープラーニングで株価予測をやってみた
 

More from Yasunori Ozaki

Introduction of my works
Introduction of my worksIntroduction of my works
Introduction of my works
Yasunori Ozaki
 

More from Yasunori Ozaki (13)

Decision Transformer: Reinforcement Learning via Sequence Modeling
Decision Transformer: Reinforcement Learning via Sequence ModelingDecision Transformer: Reinforcement Learning via Sequence Modeling
Decision Transformer: Reinforcement Learning via Sequence Modeling
 
CHI 2021 Human, ML & AI のまとめ
CHI 2021 Human, ML & AI のまとめCHI 2021 Human, ML & AI のまとめ
CHI 2021 Human, ML & AI のまとめ
 
POMDP下での強化学習の基礎と応用
POMDP下での強化学習の基礎と応用POMDP下での強化学習の基礎と応用
POMDP下での強化学習の基礎と応用
 
Reinforcement Learning: An Introduction 輪読会第1回資料
Reinforcement Learning: An Introduction 輪読会第1回資料Reinforcement Learning: An Introduction 輪読会第1回資料
Reinforcement Learning: An Introduction 輪読会第1回資料
 
IROS 2019 参加報告詳細版
IROS 2019 参加報告詳細版IROS 2019 参加報告詳細版
IROS 2019 参加報告詳細版
 
Interact with AI (CHI 2019)
Interact with AI (CHI 2019)Interact with AI (CHI 2019)
Interact with AI (CHI 2019)
 
ビジョンとロボットの強化学習(更新版) Reinforcement Learning in Computer Vision and Robotics.
ビジョンとロボットの強化学習(更新版) Reinforcement Learning in Computer Vision and Robotics.ビジョンとロボットの強化学習(更新版) Reinforcement Learning in Computer Vision and Robotics.
ビジョンとロボットの強化学習(更新版) Reinforcement Learning in Computer Vision and Robotics.
 
ビジョンとロボットの強化学習
ビジョンとロボットの強化学習ビジョンとロボットの強化学習
ビジョンとロボットの強化学習
 
Kaggleのテクニック
KaggleのテクニックKaggleのテクニック
Kaggleのテクニック
 
10分でわかるRandom forest
10分でわかるRandom forest10分でわかるRandom forest
10分でわかるRandom forest
 
PRMLの線形回帰モデル(線形基底関数モデル)
PRMLの線形回帰モデル(線形基底関数モデル)PRMLの線形回帰モデル(線形基底関数モデル)
PRMLの線形回帰モデル(線形基底関数モデル)
 
Japanese Summary; Domain Adaptation for Object Recognition: An Unsupervised A...
Japanese Summary; Domain Adaptation for Object Recognition: An Unsupervised A...Japanese Summary; Domain Adaptation for Object Recognition: An Unsupervised A...
Japanese Summary; Domain Adaptation for Object Recognition: An Unsupervised A...
 
Introduction of my works
Introduction of my worksIntroduction of my works
Introduction of my works
 

Detecting attended visual targets in video の勉強会用資料