SlideShare a Scribd company logo
Soumettre la recherche
Mettre en ligne
S’identifier
S’inscrire
【DL輪読会】Egocentric Video Task Translation (CVPR 2023 Highlight)
Signaler
Deep Learning JP
Suivre
Deep Learning JP
31 May 2023
•
0 j'aime
•
485 vues
1
sur
36
【DL輪読会】Egocentric Video Task Translation (CVPR 2023 Highlight)
31 May 2023
•
0 j'aime
•
485 vues
Télécharger maintenant
Télécharger pour lire hors ligne
Signaler
Technologie
2023/5/26 Deep Learning JP http://deeplearning.jp/seminar-2/
Deep Learning JP
Suivre
Deep Learning JP
Recommandé
近年のHierarchical Vision Transformer
Yusuke Uchida
13.3K vues
•
46 diapositives
【DL輪読会】ViT + Self Supervised Learningまとめ
Deep Learning JP
3.7K vues
•
52 diapositives
【メタサーベイ】数式ドリブン教師あり学習
cvpaper. challenge
5.3K vues
•
33 diapositives
【メタサーベイ】Vision and Language のトップ研究室/研究者
cvpaper. challenge
1.7K vues
•
154 diapositives
【メタサーベイ】Neural Fields
cvpaper. challenge
2K vues
•
46 diapositives
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII
2.1K vues
•
81 diapositives
Contenu connexe
Tendances
画像生成・生成モデル メタサーベイ
cvpaper. challenge
8.1K vues
•
118 diapositives
【DL輪読会】Toolformer: Language Models Can Teach Themselves to Use Tools
Deep Learning JP
1.6K vues
•
20 diapositives
Active Learning の基礎と最近の研究
Fumihiko Takahashi
815 vues
•
31 diapositives
全力解説!Transformer
Arithmer Inc.
9K vues
•
43 diapositives
Transformer 動向調査 in 画像認識(修正版)
Kazuki Maeno
1.6K vues
•
45 diapositives
semantic segmentation サーベイ
yohei okawa
4.7K vues
•
34 diapositives
Tendances
(20)
画像生成・生成モデル メタサーベイ
cvpaper. challenge
•
8.1K vues
【DL輪読会】Toolformer: Language Models Can Teach Themselves to Use Tools
Deep Learning JP
•
1.6K vues
Active Learning の基礎と最近の研究
Fumihiko Takahashi
•
815 vues
全力解説!Transformer
Arithmer Inc.
•
9K vues
Transformer 動向調査 in 画像認識(修正版)
Kazuki Maeno
•
1.6K vues
semantic segmentation サーベイ
yohei okawa
•
4.7K vues
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
Deep Learning JP
•
991 vues
[DL輪読会]When Does Label Smoothing Help?
Deep Learning JP
•
11K vues
【メタサーベイ】Video Transformer
cvpaper. challenge
•
2K vues
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜
SSII
•
3K vues
モデル高速化百選
Yusuke Uchida
•
24.5K vues
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Yusuke Uchida
•
15.3K vues
動画認識における代表的なモデル・データセット(メタサーベイ)
cvpaper. challenge
•
2.4K vues
【DL輪読会】Reflash Dropout in Image Super-Resolution
Deep Learning JP
•
520 vues
[DL輪読会]Transframer: Arbitrary Frame Prediction with Generative Models
Deep Learning JP
•
1.1K vues
【DL輪読会】Segment Anything
Deep Learning JP
•
3.5K vues
【メタサーベイ】基盤モデル / Foundation Models
cvpaper. challenge
•
16K vues
ドメイン適応の原理と応用
Yoshitaka Ushiku
•
5.2K vues
自己教師学習(Self-Supervised Learning)
cvpaper. challenge
•
12.4K vues
【チュートリアル】コンピュータビジョンによる動画認識
Hirokatsu Kataoka
•
12.5K vues
Similaire à 【DL輪読会】Egocentric Video Task Translation (CVPR 2023 Highlight)
【DL輪読会】Ego-Exo: Transferring Visual Representations from Third-person to Firs...
Deep Learning JP
172 vues
•
24 diapositives
Creating and Using Links between Data Objects
Mitsuo Yamamoto
2.5K vues
•
14 diapositives
[DL輪読会]Collaborative Deep Metric Learning for Video Understanding(KDD2018)
Deep Learning JP
696 vues
•
23 diapositives
東北大学 先端技術の基礎と実践_深層学習による画像認識とデータの話_菊池悠太
Preferred Networks
893 vues
•
78 diapositives
【DL輪読会】Visual ChatGPT: Talking, Drawing and Editing with Visual Foundation Mo...
Deep Learning JP
753 vues
•
17 diapositives
Start rl with_unity_machine_learning_agents
infinite_loop
1.7K vues
•
35 diapositives
Similaire à 【DL輪読会】Egocentric Video Task Translation (CVPR 2023 Highlight)
(17)
【DL輪読会】Ego-Exo: Transferring Visual Representations from Third-person to Firs...
Deep Learning JP
•
172 vues
Creating and Using Links between Data Objects
Mitsuo Yamamoto
•
2.5K vues
[DL輪読会]Collaborative Deep Metric Learning for Video Understanding(KDD2018)
Deep Learning JP
•
696 vues
東北大学 先端技術の基礎と実践_深層学習による画像認識とデータの話_菊池悠太
Preferred Networks
•
893 vues
【DL輪読会】Visual ChatGPT: Talking, Drawing and Editing with Visual Foundation Mo...
Deep Learning JP
•
753 vues
Start rl with_unity_machine_learning_agents
infinite_loop
•
1.7K vues
OpenJDKのコミッタってどんなことしたらなったの?解決してきた技術課題の事例から見えてくる必要な知識と技術(JJUG CCC 2023 Spring)
NTT DATA Technology & Innovation
•
337 vues
スカイアーチセミナー:[スカイアーチNTTCom共催セミナー]事例で学ぶ賢いクラウド活用法 ~コンテンツ配信編~(事例セッション):150522
株式会社スカイアーチネットワークス
•
922 vues
CVPR2019読み会 (Rethinking the Evaluation of Video Summaries)
Yasunori Ozaki
•
2K vues
Xtextハンズオン(仮)
You&I
•
672 vues
SQiPシンポジウムアブストラクト作成のポイント
ソフトウェア品質シンポジウム
•
141 vues
一口で何度もおいしい?DSL
You&I
•
561 vues
ChatGPTのデータソースにPostgreSQLを使う[詳細版](オープンデベロッパーズカンファレンス2023 発表資料)
NTT DATA Technology & Innovation
•
132 vues
TouchDesigenr Beginners' workshop vol.003
Dan Imagineer
•
640 vues
[DL輪読会]StyleNet: Generating Attractive Visual Captions with Styles
Deep Learning JP
•
1.6K vues
大規模並列実験を支えるクラウドサービスと基盤技術
RyuichiKanoh
•
1.7K vues
勝つための計画づくり 20110415(鈴木)
Atsushi Suzuki
•
699 vues
Plus de Deep Learning JP
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
Deep Learning JP
135 vues
•
28 diapositives
【DL輪読会】事前学習用データセットについて
Deep Learning JP
189 vues
•
20 diapositives
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
Deep Learning JP
144 vues
•
26 diapositives
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
Deep Learning JP
187 vues
•
30 diapositives
【DL輪読会】Can Neural Network Memorization Be Localized?
Deep Learning JP
446 vues
•
15 diapositives
【DL輪読会】Hopfield network 関連研究について
Deep Learning JP
869 vues
•
29 diapositives
Plus de Deep Learning JP
(20)
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
Deep Learning JP
•
135 vues
【DL輪読会】事前学習用データセットについて
Deep Learning JP
•
189 vues
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
Deep Learning JP
•
144 vues
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
Deep Learning JP
•
187 vues
【DL輪読会】Can Neural Network Memorization Be Localized?
Deep Learning JP
•
446 vues
【DL輪読会】Hopfield network 関連研究について
Deep Learning JP
•
869 vues
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
Deep Learning JP
•
246 vues
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
Deep Learning JP
•
186 vues
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
Deep Learning JP
•
555 vues
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
Deep Learning JP
•
400 vues
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
Deep Learning JP
•
1K vues
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
Deep Learning JP
•
368 vues
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
Deep Learning JP
•
338 vues
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
Deep Learning JP
•
585 vues
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
Deep Learning JP
•
684 vues
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
Deep Learning JP
•
292 vues
【DL輪読会】Deep Transformers without Shortcuts: Modifying Self-attention for Fait...
Deep Learning JP
•
280 vues
【DL輪読会】マルチモーダル 基盤モデル
Deep Learning JP
•
811 vues
【DL輪読会】TrOCR: Transformer-based Optical Character Recognition with Pre-traine...
Deep Learning JP
•
428 vues
【DL輪読会】HyperDiffusion: Generating Implicit Neural Fields withWeight-Space Dif...
Deep Learning JP
•
209 vues
Dernier
CatBoost on GPU のひみつ
Takuji Tahara
548 vues
•
30 diapositives
遠隔お酌IoTLT2309.pptx
Yoshiaki Ito
145 vues
•
12 diapositives
GraphQLはどんな時に使うか
Yutaka Tachibana
14 vues
•
37 diapositives
磁石内臓イヤリングによる磁力変化を利用したジェスチャ識別
sugiuralab
7 vues
•
1 diapositive
拡散する画像生成.pdf
NTTDOCOMO-ServiceInnovation
44 vues
•
38 diapositives
IGDA Japan SIG Audio #20-1 室内・野外でのマイク収録と整音.pdf
IGDA Japan SIG-Audio
115 vues
•
31 diapositives
Dernier
(14)
CatBoost on GPU のひみつ
Takuji Tahara
•
548 vues
遠隔お酌IoTLT2309.pptx
Yoshiaki Ito
•
145 vues
GraphQLはどんな時に使うか
Yutaka Tachibana
•
14 vues
磁石内臓イヤリングによる磁力変化を利用したジェスチャ識別
sugiuralab
•
7 vues
拡散する画像生成.pdf
NTTDOCOMO-ServiceInnovation
•
44 vues
IGDA Japan SIG Audio #20-1 室内・野外でのマイク収録と整音.pdf
IGDA Japan SIG-Audio
•
115 vues
20230921_IoTLT_vol103_kitazaki_v1.pdf
Ayachika Kitazaki
•
164 vues
2023情報処理学会関西支部大会-G12.pdf
KoseiShimoda1
•
7 vues
画像生成AIの問題点
iPride Co., Ltd.
•
10 vues
CCoE実践者コミュニティ#1_CCoEが進めるセキュリティカイゼンの旅.pptx
Tomoaki Tada
•
57 vues
MLOps Course Slides_JP(配布用).pdf
Yuya Yamamoto
•
118 vues
ヒアラブルデバイスにおける音漏れ信号を用いた空中ジェスチャ認識
sugiuralab
•
5 vues
テスト自動化.pdf
ssuserf8ea02
•
29 vues
インフラチームとCCoEの関係.pptx
ssuser5c7ee4
•
20 vues
【DL輪読会】Egocentric Video Task Translation (CVPR 2023 Highlight)
1.
DEEP LEARNING JP [DL
Papers] EgocentricVideoTaskTranslation (CVPR 2023 Highlight) Yoshifumi Seki http://deeplearning.jp/
2.
書誌情報 ● 投稿先 ○ CVPR
2023 Highlight ● 投稿者 ○ テキサス大、Meta ■ First AuthorのMetaでのインターン成果 ● 選定理由 ○ ウェラブルデバイスの会社に務めています ○ 一人称動画からの動作解析系に最近取り組ん でいます https://vision.cs.utexas.edu/projects/egot2/ Codeのリンクはなかった、、、
3.
背景・目的 ● 三人称の動画データセットは特定のタスクに対して注目した短いクリップの集合に なっているが、それ以外の情報が少なくなる ● ウェアラブルカメラによる一人称の動画では装着者のさまざまなオブジェクトとの相 互作用が記録される ○
タスク間にも相互作用がありので予測の助けにもある ● 一方で特定のタスク向けの特化したモデルができてしまう危険性がある ● 個別のタスクを解くのに特化したものでなく、オブジェクト間の相互作用を利用して さまざまなタスクに対する統合的な枠組みを作りたい ● Ego4D Workshop#2 次点におけるEgo4D ChallengeにおいてTalking to Meで1 位、NR keyframe localizationで3位
4.
一つの動画の中にたくさんのタスクが存在する
5.
タスクの関連性を学ぶことで汎用的なモデルを作る
6.
実現に向けた転移学習/マルチタスク学習の課題 ● マルチタスク学習のためには全てのデータに、全てのタスクのラベルが必要である が、それは現実的ではない ● 一人称動画に付与されているラベルの粒度はタスクによって大きく異なるため、統 合モデルを作るのが難しく、特化モデルを作ることを助長している ○
モード(音声、視覚、運動) ○ ラベルの多様性(空間的・時間的・意味的) ○ 時間の粒度(短い時間で完結する行動と、長い時間を見ないといけない行動) ● 一人称視点の既存研究では、一般的な概念の学習のためshared encoderを利用 していることが多いが、これは一人称視点動画の多様性と相性が悪い可能性が高 い ○ 過去のマルチタスク学習の研究で関係が薄いタスクでのパラメータの共有は性能を劣化させること があることが指摘されている
7.
提案手法: Ego Task
Translation (EgoT2) ● 多様な一人称動画に対する統合的な学習フレームワーク ● 複数のタスクを学習できるが、個々のタスクで異なるデータセットを学習することが できる ● タスクが強く関連していない場合の影響を軽減する ● 2つの仕組みを持つ ○ タスク専門モデル: EgoT2-s: 特定のモデルに対して学習されたモデル ○ タスク汎用モデル: EgoT2-g: 異なるタスクへの変換を支援するためのモデル
9.
個別のBackboneを持つ利点 ● それぞれのタスクの特異性(例えば時間の扱いなど)をBackboneが吸収できる ● その上で、各タスクのbackboneを統合する形でTransferを学習するので、タスク間 の類似性が低い場合の影響も軽減ができる ●
過去の全てのパラメータを共有した転移学習と比較して、本手法で提案するtask translatorは不要なパラメータを選択的に非活性にすることができるので、重要な 特徴だけを活用するように学習できる ● さらにその選択を分析することで、タスク間の関連についての解釈を得ることもでき る
10.
EgoT2-s ●
11.
EgoT2-s ● Stage1: Individual Task
Training
12.
Stage1: Individual Task
Training ● 個別のタスクに対する学習をそれぞれのデータセットを用いて行う ● 学習方法に制限はない ● K個のタスクに対して、K個のモデルf_k (k=1…K)を得る
13.
EgoT2-s ● Stage2: Task Specific
Translation
14.
Stage2: Task Specific
Translation
15.
Stage2: Task Specific
Translation 1: Stage1で作ったモデルを用いて動画からの特徴抽出を行う
16.
Stage2: Task Specific
Translation 2: 特徴ベクトルの射影を行う (Projection Layer)
17.
Stage2: Task Specific
Translation 3: 各タスク特化モデルからの出力 (射影したもの)を結合
18.
Stage2: Task Specific
Translation 4: Translationのための共通Encoderに結合ベクトルを入力
19.
Stage2: Task Specific
Translation 5: タスク固有のDecoderによってタスクの出力を得る このEncoder-Decoderは抽象化されていてなんでも良い 実験の中ではEncoderは1層のTransformerを使っている
20.
EgoT2-g
21.
EgoT2-g ● EgoT2-sはDecoderを特定のタスクに向けて出力するため、K個のタスクに対応で きるモデルを作ろうとすると、K個のモデルを作った上で、K回のDecoderの訓練が 必要になる ● EgoT2-gではEgoT2-sを拡張することで、1度にK個のタスクへのtranslateを行うこ とを目指す ●
22.
EgoT2-gでの変更点 ● Stage1はEgoT2-sと同じ ● 1)
デコーダーを汎用的な物に置き換える ● 2) 全てのデータセットを使って学習をする
23.
EgoT2-g: デコーダの置き換え ● さまざまなタスクを汎用的に扱えるデコーダーのために言語モデルを用いる ●
それぞれのタスクの出力をtokenizeし、デコーダーをsequence decoderに置き換 える ● タスクに応じた出力をさせるために、出力の先頭にtask promptを出力するようにす る ● wはj=1の時0でそれ以外の時が1になる。つまりプロンプトは反映しない ● 出力された文字列からarg samplingによってタスクのラベルを復元する
24.
EgoT2-g
25.
EgoT2-g: 全てのデータセットを使った学習 ● 共通のデコーダを持つため、対象となる全てのタスクのデータを用いてデコーダの 学習をしなければならない ●
各タスクからbatchをひとつずつサンプルし、各タスクごとの損失を計算しモデルの 更新を行う
26.
データセットとタスク ● Ego4D: 数百のシナリオで撮影された約3,670時間もの大規模な一人称視点デー タセット ●
5つのベンチマークがある ○ Episodic memory (EM) ○ Hand and Object (HO) ○ Audio Visual Diarization (AV) ○ Social Interaction (Social) ○ Forecasting ● 4つのベンチマークにまたがる7つのタスクを選択した
27.
データセットとタスク ● Ego4D: 数百のシナリオで撮影された約3,670時間もの大規模な一人称視点デー タセット ●
5つのベンチマークがある ○ Episodic memory (EM) ○ Hand and Object (HO) ○ Audio Visual Diarization (AV) ○ Social Interaction (Social) ○ Forecasting ● 4つのベンチマークにまたがる7つのタスクを選択した AR (Action Recognition)だけ存在が確認できていない。 Forecastingカテゴリで、LTA (Long Team Anticipation )ともう一つあ るのはShort Team Anticipationなので、それの別名?
28.
Human-Object InteractionなタスクでのEgoT2-sの結果
29.
Human-Human InteractionなタスクでのEgoT2-sの結果
30.
EgoT2-sのablation study
31.
EgoT2-gの結果
32.
SOTAなモデルとの比較 (1/2) Ego4D
Challengeの4つのカテゴリでSOTA タスクのサイトで現在の LeadersBoardを見ることが できる https://eval.ai/web/challenges/challenge-page/1622/o verview https://eval.ai/web/challenges/challenge-page/1625/l eaderboard/3911
33.
SOTAなモデルとの比較 (2/2) https://eval.ai/web/challenges/challenge-pa ge/1598/leaderboard/3881 https://eval.ai/web/challenges/challenge-p age/1627/leaderboard/3914 Ego4D Challengeの4つのカテゴリでSOTA タスクのサイトで現在の
LeadersBoardを見ることが できる
34.
EgoT2-sでの結果の解釈 AR(STA) は短時間での行動予測、 LTAは(比較的)長時間での行動予測。 上の例は大きくシーンが変わるので、 LTAが早いうちに活性化していて、 AR は直前に活性化している。 下の例はあまり急激に変わらないの で、ARも早いうちから活性化している
35.
EgoT2-gでの結果解釈 出力結果に対して各種タスクプロンプ トを設定した時の結果の比較。
36.
まとめ・感想 ● 複数のタスクのデータを活用して一人称視点タスクにおける予測を統合的に行う研 究 ● Backboneを並列にしてDecoderを単一にするという工夫によって、一人称視点タ スクにおけるデータセットの基準が曖昧であるという課題に対して向き合っている。 ○
アンサンブル学習の考え方に近い物を感じる ● データセット中にあるものしか反映できないものの、Ego4Dという大きなデータセッ トができたことの強みをよく生かしている良い研究だと感じた