Soumettre la recherche
Mettre en ligne
[DL輪読会]Collaborative Deep Metric Learning for Video Understanding(KDD2018)
•
1 j'aime
•
714 vues
Deep Learning JP
Suivre
2018/09/07 Deep Learning JP: http://deeplearning.jp/seminar-2/
Lire moins
Lire la suite
Technologie
Signaler
Partager
Signaler
Partager
1 sur 23
Télécharger maintenant
Télécharger pour lire hors ligne
Recommandé
[DL輪読会] MoCoGAN: Decomposing Motion and Content for Video Generation
[DL輪読会] MoCoGAN: Decomposing Motion and Content for Video Generation
Deep Learning JP
Vision and Language(メタサーベイ )
Vision and Language(メタサーベイ )
cvpaper. challenge
【DL輪読会】Ego-Exo: Transferring Visual Representations from Third-person to Firs...
【DL輪読会】Ego-Exo: Transferring Visual Representations from Third-person to Firs...
Deep Learning JP
論文紹介:Ambient Sound Provides Supervision for Visual Learning(CV勉強会ECCV2016読み会)
論文紹介:Ambient Sound Provides Supervision for Visual Learning(CV勉強会ECCV2016読み会)
Toshiki Sakai
東北大学 先端技術の基礎と実践_深層学習による画像認識とデータの話_菊池悠太
東北大学 先端技術の基礎と実践_深層学習による画像認識とデータの話_菊池悠太
Preferred Networks
Deep learningの概要とドメインモデルの変遷
Deep learningの概要とドメインモデルの変遷
Taiga Nomi
動画からの意図理解のこれまでとこれから
動画からの意図理解のこれまでとこれから
MayuOtani
[DL輪読会]High-Quality Self-Supervised Deep Image Denoising
[DL輪読会]High-Quality Self-Supervised Deep Image Denoising
Deep Learning JP
Recommandé
[DL輪読会] MoCoGAN: Decomposing Motion and Content for Video Generation
[DL輪読会] MoCoGAN: Decomposing Motion and Content for Video Generation
Deep Learning JP
Vision and Language(メタサーベイ )
Vision and Language(メタサーベイ )
cvpaper. challenge
【DL輪読会】Ego-Exo: Transferring Visual Representations from Third-person to Firs...
【DL輪読会】Ego-Exo: Transferring Visual Representations from Third-person to Firs...
Deep Learning JP
論文紹介:Ambient Sound Provides Supervision for Visual Learning(CV勉強会ECCV2016読み会)
論文紹介:Ambient Sound Provides Supervision for Visual Learning(CV勉強会ECCV2016読み会)
Toshiki Sakai
東北大学 先端技術の基礎と実践_深層学習による画像認識とデータの話_菊池悠太
東北大学 先端技術の基礎と実践_深層学習による画像認識とデータの話_菊池悠太
Preferred Networks
Deep learningの概要とドメインモデルの変遷
Deep learningの概要とドメインモデルの変遷
Taiga Nomi
動画からの意図理解のこれまでとこれから
動画からの意図理解のこれまでとこれから
MayuOtani
[DL輪読会]High-Quality Self-Supervised Deep Image Denoising
[DL輪読会]High-Quality Self-Supervised Deep Image Denoising
Deep Learning JP
CV勉強会CVPR2019読み会: Video Action Transformer Network
CV勉強会CVPR2019読み会: Video Action Transformer Network
Toshiki Sakai
20150930
20150930
nlab_utokyo
第2回 継続率経営セミナー 公開資料:データの設計・取得について
第2回 継続率経営セミナー 公開資料:データの設計・取得について
pLucky
【DL輪読会】Egocentric Video Task Translation (CVPR 2023 Highlight)
【DL輪読会】Egocentric Video Task Translation (CVPR 2023 Highlight)
Deep Learning JP
文献紹介:Elaborative Rehearsal for Zero-Shot Action Recognition
文献紹介:Elaborative Rehearsal for Zero-Shot Action Recognition
Toru Tamaki
[db analytics showcase Sapporo 2018] A33 AI社内実装の試み~ソニーNNCを非技術者に使わせてみる~
[db analytics showcase Sapporo 2018] A33 AI社内実装の試み~ソニーNNCを非技術者に使わせてみる~
Insight Technology, Inc.
Training object class detectors with click supervision
Training object class detectors with click supervision
Takanori Ogata
卒論パワポVer3 伊東純平
卒論パワポVer3 伊東純平
純平 伊東
Towards Performant Video Recognition
Towards Performant Video Recognition
cvpaper. challenge
【DL輪読会】GAN-Supervised Dense Visual Alignment (CVPR 2022)
【DL輪読会】GAN-Supervised Dense Visual Alignment (CVPR 2022)
Deep Learning JP
【DL輪読会】DINOv2: Learning Robust Visual Features without Supervision
【DL輪読会】DINOv2: Learning Robust Visual Features without Supervision
Deep Learning JP
CVPR2017 参加報告 速報版 本会議 1日目
CVPR2017 参加報告 速報版 本会議 1日目
Atsushi Hashimoto
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
Takumi Ohkuma
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
Deep Learning JP
[DL輪読会]AutoAugment: LearningAugmentation Strategies from Data & Learning Data...
[DL輪読会]AutoAugment: LearningAugmentation Strategies from Data & Learning Data...
Deep Learning JP
Creating and Using Links between Data Objects
Creating and Using Links between Data Objects
Mitsuo Yamamoto
NIPS2013読み会 DeViSE: A Deep Visual-Semantic Embedding Model
NIPS2013読み会 DeViSE: A Deep Visual-Semantic Embedding Model
Seiya Tokui
[DL輪読会]Knowing When to Look: Adaptive Attention via A Visual Sentinel for Im...
[DL輪読会]Knowing When to Look: Adaptive Attention via A Visual Sentinel for Im...
Deep Learning JP
一般向けのDeep Learning
一般向けのDeep Learning
Preferred Networks
[DL輪読会](Sequential) Variational Autoencoders for Collaborative Filtering
[DL輪読会](Sequential) Variational Autoencoders for Collaborative Filtering
Deep Learning JP
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
Deep Learning JP
【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて
Deep Learning JP
Contenu connexe
Similaire à [DL輪読会]Collaborative Deep Metric Learning for Video Understanding(KDD2018)
CV勉強会CVPR2019読み会: Video Action Transformer Network
CV勉強会CVPR2019読み会: Video Action Transformer Network
Toshiki Sakai
20150930
20150930
nlab_utokyo
第2回 継続率経営セミナー 公開資料:データの設計・取得について
第2回 継続率経営セミナー 公開資料:データの設計・取得について
pLucky
【DL輪読会】Egocentric Video Task Translation (CVPR 2023 Highlight)
【DL輪読会】Egocentric Video Task Translation (CVPR 2023 Highlight)
Deep Learning JP
文献紹介:Elaborative Rehearsal for Zero-Shot Action Recognition
文献紹介:Elaborative Rehearsal for Zero-Shot Action Recognition
Toru Tamaki
[db analytics showcase Sapporo 2018] A33 AI社内実装の試み~ソニーNNCを非技術者に使わせてみる~
[db analytics showcase Sapporo 2018] A33 AI社内実装の試み~ソニーNNCを非技術者に使わせてみる~
Insight Technology, Inc.
Training object class detectors with click supervision
Training object class detectors with click supervision
Takanori Ogata
卒論パワポVer3 伊東純平
卒論パワポVer3 伊東純平
純平 伊東
Towards Performant Video Recognition
Towards Performant Video Recognition
cvpaper. challenge
【DL輪読会】GAN-Supervised Dense Visual Alignment (CVPR 2022)
【DL輪読会】GAN-Supervised Dense Visual Alignment (CVPR 2022)
Deep Learning JP
【DL輪読会】DINOv2: Learning Robust Visual Features without Supervision
【DL輪読会】DINOv2: Learning Robust Visual Features without Supervision
Deep Learning JP
CVPR2017 参加報告 速報版 本会議 1日目
CVPR2017 参加報告 速報版 本会議 1日目
Atsushi Hashimoto
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
Takumi Ohkuma
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
Deep Learning JP
[DL輪読会]AutoAugment: LearningAugmentation Strategies from Data & Learning Data...
[DL輪読会]AutoAugment: LearningAugmentation Strategies from Data & Learning Data...
Deep Learning JP
Creating and Using Links between Data Objects
Creating and Using Links between Data Objects
Mitsuo Yamamoto
NIPS2013読み会 DeViSE: A Deep Visual-Semantic Embedding Model
NIPS2013読み会 DeViSE: A Deep Visual-Semantic Embedding Model
Seiya Tokui
[DL輪読会]Knowing When to Look: Adaptive Attention via A Visual Sentinel for Im...
[DL輪読会]Knowing When to Look: Adaptive Attention via A Visual Sentinel for Im...
Deep Learning JP
一般向けのDeep Learning
一般向けのDeep Learning
Preferred Networks
[DL輪読会](Sequential) Variational Autoencoders for Collaborative Filtering
[DL輪読会](Sequential) Variational Autoencoders for Collaborative Filtering
Deep Learning JP
Similaire à [DL輪読会]Collaborative Deep Metric Learning for Video Understanding(KDD2018)
(20)
CV勉強会CVPR2019読み会: Video Action Transformer Network
CV勉強会CVPR2019読み会: Video Action Transformer Network
20150930
20150930
第2回 継続率経営セミナー 公開資料:データの設計・取得について
第2回 継続率経営セミナー 公開資料:データの設計・取得について
【DL輪読会】Egocentric Video Task Translation (CVPR 2023 Highlight)
【DL輪読会】Egocentric Video Task Translation (CVPR 2023 Highlight)
文献紹介:Elaborative Rehearsal for Zero-Shot Action Recognition
文献紹介:Elaborative Rehearsal for Zero-Shot Action Recognition
[db analytics showcase Sapporo 2018] A33 AI社内実装の試み~ソニーNNCを非技術者に使わせてみる~
[db analytics showcase Sapporo 2018] A33 AI社内実装の試み~ソニーNNCを非技術者に使わせてみる~
Training object class detectors with click supervision
Training object class detectors with click supervision
卒論パワポVer3 伊東純平
卒論パワポVer3 伊東純平
Towards Performant Video Recognition
Towards Performant Video Recognition
【DL輪読会】GAN-Supervised Dense Visual Alignment (CVPR 2022)
【DL輪読会】GAN-Supervised Dense Visual Alignment (CVPR 2022)
【DL輪読会】DINOv2: Learning Robust Visual Features without Supervision
【DL輪読会】DINOv2: Learning Robust Visual Features without Supervision
CVPR2017 参加報告 速報版 本会議 1日目
CVPR2017 参加報告 速報版 本会議 1日目
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
[DL輪読会]AutoAugment: LearningAugmentation Strategies from Data & Learning Data...
[DL輪読会]AutoAugment: LearningAugmentation Strategies from Data & Learning Data...
Creating and Using Links between Data Objects
Creating and Using Links between Data Objects
NIPS2013読み会 DeViSE: A Deep Visual-Semantic Embedding Model
NIPS2013読み会 DeViSE: A Deep Visual-Semantic Embedding Model
[DL輪読会]Knowing When to Look: Adaptive Attention via A Visual Sentinel for Im...
[DL輪読会]Knowing When to Look: Adaptive Attention via A Visual Sentinel for Im...
一般向けのDeep Learning
一般向けのDeep Learning
[DL輪読会](Sequential) Variational Autoencoders for Collaborative Filtering
[DL輪読会](Sequential) Variational Autoencoders for Collaborative Filtering
Plus de Deep Learning JP
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
Deep Learning JP
【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて
Deep Learning JP
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
Deep Learning JP
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
Deep Learning JP
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
Deep Learning JP
【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM
Deep Learning JP
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
Deep Learning JP
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
Deep Learning JP
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?
Deep Learning JP
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について
Deep Learning JP
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
Deep Learning JP
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
Deep Learning JP
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
Deep Learning JP
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
Deep Learning JP
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
Deep Learning JP
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
Deep Learning JP
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
Deep Learning JP
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
Deep Learning JP
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
Deep Learning JP
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
Deep Learning JP
Plus de Deep Learning JP
(20)
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
Dernier
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
FumieNakayama
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
sugiuralab
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
Hiroshi Tomioka
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
UEHARA, Tetsutaro
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
Yuki Kikuchi
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
akihisamiyanaga1
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
博三 太田
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
FumieNakayama
Dernier
(8)
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
[DL輪読会]Collaborative Deep Metric Learning for Video Understanding(KDD2018)
1.
DEEP LEARNING JP [DL
Papers] “Collaborative Deep Metric Learning for Video Understanding (KDD2018)” Yoshifumi Seki, Gunosy http://deeplearning.jp/
2.
書誌情報 ● タイトル: Collaborative
Deep Metric Learning for Video Understanding ● 著者: Joonseok Lee, Sami Abu-El-Haija, Balakrishnan Varadarajan, Apostol (Paul) Natsev ○ Google AI Perception ● 投稿先 ○ KDD2018 ● 選定理由 ○ ユーザ行動と動画分析を組み合わせた研究 ■ ユーザ行動に関心が高く、どのように組み合わせていくのか気になった 2
3.
提案手法概要 ● やりたいこと ○ 動画の近さを表現する埋め込みベクトルを生成する関数をつくる ○
動画の近さとは? ■ ここでは同じユーザにより再生されやすい(共起行動が起こる)ものを近いと定義する ■ Metric-Learning ● 近いものは近い空間に、遠いものは遠くになるように埋め込む ● やること ○ 動画は画像と音声を別々にベクトル化 ○ 動画のco-viewでネットワークを構築 ■ しきい値で足切り ○ トリプレットLossで学習(ref: FaceNet) ■ semi-hard negative mining 3
4.
提案手法概観 4
5.
動画のベクトル化 ● 動画+音声でそれぞれベクトル化する ● 動画のベクトル化 ○
Inception v3をJFT datasetで訓練したものを用意 ○ 1秒を1frameとして各フレームを特徴抽出 ○ 最終層をPCAで1500次元に圧縮 ○ average pooling ● 音声のベクトル化 ○ ResNet50ベースの音響分類モデル[Hershey+2017] ○ 960msのフレームに分割 ■ 25ms窓のフーリエ変換で10msごとに圧縮 ○ average pooling 5
6.
共起ネットワークの作成 ● 動画をノードとして重み付けネットワークを作る ● 動画Aと動画BがN人に共起して見られた場合、動画Aと動画Bの間にはNの重みの エッジがはられる ●
エッジの重みが一定以下のものを削除する このネットワーク上での距離を埋め込む関数を学習したい 6
7.
Triplet Loss ● 距離を学習したい ○
近いものは近く、遠いものは遠いとして学習したい ● ベクトルをd次元に埋め込む関数: ○ 超球面上に制約する: ● 関係性を評価したいTripleを定義する ○ anchor: 対象, positive: 対象と近いもの, negative: 対象と遠いもの ○ anchorとpositiveの距離はanchorとnegativeの距離より近くなくてはならない 7
8.
semi-hard negative mining ●
Tripleをどのように選ぶか? ○ めっちゃ近いやつ(hardest positive)と、めっちゃ遠いやつ(hardest negative)を選びたい ○ だけど毎回それを考えてたら計算的にしんどい ○ なので、うまいことやる ● ミニバッチに使うTripleを使う ○ Positiveは全部使う ■ 共起ネットワークの隣接ノード ○ Negativeはランダムに選択される ○ ミニバッチ内のNegativeでネットワーク的に遠いものをNegativeとして選択 8
9.
2つのEmbedding Network: early
fusion, late fusion ● (1) visionとaudioを入力時に組み合わせてembeddingする ● (2) visionとaudioそれぞれで全結合し、embeddingする 9
10.
3つの実験 ● 関連動画 ● 動画推薦 ●
動画アノテーション 10
11.
関連動画 ● ある動画qが与えられたときに関連する動画を探すタスク ○ 関連する動画
=> 共起が高い動画 ● 1000回以上再生された278Mの動画 ○ 7:3でtrain - evalに分ける ● 2つのコールドスタート問題タスクを考える ○ 1) T2E: train内にあったqからtrain内にない動画を関連動画として探すタスク ○ 2) E2T: train内に無いqからtrain内の動画を関連動画として探すタスク 11
12.
関連動画 ● audioデータを使うことで、パフォーマンスが向上している 12
13.
関連動画 ● embeddingする次元数について比較 13
14.
14
15.
動画推薦 Q: ユーザの視聴履歴, V:
推薦候補動画 15
16.
動画推薦 ● MovieLensのデータを使って比較 ○ MovieLensには動画データがない ○
YoutubeからTrailerをもってくる ○ MovieLens20Mの94%のTrailerを取得 16
17.
動画推薦 17
18.
動画推薦 18
19.
動画推薦 19
20.
動画アノテーション ● Youtube8mにおけるClassificationのタスク ● Mixture
of Expertを使う ○ エキスパートネットワークを組み合わせる ○ 動画embeddingベクトルをPCAで次元圧縮し、その上でエキスパートネットワークで分類 20
21.
動画アノテーション 21
22.
動画アノテーション 22
23.
まとめ ● 動画をユーザ行動の類似性から埋め込みベクトルにする手法を提案 ● さまざまなタスクで有効性を確認(?) ○
関連動画 ■ コールドスタートな問題設定でも有効に動く ● (?) 問題設定有利すぎない? ● (?) そもそも比較してないよね、、、 ○ 動画推薦 ■ スケーラブルに、既存手法とそこまで変わらない推薦ができる ● (?)embeddingならどれでもいけそうだし、普通のembeddingと比較しなくていいの? ■ コールドスタートに強い ● (?)検証してる ○ 動画アノテーション ■ CVPR2017のコンペの上位手法を上回った ■ (?) 公平のためにアンサンブルじゃないとか、video levelとか言ってるけどうーん 23
Télécharger maintenant