SlideShare a Scribd company logo
1 of 33
Download to read offline
人が注目する箇所を当てるSaliency
Detectionの
最新モデル UCNet(CVPR2020)
EAGLYS株式会社
AI 勉強会 #7 2020/11/19(Thu)
吉田 慎太郎
@sht_47
EAGLYS株式会社 AI勉強会
1. NAS 入門
2. Out of Distribution【入門編】
3. Out of Distribution【実践編】画像認識 x 異常検知
4. 安定の可視化手法 「Grad-CAM 」
5. 新しい Optimizer 「Adabelief」
6. Federated Learning 入門
7. Saliency Detection最新研究 UCNet ⇦今日
今日の発表内容
- Saliency Detectionとは
- Semantic Segmentation の復習
- Semantic Segmentationの有名手法 FCN と UNet の紹介
- UCNet
- 評価指標と結果
Saliency Detectionとは
- Semantic Segmentationという分野の1カテゴリーかつ設定がより高次元
- 近年、RGB-D画像の入手が容易になり、RGB-D画像を用いたモデルが注目
- トラッキング、画像抽出、要約動画の作成、動画理解への応用が期待される
UCNetの簡単な紹介
- CVPR2020に採択、CVPR2020のBest Paper Awardにノミネート
- オーストラリア国立大学の論文
- RGB-D Saliency Detectionのタスクで全てのDataset, 全ての指標でSOTA
- CVAE(Conditional Variational AutoEncoder)を導入
- Depth Correction Networkと呼ばれる アノテーターの不確かさを考慮したモデル
Semantic Segmentationの基本
Image Classification との違い
ピクセルごとにクラスを予測
FCN(2014, Jonathan)
15層の3x3 Convで1/32
7x7 Convと1x1Convで4096次元に
1x1 Convで21次元に(VOCのクラス数)
Transpose Convで 元の画像サイズ
TransposeConv2D
Quiz : TransposeConv2DのOutput Shapeは?
>> input = torch.randn(20, 16, 50, 100)
>> m = nn.ConvTranspose2d(16, 33,
kernel_size=3, stride=2, padding=1,dilation=2)
>> output = m(input)
[ Image Credit ]
元画像 2x2 アップサンプリング後 4x4
Stride : 1
Padding : 0 (Valid in Tensorflow)
Dilation : 1
TransposeConv2D
Quiz : TransposeConv2DのOutput Shapeは?
>> input = torch.randn(20, 16, 50, 100)
>> m = nn.ConvTranspose2d(16, 33,
kernel_size=3, stride=2, padding=1,dilation=2)
>> output = m(input)
正解 :
torch.Size([20, 33, 101, 201])
TransposeConv2Dの計算方法 (Stride)
Stride = 1
Step(0)
Stride = 2
... ...Output
Input
Kernel
Step(1) Step(1)
まとめ
StrideはInput上をカーネル
が操作する時の回数が変更
TransposeConv2Dの計算方法(Padding)
Padding = 1
...
...
Output
...
Padding = 2Padding = 0
まとめ
Paddingはカーネルの
スタート地点が変更
TransposeConv2Dの計算方法 (Dilation)
Dilation = 1 Dilation = 2
...
Output
Input
Kernel
カーネル 走査スタート時
...
まとめ
Paddingはカーネルのスタート地点
からInput上に行くまでの距離が変更
TransposeConv2D 解答
Quiz : TransposeConv2DのOutput Shapeは?
>> input = torch.randn(20, 16, 50, 100)
>> m = nn.ConvTranspose2d(16, 33,
kernel_size=3, stride=2, padding=1,dilation=2)
>> output = m(input)
正解 :
torch.Size([20, 33, 101, 201])
実際のコード
FCN(2014, Jonathan)
15層の3x3 Convで1/32
7x7 Convと1x1Convで4096次元に
1x1 Convで21次元に(VOCのクラス数)
torch.Size([1, 21, 16, 12])
Transpose Convで 元の画像サイズ
nn.ConvTranspose2d(21, 21, 64, stride=32)
torch.Size([1, 21, 416, 544])
500
375
Fully Convolutional Network
FCN-32s : そのまま
FCN-16s : feature4とconcat
FCN-8s : feature3とconcat
結果
空間的な情報を補完することが可能
UNet(2015, Olaf)
- 医療画像が対象
- High resolutionの画像生成が可能
- GAN で広く応用!
Saliency Detection
- 2D, 3D(Depth), 4Dの問題 に分けることが可能
- ルール⇨CNN⇨Network Engineering
3D(RGB-D画像)は大きくわけて2種類
- MultiModal Input Fusion ⇦◉, UCNet
- MultiModal Feature Fusion ⇦◉
- UniModal Result Fusion
近年の動向 Coase to Fine , SOC
[ Image Credit ]
Kinect
[ Image Credit ]
RealSense
[ Image Credit ]
UCNet(2020, Jing)
● 5つのモジュール(実質3つ)
● 学習とテストで使うモジュールが異なる
● 実際のコードを追うことは大変
Contribution
1 ) 初めてこのタスクでCVAEを採用
2 ) 多数決をするモジュール(実装なし)
3 ) Depth情報も修正
Conditional Variational AutoEncoder
AutoEncoderとVariational AutoEncoderの復習
AutoEncoder
[ Image Credit ]
Variational AutoEncoder
精度の向上、Latent Vectorの分布が0中心、Latent Vetorであるzの分布が連続的
平均0分散1の正規分布に近づくように KL Lossを追加
[ Image Credit ]
Conditional Variational AutoEncoder
- 欲しいyラベルを出力したい (Yが複数のモードを持つとき )
- 効率よく学習したい
Encoder, Decoderにyラベルを追加
Objective Functionや
モデル構成は入力を増やす以外ほぼ同じ
Reconstruction Loss Kullback Leibler Divergence(正則化項)
このyをGT画像にしてSaliency Detectionタスクに応用 = UCNet
CVAE
VAE
PriorNet and PosteriorNet
RGB + D をもとにLatent Vector Zを作成 = PriorNet
RGB + D + GTをもとにLatent Vector Zを作成 = PriorNet
構造はシンプルで5層のCNN(BNとLeaky ReLU) + Flatten + MLP
Feature Expandingは2次元のテンソルを
4次元のB x 画像サイズ に拡大
Loss
KL Divergence
DepthCorrectNet
- Annotatorの不確かさを考慮し、Depth画像を修正
- EncoderとDecoderからなり、
EncoderはResNet50を使用
Decoder
- LayerごとのFeatureをConvでChannel数
UpSamplingでサイズを揃える
- Dilated Conv(6, 12, 18, 24)を挿入
足し合わせる
Layer 1
Layer 2
Layer 3
Layer 4
RGB-D 画像
ResNet50
Dilated6,12,18,24
Depth画像
C
DenseASPP
- Semantic Segmentationの
テクニックの一つ
特徴
- Dilated Convolutionの結果を
ConcatenateするASPP
- 途中のFeatureを
最終層につなげるDenseNet
SaliencyNet
- EncoderとDecoder 構造
- Input : RGB-D画像 + Latent Vector
Latent Vectorは画像サイズと同じに
- Output : 1channelのSaliency Map
Encoder
ResNet50
Decoder
- それぞれのFeature Mapsに対して、
DenseASPP
Layer 1
Layer 2
Layer 3
Layer 4
RGB-D 画像
+ Latent Vector
ResNet50
C
DenseASPP
DenseASPP
DenseASPP
DenseASPP
Saliency Map
Decoder
Channel Attention Module(2018, Sangyurun)
SE ModuleのAvg Poolingだけでなく、 Max PoolingとAvg Poolingを組み合わせ
⇨コードにはChannel Attentionと書いているが、 実装上はSE Module
SE Module [ Image Credit ]
Hide and Seek Module(2017, Krishna)
- 画像を16個のPatchに分割
- 学習中のみ50%の確率でマスキング
効果
- モデルがObjectの関連した
パーツを学習する
Semantic Segmentationの指標 4つ
今回使用している指標
- MAE
- Mean F-Measure
- S-Measure
- Mean E-Measure
従来の指標
- OP(Overall Pixel Accuracy) , PC(Per Class Accuracy), IOU
- JI(Jaccard Index) i番目のクラスと予測したうちでどの程度合っているか
Mean F-Measure( Arbelaez, 2011)
輪郭を正解することがタスクにおいてより重要
輪郭かどうかを予測し、画像の対角成分の0.75%に設定したθ以内に収まると1
S-Measure(2017, Deng-ping)
構造の類似度(Structure Similarity)を捉えたい
SSIMをベースに 0.5*Sr+0.5*Soで定義
Region-Aware Structure Similarity Sr
Object-Aware Structure Similarity So
(Object Levelが高次元の問題に不可欠)
Xfg, YfgはGT, SMの確率分布
So = μOBG + (1-μ)OFG
分布の拡散具合輝度の分布の近さ
E-Measure(2018, Deng-ping)
S-MeasureはBinary Mapでうまくいかない
Pixelだけの情報でなく、Imageレベルの量も重要
IはForeground Map, Aは全てが1の行列
Bias Matrix φ 輝度のコントラスト
と強い相関
類似度をアマダール積で計算
結果1
- CVAEにより多様な予測が可能に
- 精度も高い
- Ours(1)とOurs(2)はCVAEからrandomにサンプリング
結果2
結果3 Ablation Studies
M2 :
Depth Correction Networkの有無で比較
M4 :
VAE vs CVAE
M6 :
Monte Carlo Dropout との比較
( テスト中にDropoutを行うことで
Stochastic Inferenceを実現 )
所感
- 少しずつ盛り上がってきている分野
- 不確かさを考慮するDepth Correction Netや
予測に確立要素を組み込むCVAEは応用が広そう
- CVAEの実装が勉強になった。

More Related Content

What's hot

【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Models【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Modelscvpaper. challenge
 
自己教師学習(Self-Supervised Learning)
自己教師学習(Self-Supervised Learning)自己教師学習(Self-Supervised Learning)
自己教師学習(Self-Supervised Learning)cvpaper. challenge
 
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)Deep Learning JP
 
Transformer 動向調査 in 画像認識(修正版)
Transformer 動向調査 in 画像認識(修正版)Transformer 動向調査 in 画像認識(修正版)
Transformer 動向調査 in 画像認識(修正版)Kazuki Maeno
 
【メタサーベイ】Video Transformer
 【メタサーベイ】Video Transformer 【メタサーベイ】Video Transformer
【メタサーベイ】Video Transformercvpaper. challenge
 
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion ModelsDeep Learning JP
 
ディープラーニングを用いた物体認識とその周辺 ~現状と課題~ (Revised on 18 July, 2018)
ディープラーニングを用いた物体認識とその周辺 ~現状と課題~ (Revised on 18 July, 2018)ディープラーニングを用いた物体認識とその周辺 ~現状と課題~ (Revised on 18 July, 2018)
ディープラーニングを用いた物体認識とその周辺 ~現状と課題~ (Revised on 18 July, 2018)Masakazu Iwamura
 
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜SSII
 
Rethinking and Beyond ImageNet
Rethinking and Beyond ImageNetRethinking and Beyond ImageNet
Rethinking and Beyond ImageNetcvpaper. challenge
 
GAN(と強化学習との関係)
GAN(と強化学習との関係)GAN(と強化学習との関係)
GAN(と強化学習との関係)Masahiro Suzuki
 
cvpaper.challenge 研究効率化 Tips
cvpaper.challenge 研究効率化 Tipscvpaper.challenge 研究効率化 Tips
cvpaper.challenge 研究効率化 Tipscvpaper. challenge
 
【メタサーベイ】Vision and Language のトップ研究室/研究者
【メタサーベイ】Vision and Language のトップ研究室/研究者【メタサーベイ】Vision and Language のトップ研究室/研究者
【メタサーベイ】Vision and Language のトップ研究室/研究者cvpaper. challenge
 
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation 「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation Takumi Ohkuma
 
ドメイン適応の原理と応用
ドメイン適応の原理と応用ドメイン適応の原理と応用
ドメイン適応の原理と応用Yoshitaka Ushiku
 
顕著性マップの推定手法
顕著性マップの推定手法顕著性マップの推定手法
顕著性マップの推定手法Takao Yamanaka
 
Deep Learningと画像認識   ~歴史・理論・実践~
Deep Learningと画像認識 ~歴史・理論・実践~Deep Learningと画像認識 ~歴史・理論・実践~
Deep Learningと画像認識   ~歴史・理論・実践~nlab_utokyo
 
【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習cvpaper. challenge
 
Active Convolution, Deformable Convolution ―形状・スケールを学習可能なConvolution―
Active Convolution, Deformable Convolution ―形状・スケールを学習可能なConvolution―Active Convolution, Deformable Convolution ―形状・スケールを学習可能なConvolution―
Active Convolution, Deformable Convolution ―形状・スケールを学習可能なConvolution―Yosuke Shinya
 
ConvNetの歴史とResNet亜種、ベストプラクティス
ConvNetの歴史とResNet亜種、ベストプラクティスConvNetの歴史とResNet亜種、ベストプラクティス
ConvNetの歴史とResNet亜種、ベストプラクティスYusuke Uchida
 

What's hot (20)

【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Models【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Models
 
自己教師学習(Self-Supervised Learning)
自己教師学習(Self-Supervised Learning)自己教師学習(Self-Supervised Learning)
自己教師学習(Self-Supervised Learning)
 
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
 
Transformer 動向調査 in 画像認識(修正版)
Transformer 動向調査 in 画像認識(修正版)Transformer 動向調査 in 画像認識(修正版)
Transformer 動向調査 in 画像認識(修正版)
 
【メタサーベイ】Video Transformer
 【メタサーベイ】Video Transformer 【メタサーベイ】Video Transformer
【メタサーベイ】Video Transformer
 
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
 
ResNetの仕組み
ResNetの仕組みResNetの仕組み
ResNetの仕組み
 
ディープラーニングを用いた物体認識とその周辺 ~現状と課題~ (Revised on 18 July, 2018)
ディープラーニングを用いた物体認識とその周辺 ~現状と課題~ (Revised on 18 July, 2018)ディープラーニングを用いた物体認識とその周辺 ~現状と課題~ (Revised on 18 July, 2018)
ディープラーニングを用いた物体認識とその周辺 ~現状と課題~ (Revised on 18 July, 2018)
 
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
 
Rethinking and Beyond ImageNet
Rethinking and Beyond ImageNetRethinking and Beyond ImageNet
Rethinking and Beyond ImageNet
 
GAN(と強化学習との関係)
GAN(と強化学習との関係)GAN(と強化学習との関係)
GAN(と強化学習との関係)
 
cvpaper.challenge 研究効率化 Tips
cvpaper.challenge 研究効率化 Tipscvpaper.challenge 研究効率化 Tips
cvpaper.challenge 研究効率化 Tips
 
【メタサーベイ】Vision and Language のトップ研究室/研究者
【メタサーベイ】Vision and Language のトップ研究室/研究者【メタサーベイ】Vision and Language のトップ研究室/研究者
【メタサーベイ】Vision and Language のトップ研究室/研究者
 
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation 「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
 
ドメイン適応の原理と応用
ドメイン適応の原理と応用ドメイン適応の原理と応用
ドメイン適応の原理と応用
 
顕著性マップの推定手法
顕著性マップの推定手法顕著性マップの推定手法
顕著性マップの推定手法
 
Deep Learningと画像認識   ~歴史・理論・実践~
Deep Learningと画像認識 ~歴史・理論・実践~Deep Learningと画像認識 ~歴史・理論・実践~
Deep Learningと画像認識   ~歴史・理論・実践~
 
【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習
 
Active Convolution, Deformable Convolution ―形状・スケールを学習可能なConvolution―
Active Convolution, Deformable Convolution ―形状・スケールを学習可能なConvolution―Active Convolution, Deformable Convolution ―形状・スケールを学習可能なConvolution―
Active Convolution, Deformable Convolution ―形状・スケールを学習可能なConvolution―
 
ConvNetの歴史とResNet亜種、ベストプラクティス
ConvNetの歴史とResNet亜種、ベストプラクティスConvNetの歴史とResNet亜種、ベストプラクティス
ConvNetの歴史とResNet亜種、ベストプラクティス
 

Similar to 人が注目する箇所を当てるSaliency Detectionの最新モデル UCNet(CVPR2020)

Switch Vision® Module のご案内(1.3)
Switch Vision® Module のご案内(1.3)Switch Vision® Module のご案内(1.3)
Switch Vision® Module のご案内(1.3)SOINN
 
ディープラーニングによるラーメン二郎全店舗識別と生成
ディープラーニングによるラーメン二郎全店舗識別と生成ディープラーニングによるラーメン二郎全店舗識別と生成
ディープラーニングによるラーメン二郎全店舗識別と生成knjcode
 
リクルートにおける画像解析事例紹介
リクルートにおける画像解析事例紹介リクルートにおける画像解析事例紹介
リクルートにおける画像解析事例紹介Recruit Technologies
 
リクルートにおける画像解析事例紹介と周辺技術紹介
リクルートにおける画像解析事例紹介と周辺技術紹介リクルートにおける画像解析事例紹介と周辺技術紹介
リクルートにおける画像解析事例紹介と周辺技術紹介Recruit Technologies
 
リクルートはいかにして、ディープラーニング(深層学習)の導入を成功させたか
リクルートはいかにして、ディープラーニング(深層学習)の導入を成功させたかリクルートはいかにして、ディープラーニング(深層学習)の導入を成功させたか
リクルートはいかにして、ディープラーニング(深層学習)の導入を成功させたかRecruit Technologies
 
SSII2014 チュートリアル資料
SSII2014 チュートリアル資料SSII2014 チュートリアル資料
SSII2014 チュートリアル資料Masayuki Tanaka
 
(文献紹介)深層学習による動被写体ロバストなカメラの動き推定
(文献紹介)深層学習による動被写体ロバストなカメラの動き推定(文献紹介)深層学習による動被写体ロバストなカメラの動き推定
(文献紹介)深層学習による動被写体ロバストなカメラの動き推定Morpho, Inc.
 
文献紹介:Benchmarking Neural Network Robustness to Common Corruptions and Perturb...
文献紹介:Benchmarking Neural Network Robustness to Common Corruptions and Perturb...文献紹介:Benchmarking Neural Network Robustness to Common Corruptions and Perturb...
文献紹介:Benchmarking Neural Network Robustness to Common Corruptions and Perturb...Toru Tamaki
 
[DL輪読会]An Image is Worth 16x16 Words: Transformers for Image Recognition at S...
[DL輪読会]An Image is Worth 16x16 Words: Transformers for Image Recognition at S...[DL輪読会]An Image is Worth 16x16 Words: Transformers for Image Recognition at S...
[DL輪読会]An Image is Worth 16x16 Words: Transformers for Image Recognition at S...Deep Learning JP
 
ADVENTUREの他のモジュール・関連プロジェクトの紹介
ADVENTUREの他のモジュール・関連プロジェクトの紹介ADVENTUREの他のモジュール・関連プロジェクトの紹介
ADVENTUREの他のモジュール・関連プロジェクトの紹介ADVENTURE Project
 
ReviewNet_161122
ReviewNet_161122ReviewNet_161122
ReviewNet_161122shima o
 
CVPR 2011 ImageNet Challenge 文献紹介
CVPR 2011 ImageNet Challenge 文献紹介CVPR 2011 ImageNet Challenge 文献紹介
CVPR 2011 ImageNet Challenge 文献紹介Narihira Takuya
 
ディープラーニングでラーメン二郎(全店舗)を識別してみた
ディープラーニングでラーメン二郎(全店舗)を識別してみたディープラーニングでラーメン二郎(全店舗)を識別してみた
ディープラーニングでラーメン二郎(全店舗)を識別してみたknjcode
 
Iccv2019 参加報告
Iccv2019 参加報告Iccv2019 参加報告
Iccv2019 参加報告Yuta Nakagawa
 
関西CVPRML勉強会 2012.2.18 (一般物体認識 - データセット)
関西CVPRML勉強会 2012.2.18 (一般物体認識 - データセット)関西CVPRML勉強会 2012.2.18 (一般物体認識 - データセット)
関西CVPRML勉強会 2012.2.18 (一般物体認識 - データセット)Akisato Kimura
 
物体検出コンペティションOpen Imagesに挑む
物体検出コンペティションOpen Imagesに挑む物体検出コンペティションOpen Imagesに挑む
物体検出コンペティションOpen Imagesに挑むHiroto Honda
 
OpenCVをAndroidで動かしてみた
OpenCVをAndroidで動かしてみたOpenCVをAndroidで動かしてみた
OpenCVをAndroidで動かしてみた徹 上野山
 
なぜGPUはディープラーニングに向いているか
なぜGPUはディープラーニングに向いているかなぜGPUはディープラーニングに向いているか
なぜGPUはディープラーニングに向いているかNVIDIA Japan
 
動画認識における代表的なモデル・データセット(メタサーベイ)
動画認識における代表的なモデル・データセット(メタサーベイ)動画認識における代表的なモデル・データセット(メタサーベイ)
動画認識における代表的なモデル・データセット(メタサーベイ)cvpaper. challenge
 

Similar to 人が注目する箇所を当てるSaliency Detectionの最新モデル UCNet(CVPR2020) (20)

Switch Vision® Module のご案内(1.3)
Switch Vision® Module のご案内(1.3)Switch Vision® Module のご案内(1.3)
Switch Vision® Module のご案内(1.3)
 
ディープラーニングによるラーメン二郎全店舗識別と生成
ディープラーニングによるラーメン二郎全店舗識別と生成ディープラーニングによるラーメン二郎全店舗識別と生成
ディープラーニングによるラーメン二郎全店舗識別と生成
 
リクルートにおける画像解析事例紹介
リクルートにおける画像解析事例紹介リクルートにおける画像解析事例紹介
リクルートにおける画像解析事例紹介
 
リクルートにおける画像解析事例紹介と周辺技術紹介
リクルートにおける画像解析事例紹介と周辺技術紹介リクルートにおける画像解析事例紹介と周辺技術紹介
リクルートにおける画像解析事例紹介と周辺技術紹介
 
リクルートはいかにして、ディープラーニング(深層学習)の導入を成功させたか
リクルートはいかにして、ディープラーニング(深層学習)の導入を成功させたかリクルートはいかにして、ディープラーニング(深層学習)の導入を成功させたか
リクルートはいかにして、ディープラーニング(深層学習)の導入を成功させたか
 
SSII2014 チュートリアル資料
SSII2014 チュートリアル資料SSII2014 チュートリアル資料
SSII2014 チュートリアル資料
 
(文献紹介)深層学習による動被写体ロバストなカメラの動き推定
(文献紹介)深層学習による動被写体ロバストなカメラの動き推定(文献紹介)深層学習による動被写体ロバストなカメラの動き推定
(文献紹介)深層学習による動被写体ロバストなカメラの動き推定
 
文献紹介:Benchmarking Neural Network Robustness to Common Corruptions and Perturb...
文献紹介:Benchmarking Neural Network Robustness to Common Corruptions and Perturb...文献紹介:Benchmarking Neural Network Robustness to Common Corruptions and Perturb...
文献紹介:Benchmarking Neural Network Robustness to Common Corruptions and Perturb...
 
[DL輪読会]An Image is Worth 16x16 Words: Transformers for Image Recognition at S...
[DL輪読会]An Image is Worth 16x16 Words: Transformers for Image Recognition at S...[DL輪読会]An Image is Worth 16x16 Words: Transformers for Image Recognition at S...
[DL輪読会]An Image is Worth 16x16 Words: Transformers for Image Recognition at S...
 
MIRU2018 tutorial
MIRU2018 tutorialMIRU2018 tutorial
MIRU2018 tutorial
 
ADVENTUREの他のモジュール・関連プロジェクトの紹介
ADVENTUREの他のモジュール・関連プロジェクトの紹介ADVENTUREの他のモジュール・関連プロジェクトの紹介
ADVENTUREの他のモジュール・関連プロジェクトの紹介
 
ReviewNet_161122
ReviewNet_161122ReviewNet_161122
ReviewNet_161122
 
CVPR 2011 ImageNet Challenge 文献紹介
CVPR 2011 ImageNet Challenge 文献紹介CVPR 2011 ImageNet Challenge 文献紹介
CVPR 2011 ImageNet Challenge 文献紹介
 
ディープラーニングでラーメン二郎(全店舗)を識別してみた
ディープラーニングでラーメン二郎(全店舗)を識別してみたディープラーニングでラーメン二郎(全店舗)を識別してみた
ディープラーニングでラーメン二郎(全店舗)を識別してみた
 
Iccv2019 参加報告
Iccv2019 参加報告Iccv2019 参加報告
Iccv2019 参加報告
 
関西CVPRML勉強会 2012.2.18 (一般物体認識 - データセット)
関西CVPRML勉強会 2012.2.18 (一般物体認識 - データセット)関西CVPRML勉強会 2012.2.18 (一般物体認識 - データセット)
関西CVPRML勉強会 2012.2.18 (一般物体認識 - データセット)
 
物体検出コンペティションOpen Imagesに挑む
物体検出コンペティションOpen Imagesに挑む物体検出コンペティションOpen Imagesに挑む
物体検出コンペティションOpen Imagesに挑む
 
OpenCVをAndroidで動かしてみた
OpenCVをAndroidで動かしてみたOpenCVをAndroidで動かしてみた
OpenCVをAndroidで動かしてみた
 
なぜGPUはディープラーニングに向いているか
なぜGPUはディープラーニングに向いているかなぜGPUはディープラーニングに向いているか
なぜGPUはディープラーニングに向いているか
 
動画認識における代表的なモデル・データセット(メタサーベイ)
動画認識における代表的なモデル・データセット(メタサーベイ)動画認識における代表的なモデル・データセット(メタサーベイ)
動画認識における代表的なモデル・データセット(メタサーベイ)
 

人が注目する箇所を当てるSaliency Detectionの最新モデル UCNet(CVPR2020)