SlideShare une entreprise Scribd logo
1  sur  21
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
DLゼミ
ArcFace: Additive Angular Margin
Loss for Deep Face Recognition
北海道大学 大学院情報科学研究院
情報理工学部門 複合情報工学分野 調和系工学研究室
D1 森 雄斗
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
論文情報
• タイトル
– ArcFace: Additive Angular Margin Loss for Deep Face
Recognition
• 著者
– Jiankang Deng*1, Jia Guo* 2, Niannan Xue 1, Stefanos
Zafeiriou 1
• 1 Imperial College London
• 2 InsightFace
• * equal contribution
• 発表
– IEEE/CVF conference on computer vision and pattern
recognition 2019
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
3
概要
• メトリックラーニングを用いた顔認識モデルモ
デルの一つ
– Sofmax-loss の拡張
• Additive Angular Margin Loss (ArcFace)を提案
– 正解クラスの場合、角度空間にマージンを追加
• 先行研究に比べて高精度を記録
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
4
DCNNを用いた顔認識
• クラス内距離が小さく、クラス間距離が大き
い特徴量にマッピングする
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
5
DCNNの顔認識の関連技術
• Softmax-loss[1] • Triplet-loss[2]
[1] Liu, Weiyang, et al. "Large-margin softmax loss for convolutional neural networks." arXiv preprint arXiv:1612.02295 (2016).
[2] Wang, Jiang, et al. "Learning fine-grained image similarity with deep ranking." Proceedings of the IEEE conference on
computer vision and pattern recognition. 2014.
𝐿𝑠𝑜𝑓𝑡𝑚𝑎𝑥 = −
1
𝑁
𝑖=1
𝑁
log
𝑒
𝑊𝑦𝑖𝑥𝑖+𝑏𝑦𝑖
𝑇
𝑗=1
𝑛
𝑒𝑊𝑗
𝑇𝑥𝑖+𝑏𝑗
学習
positive
positive
negative
negative
anchor
anchor
margin
margin
margin
margin
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
6
顔認識技術の問題点
• Softmax-loss
– 線形変換行列のサイズは識別ラベル数に対して線形
に増加
– 学習した特徴は閉集合分類問題では分離可能だが、
開集合顔認識問題では識別率が十分でない
= 学習した人(特徴)以外の識別性の低下
• Triplet-loss
– 大規模データセットでは組み合わせが爆発的に増加
– Semi-hard sample miningは学習にとって困難な問題
となる
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
7
顔認識技術の問題点
• Softmax-loss
– 線形変換行列のサイズは識別ラベル数に対して線形
に増加
– 学習した特徴は閉集合分類問題では分離可能だが、
開集合顔認識問題では識別率が十分でない
= 学習した人(特徴)以外の識別性の低下
• Triplet-loss
– 大規模データセットでは組み合わせが爆発的に増加
– Semi-hard sample miningは学習にとって困難な問題
となる
[3] Kaya, Mahmut, and Hasan Şakir Bilge. "Deep metric learning: A survey." Symmetry 11.9 (2019): 1066.
[3] より引用
判別が困難なサンプル組
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
各特徴ベクトルとそのクラス中心との
ユークリッド距離であるcenter loss[4]
クラス内のコンパクト性を得た
しかし、顔クラス数の飛躍的な増加したため
学習が困難に
8
Softmax-lossの発展
Softmax-loss
Center Loss
Sphereface
CosFace
2016
2017
2018
2016
[4] Wen, Yandong, et al. "A discriminative feature learning approach for deep face recognition." European conference on computer vision.
Springer, Cham, 2016.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
• DCNNの最終層の全結合層の重みが各顔ラベルの中心
と概念的に類似していることを利用
• クラス内のコンパクト性とクラス間不一致性を同時に
強化する乗法的角度余裕ペナルティを提案と角度マー
ジン (SphereFace[5] )の提案
しかし、損失関数の計算に一連の近似が必要であり、
結果として、ネットワークの学習が不安定となった
9
Softmax-lossの発展
Softmax-loss
Center Loss
Sphereface
CosFace
2016
2017
2018
2016
[5] Liu, Weiyang, et al. "Sphereface: Deep hypersphere embedding for face recognition." Proceedings of the IEEE conference on computer
vision and pattern recognition. 2017.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Softmax-lossを含むハイブリッドな損失関数を提案
= CosFace[6]
直接コサインマージンペナルティを加えることで
SphereFaceより高性能を得た
10
Softmax-lossの発展
Softmax-loss
Center Loss
Sphereface
CosFace
2016
2017
2018
2016
[6] Wang, Hao, et al. "Cosface: Large margin cosine loss for deep face recognition." Proceedings of the IEEE conference on computer vision
and pattern recognition. 2018.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
11
提案手法
𝐿1 = −
1
𝑁
𝑖=1
𝑁
log
𝑒
𝑊𝑦𝑖𝑥𝑖+𝑏𝑦𝑖
𝑇
𝑗=1
𝑛
𝑒𝑊𝑗
𝑇𝑥𝑖+𝑏𝑗
𝑑 : 埋め込み特徴量の次元数
𝑥𝑖 ∈ ℝ𝑑 : 𝑖番目サンプルの特徴量
𝑦𝑖 : 𝑖番目サンプルのクラス
𝑁 : バッチサイズ
𝑛 : クラス数
𝑊
𝑗 ∈ ℝ𝑑
: 𝑗番目の重み 𝑊 ∈ ℝ𝑑×𝑛
𝑏𝑗 ∈ ℝ𝑑
: バイアス項
一般的なSoftmax-loss
1. 簡略化のため、𝑏𝑗 = 0 とする
2. 𝑊
𝑗
𝑇
𝑥𝑖 = 𝑊
𝑗 𝑥𝑖 𝑐𝑜𝑠𝜃𝑗 (𝜃𝑗 は 𝑊
𝑗 と 𝑥𝑖 の間の角度)
3. 𝑙2正規化より、 𝑊
𝑗 = 1
4. 𝑙2正規化とre-scaleを行い、埋め込み特徴量 𝑥𝑖 = 𝑠
→ 埋め込み特徴量が半径𝑠 の超球面に分布
SphereFaceと同じ処理
𝐿2 = −
1
𝑁
𝑖=1
𝑁
log
𝑒𝑠 𝑐𝑜𝑠𝜃𝑦𝑖
𝑒𝑠 𝑐𝑜𝑠𝜃𝑦𝑖 + 𝑗=1,𝑗≠𝑦𝑖
𝑛
𝑒𝑠 𝑐𝑜𝑠𝜃𝑗
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
12
提案手法
𝐿1 = −
1
𝑁
𝑖=1
𝑁
log
𝑒
𝑊𝑦𝑖𝑥𝑖+𝑏𝑦𝑖
𝑇
𝑗=1
𝑛
𝑒𝑊𝑗
𝑇𝑥𝑖+𝑏𝑗
𝑥𝑖 ∈ ℝ𝑑
: 𝑖番目サンプルの特徴量
𝑦𝑖 : 𝑖番目サンプルのクラス
𝑑 : 埋め込み特徴量の次元数
𝑁 : バッチサイズ
𝑛 : クラス数
𝑊
𝑗 ∈ ℝ𝑑
: 𝑗番目の重み 𝑊 ∈ ℝ𝑑×𝑛
𝑏𝑗 ∈ ℝ𝑑
: バイアス項
一般的なSoftmax-loss
1. 簡略化のため、𝑏𝑗 = 0 とする
2. 𝑊
𝑗
𝑇
𝑥𝑖 = 𝑊
𝑗 𝑥𝑖 𝑐𝑜𝑠𝜃𝑗 (𝜃𝑗 は 𝑊
𝑗 と 𝑥𝑖 の間の角度)
3. 𝑙2正規化より、 𝑊
𝑗 = 1
4. 𝑙2正規化とre-scaleを行い、埋め込み特徴量 𝑥𝑖 = 𝑠
→ 埋め込み特徴量が半径𝑠 の超球面に分布
SphereFaceと同じ処理
𝐿2 = −
1
𝑁
𝑖=1
𝑁
log
𝑒𝑠 𝑐𝑜𝑠𝜃𝑦𝑖
𝑒𝑠 𝑐𝑜𝑠𝜃𝑦𝑖 + 𝑗=1,𝑗≠𝑦𝑖
𝑛
𝑒𝑠 𝑐𝑜𝑠𝜃𝑗
SphereFaceの途中式
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
13
提案手法
𝐿2 = −
1
𝑁
𝑖=1
𝑁
log
𝑒𝑠 𝑐𝑜𝑠𝜃𝑦𝑖
𝑒𝑠 𝑐𝑜𝑠𝜃𝑦𝑖 + 𝑗=1,𝑗≠𝑦𝑖
𝑛
𝑒𝑠 𝑐𝑜𝑠𝜃𝑗
𝑦𝑖 : 𝑖番目サンプルのクラス
𝑁 : バッチサイズ
𝑛 : クラス数
𝑠 : 埋め込み特徴量
𝜃𝑗 : 𝑗番目の重みと特徴量間の角度
𝑥𝑖 と 𝑊
𝑦𝑖
の間に Additive angular margin penalty 𝒎 を加える
→ クラス内のコンパクト性とクラス間の不一致を同時に強める
(クラス内の特徴量の分散を小さく、クラス間の特徴量の分散を大きく)
𝐿3 = −
1
𝑁
𝑖=1
𝑁
log
𝑒𝑠 (𝑐𝑜𝑠(𝜃𝑦𝑖
+𝒎))
𝑒𝑠 (𝑐𝑜𝑠(𝜃𝑦𝑖
+𝒎))
+ 𝑗=1,𝑗≠𝑦𝑖
𝑛
𝑒𝑠 𝑐𝑜𝑠𝜃𝑗
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
14
提案手法
1クラス約1500枚を含む8クラスの顔画像を
2次元特徴埋め込みネットワークで学習
クラス内のコンパクト性とクラス間の不一致を実現
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
15
SphereFaceとCosFaceとの比較
• 先行研究にはない幾何学的属性を持つ
• 全区間を通して一定の線形角度の余裕を持つ
2値分類の判定境界の比較
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
16
実験設定
• データセット
– 顔認識関係
• 埋め込みネットワーク
– ResNet50、ResNet100
– 最終層の次元数 𝑑 は514
• ハイパーパラメータ
– 特徴量スケール 𝑠 : 64 (CosFaceと同じ数値)
– 角度マージン 𝑚 : 0.5 (3.2. Ablation Study on Lossesで決定)
– バッチサイズ: 512
• 環境
– NVIDIA Tesla P40 (24GB) × 4台
データセット一覧
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
17
LFW, YTF, CALFW, CPLFWの結果
• 一般的なデータセットで学習
– LFW: 13000枚, 5700ラベル(人)
• 類似研究より優れた性能を持つ
類似研究との性能評価 (%)
LFW
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
18
MegaFaceの結果
• 大規模のデータセット
– 690Kのユニークユーザ、1Mの画像
– 検証はFaceScrubを使用
Id : rank-1の正答率
Ver: False Accept Rate が10−6に
おけるTrue Accept Rate
R : prob set と 1M distractorを使う
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
19
まとめ
• メトリックラーニングを用いた顔認識モデルモ
デルの一つ
– Sofmax-loss の拡張
• Additive Angular Margin Loss (ArcFace)を提案
– 正解クラスの場合、角度空間にマージンを追加
• 先行研究に比べて高精度を記録
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
20
論文発表後の発展 (コンペ)
• Kaggle Happywhale – Whale and Dolphin
Identification (2022年 2-4月)
– クジラやイルカの写真を用いた個体識別のコンペ
– Preferred Networks のチームが優勝[7]
• ArcFaceの拡張である dynamic margin ArcFace で1st
• 上位解法のほとんどがArcFaceを使用
[7] Kaggle Happywhale – Whale and Dolphin Identificationで優勝&10位でソロ金メダルを獲得しました,
https://tech.preferred.jp/ja/blog/kaggle-happywhale-1st-10th-solution/
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
21
論文発表後の発展 (論文)
• Sub-center ArcFace[8]
– ノイズの多いデータへの対策
• dynamic margin ArcFace[9]
– Google Landmark Recognition 2020 Competitionで
3位の解法
– クラスのサンプル数の偏りを考慮
[8] Deng, Jiankang, et al. "Sub-center arcface: Boosting face recognition by large-scale noisy web faces." European Conference
on Computer Vision. Springer, Cham, 2020.
[9] Ha, Qishen et al. “Google Landmark Recognition 2020 Competition Third Place Solution.” ArXiv abs/2010.05350, 2020.

Contenu connexe

Tendances

Tendances (20)

数学で解き明かす深層学習の原理
数学で解き明かす深層学習の原理数学で解き明かす深層学習の原理
数学で解き明かす深層学習の原理
 
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
 
【論文読み会】BEiT_BERT Pre-Training of Image Transformers.pptx
【論文読み会】BEiT_BERT Pre-Training of Image Transformers.pptx【論文読み会】BEiT_BERT Pre-Training of Image Transformers.pptx
【論文読み会】BEiT_BERT Pre-Training of Image Transformers.pptx
 
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
 
【DL輪読会】An Image is Worth One Word: Personalizing Text-to-Image Generation usi...
【DL輪読会】An Image is Worth One Word: Personalizing Text-to-Image Generation usi...【DL輪読会】An Image is Worth One Word: Personalizing Text-to-Image Generation usi...
【DL輪読会】An Image is Worth One Word: Personalizing Text-to-Image Generation usi...
 
【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習
 
【DL輪読会】"Masked Siamese Networks for Label-Efficient Learning"
【DL輪読会】"Masked Siamese Networks for Label-Efficient Learning"【DL輪読会】"Masked Siamese Networks for Label-Efficient Learning"
【DL輪読会】"Masked Siamese Networks for Label-Efficient Learning"
 
[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習
 
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
 
Transformer 動向調査 in 画像認識(修正版)
Transformer 動向調査 in 画像認識(修正版)Transformer 動向調査 in 画像認識(修正版)
Transformer 動向調査 in 画像認識(修正版)
 
[DL輪読会]Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets
[DL輪読会]Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets[DL輪読会]Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets
[DL輪読会]Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets
 
Data-Centric AIの紹介
Data-Centric AIの紹介Data-Centric AIの紹介
Data-Centric AIの紹介
 
【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Models【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Models
 
【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features
【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features
【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features
 
【DL輪読会】Perceiver io a general architecture for structured inputs & outputs
【DL輪読会】Perceiver io  a general architecture for structured inputs & outputs 【DL輪読会】Perceiver io  a general architecture for structured inputs & outputs
【DL輪読会】Perceiver io a general architecture for structured inputs & outputs
 
【メタサーベイ】Neural Fields
【メタサーベイ】Neural Fields【メタサーベイ】Neural Fields
【メタサーベイ】Neural Fields
 
Transformerを多層にする際の勾配消失問題と解決法について
Transformerを多層にする際の勾配消失問題と解決法についてTransformerを多層にする際の勾配消失問題と解決法について
Transformerを多層にする際の勾配消失問題と解決法について
 
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
 
Semantic segmentation
Semantic segmentationSemantic segmentation
Semantic segmentation
 
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...
 

Similaire à ArcFace: Additive Angular Margin Loss for Deep Face Recognition

DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
harmonylab
 
You Only Learn One Representation: Unified Network for Multiple Tasks
You Only Learn One Representation: Unified Network for Multiple TasksYou Only Learn One Representation: Unified Network for Multiple Tasks
You Only Learn One Representation: Unified Network for Multiple Tasks
harmonylab
 

Similaire à ArcFace: Additive Angular Margin Loss for Deep Face Recognition (20)

SegFormer: Simple and Efficient Design for Semantic Segmentation with Transfo...
SegFormer: Simple and Efficient Design for Semantic Segmentation with Transfo...SegFormer: Simple and Efficient Design for Semantic Segmentation with Transfo...
SegFormer: Simple and Efficient Design for Semantic Segmentation with Transfo...
 
Fine Grained Fashion Similarity Prediction by Attribute Specific Embedding Le...
Fine Grained Fashion Similarity Prediction by Attribute Specific Embedding Le...Fine Grained Fashion Similarity Prediction by Attribute Specific Embedding Le...
Fine Grained Fashion Similarity Prediction by Attribute Specific Embedding Le...
 
Efficient Deep Reinforcement Learning with Imitative Expert Priors for Autono...
Efficient Deep Reinforcement Learning with Imitative Expert Priors for Autono...Efficient Deep Reinforcement Learning with Imitative Expert Priors for Autono...
Efficient Deep Reinforcement Learning with Imitative Expert Priors for Autono...
 
Self-supervised Learning of Adversarial Example: Towards Good Generalizations...
Self-supervised Learning of Adversarial Example:Towards Good Generalizations...Self-supervised Learning of Adversarial Example:Towards Good Generalizations...
Self-supervised Learning of Adversarial Example: Towards Good Generalizations...
 
MLP-Mixer: An all-MLP Architecture for Vision
MLP-Mixer: An all-MLP Architecture for VisionMLP-Mixer: An all-MLP Architecture for Vision
MLP-Mixer: An all-MLP Architecture for Vision
 
MASTERING ATARI WITH DISCRETE WORLD MODELS (DreamerV2)
MASTERING ATARI WITH DISCRETE WORLD MODELS (DreamerV2)MASTERING ATARI WITH DISCRETE WORLD MODELS (DreamerV2)
MASTERING ATARI WITH DISCRETE WORLD MODELS (DreamerV2)
 
RAPiD
RAPiDRAPiD
RAPiD
 
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
 
Semi-Supervised Neural Architecture Search
Semi-Supervised Neural Architecture SearchSemi-Supervised Neural Architecture Search
Semi-Supervised Neural Architecture Search
 
A Generalist Agent
A Generalist AgentA Generalist Agent
A Generalist Agent
 
2021 09 29_dl_hirata
2021 09 29_dl_hirata2021 09 29_dl_hirata
2021 09 29_dl_hirata
 
Feature Erasing and Diffusion Network for Occluded Person Re-Identification
Feature Erasing and Diffusion Network for Occluded Person Re-IdentificationFeature Erasing and Diffusion Network for Occluded Person Re-Identification
Feature Erasing and Diffusion Network for Occluded Person Re-Identification
 
You Only Learn One Representation: Unified Network for Multiple Tasks
You Only Learn One Representation: Unified Network for Multiple TasksYou Only Learn One Representation: Unified Network for Multiple Tasks
You Only Learn One Representation: Unified Network for Multiple Tasks
 
深層学習を用いたバス乗客画像の属性推定 に関する研究
深層学習を用いたバス乗客画像の属性推定 に関する研究深層学習を用いたバス乗客画像の属性推定 に関する研究
深層学習を用いたバス乗客画像の属性推定 に関する研究
 
Towards Faster and Stabilized GAN Training for High-fidelity Few-shot Image S...
Towards Faster and Stabilized GAN Training for High-fidelity Few-shot Image S...Towards Faster and Stabilized GAN Training for High-fidelity Few-shot Image S...
Towards Faster and Stabilized GAN Training for High-fidelity Few-shot Image S...
 
All That’s ‘Human’ Is Not Gold Evaluating Human Evaluation of Generated Text
All That’s ‘Human’ Is Not Gold Evaluating Human Evaluation of Generated TextAll That’s ‘Human’ Is Not Gold Evaluating Human Evaluation of Generated Text
All That’s ‘Human’ Is Not Gold Evaluating Human Evaluation of Generated Text
 
深層自己回帰モデルを用いた俳句の生成と評価に関する研究
深層自己回帰モデルを用いた俳句の生成と評価に関する研究深層自己回帰モデルを用いた俳句の生成と評価に関する研究
深層自己回帰モデルを用いた俳句の生成と評価に関する研究
 
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose EstimationDLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
 
Personalized Fashion Recommendation from Personal Social Media Data An Item t...
Personalized Fashion Recommendation from Personal Social Media Data An Item t...Personalized Fashion Recommendation from Personal Social Media Data An Item t...
Personalized Fashion Recommendation from Personal Social Media Data An Item t...
 
ロードヒーティング制御における深層学習を用いた路面画像認識に関する研究
ロードヒーティング制御における深層学習を用いた路面画像認識に関する研究ロードヒーティング制御における深層学習を用いた路面画像認識に関する研究
ロードヒーティング制御における深層学習を用いた路面画像認識に関する研究
 

Plus de harmonylab

【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
harmonylab
 
形態素解析を用いた帝国議会議事速記録の変遷に関する研究
形態素解析を用いた帝国議会議事速記録の変遷に関する研究形態素解析を用いた帝国議会議事速記録の変遷に関する研究
形態素解析を用いた帝国議会議事速記録の変遷に関する研究
harmonylab
 

Plus de harmonylab (20)

【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
 
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究
 
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...
 
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究【卒業論文】印象タグを用いた衣服画像生成システムに関する研究
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究
 
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究
 
DLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
DLゼミ: MobileOne: An Improved One millisecond Mobile BackboneDLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
DLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
 
DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Models
DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat ModelsDLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Models
DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Models
 
Voyager: An Open-Ended Embodied Agent with Large Language Models
Voyager: An Open-Ended Embodied Agent with Large Language ModelsVoyager: An Open-Ended Embodied Agent with Large Language Models
Voyager: An Open-Ended Embodied Agent with Large Language Models
 
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose EstimationDLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation
 
ReAct: Synergizing Reasoning and Acting in Language Models
ReAct: Synergizing Reasoning and Acting in Language ModelsReAct: Synergizing Reasoning and Acting in Language Models
ReAct: Synergizing Reasoning and Acting in Language Models
 
形態素解析を用いた帝国議会議事速記録の変遷に関する研究
形態素解析を用いた帝国議会議事速記録の変遷に関する研究形態素解析を用いた帝国議会議事速記録の変遷に関する研究
形態素解析を用いた帝国議会議事速記録の変遷に関する研究
 
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究
 
灯油タンク内の液面高計測を用いた 灯油残量推定システムに関する研究
灯油タンク内の液面高計測を用いた灯油残量推定システムに関する研究灯油タンク内の液面高計測を用いた灯油残量推定システムに関する研究
灯油タンク内の液面高計測を用いた 灯油残量推定システムに関する研究
 
競輪におけるレーティングシステムを用いた予想記事生成に関する研究
競輪におけるレーティングシステムを用いた予想記事生成に関する研究競輪におけるレーティングシステムを用いた予想記事生成に関する研究
競輪におけるレーティングシステムを用いた予想記事生成に関する研究
 
【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究
【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究
【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究
 
A Study on Estimation of Household Kerosene Consumption for Optimization of D...
A Study on Estimation of Household Kerosene Consumption for Optimization of D...A Study on Estimation of Household Kerosene Consumption for Optimization of D...
A Study on Estimation of Household Kerosene Consumption for Optimization of D...
 
マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究
マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究
マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究
 
A Study on Generation of Deformed Route Maps using Octilinear Grid
A Study on Generation of Deformed Route Maps using Octilinear GridA Study on Generation of Deformed Route Maps using Octilinear Grid
A Study on Generation of Deformed Route Maps using Octilinear Grid
 
A Study on the Generation of Clothing Captions Highlighting the Differences b...
A Study on the Generation of Clothing Captions Highlighting the Differences b...A Study on the Generation of Clothing Captions Highlighting the Differences b...
A Study on the Generation of Clothing Captions Highlighting the Differences b...
 
A Study on Clothing Recommendation Information Presentation System Based on C...
A Study on Clothing Recommendation Information Presentation System Based on C...A Study on Clothing Recommendation Information Presentation System Based on C...
A Study on Clothing Recommendation Information Presentation System Based on C...
 

ArcFace: Additive Angular Margin Loss for Deep Face Recognition

  • 1. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. DLゼミ ArcFace: Additive Angular Margin Loss for Deep Face Recognition 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 調和系工学研究室 D1 森 雄斗
  • 2. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 論文情報 • タイトル – ArcFace: Additive Angular Margin Loss for Deep Face Recognition • 著者 – Jiankang Deng*1, Jia Guo* 2, Niannan Xue 1, Stefanos Zafeiriou 1 • 1 Imperial College London • 2 InsightFace • * equal contribution • 発表 – IEEE/CVF conference on computer vision and pattern recognition 2019
  • 3. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 3 概要 • メトリックラーニングを用いた顔認識モデルモ デルの一つ – Sofmax-loss の拡張 • Additive Angular Margin Loss (ArcFace)を提案 – 正解クラスの場合、角度空間にマージンを追加 • 先行研究に比べて高精度を記録
  • 4. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 4 DCNNを用いた顔認識 • クラス内距離が小さく、クラス間距離が大き い特徴量にマッピングする
  • 5. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 5 DCNNの顔認識の関連技術 • Softmax-loss[1] • Triplet-loss[2] [1] Liu, Weiyang, et al. "Large-margin softmax loss for convolutional neural networks." arXiv preprint arXiv:1612.02295 (2016). [2] Wang, Jiang, et al. "Learning fine-grained image similarity with deep ranking." Proceedings of the IEEE conference on computer vision and pattern recognition. 2014. 𝐿𝑠𝑜𝑓𝑡𝑚𝑎𝑥 = − 1 𝑁 𝑖=1 𝑁 log 𝑒 𝑊𝑦𝑖𝑥𝑖+𝑏𝑦𝑖 𝑇 𝑗=1 𝑛 𝑒𝑊𝑗 𝑇𝑥𝑖+𝑏𝑗 学習 positive positive negative negative anchor anchor margin margin margin margin
  • 6. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 6 顔認識技術の問題点 • Softmax-loss – 線形変換行列のサイズは識別ラベル数に対して線形 に増加 – 学習した特徴は閉集合分類問題では分離可能だが、 開集合顔認識問題では識別率が十分でない = 学習した人(特徴)以外の識別性の低下 • Triplet-loss – 大規模データセットでは組み合わせが爆発的に増加 – Semi-hard sample miningは学習にとって困難な問題 となる
  • 7. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 7 顔認識技術の問題点 • Softmax-loss – 線形変換行列のサイズは識別ラベル数に対して線形 に増加 – 学習した特徴は閉集合分類問題では分離可能だが、 開集合顔認識問題では識別率が十分でない = 学習した人(特徴)以外の識別性の低下 • Triplet-loss – 大規模データセットでは組み合わせが爆発的に増加 – Semi-hard sample miningは学習にとって困難な問題 となる [3] Kaya, Mahmut, and Hasan Şakir Bilge. "Deep metric learning: A survey." Symmetry 11.9 (2019): 1066. [3] より引用 判別が困難なサンプル組
  • 8. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 各特徴ベクトルとそのクラス中心との ユークリッド距離であるcenter loss[4] クラス内のコンパクト性を得た しかし、顔クラス数の飛躍的な増加したため 学習が困難に 8 Softmax-lossの発展 Softmax-loss Center Loss Sphereface CosFace 2016 2017 2018 2016 [4] Wen, Yandong, et al. "A discriminative feature learning approach for deep face recognition." European conference on computer vision. Springer, Cham, 2016.
  • 9. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. • DCNNの最終層の全結合層の重みが各顔ラベルの中心 と概念的に類似していることを利用 • クラス内のコンパクト性とクラス間不一致性を同時に 強化する乗法的角度余裕ペナルティを提案と角度マー ジン (SphereFace[5] )の提案 しかし、損失関数の計算に一連の近似が必要であり、 結果として、ネットワークの学習が不安定となった 9 Softmax-lossの発展 Softmax-loss Center Loss Sphereface CosFace 2016 2017 2018 2016 [5] Liu, Weiyang, et al. "Sphereface: Deep hypersphere embedding for face recognition." Proceedings of the IEEE conference on computer vision and pattern recognition. 2017.
  • 10. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Softmax-lossを含むハイブリッドな損失関数を提案 = CosFace[6] 直接コサインマージンペナルティを加えることで SphereFaceより高性能を得た 10 Softmax-lossの発展 Softmax-loss Center Loss Sphereface CosFace 2016 2017 2018 2016 [6] Wang, Hao, et al. "Cosface: Large margin cosine loss for deep face recognition." Proceedings of the IEEE conference on computer vision and pattern recognition. 2018.
  • 11. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 11 提案手法 𝐿1 = − 1 𝑁 𝑖=1 𝑁 log 𝑒 𝑊𝑦𝑖𝑥𝑖+𝑏𝑦𝑖 𝑇 𝑗=1 𝑛 𝑒𝑊𝑗 𝑇𝑥𝑖+𝑏𝑗 𝑑 : 埋め込み特徴量の次元数 𝑥𝑖 ∈ ℝ𝑑 : 𝑖番目サンプルの特徴量 𝑦𝑖 : 𝑖番目サンプルのクラス 𝑁 : バッチサイズ 𝑛 : クラス数 𝑊 𝑗 ∈ ℝ𝑑 : 𝑗番目の重み 𝑊 ∈ ℝ𝑑×𝑛 𝑏𝑗 ∈ ℝ𝑑 : バイアス項 一般的なSoftmax-loss 1. 簡略化のため、𝑏𝑗 = 0 とする 2. 𝑊 𝑗 𝑇 𝑥𝑖 = 𝑊 𝑗 𝑥𝑖 𝑐𝑜𝑠𝜃𝑗 (𝜃𝑗 は 𝑊 𝑗 と 𝑥𝑖 の間の角度) 3. 𝑙2正規化より、 𝑊 𝑗 = 1 4. 𝑙2正規化とre-scaleを行い、埋め込み特徴量 𝑥𝑖 = 𝑠 → 埋め込み特徴量が半径𝑠 の超球面に分布 SphereFaceと同じ処理 𝐿2 = − 1 𝑁 𝑖=1 𝑁 log 𝑒𝑠 𝑐𝑜𝑠𝜃𝑦𝑖 𝑒𝑠 𝑐𝑜𝑠𝜃𝑦𝑖 + 𝑗=1,𝑗≠𝑦𝑖 𝑛 𝑒𝑠 𝑐𝑜𝑠𝜃𝑗
  • 12. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 12 提案手法 𝐿1 = − 1 𝑁 𝑖=1 𝑁 log 𝑒 𝑊𝑦𝑖𝑥𝑖+𝑏𝑦𝑖 𝑇 𝑗=1 𝑛 𝑒𝑊𝑗 𝑇𝑥𝑖+𝑏𝑗 𝑥𝑖 ∈ ℝ𝑑 : 𝑖番目サンプルの特徴量 𝑦𝑖 : 𝑖番目サンプルのクラス 𝑑 : 埋め込み特徴量の次元数 𝑁 : バッチサイズ 𝑛 : クラス数 𝑊 𝑗 ∈ ℝ𝑑 : 𝑗番目の重み 𝑊 ∈ ℝ𝑑×𝑛 𝑏𝑗 ∈ ℝ𝑑 : バイアス項 一般的なSoftmax-loss 1. 簡略化のため、𝑏𝑗 = 0 とする 2. 𝑊 𝑗 𝑇 𝑥𝑖 = 𝑊 𝑗 𝑥𝑖 𝑐𝑜𝑠𝜃𝑗 (𝜃𝑗 は 𝑊 𝑗 と 𝑥𝑖 の間の角度) 3. 𝑙2正規化より、 𝑊 𝑗 = 1 4. 𝑙2正規化とre-scaleを行い、埋め込み特徴量 𝑥𝑖 = 𝑠 → 埋め込み特徴量が半径𝑠 の超球面に分布 SphereFaceと同じ処理 𝐿2 = − 1 𝑁 𝑖=1 𝑁 log 𝑒𝑠 𝑐𝑜𝑠𝜃𝑦𝑖 𝑒𝑠 𝑐𝑜𝑠𝜃𝑦𝑖 + 𝑗=1,𝑗≠𝑦𝑖 𝑛 𝑒𝑠 𝑐𝑜𝑠𝜃𝑗 SphereFaceの途中式
  • 13. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 13 提案手法 𝐿2 = − 1 𝑁 𝑖=1 𝑁 log 𝑒𝑠 𝑐𝑜𝑠𝜃𝑦𝑖 𝑒𝑠 𝑐𝑜𝑠𝜃𝑦𝑖 + 𝑗=1,𝑗≠𝑦𝑖 𝑛 𝑒𝑠 𝑐𝑜𝑠𝜃𝑗 𝑦𝑖 : 𝑖番目サンプルのクラス 𝑁 : バッチサイズ 𝑛 : クラス数 𝑠 : 埋め込み特徴量 𝜃𝑗 : 𝑗番目の重みと特徴量間の角度 𝑥𝑖 と 𝑊 𝑦𝑖 の間に Additive angular margin penalty 𝒎 を加える → クラス内のコンパクト性とクラス間の不一致を同時に強める (クラス内の特徴量の分散を小さく、クラス間の特徴量の分散を大きく) 𝐿3 = − 1 𝑁 𝑖=1 𝑁 log 𝑒𝑠 (𝑐𝑜𝑠(𝜃𝑦𝑖 +𝒎)) 𝑒𝑠 (𝑐𝑜𝑠(𝜃𝑦𝑖 +𝒎)) + 𝑗=1,𝑗≠𝑦𝑖 𝑛 𝑒𝑠 𝑐𝑜𝑠𝜃𝑗
  • 14. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 14 提案手法 1クラス約1500枚を含む8クラスの顔画像を 2次元特徴埋め込みネットワークで学習 クラス内のコンパクト性とクラス間の不一致を実現
  • 15. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 15 SphereFaceとCosFaceとの比較 • 先行研究にはない幾何学的属性を持つ • 全区間を通して一定の線形角度の余裕を持つ 2値分類の判定境界の比較
  • 16. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 16 実験設定 • データセット – 顔認識関係 • 埋め込みネットワーク – ResNet50、ResNet100 – 最終層の次元数 𝑑 は514 • ハイパーパラメータ – 特徴量スケール 𝑠 : 64 (CosFaceと同じ数値) – 角度マージン 𝑚 : 0.5 (3.2. Ablation Study on Lossesで決定) – バッチサイズ: 512 • 環境 – NVIDIA Tesla P40 (24GB) × 4台 データセット一覧
  • 17. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 17 LFW, YTF, CALFW, CPLFWの結果 • 一般的なデータセットで学習 – LFW: 13000枚, 5700ラベル(人) • 類似研究より優れた性能を持つ 類似研究との性能評価 (%) LFW
  • 18. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 18 MegaFaceの結果 • 大規模のデータセット – 690Kのユニークユーザ、1Mの画像 – 検証はFaceScrubを使用 Id : rank-1の正答率 Ver: False Accept Rate が10−6に おけるTrue Accept Rate R : prob set と 1M distractorを使う
  • 19. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 19 まとめ • メトリックラーニングを用いた顔認識モデルモ デルの一つ – Sofmax-loss の拡張 • Additive Angular Margin Loss (ArcFace)を提案 – 正解クラスの場合、角度空間にマージンを追加 • 先行研究に比べて高精度を記録
  • 20. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 20 論文発表後の発展 (コンペ) • Kaggle Happywhale – Whale and Dolphin Identification (2022年 2-4月) – クジラやイルカの写真を用いた個体識別のコンペ – Preferred Networks のチームが優勝[7] • ArcFaceの拡張である dynamic margin ArcFace で1st • 上位解法のほとんどがArcFaceを使用 [7] Kaggle Happywhale – Whale and Dolphin Identificationで優勝&10位でソロ金メダルを獲得しました, https://tech.preferred.jp/ja/blog/kaggle-happywhale-1st-10th-solution/
  • 21. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 21 論文発表後の発展 (論文) • Sub-center ArcFace[8] – ノイズの多いデータへの対策 • dynamic margin ArcFace[9] – Google Landmark Recognition 2020 Competitionで 3位の解法 – クラスのサンプル数の偏りを考慮 [8] Deng, Jiankang, et al. "Sub-center arcface: Boosting face recognition by large-scale noisy web faces." European Conference on Computer Vision. Springer, Cham, 2020. [9] Ha, Qishen et al. “Google Landmark Recognition 2020 Competition Third Place Solution.” ArXiv abs/2010.05350, 2020.

Notes de l'éditeur

  1. 入力画像 (Anchor) Positive Negative 3枚組でEmbedding空間に配置。
  2. 開集合顔認識 は ポーズ変動や年齢差も含む
  3. 次の式で使用するため単純に分離
  4. 次の式で使用するため単純に分離
  5. 直接的に角度空間でマージンを加算。 正解クラスに対応するlogitsの値は小さくする必要あるため、モデルが頑張ってxのクラス内分散を小さくする sはlogitsの値が小さすぎるとsoftmaxが機能しなくなるために調整している。
  6. 直接的に角度空間でマージンを加算。 正解クラスに対応するlogitsの値は小さくする必要あるため、モデルが頑張ってxのクラス内分散を小さくする sはlogitsの値が小さすぎるとsoftmaxが機能しなくなるために調整している。
  7. Resnet50: 8.9 ms/face ResNet100: 15.4 ms/face