CVPR2019@ロングビーチ参加速報（前編～Tutorial&Workshop～）

岡本大和
@RoadRoller_DESU
CVPR2019＠Long Beach
参加速報(Tutorial&Workshop)

はじめに
 本資料はCVPR’19の様子をお伝えするための資料です
 基本的にどこでどんな研究がされてたかの私信メモです
IEEE Conference on Computer Vision and Pattern Recognition
・Tutorial&Workshop (6/16~6/17) ←この資料の内容
・Conference Session (6/18~6/20)
http://cvpr2019.thecvf.com/

2nd Multimodal Learning and
Applications Workshop (MULA 2019)
• https://mula-workshop.github.io/
• タイトルにある通り、複数種のセンサやデータを組み合わせたMultimodalアプ
リのWorkshop
• WiFiによる行動認識や、FaceRecognitionとSpeakerRecogniyionを組み合わ
せる話、
• Color and Depth Disentangle といった言葉も飛び交った（Disentanle流行っ
てるなぁ）
• SoundとVisionの組み合わせが多かった。ヒトはVisionからも音声を予測＆誤
差確認しているという仮説から、補完効果があるだろうと。
• 周期性などから抽出する音の特徴量『Sound Texture』って言葉は初めて聞い
た（2011年からあったらしい）、動画の特徴量との相関が出るとか（そりゃそ
うよね、さざ波の音とかって動画と音声の相関高そうですし）
• この音って画像中のどのObjectが発してるの？くらいなら既にかなり識別でき
る様子（それもそうか、技術の進化は早いなぁ）

Invited Speaker: Kristen Grauman
- Disentangling Object Sounds in Video
• 動画中から音源の個数や種類のヒントを得て、周波数スペクトルに対す
るMaskを生成して、音源をDisentangleする手法。
• そういえば非負値行列因子分解もDisentangleの一種と言ますもんね
• ところで『ボーダーシャツの人がアコーディオンに誤認識されちゃうの』って発言に笑っ
てしまった

Learning audio-visual Correspondence
• 動画中から現在の音を発している音源を発見する
• 学習データセット構築が課題で、動画と音声のペアをシャッフルしてそ
れを識別させるといったテクニックを使う
• 画像＆音声に限らず、こういった枠組みの研究は今後も様々なデータ組
み合わせで広がりそうな予感！（わくわく）

Distributed Private Machine Learning for Computer Vision:
Federated Learning, Split Learning and Beyond
• Federated LearningとSplit LearningのWorkshop
 似てるようですがこれらは別物です（下図参照）
• みんなデータコストやマシンリソースに苦しんでいるのか、（そもそも
大きな部屋ではないけど）立ち見が出るほど満席御礼
 私個人がじっと座ってるのが本当に嫌いな人種なので苦痛で仕方なかった、
よってFederatedのパートだけ聴講して即離脱
• Workshopサイトに重要論文がまとめられているのでチェックすべし
 https://nopeekcvpr.github.io/
Split Learning

Distributed Private Machine Learning for Computer Vision:
Federated Learning, Split Learning and Beyond
• Federated Learningに興味津々らしく質疑応答で次々と手が挙がった
 モデルは全員で同じものを共有しないといけないのか？
 いえす、ただしデプロイするのは最初の１回だけでOK
 悪意あるユーザでモデルが破壊されるリスクは無いのか？
 いえす、そういう研究も出てきている
 ユーザ端末に搭載のモデルは、各ユーザに特化したモデルにできないか？
 それが出来た方が価値は大きい、しかし、それは簡単には出来ない。
 おそらく、個人の嗜好を抽出するのが容易ではないということだろう。
 最近の検索傾向や流行などを取り入れるようなモデルにすると、例えばサッカーW杯が開催
されたら、全ユーザがしばらくはサッカー好きと判断されるだろう。とのこと。
• 最後に、Federatedが力を発揮するシーンが述べられた

Domain Generalization by Solving Jigsaw Puzzles
• Sourceに複数のドメインがあり、それらを駆使してUnknownである
Targetドメインでの性能を向上させるというDomain Generalization
• SupervisedでClassifierを学習するネットワークに、Jigsawされた画像
を復元するSelf-supervisedを加えてMulti-Task-Learningさせる
• Supervised部分がclass識別の特徴を捉え、Self-supervised部分が
Domain-Invariantな特徴を捉える。
• 画像認識に限って言えば、輪郭などがDomain-Invariantになる印象な
ので、 JigsawによるSelf-supervisedはたしかに筋がいいかも
参照：
http://openaccess.thecvf.com/content_CVPR_2019/papers/Carlucci_Domain_Generalization_by_Solvi
ng_Jigsaw_Puzzles_CVPR_2019_paper.pdf

Discovering Fair Representations in the Data Domain
• Fairnessの目的の１つは、GenderなどのSensitive Parameterを取り
除いて、かつ、タスク性能を低下させないようなRepresentationを得
ること
• 実際、Fairになったデータってどんななの？というのが分からない（高
次元特徴量表現されているため）、というわけで、Fairにしたデータ
（画像）がどんなものか可視化したよ！という研究
• それだけ！？と思ったけど、ちゃんとFairにした後のデータで予測性能
が従来より向上していた。わりと定番っぽいネットワーク構造だが、何
が性能向上のKeyとなったのだろう・・？
参照： https://arxiv.org/pdf/1810.06755.pdf

Balanced Datasets Are Not Enough: Estimating and
Mitigating Gender Bias in Deep Image Representations
• 画像中の共起性に注目したFairnessの研究
• Balanced Datasetとするには、Genderそれぞれの画像を均等に準備す
るだけでは不十分。 Genderによって共起しやすいクラスのBiasがか
かっていると主張する
• よって下図にあるような男女ともに料理しているデータを用意するなど
の対策が必要
• そのBiasを解決するような
ネットワークも提案した
• でもごちゃごちゃしていた
ので省略（すいません
参照： http://www.cs.virginia.edu/~vicente/deeplearning/slides/bias.pdf

論文のTitleをメモし忘れた／(^0^)＼
• 歩行者検出は性別や年齢によって
Biasがかかっているという主張
• 具体的にはChildとFemaleで比較的
ミスが多いという結果になった
• これらはデータの偏りに起因すると
推測されている（たぶん）

Evaluating image Enhancement using Semantic Task
• NeuralNetによる画像復元（圧縮？）を学習するときに、Semanticな
タスクの性能が上がるように学習させると画質も向上するというもの。
• 研究では、元画像から生成したキャプションと、GAN生成画像から生
成したキャプションの正確さを比較して、GAN生成画像からも適格な
キャプション生成ができるよう学習させていた。
• 資料を貼ろうと思ったのにググっても論文が出てこない
／(^0^)＼
• 復元画像の『画質』評価ってどうやってるんだろ、、MSEとSemantic
な情報保存度合って比例しないと思うし、評価方法が気になりますね
参照：おっかしぃなぁ・・・

Half&Half: New Task and Benchmarks for studying
Visual Common Sense
• 直接目にしているわけじゃなくても『TVがあるとしたらリビングか
な』とか『歯ブラシは洗面台の鏡の前に置いてるのでは』といった
Common-Senseを学習＆評価するための枠組み（≒データセット）を
新規提案したというもの。
• 画像の半分を隠して、隠された部分に何があるのか連想して（選択肢の
中から）予測できるかどうか、というタスクになっている。
• このままではデータセット依存の認識器しか構築できなくて、国や文化
が異なれば・・・などといった技術課題はありそうだが、おもしろいと
思ったのでシェア
参照：
http://openaccess.thecvf.com/content_CVPRW_2019/papers/Vision_Meets_Cognition_Camera_Ready/Singh_Hal
fHalf_New_Tasks_and_Benchmarks_for_Studying_Visual_Common_Sense_CVPRW_2019_paper.pdf

Class Consistency Driven Unsupervised Deep
Adversarial Domain Adaptation
• 昨年から盛り上がっているUnsupervised-Domain-Adaptationの研究
• 従来はClassifier-LOSSはSourceドメインのみ用いるが、正解ラベルの
ないTargetドメインに対しても弱識別器の出力の一貫性(Consistency)
を評価するLOSSを設ける
参照：
http://openaccess.thecvf.com/content_CVPRW_2019/papers/CEFRL/Rakshit_Class_Consistency_Drive
n_Unsupervised_Deep_Adversarial_Domain_Adaptation_CVPRW_2019_paper.pdf

Building Explainable AI Evaluation for Autonomous
Perception
• 脱BlackBoxのために説明性のあるAIを構築しようという試み
• まずはデータXから予測Oを出力できるよう学習（この時点ではまだBlackBox）
• 次に、人手によるSemanticなアノテーションAから『Explainable Representations』と
定義したYを介して予測Oを出力できるよう学習（でもYは自動取得するとのこと←）
• 最後に、X⇒O、X⇒Y⇒O、A⇒Y⇒Oが同時に成り立つようにする
• 構築済みモデルがどの程度説明性を有するかの評価に用いることが出来ると主張
参照：
http://openaccess.thecvf.com/content_CVPRW_2019/papers/Explainable%20AI/Zhang_Building_Expl
ainable_AI_Evaluation_for_Autonomous_Perception_CVPRW_2019_paper.pdf

Robust Image Colorization using Self Attention based
Progressive Generative Adversarial Network
• Self-Attention構造の導入によってGANによるColorization性能を向上
させたという研究、『Attention流行ってるなぁ～』の一言しか出ない
• Self Attentionの他にも、Spectral Normalizationを挟んだり、
Progressiveに学習させたり、GとDの更新頻度を調整したりと、細かい
努力もたくさんされている
参照：
http://openaccess.thecvf.com/content_CVPRW_2019/papers/NTIRE/Sharma_Robust_Image_Coloriza
tion_Using_Self_Attention_Based_Progressive_Generative_Adversarial_CVPRW_2019_paper.pdf

Attention PointNet for 3D-Object Detection
in Point Clouds
• Attention構造をPointNetに搭載することで性能改善
※PointNetとは？
 3D-Model用の3次元点群を（点の向きや順序に対してロバスト性を保ちな
がら）直接入力として扱えるNeural Network
参照：
http://openaccess.thecvf.com/content_CVPRW_2019/papers/Autonomous%20Driving/Paigwar_Atten
tional_PointNet_for_3D-Object_Detection_in_Point_Clouds_CVPRW_2019_paper.pdf

Improving Deep Network Robustness to Unknown
Inputs with Objectosphere
• 学習したことのないUnknownクラスへの対処は、Gabageクラスを設けたり、
Softmaxの値にThresholdをかけることが多い
• 2つのLOSSによりUnknownクラスを区別しやすくなる学習方法を提案
• Entropic Open-Set Loss
 Unknownクラスに対してSoftmax値が一様になるよう制約をかける
 つまり、Unknownクラスに対してエントロピーを最大化する
• Objectosphere Loss
 特徴量の絶対値がUnknownで小さく、Knownで大きくなるよう制約する
学習用のUnknownクラスが必要なので、そのデータ設計にかなり精度依存する気が...
参照：
http://openaccess.thecvf.com/content_CVPRW_2019/papers/Uncertainty%20and%20Robustness%20
in%20Deep%20Visual%20Learning/Dhamija_Improving_Deep_Network_Robustness_to_Unknown_In
puts_with_Objectosphere_CVPRW_2019_paper.pdf

Measuring Calibration in Deep Learning
• 機械学習モデルの『confidence(信頼性)』を評価する新しい指標として、
『Thresholded Adaptive Calibration Error (TACE) 』を提案
• Calibrationとは？
• 『クラスAのCalibration が90%』とは『全体観測のうち90%がクラスA』
であることを意味する
• 全データに対して予測が正解した割合を示す『Precision』とは異なる指標
• そのCalibrationについて実応用を見据えて適切な評価方法を提案したと
いう位置づけ。詳細は把握しきれていないが本気で機械学習モデルを現
場導入するときに必要となるであろう研究が増えているように感じる
参照：
http://openaccess.thecvf.com/content_CVPRW_2019/papers/Uncertainty%20and%20Robustness%20in%20Deep%2
0Visual%20Learning/Nixon_Measuring_Calibration_in_Deep_Learning_CVPRW_2019_paper.pdf

CVPR2019@ロングビーチ参加速報（前編～Tutorial&Workshop～）

Recommandé

Recommandé

Contenu connexe

Similaire à CVPR2019@ロングビーチ参加速報（前編～Tutorial&Workshop～）

Similaire à CVPR2019@ロングビーチ参加速報（前編～Tutorial&Workshop～） (20)

Plus de Yamato OKAMOTO

Plus de Yamato OKAMOTO (20)

Dernier

Dernier (10)

CVPR2019@ロングビーチ参加速報（前編～Tutorial&Workshop～）