SlideShare une entreprise Scribd logo
1  sur  20
Télécharger pour lire hors ligne
岡本大和
@RoadRoller_DESU
CVPR2019@Long Beach
参加速報(Tutorial&Workshop)
はじめに
 本資料はCVPR’19の様子をお伝えするための資料です
 基本的にどこでどんな研究がされてたかの私信メモです
IEEE Conference on Computer Vision and Pattern Recognition
・Tutorial&Workshop (6/16~6/17) ←この資料の内容
・Conference Session (6/18~6/20)
http://cvpr2019.thecvf.com/
2nd Multimodal Learning and
Applications Workshop (MULA 2019)
• https://mula-workshop.github.io/
• タイトルにある通り、複数種のセンサやデータを組み合わせたMultimodalアプ
リのWorkshop
• WiFiによる行動認識や、FaceRecognitionとSpeakerRecogniyionを組み合わ
せる話、
• Color and Depth Disentangle といった言葉も飛び交った(Disentanle流行っ
てるなぁ)
• SoundとVisionの組み合わせが多かった。ヒトはVisionからも音声を予測&誤
差確認しているという仮説から、補完効果があるだろうと。
• 周期性などから抽出する音の特徴量『Sound Texture』って言葉は初めて聞い
た(2011年からあったらしい)、動画の特徴量との相関が出るとか(そりゃそ
うよね、さざ波の音とかって動画と音声の相関高そうですし)
• この音って画像中のどのObjectが発してるの?くらいなら既にかなり識別でき
る様子(それもそうか、技術の進化は早いなぁ)
Invited Speaker: Kristen Grauman
- Disentangling Object Sounds in Video
• 動画中から音源の個数や種類のヒントを得て、周波数スペクトルに対す
るMaskを生成して、音源をDisentangleする手法。
• そういえば非負値行列因子分解もDisentangleの一種と言ますもんね
• ところで『ボーダーシャツの人がアコーディオンに誤認識されちゃうの』って発言に笑っ
てしまった
Learning audio-visual Correspondence
• 動画中から現在の音を発している音源を発見する
• 学習データセット構築が課題で、動画と音声のペアをシャッフルしてそ
れを識別させるといったテクニックを使う
• 画像&音声に限らず、こういった枠組みの研究は今後も様々なデータ組
み合わせで広がりそうな予感!(わくわく)
Distributed Private Machine Learning for Computer Vision:
Federated Learning, Split Learning and Beyond
• Federated LearningとSplit LearningのWorkshop
 似てるようですがこれらは別物です(下図参照)
• みんなデータコストやマシンリソースに苦しんでいるのか、(そもそも
大きな部屋ではないけど)立ち見が出るほど満席御礼
 私個人がじっと座ってるのが本当に嫌いな人種なので苦痛で仕方なかった、
よってFederatedのパートだけ聴講して即離脱
• Workshopサイトに重要論文がまとめられているのでチェックすべし
 https://nopeekcvpr.github.io/
Split Learning
Distributed Private Machine Learning for Computer Vision:
Federated Learning, Split Learning and Beyond
• Federated Learningに興味津々らしく質疑応答で次々と手が挙がった
 モデルは全員で同じものを共有しないといけないのか?
 いえす、ただしデプロイするのは最初の1回だけでOK
 悪意あるユーザでモデルが破壊されるリスクは無いのか?
 いえす、そういう研究も出てきている
 ユーザ端末に搭載のモデルは、各ユーザに特化したモデルにできないか?
 それが出来た方が価値は大きい、しかし、それは簡単には出来ない。
 おそらく、個人の嗜好を抽出するのが容易ではないということだろう。
 最近の検索傾向や流行などを取り入れるようなモデルにすると、例えばサッカーW杯が開催
されたら、全ユーザがしばらくはサッカー好きと判断されるだろう。とのこと。
• 最後に、Federatedが力を発揮するシーンが述べられた
Domain Generalization by Solving Jigsaw Puzzles
• Sourceに複数のドメインがあり、それらを駆使してUnknownである
Targetドメインでの性能を向上させるというDomain Generalization
• SupervisedでClassifierを学習するネットワークに、Jigsawされた画像
を復元するSelf-supervisedを加えてMulti-Task-Learningさせる
• Supervised部分がclass識別の特徴を捉え、Self-supervised部分が
Domain-Invariantな特徴を捉える。
• 画像認識に限って言えば、輪郭などがDomain-Invariantになる印象な
ので、 JigsawによるSelf-supervisedはたしかに筋がいいかも
参照:
http://openaccess.thecvf.com/content_CVPR_2019/papers/Carlucci_Domain_Generalization_by_Solvi
ng_Jigsaw_Puzzles_CVPR_2019_paper.pdf
Discovering Fair Representations in the Data Domain
• Fairnessの目的の1つは、GenderなどのSensitive Parameterを取り
除いて、かつ、タスク性能を低下させないようなRepresentationを得
ること
• 実際、Fairになったデータってどんななの?というのが分からない(高
次元特徴量表現されているため)、というわけで、Fairにしたデータ
(画像)がどんなものか可視化したよ!という研究
• それだけ!?と思ったけど、ちゃんとFairにした後のデータで予測性能
が従来より向上していた。わりと定番っぽいネットワーク構造だが、何
が性能向上のKeyとなったのだろう・・?
参照: https://arxiv.org/pdf/1810.06755.pdf
Balanced Datasets Are Not Enough: Estimating and
Mitigating Gender Bias in Deep Image Representations
• 画像中の共起性に注目したFairnessの研究
• Balanced Datasetとするには、Genderそれぞれの画像を均等に準備す
るだけでは不十分。 Genderによって共起しやすいクラスのBiasがか
かっていると主張する
• よって下図にあるような男女ともに料理しているデータを用意するなど
の対策が必要
• そのBiasを解決するような
ネットワークも提案した
• でもごちゃごちゃしていた
ので省略(すいません
参照: http://www.cs.virginia.edu/~vicente/deeplearning/slides/bias.pdf
論文のTitleをメモし忘れた/(^0^)\
• 歩行者検出は性別や年齢によって
Biasがかかっているという主張
• 具体的にはChildとFemaleで比較的
ミスが多いという結果になった
• これらはデータの偏りに起因すると
推測されている(たぶん)
Evaluating image Enhancement using Semantic Task
• NeuralNetによる画像復元(圧縮?)を学習するときに、Semanticな
タスクの性能が上がるように学習させると画質も向上するというもの。
• 研究では、元画像から生成したキャプションと、GAN生成画像から生
成したキャプションの正確さを比較して、GAN生成画像からも適格な
キャプション生成ができるよう学習させていた。
• 資料を貼ろうと思ったのにググっても論文が出てこない
/(^0^)\
• 復元画像の『画質』評価ってどうやってるんだろ、、MSEとSemantic
な情報保存度合って比例しないと思うし、評価方法が気になりますね
参照: おっかしぃなぁ・・・
Half&Half: New Task and Benchmarks for studying
Visual Common Sense
• 直接目にしているわけじゃなくても『TVがあるとしたらリビングか
な』とか『歯ブラシは洗面台の鏡の前に置いてるのでは』といった
Common-Senseを学習&評価するための枠組み(≒データセット)を
新規提案したというもの。
• 画像の半分を隠して、隠された部分に何があるのか連想して(選択肢の
中から)予測できるかどうか、というタスクになっている。
• このままではデータセット依存の認識器しか構築できなくて、国や文化
が異なれば・・・などといった技術課題はありそうだが、おもしろいと
思ったのでシェア
参照:
http://openaccess.thecvf.com/content_CVPRW_2019/papers/Vision_Meets_Cognition_Camera_Ready/Singh_Hal
fHalf_New_Tasks_and_Benchmarks_for_Studying_Visual_Common_Sense_CVPRW_2019_paper.pdf
Class Consistency Driven Unsupervised Deep
Adversarial Domain Adaptation
• 昨年から盛り上がっているUnsupervised-Domain-Adaptationの研究
• 従来はClassifier-LOSSはSourceドメインのみ用いるが、正解ラベルの
ないTargetドメインに対しても弱識別器の出力の一貫性(Consistency)
を評価するLOSSを設ける
参照:
http://openaccess.thecvf.com/content_CVPRW_2019/papers/CEFRL/Rakshit_Class_Consistency_Drive
n_Unsupervised_Deep_Adversarial_Domain_Adaptation_CVPRW_2019_paper.pdf
Building Explainable AI Evaluation for Autonomous
Perception
• 脱BlackBoxのために説明性のあるAIを構築しようという試み
• まずはデータXから予測Oを出力できるよう学習(この時点ではまだBlackBox)
• 次に、人手によるSemanticなアノテーションAから『Explainable Representations』と
定義したYを介して予測Oを出力できるよう学習(でもYは自動取得するとのこと←)
• 最後に、X⇒O、X⇒Y⇒O、A⇒Y⇒Oが同時に成り立つようにする
• 構築済みモデルがどの程度説明性を有するかの評価に用いることが出来ると主張
参照:
http://openaccess.thecvf.com/content_CVPRW_2019/papers/Explainable%20AI/Zhang_Building_Expl
ainable_AI_Evaluation_for_Autonomous_Perception_CVPRW_2019_paper.pdf
Robust Image Colorization using Self Attention based
Progressive Generative Adversarial Network
• Self-Attention構造の導入によってGANによるColorization性能を向上
させたという研究、『Attention流行ってるなぁ~』の一言しか出ない
• Self Attentionの他にも、Spectral Normalizationを挟んだり、
Progressiveに学習させたり、GとDの更新頻度を調整したりと、細かい
努力もたくさんされている
参照:
http://openaccess.thecvf.com/content_CVPRW_2019/papers/NTIRE/Sharma_Robust_Image_Coloriza
tion_Using_Self_Attention_Based_Progressive_Generative_Adversarial_CVPRW_2019_paper.pdf
Attention PointNet for 3D-Object Detection
in Point Clouds
• Attention構造をPointNetに搭載することで性能改善
※PointNetとは?
 3D-Model用の3次元点群を(点の向きや順序に対してロバスト性を保ちな
がら)直接入力として扱えるNeural Network
参照:
http://openaccess.thecvf.com/content_CVPRW_2019/papers/Autonomous%20Driving/Paigwar_Atten
tional_PointNet_for_3D-Object_Detection_in_Point_Clouds_CVPRW_2019_paper.pdf
Improving Deep Network Robustness to Unknown
Inputs with Objectosphere
• 学習したことのないUnknownクラスへの対処は、Gabageクラスを設けたり、
Softmaxの値にThresholdをかけることが多い
• 2つのLOSSによりUnknownクラスを区別しやすくなる学習方法を提案
• Entropic Open-Set Loss
 Unknownクラスに対してSoftmax値が一様になるよう制約をかける
 つまり、Unknownクラスに対してエントロピーを最大化する
• Objectosphere Loss
 特徴量の絶対値がUnknownで小さく、Knownで大きくなるよう制約する
学習用のUnknownクラスが必要なので、そのデータ設計にかなり精度依存する気が...
参照:
http://openaccess.thecvf.com/content_CVPRW_2019/papers/Uncertainty%20and%20Robustness%20
in%20Deep%20Visual%20Learning/Dhamija_Improving_Deep_Network_Robustness_to_Unknown_In
puts_with_Objectosphere_CVPRW_2019_paper.pdf
Measuring Calibration in Deep Learning
• 機械学習モデルの『confidence(信頼性)』を評価する新しい指標として、
『Thresholded Adaptive Calibration Error (TACE) 』を提案
• Calibrationとは?
• 『クラスAのCalibration が90%』とは『全体観測のうち90%がクラスA』
であることを意味する
• 全データに対して予測が正解した割合を示す『Precision』とは異なる指標
• そのCalibrationについて実応用を見据えて適切な評価方法を提案したと
いう位置づけ。詳細は把握しきれていないが本気で機械学習モデルを現
場導入するときに必要となるであろう研究が増えているように感じる
参照:
http://openaccess.thecvf.com/content_CVPRW_2019/papers/Uncertainty%20and%20Robustness%20in%20Deep%2
0Visual%20Learning/Nixon_Measuring_Calibration_in_Deep_Learning_CVPRW_2019_paper.pdf
おまけ

Contenu connexe

Similaire à CVPR2019@ロングビーチ参加速報(前編~Tutorial&Workshop~)

Similaire à CVPR2019@ロングビーチ参加速報(前編~Tutorial&Workshop~) (20)

CVPR2019@ロングビーチ参加速報(後編 ~本会議~)
CVPR2019@ロングビーチ参加速報(後編 ~本会議~)CVPR2019@ロングビーチ参加速報(後編 ~本会議~)
CVPR2019@ロングビーチ参加速報(後編 ~本会議~)
 
openFrameworksセミナー(2014)レポート
openFrameworksセミナー(2014)レポートopenFrameworksセミナー(2014)レポート
openFrameworksセミナー(2014)レポート
 
オンラインイベント開催のポイント
オンラインイベント開催のポイントオンラインイベント開催のポイント
オンラインイベント開催のポイント
 
どうしてプレゼン研究会を始めたのか
どうしてプレゼン研究会を始めたのかどうしてプレゼン研究会を始めたのか
どうしてプレゼン研究会を始めたのか
 
WordBench Tokyo 12月: 2014年に向けて
WordBench Tokyo 12月: 2014年に向けてWordBench Tokyo 12月: 2014年に向けて
WordBench Tokyo 12月: 2014年に向けて
 
シンガポールFossasia2016に初参加してみた I tried the first time participate in the Singapor...
シンガポールFossasia2016に初参加してみた I tried the first time participate in the Singapor...シンガポールFossasia2016に初参加してみた I tried the first time participate in the Singapor...
シンガポールFossasia2016に初参加してみた I tried the first time participate in the Singapor...
 
Skype Uchida1127
Skype Uchida1127Skype Uchida1127
Skype Uchida1127
 
EclipseCon Europe 2019 modeling report
EclipseCon Europe 2019 modeling reportEclipseCon Europe 2019 modeling report
EclipseCon Europe 2019 modeling report
 
B3スタートアップ コンピュータビジョンの現在と未来にやるべきこと(東京電機大学講演)
B3スタートアップ コンピュータビジョンの現在と未来にやるべきこと(東京電機大学講演)B3スタートアップ コンピュータビジョンの現在と未来にやるべきこと(東京電機大学講演)
B3スタートアップ コンピュータビジョンの現在と未来にやるべきこと(東京電機大学講演)
 
JDLA主催「CVPR2023技術報告会」発表資料
JDLA主催「CVPR2023技術報告会」発表資料JDLA主催「CVPR2023技術報告会」発表資料
JDLA主催「CVPR2023技術報告会」発表資料
 
Pythonを含む多くのプログラミング言語を扱う処理フレームワークとパターン、鷲崎弘宜、PyConJP 2016 招待講演
Pythonを含む多くのプログラミング言語を扱う処理フレームワークとパターン、鷲崎弘宜、PyConJP 2016 招待講演Pythonを含む多くのプログラミング言語を扱う処理フレームワークとパターン、鷲崎弘宜、PyConJP 2016 招待講演
Pythonを含む多くのプログラミング言語を扱う処理フレームワークとパターン、鷲崎弘宜、PyConJP 2016 招待講演
 
姫路の方から来ました 〜 兵庫県姫路市の熱い勉強会を紹介 〜
姫路の方から来ました 〜 兵庫県姫路市の熱い勉強会を紹介 〜姫路の方から来ました 〜 兵庫県姫路市の熱い勉強会を紹介 〜
姫路の方から来ました 〜 兵庫県姫路市の熱い勉強会を紹介 〜
 
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation 「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
 
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
 
ROSCon2019 参加報告:オーバビュー+α
ROSCon2019 参加報告:オーバビュー+αROSCon2019 参加報告:オーバビュー+α
ROSCon2019 参加報告:オーバビュー+α
 
IAD Kyoto
IAD KyotoIAD Kyoto
IAD Kyoto
 
デザイナさんにGithubでpr投げてもらうまで
デザイナさんにGithubでpr投げてもらうまでデザイナさんにGithubでpr投げてもらうまで
デザイナさんにGithubでpr投げてもらうまで
 
Visual Studio Code のこれまでとこれから at OSC 2021 Online/Spring
Visual Studio Code のこれまでとこれから at OSC 2021 Online/SpringVisual Studio Code のこれまでとこれから at OSC 2021 Online/Spring
Visual Studio Code のこれまでとこれから at OSC 2021 Online/Spring
 
私の熱いアジャイル活動、アジャカツ!始まります フフッヒ
私の熱いアジャイル活動、アジャカツ!始まります フフッヒ私の熱いアジャイル活動、アジャカツ!始まります フフッヒ
私の熱いアジャイル活動、アジャカツ!始まります フフッヒ
 
セキュリティ&プログラミングキャンプに行こう!
セキュリティ&プログラミングキャンプに行こう!セキュリティ&プログラミングキャンプに行こう!
セキュリティ&プログラミングキャンプに行こう!
 

Plus de Yamato OKAMOTO

Plus de Yamato OKAMOTO (20)

第七回全日本コンピュータビジョン勉強会 A Multiplexed Network for End-to-End, Multilingual OCR
第七回全日本コンピュータビジョン勉強会 A Multiplexed Network for End-to-End, Multilingual OCR第七回全日本コンピュータビジョン勉強会 A Multiplexed Network for End-to-End, Multilingual OCR
第七回全日本コンピュータビジョン勉強会 A Multiplexed Network for End-to-End, Multilingual OCR
 
部下のマネジメントはAI開発に学べ
部下のマネジメントはAI開発に学べ部下のマネジメントはAI開発に学べ
部下のマネジメントはAI開発に学べ
 
ICLR2020 オンライン読み会 Deep Semi-Supervised Anomaly Detection
ICLR2020 オンライン読み会 Deep Semi-Supervised Anomaly DetectionICLR2020 オンライン読み会 Deep Semi-Supervised Anomaly Detection
ICLR2020 オンライン読み会 Deep Semi-Supervised Anomaly Detection
 
ICLR'2020 参加速報
ICLR'2020 参加速報ICLR'2020 参加速報
ICLR'2020 参加速報
 
Domain Generalization via Model-Agnostic Learning of Semantic Features
Domain Generalization via Model-Agnostic Learning of Semantic FeaturesDomain Generalization via Model-Agnostic Learning of Semantic Features
Domain Generalization via Model-Agnostic Learning of Semantic Features
 
(SURVEY) Active Learning
(SURVEY) Active Learning(SURVEY) Active Learning
(SURVEY) Active Learning
 
(SURVEY) Semi Supervised Learning
(SURVEY) Semi Supervised Learning(SURVEY) Semi Supervised Learning
(SURVEY) Semi Supervised Learning
 
[ICML2019読み会in京都] (LT)Bayesian Nonparametric Federated Learning of Neural Net...
[ICML2019読み会in京都] (LT)Bayesian Nonparametric Federated Learning of Neural Net...[ICML2019読み会in京都] (LT)Bayesian Nonparametric Federated Learning of Neural Net...
[ICML2019読み会in京都] (LT)Bayesian Nonparametric Federated Learning of Neural Net...
 
[ICML2019読み会in京都] Agnostic Federated Learning
[ICML2019読み会in京都] Agnostic Federated Learning[ICML2019読み会in京都] Agnostic Federated Learning
[ICML2019読み会in京都] Agnostic Federated Learning
 
ICLR2019 読み会in京都 ICLRから読み取るFeature Disentangleの研究動向
ICLR2019 読み会in京都 ICLRから読み取るFeature Disentangleの研究動向ICLR2019 読み会in京都 ICLRから読み取るFeature Disentangleの研究動向
ICLR2019 読み会in京都 ICLRから読み取るFeature Disentangleの研究動向
 
ICLR'19 読み会 in 京都 [LT枠] Domain Adaptationの研究動向
ICLR'19 読み会 in 京都 [LT枠] Domain Adaptationの研究動向ICLR'19 読み会 in 京都 [LT枠] Domain Adaptationの研究動向
ICLR'19 読み会 in 京都 [LT枠] Domain Adaptationの研究動向
 
CVPR2019 survey Domain Adaptation on Semantic Segmentation
CVPR2019 survey Domain Adaptation on Semantic SegmentationCVPR2019 survey Domain Adaptation on Semantic Segmentation
CVPR2019 survey Domain Adaptation on Semantic Segmentation
 
ICLR'19 研究動向まとめ 『Domain Adaptation』『Feature Disentangle』
ICLR'19 研究動向まとめ 『Domain Adaptation』『Feature Disentangle』ICLR'19 研究動向まとめ 『Domain Adaptation』『Feature Disentangle』
ICLR'19 研究動向まとめ 『Domain Adaptation』『Feature Disentangle』
 
NeurIPS2018読み会@PFN a unified feature disentangler for multi domain image tran...
NeurIPS2018読み会@PFN a unified feature disentangler for multi domain image tran...NeurIPS2018読み会@PFN a unified feature disentangler for multi domain image tran...
NeurIPS2018読み会@PFN a unified feature disentangler for multi domain image tran...
 
(Ja) A unified feature disentangler for multi domain image translation and ma...
(Ja) A unified feature disentangler for multi domain image translation and ma...(Ja) A unified feature disentangler for multi domain image translation and ma...
(Ja) A unified feature disentangler for multi domain image translation and ma...
 
IntelliLight: A Reinforcement Learning Approach for Intelligent Traffic Light...
IntelliLight: A Reinforcement Learning Approach for Intelligent Traffic Light...IntelliLight: A Reinforcement Learning Approach for Intelligent Traffic Light...
IntelliLight: A Reinforcement Learning Approach for Intelligent Traffic Light...
 
A unified feature disentangler for multi domain image translation and manipul...
A unified feature disentangler for multi domain image translation and manipul...A unified feature disentangler for multi domain image translation and manipul...
A unified feature disentangler for multi domain image translation and manipul...
 
ICDM'18 速報
ICDM'18 速報ICDM'18 速報
ICDM'18 速報
 
Domain Adaptation 発展と動向まとめ(サーベイ資料)
Domain Adaptation 発展と動向まとめ(サーベイ資料)Domain Adaptation 発展と動向まとめ(サーベイ資料)
Domain Adaptation 発展と動向まとめ(サーベイ資料)
 
neural architecture search with reinforcement learning
neural architecture search with reinforcement learningneural architecture search with reinforcement learning
neural architecture search with reinforcement learning
 

Dernier

Dernier (10)

論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
 
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイスLoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
 
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
 
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
 
Utilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native IntegrationsUtilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native Integrations
 
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半        2024/04/26の勉強会で発表されたものです。新人研修 後半        2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。
 
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
 
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
 
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
 
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルLoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
 

CVPR2019@ロングビーチ参加速報(前編~Tutorial&Workshop~)

  • 2. はじめに  本資料はCVPR’19の様子をお伝えするための資料です  基本的にどこでどんな研究がされてたかの私信メモです IEEE Conference on Computer Vision and Pattern Recognition ・Tutorial&Workshop (6/16~6/17) ←この資料の内容 ・Conference Session (6/18~6/20) http://cvpr2019.thecvf.com/
  • 3. 2nd Multimodal Learning and Applications Workshop (MULA 2019) • https://mula-workshop.github.io/ • タイトルにある通り、複数種のセンサやデータを組み合わせたMultimodalアプ リのWorkshop • WiFiによる行動認識や、FaceRecognitionとSpeakerRecogniyionを組み合わ せる話、 • Color and Depth Disentangle といった言葉も飛び交った(Disentanle流行っ てるなぁ) • SoundとVisionの組み合わせが多かった。ヒトはVisionからも音声を予測&誤 差確認しているという仮説から、補完効果があるだろうと。 • 周期性などから抽出する音の特徴量『Sound Texture』って言葉は初めて聞い た(2011年からあったらしい)、動画の特徴量との相関が出るとか(そりゃそ うよね、さざ波の音とかって動画と音声の相関高そうですし) • この音って画像中のどのObjectが発してるの?くらいなら既にかなり識別でき る様子(それもそうか、技術の進化は早いなぁ)
  • 4. Invited Speaker: Kristen Grauman - Disentangling Object Sounds in Video • 動画中から音源の個数や種類のヒントを得て、周波数スペクトルに対す るMaskを生成して、音源をDisentangleする手法。 • そういえば非負値行列因子分解もDisentangleの一種と言ますもんね • ところで『ボーダーシャツの人がアコーディオンに誤認識されちゃうの』って発言に笑っ てしまった
  • 5. Learning audio-visual Correspondence • 動画中から現在の音を発している音源を発見する • 学習データセット構築が課題で、動画と音声のペアをシャッフルしてそ れを識別させるといったテクニックを使う • 画像&音声に限らず、こういった枠組みの研究は今後も様々なデータ組 み合わせで広がりそうな予感!(わくわく)
  • 6. Distributed Private Machine Learning for Computer Vision: Federated Learning, Split Learning and Beyond • Federated LearningとSplit LearningのWorkshop  似てるようですがこれらは別物です(下図参照) • みんなデータコストやマシンリソースに苦しんでいるのか、(そもそも 大きな部屋ではないけど)立ち見が出るほど満席御礼  私個人がじっと座ってるのが本当に嫌いな人種なので苦痛で仕方なかった、 よってFederatedのパートだけ聴講して即離脱 • Workshopサイトに重要論文がまとめられているのでチェックすべし  https://nopeekcvpr.github.io/ Split Learning
  • 7. Distributed Private Machine Learning for Computer Vision: Federated Learning, Split Learning and Beyond • Federated Learningに興味津々らしく質疑応答で次々と手が挙がった  モデルは全員で同じものを共有しないといけないのか?  いえす、ただしデプロイするのは最初の1回だけでOK  悪意あるユーザでモデルが破壊されるリスクは無いのか?  いえす、そういう研究も出てきている  ユーザ端末に搭載のモデルは、各ユーザに特化したモデルにできないか?  それが出来た方が価値は大きい、しかし、それは簡単には出来ない。  おそらく、個人の嗜好を抽出するのが容易ではないということだろう。  最近の検索傾向や流行などを取り入れるようなモデルにすると、例えばサッカーW杯が開催 されたら、全ユーザがしばらくはサッカー好きと判断されるだろう。とのこと。 • 最後に、Federatedが力を発揮するシーンが述べられた
  • 8. Domain Generalization by Solving Jigsaw Puzzles • Sourceに複数のドメインがあり、それらを駆使してUnknownである Targetドメインでの性能を向上させるというDomain Generalization • SupervisedでClassifierを学習するネットワークに、Jigsawされた画像 を復元するSelf-supervisedを加えてMulti-Task-Learningさせる • Supervised部分がclass識別の特徴を捉え、Self-supervised部分が Domain-Invariantな特徴を捉える。 • 画像認識に限って言えば、輪郭などがDomain-Invariantになる印象な ので、 JigsawによるSelf-supervisedはたしかに筋がいいかも 参照: http://openaccess.thecvf.com/content_CVPR_2019/papers/Carlucci_Domain_Generalization_by_Solvi ng_Jigsaw_Puzzles_CVPR_2019_paper.pdf
  • 9. Discovering Fair Representations in the Data Domain • Fairnessの目的の1つは、GenderなどのSensitive Parameterを取り 除いて、かつ、タスク性能を低下させないようなRepresentationを得 ること • 実際、Fairになったデータってどんななの?というのが分からない(高 次元特徴量表現されているため)、というわけで、Fairにしたデータ (画像)がどんなものか可視化したよ!という研究 • それだけ!?と思ったけど、ちゃんとFairにした後のデータで予測性能 が従来より向上していた。わりと定番っぽいネットワーク構造だが、何 が性能向上のKeyとなったのだろう・・? 参照: https://arxiv.org/pdf/1810.06755.pdf
  • 10. Balanced Datasets Are Not Enough: Estimating and Mitigating Gender Bias in Deep Image Representations • 画像中の共起性に注目したFairnessの研究 • Balanced Datasetとするには、Genderそれぞれの画像を均等に準備す るだけでは不十分。 Genderによって共起しやすいクラスのBiasがか かっていると主張する • よって下図にあるような男女ともに料理しているデータを用意するなど の対策が必要 • そのBiasを解決するような ネットワークも提案した • でもごちゃごちゃしていた ので省略(すいません 参照: http://www.cs.virginia.edu/~vicente/deeplearning/slides/bias.pdf
  • 12. Evaluating image Enhancement using Semantic Task • NeuralNetによる画像復元(圧縮?)を学習するときに、Semanticな タスクの性能が上がるように学習させると画質も向上するというもの。 • 研究では、元画像から生成したキャプションと、GAN生成画像から生 成したキャプションの正確さを比較して、GAN生成画像からも適格な キャプション生成ができるよう学習させていた。 • 資料を貼ろうと思ったのにググっても論文が出てこない /(^0^)\ • 復元画像の『画質』評価ってどうやってるんだろ、、MSEとSemantic な情報保存度合って比例しないと思うし、評価方法が気になりますね 参照: おっかしぃなぁ・・・
  • 13. Half&Half: New Task and Benchmarks for studying Visual Common Sense • 直接目にしているわけじゃなくても『TVがあるとしたらリビングか な』とか『歯ブラシは洗面台の鏡の前に置いてるのでは』といった Common-Senseを学習&評価するための枠組み(≒データセット)を 新規提案したというもの。 • 画像の半分を隠して、隠された部分に何があるのか連想して(選択肢の 中から)予測できるかどうか、というタスクになっている。 • このままではデータセット依存の認識器しか構築できなくて、国や文化 が異なれば・・・などといった技術課題はありそうだが、おもしろいと 思ったのでシェア 参照: http://openaccess.thecvf.com/content_CVPRW_2019/papers/Vision_Meets_Cognition_Camera_Ready/Singh_Hal fHalf_New_Tasks_and_Benchmarks_for_Studying_Visual_Common_Sense_CVPRW_2019_paper.pdf
  • 14. Class Consistency Driven Unsupervised Deep Adversarial Domain Adaptation • 昨年から盛り上がっているUnsupervised-Domain-Adaptationの研究 • 従来はClassifier-LOSSはSourceドメインのみ用いるが、正解ラベルの ないTargetドメインに対しても弱識別器の出力の一貫性(Consistency) を評価するLOSSを設ける 参照: http://openaccess.thecvf.com/content_CVPRW_2019/papers/CEFRL/Rakshit_Class_Consistency_Drive n_Unsupervised_Deep_Adversarial_Domain_Adaptation_CVPRW_2019_paper.pdf
  • 15. Building Explainable AI Evaluation for Autonomous Perception • 脱BlackBoxのために説明性のあるAIを構築しようという試み • まずはデータXから予測Oを出力できるよう学習(この時点ではまだBlackBox) • 次に、人手によるSemanticなアノテーションAから『Explainable Representations』と 定義したYを介して予測Oを出力できるよう学習(でもYは自動取得するとのこと←) • 最後に、X⇒O、X⇒Y⇒O、A⇒Y⇒Oが同時に成り立つようにする • 構築済みモデルがどの程度説明性を有するかの評価に用いることが出来ると主張 参照: http://openaccess.thecvf.com/content_CVPRW_2019/papers/Explainable%20AI/Zhang_Building_Expl ainable_AI_Evaluation_for_Autonomous_Perception_CVPRW_2019_paper.pdf
  • 16. Robust Image Colorization using Self Attention based Progressive Generative Adversarial Network • Self-Attention構造の導入によってGANによるColorization性能を向上 させたという研究、『Attention流行ってるなぁ~』の一言しか出ない • Self Attentionの他にも、Spectral Normalizationを挟んだり、 Progressiveに学習させたり、GとDの更新頻度を調整したりと、細かい 努力もたくさんされている 参照: http://openaccess.thecvf.com/content_CVPRW_2019/papers/NTIRE/Sharma_Robust_Image_Coloriza tion_Using_Self_Attention_Based_Progressive_Generative_Adversarial_CVPRW_2019_paper.pdf
  • 17. Attention PointNet for 3D-Object Detection in Point Clouds • Attention構造をPointNetに搭載することで性能改善 ※PointNetとは?  3D-Model用の3次元点群を(点の向きや順序に対してロバスト性を保ちな がら)直接入力として扱えるNeural Network 参照: http://openaccess.thecvf.com/content_CVPRW_2019/papers/Autonomous%20Driving/Paigwar_Atten tional_PointNet_for_3D-Object_Detection_in_Point_Clouds_CVPRW_2019_paper.pdf
  • 18. Improving Deep Network Robustness to Unknown Inputs with Objectosphere • 学習したことのないUnknownクラスへの対処は、Gabageクラスを設けたり、 Softmaxの値にThresholdをかけることが多い • 2つのLOSSによりUnknownクラスを区別しやすくなる学習方法を提案 • Entropic Open-Set Loss  Unknownクラスに対してSoftmax値が一様になるよう制約をかける  つまり、Unknownクラスに対してエントロピーを最大化する • Objectosphere Loss  特徴量の絶対値がUnknownで小さく、Knownで大きくなるよう制約する 学習用のUnknownクラスが必要なので、そのデータ設計にかなり精度依存する気が... 参照: http://openaccess.thecvf.com/content_CVPRW_2019/papers/Uncertainty%20and%20Robustness%20 in%20Deep%20Visual%20Learning/Dhamija_Improving_Deep_Network_Robustness_to_Unknown_In puts_with_Objectosphere_CVPRW_2019_paper.pdf
  • 19. Measuring Calibration in Deep Learning • 機械学習モデルの『confidence(信頼性)』を評価する新しい指標として、 『Thresholded Adaptive Calibration Error (TACE) 』を提案 • Calibrationとは? • 『クラスAのCalibration が90%』とは『全体観測のうち90%がクラスA』 であることを意味する • 全データに対して予測が正解した割合を示す『Precision』とは異なる指標 • そのCalibrationについて実応用を見据えて適切な評価方法を提案したと いう位置づけ。詳細は把握しきれていないが本気で機械学習モデルを現 場導入するときに必要となるであろう研究が増えているように感じる 参照: http://openaccess.thecvf.com/content_CVPRW_2019/papers/Uncertainty%20and%20Robustness%20in%20Deep%2 0Visual%20Learning/Nixon_Measuring_Calibration_in_Deep_Learning_CVPRW_2019_paper.pdf