SlideShare une entreprise Scribd logo
1  sur  38
Télécharger pour lire hors ligne
深層学習にかかる時間を短くしてみませんか?
~分散学習の勧め~
ソニー株式会社
田中 義己
SSII 2019 - OS3 深層学習の高速化
Copyright 2019 Sony Corporation2019.06.142
Agenda
• 背景:学習規模の拡大
• 分散学習とは
• 分散学習を支えるテクニック
• 分散学習の始めてみる
• まとめ
Copyright 2019 Sony Corporation2019.06.143
背景
Copyright 2019 Sony Corporation2019.06.144
Facebook
インスタグラムの35億枚の写真を利用し、ImageNet で精度85.4%を実現
(通常のImageNetの学習は128万枚 * 90エポック=約1.1億枚相当で 76.8~9%)
336 GPU/42 Node, 22Days ※ 2018.5.2 F8 で発表
Copyright 2019 Sony Corporation2019.06.145
※ Y. Haung et al. GPipe: Efficient Training of Giant Neural Networks using Pipeline Parallelism, Google
精度改善のために一桁以上大きいモデルも登場
モデルを大きくすることで 84.3% の精度を達成
参考:ResNet-50 224 × 224 25M 76.4 92.9
Copyright 2019 Sony Corporation2019.06.146
Deep Learning 学習規模の拡大
活用・収集される
学習データは年々増加
入力画像の解像度の増加
■ 学習データの高精細化■ 学習データ量の増加 ■ 学習モデルのサイズ増加
より高度な処理の実現の為に
学習モデルサイズも増加
物体認識
物体検出
セグメンテーション
1024x2048
408x408
224x224
CAT
新産業構造ビジョン(H29.5.30経済産業省)より
世界のデータ量は2年毎に倍増
世界のデータセンターに保存されるデータ量 ※ Y. Haung et al. GPipe: Efficient Training of Giant Neural
Networks using Pipeline Parallelism, Google
Copyright 2019 Sony Corporation2019.06.147
学習高速化のアプローチ
H/W の進化 学習アルゴの進化 分散学習
• GPUはここ数年で
3-4倍の性能向上
• 学習専用チップの登場
• より早く学習を収束させ
るためのテクニックの提
案
• AWSなどのGPU環境
• GPUスパコンの台頭
本日の私のお話
Copyright 2019 Sony Corporation2019.06.148
スパコン Top500
Top10 の半分以上が GPU ベース。日本では ABCI(産総研)が Top10 入り!
Copyright 2019 Sony Corporation2019.06.149
ABCI 概要
• 産総研が主導する産官学プロジェクトABCI (AI Bridging
Cloud Infrastructure)
• AI特化型のスパコンであり、当初からTensorFlowや
Caffe、Chainerへの対応を想定
• 安価・超高効率なデータセンター構築ができるかどうかを
実証
• 構成
• NVIDIA Volta 4352基
• 理論ピーク性能
• FP16: 550 PFLOPS
• FP64: 37 PFLOPS
• ベンチマーク
• TOP500: 7位
• Green500: 4位
• 場所
• 東京大学・柏IIキャンパス
AI Bridging Cloud Infrastructure (ABCI)
東京大学/産総研
Copyright 2019 Sony Corporation2019.06.1410
ImageNet/ResNet-50 の学習時間
Batch Size Processor DL Library Time Accuracy
Microsoft(2015/12) 256 Tesla P100 x8 Caffe 29 hours 75.3%
Facebook(2017/6) 8K Tesla P100 x256 Caffe2 1 hour 76.3%
PFN(2017/11) 32K Tesla P100 x1024 Chainer 15 mins 74.9%
Tencent(2018/07) 64K Tesla P40 x2048 TensorFlow 6.6 mins 75.8%
SONY(2018/11) 34K->68K Tesla V100 x2176 NNL 3.7mins 75.03%
Google(2018/11) 32K TPU v3 x1024 TensorFlow 2.2 mins 76.3%
Google(2018/11) 64K TPU v3 x1024 TensorFlow 1.8 mins 75.2%
SONY(2019/03) 54K Tesla V100 x3456 NNL 2.0 mins 75.29%
Fujitsu(2019/04) 80K Tesla V100 x2048 MXNet 1.2 mins 75.08%
1400倍以上の
性能向上
• 1400万枚以上を越えるタグ付け画像
• タグは2万種類以上
ILSVRC2012(1000種類/128万枚)データセットによる学習時間記録
ImageNet
Copyright 2019 Sony Corporation2019.06.1411
分散学習とは
Copyright 2019 Sony Corporation2019.06.1412
DNN学習 (Deep Learning)
ミニバッチ学習
学習データセットを適度なサイズの “ミニバッチ” に分割し
学習を繰り返し(学習 Iteration) ながらパラメータ(重み)を更新していく
出力
学習済モデル
学習開始 学習終了
学習
学習データ
入力
DNNモデル
学習 Iteration
1つのworkerでミニバッチ学習
学習
GPU
GPU
GPU
N/W
CPU
この1回の学習データ量を
バッチサイズ(Batch Size)と呼ぶ
Copyright 2019 Sony Corporation2019.06.1413
分散学習:データパラレルとモデルパラレル
データパラレル モデルパラレル
Pros
負荷を均等に分割することが容易で処理のばらつき
が少なく、シンプルなシステム構成で実現できる。
各 worker で必要とするメモリを少なく抑えること
ができる。バッチサイズ増加を抑制する効果も。
Cons バッチサイズ増加による収束速度が劣化する。 各 worker の処理効率を高めるのが難しい。
データパラレル モデルパラレル
学習データ
DNNモデル
分割
学習データ
DNNモデル
分割
入力となる学習データを分割させて学習する方式 学習モデル自体を分割させて学習する方式
本日はデータパラレルのみ
Copyright 2019 Sony Corporation2019.06.1414
分散学習(データパラレル)と課題
複数workerでミニバッチ学習:学習後にパラメータ同期が必要
GPU
GPU
GPU
N/W
N/W
CPU
GPU
GPU
GPU
CPU
GPU
GPU
GPU
N/W
CPU
GPU
GPU
GPU
N/W
CPU
複数workerでのミニバッチ学習
GPU
GPU
GPU
N/W
N/W
CPU
GPU
GPU
GPU
CPU
GPU
GPU
GPU
N/W
CPU
GPU
GPU
GPU
N/W
CPU
マシン間で学習パラメータを同期
学習開始 学習終了
学習
同期
学習
学習
学習
学習
学習
パラメータ
学習
パラメータ
学習
パラメータ
学習
パラメータ
学習 Iteration
学習
学習
学習データ
入力
DNNモデル
出力
学習済モデル
同期
Copyright 2019 Sony Corporation2019.06.1415
分散学習(データパラレル)と課題
複数workerでミニバッチ学習:学習後にパラメータ同期が必要
GPU
GPU
GPU
N/W
N/W
CPU
GPU
GPU
GPU
CPU
GPU
GPU
GPU
N/W
CPU
GPU
GPU
GPU
N/W
CPU
複数workerでのミニバッチ学習
GPU
GPU
GPU
N/W
N/W
CPU
GPU
GPU
GPU
CPU
GPU
GPU
GPU
N/W
CPU
GPU
GPU
GPU
N/W
CPU
マシン間で学習パラメータを同期
学習開始 学習終了
学習
同期
学習
学習
学習
学習
学習
パラメータ
学習
パラメータ
学習
パラメータ
学習
パラメータ
学習 Iteration
学習
学習
学習データ
入力
DNNモデル
出力
学習済モデル
同期
課題②:
パラメータ同期処理の
オーバーヘッドにより、
学習時間が逆に増加する。
課題①:
Batch Size が大きくなる
(worker数倍)ことにより、
学習精度の劣化する。
Copyright 2019 Sony Corporation2019.06.1416
分散学習を支えるテクニック
Copyright 2019 Sony Corporation2019.06.1417
分散学習のテクニック
課題②:パラメータ同期処理のオー
バーヘッドによる学習時間の増加
課題①:Batch Size が大きくなるこ
とによる学習精度の劣化
HPC(スパコン)
• 高速集団通信/MPI
• GPUDirect, RDMA
ネットワーク/プロセッシング
• Gradient逐次転送
• Gradient量子化
• Gradientスパース化
パラメータ最適化
• ハイパーパラメータ探索
• モデル化
Deep Learning アルゴリズム
• SGD, Optimizer tuning
• Learning Rate Warm-up/Decay
• Batch Size Control
高速データ同期Large Batch 学習収束
Copyright 2019 Sony Corporation2019.06.1418
① Large Batch 学習収束のテクニック
Copyright 2019 Sony Corporation2019.06.1419
Large Batch 学習で精度劣化する要因
重みの更新回数が減少し
最適解に近づくのが難しくなる
𝑤𝑤𝑡𝑡+1
= 𝑤𝑤𝑡𝑡
−
𝜂𝜂
𝐵𝐵1
�
𝑥𝑥𝑖𝑖∈𝐵𝐵1
𝛻𝛻𝑙𝑙(𝑥𝑥𝑖𝑖, 𝑤𝑤𝑡𝑡
) 𝑤𝑤𝑡𝑡+1
= 𝑤𝑤𝑡𝑡
−
𝜂𝜂
2 𝐵𝐵1
�
𝑥𝑥𝑖𝑖∈𝐵𝐵2
𝛻𝛻𝑙𝑙 𝑥𝑥𝑖𝑖, 𝑤𝑤𝑡𝑡
解
𝑤𝑤 ∶ 重み
𝐵𝐵1 ∶ バッチサイズ
𝜂𝜂 ∶ 学習率(𝐿𝐿𝐿𝐿𝐿𝐿𝐿𝐿𝐿𝐿𝐿𝐿𝐿𝐿𝐿𝐿 𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟)
1 worker 2 workers
データが持つノイズが薄まるため
Sharp Minima に陥りやすくなる
※ N. S. Keskar et al. “On Large-Batch Training for Deep Learning:
Generalization Gap and Sharp Minima” ICLR 2017
Copyright 2019 Sony Corporation2019.06.1420
LR(Learning Rate) を減衰させる
例 step decay)
減衰するポイントの選び方:”Test-errorが下がらなくなったとき” とすることが多い
(1 worker の時でも有効、特に画像系タスク)
◯の部分(30, 60, 80 epoch後)で LR を1/10に減衰
他にも decay scheduling の手法あり
Learning Rate Decay
https://mxnet.incubator.apache.org/versions/master/tut
orials/gluon/learning_rate_schedules.html
Copyright 2019 Sony Corporation2019.06.1421
Learning Rate の調整
LR Warm-up なし
LR Warm-up あり
• Learning Rate Scaling
LRをworker数倍する
• Learning Rate Warm-up
初期数エポック間 LR を徐々に上昇させる
調整の例)
学習開始時の LRの値: 1 worker時の LR
最大値 LR = 初期値 * worker数 まで線形に増加
Copyright 2019 Sony Corporation2019.06.1422
LARS*
学習率を重みの変化比率に応じてレイヤ毎に決定
さらに学習率を連続的に減衰させる
* Y. You, I. Gitman and B. Ginsburg, "Large Batch Training of Convolutional Networks," arXiv:1708.03888, 2017.
最近の Large Batch の分散学習では標準的に利用されるテクニック
Copyright 2019 Sony Corporation2019.06.1423
Synced BN
※ https://hangzhang.org/PyTorch-Encoding/notes/syncbn.html
Non-Synced BN
Synced BN
Forward
Backward
Calculate the gradient of sum(x) and sum(𝑥𝑥2
) in each GPU.
複数のworker間に跨ってBNすることで、
BN の効果を最大化する方法
global mean : µ =
𝑠𝑠𝑠𝑠𝑠𝑠 𝑥𝑥
𝑁𝑁
, global variance : σ =
𝑠𝑠𝑠𝑠𝑠𝑠 𝑥𝑥2
𝑁𝑁
− µ2 + ε
𝑑𝑑𝑙𝑙
𝑑𝑑𝑠𝑠𝑠𝑠𝑠𝑠 𝑥𝑥 𝑘𝑘
,
𝑑𝑑𝑙𝑙
𝑑𝑑𝑠𝑠𝑠𝑠𝑠𝑠 𝑥𝑥2
𝑘𝑘
Calculate the gradient of 𝑠𝑠𝑠𝑠𝑠𝑠 𝑥𝑥 and 𝑠𝑠𝑠𝑠𝑠𝑠 𝑥𝑥2
Copyright 2019 Sony Corporation2019.06.1424
Batch-size Control
より沢山のGPUを利用する為に、学習の途中でBatch Size を増加させる
GPU数が 100~1000基以上になってくると有効
学習初期
Lossの変化が激しい
バッチサイズが大きいと振れ幅が大きく
Lossが安定して下がらない
バッチサイズを小さくする
学習終盤
Lossの変化がなだらか
バッチサイズが大きくても振れ幅が小さく
Lossが安定して下がる
バッチサイズを上げられる
仮説:Lossの傾きからバッチサイズの最大値を導く
0
2
4
6
8
10
1 11 21 31 41 51 61 71 81 エポック
TrainingLoss
34K
1088
68K
2176
85K
2720
119K
3808
バッチサイズ:
#GPUs:
Lossの傾きに応じて
バッチサイズを増加
e.g.) ImageNet/ResNet-50での最大3808GPU利用した学習の収束
Copyright 2019 Sony Corporation2019.06.1425
② 高速データ同期のテクニック
Copyright 2019 Sony Corporation2019.06.1426
Gradient 逐次転送
学習しながら勾配同期を行うことで同期オーバーヘッドを限りなく0にする
BackwardForward Update
Gradient Sync Sync Sync勾配同期
学習処理
学習
同期
出力
学習済モデル
学習開始 学習終了
学習データ
入力
DNNモデル
学習 Iteration
学習(Backward)が完了した Layer から順に、勾配(Gradient)を他のマシンに同期(送信)
Copyright 2019 Sony Corporation2019.06.1427
Deep Gradient Compression* (Gradient スパース化)
■ レイヤー毎に閾値処理で送信するGradientを抽出
• |𝑮𝑮𝒊𝒊| > 𝒕𝒕𝒕𝒕𝒕𝒕𝒕𝒕𝒕𝒕𝒕𝒕𝒕𝒕𝒕𝒕 𝒕𝒕 ⇒ 送信
• |𝑮𝑮𝒊𝒊| ≤ 𝒕𝒕𝒕𝒕𝒕𝒕𝒕𝒕𝒕𝒕𝒕𝒕𝒕𝒕𝒕𝒕 𝒕𝒕 ⇒ 送信せず残して次のイテレーションに持ち越す
Thresholdの決め方:イテレーション毎に X%送信できるような Threshold を探す。
▶ 送信されずに残った Gradient により収束劣化が発生する可能性がある
■ 収束劣化を防ぐテクニック
• Momentum Correction
• Local Gradient Clipping
• Momentum Factor Masking
• Warmup Training
* Yujun Lin, Song Han, Huizi Mao, Yu Wang, William J. Dally, Deep Gradient Compression: Reducing the Communication Bandwidth for Distributed Training, arXiv:1712.01887
Copyright 2019 Sony Corporation2019.06.1428
高速集団通信/MPI
Ring All-Reduce
帯域幅を最大限に有効活用できる方法
ただし、GPU数の増加に伴いレイテンシが増加
全GPUを RING 上に論理的に配置
2D-Torus All-Reduce
2次元にGPUを仮想的に配置し、複数のRingを
Torus状に構成する(2D-Torus)
• 通信回数を 4( 𝑁𝑁 − 1) に削減 (X=Y= 𝑁𝑁の時)
2D-Torus による Ring 構成
• GPU数をNとすると、2(N-1)回の通信が発生
Copyright 2019 Sony Corporation2019.06.1429
2D-Torus All-Reduce による勾配同期
2D-Torus 上で行方向・列方向それぞれに集合通信を行う
例)
1 2 3 4 5 6 7 8
9 10 11 12 13 14 15 16
I. Reduce-Scatter in the horizontal direction
6 8 3 4 5 6 10 12
22 24 11 12 13 14 26 28
28 32 3 4 5 6 36 40
28 32 11 12 13 14 36 40
28 32 36 40 28 32 36 40
28 32 36 40 28 32 36 40
II. All-Reduce in the vertical direction
III. All-Gather in the horizontal direction IV. Completed
Add
Copy
Add
Copy
Add
GPU0 GPU1 GPU0
GPU2 GPU3
GPU1
GPU2 GPU3
GPU0 GPU1
GPU2 GPU3
GPU0 GPU1
GPU2 GPU3
Add
Copyright 2019 Sony Corporation2019.06.1430
2D-Torus All-Reduce による勾配同期
2D-Torus 上で行方向・列方向それぞれに集合通信を行う
例)
1 2 3 4 5 6 7 8
9 10 11 12 13 14 15 16
I. Reduce-Scatter in the horizontal direction
6 8 3 4 5 6 10 12
22 24 11 12 13 14 26 28
28 32 3 4 5 6 36 40
28 32 11 12 13 14 36 40
28 32 36 40 28 32 36 40
28 32 36 40 28 32 36 40
II. All-Reduce in the vertical direction
III. All-Gather in the horizontal direction IV. Completed
Add
Copy
Add
Copy
Add
GPU0 GPU1 GPU0
GPU2 GPU3
GPU1
GPU2 GPU3
GPU0 GPU1
GPU2 GPU3
GPU0 GPU1
GPU2 GPU3
Add
列数 ≒ < 𝑮𝑮𝑮𝑮𝑮𝑮数 >なので、
< 𝐺𝐺𝐺𝐺𝐺𝐺数 >のRing All-Reduceと同等
⇒ ( < 𝑮𝑮𝑮𝑮𝑮𝑮数 >-1) 回の転送
行数 ≒ < 𝑮𝑮𝑮𝑮𝑮𝑮数 >なので、
< 𝐺𝐺𝐺𝐺𝐺𝐺数 >のRing All-Reduce
⇒ 2( < 𝑮𝑮𝑮𝑮𝑮𝑮数 >-1) 回の転送
列数 ≒ < 𝑮𝑮𝑮𝑮𝑮𝑮数 >なので、
< 𝐺𝐺𝐺𝐺𝐺𝐺数 >のRing All-Reduceと同等
⇒ ( < 𝑮𝑮𝑮𝑮𝑮𝑮数 >-1) 回の転送
合計のホップ数を𝟐𝟐 < 𝑮𝑮𝑮𝑮𝑮𝑮数 > −𝟏𝟏 回
から𝟒𝟒 < 𝑮𝑮𝑮𝑮𝑮𝑮数 >− 𝟏𝟏 回へ削減できる
Copyright 2019 Sony Corporation2019.06.1431
分散学習を始めてみる
Copyright 2019 Sony Corporation2019.06.1432
分散学習の始め方
1 Node, 1 GPU
GPU
GPU
GPU
N/W
N/W
CPU
GPU
GPU
GPU
CPU
GPU
GPU
GPU
N/W
CPU
GPU
GPU
GPU
N/W
CPU
学習
学習
学習
学習
1 Node, Multi GPU Multi Node, Multi GPU
GPU
GPU
GPU
CPU
学習
GPU
CPU
学習
1 Node, Multi(2-4) GPU でやってみる
これくらいなら精度劣化の発生は限定的になるケースが多いと思われる
なれたら Multi Node, Multi GPU へ
Copyright 2019 Sony Corporation2019.06.1433
環境整備:インフラ
• 手元のマシンにGPUを複数枚挿す
一番お手軽でコスト的に安い
※ 筐体/電源/CPU等のスペックよって動作するGPU数が制限される
• パブリッククラウド
AWS:p3.8xlarge (V100 4基), p3.16xlarge (V100 8基)
※ スポットインスタンスを活用するなどして料金を節約!
• GPUスパコンの利用
国内なら TSUBAME, ABCI など
※ 利用目的など利用要件を満たせは利用可能
34
Neural Network Console
商用クオリティのDeep Learning応用技術(画像認識機等)開発のための統合開発環境
コーディングレスで効率の良いDeep Learningの研究開発を実現
クラウド版(CPU 10時間まで無償)Windows版(無償)
dl.sony.com
インストールするだけ、もしくはサインアップするだけで本格的なDeep Learning開発が可能
成果物はオープンソースのNeural Network Librariesを用いて製品、サービス等への組み込みが可能
Copyright 2019 Sony Corporation2019.06.1435
マルチGPU環境の提供(Neural Network Console Cloud版)
• ニューラルネットワークの学習には膨大な演算が必要
• 必要な演算量は主に扱うデータの量とニューラルネットワークの
構造に依存
• GPU、マルチGPUを用いると、学習完了までの時間を
大幅に短縮できる
• ネットワークにもよるが、10倍~数百倍高速に学習できる
• 同じ開発期間でより多くの試行錯誤を行うことが可能に
• 環境のセットアップ、メンテナンス作業不要で豊富な
GPUリソースを利用可能
• 開発者はDeep Learningの開発作業に集中できる
「1ジョブあたり8GPU×無制限の並列利用」をGUI環境から利用可能
※計算リソース利用料は
学習・評価実行中のみの従量課金
Copyright 2019 Sony Corporation2019.06.1436
まとめ
Copyright 2019 Sony Corporation2019.06.1437
まとめ
• 分散学習
Deep Learning の学習を高速化する手段の1つとして有効
• 分散学習のポイント
Large Batch で如何に学習を収束させるか
worker間でのパラメータ同期を如何に速く行うか
→ その解決にいろいろなテクニックが存在する
• 分散学習の始め方
まず 1マシン 2-4GPUくらいから始めてみる
SONYはソニー株式会社の登録商標または商標です。
各ソニー製品の商品名・サービス名はソニー株式会社またはグループ各社の登録商標または商標です。その他の製品および会社名は、各社の商号、登録商標または商標です。

Contenu connexe

Tendances

【メタサーベイ】Video Transformer
 【メタサーベイ】Video Transformer 【メタサーベイ】Video Transformer
【メタサーベイ】Video Transformercvpaper. challenge
 
強化学習における好奇心
強化学習における好奇心強化学習における好奇心
強化学習における好奇心Shota Imai
 
Skip Connection まとめ(Neural Network)
Skip Connection まとめ(Neural Network)Skip Connection まとめ(Neural Network)
Skip Connection まとめ(Neural Network)Yamato OKAMOTO
 
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
【DL輪読会】Efficiently Modeling Long Sequences with Structured State SpacesDeep Learning JP
 
Transformer メタサーベイ
Transformer メタサーベイTransformer メタサーベイ
Transformer メタサーベイcvpaper. challenge
 
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法SSII
 
[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision
[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision
[DL輪読会]Learning Transferable Visual Models From Natural Language SupervisionDeep Learning JP
 
GAN(と強化学習との関係)
GAN(と強化学習との関係)GAN(と強化学習との関係)
GAN(と強化学習との関係)Masahiro Suzuki
 
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"Deep Learning JP
 
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向SSII
 
モデル高速化百選
モデル高速化百選モデル高速化百選
モデル高速化百選Yusuke Uchida
 
Deep Learningによる超解像の進歩
Deep Learningによる超解像の進歩Deep Learningによる超解像の進歩
Deep Learningによる超解像の進歩Hiroto Honda
 
Layer Normalization@NIPS+読み会・関西
Layer Normalization@NIPS+読み会・関西Layer Normalization@NIPS+読み会・関西
Layer Normalization@NIPS+読み会・関西Keigo Nishida
 
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose EstimationDeep Learning JP
 
深層学習の数理
深層学習の数理深層学習の数理
深層学習の数理Taiji Suzuki
 
画像生成・生成モデル メタサーベイ
画像生成・生成モデル メタサーベイ画像生成・生成モデル メタサーベイ
画像生成・生成モデル メタサーベイcvpaper. challenge
 
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜SSII
 
画像認識と深層学習
画像認識と深層学習画像認識と深層学習
画像認識と深層学習Yusuke Uchida
 
【DL輪読会】Hyena Hierarchy: Towards Larger Convolutional Language Models
【DL輪読会】Hyena Hierarchy: Towards Larger Convolutional Language Models【DL輪読会】Hyena Hierarchy: Towards Larger Convolutional Language Models
【DL輪読会】Hyena Hierarchy: Towards Larger Convolutional Language ModelsDeep Learning JP
 

Tendances (20)

【メタサーベイ】Video Transformer
 【メタサーベイ】Video Transformer 【メタサーベイ】Video Transformer
【メタサーベイ】Video Transformer
 
強化学習における好奇心
強化学習における好奇心強化学習における好奇心
強化学習における好奇心
 
Skip Connection まとめ(Neural Network)
Skip Connection まとめ(Neural Network)Skip Connection まとめ(Neural Network)
Skip Connection まとめ(Neural Network)
 
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
 
Transformer メタサーベイ
Transformer メタサーベイTransformer メタサーベイ
Transformer メタサーベイ
 
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
 
[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision
[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision
[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision
 
GAN(と強化学習との関係)
GAN(と強化学習との関係)GAN(と強化学習との関係)
GAN(と強化学習との関係)
 
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
 
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
 
モデル高速化百選
モデル高速化百選モデル高速化百選
モデル高速化百選
 
Deep Learningによる超解像の進歩
Deep Learningによる超解像の進歩Deep Learningによる超解像の進歩
Deep Learningによる超解像の進歩
 
Group normalization
Group normalizationGroup normalization
Group normalization
 
Layer Normalization@NIPS+読み会・関西
Layer Normalization@NIPS+読み会・関西Layer Normalization@NIPS+読み会・関西
Layer Normalization@NIPS+読み会・関西
 
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
 
深層学習の数理
深層学習の数理深層学習の数理
深層学習の数理
 
画像生成・生成モデル メタサーベイ
画像生成・生成モデル メタサーベイ画像生成・生成モデル メタサーベイ
画像生成・生成モデル メタサーベイ
 
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
 
画像認識と深層学習
画像認識と深層学習画像認識と深層学習
画像認識と深層学習
 
【DL輪読会】Hyena Hierarchy: Towards Larger Convolutional Language Models
【DL輪読会】Hyena Hierarchy: Towards Larger Convolutional Language Models【DL輪読会】Hyena Hierarchy: Towards Larger Convolutional Language Models
【DL輪読会】Hyena Hierarchy: Towards Larger Convolutional Language Models
 

Similaire à SSII2019OS: 深層学習にかかる時間を短くしてみませんか? ~分散学習の勧め~

SSII2018TS: 大規模深層学習
SSII2018TS: 大規模深層学習SSII2018TS: 大規模深層学習
SSII2018TS: 大規模深層学習SSII
 
DAシンポジウム2019招待講演「深層学習モデルの高速なTraining/InferenceのためのHW/SW技術」 金子紘也hare
DAシンポジウム2019招待講演「深層学習モデルの高速なTraining/InferenceのためのHW/SW技術」 金子紘也hareDAシンポジウム2019招待講演「深層学習モデルの高速なTraining/InferenceのためのHW/SW技術」 金子紘也hare
DAシンポジウム2019招待講演「深層学習モデルの高速なTraining/InferenceのためのHW/SW技術」 金子紘也harePreferred Networks
 
(文献紹介)Depth Completionの最新動向
(文献紹介)Depth Completionの最新動向(文献紹介)Depth Completionの最新動向
(文献紹介)Depth Completionの最新動向Morpho, Inc.
 
サイボウズ・ラボユース成果発表会資料
サイボウズ・ラボユース成果発表会資料サイボウズ・ラボユース成果発表会資料
サイボウズ・ラボユース成果発表会資料masahiro13
 
GraalVM の概要と、Native Image 化によるSpring Boot 爆速化の夢
GraalVM の概要と、Native Image 化によるSpring Boot 爆速化の夢GraalVM の概要と、Native Image 化によるSpring Boot 爆速化の夢
GraalVM の概要と、Native Image 化によるSpring Boot 爆速化の夢apkiban
 
MII conference177 nvidia
MII conference177 nvidiaMII conference177 nvidia
MII conference177 nvidiaTak Izaki
 
[DL輪読会]Convolutional Sequence to Sequence Learning
[DL輪読会]Convolutional Sequence to Sequence Learning[DL輪読会]Convolutional Sequence to Sequence Learning
[DL輪読会]Convolutional Sequence to Sequence LearningDeep Learning JP
 
DLLAB Engineer Days:AIチームが履歴やリソース管理で疲弊してたので開発基盤作ってOSS化した話
DLLAB Engineer Days:AIチームが履歴やリソース管理で疲弊してたので開発基盤作ってOSS化した話DLLAB Engineer Days:AIチームが履歴やリソース管理で疲弊してたので開発基盤作ってOSS化した話
DLLAB Engineer Days:AIチームが履歴やリソース管理で疲弊してたので開発基盤作ってOSS化した話Kamonohashi
 
CVPR2018 pix2pixHD論文紹介 (CV勉強会@関東)
CVPR2018 pix2pixHD論文紹介 (CV勉強会@関東)CVPR2018 pix2pixHD論文紹介 (CV勉強会@関東)
CVPR2018 pix2pixHD論文紹介 (CV勉強会@関東)Tenki Lee
 
【A-1】AIを支えるGPUコンピューティングの今
【A-1】AIを支えるGPUコンピューティングの今【A-1】AIを支えるGPUコンピューティングの今
【A-1】AIを支えるGPUコンピューティングの今Developers Summit
 
2012-03-08 MSS研究会
2012-03-08 MSS研究会2012-03-08 MSS研究会
2012-03-08 MSS研究会Kimikazu Kato
 
機械学習プロジェクトにおける Cloud AI Platform の使い方 (2018-11-19)
機械学習プロジェクトにおける Cloud AI Platform の使い方 (2018-11-19)機械学習プロジェクトにおける Cloud AI Platform の使い方 (2018-11-19)
機械学習プロジェクトにおける Cloud AI Platform の使い方 (2018-11-19)Yaboo Oyabu
 
CEDEC 2007 ゲーム開発者向け最新技術論文の解説・実装講座
CEDEC 2007 ゲーム開発者向け最新技術論文の解説・実装講座CEDEC 2007 ゲーム開発者向け最新技術論文の解説・実装講座
CEDEC 2007 ゲーム開発者向け最新技術論文の解説・実装講座Silicon Studio Corporation
 
第1回 配信講義 計算科学技術特論A (2021)
第1回 配信講義 計算科学技術特論A (2021)第1回 配信講義 計算科学技術特論A (2021)
第1回 配信講義 計算科学技術特論A (2021)RCCSRENKEI
 
え、まって。その並列分散処理、Kafkaのしくみでもできるの? Apache Kafkaの機能を利用した大規模ストリームデータの並列分散処理
え、まって。その並列分散処理、Kafkaのしくみでもできるの? Apache Kafkaの機能を利用した大規模ストリームデータの並列分散処理え、まって。その並列分散処理、Kafkaのしくみでもできるの? Apache Kafkaの機能を利用した大規模ストリームデータの並列分散処理
え、まって。その並列分散処理、Kafkaのしくみでもできるの? Apache Kafkaの機能を利用した大規模ストリームデータの並列分散処理NTT DATA Technology & Innovation
 
GPUディープラーニング最新情報
GPUディープラーニング最新情報GPUディープラーニング最新情報
GPUディープラーニング最新情報ReNom User Group
 
明日から始める! ソフトウェアのグリーン化(GSF MeetUp Tokyo 発表資料)
明日から始める! ソフトウェアのグリーン化(GSF MeetUp Tokyo 発表資料)明日から始める! ソフトウェアのグリーン化(GSF MeetUp Tokyo 発表資料)
明日から始める! ソフトウェアのグリーン化(GSF MeetUp Tokyo 発表資料)NTT DATA Technology & Innovation
 
ICLR2018におけるモデル軽量化(ICLR2018読み会@ PFN)
ICLR2018におけるモデル軽量化(ICLR2018読み会@ PFN)ICLR2018におけるモデル軽量化(ICLR2018読み会@ PFN)
ICLR2018におけるモデル軽量化(ICLR2018読み会@ PFN)tomohiro kato
 
20170421 tensor flowusergroup
20170421 tensor flowusergroup20170421 tensor flowusergroup
20170421 tensor flowusergroupManaMurakami1
 

Similaire à SSII2019OS: 深層学習にかかる時間を短くしてみませんか? ~分散学習の勧め~ (20)

SSII2018TS: 大規模深層学習
SSII2018TS: 大規模深層学習SSII2018TS: 大規模深層学習
SSII2018TS: 大規模深層学習
 
DAシンポジウム2019招待講演「深層学習モデルの高速なTraining/InferenceのためのHW/SW技術」 金子紘也hare
DAシンポジウム2019招待講演「深層学習モデルの高速なTraining/InferenceのためのHW/SW技術」 金子紘也hareDAシンポジウム2019招待講演「深層学習モデルの高速なTraining/InferenceのためのHW/SW技術」 金子紘也hare
DAシンポジウム2019招待講演「深層学習モデルの高速なTraining/InferenceのためのHW/SW技術」 金子紘也hare
 
(文献紹介)Depth Completionの最新動向
(文献紹介)Depth Completionの最新動向(文献紹介)Depth Completionの最新動向
(文献紹介)Depth Completionの最新動向
 
サイボウズ・ラボユース成果発表会資料
サイボウズ・ラボユース成果発表会資料サイボウズ・ラボユース成果発表会資料
サイボウズ・ラボユース成果発表会資料
 
GraalVM の概要と、Native Image 化によるSpring Boot 爆速化の夢
GraalVM の概要と、Native Image 化によるSpring Boot 爆速化の夢GraalVM の概要と、Native Image 化によるSpring Boot 爆速化の夢
GraalVM の概要と、Native Image 化によるSpring Boot 爆速化の夢
 
MII conference177 nvidia
MII conference177 nvidiaMII conference177 nvidia
MII conference177 nvidia
 
UE4を用いたTPS制作事例 EDF:IR アニメーション作成事例紹介
UE4を用いたTPS制作事例 EDF:IR アニメーション作成事例紹介UE4を用いたTPS制作事例 EDF:IR アニメーション作成事例紹介
UE4を用いたTPS制作事例 EDF:IR アニメーション作成事例紹介
 
[DL輪読会]Convolutional Sequence to Sequence Learning
[DL輪読会]Convolutional Sequence to Sequence Learning[DL輪読会]Convolutional Sequence to Sequence Learning
[DL輪読会]Convolutional Sequence to Sequence Learning
 
DLLAB Engineer Days:AIチームが履歴やリソース管理で疲弊してたので開発基盤作ってOSS化した話
DLLAB Engineer Days:AIチームが履歴やリソース管理で疲弊してたので開発基盤作ってOSS化した話DLLAB Engineer Days:AIチームが履歴やリソース管理で疲弊してたので開発基盤作ってOSS化した話
DLLAB Engineer Days:AIチームが履歴やリソース管理で疲弊してたので開発基盤作ってOSS化した話
 
CVPR2018 pix2pixHD論文紹介 (CV勉強会@関東)
CVPR2018 pix2pixHD論文紹介 (CV勉強会@関東)CVPR2018 pix2pixHD論文紹介 (CV勉強会@関東)
CVPR2018 pix2pixHD論文紹介 (CV勉強会@関東)
 
【A-1】AIを支えるGPUコンピューティングの今
【A-1】AIを支えるGPUコンピューティングの今【A-1】AIを支えるGPUコンピューティングの今
【A-1】AIを支えるGPUコンピューティングの今
 
2012-03-08 MSS研究会
2012-03-08 MSS研究会2012-03-08 MSS研究会
2012-03-08 MSS研究会
 
機械学習プロジェクトにおける Cloud AI Platform の使い方 (2018-11-19)
機械学習プロジェクトにおける Cloud AI Platform の使い方 (2018-11-19)機械学習プロジェクトにおける Cloud AI Platform の使い方 (2018-11-19)
機械学習プロジェクトにおける Cloud AI Platform の使い方 (2018-11-19)
 
CEDEC 2007 ゲーム開発者向け最新技術論文の解説・実装講座
CEDEC 2007 ゲーム開発者向け最新技術論文の解説・実装講座CEDEC 2007 ゲーム開発者向け最新技術論文の解説・実装講座
CEDEC 2007 ゲーム開発者向け最新技術論文の解説・実装講座
 
第1回 配信講義 計算科学技術特論A (2021)
第1回 配信講義 計算科学技術特論A (2021)第1回 配信講義 計算科学技術特論A (2021)
第1回 配信講義 計算科学技術特論A (2021)
 
え、まって。その並列分散処理、Kafkaのしくみでもできるの? Apache Kafkaの機能を利用した大規模ストリームデータの並列分散処理
え、まって。その並列分散処理、Kafkaのしくみでもできるの? Apache Kafkaの機能を利用した大規模ストリームデータの並列分散処理え、まって。その並列分散処理、Kafkaのしくみでもできるの? Apache Kafkaの機能を利用した大規模ストリームデータの並列分散処理
え、まって。その並列分散処理、Kafkaのしくみでもできるの? Apache Kafkaの機能を利用した大規模ストリームデータの並列分散処理
 
GPUディープラーニング最新情報
GPUディープラーニング最新情報GPUディープラーニング最新情報
GPUディープラーニング最新情報
 
明日から始める! ソフトウェアのグリーン化(GSF MeetUp Tokyo 発表資料)
明日から始める! ソフトウェアのグリーン化(GSF MeetUp Tokyo 発表資料)明日から始める! ソフトウェアのグリーン化(GSF MeetUp Tokyo 発表資料)
明日から始める! ソフトウェアのグリーン化(GSF MeetUp Tokyo 発表資料)
 
ICLR2018におけるモデル軽量化(ICLR2018読み会@ PFN)
ICLR2018におけるモデル軽量化(ICLR2018読み会@ PFN)ICLR2018におけるモデル軽量化(ICLR2018読み会@ PFN)
ICLR2018におけるモデル軽量化(ICLR2018読み会@ PFN)
 
20170421 tensor flowusergroup
20170421 tensor flowusergroup20170421 tensor flowusergroup
20170421 tensor flowusergroup
 

Plus de SSII

SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​SSII
 
SSII2022 [TS3] コンテンツ制作を支援する機械学習技術​〜 イラストレーションやデザインの基礎から最新鋭の技術まで 〜​
SSII2022 [TS3] コンテンツ制作を支援する機械学習技術​〜 イラストレーションやデザインの基礎から最新鋭の技術まで 〜​SSII2022 [TS3] コンテンツ制作を支援する機械学習技術​〜 イラストレーションやデザインの基礎から最新鋭の技術まで 〜​
SSII2022 [TS3] コンテンツ制作を支援する機械学習技術​〜 イラストレーションやデザインの基礎から最新鋭の技術まで 〜​SSII
 
SSII2022 [TS2] 自律移動ロボットのためのロボットビジョン〜 オープンソースの自動運転ソフトAutowareを解説 〜
SSII2022 [TS2] 自律移動ロボットのためのロボットビジョン〜 オープンソースの自動運転ソフトAutowareを解説 〜SSII2022 [TS2] 自律移動ロボットのためのロボットビジョン〜 オープンソースの自動運転ソフトAutowareを解説 〜
SSII2022 [TS2] 自律移動ロボットのためのロボットビジョン〜 オープンソースの自動運転ソフトAutowareを解説 〜SSII
 
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜SSII
 
SSII2022 [OS3-04] Human-in-the-Loop 機械学習
SSII2022 [OS3-04] Human-in-the-Loop 機械学習SSII2022 [OS3-04] Human-in-the-Loop 機械学習
SSII2022 [OS3-04] Human-in-the-Loop 機械学習SSII
 
SSII2022 [OS3-03] スケーラブルなロボット学習システムに向けて
SSII2022 [OS3-03] スケーラブルなロボット学習システムに向けてSSII2022 [OS3-03] スケーラブルなロボット学習システムに向けて
SSII2022 [OS3-03] スケーラブルなロボット学習システムに向けてSSII
 
SSII2022 [OS3-02] Federated Learningの基礎と応用
SSII2022 [OS3-02] Federated Learningの基礎と応用SSII2022 [OS3-02] Federated Learningの基礎と応用
SSII2022 [OS3-02] Federated Learningの基礎と応用SSII
 
SSII2022 [OS3-01] 深層学習のための効率的なデータ収集と活用
SSII2022 [OS3-01] 深層学習のための効率的なデータ収集と活用SSII2022 [OS3-01] 深層学習のための効率的なデータ収集と活用
SSII2022 [OS3-01] 深層学習のための効率的なデータ収集と活用SSII
 
SSII2022 [OS2-01] イメージング最前線
SSII2022 [OS2-01] イメージング最前線SSII2022 [OS2-01] イメージング最前線
SSII2022 [OS2-01] イメージング最前線SSII
 
SSII2022 [OS1-01] AI時代のチームビルディング
SSII2022 [OS1-01] AI時代のチームビルディングSSII2022 [OS1-01] AI時代のチームビルディング
SSII2022 [OS1-01] AI時代のチームビルディングSSII
 
SSII2021 [SS2] Deepfake Generation and Detection – An Overview (ディープフェイクの生成と検出)
SSII2021 [SS2] Deepfake Generation and Detection – An Overview (ディープフェイクの生成と検出)SSII2021 [SS2] Deepfake Generation and Detection – An Overview (ディープフェイクの生成と検出)
SSII2021 [SS2] Deepfake Generation and Detection – An Overview (ディープフェイクの生成と検出)SSII
 
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...SSII
 
SSII2021 [TS3] 機械学習のアノテーションにおける データ収集​ 〜 精度向上のための仕組み・倫理や社会性バイアス 〜
SSII2021 [TS3] 機械学習のアノテーションにおける データ収集​ 〜 精度向上のための仕組み・倫理や社会性バイアス 〜SSII2021 [TS3] 機械学習のアノテーションにおける データ収集​ 〜 精度向上のための仕組み・倫理や社会性バイアス 〜
SSII2021 [TS3] 機械学習のアノテーションにおける データ収集​ 〜 精度向上のための仕組み・倫理や社会性バイアス 〜SSII
 
SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜
SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜
SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜SSII
 
SSII2021 [TS1] Visual SLAM ~カメラ幾何の基礎から最近の技術動向まで~
SSII2021 [TS1] Visual SLAM ~カメラ幾何の基礎から最近の技術動向まで~SSII2021 [TS1] Visual SLAM ~カメラ幾何の基礎から最近の技術動向まで~
SSII2021 [TS1] Visual SLAM ~カメラ幾何の基礎から最近の技術動向まで~SSII
 
SSII2021 [OS3-03] 画像と点群を用いた、森林という広域空間のゾーニングと施業管理
SSII2021 [OS3-03] 画像と点群を用いた、森林という広域空間のゾーニングと施業管理SSII2021 [OS3-03] 画像と点群を用いた、森林という広域空間のゾーニングと施業管理
SSII2021 [OS3-03] 画像と点群を用いた、森林という広域空間のゾーニングと施業管理SSII
 
SSII2021 [OS3-02] BIM/CIMにおいて安価に点群を取得する目的とその利活用
SSII2021 [OS3-02] BIM/CIMにおいて安価に点群を取得する目的とその利活用SSII2021 [OS3-02] BIM/CIMにおいて安価に点群を取得する目的とその利活用
SSII2021 [OS3-02] BIM/CIMにおいて安価に点群を取得する目的とその利活用SSII
 
SSII2021 [OS3-01] 設備や環境の高品質計測点群取得と自動モデル化技術
SSII2021 [OS3-01] 設備や環境の高品質計測点群取得と自動モデル化技術SSII2021 [OS3-01] 設備や環境の高品質計測点群取得と自動モデル化技術
SSII2021 [OS3-01] 設備や環境の高品質計測点群取得と自動モデル化技術SSII
 
SSII2021 [OS3] 広域環境の3D計測と認識 ~ 人が活動する場のセンシングとモデル化 ~(オーガナイザーによる冒頭の導入)
SSII2021 [OS3] 広域環境の3D計測と認識 ~ 人が活動する場のセンシングとモデル化 ~(オーガナイザーによる冒頭の導入)SSII2021 [OS3] 広域環境の3D計測と認識 ~ 人が活動する場のセンシングとモデル化 ~(オーガナイザーによる冒頭の導入)
SSII2021 [OS3] 広域環境の3D計測と認識 ~ 人が活動する場のセンシングとモデル化 ~(オーガナイザーによる冒頭の導入)SSII
 
SSII2021 [OS2-03] 自己教師あり学習における対照学習の基礎と応用
SSII2021 [OS2-03] 自己教師あり学習における対照学習の基礎と応用SSII2021 [OS2-03] 自己教師あり学習における対照学習の基礎と応用
SSII2021 [OS2-03] 自己教師あり学習における対照学習の基礎と応用SSII
 

Plus de SSII (20)

SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
 
SSII2022 [TS3] コンテンツ制作を支援する機械学習技術​〜 イラストレーションやデザインの基礎から最新鋭の技術まで 〜​
SSII2022 [TS3] コンテンツ制作を支援する機械学習技術​〜 イラストレーションやデザインの基礎から最新鋭の技術まで 〜​SSII2022 [TS3] コンテンツ制作を支援する機械学習技術​〜 イラストレーションやデザインの基礎から最新鋭の技術まで 〜​
SSII2022 [TS3] コンテンツ制作を支援する機械学習技術​〜 イラストレーションやデザインの基礎から最新鋭の技術まで 〜​
 
SSII2022 [TS2] 自律移動ロボットのためのロボットビジョン〜 オープンソースの自動運転ソフトAutowareを解説 〜
SSII2022 [TS2] 自律移動ロボットのためのロボットビジョン〜 オープンソースの自動運転ソフトAutowareを解説 〜SSII2022 [TS2] 自律移動ロボットのためのロボットビジョン〜 オープンソースの自動運転ソフトAutowareを解説 〜
SSII2022 [TS2] 自律移動ロボットのためのロボットビジョン〜 オープンソースの自動運転ソフトAutowareを解説 〜
 
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
 
SSII2022 [OS3-04] Human-in-the-Loop 機械学習
SSII2022 [OS3-04] Human-in-the-Loop 機械学習SSII2022 [OS3-04] Human-in-the-Loop 機械学習
SSII2022 [OS3-04] Human-in-the-Loop 機械学習
 
SSII2022 [OS3-03] スケーラブルなロボット学習システムに向けて
SSII2022 [OS3-03] スケーラブルなロボット学習システムに向けてSSII2022 [OS3-03] スケーラブルなロボット学習システムに向けて
SSII2022 [OS3-03] スケーラブルなロボット学習システムに向けて
 
SSII2022 [OS3-02] Federated Learningの基礎と応用
SSII2022 [OS3-02] Federated Learningの基礎と応用SSII2022 [OS3-02] Federated Learningの基礎と応用
SSII2022 [OS3-02] Federated Learningの基礎と応用
 
SSII2022 [OS3-01] 深層学習のための効率的なデータ収集と活用
SSII2022 [OS3-01] 深層学習のための効率的なデータ収集と活用SSII2022 [OS3-01] 深層学習のための効率的なデータ収集と活用
SSII2022 [OS3-01] 深層学習のための効率的なデータ収集と活用
 
SSII2022 [OS2-01] イメージング最前線
SSII2022 [OS2-01] イメージング最前線SSII2022 [OS2-01] イメージング最前線
SSII2022 [OS2-01] イメージング最前線
 
SSII2022 [OS1-01] AI時代のチームビルディング
SSII2022 [OS1-01] AI時代のチームビルディングSSII2022 [OS1-01] AI時代のチームビルディング
SSII2022 [OS1-01] AI時代のチームビルディング
 
SSII2021 [SS2] Deepfake Generation and Detection – An Overview (ディープフェイクの生成と検出)
SSII2021 [SS2] Deepfake Generation and Detection – An Overview (ディープフェイクの生成と検出)SSII2021 [SS2] Deepfake Generation and Detection – An Overview (ディープフェイクの生成と検出)
SSII2021 [SS2] Deepfake Generation and Detection – An Overview (ディープフェイクの生成と検出)
 
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...
 
SSII2021 [TS3] 機械学習のアノテーションにおける データ収集​ 〜 精度向上のための仕組み・倫理や社会性バイアス 〜
SSII2021 [TS3] 機械学習のアノテーションにおける データ収集​ 〜 精度向上のための仕組み・倫理や社会性バイアス 〜SSII2021 [TS3] 機械学習のアノテーションにおける データ収集​ 〜 精度向上のための仕組み・倫理や社会性バイアス 〜
SSII2021 [TS3] 機械学習のアノテーションにおける データ収集​ 〜 精度向上のための仕組み・倫理や社会性バイアス 〜
 
SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜
SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜
SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜
 
SSII2021 [TS1] Visual SLAM ~カメラ幾何の基礎から最近の技術動向まで~
SSII2021 [TS1] Visual SLAM ~カメラ幾何の基礎から最近の技術動向まで~SSII2021 [TS1] Visual SLAM ~カメラ幾何の基礎から最近の技術動向まで~
SSII2021 [TS1] Visual SLAM ~カメラ幾何の基礎から最近の技術動向まで~
 
SSII2021 [OS3-03] 画像と点群を用いた、森林という広域空間のゾーニングと施業管理
SSII2021 [OS3-03] 画像と点群を用いた、森林という広域空間のゾーニングと施業管理SSII2021 [OS3-03] 画像と点群を用いた、森林という広域空間のゾーニングと施業管理
SSII2021 [OS3-03] 画像と点群を用いた、森林という広域空間のゾーニングと施業管理
 
SSII2021 [OS3-02] BIM/CIMにおいて安価に点群を取得する目的とその利活用
SSII2021 [OS3-02] BIM/CIMにおいて安価に点群を取得する目的とその利活用SSII2021 [OS3-02] BIM/CIMにおいて安価に点群を取得する目的とその利活用
SSII2021 [OS3-02] BIM/CIMにおいて安価に点群を取得する目的とその利活用
 
SSII2021 [OS3-01] 設備や環境の高品質計測点群取得と自動モデル化技術
SSII2021 [OS3-01] 設備や環境の高品質計測点群取得と自動モデル化技術SSII2021 [OS3-01] 設備や環境の高品質計測点群取得と自動モデル化技術
SSII2021 [OS3-01] 設備や環境の高品質計測点群取得と自動モデル化技術
 
SSII2021 [OS3] 広域環境の3D計測と認識 ~ 人が活動する場のセンシングとモデル化 ~(オーガナイザーによる冒頭の導入)
SSII2021 [OS3] 広域環境の3D計測と認識 ~ 人が活動する場のセンシングとモデル化 ~(オーガナイザーによる冒頭の導入)SSII2021 [OS3] 広域環境の3D計測と認識 ~ 人が活動する場のセンシングとモデル化 ~(オーガナイザーによる冒頭の導入)
SSII2021 [OS3] 広域環境の3D計測と認識 ~ 人が活動する場のセンシングとモデル化 ~(オーガナイザーによる冒頭の導入)
 
SSII2021 [OS2-03] 自己教師あり学習における対照学習の基礎と応用
SSII2021 [OS2-03] 自己教師あり学習における対照学習の基礎と応用SSII2021 [OS2-03] 自己教師あり学習における対照学習の基礎と応用
SSII2021 [OS2-03] 自己教師あり学習における対照学習の基礎と応用
 

Dernier

NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NTT DATA Technology & Innovation
 
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineerYuki Kikuchi
 
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)UEHARA, Tetsutaro
 
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案sugiuralab
 
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfAWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfFumieNakayama
 
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfクラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfFumieNakayama
 
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?akihisamiyanaga1
 
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...博三 太田
 
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)Hiroshi Tomioka
 

Dernier (9)

NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
 
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
 
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
 
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
 
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfAWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
 
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfクラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
 
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
 
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
 
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
 

SSII2019OS: 深層学習にかかる時間を短くしてみませんか? ~分散学習の勧め~

  • 2. Copyright 2019 Sony Corporation2019.06.142 Agenda • 背景:学習規模の拡大 • 分散学習とは • 分散学習を支えるテクニック • 分散学習の始めてみる • まとめ
  • 3. Copyright 2019 Sony Corporation2019.06.143 背景
  • 4. Copyright 2019 Sony Corporation2019.06.144 Facebook インスタグラムの35億枚の写真を利用し、ImageNet で精度85.4%を実現 (通常のImageNetの学習は128万枚 * 90エポック=約1.1億枚相当で 76.8~9%) 336 GPU/42 Node, 22Days ※ 2018.5.2 F8 で発表
  • 5. Copyright 2019 Sony Corporation2019.06.145 ※ Y. Haung et al. GPipe: Efficient Training of Giant Neural Networks using Pipeline Parallelism, Google 精度改善のために一桁以上大きいモデルも登場 モデルを大きくすることで 84.3% の精度を達成 参考:ResNet-50 224 × 224 25M 76.4 92.9
  • 6. Copyright 2019 Sony Corporation2019.06.146 Deep Learning 学習規模の拡大 活用・収集される 学習データは年々増加 入力画像の解像度の増加 ■ 学習データの高精細化■ 学習データ量の増加 ■ 学習モデルのサイズ増加 より高度な処理の実現の為に 学習モデルサイズも増加 物体認識 物体検出 セグメンテーション 1024x2048 408x408 224x224 CAT 新産業構造ビジョン(H29.5.30経済産業省)より 世界のデータ量は2年毎に倍増 世界のデータセンターに保存されるデータ量 ※ Y. Haung et al. GPipe: Efficient Training of Giant Neural Networks using Pipeline Parallelism, Google
  • 7. Copyright 2019 Sony Corporation2019.06.147 学習高速化のアプローチ H/W の進化 学習アルゴの進化 分散学習 • GPUはここ数年で 3-4倍の性能向上 • 学習専用チップの登場 • より早く学習を収束させ るためのテクニックの提 案 • AWSなどのGPU環境 • GPUスパコンの台頭 本日の私のお話
  • 8. Copyright 2019 Sony Corporation2019.06.148 スパコン Top500 Top10 の半分以上が GPU ベース。日本では ABCI(産総研)が Top10 入り!
  • 9. Copyright 2019 Sony Corporation2019.06.149 ABCI 概要 • 産総研が主導する産官学プロジェクトABCI (AI Bridging Cloud Infrastructure) • AI特化型のスパコンであり、当初からTensorFlowや Caffe、Chainerへの対応を想定 • 安価・超高効率なデータセンター構築ができるかどうかを 実証 • 構成 • NVIDIA Volta 4352基 • 理論ピーク性能 • FP16: 550 PFLOPS • FP64: 37 PFLOPS • ベンチマーク • TOP500: 7位 • Green500: 4位 • 場所 • 東京大学・柏IIキャンパス AI Bridging Cloud Infrastructure (ABCI) 東京大学/産総研
  • 10. Copyright 2019 Sony Corporation2019.06.1410 ImageNet/ResNet-50 の学習時間 Batch Size Processor DL Library Time Accuracy Microsoft(2015/12) 256 Tesla P100 x8 Caffe 29 hours 75.3% Facebook(2017/6) 8K Tesla P100 x256 Caffe2 1 hour 76.3% PFN(2017/11) 32K Tesla P100 x1024 Chainer 15 mins 74.9% Tencent(2018/07) 64K Tesla P40 x2048 TensorFlow 6.6 mins 75.8% SONY(2018/11) 34K->68K Tesla V100 x2176 NNL 3.7mins 75.03% Google(2018/11) 32K TPU v3 x1024 TensorFlow 2.2 mins 76.3% Google(2018/11) 64K TPU v3 x1024 TensorFlow 1.8 mins 75.2% SONY(2019/03) 54K Tesla V100 x3456 NNL 2.0 mins 75.29% Fujitsu(2019/04) 80K Tesla V100 x2048 MXNet 1.2 mins 75.08% 1400倍以上の 性能向上 • 1400万枚以上を越えるタグ付け画像 • タグは2万種類以上 ILSVRC2012(1000種類/128万枚)データセットによる学習時間記録 ImageNet
  • 11. Copyright 2019 Sony Corporation2019.06.1411 分散学習とは
  • 12. Copyright 2019 Sony Corporation2019.06.1412 DNN学習 (Deep Learning) ミニバッチ学習 学習データセットを適度なサイズの “ミニバッチ” に分割し 学習を繰り返し(学習 Iteration) ながらパラメータ(重み)を更新していく 出力 学習済モデル 学習開始 学習終了 学習 学習データ 入力 DNNモデル 学習 Iteration 1つのworkerでミニバッチ学習 学習 GPU GPU GPU N/W CPU この1回の学習データ量を バッチサイズ(Batch Size)と呼ぶ
  • 13. Copyright 2019 Sony Corporation2019.06.1413 分散学習:データパラレルとモデルパラレル データパラレル モデルパラレル Pros 負荷を均等に分割することが容易で処理のばらつき が少なく、シンプルなシステム構成で実現できる。 各 worker で必要とするメモリを少なく抑えること ができる。バッチサイズ増加を抑制する効果も。 Cons バッチサイズ増加による収束速度が劣化する。 各 worker の処理効率を高めるのが難しい。 データパラレル モデルパラレル 学習データ DNNモデル 分割 学習データ DNNモデル 分割 入力となる学習データを分割させて学習する方式 学習モデル自体を分割させて学習する方式 本日はデータパラレルのみ
  • 14. Copyright 2019 Sony Corporation2019.06.1414 分散学習(データパラレル)と課題 複数workerでミニバッチ学習:学習後にパラメータ同期が必要 GPU GPU GPU N/W N/W CPU GPU GPU GPU CPU GPU GPU GPU N/W CPU GPU GPU GPU N/W CPU 複数workerでのミニバッチ学習 GPU GPU GPU N/W N/W CPU GPU GPU GPU CPU GPU GPU GPU N/W CPU GPU GPU GPU N/W CPU マシン間で学習パラメータを同期 学習開始 学習終了 学習 同期 学習 学習 学習 学習 学習 パラメータ 学習 パラメータ 学習 パラメータ 学習 パラメータ 学習 Iteration 学習 学習 学習データ 入力 DNNモデル 出力 学習済モデル 同期
  • 15. Copyright 2019 Sony Corporation2019.06.1415 分散学習(データパラレル)と課題 複数workerでミニバッチ学習:学習後にパラメータ同期が必要 GPU GPU GPU N/W N/W CPU GPU GPU GPU CPU GPU GPU GPU N/W CPU GPU GPU GPU N/W CPU 複数workerでのミニバッチ学習 GPU GPU GPU N/W N/W CPU GPU GPU GPU CPU GPU GPU GPU N/W CPU GPU GPU GPU N/W CPU マシン間で学習パラメータを同期 学習開始 学習終了 学習 同期 学習 学習 学習 学習 学習 パラメータ 学習 パラメータ 学習 パラメータ 学習 パラメータ 学習 Iteration 学習 学習 学習データ 入力 DNNモデル 出力 学習済モデル 同期 課題②: パラメータ同期処理の オーバーヘッドにより、 学習時間が逆に増加する。 課題①: Batch Size が大きくなる (worker数倍)ことにより、 学習精度の劣化する。
  • 16. Copyright 2019 Sony Corporation2019.06.1416 分散学習を支えるテクニック
  • 17. Copyright 2019 Sony Corporation2019.06.1417 分散学習のテクニック 課題②:パラメータ同期処理のオー バーヘッドによる学習時間の増加 課題①:Batch Size が大きくなるこ とによる学習精度の劣化 HPC(スパコン) • 高速集団通信/MPI • GPUDirect, RDMA ネットワーク/プロセッシング • Gradient逐次転送 • Gradient量子化 • Gradientスパース化 パラメータ最適化 • ハイパーパラメータ探索 • モデル化 Deep Learning アルゴリズム • SGD, Optimizer tuning • Learning Rate Warm-up/Decay • Batch Size Control 高速データ同期Large Batch 学習収束
  • 18. Copyright 2019 Sony Corporation2019.06.1418 ① Large Batch 学習収束のテクニック
  • 19. Copyright 2019 Sony Corporation2019.06.1419 Large Batch 学習で精度劣化する要因 重みの更新回数が減少し 最適解に近づくのが難しくなる 𝑤𝑤𝑡𝑡+1 = 𝑤𝑤𝑡𝑡 − 𝜂𝜂 𝐵𝐵1 � 𝑥𝑥𝑖𝑖∈𝐵𝐵1 𝛻𝛻𝑙𝑙(𝑥𝑥𝑖𝑖, 𝑤𝑤𝑡𝑡 ) 𝑤𝑤𝑡𝑡+1 = 𝑤𝑤𝑡𝑡 − 𝜂𝜂 2 𝐵𝐵1 � 𝑥𝑥𝑖𝑖∈𝐵𝐵2 𝛻𝛻𝑙𝑙 𝑥𝑥𝑖𝑖, 𝑤𝑤𝑡𝑡 解 𝑤𝑤 ∶ 重み 𝐵𝐵1 ∶ バッチサイズ 𝜂𝜂 ∶ 学習率(𝐿𝐿𝐿𝐿𝐿𝐿𝐿𝐿𝐿𝐿𝐿𝐿𝐿𝐿𝐿𝐿 𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟) 1 worker 2 workers データが持つノイズが薄まるため Sharp Minima に陥りやすくなる ※ N. S. Keskar et al. “On Large-Batch Training for Deep Learning: Generalization Gap and Sharp Minima” ICLR 2017
  • 20. Copyright 2019 Sony Corporation2019.06.1420 LR(Learning Rate) を減衰させる 例 step decay) 減衰するポイントの選び方:”Test-errorが下がらなくなったとき” とすることが多い (1 worker の時でも有効、特に画像系タスク) ◯の部分(30, 60, 80 epoch後)で LR を1/10に減衰 他にも decay scheduling の手法あり Learning Rate Decay https://mxnet.incubator.apache.org/versions/master/tut orials/gluon/learning_rate_schedules.html
  • 21. Copyright 2019 Sony Corporation2019.06.1421 Learning Rate の調整 LR Warm-up なし LR Warm-up あり • Learning Rate Scaling LRをworker数倍する • Learning Rate Warm-up 初期数エポック間 LR を徐々に上昇させる 調整の例) 学習開始時の LRの値: 1 worker時の LR 最大値 LR = 初期値 * worker数 まで線形に増加
  • 22. Copyright 2019 Sony Corporation2019.06.1422 LARS* 学習率を重みの変化比率に応じてレイヤ毎に決定 さらに学習率を連続的に減衰させる * Y. You, I. Gitman and B. Ginsburg, "Large Batch Training of Convolutional Networks," arXiv:1708.03888, 2017. 最近の Large Batch の分散学習では標準的に利用されるテクニック
  • 23. Copyright 2019 Sony Corporation2019.06.1423 Synced BN ※ https://hangzhang.org/PyTorch-Encoding/notes/syncbn.html Non-Synced BN Synced BN Forward Backward Calculate the gradient of sum(x) and sum(𝑥𝑥2 ) in each GPU. 複数のworker間に跨ってBNすることで、 BN の効果を最大化する方法 global mean : µ = 𝑠𝑠𝑠𝑠𝑠𝑠 𝑥𝑥 𝑁𝑁 , global variance : σ = 𝑠𝑠𝑠𝑠𝑠𝑠 𝑥𝑥2 𝑁𝑁 − µ2 + ε 𝑑𝑑𝑙𝑙 𝑑𝑑𝑠𝑠𝑠𝑠𝑠𝑠 𝑥𝑥 𝑘𝑘 , 𝑑𝑑𝑙𝑙 𝑑𝑑𝑠𝑠𝑠𝑠𝑠𝑠 𝑥𝑥2 𝑘𝑘 Calculate the gradient of 𝑠𝑠𝑠𝑠𝑠𝑠 𝑥𝑥 and 𝑠𝑠𝑠𝑠𝑠𝑠 𝑥𝑥2
  • 24. Copyright 2019 Sony Corporation2019.06.1424 Batch-size Control より沢山のGPUを利用する為に、学習の途中でBatch Size を増加させる GPU数が 100~1000基以上になってくると有効 学習初期 Lossの変化が激しい バッチサイズが大きいと振れ幅が大きく Lossが安定して下がらない バッチサイズを小さくする 学習終盤 Lossの変化がなだらか バッチサイズが大きくても振れ幅が小さく Lossが安定して下がる バッチサイズを上げられる 仮説:Lossの傾きからバッチサイズの最大値を導く 0 2 4 6 8 10 1 11 21 31 41 51 61 71 81 エポック TrainingLoss 34K 1088 68K 2176 85K 2720 119K 3808 バッチサイズ: #GPUs: Lossの傾きに応じて バッチサイズを増加 e.g.) ImageNet/ResNet-50での最大3808GPU利用した学習の収束
  • 25. Copyright 2019 Sony Corporation2019.06.1425 ② 高速データ同期のテクニック
  • 26. Copyright 2019 Sony Corporation2019.06.1426 Gradient 逐次転送 学習しながら勾配同期を行うことで同期オーバーヘッドを限りなく0にする BackwardForward Update Gradient Sync Sync Sync勾配同期 学習処理 学習 同期 出力 学習済モデル 学習開始 学習終了 学習データ 入力 DNNモデル 学習 Iteration 学習(Backward)が完了した Layer から順に、勾配(Gradient)を他のマシンに同期(送信)
  • 27. Copyright 2019 Sony Corporation2019.06.1427 Deep Gradient Compression* (Gradient スパース化) ■ レイヤー毎に閾値処理で送信するGradientを抽出 • |𝑮𝑮𝒊𝒊| > 𝒕𝒕𝒕𝒕𝒕𝒕𝒕𝒕𝒕𝒕𝒕𝒕𝒕𝒕𝒕𝒕 𝒕𝒕 ⇒ 送信 • |𝑮𝑮𝒊𝒊| ≤ 𝒕𝒕𝒕𝒕𝒕𝒕𝒕𝒕𝒕𝒕𝒕𝒕𝒕𝒕𝒕𝒕 𝒕𝒕 ⇒ 送信せず残して次のイテレーションに持ち越す Thresholdの決め方:イテレーション毎に X%送信できるような Threshold を探す。 ▶ 送信されずに残った Gradient により収束劣化が発生する可能性がある ■ 収束劣化を防ぐテクニック • Momentum Correction • Local Gradient Clipping • Momentum Factor Masking • Warmup Training * Yujun Lin, Song Han, Huizi Mao, Yu Wang, William J. Dally, Deep Gradient Compression: Reducing the Communication Bandwidth for Distributed Training, arXiv:1712.01887
  • 28. Copyright 2019 Sony Corporation2019.06.1428 高速集団通信/MPI Ring All-Reduce 帯域幅を最大限に有効活用できる方法 ただし、GPU数の増加に伴いレイテンシが増加 全GPUを RING 上に論理的に配置 2D-Torus All-Reduce 2次元にGPUを仮想的に配置し、複数のRingを Torus状に構成する(2D-Torus) • 通信回数を 4( 𝑁𝑁 − 1) に削減 (X=Y= 𝑁𝑁の時) 2D-Torus による Ring 構成 • GPU数をNとすると、2(N-1)回の通信が発生
  • 29. Copyright 2019 Sony Corporation2019.06.1429 2D-Torus All-Reduce による勾配同期 2D-Torus 上で行方向・列方向それぞれに集合通信を行う 例) 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 I. Reduce-Scatter in the horizontal direction 6 8 3 4 5 6 10 12 22 24 11 12 13 14 26 28 28 32 3 4 5 6 36 40 28 32 11 12 13 14 36 40 28 32 36 40 28 32 36 40 28 32 36 40 28 32 36 40 II. All-Reduce in the vertical direction III. All-Gather in the horizontal direction IV. Completed Add Copy Add Copy Add GPU0 GPU1 GPU0 GPU2 GPU3 GPU1 GPU2 GPU3 GPU0 GPU1 GPU2 GPU3 GPU0 GPU1 GPU2 GPU3 Add
  • 30. Copyright 2019 Sony Corporation2019.06.1430 2D-Torus All-Reduce による勾配同期 2D-Torus 上で行方向・列方向それぞれに集合通信を行う 例) 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 I. Reduce-Scatter in the horizontal direction 6 8 3 4 5 6 10 12 22 24 11 12 13 14 26 28 28 32 3 4 5 6 36 40 28 32 11 12 13 14 36 40 28 32 36 40 28 32 36 40 28 32 36 40 28 32 36 40 II. All-Reduce in the vertical direction III. All-Gather in the horizontal direction IV. Completed Add Copy Add Copy Add GPU0 GPU1 GPU0 GPU2 GPU3 GPU1 GPU2 GPU3 GPU0 GPU1 GPU2 GPU3 GPU0 GPU1 GPU2 GPU3 Add 列数 ≒ < 𝑮𝑮𝑮𝑮𝑮𝑮数 >なので、 < 𝐺𝐺𝐺𝐺𝐺𝐺数 >のRing All-Reduceと同等 ⇒ ( < 𝑮𝑮𝑮𝑮𝑮𝑮数 >-1) 回の転送 行数 ≒ < 𝑮𝑮𝑮𝑮𝑮𝑮数 >なので、 < 𝐺𝐺𝐺𝐺𝐺𝐺数 >のRing All-Reduce ⇒ 2( < 𝑮𝑮𝑮𝑮𝑮𝑮数 >-1) 回の転送 列数 ≒ < 𝑮𝑮𝑮𝑮𝑮𝑮数 >なので、 < 𝐺𝐺𝐺𝐺𝐺𝐺数 >のRing All-Reduceと同等 ⇒ ( < 𝑮𝑮𝑮𝑮𝑮𝑮数 >-1) 回の転送 合計のホップ数を𝟐𝟐 < 𝑮𝑮𝑮𝑮𝑮𝑮数 > −𝟏𝟏 回 から𝟒𝟒 < 𝑮𝑮𝑮𝑮𝑮𝑮数 >− 𝟏𝟏 回へ削減できる
  • 31. Copyright 2019 Sony Corporation2019.06.1431 分散学習を始めてみる
  • 32. Copyright 2019 Sony Corporation2019.06.1432 分散学習の始め方 1 Node, 1 GPU GPU GPU GPU N/W N/W CPU GPU GPU GPU CPU GPU GPU GPU N/W CPU GPU GPU GPU N/W CPU 学習 学習 学習 学習 1 Node, Multi GPU Multi Node, Multi GPU GPU GPU GPU CPU 学習 GPU CPU 学習 1 Node, Multi(2-4) GPU でやってみる これくらいなら精度劣化の発生は限定的になるケースが多いと思われる なれたら Multi Node, Multi GPU へ
  • 33. Copyright 2019 Sony Corporation2019.06.1433 環境整備:インフラ • 手元のマシンにGPUを複数枚挿す 一番お手軽でコスト的に安い ※ 筐体/電源/CPU等のスペックよって動作するGPU数が制限される • パブリッククラウド AWS:p3.8xlarge (V100 4基), p3.16xlarge (V100 8基) ※ スポットインスタンスを活用するなどして料金を節約! • GPUスパコンの利用 国内なら TSUBAME, ABCI など ※ 利用目的など利用要件を満たせは利用可能
  • 34. 34 Neural Network Console 商用クオリティのDeep Learning応用技術(画像認識機等)開発のための統合開発環境 コーディングレスで効率の良いDeep Learningの研究開発を実現 クラウド版(CPU 10時間まで無償)Windows版(無償) dl.sony.com インストールするだけ、もしくはサインアップするだけで本格的なDeep Learning開発が可能 成果物はオープンソースのNeural Network Librariesを用いて製品、サービス等への組み込みが可能
  • 35. Copyright 2019 Sony Corporation2019.06.1435 マルチGPU環境の提供(Neural Network Console Cloud版) • ニューラルネットワークの学習には膨大な演算が必要 • 必要な演算量は主に扱うデータの量とニューラルネットワークの 構造に依存 • GPU、マルチGPUを用いると、学習完了までの時間を 大幅に短縮できる • ネットワークにもよるが、10倍~数百倍高速に学習できる • 同じ開発期間でより多くの試行錯誤を行うことが可能に • 環境のセットアップ、メンテナンス作業不要で豊富な GPUリソースを利用可能 • 開発者はDeep Learningの開発作業に集中できる 「1ジョブあたり8GPU×無制限の並列利用」をGUI環境から利用可能 ※計算リソース利用料は 学習・評価実行中のみの従量課金
  • 36. Copyright 2019 Sony Corporation2019.06.1436 まとめ
  • 37. Copyright 2019 Sony Corporation2019.06.1437 まとめ • 分散学習 Deep Learning の学習を高速化する手段の1つとして有効 • 分散学習のポイント Large Batch で如何に学習を収束させるか worker間でのパラメータ同期を如何に速く行うか → その解決にいろいろなテクニックが存在する • 分散学習の始め方 まず 1マシン 2-4GPUくらいから始めてみる