Synthetic Gradients Tutorial

Synthetic
Gradients
Aurélien Géron
December 2017
Painting by Annie Clavel, annieclavel.com

Aurélien Géron, 2017Paper by Jaderberg et al.

Aurélien Géron, 2017
X
Inputs
Hidden Layer
Hidden Layer
Backpropagation
Output Layer
h1
h2
h3
θ1
θ2
θ3

X
Inputs
Hidden Layer
Hidden Layer
Backpropagation
Output Layer
h1
h2
h3
Forward
Loss
Labels
θ1
θ2
θ3

X
Inputs
Backpropagation
h1
h2
h3
Backward
Labels
Hidden Layer θ1
Hidden Layer
Output Layer
Loss
δ3
δ2
δ1
θ2
θ3

X
Inputs
Backpropagation
h1
h2
h3
Labels
Hidden Layer θ1
Hidden Layer
Output Layer
Loss
δ3
δ2
δ1
θ2
θ3
Gradient
Descent
Step

Inputs
Model Parallelism
Hidden Layer
Hidden Layer
Output Layer
Loss

X
Inputs
Model Parallelism
h1
h2
h3
Labels
Hidden Layer θ1
Hidden Layer
Output Layer
Loss
θ2
θ3
Forward Lock

X
Inputs
Model Parallelism
h1
h2
h3
Labels
Hidden Layer θ1
Hidden Layer
Output Layer
Loss
θ2
θ3
Update Lock

X
Inputs
Model Parallelism
h1
h2
h3
Labels
Hidden Layer θ1
Hidden Layer
Output Layer
Loss
δ3
δ2
θ2
θ3
δ1
Backward Lock

Inputs
Hidden Layer
Hidden Layer
Decoupled Neural Interfaces
Output Layer
X

Inputs
Hidden Layer
Hidden Layer
Output Layer
X
h1
θ1

Inputs
Hidden Layer
Hidden Layer
Output Layer
X
h1
θ1
M1
Synthetic Gradient
Model

Inputs
Hidden Layer
Hidden Layer
Output Layer
X
h1
θ1
δ1
^
M1
Synthetic
Gradients
Synthetic Gradient
Model

Inputs
Hidden Layer
Hidden Layer
Output Layer
X
h1
θ1
δ1
^
M1
Synthetic
Gradients
Synthetic Gradient
Model
DNI

Inputs
Hidden Layer
Hidden Layer
Output Layer
X
h1
h2
θ2
θ1
δ1
^
M1

Inputs
Hidden Layer
Hidden Layer
Output Layer
X
h1
h2
θ2
θ1
δ1
^
M1
δ2
^
M2

Inputs
Hidden Layer
Hidden Layer
Output Layer
X
h1
h2
θ2
θ1
h3
θ3
δ1
^
M1
δ2
^
M2

Inputs
Hidden Layer
Hidden Layer
Output Layer
X
h1
h2
θ2
θ1
h3
Labels
Loss
θ3
δ1
^
M1
δ2
^
M2

Inputs
Hidden Layer
Hidden Layer
Output Layer
X
h1
h2
θ2
θ1
h3
δ3
θ3
δ3
Labels
δ1
^
M1
δ2
^
M2
Loss

Inputs
Hidden Layer
Hidden Layer
Output Layer
X
h1
h2
θ2
θ1
h3
θ3

Inputs
Hidden Layer
Hidden Layer
Output Layer
θ2
θ1
Loss
θ3
Labels
M1
M2

Inputs
Hidden Layer
Hidden Layer
Output Layer
θ2
θ1
Loss
θ3
Labels
M1
M2
1 X

Inputs
Hidden Layer
Hidden Layer
Output Layer
X
h1
θ2
θ1
Loss
θ3
Labels
δ1
^
M1
M2
2
1

Inputs
Hidden Layer
Hidden Layer
Output Layer
X
h1
h2
θ2
θ1
Loss
θ3
Labels
δ1
^
M1
δ2
^
M2
3
2
1

Inputs
Hidden Layer
Hidden Layer
Output Layer
X
h1
h2
θ2
θ1
Loss
θ3
Labels
δ1
^
M1
δ2
^
M2
4
3
2
h3
δ31

Inputs
Hidden Layer
Hidden Layer
Output Layer
X
h1
h2
θ2
θ1
Loss
θ3
Labels
δ1
^
M1
δ2
^
M2
5
4
3
h3
δ32

Inputs
Hidden Layer
Hidden Layer
Output Layer
X
h1
h2
θ2
θ1
Loss
θ3
Labels
δ1
^
M1
δ2
^
M2
6
5
4
h3
δ33

Inputs
Hidden Layer
Output Layer
θ20
Loss
θ30
Labels
δ10
^M10
δ20
^M20
δ30
Hidden Layer θ10

Hidden Layer
Training a Synthetic Gradient Model
hi
θi
δi
^
Mi

Hidden Layer
hi
ǁ δi
– δi
ǁ²
^
θi
Synthetic Gradient
Model Loss
Mi

Synthetic Gradient
Model LossHidden Layer
hi
θi
?
Mi ǁ δi
– δi
ǁ²
^

Hidden Layer
Hidden Layer
Training a Synthetic Gradient model
hi
hi+1
θi+1
θi
Mi
δi+1
^Mi+
1
ǁ δi
– δi
ǁ²
^
Synthetic Gradient
Model Loss
?

Hidden Layer
Hidden Layer
hi
hi+1
θi+1
θi
Synthetic Gradient
Model Loss
Mi
δi+1
^Mi+
1
ǁ δi
– δi
ǁ²
^

Hidden Layer
Output Layer
hi
hi+1
θi+1
θi
Loss
δi+1
Synthetic Gradient
Model Loss
Mi ǁ δi
– δi
ǁ²
^

Aurélien Géron, 2017CNNs with SGs

M1 M2
M3
M4

M2
M3
M4

Hidden Layer
Providing Context
hi
θi
Mi δi
^
DNI

Hidden Layer
Providing Context
hi
θi
Labels
Mi δi
^
cDNI

Aurélien Géron, 2017Results on MNIST
Hidden
Output
Hidden
Hidden
10
256
256
256
28x28

Aurélien Géron, 2017Results on MNIST
Hidden
Output
Hidden
Hidden
10
256
256
256
28x28
Linear + Batch Normalization + ReLU

Aurélien Géron, 2017Results on MNIST (Figure 2)
Hidden
Output
Hidden
Hidden
10
256
256
256
28x28

Hidden
Output
Hidden
Hidden
10
256
256
256
28x28 3
6

Hidden
Output
Hidden
Hidden
10
256
256
256
28x28
M3
M2
M1
3
6

Hidden
Output
Hidden
256
1024
1024
Mi
3
6

Output256
Mi

Aurélien Géron, 2017RNNs
Recurrent Layer

Xt
ht
Recurrent Layer
ht-1

Xt=0
0

Xt=0
ht=0
0

Xt=0
ht=0
Xt=1
0
ht=0

Xt=0
ht=0
Xt=1
ht=1
0
ht=0

Xt=0
ht=0
Xt=1
ht=1
Xt=2
0
ht=0
ht=1

Xt=0
ht=0
Xt=1
ht=1
Xt=2
ht=2
0
ht=0
ht=1

Xt=0
ht=0
Xt=1
ht=1
Xt=2
ht=2
Xt=3
0
ht=0
ht=1
ht=2

Xt=0
ht=0
Xt=1
ht=1
Xt=2
ht=2
Xt=3
ht=3
0
ht=0
ht=1
ht=2

Xt=0
ht=0
Xt=1
ht=1
Xt=2
ht=2
Xt=3
ht=3
0 ...
ht=0
ht=1
ht=2
ht=3

Xt=0
ht=0
Xt=1
ht=1
Xt=2
ht=2
Xt=3
ht=3
0
ht=0
ht=1
ht=2
Loss

Xt=0
Xt=1
Xt=2
Xt=3
0
ht=0
ht=1
ht=2
ht=0
ht=1
ht=2
ht=3
Loss

Aurélien Géron, 2017RNNs with SGs
Xt=0
Xt=1
Xt=2
Xt=3
0
ht=0
ht=1
ht=2
ht=0
ht=1
ht=2
ht=3
Loss

Xt=0
Xt=1
Xt=2
Xt=3
0
ht=0
ht=1
ht=2
ht=0
ht=1
ht=2
ht=3
Loss
ht=3
Xt=4

Xt=0
Xt=1
Xt=2
Xt=3
0
ht=0
ht=1
ht=2
M δt=4
^ht=0
ht=1
ht=2
ht=3
Loss
ht=3
ht=4
Xt=4

Xt=0
Xt=1
Xt=2
Xt=3
0
ht=0
ht=1
ht=2
M
ht=0
ht=1
ht=2
ht=3
Loss
δt=4
^
ht=3
ht=4
δt=3
Xt=4

Xt=0
Xt=1
Xt=2
Xt=3
0
ht=0
ht=1
ht=2
ht=0
ht=1
ht=2
ht=3
Loss
M δt=4
^
ht=3
ht=4
δt=3
Xt=4

Xt=0
Xt=1
Xt=2
Xt=3
ht=0
ht=1
ht=2
ht=0
ht=1
ht=2
ht=3
Loss
M δt=4
^
ht=3
ht=4
δt=3
Xt=4

Xt=0
Xt=1
Xt=2
Xt=3
ht=0
ht=1
ht=2
ht=1
ht=2
ht=3
Loss
M δt=4
^
ht=3
ht=4
δt=3
Xt=4

Xt=1
Xt=2
Xt=3
ht=1
ht=2
ht=1
ht=2
ht=3
Loss
M δt=4
^
ht=3
ht=4
δt=3
Xt=4

Xt=2
Xt=3
ht=1
ht=2
ht=2
ht=3
Loss
M δt=4
^
ht=3
ht=4
δt=3
Xt=4

t=2
Xt=3
ht=2
ht=3
M δt=4
^ht=4
δt=3
Xt=4

M δt=4
^ht=4
Xt=4
Xt=3

M δt=4
^
ht=4
Xt=4
Xt=3

M δt=4
^
ht=4
Xt=4
ht=4
Xt=3

M δt=4
^
ht=4
Xt=4
Xt=5
ht=4
ht=4
ht=5
Xt=3

M δt=4
^
ht=4
Xt=4
Xt=5
Xt=6
ht=4
ht=5
ht=4
ht=5
ht=6
Xt=3

M δt=4
^
ht=4
Xt=4
Xt=5
Xt=6
Xt=7
ht=4
ht=5
ht=6
ht=4
ht=5
ht=6
ht=7
Xt=3

M δt=4
^
ht=4
Xt=4
Xt=5
Xt=6
Xt=7
ht=4
ht=5
ht=6
ht=4
ht=5
ht=6
ht=7
Loss
Xt=3

M δt=4
^
ht=4
Xt=4
Xt=5
Xt=6
Xt=7
ht=4
ht=5
ht=6
ht=4
ht=5
ht=6
ht=7
M δt=8
^
ht=7
ht=8
Xt=8
Loss
Xt=3

M δt=4
^
ht=4
Xt=4
Xt=5
Xt=6
Xt=7
ht=4
ht=5
ht=6
ht=4
ht=5
ht=6
ht=7
M δt=8
^
ht=7
ht=8
δt=7
Xt=8
Loss
Xt=3

M δt=4
^
ht=4
Xt=4
Xt=5
Xt=6
Xt=7
ht=4
ht=5
ht=6
ht=4
ht=5
ht=6
ht=7
Loss
M δt=8
^
ht=7
ht=8
δt=7
Xt=8
Xt=3

M ǁδt=4
- δt=4
ǁ
^
ht=4
Xt=4
Xt=5
Xt=6
Xt=7
ht=4
ht=5
ht=6
ht=5
ht=6
ht=7
Loss
M δt=8
^
ht=7
ht=8
δt=7
Xt=8
ht=4
Xt=3

Aurélien Géron, 2017Penn Treebank Results (Figure 4)

X
Inputs
Synthetic Inputs
h1
h2
h3
Labels
Hidden Layer θ1
Hidden Layer
Output Layer
Loss
θ2
θ3
Forward Lock

Inputs
Synthetic Inputs
h3
Labels
Hidden Layer θ1
Hidden Layer
Output Layer
Loss
θ2
θ3
I3
X
h2
^
Synthetic
Input model
h1

Inputs
Synthetic Inputs
h3
Labels
Hidden Layer θ1
Output Layer
Loss
θ3
I3
X
ǁh2
- h2
ǁ²
^
Hidden Layer θ2
Synthetic
Input model
h1

Inputs
Synthetic Inputs
h3
Labels
Hidden Layer θ1
Output Layer
Loss
θ3
I3
X
Synthetic
Input model
ǁh2
- h2
ǁ²
^
Hidden Layer θ2
I2
h1
^

Hidden Layer
Fully Decoupled Neural Interface
θi
Mi
Ii
Inputs

Hidden Layer
θi
Mi
Ii
Inputs
hi-1
^

Hidden Layer
hi
θi
Mi δi
^
Ii
Inputs
hi-1
^

Hidden Layer
hi
θi
Mi δi
^
Ii
Inputs
hi-1
^
δi-1

Hidden Layer
hi
θi
Mi δi
^
Ii
Inputs
ǁhi-1
- hi-1
ǁ²
^

Hidden Layer
hi
θi
Mi
Ii
Inputs
ǁ δi
– δi
ǁ²
^

Hidden Layer
hi
θi
Mi
Ii
Inputs

Amazon: https://goo.gl/IoWYKD
Twitter: @aureliengeron
github.com/ageron

Amazon: https://goo.gl/IoWYKD
Twitter: @aureliengeron
github.com/ageron
...

Synthetic Gradients Tutorial

Recommandé

Recommandé

Contenu connexe

Dernier

Dernier (20)

En vedette

En vedette (20)

Synthetic Gradients Tutorial