31. 複雑性はパラメタ数が主
DNNの複雑性評価(e.g. Anthony & Bartlett (1999))
H
1
-
I
6
7
log M8 2N = H
O log P
-
➡ パラメタ数 O が主な要素
• この理論はDNNの実性能を説明できない
⾼精度DNNは
膨⼤なパラメタ数
Alex Net →6千万
VGG Net →1億
⽭盾
⼤量のパラメタは
複雑性誤差を上げる
統計・学習理論の(⼤)原則
32
32. これは深層学習の実際と乖離
33
CLR 2017
p-1 vali-
el archi-
hoice of
hout this
nt archi-
otice that
hue, for
Figure 2: Top1 vs. operations, size / parameters.
Top-1 one-crop accuracy versus amount of operations
required for a single forward pass. The size of the
blobs is proportional to the number of network pa-
rameters; a legend is reported in the bottom right cor-
ner, spanning from 5⇥106
to 155⇥106
params. Both
these figures share the same y-axis, and the grey dots
highlight the centre of the blobs.
有名ネットワークの
精度とパラメタ数の関係
パラメータ数(丸の⼤きさ)が増加
することで精度(縦軸)が向上
精度(%)
実データの実験結果
ニューラルネットワークのサイズ
(横軸)の拡⼤に伴って
汎化誤差(⾚線・⻘線)が減少
(Neyshabur+ 2018)
54. 実験による発⾒
⼆重降下現象
• シンプルな⼿法で確認
(線形回帰や⼆層NN)
• パラメタを増やすと誤差が
増加ののち減少
(Belkin+ 2019)
• その後、深層学習でも確認
• 多層のCNN, ResNetなどで
結果が再現
(Nakkiran+ 2020)
55
Harvard University OpenAI
ABSTRA
We show that a variety of modern deep lear
phenomenon where, as we increase model s
then gets better. Moreover, we show that
function of model size, but also as a functi
We unify the above phenomena by definin
the effective model complexity and conjectu
respect to this measure. Furthermore, our no
identify certain regimes where increasing (e
samples actually hurts test performance.
1 INTRODUCTION
:1912.02292v1[cs.LG]4Dec2019
パラメータ数
パラメータ数
汎化誤差
汎化誤差