SlideShare une entreprise Scribd logo
1  sur  62
Télécharger pour lire hors ligne
深層学習の原理の理解に向けた
理論の試み
2020/07/02 MLSE夏合宿2020
今泉允聡(東京⼤学)
1
導⼊︓深層学習の登場
基礎研究
~2000
ブレイクスルー
2012
実⽤化の進展
2016~
⾃動運転[1]
医療診断[2]
技術的
課題
技術
発展
⾼精度を発揮
画像識別精度: 75% → 96%
なぜDNNは⾼性能なのか︖
⇒ 原理の解明はまだ発展途上
内部の解釈や効率的運⽤に向けて
理解の不在による壁
深層学習の運⽤にはまだ問題点が多い
実⽤化の進展には、原理の理解が必要
ブラックボックスな挙動
失敗したが
原因は不明︕
信頼できる
製品が作れない
膨⼤な計算コスト
うまい設定が
分からない
⼤量に試験しよう
計算がとても⼤変
4
発展する深層学習
実運⽤
基礎
応⽤
理論
拡 張
基盤となるべき理論
• 実現象との橋渡しはある
• 今後の拡張が必要
橋渡し
(発⾒)
実運⽤
• 発展するAI技術
• 賢いアルゴリズム
深層学習とは
6
深層学習
多層ニューラルネット(DNN)モデル
• 多くの層を持つ(変換を繰り返す)関数
⼊
⼒
!
Θℓ: ℓ層のパラメタ (⾏列)
#: 活性化関数(sigmoid, ReLUなど)
層ℓでの変換
層ℓ
出
⼒
!
全#層
7
全パラメータ
Θ = (Θ$, … , Θ%)
DNNによる関数
(&: * ↦ ,
ℎℓ = #(Θℓ
"
ℎℓ#$)
問題設定
• 訓練データからパラメータを学習
• 経験誤差を最⼩化し、汎化誤差を評価
8
経験誤差(訓練誤差)
ℒ Θ = $$%Σ&'%
(
ℓ '&, )) *&
汎化誤差(≈テスト誤差)
, ℒ -Θ
ℒ Θ を⼩さくするように-Θを学習
訓練データ(-個) .' = *(, ,( ()$
'
ℓ: 損失関数
期待値で性能評価
(新しいデータ上の平均値)
汎化誤差の分解
誤差を三つの要素で説明
DNNの集合
データ
近似誤差
*"#
最適化
誤差
E ℒ #Θ ≤ inf
!"
ℒ Θ"
+ * ℒ #Θ − ℒ #Θ + ℒ #Θ − inf
!"
ℒ Θ"
近似誤差
DNNの表現⼒
最適化誤差
学習がうまくいくか
複雑性誤差
DNNの集合の⼤きさ
汎化誤差
本講演のトピック
・近似誤差
・複雑性誤差
9
深層学習は、各項⽬を
どの程度改善しているのか︖
汎化誤差の分解
• 実際の学習との対応
エポック
(学習の進展)
損失
0
訓練損失
テスト損失
複雑性誤差
(汎化ギャップ)
近似誤差
最適化誤差
10
近似誤差
DNNと既存法の差を⽰す関数近似理論
11
近似誤差とは
• DNN (& が表現できるデータの構造で決まる
回帰の例(損失ℓは⼆乗損失)
データが . = )∗ / + 1 から⽣成されている時︓
inf
)!
ℒ Θ+ ≤ inf
)
)∗ − )) ,
- + Noise Terms
/
)) *
. データ
0
データの構造を
表現できている
表現できてない
Θ: パラメタ
0! : DNN
12
普遍近似定理
よく知られている結果
13
普遍近似定理 (Cybenko (1989)など)
層が2つのニューラルネットワーク(NN)は、⼗分な数のパラ
メタがあれば、連続関数を任意の精度で近似できる。
• 層2つで成⽴
→ 深層でなくて良い
• 普遍近似は多くの他⼿法でも成⽴
→ NNでなくて良い
➡ なんでDNNを使うの︖
より詳細に近似を調べるには
近似誤差の減衰レート
• パラメタ(エッジ)が増えるときの誤差減少スピード
• レートを出すには、)∗が滑らかである必要
➡ )∗が微分可能である状況を調べる
inf
)
‖)∗ − ))‖ = ?(A$1)
近似誤差の減衰レート+
*∗: 近似対象の関数
*#: ,個のパラメタを持つDNN
パラメタ数 2
近似
誤差
0
速い減衰(-⼤)
遅い減衰(-⼩)
近似誤差 パラメタ増で
減少
14
滑らかな関数に対する近似レート
)∗︓近似対象(⼊⼒C次元、D回微分可能)
))︓DNN(E層, パラメタA個、活性化関数F)
Gがsigmoid等の場合 (Mhaskar (1996)など)
DNNは E = 2 のもとで以下を達成︓
inf
)
‖)∗ − ))‖ = ?(A$3/5)
活性化関数がReLUの場合 (Yarotsky (2017)など)
E層のDNNは以下を達成︓
inf
)
‖)∗ − ))‖ = ?(A$3/5 + 2$6)
誤差レートD/Cは、 )∗の滑らかさで増加、⼊⼒次元で減少。
ReLUの尖りから
来る影響
15
活性化関数!による違い
• /が滑らかな場合(sigmoid, softplus)
• /が滑らかでない場合(ReLU, LeakyReLU)
2層NN
8層DNN
ノード毎に多項式近似
⾜し上げ
テイラー多項式を表現
層を重ねて細かい⻭を表現
⾜し上げ
区分線形関数で
テイラー多項式を近似16
良いレートなの︖
• 誤差レート0/2は理論的に最適
• しかし、他⼿法も同じように最適
近似誤差の最適性 (DeVore+ (1989)など)
近似誤差レート?(A$3/5)は理論上の最適値。
すごいぞ︕
やはりDNNは
最適なんだ︕
他⼿法の近似レート (Newman+ (1964)など)
フーリエ基底、多項式基底などによる近似は
レート?(A$3/5)を達成する。
他のも最適だから
結局同じ︖
)∗が滑らかなら、DNNと他⼿法の理論的性能は同等。17
DNNが重要になる状況1
• (∗
が滑らかでない場合、DNNが他に優越
区分上でのみ滑らかな関数
(∗
= Σ"(" ⊗ 1#!
0": 滑らかな関数, 1#!
: 区分上の指⽰関数
近似レートの差別化
(Imaizumi & Fukumizu (2019))
DNNのレート︓
?(max{A$3/5, A$:/-(5$%)})
他⼿法(カーネル等)のレート︓
?(max{A$3/5, A$:/=(5$%)})
($は区分の境界線の滑らかさ)
区分の境界が複雑な形
➡ DNNが速いレートを達成
%%
%&
&∗ %%, %&
汎化性能も優越するが、
ここでは近似性能のみ記述
18
DNNが重要になる状況2
• (∗
が不均⼀な滑らかさを持つ場合、DNNが優越
領域A 領域B
近似レートの差別化
(Suzuki (2019))
DNNのレート︓
?(A$3/5)
他⼿法(カーネル等)のレート︓
?(A$(3$(%/>$%/-)")/5)
(?は不均⼀さの程度)
不均⼀さがより強い
➡ DNNが速いレートを達成
Besov空間の関数
(∗
= Σ(6(7( + Σ(,)6(,)9(,)
@⋅ % + Σ&2'& ()*/,-*/%
@⋅,& %
' */'
< ∞
汎化性能も優越するが、
ここでは近似性能のみ記述
19
DNNは局所構造を表現できる
• これまで︓均⼀な滑らかさ・構造を表現
• DNN︓局所的に滑らかさを変えられる
カーネル法
スプライン法
フーリエ法 など
分断 関数
前半の層で
関数の台を分割
後半の層で
関数を表現
E
0 E
20
更なるDNNの役割︓特徴量抽出
特徴量変換+関数表現を考える
抽出 関数
前半の層で
特徴量を抽出
後半の層で
関数を表現
21
Cat
DNNは複数回の四則演算をする
➡ 既存の変換(フーリエ変換など)が近似的に可能
DNNが重要になる状況3
• 特徴空間への写像がある場合、DNNのレート改善
近似レート
(Peterson et al. (2019))
(Schmidt-Hieber (2019a))
DNNのレート︓
?(max{A$F/5, A$3/G})
⼀般的なレート︓
?(A$3/5)
特徴写像N(未知)と関数Oの合成
(∗
= : ∘ 7
< = >
⼊⼒空間
(H次元)
特徴空間
(I < H次元)
出⼒
)∗ (J回微分可能)
O (J回微分可能)N (K回微分可能)
特徴量が低次元・ Nがシンプル
➡ DNNのレート改善
22
DNNが重要になる状況3+
• 特徴空間の具体例︓低次元集合
低次元集合Ω上の関数
(∗
< , Supp < = Ω
< >
⼊⼒空間
(H次元)
出⼒
➡ DNNのレート改善
低次元特徴量がある時の
近似レート
(Nakada & Imaizumi (2019))
DNNのレート︓
Q?(A$3/G)
⼀般的なレート︓
?(A$3/5)
(*: 低次元集合の次元)
低次元集合
例︓フラクタル
(I < H次元)
)∗ (J回微分可能)
23
DNNが重要になる状況3+
• 特徴空間の具体例︓低次元多様体
多様体上への変換を持つ関数
(∗
= : ∘ 7
< >
⼊⼒空間
(H次元)
低次元多様体
(I < H次元)
出⼒
)∗ (J回微分可能)
➡ DNNのレート改善
多様体特徴量がある時の
近似レート
(Schmidt-Hieber (2019b))
DNNのレート︓
Q?(A$3/G)
⼀般的なレート︓
?(A$3/5)
24
近似誤差のまとめ
• DNNが優位・改善する状況の発⾒
• 知⾒1︓局所構造を持つ関数ではDNNが優位
• 既存法(カーネル法など)に対する優位性も⽰される
• 知⾒2︓特徴量抽出が有効ならDNNは改善
• 狭い関数クラスだが、特徴量の構造がDNNに合う
25
局所構造を持つ関数 (区分滑・Besov)
(⼀様に)滑らかな関数
拡張
特徴量変換を含む関数 構造追加
近似誤差の未解決点
• まだ未解決な点も多い
超深層(100層など)の意義は不明
・上記の結果は3~5層で成⽴
・ReLUの場合も+(log 0)層くらい
使える特徴量概念は抽象的
・解析できる特徴は次元などに限定
・具体的な特徴付けは今後の課題
ラフな差別化は出来つつあるが、現象を説明するにはまだ壁
結局、層は
すごく多いのが
いいの︖
どんな特徴量が
必要なの︖
議論︓Yarotsky(2018)など
議論︓Alemi+(2016)など
26
複雑性誤差
なぜ巨⼤モデルでも汎化する︖
27
そもそも複雑性誤差とは︖
• 汎化誤差(期待値)と訓練誤差(経験平均)との差
既存評価︓可能な全てのC上での E ℒ Θ − ℒ Θ
Θの集合
E[ℒ Θ ]
ℒ(Θ)
' ℒ )Θ − ℒ )Θ
学習した-Θ
ここの⼤きさで評価
, ℒ -Θ − ℒ -Θ ≤ sup
)!
, ℒ Θ+ − ℒ Θ+
28
×
本当に知りたいもの
なぜ全てのΘを考える︖
• データ.2から学習されるΘを全てカバーする必要
• 期待値=可能なW(すべての場合の平均値を考えること
汎化誤差(期待値)を考える
DNNの集合(⼤)
データ3'
学習された0/0
可能な3'
取りうる0/0
取りうる3'をすべて考慮
可能な3'から定まる&"(を
すべて考慮
アルゴリズムの
ランダムを考慮することもある
29
既存の理論の考え⽅
モデルの⼤きさが重要
• 複雑性誤差=可能な(4の集合 の⼤きさ
DNNの集合(⼤)
データ3'
可能な3'
可能なW(から定まる)LMを
すべて考慮
可能な)LMの候補集合が
⼤きいほど
複雑性誤差が増加
30
複雑性評価の数学的⽅法
複雑性評価(e.g. Anthony & Bartlett (1999))
sup
5
E ℒ Θ − ℒ Θ = H
1
-
I
6
7
log M8 2N
N: データ数
O: パラメタ数
Θ
sup
!
|E ℒ Θ − ℒ Θ
Θ Θ× × × ×
⼀様誤差
Rademacher複雑性
N-*/,
E sup
!
Σ12*
3
W1ℓ X1, 0! E1
Dudley積分
N-*/, Z
4
5
log ^6 H_
→集合の⼤きさを評価
W1: Rademacher変数
^6: {0!}の最⼩_被覆数
×: 離散点(被覆球の中⼼)
導出の流れ
レートは改善可だが
⼤きさへの依存は不可
可能な))の集合の⼤きさ
31
複雑性はパラメタ数が主
DNNの複雑性評価(e.g. Anthony & Bartlett (1999))
H
1
-
I
6
7
log M8 2N = H
O log P
-
➡ パラメタ数 O が主な要素
• この理論はDNNの実性能を説明できない
⾼精度DNNは
膨⼤なパラメタ数
Alex Net →6千万
VGG Net →1億
⽭盾
⼤量のパラメタは
複雑性誤差を上げる
統計・学習理論の(⼤)原則
32
これは深層学習の実際と乖離
33
CLR 2017
p-1 vali-
el archi-
hoice of
hout this
nt archi-
otice that
hue, for
Figure 2: Top1 vs. operations, size / parameters.
Top-1 one-crop accuracy versus amount of operations
required for a single forward pass. The size of the
blobs is proportional to the number of network pa-
rameters; a legend is reported in the bottom right cor-
ner, spanning from 5⇥106
to 155⇥106
params. Both
these figures share the same y-axis, and the grey dots
highlight the centre of the blobs.
有名ネットワークの
精度とパラメタ数の関係
パラメータ数(丸の⼤きさ)が増加
することで精度(縦軸)が向上
精度(%)
実データの実験結果
ニューラルネットワークのサイズ
(横軸)の拡⼤に伴って
汎化誤差(⾚線・⻘線)が減少
(Neyshabur+ 2018)
新しい理論の潮流
汎化の原理︓深層学習最⼤の謎(のひとつ)
• 現象を説明する新しい理論を紹介をします。
• 既存の理論
• 近年の理論の試み
34
モデルの⼤きさ
A: 暗黙正則化 B: PAC-Bayes C: ⼆重降下
過学習しやすさ
=モデルの⼤きさ
(パラメタ数)
いやいや違うんだよ
(諸説)
理論A︓暗黙的正則化
着想︓可能な (5すべてを考える必要は無いのでは︖
• データ依存で実現しうる))の部分集合がありそう
DNNの集合
データ3'
可能な3'
データ依存
部分集合
これまでの複雑性誤差
可能な全DNN の⼤きさ
→巨⼤な複雑性
新しい着想
データ依存集合 の⼤きさ
→⼩さい複雑性
35
この着想を⽀持する実験
• データ依存集合の重要性を⽰す実験(Zhang+ (2017))
• 全然違うデータW(, W(
+ でも、
DNNの近似誤差・複雑性誤差は両⽅とも⼩さい
⼤きな複雑性
3'
3'
)&#
&#!
⼤きな近似誤差
3'
3'
)
&# &#!
or
近似誤差︓どちらも⼩
複雑性誤差︓⼤
既存理論︓複雑性誤差= の⼤きさ
近似誤差︓どちらかは⼤
複雑性誤差︓⼩ 36
データ依存集合は実験を説明
• データ依存集合の重要性を⽰す実験(Zhang+ (2017))
• 全然違うデータW(, W(
+ でも、
DNNの近似・複雑性誤差は両⽅とも⼩さい
3'
3'
)
&#
&#!
近似誤差︓どちらも⼩
複雑性誤差︓常に⼩
新しい着想︓複雑性誤差=データ依存集合 の⼤きさ
DNNの集合 実験・実現象と⼀致︕
37
暗黙的正則化︓データ依存集
合を考える
• データ依存集合の重要性を⽰す実験(Zhang+ (2017))
• 全然違うデータW(, W(
+ でも、
DNNの近似・複雑性誤差は両⽅とも⼩さい
試みの⼀部
1. ノルム制約(暗黙的正則化)
2. 学習アルゴリズム
3. 各種正則化⼿法
何によって は
決まっているの︖
新しい着想︓複雑性誤差=データ依存集合 の⼤きさ
他多数38
試み1. 原点近傍仮説
• 多くのパラメタΘはゼロ近傍に集中
→各層ℓ = 1, … , Eの Θℓ がZℓで抑えられると仮定
DNNの集合
{)): Θℓ ≤ Zℓ, ∀ ℓ}
制約された集合
0
ノルム制約下での複雑性誤差
(Neyshabur+ (2015a))
(Golowich+ (2019))
?
] E ∏ℓ'%
6
Zℓ
$
9 = max
*
%* : データの⼤きさ
他、Bertlett+ (2017)など
Πℓcℓ
• パラメタ数Aには(陽には)依存しない。
• Zℓが⼩さいほど、誤差は⼩さくなる。 39
試み1.原点近傍仮説
• 他ノルムや、各層の勾配を抑えることも
DNNの集合
ノルムと勾配が
制約された集合
0
ノルム・ヤコビアン制約下の誤差
(Wei & Ma (2019))
Q?
Σℓ'%
6
Zℓ
+
_ℓ
-/d + Zℓ
++
_ℓ
+ -/d d/-
$
>ℓ
)
, >ℓ
))
: Θℓの別ノルムでの上限
@ℓ, @ℓ
)
: ℓ層のヤコビアンの上限
40
試み1.原点近傍仮説
• ノルム制約の実現性に課題
➡ まだ明確な特徴づけは明らかでない
数学的発⾒による仮説はある
(線形モデルの収束など: Neyshabur+ (2014), Arora+(2019))
じゃあどういう時にノルムが⼩さいの︖
それはDNN特有なの︖
パラメタのノルムが常に⼩さければ
複雑性誤差も⼩さい︕
41
試み2. 学習アルゴリズムの影響
• 学習アルゴリズム(勾配法)の性能を評価
• 探索される範囲=実現する(5の集合
DNNの集合
勾配法による最適化
初期値を設定 Θ(e)
パラメタ更新 ` = 1, … , a
Θ(fg%) ← Θ(f) − cf∇)ℒ Θ f
cf: ステップサイズ
探索される範囲
勾配法で探索
初期値))($)
確率的勾配法(SGD)にも
拡張可能 42
試み2. 学習アルゴリズムの影響
• 探索性能を下げる → 実現する(5の集合も減少
探索範囲は縮⼩
早く学習をやめれば誤差減
(Hardt+ (2016))
(Kuzborskij+ (2017))
B+ = O(1/F)とする
?
ah
$
G ≥ 1: パラメタの更新回数
I ∈ (0,1): 減衰率
ステップサイズ・更新回数を減
DNNの集合
• 探索範囲を狭めれば、複雑性誤差は⼩さくなる。
43
試み2. 学習アルゴリズムの影響
• ノルム制約の実現性に課題
➡ 近似・最適化誤差との関係は明らかでない。
損失関数の形状の研究が必要。
それは良いパラメタが
学習できないんじゃないの︖
学習を控えめにすれば
複雑性誤差は⼩さい︕
44
この理論への批判
45→ 理論をより現実に近づける必要
実験︓パラメタは原点・初期値近傍に留まらない
理論︓留まることは理論的にも保障されない
計算機実験で、データ数(横軸)が増えることにパラメタが原点・初期値から遠
ざかる(縦軸は距離)様⼦(Nagarajan+ NeurIPS2019 卓越論⽂)
新しい理論の潮流
汎化の原理︓深層学習最⼤の謎(のひとつ)
• 現象を説明する新しい理論を紹介をします。
• 既存の理論
• 近年の理論の試み
46
モデルの⼤きさ
A: 暗黙正則化 B: PAC-Bayes C: ⼆重降下
過学習しやすさ
=モデルの⼤きさ
(パラメタ数)
いやいや違うんだよ
(諸説)
理論B︓PAC-Bayes理論
学習パラメタがランダム(摂動付)だと⾒なす
→ この摂動の影響を事前分布を⽤いて分析
Θの集合
E[ℒ Θ ]
ℒ(Θ)
学習した-Θ
×
LΘ+i, i ∼ k
事前分布l
摂動分布eと事前分布fで複雑性誤差を評価
事前分布の設定によって誤差を操作できる
どういう理論か
摂動で期待値を取った誤差評価
→ パラメータ-Θの近傍を摂動で探索・集計
48
QL∼N Q ℒ RΘ + S − ℒ RΘ + S = H
TP(U||W)
-
eとfの違いに
依存した上限
摂動付き複雑性誤差の期待値
カルバック=ライブラー ダイバージェンス
@O(P| R = ∫ log(I/T) UP
e, fは状況に応じて⾃由に設定可
→ モデルの⼤きさを受けづらい誤差評価
平坦最⼩解とのつながり
平坦最⼩解(flat minima)
• 性能の良いパラメータの近辺では、損失関数が平坦
だという実験的発⾒
49
Keskar (2017)による
平坦最⼩解のイメージ
PAC-Bayes理論は、平坦最⼩解を再現する
E8∼: m ℒ LΘ + i − ℒ LΘ ≤ m;∼: ℒ LΘ + i − ℒ LΘ + o( p8(k||l)/N)
複雑性誤差
(摂動平均との誤差)
解の平坦さの期待値
実験によるPAC-Bayes理論の有⽤性
• 最も実験と整合的な理論
• 既存理論(VC次元・ラデマッハ複雑性)や、
新しい理論(暗黙正則化など)よりも実精度を予測
50
当該論⽂の
タイトル・著者
(Jiang+ 2018)
Googleによる⼤規模実験
40種類の理論評価の妥当性を約2000種類のCNNで評価
いくつかの批判
51
• 設定はまだすり合わせの余地がある
➡ 特殊な評価⽅法なので、
よりスタンダードな形に寄せる必要
PAC-Bayes⾃体は古くから知られる⽅法だが、やはり設定の特殊さがネック
でもこれ、実際の汎化誤差とは
違う値を評価してるよね︖
モデルの⼤きさを緩和できるし
実験と合ってるし、最⾼では︖
新しい理論の潮流
汎化の原理︓深層学習最⼤の謎(のひとつ)
• 現象を説明する新しい理論を紹介をします。
• 既存の理論
• 近年の理論の試み
52
モデルの⼤きさ
A: 暗黙正則化 B: PAC-Bayes C: ⼆重降下
過学習しやすさ
=モデルの⼤きさ
(パラメタ数)
いやいや違うんだよ
(諸説)
理論C︓⼆重降下理論
⼆重降下
• モデルを過剰に⼤きくすると、バリアンス(複雑性
誤差)が逆に減少する現象
53
モデルの⼤きさ(表現⼒)
誤差
図はBelkin+ 2019より
既存理論の考え
このギャップが複雑性誤差
(テスト誤差-訓練誤差)
理論C︓⼆重降下理論
⼆重降下
• モデルを過剰に⼤きくすると、バリアンス(複雑性
誤差)が逆に減少する現象
54
図はBelkin+ 2019より⼆重降下現象
ng risk
risk
H
ting
Risk
Training risk
Test risk
Capacity of H
under-parameterized
“modern”
interpolating regime
interpolation threshold
over-parameterized
“classical”
regime
(b)
モデルの⼤きさ(表現⼒)
誤差
減少する
複雑性誤差
深層学習の巨⼤モデルと相性が良い考え
実験による発⾒
⼆重降下現象
• シンプルな⼿法で確認
(線形回帰や⼆層NN)
• パラメタを増やすと誤差が
増加ののち減少
(Belkin+ 2019)
• その後、深層学習でも確認
• 多層のCNN, ResNetなどで
結果が再現
(Nakkiran+ 2020)
55
Harvard University OpenAI
ABSTRA
We show that a variety of modern deep lear
phenomenon where, as we increase model s
then gets better. Moreover, we show that
function of model size, but also as a functi
We unify the above phenomena by definin
the effective model complexity and conjectu
respect to this measure. Furthermore, our no
identify certain regimes where increasing (e
samples actually hurts test performance.
1 INTRODUCTION
:1912.02292v1[cs.LG]4Dec2019
パラメータ数
パラメータ数
汎化誤差
汎化誤差
これを理論で説明できるか︖
• 線形回帰モデルでは厳密に⽰される
X: モデルの⼤きさの尺度
56
汎化誤差
V =
パラメタ数
データ数
線形回帰の分散(複雑性誤差)
(Hastie+ (2019))
F-g
g − 1
, (g < 1)
F-
g − 1
, (g > 1)
W&: ノイズの分散
g
モデルの⼤きさKが増えて、
誤差が増加・減少する様⼦
キーとなる数学
Marchenko-Pastur則(MP則)
• ランダム⾏列理論
• 線形回帰の分散項
57
MP則による
スペクトル密度
jΣ$%: データの分散共分散⾏列
→ ランダム⾏列理論を使える
/X
-
tr [ΣYZ
Σ
モデルを⼤きくする
→ データが持つ不確実性が相対的に低下
ニューラルネットワークは︖
• 限定的な⼆層NNなら理論が通⽤する
考える⼆層NN
• ⼀層⽬︓乱数パラメタ
• ⼆層⽬︓学習する
→ 擬似的な線形回帰
58
g
モデルの⼤きさKが増えて、
誤差が増加・減少する様⼦
分散(複雑性誤差)
ランダム⾏列理論を使うため
線形回帰に近い設定に持って
いくのがミソ
いくつかの批判
59
• 理論としてはまだ発展途上
➡ 今後の発展が望まれる理論
実は、元の現象と理論は20年前に発⾒されており、今回のは
焼き直しの側⾯も。今度のブームでどの程度更新されるか
実は、まだ限界が多い理論なんだ…
モデルを拡⼤すれば誤差消滅︕
これで全て解決︕︕
多層NNに使えない、近似誤差が消えない、など
説明できる状況はまだ限定的。
複雑性誤差の理論まとめ
• どの理論も⼀⻑⼀短
60
モデルの⼤きさ
A: 暗黙正則化
B: PAC-Bayes
C: ⼆重降下
✔ ❌
汎⽤的
⾮深層法では良い評価
深層学習の
実際と乖離
解釈しやすい
多様なバリエーション
実験で反証
実験と整合的 設定に難あり
⾰新的
新しい理論の地平
設定に難あり
使える状況が限定的
今後の継続的な探求・深化が望まれる
まとめと展望
68
まとめ・展望
近似誤差
• 進捗しているが更なる発展の余地
複雑性誤差
• 実現象との⼤きな⽭盾
• 新しい理論が多く提案
実運⽤
DNNの
理論
実験的発⾒
実現象の発⾒から
理論の拡張へ
69
ご静聴ありがとうございました。
70

Contenu connexe

Tendances

Active Learning 入門
Active Learning 入門Active Learning 入門
Active Learning 入門
Shuyo Nakatani
 

Tendances (20)

[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習
 
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
 
統計的学習理論チュートリアル: 基礎から応用まで (Ibis2012)
統計的学習理論チュートリアル: 基礎から応用まで (Ibis2012)統計的学習理論チュートリアル: 基礎から応用まで (Ibis2012)
統計的学習理論チュートリアル: 基礎から応用まで (Ibis2012)
 
多様な強化学習の概念と課題認識
多様な強化学習の概念と課題認識多様な強化学習の概念と課題認識
多様な強化学習の概念と課題認識
 
猫でも分かるVariational AutoEncoder
猫でも分かるVariational AutoEncoder猫でも分かるVariational AutoEncoder
猫でも分かるVariational AutoEncoder
 
[DL輪読会]逆強化学習とGANs
[DL輪読会]逆強化学習とGANs[DL輪読会]逆強化学習とGANs
[DL輪読会]逆強化学習とGANs
 
[DL輪読会]Understanding Black-box Predictions via Influence Functions
[DL輪読会]Understanding Black-box Predictions via Influence Functions [DL輪読会]Understanding Black-box Predictions via Influence Functions
[DL輪読会]Understanding Black-box Predictions via Influence Functions
 
強化学習と逆強化学習を組み合わせた模倣学習
強化学習と逆強化学習を組み合わせた模倣学習強化学習と逆強化学習を組み合わせた模倣学習
強化学習と逆強化学習を組み合わせた模倣学習
 
Attentionの基礎からTransformerの入門まで
Attentionの基礎からTransformerの入門までAttentionの基礎からTransformerの入門まで
Attentionの基礎からTransformerの入門まで
 
Active Learning 入門
Active Learning 入門Active Learning 入門
Active Learning 入門
 
ELBO型VAEのダメなところ
ELBO型VAEのダメなところELBO型VAEのダメなところ
ELBO型VAEのダメなところ
 
深層生成モデルと世界モデル
深層生成モデルと世界モデル深層生成モデルと世界モデル
深層生成モデルと世界モデル
 
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
 
cvpaper.challenge 研究効率化 Tips
cvpaper.challenge 研究効率化 Tipscvpaper.challenge 研究効率化 Tips
cvpaper.challenge 研究効率化 Tips
 
Recent Advances on Transfer Learning and Related Topics Ver.2
Recent Advances on Transfer Learning and Related Topics Ver.2Recent Advances on Transfer Learning and Related Topics Ver.2
Recent Advances on Transfer Learning and Related Topics Ver.2
 
全力解説!Transformer
全力解説!Transformer全力解説!Transformer
全力解説!Transformer
 
最適輸送入門
最適輸送入門最適輸送入門
最適輸送入門
 
[DL輪読会]Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets
[DL輪読会]Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets[DL輪読会]Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets
[DL輪読会]Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets
 
【論文紹介】How Powerful are Graph Neural Networks?
【論文紹介】How Powerful are Graph Neural Networks?【論文紹介】How Powerful are Graph Neural Networks?
【論文紹介】How Powerful are Graph Neural Networks?
 
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
 

Similaire à 【基調講演】『深層学習の原理の理解に向けた理論の試み』 今泉 允聡(東大)

組合せ最適化入門:線形計画から整数計画まで
組合せ最適化入門:線形計画から整数計画まで組合せ最適化入門:線形計画から整数計画まで
組合せ最適化入門:線形計画から整数計画まで
Shunji Umetani
 
Approximate Scalable Bounded Space Sketch for Large Data NLP
Approximate Scalable Bounded Space Sketch for Large Data NLPApproximate Scalable Bounded Space Sketch for Large Data NLP
Approximate Scalable Bounded Space Sketch for Large Data NLP
Koji Matsuda
 

Similaire à 【基調講演】『深層学習の原理の理解に向けた理論の試み』 今泉 允聡(東大) (20)

[DL輪読会]ドメイン転移と不変表現に関するサーベイ
[DL輪読会]ドメイン転移と不変表現に関するサーベイ[DL輪読会]ドメイン転移と不変表現に関するサーベイ
[DL輪読会]ドメイン転移と不変表現に関するサーベイ
 
Prml 1.3~1.6 ver3
Prml 1.3~1.6 ver3Prml 1.3~1.6 ver3
Prml 1.3~1.6 ver3
 
【学会発表】LDAにおけるベイズ汎化誤差の厳密な漸近形【IBIS2020】
【学会発表】LDAにおけるベイズ汎化誤差の厳密な漸近形【IBIS2020】【学会発表】LDAにおけるベイズ汎化誤差の厳密な漸近形【IBIS2020】
【学会発表】LDAにおけるベイズ汎化誤差の厳密な漸近形【IBIS2020】
 
Deep learningbook chap7
Deep learningbook chap7Deep learningbook chap7
Deep learningbook chap7
 
修士論文発表:「非負値行列分解における漸近的Bayes汎化誤差」
修士論文発表:「非負値行列分解における漸近的Bayes汎化誤差」修士論文発表:「非負値行列分解における漸近的Bayes汎化誤差」
修士論文発表:「非負値行列分解における漸近的Bayes汎化誤差」
 
【招待講演】パラメータ制約付き行列分解のベイズ汎化誤差解析【StatsML若手シンポ2020】
【招待講演】パラメータ制約付き行列分解のベイズ汎化誤差解析【StatsML若手シンポ2020】【招待講演】パラメータ制約付き行列分解のベイズ汎化誤差解析【StatsML若手シンポ2020】
【招待講演】パラメータ制約付き行列分解のベイズ汎化誤差解析【StatsML若手シンポ2020】
 
Lp Boost
Lp BoostLp Boost
Lp Boost
 
遺伝的アルゴリズム (Genetic Algorithm)を始めよう! 【簡略版】
遺伝的アルゴリズム(Genetic Algorithm)を始めよう! 【簡略版】遺伝的アルゴリズム(Genetic Algorithm)を始めよう! 【簡略版】
遺伝的アルゴリズム (Genetic Algorithm)を始めよう! 【簡略版】
 
LCCC2010:Learning on Cores, Clusters and Cloudsの解説
LCCC2010:Learning on Cores,  Clusters and Cloudsの解説LCCC2010:Learning on Cores,  Clusters and Cloudsの解説
LCCC2010:Learning on Cores, Clusters and Cloudsの解説
 
深層学習①
深層学習①深層学習①
深層学習①
 
Image net classification with Deep Convolutional Neural Networks
Image net classification with Deep Convolutional Neural NetworksImage net classification with Deep Convolutional Neural Networks
Image net classification with Deep Convolutional Neural Networks
 
組合せ最適化入門:線形計画から整数計画まで
組合せ最適化入門:線形計画から整数計画まで組合せ最適化入門:線形計画から整数計画まで
組合せ最適化入門:線形計画から整数計画まで
 
Jokyokai
JokyokaiJokyokai
Jokyokai
 
Prml 10 1
Prml 10 1Prml 10 1
Prml 10 1
 
深層学習とTensorFlow入門
深層学習とTensorFlow入門深層学習とTensorFlow入門
深層学習とTensorFlow入門
 
Interpretable sequence learning for covid-19 forecasting
Interpretable sequence learning for covid-19 forecastingInterpretable sequence learning for covid-19 forecasting
Interpretable sequence learning for covid-19 forecasting
 
PRML1.3
PRML1.3PRML1.3
PRML1.3
 
モンテカルロサンプリング
モンテカルロサンプリングモンテカルロサンプリング
モンテカルロサンプリング
 
Approximate Scalable Bounded Space Sketch for Large Data NLP
Approximate Scalable Bounded Space Sketch for Large Data NLPApproximate Scalable Bounded Space Sketch for Large Data NLP
Approximate Scalable Bounded Space Sketch for Large Data NLP
 
幾何を使った統計のはなし
幾何を使った統計のはなし幾何を使った統計のはなし
幾何を使った統計のはなし
 

Plus de MLSE

Plus de MLSE (9)

『鼎談:新しいプログラミングパラダイムとしての深層学習』 資料(萩谷 昌己)
『鼎談:新しいプログラミングパラダイムとしての深層学習』 資料(萩谷 昌己)『鼎談:新しいプログラミングパラダイムとしての深層学習』 資料(萩谷 昌己)
『鼎談:新しいプログラミングパラダイムとしての深層学習』 資料(萩谷 昌己)
 
K. Czarnecki and R. Salay, Towards a Framework to Manage Perceptual Uncertain...
K. Czarnecki and R. Salay, Towards a Framework to Manage Perceptual Uncertain...K. Czarnecki and R. Salay, Towards a Framework to Manage Perceptual Uncertain...
K. Czarnecki and R. Salay, Towards a Framework to Manage Perceptual Uncertain...
 
Jsai2018
Jsai2018Jsai2018
Jsai2018
 
深層学習の品質保証
深層学習の品質保証深層学習の品質保証
深層学習の品質保証
 
ソフトウェア工学は機械学習の夢を見るか ー ソフトウェア工学の振り返りとアーキテクト的観点からの問題提起
ソフトウェア工学は機械学習の夢を見るか ー ソフトウェア工学の振り返りとアーキテクト的観点からの問題提起ソフトウェア工学は機械学習の夢を見るか ー ソフトウェア工学の振り返りとアーキテクト的観点からの問題提起
ソフトウェア工学は機械学習の夢を見るか ー ソフトウェア工学の振り返りとアーキテクト的観点からの問題提起
 
ソフトウェア工学における問題提起と機械学習の新たなあり方
ソフトウェア工学における問題提起と機械学習の新たなあり方ソフトウェア工学における問題提起と機械学習の新たなあり方
ソフトウェア工学における問題提起と機械学習の新たなあり方
 
開催の辞
開催の辞開催の辞
開催の辞
 
機械学習工学への期待〜機械学習が工学となるために〜
機械学習工学への期待〜機械学習が工学となるために〜機械学習工学への期待〜機械学習が工学となるために〜
機械学習工学への期待〜機械学習が工学となるために〜
 
機械学習研究の現状とこれから
機械学習研究の現状とこれから機械学習研究の現状とこれから
機械学習研究の現状とこれから
 

【基調講演】『深層学習の原理の理解に向けた理論の試み』 今泉 允聡(東大)