SlideShare une entreprise Scribd logo
1  sur  44
Télécharger pour lire hors ligne
(ver.1.0)
M1
2015/1/29
1
• Q.
• A.
• ( )
• Markov
• Chebyshev
•
• Chernoff bound / Hoeffding / Azuma / Bernstein, etc…
2
• S. Boucheron, G. Lugosi and P. Massart:
Concentration Inequalities: A Nonasymptotic Theory of
Independence.
Oxford Univ. Pr., 2013.
• / /
• “theory of independence”
• (cf: Talagrand (1996))
3
1. Introduction ( )
2. – 9. &
• Chernoff bound / Hoeffding / Bernstein
• (Efron-Stein / Poincaré)
• (Han / Pinsker / Ent. / Birge)
• Sobolev
•
•
•
10. – 15. advanced (?)
• 11. – 13. sup
4
5
•
• (concentration inequality)
•
• / / / /
/ / / etc…
• Twitter bio
• Talagrand (1995)
•
Chernoff
• Q. (smoothness condition)
6
: 1
• 1.1
• 1.2
• 1.3
• 1.4
7
• 𝑋1, … , 𝑋 𝑛
• 2 ( )
• =
• =
• Markov
8
Hoeffding
• 𝑌: [𝑎, 𝑏]
 𝑉𝑎𝑟 𝑌 ≤
𝑏−𝑎 2
4
• “exponential change” ( lem2.2)
 𝜓 𝑌−𝐸𝑌 𝜆 ≤
𝜆2 𝑏−𝑎 2
8
• Hoeffding
• 𝑋1, … , 𝑋 𝑛 : [𝑎𝑖, 𝑏𝑖]
• 𝑍 = 𝑖 𝑋𝑖
𝜓 𝑍−𝐸𝑍 𝜆 =
𝑖
𝜓 𝑋 𝑖−𝐸𝑋 𝑖
(𝜆) ≤
𝜆2 𝑣
2
• where 𝑣 ≔ 𝑖
𝑏 𝑖−𝑎 𝑖
2
4
= cumulant
 𝑍 sub-Gaussian
9
(BDC)
• smoothness condition
• (bdd. difference condition)
• 𝑥𝑖
• Hamming 𝑑 𝑐 𝑥, 𝑦 = 𝑖 𝑐𝑖1 𝑥 𝑖≠𝑦 𝑖
1-Lipschitz
• : BDC
10
• 𝑓: BDC
• 𝑍 = 𝑓(𝑋1, … , 𝑋 𝑛)
• 𝑍
• Δ𝑖 ≔ 𝐸 𝑍 𝑋1, … , 𝑋𝑖 − 𝐸[𝑍|𝑋1, … 𝑋𝑖−1 ]
• 𝑍 − 𝐸𝑍 = 𝑖 Δ𝑖
• BDC ⇔ Δ𝑖 𝑐𝑖
• Hoeffding ineq.
𝜓 𝑍−𝐸𝑍 𝜆 ≤
𝜆2
2
⋅
1
4
𝑐𝑖
2
• bounded distance inequality / McDiarmid
11
McDiarmid: (1)
sup sup
•
• 0 < 𝛿 < 1
•
• 𝑃: (※ )
• 𝑃𝑛: ( 𝑃 i.i.d.
• P E
• 
12
McDiarmid: (1)
•
• BDC
• McDiamid
• ( )= 𝛿
13
: 1
• 1.1
• 1.2
• 1.3
• 1.4
14
• (isoperimetry)
•
• 𝑛- (Lebesgue 𝜆)
• 𝐴 ⊂ ℝ 𝑛
: ( )
• 𝐴 𝑡 ≔ {𝑥 ∈ ℝ 𝑛 ; 𝑑 𝑥, 𝐴 < 𝑡} 𝐴 𝑡-blowup ( )
• 𝐴 𝑛- 𝐵
𝐴
𝑡
∀𝑡 > 0, 𝜆 𝐴 𝑡 ≥ 𝜆(𝐵𝑡)
15

• 𝑆 𝑛−1 (Lévy )
• 𝑆 𝑛−1
(= )
• 𝜇 𝐴 ≥
1
2
•
𝜇 𝐴 𝑡
𝑐
≤ 𝜇 𝐵𝑡
𝑐
= exp −
𝑛 − 1 𝑡2
2
• 𝜇 𝐴 ≥
1
2
𝐴 𝑡
𝑡
• 𝑛 − 1 (= )
≤
𝐴 𝐵
16
Lipschitz (1)
•
Lipschitz median
•
•
• 1-Lipshitz w.r.t. 𝑑
• ( )
( )
• : median
17
𝑀𝑓(𝑋)
1
2
1
2
Lipschitz (2)
• 𝐴 𝑑 𝑡
• 𝐴
• 𝑥 ∈ 𝐴 𝑡 𝑓 𝑥 < 𝑀𝑓 𝑋 + 𝑡
• 𝑑 𝑥, 𝑦 < 𝑡 𝑦 ∈ 𝐴
𝑓 1-Lipshitz
𝑓 𝑥 − 𝑀𝑓 𝑋 ≤ 𝑓 𝑥 − 𝑓 𝑦 ≤ 𝑑 𝑥, 𝑦 < 𝑡
18
Lipschitz (3)
•
• median 𝐴 ≥
1
2
• ( )
•
• 𝛼(𝑡) median
• 𝑆 𝑛−1
: sup
•  Lipshitz
19
( )
Gauss
• Gauss (Gauss 𝛾 )
• Borell (1975), Tsirelson, Ibragimov & Sudakov (1976)
• ( Sec10.4)
• Gauss 𝐻 extremal set
•  ( ) 𝛼(𝑡) explicit
• 𝑃 𝐴 ≥
1
2
20
 (GP)
(1)
• ( )
•
• Hamming
• 𝛼 = (𝛼1, … , 𝛼 𝑛)
• 𝑑 𝛼 Lipshitz = BDC
• 𝑑 𝛼(𝑥, 𝐴) McDiarmid ( Sec. 7.4)
21
(2)
• Hamming ( )
• 𝑑 𝛼 1-Lipshitz 𝑓
22
: Rademacher sup (1)
• Rademacher complexity
• 𝜎𝑖 1/2 ±1 (Rademacher )
• 𝑅 𝑛 Rademacher
sup
23
: Rademacher sup (2)
•
• :
• (i.e. Rademacher )
•
•
• 𝑥 {𝑎𝑖,𝑡}
𝑥
24
: Rademacher sup (3)
• Hamming BDC
• Rademacher ( −1,1 𝑛 )
25
Talagrand (1)
• Hamming ( )
• Talagrand (Sec. 7.4)
•
• 𝑃 𝑋 ∈ 𝐴 ≥
1
2
𝑣 > 0
26
Talagrand (2)
• Rademacher BDC ( )
• =Lipshitz w.r.t Hamming
•
27
𝑥
Talagrand (3)
•
•
• 𝑣 = sup 𝑥 𝛼 𝑥 2
2
• Talagrand
28
※ 𝑥
: 1
• 1.1
• 1.2
• 1.3
• 1.4
29
Efron-Stein
• 𝑋 = (𝑋1, … , 𝑋 𝑛)
• 𝑋(𝑖)
= (𝑋1, … , 𝑋𝑖−1, 𝑋𝑖+1, … , 𝑋 𝑛)
• Efron-Stein (Sec. 3.1)
• [Efron & Stein 1981] 𝑓
• [Steele 1986] 𝑓
• ( : r.v. + Jensen)
30
Φ-entropy
• Φ Φ-entropy
• Φ-entropy
(Chap. 14)
• 1 Φ 𝑥 = 𝑥2
 Efron-Stein!
• 2 Φ 𝑥 = 𝑥 log 𝑥
31
Sobolev
• ≤
Sobolev
• Gaussian log-Sobolev (Chap. 5)
• : Gauss Sobolev
• log-Sobolev (Chap. 6)
• Gaussian Sobolev
• Gaussian vector
•
32
Sobolev  (1)
Herbst
• Sobolev
• log-Sobolev: ≤ *
• 𝑓: ℝ 𝑛
→ ℝ 1-Lipshitz
• ∇𝑓(𝑋) ≤ 1
• 𝑔 𝑥 = exp
𝜆𝑓 𝑥
2
(𝜆 > 0)
33
≤ 1
Sobolev  (2)
• 𝑔(𝑥) Sobolev
• 𝑓 𝑋 − 𝐸𝑓(𝑋)
34
(log-Sobolev)
Sobolev  (3)
•
•
•
35
( log-Sobolev)
median vs.
• Gauss Lipshitz
•
 median
• ( Sobolev)

36
: 1
• 1.1
• 1.2
• 1.3
• 1.4
37
(1)
※ )
• 𝑃, 𝑄:
• 𝑃 𝑄 𝜋
𝑃 𝑄
•
• (Wasserstein )
38
(2)
( )
•
• 𝑋~𝑃 𝑇 𝑌 = 𝑇(𝑋) 𝑄
𝑇
• 𝑥 y = 𝑇(𝑥) 𝑐(𝑥, 𝑇 𝑥 )
• 𝑐 𝑥, 𝑦 = 𝑑(𝑥, 𝑦) ( )
• ≒ 𝑇
• 𝑇
• : 1 2
• 
well-defined
• [Villani08, Chap. 4]
39
Talagrand
• KL-divergence 𝐷(𝑄||𝑃)
• 𝑄 𝑃
( ∞)
• Talagrand [Talagrand (1996d)]
• 𝑃 Gauss 𝑄 𝑃
40
 (1)
• 𝑓: ℝ 𝑛 → ℝ 1-Lipshitz w.r.t. Euclid
• 𝑍 = 𝑓(𝑋)
• 𝑋~𝑃 (Gauss )
• Jensen coupling 𝜋
•
41
 (2)
• (Sec. 4.9)
• ( : 𝜆𝑎 − 𝑎2 = 𝜆𝑎 − 𝑎2 −
𝜆
2
2
+
𝜆
2
2
= − 𝑎 +
𝜆
2
2
+
𝜆
2
2
)
•
• ※ log-Sobolev
42
v.s.
• Marton (1996a, b)
•  McDiamid,
• v.s.
•
•
• sup
• (𝑃 𝑍 < 𝐸𝑍 − 𝑡 )
•
• sup
43
• /
• P. Massart: Concentration Inequalities and Model Selection. Springer,
2003.
• M. Ledoux: The Concentration of Measure Phenomenon. AMS, 2001.
• :
(pdf)
• M. Ledoux
• Concentration of measure and logarithmic Sobolev inequalities
http://www.math.duke.edu/~rtd/CPSS2007/Berlin.pdf
• Isoperimetry and Gaussian analysis
http://www.math.univ-toulouse.fr/~ledoux/Flour.pdf
• G. Lugosi
• Concentration-of-measure inequalities (@MLSS03/05)
http://www.econ.upf.edu/~lugosi/anu.pdf
• S. Boucheron
• Concentration inequalities with machine learning applications ( )
www.proba.jussieu.fr/pageperso/boucheron/SLIDES/tuebingen.pdf
44

Contenu connexe

Tendances

最適化超入門
最適化超入門最適化超入門
最適化超入門Takami Sato
 
【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習cvpaper. challenge
 
GAN(と強化学習との関係)
GAN(と強化学習との関係)GAN(と強化学習との関係)
GAN(と強化学習との関係)Masahiro Suzuki
 
[DL輪読会]Deep Learning 第2章 線形代数
[DL輪読会]Deep Learning 第2章 線形代数[DL輪読会]Deep Learning 第2章 線形代数
[DL輪読会]Deep Learning 第2章 線形代数Deep Learning JP
 
論文の図表レイアウト例
論文の図表レイアウト例論文の図表レイアウト例
論文の図表レイアウト例Sunao Hara
 
Deeplearning輪読会
Deeplearning輪読会Deeplearning輪読会
Deeplearning輪読会正志 坪坂
 
最適輸送の計算アルゴリズムの研究動向
最適輸送の計算アルゴリズムの研究動向最適輸送の計算アルゴリズムの研究動向
最適輸送の計算アルゴリズムの研究動向ohken
 
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法SSII
 
変分推論法(変分ベイズ法)(PRML第10章)
変分推論法(変分ベイズ法)(PRML第10章)変分推論法(変分ベイズ法)(PRML第10章)
変分推論法(変分ベイズ法)(PRML第10章)Takao Yamanaka
 
【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings (EMNLP 2021)
【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings  (EMNLP 2021)【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings  (EMNLP 2021)
【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings (EMNLP 2021)Deep Learning JP
 
最近強化学習の良記事がたくさん出てきたので勉強しながらまとめた
最近強化学習の良記事がたくさん出てきたので勉強しながらまとめた最近強化学習の良記事がたくさん出てきたので勉強しながらまとめた
最近強化学習の良記事がたくさん出てきたので勉強しながらまとめたKatsuya Ito
 
機械学習のためのベイズ最適化入門
機械学習のためのベイズ最適化入門機械学習のためのベイズ最適化入門
機械学習のためのベイズ最適化入門hoxo_m
 
機械学習におけるオンライン確率的最適化の理論
機械学習におけるオンライン確率的最適化の理論機械学習におけるオンライン確率的最適化の理論
機械学習におけるオンライン確率的最適化の理論Taiji Suzuki
 
指数時間アルゴリズム入門
指数時間アルゴリズム入門指数時間アルゴリズム入門
指数時間アルゴリズム入門Yoichi Iwata
 
【DL輪読会】The Forward-Forward Algorithm: Some Preliminary
【DL輪読会】The Forward-Forward Algorithm: Some Preliminary【DL輪読会】The Forward-Forward Algorithm: Some Preliminary
【DL輪読会】The Forward-Forward Algorithm: Some PreliminaryDeep Learning JP
 
深層生成モデルと世界モデル(2020/11/20版)
深層生成モデルと世界モデル(2020/11/20版)深層生成モデルと世界モデル(2020/11/20版)
深層生成モデルと世界モデル(2020/11/20版)Masahiro Suzuki
 

Tendances (20)

最適化超入門
最適化超入門最適化超入門
最適化超入門
 
【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習
 
GAN(と強化学習との関係)
GAN(と強化学習との関係)GAN(と強化学習との関係)
GAN(と強化学習との関係)
 
[DL輪読会]Deep Learning 第2章 線形代数
[DL輪読会]Deep Learning 第2章 線形代数[DL輪読会]Deep Learning 第2章 線形代数
[DL輪読会]Deep Learning 第2章 線形代数
 
ELBO型VAEのダメなところ
ELBO型VAEのダメなところELBO型VAEのダメなところ
ELBO型VAEのダメなところ
 
論文の図表レイアウト例
論文の図表レイアウト例論文の図表レイアウト例
論文の図表レイアウト例
 
Deeplearning輪読会
Deeplearning輪読会Deeplearning輪読会
Deeplearning輪読会
 
双対性
双対性双対性
双対性
 
最適輸送の計算アルゴリズムの研究動向
最適輸送の計算アルゴリズムの研究動向最適輸送の計算アルゴリズムの研究動向
最適輸送の計算アルゴリズムの研究動向
 
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
 
変分推論法(変分ベイズ法)(PRML第10章)
変分推論法(変分ベイズ法)(PRML第10章)変分推論法(変分ベイズ法)(PRML第10章)
変分推論法(変分ベイズ法)(PRML第10章)
 
Rの高速化
Rの高速化Rの高速化
Rの高速化
 
【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings (EMNLP 2021)
【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings  (EMNLP 2021)【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings  (EMNLP 2021)
【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings (EMNLP 2021)
 
最近強化学習の良記事がたくさん出てきたので勉強しながらまとめた
最近強化学習の良記事がたくさん出てきたので勉強しながらまとめた最近強化学習の良記事がたくさん出てきたので勉強しながらまとめた
最近強化学習の良記事がたくさん出てきたので勉強しながらまとめた
 
機械学習のためのベイズ最適化入門
機械学習のためのベイズ最適化入門機械学習のためのベイズ最適化入門
機械学習のためのベイズ最適化入門
 
機械学習におけるオンライン確率的最適化の理論
機械学習におけるオンライン確率的最適化の理論機械学習におけるオンライン確率的最適化の理論
機械学習におけるオンライン確率的最適化の理論
 
指数時間アルゴリズム入門
指数時間アルゴリズム入門指数時間アルゴリズム入門
指数時間アルゴリズム入門
 
【DL輪読会】The Forward-Forward Algorithm: Some Preliminary
【DL輪読会】The Forward-Forward Algorithm: Some Preliminary【DL輪読会】The Forward-Forward Algorithm: Some Preliminary
【DL輪読会】The Forward-Forward Algorithm: Some Preliminary
 
階層ベイズとWAIC
階層ベイズとWAIC階層ベイズとWAIC
階層ベイズとWAIC
 
深層生成モデルと世界モデル(2020/11/20版)
深層生成モデルと世界モデル(2020/11/20版)深層生成モデルと世界モデル(2020/11/20版)
深層生成モデルと世界モデル(2020/11/20版)
 

集中不等式のすすめ [集中不等式本読み会#1]

  • 2. • Q. • A. • ( ) • Markov • Chebyshev • • Chernoff bound / Hoeffding / Azuma / Bernstein, etc… 2
  • 3. • S. Boucheron, G. Lugosi and P. Massart: Concentration Inequalities: A Nonasymptotic Theory of Independence. Oxford Univ. Pr., 2013. • / / • “theory of independence” • (cf: Talagrand (1996)) 3
  • 4. 1. Introduction ( ) 2. – 9. & • Chernoff bound / Hoeffding / Bernstein • (Efron-Stein / Poincaré) • (Han / Pinsker / Ent. / Birge) • Sobolev • • • 10. – 15. advanced (?) • 11. – 13. sup 4
  • 5. 5
  • 6. • • (concentration inequality) • • / / / / / / / etc… • Twitter bio • Talagrand (1995) • Chernoff • Q. (smoothness condition) 6
  • 7. : 1 • 1.1 • 1.2 • 1.3 • 1.4 7
  • 8. • 𝑋1, … , 𝑋 𝑛 • 2 ( ) • = • = • Markov 8
  • 9. Hoeffding • 𝑌: [𝑎, 𝑏]  𝑉𝑎𝑟 𝑌 ≤ 𝑏−𝑎 2 4 • “exponential change” ( lem2.2)  𝜓 𝑌−𝐸𝑌 𝜆 ≤ 𝜆2 𝑏−𝑎 2 8 • Hoeffding • 𝑋1, … , 𝑋 𝑛 : [𝑎𝑖, 𝑏𝑖] • 𝑍 = 𝑖 𝑋𝑖 𝜓 𝑍−𝐸𝑍 𝜆 = 𝑖 𝜓 𝑋 𝑖−𝐸𝑋 𝑖 (𝜆) ≤ 𝜆2 𝑣 2 • where 𝑣 ≔ 𝑖 𝑏 𝑖−𝑎 𝑖 2 4 = cumulant  𝑍 sub-Gaussian 9
  • 10. (BDC) • smoothness condition • (bdd. difference condition) • 𝑥𝑖 • Hamming 𝑑 𝑐 𝑥, 𝑦 = 𝑖 𝑐𝑖1 𝑥 𝑖≠𝑦 𝑖 1-Lipschitz • : BDC 10
  • 11. • 𝑓: BDC • 𝑍 = 𝑓(𝑋1, … , 𝑋 𝑛) • 𝑍 • Δ𝑖 ≔ 𝐸 𝑍 𝑋1, … , 𝑋𝑖 − 𝐸[𝑍|𝑋1, … 𝑋𝑖−1 ] • 𝑍 − 𝐸𝑍 = 𝑖 Δ𝑖 • BDC ⇔ Δ𝑖 𝑐𝑖 • Hoeffding ineq. 𝜓 𝑍−𝐸𝑍 𝜆 ≤ 𝜆2 2 ⋅ 1 4 𝑐𝑖 2 • bounded distance inequality / McDiarmid 11
  • 12. McDiarmid: (1) sup sup • • 0 < 𝛿 < 1 • • 𝑃: (※ ) • 𝑃𝑛: ( 𝑃 i.i.d. • P E •  12
  • 13. McDiarmid: (1) • • BDC • McDiamid • ( )= 𝛿 13
  • 14. : 1 • 1.1 • 1.2 • 1.3 • 1.4 14
  • 15. • (isoperimetry) • • 𝑛- (Lebesgue 𝜆) • 𝐴 ⊂ ℝ 𝑛 : ( ) • 𝐴 𝑡 ≔ {𝑥 ∈ ℝ 𝑛 ; 𝑑 𝑥, 𝐴 < 𝑡} 𝐴 𝑡-blowup ( ) • 𝐴 𝑛- 𝐵 𝐴 𝑡 ∀𝑡 > 0, 𝜆 𝐴 𝑡 ≥ 𝜆(𝐵𝑡) 15
  • 16.  • 𝑆 𝑛−1 (Lévy ) • 𝑆 𝑛−1 (= ) • 𝜇 𝐴 ≥ 1 2 • 𝜇 𝐴 𝑡 𝑐 ≤ 𝜇 𝐵𝑡 𝑐 = exp − 𝑛 − 1 𝑡2 2 • 𝜇 𝐴 ≥ 1 2 𝐴 𝑡 𝑡 • 𝑛 − 1 (= ) ≤ 𝐴 𝐵 16
  • 17. Lipschitz (1) • Lipschitz median • • • 1-Lipshitz w.r.t. 𝑑 • ( ) ( ) • : median 17 𝑀𝑓(𝑋) 1 2 1 2
  • 18. Lipschitz (2) • 𝐴 𝑑 𝑡 • 𝐴 • 𝑥 ∈ 𝐴 𝑡 𝑓 𝑥 < 𝑀𝑓 𝑋 + 𝑡 • 𝑑 𝑥, 𝑦 < 𝑡 𝑦 ∈ 𝐴 𝑓 1-Lipshitz 𝑓 𝑥 − 𝑀𝑓 𝑋 ≤ 𝑓 𝑥 − 𝑓 𝑦 ≤ 𝑑 𝑥, 𝑦 < 𝑡 18
  • 19. Lipschitz (3) • • median 𝐴 ≥ 1 2 • ( ) • • 𝛼(𝑡) median • 𝑆 𝑛−1 : sup •  Lipshitz 19 ( )
  • 20. Gauss • Gauss (Gauss 𝛾 ) • Borell (1975), Tsirelson, Ibragimov & Sudakov (1976) • ( Sec10.4) • Gauss 𝐻 extremal set •  ( ) 𝛼(𝑡) explicit • 𝑃 𝐴 ≥ 1 2 20  (GP)
  • 21. (1) • ( ) • • Hamming • 𝛼 = (𝛼1, … , 𝛼 𝑛) • 𝑑 𝛼 Lipshitz = BDC • 𝑑 𝛼(𝑥, 𝐴) McDiarmid ( Sec. 7.4) 21
  • 22. (2) • Hamming ( ) • 𝑑 𝛼 1-Lipshitz 𝑓 22
  • 23. : Rademacher sup (1) • Rademacher complexity • 𝜎𝑖 1/2 ±1 (Rademacher ) • 𝑅 𝑛 Rademacher sup 23
  • 24. : Rademacher sup (2) • • : • (i.e. Rademacher ) • • • 𝑥 {𝑎𝑖,𝑡} 𝑥 24
  • 25. : Rademacher sup (3) • Hamming BDC • Rademacher ( −1,1 𝑛 ) 25
  • 26. Talagrand (1) • Hamming ( ) • Talagrand (Sec. 7.4) • • 𝑃 𝑋 ∈ 𝐴 ≥ 1 2 𝑣 > 0 26
  • 27. Talagrand (2) • Rademacher BDC ( ) • =Lipshitz w.r.t Hamming • 27 𝑥
  • 28. Talagrand (3) • • • 𝑣 = sup 𝑥 𝛼 𝑥 2 2 • Talagrand 28 ※ 𝑥
  • 29. : 1 • 1.1 • 1.2 • 1.3 • 1.4 29
  • 30. Efron-Stein • 𝑋 = (𝑋1, … , 𝑋 𝑛) • 𝑋(𝑖) = (𝑋1, … , 𝑋𝑖−1, 𝑋𝑖+1, … , 𝑋 𝑛) • Efron-Stein (Sec. 3.1) • [Efron & Stein 1981] 𝑓 • [Steele 1986] 𝑓 • ( : r.v. + Jensen) 30
  • 31. Φ-entropy • Φ Φ-entropy • Φ-entropy (Chap. 14) • 1 Φ 𝑥 = 𝑥2  Efron-Stein! • 2 Φ 𝑥 = 𝑥 log 𝑥 31
  • 32. Sobolev • ≤ Sobolev • Gaussian log-Sobolev (Chap. 5) • : Gauss Sobolev • log-Sobolev (Chap. 6) • Gaussian Sobolev • Gaussian vector • 32
  • 33. Sobolev  (1) Herbst • Sobolev • log-Sobolev: ≤ * • 𝑓: ℝ 𝑛 → ℝ 1-Lipshitz • ∇𝑓(𝑋) ≤ 1 • 𝑔 𝑥 = exp 𝜆𝑓 𝑥 2 (𝜆 > 0) 33 ≤ 1
  • 34. Sobolev  (2) • 𝑔(𝑥) Sobolev • 𝑓 𝑋 − 𝐸𝑓(𝑋) 34 (log-Sobolev)
  • 36. median vs. • Gauss Lipshitz •  median • ( Sobolev)  36
  • 37. : 1 • 1.1 • 1.2 • 1.3 • 1.4 37
  • 38. (1) ※ ) • 𝑃, 𝑄: • 𝑃 𝑄 𝜋 𝑃 𝑄 • • (Wasserstein ) 38
  • 39. (2) ( ) • • 𝑋~𝑃 𝑇 𝑌 = 𝑇(𝑋) 𝑄 𝑇 • 𝑥 y = 𝑇(𝑥) 𝑐(𝑥, 𝑇 𝑥 ) • 𝑐 𝑥, 𝑦 = 𝑑(𝑥, 𝑦) ( ) • ≒ 𝑇 • 𝑇 • : 1 2 •  well-defined • [Villani08, Chap. 4] 39
  • 40. Talagrand • KL-divergence 𝐷(𝑄||𝑃) • 𝑄 𝑃 ( ∞) • Talagrand [Talagrand (1996d)] • 𝑃 Gauss 𝑄 𝑃 40
  • 41.  (1) • 𝑓: ℝ 𝑛 → ℝ 1-Lipshitz w.r.t. Euclid • 𝑍 = 𝑓(𝑋) • 𝑋~𝑃 (Gauss ) • Jensen coupling 𝜋 • 41
  • 42.  (2) • (Sec. 4.9) • ( : 𝜆𝑎 − 𝑎2 = 𝜆𝑎 − 𝑎2 − 𝜆 2 2 + 𝜆 2 2 = − 𝑎 + 𝜆 2 2 + 𝜆 2 2 ) • • ※ log-Sobolev 42
  • 43. v.s. • Marton (1996a, b) •  McDiamid, • v.s. • • • sup • (𝑃 𝑍 < 𝐸𝑍 − 𝑡 ) • • sup 43
  • 44. • / • P. Massart: Concentration Inequalities and Model Selection. Springer, 2003. • M. Ledoux: The Concentration of Measure Phenomenon. AMS, 2001. • : (pdf) • M. Ledoux • Concentration of measure and logarithmic Sobolev inequalities http://www.math.duke.edu/~rtd/CPSS2007/Berlin.pdf • Isoperimetry and Gaussian analysis http://www.math.univ-toulouse.fr/~ledoux/Flour.pdf • G. Lugosi • Concentration-of-measure inequalities (@MLSS03/05) http://www.econ.upf.edu/~lugosi/anu.pdf • S. Boucheron • Concentration inequalities with machine learning applications ( ) www.proba.jussieu.fr/pageperso/boucheron/SLIDES/tuebingen.pdf 44