APPRENTISSAGE STATISTIQUE

APPRENTISSAGE STATISTIQUE
(ENS 2010 – 2011)
Notes des cours 1 et 2
Jean-Yves Audibert

Table des matières
Chapitre 1. Description formelle et exemples 1
1. Problématique 1
2. Exemples 2
3. Fonctions cibles pour le classement et la régression aux moindres carrés 5
4. Lien entre classement binaire et régression aux moindres carrés 7
5. Consistance 8
6. Pas de consistance uniformément universelle 9
Chapitre 2. Algorithmes par moyennage local 13
1. Principe 13
2. L’algorithme des k-plus proches voisins 16
3. Algorithme par noyau 20
4. Algorithme par partition 21
Chapitre 3. Algorithmes par minimisation du risque empirique 23
1. Principe de la minimisation du risque empirique 23
2. Réseaux de neurones 25
3. Outils probabilistes 27
4. Etude de la performance de la minimisation du risque empirique 33
Bibliographie 37
iii

CHAPITRE 1
Description formelle et exemples
1. Problématique
Nous observons une base de données composée de n couples Z1 = (X1, Y1), . . . ,
Zn = (Xn, Yn) que nous supposons être des réalisations indépendantes d’une même
loi P inconnue. Les X1, . . . , Xn appartiennent à un espace X et s’appellent les
entrées. Typiquement, X = Rd
pour un grand entier d. Les Y1, . . . , Yn appartiennent
à un espace Y, et s’appellent les sorties. Typiquement, Y est fini ou Y est un sous-
ensemble de R.
But de l’apprentissage statistique : prédire la sortie Y associée à toute nouvelle
entrée X, où il est sous-entendu que la paire (X, Y ) est une nouvelle réalisation
de la loi P, cette réalisation étant indépendante des réalisations précédemment
observées.
Une fonction de prédiction est une fonction (mesurable) de X dans Y. Dans ce
chapitre, nous supposons que toutes les quantités que nous manipulons sont mesu-
rables. L’ensemble de toutes les fonctions de prédiction est noté F(X, Y). La base
de données Z1, . . . , Zn est appelée ensemble d’apprentissage, et sera parfois notée
Zn
1 . Un algorithme d’apprentissage est une fonction qui à tout ensemble d’appren-
tissage renvoie une fonction de prédiction, i.e. une fonction de l’union ∪n≥1Zn
dans
l’ensemble F(X, Y), où Z = X × Y. C’est un estimateur de “la meilleure” fonction
de prédiction, où le terme “meilleure” sera précisé ultérieurement.
Soit ℓ(y, y′
) la perte encourue lorsque la sortie réelle est y et la sortie prédite
est y′
. La fonction ℓ : Y × Y → R est appelée fonction de perte.
Exemple du classement : ℓ(y, y′
) = 1Iy̸=y′ (i.e. ℓ(y, y′
) = 1 si y ̸= y′
et ℓ(y, y′
) =
0 sinon). Un problème d’apprentissage pour lequel cette fonction de perte est
utilisée est appelé problème de classement (ou plus couramment par angli-
cisme classification). L’ensemble Y considéré en classement est le plus souvent
fini, voire même de cardinal deux en classement binaire.
Exemple de la régression Lp : Y = R et ℓ(y, y′
) = |y − y′
|p
où p ≥ 1 est un réel
fixé. Dans ce cas, on parle de régression Lp. La tâche d’apprentissage lorsque
p = 2 est aussi appelée régression aux moindres carrés.
La qualité d’une fonction de prédiction g : X → Y est mesurée par son risque (ou
erreur de généralisation) :
R(g) = E
[
ℓ
(
Y, g(X)
)]
. (1.1.1)
Le risque est donc l’espérance par rapport à loi P de la perte encourue sur la donnée
(X, Y ) par la fonction de prédiction g.
1

2 1. DESCRIPTION FORMELLE ET EXEMPLES
Remarque 1.1. La littérature regorge de notations différentes pour désigner
cette quantité :
Eℓ[·, g(·)] (1.1.2)
E(X,Y )ℓ[Y, g(X)] (1.1.3)
EdP (X,Y )ℓ[Y, g(X)] (1.1.4)
EP (dX,dY )ℓ[Y, g(X)] (1.1.5)
E(X,Y )∼P ℓ[Y, g(X)] (1.1.6)
∫
ℓ[y, g(x)]dP(x, y) (1.1.7)
(1.1.8)
Si la notation (1.1.2) peut paraître un peu cavalière (par la quantité d’information
sous-entendue), les notations complètes (1.1.4), (1.1.5), (1.1.6) et (1.1.7) sont sou-
vent lourdes à employer. Un compromis est l’utilisation de (1.1.1) ou pour souligner
quelles sont les variables aléatoires de (1.1.3). Enfin, si nous notons (Ω, F, P) l’espace
probabilisé dans lequel vivent nos variables aléatoires X, Y, X1, Y1, . . . , Xn, Yn, le
risque peut également s’écrire R(g) = EdP(w)ℓ[Y (w), g(X(w))] =
∫
ℓ[Y (w), g(X(w))]dP(w).
La qualité d’un algorithme d’apprentissage ˆg peut être mesurée par son risque
moyen
EZn
1
R[ˆg(Zn
1 )],
traditionnellement écrit ER(ˆg), où il est sous-entendu que l’espérance est prise par
rapport à la loi de l’ensemble d’apprentissage.
Un modèle est un ensemble P de probabilités sur Z dans lequel nous supposons
que P est. P est inconnue mais P est connu. Un modèle est dit paramétrique si il
existe une injection de P dans Rd
pour un certain entier d. Sinon le modèle est dit
non paramétrique.
Exemple 1 : X = R, Y = {−1; 1}. Alors le modèle
P =
{
Probabilités t.q. L(X|Y = 1) et L(X|Y = −1) sont des gaussiennes
}
est paramétrique (à 5 paramètres).
Exemple 2 : |Z| = +∞ (i.e. Z de cardinal infini). Alors le modèle composé par
toutes les distributions sur Z est non paramétrique.
La “meilleure” fonction de prédiction est la (ou plus rigoureusement une) fonc-
tion de F(X, Y) minimisant R. Une telle fonction n’existe pas nécessairement mais
existe pour les fonctions de pertes usuelles (notamment celles que nous considére-
rons par la suite). Cette “meilleure” fonction sera appelée fonction cible ou fonction
oracle ou prédicteur de Bayes) (cf. Section 3).
2. Exemples
Dans ce paragraphe, nous proposons des exemples illustrant la problématique
précédente.
Exemple 1.1. La reconnaissance de caractères manuscrits est un des problèmes
sur lequel les méthodes d’apprentissage ont permis des avancées fulgurantes. Le
contexte est le suivant : nous disposons d’une image numérisée d’un caractère ma-
nuscrit. Cette image est essentiellement un tableau de nombre réels indiquant l’in-
tensité lumineuse en chacun des pixels. Nous souhaitons trouver la fonction qui à

2. EXEMPLES 3
ce tableau de réels renvoie le caractère présent dans l’image. A l’heure actuelle,
les meilleures méthodes pour trouver une telle fonction sont de nature statistique :
elles reposent donc sur
Figure 1. Reconnaissance de chiffres manuscrits. Les 56 erreurs
sur les 10 000 caractères de la base de test (MNIST/VSV2) d’un des
meilleurs algorithmes de reconnaissance de caractères manuscrits
[3, 9]. Le premier nombre en haut à droite indique la valeur prédite
et le second indique la vraie valeur. Le nombre en bas à gauche est
le numéro de l’image (de 1 à 10 000).
(1) la constitution d’une base d’images de caractères où les images sont éti-
quetées par le caractère qu’elle contient. Un Xi correspond donc à une de
ces images et un Yi désigne le caractère que Xi contient.
(2) l’utilisation de cette base pour proposer une estimation non paramétrique
de la fonction cible.
Le taux d’erreur sur la reconnaissance de chiffres manuscrits (problème intéressant
notamment les centres de tri postaux) sont de l’ordre de 0.5% pour les meilleurs
algorithmes (voir figure 1). ♢
Exemple 1.2. Ces dernières années ont vu un essor de la recherche sur la
manière d’interfacer le cerveau humain avec un ordinateur. Un des enjeux fonda-
mentaux de ce domaine est de permettre aux personnes ayant perdu l’usage de leurs
mains de communiquer avec un ordinateur.

Figure 2. En haut à gauche : exemple d’emplacement d’élec-
trodes sur la surface du cerveau du sujet vu de haut. En haut à
droite : exemple de signal électrique observé à une électrode durant
les 700 ms suivant le stimulus. L’activité observée environ 300 ms
après le stimulus est caractéristique de la réaction du sujet au sti-
mulus. En bas à gauche : topographie (vue de haut) de la variance
du signal due à la présence ou non de stimuli. Cette topographie
montre que le signal est relativement peu localisé en un point pré-
cis de la surface du cerveau. En bas à droite : signaux électriques
moyens observés à une électrode pour diﬀérents stimuli [2, 10].
Une des méthodes d’interface cerveau-machine consiste à placer des électrodes à
la surface de leur cerveau (méthode non invasive) ou à l’intérieur (méthode invasive).
Le but est de déduire de l’observation des signaux électriques les pensées et/ou
volontés du sujet. A l’heure actuelle, ces méthodes reposent sur
– la constitution d’une base d’apprentissage : il est demandé à un (ou des)
sujet(s) sous observation à penser à quelque chose de précis (par exemple,
bouger la souris vers le haut, le bas, la gauche ou la droite ; autre exemple :
à une des lettres de l’alphabet). La nature de cette pensée est une sortie Yi
associée à l’entrée Xi qui est le signal électrique observé pendant la seconde
suivant la requête.
– l’apprentissage de la fonction cible à partir de cette base de signaux élec-
triques étiquetés.
♢

3. FONCTIONS CIBLES POUR LA CLASSIFICATION ET LA RÉGRESSION 5
Exemple 1.3. Pour faire face aux fluctuations incontrôlées du marché, les
banques proposent aujourd’hui des produits dont les fluctuations sont indépen-
dantes de la tendance (baissière ou haussière) du marché. Ces placements, dits de
gestion alternative, reposent sur l’achat des actions qui vont croître le plus (ou du
moins baisser le moins) et la vente pour le même montant des actions qui vont
baisser le plus (ou croître le moins). La difficulté pour mettre en place ce type de
produit est d’identifier ces actions “sur-performantes” et “sous-performantes”.
Une méthode utilisée par les banques est
– de recenser un ensemble de paramètres caractérisant l’action. Ces paramètres
proviennent autant des analystes techniques (qui étudient les courbes à tra-
vers des paramètres tels que la moyenne mobile, les seuils de résistance, ...)
que des analystes financiers (qui étudient les paramètres de la société : chiffre
d’affaires, bénéfices, indices de rentabilité, ...).
– de constituer une base de données où une entrée Xi est un vecteur des para-
mètres décrits ci-dessus et la sortie Yi associée évalue la sur/sous-performance
de l’action sur la période suivant l’observation de ces paramètres (typique-
ment de l’ordre d’une semaine)
– l’apprentissage de la fonction cible qui, à une date donnée, pour chaque action
du marché, associe aux paramètres observés l’indice de sur/sous-performance
de l’action.
♢
3. Fonctions cibles pour le classement et la régression aux moindres
carrés
Soit µ la loi de X. Par définition de µ, pour toute fonction intégrable h : X → R,
E h(X) =
∫
X
h(x)dµ(x) =
∫
Z
h(x)dP(x, y). Soit P(·|x) la loi conditionnelle de la
variable aléatoire Y sachant X = x. Par définition, pour tout x ∈ X, P(·|x) est
une probabilité sur l’espace Y (en particulier, nous avons
∫
Y
dP(y|x) = 1) et pour
toute fonction intégrable f : Z → R,
Ef(X, Y ) =
∫
X
( ∫
Y
f(x, y)dP(y|x)
)
dµ(x). (1.3.9)
Théorème 3.1.
(1) Supposons que pour tout x ∈ X, l’infimum infy∈Y EP (dY |x)ℓ(Y, y) est at-
teint. Alors une fonction g∗
: X → Y t.q. pour tout x ∈ X, g∗
(x) minimise
y → EP (dY |X=x)ℓ(Y, y) est une fonction cible :
∀x ∈ X g∗
(x) ∈ argmin
y∈Y
EP (dY |x)ℓ(Y, y) =⇒ g∗
∈ argmin
F(X,Y)
R.
(2) En régression aux moindres carrés, une fonction cible est
η∗
(x) = E(Y |X = x) =
∫
Y
ydP(y|x).
Par ailleurs, cette fonction satisfait :
∀η : X → R R(η) = R(η∗
) + E(η − η∗
)2
,
avec E(η − η∗
)2
=
∫
X
[η(x) − η∗
(x)]2
dµ(x) en version décompressée.
(3) En classification, les fonctions cibles sont les fonctions g∗
satisfaisant
g∗
(x) ∈ argmaxy∈Y P(Y = y|X = x) pour tout x ∈ X. Par ailleurs,

lorsque Y = {0; 1}, la fonction x → 1Iη∗(x)≥1/2 est une fonction cible pour
la classification.
Démonstration.
(1)
R(g) = E
[
ℓ
(
Y, g(X)
)]
= EP (dX)
[
EP (dY |X)
[
ℓ
(
Y, g(X)
)]]
≥ EP (dX)
[
infy∈Y EP (dY |x)ℓ(Y, y)
]
= EP (dX)
[
EP (dY |X)
[
ℓ
(
Y, g∗
(X)
)]]
= EP (dX,dY )
[
ℓ
(
Y, g∗
(X)
)]
= R(g∗
)
On a ainsi démontré que ∀g, R(g) ≥ R(g∗
). Donc g∗
est bien une fonction
cible.
(2)
Lemme 3.2 (Décomposition par la variance). Soit W une variable
aléatoire et a ∈ R, alors
E
(
W − a
)2
= E
(
W − EW
)2
+
(
EW − a
)2
Démonstration.
E
(
W − a
)2
= E
(
W2
− 2aW + a2
)
= E
(
W2
)
−
(
EW
)2
+
(
Ew − a
)2
= E
(
W − EW
)2
+
(
EW − a
)2
Revenons à la démonstration du point (ii). On a ℓ(Y, y) =
(
Y − y
)2
. En
appliquant le lemme précédent à l’espérance conditionnelle EP (dY |X=x),
on obtient
EP (dY |X=x)
(
Y − y
)2
= EP (dY |X=x)
(
Y − EY
)2
+
(
EP (dY |X=x)Y − y
)2
Le premier terme étant indépendant de la valeur de y, l’infimum pour
y ∈ Y de EP (dY |X=x)
(
Y − y
)2
est atteint pour y = E
(
Y |X = x
)
. On a
donc bien η∗
(x) = E(Y |X = x) comme prédicteur cible. De plus,
R(η) = E
(
Y − η(X)
)2
= EP (dX)
[
EP (dY |X)
(
Y − η(X)
)2]
= EP (dX)
[
EP (dY |X)
(
Y − E(Y |X)
)2
+
(
E
(
Y |X
)
− η(X)
)2]
= EP (dX)
[
EP (dY |X)
(
Y − η∗
(X)
)2
+
(
η∗
(X) − η(X)
)2]
= R(η∗
) + EP (dX)
[(
η∗
(X) − η(X)
)2]
(3) En classification, on a |Y| < +∞, l’infimum recherché est donc bien at-
teint.
g∗
(x) ∈ argminy∈Y EP (dY |X=x)(1IY ̸=y)
= argminy∈Y P(Y ̸= y|X = x)
= argmaxy∈Y P(Y = y|X = x)

4. LIEN ENTRE CLASSEMENT BINAIRE ET RÉGRESSION AUX MOINDRES CARRÉS 7
Lorsque Y = {0, 1},
η∗
(x) = E
(
Y |X = x
)
= P
(
Y = 1|X = x
)
× 1 + P
(
Y = 0|X = x
)
× 0
= P
(
Y = 1|X = x
)
η∗
(x) ≥ 1
2 ⇔ P
(
Y = 1|X = x
)
≥ 1
2
⇔ P
(
Y = 1|X = x
)
≥ P
(
Y = 0|X = x
)
⇔ 1 ∈ argmaxy∈{0,1} P(Y = y|X = x)
Le théorème précédent affirme que
– pour le classement où ℓ(y, y′
) = 1Iy̸=y′ , la fonction qui à une entrée x renvoie
la sortie la plus probable (au sens de la distribution conditionnelle de Y
sachant X = x : L(Y |X = x)) est “la” fonction cible en classement.
– pour la régression aux moindres carrés où Y = R et ℓ(y, y′
) = |y − y′
|2
, la
fonction qui à une entrée x renvoie la sortie moyenne E(Y |X = x) est “la”
fonction cible en régression aux moindres carrés.
Exercice 1.
Y = {0, 1}
L
(
X|Y = 0
)
∼ U
(
[0, 1
2 ]
)
L
(
X|Y = 1
)
∼ U
(
[0, 1]
)
Quel est le classificateur cible ? On discutera suivant la valeur de p = P(Y = 1).
Solution. Notons p0 et p1 les densités de X sachant respectivement Y = 0 et
Y = 1. On a p1(x) = 1Ix∈[0;1] et p0(x) = 21Ix∈[0;1/2]. La loi de X admet donc la
densité p(x) = P(Y = 0)p0(x) + P(Y = 1)p1(x)
P(Y = 1|X = x) =
P(Y = 1)p1(x)
p(x)
=
p p1(x)
p p1(x) + (1 − p)p0(x)
=
p1Ix∈[0;1]
p1Ix∈[0;1] + 2(1 − p)1Ix∈[0;1/2]
.
Un classificateur cible est donc la fonction
g∗
(x) = 1IP (Y =1|X=x)≥1/2 =
{
1 si x > 1
2
1Ip≥ 2
3
si 0 ≤ x ≤ 1
2
Notez que quand X admet une densité par rapport à la mesure de Lebesgue, un classificateur
cible qui serait arbitrairement changé en un nombre fini de points reste un classificateur cible. ♢
4. Lien entre classement binaire et régression aux moindres carrés
Dans cette section, nous considérons le problème de prédiction binaire, c’est-à-
dire où la sortie ne peut prendre que deux valeurs. C’est en particulier la problé-
matique des logiciels de lutte contre les pourriels (ou, par anglicisme, spam). Sans
perte de généralité, nous pouvons considérer : Y = {0; 1}. Le théorème suivant
précise le lien entre classement binaire et régression aux moindres carrés dans le
contexte de la prédiction binaire.
Considérons Y = {0; 1}. Soit η∗
la fonction cible en régression aux moindres
carrés définie par η∗
(x) = E(Y |X = x) = P(Y = 1|X = x). Soit g∗
la fonction cible
en classement définie par
g∗
(x) = 1Iη∗(x)≥1/2 =
{
1 si P(Y = 1|X = x) ≥ 1/2
0 sinon

Pour toute fonction de régression η : X → R, on déﬁnit la fonction de classement
gη 1Iη≥1/2.
Théorème 4.1. Nous avons
Rcla(gη) − Rcla(g∗
) ≤ 2
√
Rreg(η) − Rreg(η∗),
où Rcla et Rreg désignent respectivement les risques en classement et en régression
aux moindres carrés : précisément Rcla(gη) = P[Y ̸= gη(X)] et Rreg(η) = E
[(
Y −
η(X)
)2]
.
Démonstration. Pour simpliﬁer, on utilisera dans la suite la notation g à la
place de gη.
Rcla(g) − Rcla(g∗
) = E
[
1IY ̸=g(X) − 1IY ̸=g∗(X)
]
= EP (dX)
[
EP (dY |X)
[
1IY ̸=g(X) − 1IY ̸=g∗(X)
]]
= EP (dX)
[
η∗
(X)
[
1IY ̸=g(X) − 1IY ̸=g∗(X)
]
−
(
1 − η∗
(X)
) [
1I0̸=g(X) − 1I0̸=g∗(X)
] ]
= EP (dX)
[
1Ig(X)̸=g∗(X)
[(
2η∗
(X) − 1
)
1Ig∗(X)=1
+
(
1 − 2η∗
(X)
)
1Ig∗(X)=0
]]
= EP (dX)
[
1Ig(X)̸=g∗(X) 2η∗
(X) − 1
]
(1.4.10)
On remarque que 1Ig(X)̸=g∗(X) η∗
(X) − 1
2 ≤ η∗
(X) − η(X) . On a donc
Rcla(g) − Rcla(g∗
) ≤ EP (dX)2 η∗
(X) − η(X)
≤
Inégalité de
Cauchy-Schwartz
ou Théorème 3.5
2
√
EP (dX)
(
η∗(X) − η(X)
)2
≤ 2
√
Rreg(η) − Rreg(η∗)
Autrement dit, si η est une “bonne” fonction de régression, alors sa version
seuillée gη est une “bonne” fonction de classement.
5. Consistance
Définition 5.1. Un algorithme d’apprentissage est dit consistant par rapport
à P si et seulement si
ER(ˆg) −→
n→+∞
R(g∗
).
Un algorithme d’apprentissage est dit consistant par rapport à P si et seulement si
il est consistant par rapport à tout P ∈ P.
Un algorithme d’apprentissage est dit universellement consistant si et seule-
ment si il est consistant par rapport à toute probabilité P sur Z.
Théorème 5.1. Si un algorithme ˆη est universellement consistant pour la
régression aux moindres carrés à sorties dans [0; 1]
(
i.e. Y = [0; 1], ℓ(y, y′
) =
(y −y′
)2
)
, alors l’algorithme ˆg = 1Iˆη≥1/2 est universellement consistant pour le pro-
blème de classement binaire à sorties dans {0; 1}
(
i.e. Y = {0; 1}, ℓ(y, y′
) = 1Iy̸=y′
)
.

6. PAS DE CONSISTANCE UNIFORMÉMENT UNIVERSELLE 9
Démonstration. Le point de départ consiste à remarquer que si ˆη est uni-
versellement consistant pour la régression aux moindres carrés à sorties dans [0; 1],
alors ˆη est en particulier consistant par rapport à toute distribution telle que les
sorties sont dans {0; 1} avec probabilité un (i.e. presque sûrement). Le résultat dé-
coule du Théorème 4.1 et de l’inégalité de Cauchy-Schwarz (pour faire “rentrer”
l’espérance sous la racine).
Pour une distribution telle que les sorties sont dans {0; 1} avec probabilité un :
0 ≤ E
[
Rcla(ˆg)
]
− Rcla(g∗
) = E
[
Rcla(ˆg) − Rcla(g∗
)
]
≤ 2 E
√
Rreg(ˆη) − Rreg(η∗) (théorème 4.1)
≤ 2
√
E
[
Rreg(ˆη) − Rreg(η∗)
]
(inég. de Cauchy-Schwarz)
Or E
[
Rreg(ˆη)−Rreg(η∗
)
]
= E
[
Rreg(ˆη)
]
−Rreg(η∗
) −→
n→+∞
0 car ˆη est universellement
consistant. Par conséquent, on a E
[
Rcla(ˆg)
]
− Rcla(g∗
) −→
n→+∞
0, et donc ˆg est
uniformément consistant pour la classification binaire.
6. Pas de consistance uniformément universelle
Les résultats de consistance universelle ne disent pas le nombre de données
nécessaires pour avoir une garantie du type ER(ˆg) ≤ R(g∗
) + ε pour ε > 0 fixé.
Pour que ce nombre existe, il faudrait avoir un résultat de consistance universelle
uniforme, i.e.
lim
n→+∞
sup
P
{
ER(ˆg) − R(g∗
)
}
= 0,
la consistance universelle n’affirmant que
sup
P
lim
n→+∞
{
ER(ˆg) − R(g∗
)
}
= 0.
En général, ce nombre n’existe pas d’après le théorème suivant.
Théorème 6.1. Si |X| = +∞, il n’existe pas d’algorithme d’apprentissage
uniformément universellement consistant ni en régression aux moindres carrés (
ℓ(y, y′
) = (y − y′
)2
) ni en classement (ℓ(y, y′
) = 1Iy̸=y′ ).
Démonstration. Il suffit de le montrer en classification binaire d’après le lien
entre les excès de risque en classification binaire et régression (cf. Théorème 4.1).
Le principe de la démonstration est d’exhiber une famille H de lois pour laquelle
sup
P ∈H
{ER(ˆg)−R(g∗
)} sera minoré par un nombre strictement positif. Soit alors H =
{P¯σ : ¯σ ∈ {−1, 1}} une famille de proba sur Z = X ×{0, 1} ayant la même première
marginale notée µ, ie ∀¯σ P¯σ(dX) = µ(dX) et telle que ∃X0, ..., Xm partition de X,
w > 0, ξ0 > 0 et ξ > 0 vérifiant :
– ∀¯σ ∀x ∈ X0 P¯σ(Y = 1|X = x) = 1+ξ0
2
– ∀j ̸= 0 ∀x ∈ Xj P¯σ(Y = 1|X = x) =
1+σj ξ
2
– w = µ(x ∈ X1) = ... = µ(x ∈ Xn)
On dit alors que H est un hypercube de probabilités.
Dans ce cadre, nous avons la borne inférieure suivante où n désigne toujours la
taille de l’ensemble d’apprentissage.

Théorème 6.2.
sup
P ∈H
{ER(ˆg) − R(g∗
)} ≥
mwξ
2
(1 − ξ
√
nw)
Démonstration. [1, Section 8].
De ce théorème on tire la conséquence :
∀n ∈ N ∀ˆg algorithme de classement sup
P
{ER(ˆg) − R(g∗
)}
1
2
En effet si on considère l’hypercube de probabilités défini comme indiqué précé-
demment avec ξ = 1 et m = αn = 1/w où α est un paramètre qui va être choisi
arbitrairement grand. Alors en appliquant le Théorème 6.2, on obtient
sup
P
{ER(ˆg) − R(g∗
)}
1
2
(
1 −
√
1/α
)
−→
α→+∞
1
2
,
qui implique la non consistance universelle uniforme de tout algorithme de classe-
ment.
1−ξ
2
1
2
1+ξ
2
X
X1 X2 X3X0 X5X4
1
1+ξ0
2
0
P(Y = 1|X = x)
x
Figure 3. Représentation d’une probabilité de l’hypercube. Ici
l’hypercube est tel que m = 5 et la probabilité représentée est
caractérisée par ¯σ = (+, −, −, +, −).
L’absence d’algorithme universellement uniformément consistant nous amène
à définir un «bon» algorithme d’apprentissage comme étant un algorithme univer-
sellement consistant et ayant une propriété de convergence uniforme sur une classe

6. PAS DE CONSISTANCE UNIFORMÉMENT UNIVERSELLE 11
de probabilités paraissant pertinente pour le problème à traiter. Plus précisément,
si P est un ensemble de probabilités sur Z dans laquelle nous pensons que P est,
nous souhaitons que le bon algorithme satisfasse
lim
n→+∞
sup
P ∈P
{
ER(ˆg) − R(g∗
)
}
= 0
et également avoir une suite sup
P ∈P
{
ER(ˆg) − R(g∗
)
}
décroissant le plus vite pos-
sible vers 0 pour que peu de données soient nécessaires à l’algorithme pour prédire
eﬃcacement dans le cas où P ∈ P. L’ensemble P doit être pensé comme une modé-
lisation de notre a priori, et il en résulte un a priori implicite sur la fonction cible.
L’obtention d’algorithmes incorporant un a priori et étant eﬃcace lorsque l’a priori
est correct est au coeur de la recherche actuelle en apprentissage statistique.

CHAPITRE 2
Algorithmes par moyennage local
1. Principe
Dans ce chapitre 1
, on considère la régression aux moindres carrés sur Rd
avec
sorties bornées : X = Rd
et Y = [−B; B] pour B > 0 et ℓ(y, y′
) = (y − y′
)2
. Une
fonction cible est η∗
: x → E(Y |X = x).
Idée principale : Pour estimer E(Y |X = x), moyenner les Yi des Xi proches de x.
Cette idée nous amène à nous intéresser aux algorithmes d’apprentissage de la
forme
ˆη : x →
n∑
i=1
Wi(x)Yi,
où les poids réels Wi(x) vont être des fonctions bien choisies de x, n, X1, . . . , Xn.
Exemple 1 : Algorithme par partition : soit {A1, A2, . . .} une partition ﬁnie ou
dénombrable de X (i.e. Aj ̸= ∅, ∪jAj = X et Aj ∩ Ak = ∅ pour j ̸= k).
Soit A(x) l’élément de la partition qui contient x. L’algorithme par partition
considère les poids
Wi(x) =
1IXi∈A(x)
∑n
l=1 1IXl∈A(x)
, (2.1.11)
où nous utilisons la convention 0
0 = 0.
Exemple 2 : Algorithme par noyau (ou estimateur de Nadaraya-Watson) : Soient
K : Rd
→ R+ et h > 0 un paramètre (dit de largeur du noyau). L’algorithme
par noyau considère les poids
Wi(x) =
K(
x−Xi
h )
∑n
l=1 K(
x−Xl
h )
, (2.1.12)
où nous utilisons toujours la convention 0
0 = 0. Les deux noyaux les plus
courants sont le noyau fenêtre K(x) = 1I∥x∥≤1 et le noyau gaussien e−∥x∥2
,
avec ∥ · ∥ la norme euclidienne.
Exemple 3 : L’algorithme des k-plus proches voisins (k-p.p.v.) considère les
poids
Wi(x) =
{ 1
k si Xi fait partie des k-p.p.v. de x dans Xn
1
0 sinon
. (2.1.13)
où Xn
1 {X1, . . . , Xn}.
Théorème 1.1 (Théorème de Stone). Supposons que les poids Wi et la loi
générant les couples entrée-sortie satisfassent
(i) ∃c > 0 ∀f : X → R+ ∀n ∈ N E
{ ∑n
i=1 |Wi(X)|f(Xi)
}
≤ c Ef(X)
1. Ce chapitre s’inspire largement des six premiers chapitres du livre [6]. Autre référence
intéressante mais centrée sur le problème de classiﬁcation [4]
13

14 2. ALGORITHMES PAR MOYENNAGE LOCAL
(ii) ∃D > 0 ∀n ∈ N
∑n
i=1 |Wi(X)| ≤ D P−presque sûrement (p.s.), i.e.
P
{ ∑n
i=1 |Wi(X)| ≤ D
}
= 1
(iii) ∀a > 0 E
{ ∑n
i=1 |Wi(X)|1I∥Xi−X∥>a
}
−→
n→+∞
0
(iv)
∑n
i=1 Wi(X) converge vers 1 en probabilité, i.e. ∀ε > 0
P
{ ∑n
i=1 Wi(X) − 1 > ε
}
−→
n→+∞
0
(v) E
∑n
i=1[Wi(X)]2
−→
n→+∞
0.
Alors ˆη : x →
∑n
i=1 Wi(x)Yi est consistant par rapport à la loi générant
les données.
Démonstration. Le but est de montrer que R(ˆη) − R(η∗
) tend vers 0 quand
la taille n de l’ensemble d’apprentissage tend vers l’infini. Pour ce faire, remarquons
dans un premier temps que :
R(ˆη) − R(η∗
) = E(ˆη − η∗
)2
Or on peut éclater le terme ˆη − η∗
comme suit :
ˆη(x) − η∗
(x) = (−1 +
∑n
i=1 Wi(x))η∗
(x)
+
∑n
i=1 Wi(x)(Yi − η∗
(Xi))
+
∑n
i=1 Wi(x)(η∗
(Xi) − η∗
(x))
= α1 + α2 + α3
où pour i ∈ {1, 2, 3}, αi est le i-ème terme de la somme ci-dessus.
En utilisant le fait que (a + b + c)2
≤ 3(a2
+ b2
+ c2
), on trouve que :
E(ˆη − η∗
)2
≤ 3(I1 + I2 + I3)
où Ii = Eα2
i , i ∈ {1, 2, 3}. Il suffit donc de montrer que chacun des termes Ii tend
vers 0 quand n tend vers l’infini.
– Occupons nous de I1
Nous allons utiliser le théorème de convergence dominée présenté comme suit
dans le language probabiliste :
Théorème 1.1. si fn est une suite de fonction telle que
– fn −→
en proba
f
– ∀n, |fn| ≤ g intégrable
alors E(fn − f) −→
n→+∞
0
On a I1 = E((−1 +
∑n
i=1 Wi(X))2
η∗
(X)2
). D’après l’hypothèse (iv), on
a
(−1 +
∑n
i=1 Wi(X))η∗
(X) −→
en proba
0
En parallèle, d’après l’hypothèse (ii) on a :
(−1 +
∑n
i=1 Wi(X))2
η∗
(X)2
≤ (D + 1)2
B2
on a donc bien I1 −→
n→+∞
0

1. PRINCIPE 15
– Passons à I2
I2 = E
( n∑
i=1
Wi(X)(Yi − η∗
(Xi))
)2
= E
( n∑
i=1
W2
i (X)(Yi − η∗
(Xi))2
)
+ E
( ∑
i̸=j
Wi(X)Wj(X)(Yi − η∗
(Xi))(Yj − η∗
(Xj))
)
Comme l’ensemble des sorties est Y = [−B, B], on peut majorer le premier
terme comme suit :
E(
n∑
i=1
W2
i (X)(Yi − η∗
(Xi))2
) ≤ 4B2
E
( n∑
i=1
W2
i (X)
)
−→
d’après (v)
0
Le deuxième terme s’annule. En effet il suffit de conditionner l’espérance
de manière à faire apparaître à la place de Yi le terme E(Yi|X1, . . . , Xn) =
E(Yi|Xi) = η∗
(Xi) car les données sont i.i.d..
– Finalement, pour I3 :
I3 = E
X,X1,..,Xn
(
∑n
i=1 Wi(X)(η∗
(Xi) − η∗
(X))
)2
≤ E
(
∑n
i=1
√
|Wi(X)|
√
|Wi(X)||η∗
(Xi) − η∗
(X)|
)2
≤
Cauchy Schwarz
E
(
∑n
i=1 |Wi(X)| ×
∑n
i=1 |Wi(X)||η∗
(Xi) − η∗
(X)|2
)
≤
d’après (ii)
DE
(
∑n
i=1 |Wi(X)||η∗
(Xi) − η∗
(X)|2
)
Nous allons désormais approcher η∗
par une fonction ˜η uniformément conti-
nue (i.e., une fonction satisfaisant ∀ϵ > 0 ∃a > 0 tel que si x1 et x2 vérifient
∥x1 − x2∥ ≤ a, alors |˜η(x1) − ˜η(x2)| ≤ ϵ).
On peut en effet légitimement considérer une telle approximation car les
fonctions continues à support compact sont uniformément continues et pour
toute proba µ sur Rd
l’ensemble de ces fonctions est dense dans L2
(µ) (preuve
dans [6, appendice A.1]).
Ce qui revient à dire que pour
η∗
∈ L2
(µ) ∀ε > 0 ∃˜η uniformément continue tq E(˜η − η∗
)2
< ε
On note alors :
γ =
n∑
i=1
|Wi(X)||η∗
(Xi) − η∗
(X)|2
,
et on introduit la fonction uniformément continue approximante ˜η.
γ ≤
∑n
i=1 |Wi(X)|
(
|η∗
(Xi) − ˜η(Xi)|
+ |˜η(Xi) − ˜η(X)|1I∥Xi−X∥>a
+ |˜η(Xi) − ˜η(X)|1I∥Xi−X∥≤a
+ |˜η(X) − η∗
(X)|
)2

γ ≤ 4
∑n
i=1 |Wi(X)|
(
|η∗
(Xi) − ˜η(Xi)|2
+ |˜η(Xi) − ˜η(X)|2
1I∥Xi−X∥>a
+ |˜η(Xi) − ˜η(X)|2
1I∥Xi−X∥≤a
+ |˜η(X) − η∗
(X)|2
)
On était déjà arrivé au fait que I3 ≤ DEγ donc en utilisant (i) pour le premier
terme et (ii) pour la somme des poids en facteur :
I3 ≤ 4D
(
cE|η∗
(Xi) − ˜η(Xi)|2
+ 4B2
E(
∑n
i=1 |Wi(X)|1I∥Xi−X∥>a)
+ Dε
+ DE|˜η(X) − η∗
(X)|2
)
Le premier et le dernier terme sont repectivement ≤ cε et ≤ Dε d’après la
définition de ˜η. Enfin le deuxième terme tend vers 0 quand n → ∞ d’après
(iii). On a donc montré que ∀ε > 0, I3 était plus petit qu’une constante fois
ε pour n suffisamment grand. On a donc que I3 −→
n→∞
0 et le théorème de
Stone est prouvé.
2. L’algorithme des k-plus proches voisins
2.1. Consistance. Le théorème suivant donne un résultat de consistance de
l’algorithme des k-p.p.v. dans le cas où presque sûrement nous pouvons définir les
k-plus proches voisins de manière univoque. Ce résultat de consistance nécessite de
faire varier le nombre k de plus proches voisins considérés avec la taille de l’ensemble
d’apprentissage : plus l’ensemble d’apprentissage est grand, plus k doit être grand,
mais tout en restant un o(n).
Théorème 2.1. Soit P une probabilité sur Z telle que : si X, X1, X2, . . . sont
indépendantes et identiquement distribuées (i.i.d.) de loi la première marginale de
P (i.e. la loi de X lorsque (X, Y ) est tiré suivant P), alors p.s.
∀n ∈ N ∃σ permutation de {1, . . . , n} ∥Xσ(1) − X∥ < · · · < ∥Xσ(n) − X∥
L’algorithme des k-p.p.v. est consistant par rapport à P si k −→
n→+∞
+∞ et
k/n −→
n→+∞
0.
Démonstration. On va appliquer le théorème de Stone.
Rappelons que
Wi(x) =
{ 1
k si Xi fait partie des k-p.p.v. de x dans Xn
1
0 sinon
.
• On prouve facilement que (ii) et (iv) sont vraies car
∑n
i=1 Wi(X) = k × 1
k = 1
• De même (v) est vraie car
∑n
i=1 Wi(X)2
= k × 1
k2 −→
k→∞
0
• Prouvons que (iii) est vraie : Soit B(x, a) la boule de Rd
fermée centrée en x et
de rayon a pour la norme euclidienne. Nous avons
|Wi(X)|1I∥Xi−X∥>a ≤ |Wi(X)|1I∥Xσ(k)−X∥>a,
donc ∑n
i=1 |Wi(X)|1I∥Xi−X∥>a ≤ P(∥Xσ(k) − X∥ > a)
= P(
∑n
i=1 1IXi∈B(X,a) < k)
= EXfn(X),

2. L’ALGORITHME DES k-PLUS PROCHES VOISINS 17
où pour toute entrée x
fn(x) = PX1,..,Xn
( n∑
i=1
1IXi∈B(x,a) < k
)
.
Soit µ la première marginale de P : µ(dX) = P(dX). Le support de µ est défini
par
supp(µ) =
{
x ∈ Rd
|∀r > 0 µ
(
B(x, r)
)
> 0
}
.
Par construction cet ensemble vérifie µ
{
X ∈ supp(µ)
}
= 1.
La quantité fn(x) est donc la probabilité que la réalisation d’une loi binomiale
de paramètres n et µ
(
B(x, a)
)
soit strictement inférieure à k. Raisonnons à x ∈
supp(µ) fixé. Soit U la réalisation d’une loi binomiale de paramètres n et p =
µ
(
B(x, a)
)
> 0. Puisque k/n −→
n→+∞
0, on a pn > k pour n assez grand. Alors,
on peut écrire
fn(x) = P(U < k) = P(np − U > np − k) ≤
E(np − U)2
(np − k)2
=
p(1 − p)
n(p − k
n )2
−→
n→+∞
0.
Cette convergence a lieu µ-p.s. (par rapport à x car µ
{
supp(µ)
}
= 1).
Par le théorème de convergence dominée (en remarquant que la fonction fn
est dominée par 1), on obtient Eµ(dX)fn(X) −→
n→+∞
0, donc (iii) est vérifiée.
• Finissons par montrer que (i) est vraie
EX,X1,..,Xn
∑n
i=1 |Wi(X)|f(Xi)
= E
∑n
i=1
1
k 1IXi∈k−p.p.v. de X dans X1,..,Xn f(Xi)
= 1
k
∑n
i=1 E1IXi∈k−p.p.v. de X dans X1,..,Xn f(Xi)
= 1
k
∑n
i=1 E1IX∈k−p.p.v. de Xi dans {X1,..,Xi−1,X,Xi+1,..,Xn}f(X)
= n
k Ef(X) 1
n
∑n
i=1 1IX∈k−p.p.v. de Xi dans {X1,..,Xi−1,X,Xi+1,..,Xn},
où l’avant-dernière inégalité utilise le fait que X, X1, . . . , Xn sont i.i.d.. Or pour
Xi
X
n + 1 entrées X, X1, . . . , Xn, nous avons
{
X ∈ k − p.p.v. de Xi dans {X1, .., Xi−1, X, Xi+1, .., Xn}
}
=
{
∑n
j=1 1IXj ∈B(Xi,∥Xi−X∥) ≤ k
}

Donc en introduisant µn = 1
n
∑n
i=1 δXi et Ex(x′
) =
{
µn
(
B(x, ∥x − x′
∥)
)
≤ k
n
}
,
pour un X fixé, nous avons
1
n
n∑
i=1
1IX∈k−p.p.v. de Xi dans {X1,..,Xi−1,Xi+1,..,Xn} =
1
n
n∑
i=1
1IEXi
(X)
= µn
({
x ∈ Rd
: Ex(X) est vrai
})
alors
E
∑n
i=1 |Wi(X)|f(Xi) = n
k E
[
f(X)µn
({
x ∈ Rd
: µn
(
B(x, ∥x − X∥)
)
≤ k
n
})]
donc grâce au lemme suivant E
∑n
i=1 |Wi(X)|f(Xi) ≤ γEf(X), ce qui clôt la
preuve de (i).
Lemme 2.2. Soit ν une probabilité sur Rd
et
Ea(x′
) =
{
x ∈ Rd
: ν
(
B(x, ∥x − x′
∥)
)
≤ a
}
pour x′
∈ Rd
et a > 0. Il existe γ > 0 tel que pour tout a > 0 et tout x′
∈ Rd
:
ν
(
Ea(x′
)
)
≤ γa.
0000000000000000
00000000000000000000000000000000
0000000000000000
0000000000000000
0000000000000000
0000000000000000
0000000000000000
0000000000000000
0000000000000000
000000000000000000000000000000000000000000000000
0000000000000000
0000000000000000
0000000000000000
00000000000000000000000000000000
1111111111111111
11111111111111111111111111111111
1111111111111111
1111111111111111
1111111111111111
1111111111111111
1111111111111111
1111111111111111
1111111111111111
111111111111111111111111111111111111111111111111
1111111111111111
1111111111111111
1111111111111111
11111111111111111111111111111111
Ea(x )
x
˜x
xm
Figure 1. Si ˜x = argmaxx∈Ea(x′)∩(x′+Cj )∥x − x′
∥ existe et appar-
tient à Ea(x′
), alors tous les xm peuvent être pris égaux à ˜x, sinon
on faire tendre les xm vers ˜x tout en restant dans Ea(x′
)∩(x′
+Cj).
C’est parce que le cône est d’angle ≤ π/3 que la boule centrée en
˜x contient Ea(x′
) ∩ (x′
+ Cj). Remarque : Ea(x′
) ∩ (x′
+ Cj) n’est
pas nécessairement borné, mais dans ce cas il suffit de prendre xm
partant à l’infini.

2. L’ALGORITHME DES k-PLUS PROCHES VOISINS 19
Démonstration. On appelle cône d’angle θ un ensemble A tel que ∃x ∈
Rd
tq
A =
{
y ∈ Rd
: angle(x, y) ≤ θ
2
}
=
{
y ∈ Rd
: x.y ≥ cos(θ
2 )
}
Etant donné que la sphère unité est compacte on peut paver la boule et a fortiori
l’espace comme suit :
Rd
= ∪γ
j=1Cj
où les Cj sont des cônes d’angle π
3 .
Pour u et u′
dans le cône d’angle ≤ π
3 tels que ∥u∥ ≤ ∥u′
∥, on vérifie que ∥u−u′
∥ ≤
∥u′
∥.
Le cône Cj translaté de x′
est (noté) x′
+ Cj. D’après ce qui précède on a donc
ν
(
Ea(x′
)
)
≤
γ∑
i=1
ν
(
Ea(x′
) ∩ (x′
+ Cj)
)
Et pour une suite appropriée (xm) de vecteurs de Ea(x′
) ∩ (x′
+ Cj), qui tend vers
le point de Ea(x′
) ∩ (x′
+ Cj) le plus loin de x′
lorsque celui-ci existe (voir figure),
on a :
ν
(
Ea(x′
) ∩ (x′
+ Cj)
)
= lim
m→∞
ν
(
Ea(x′
) ∩ (x′
+ Cj) ∩ B(xm, ∥xm − x′
∥)
)
≤ lim sup
m→∞
ν
(
B(xm, ∥xm − x′
∥)
)
≤ a
Ainsi ν
(
Ea(x′
)
)
≤ γa et le lemme est prouvé.
D’après ce qui précède, on conclut à la consistance de l’algorithme des k-plus
proches voisins pour la probabilité P grâce au théorème de Stone (Théorème 1.1).
Pour prouver un résultat de consistance universelle pour l’algorithme des k-
p.p.v., il faut avoir une règle pour définir les p.p.v. en présence d’égalité de distances.
La règle la plus simple consiste à traiter les problèmes d’égalité par tirage au sort,
au sens où si pour une distance d et x ∈ Rd
, l’ensemble E =
{
i ∈ {1, . . . , n} :
∥Xi − x∥ = d
}
est de cardinal |E| ≥ 2, alors les points (Xe)e∈E sont ordonnés
en tirant une permutation aléatoire (suivant la loi uniforme sur l’ensemble des
permutations de E).
Une autre méthode est d’ajouter à toutes les entrées observées une composante
réelle aléatoire i.i.d., indépendantes des (Xi, Yi) et de loi absolument continue par
rapport à la mesure de Lebesgue. L’avantage de cette seconde méthode est que
la preuve de son universelle consistance est beaucoup plus simple que celle de la
première. En effet, si W, W1, W2, . . . notent la composante réelle ajoutée, alors
P
(
∃i ̸= j ∥(Xi, Wi) − (X, W)∥ = ∥(Xj, Wj) − (X, W)∥
)
≤
∑
i̸=j P
[
(Wi − W)2
= ∥(Xj, Wj) − (X, W)∥2
− ∥Xi − X∥2
]
=
∑
i̸=j EW,Wj ,X,Xi,Xj
(
EWi 1I(Wi−W )2=∥(Xj ,Wj )−(X,W )∥2−∥Xi−X∥2
)
=
∑
i̸=j EW,Wj ,X,Xi,Xj
(
0
)
= 0.
L’universelle consistance de cette procédure se déduit donc du théorème précédent.
Le théorème suivant montre la vitesse de convergence de l’excès de risque de
l’algorithme des k-p.p.v. lorsque des hypothèses raisonnables sont mises sur la dis-
tribution générant les données.

Théorème 2.3. Soit d ≥ 3. Supposons que la loi P vérifie
– X ∈ A presque sûrement, avec A ⊂ Rd
borné,
– il existe σ > 0 tel que pour tout x ∈ A, Var (Y |X = x) ≤ σ2
,
– la fonction η∗
: x → E(Y |X = x) est L-lipschitzienne (i.e., pour tout (x, x′
),
|η(x) − η(x′
)| ≤ L||x − x′
||).
Alors, l’estimateur des k-p.p.v. satisfait
ER(ˆη) − R(η∗
) ≤
σ2
k
+ cL2
(
k
n
)2/d
,
où c est une constante dépendant uniquement de d et du diamètre de A.
2.2. Remarques pratiques.
– L’algorithme des k-p.p.v. nécessite de conserver en mémoire tous les points
de la base d’apprentissage, d’où un stockage coûteux (en O(n)).
– Une implémentation naïve de l’algorithme repose sur le calcul des distances
entre le point pour lequel la prédiction est recherchée et les points de l’en-
semble d’apprentissage, d’où un algorithme en O(n). Des méthodes basées
sur la construction d’un arbre associé à l’ensemble d’apprentissage ont un
coût moyen en O(ln n). Cela nécessite néanmoins la construction de l’arbre,
ce qui a en général un coût en O(n ln n) (voir par exemple ’kd-tree’ sur
en.wikipedia.org). Une implémentation de cette méthode est accessible
en ligne sous le nom d’«approximate nearest neighbour» (www.cs.umd.edu/
~mount/ANN/) qui permet également de rechercher les plus proches voisins
de manière approchée (ce qui mène à un gain de temps considérable). Une
astuce pour améliorer la recherche approchée des plus proches voisins est de
construire plusieurs arbres de recherche (si possible les plus différents pos-
sibles).
– Le choix du paramètre k peut être effectué par une méthode dite de vali-
dation croisée que nous décrivons ci-dessous. Cette méthode, couramment
utilisée pour trouver les 1 ou 2 paramètres de réglage d’un algorithme d’ap-
prentissage, repose sur l’estimation du risque moyen ER(ˆg) d’un algorithme
par
1
n
∑p
j=1
∑
(x,y)∈Bj
ℓ
[
y, ˆg(∪k̸=jBk)(x)
]
(2.2.14)
où p est l’ordre de la validation croisée et B1,. . .,Bp est une partition équi-
librée (i.e. n/p − 1 < |Bj| < n/p + 1) de l’ensemble d’apprentissage. Moins
formellement, il faut couper l’ensemble d’apprentissage en p parties, entraî-
ner l’algorithme sur p − 1 de ces parties, regarder la perte qu’encourt cet
algorithme sur les données de la p-ème partie, et faire cela p fois (correspon-
dant aux p parties pouvant être laissées de côté lors de l’apprentissage). Pour
p = n, l’estimateur du risque est appelé erreur «laisser-un-de-côté».
Pour les k-p.p.v., chaque k définit un algorithme. Choisir k par valida-
tion croisée d’ordre p signifie choisir le k qui minimise l’erreur de validation
croisée donnée par (2.2.14). En pratique, on prend p d’ordre 5 à 10 suivant
les contraintes de temps de calcul.
3. Algorithme par noyau
Le théorème suivant donne un résultat de consistance universelle pour l’algo-
rithme par noyau.

4. ALGORITHME PAR PARTITION 21
Théorème 3.1. On note par B(0, u) la boule euclidienne de Rd
de centre 0 et
de rayon u > 0. Si il existe 0 < r ≤ R et b > 0 tels que
∀u ∈ Rd
b1IB(0,r) ≤ K(u) ≤ 1IB(0,R)
et si hn −→
n→+∞
0 et nhd
n −→
n→+∞
+∞, alors l’algorithme par noyau défini par
ˆg(x) =
∑n
i=1
(
K(
x−Xi
h )
∑n
l=1 K(
x−Xl
h )
)
Yi
(avec la convention 0
0 = 0) est universellement consistant.
Démonstration. La preuve utilise également le théorème de Stone (cf. [6,
chapitre 5]).
Remarque 3.1. C’est un algorithme couramment employé notamment en vi-
sion par ordinateur et avec le noyau gaussien. Il est néanmoins à utiliser avec pré-
caution pour des dimensions de l’espace d’entrée supérieures à 10.
4. Algorithme par partition
Tout d’abord, rappelons que cet algorithme repose sur une partition de Rd
A1, A2, . . . finie ou dénombrable et que pour tout x ∈ Rd
, nous notons A(x) l’élé-
ment de la partition qui contient le point x. En pratique, cette partition est prise
d’autant plus fine que la taille n de l’ensemble d’apprentissage est grande. Le théo-
rème suivant indique une bonne manière de choisir la partition en fonction de n.
Théorème 4.1. On note encore par B(0, u) la boule euclidienne de Rd
de centre
0 et de rayon u > 0. Le diamètre de Aj est noté Diam(Aj) = sup
x1,x2∈Aj
∥x1 − x2∥.
Si pour tout R > 0



max
j:Aj ∩B(0,R)̸=∅
Diam(Aj) −→
n→+∞
0
|{j:Aj ∩B(0,R)̸=∅}|
n −→
n→+∞
0
alors l’algorithme par partition définie par pour tout x ∈ Rd
ˆg(x) =
∑n
i=1
(
1IXi∈A(x)
∑n
ℓ=1 1IXℓ∈A(x)
)
Yi
(avec la convention 0
0 = 0) est universellement consistant.
Démonstration. De nouveau par le théorème de Stone (détails de la preuve
au chapitre 4 de [6]).
Remarque 4.1. Pour une grille (régulière) de Rd
de pas Hn, les hypothèses
du théorème sont simplement Hn −→
n→+∞
0 et nHd
n −→
n→+∞
+∞. En pratique,
contrairement à l’algorithme par noyau gaussien, il y a un effet escalier (bien souvent
non désiré) au bord des éléments de la partition, puisque la sortie prédite pour une
entrée x change brusquement lorsque x change d’élément de la partition.
Remarque 4.2. Dans les arbres de décision, les éléments de la partition sont
définis par les réponses à un ensemble de questions, ces questions étant éventuel-
lement choisies en fonction de l’ensemble d’apprentissage observé. Chaque noeud
d’un arbre de décision correspond à un ensemble de l’espace Rd
des entrées. Les
contraintes sur les parties de Rd
associées aux noeuds sont les suivantes :

s0 s4 s3
s5
s1
s2 x(2)>s1
ouinon
oui
oui
oui
non
non
non
non
non
oui
oui
x(1)>s0
x(1)>s4
x(2)<s2
x(1)>s3
x(2)>s5
Figure 2. A gauche : Exemple de partition provenant d’un arbre
de décision. A droite : Arbre de décision correspond à cette parti-
tion.
– la racine est associée à Rd
– si A ⊂ Rd
est l’ensemble associé à un noeud et si A(1)
, . . . , A(k)
sont les
parties associées aux fils de ce noeud, alors
A(1)
∪ · · · ∪ A(k)
= A et ∀1 ≤ i < j ≤ k A(i)
∩ A(j)
= ∅,
autrement dit A(1)
, . . . , A(k)
est une partition de A.
Dans un arbre de décision binaire, tout noeud possède zéro ou deux fils. Donc tout
noeud est soit une feuille (noeud terminal), soit caractérisé par une question sur
l’entrée x dont la réponse est «oui» ou «non». Les questions typiques sur x sont :
la i-ème composante de x est elle plus grande qu’un certain seuil (cf. figure 2) ? De
quel côté x est-il par rapport à un certain hyperplan de Rd
? x appartient-il à un
certain hyperrectangle ?
L’arbre de décision est très utilisée notamment en raison de sa simplicité d’in-
terprétation, de la rapidité de l’algorithme et de sa capacité à être mis à jour de
manière dynamique (les branches de l’arbre peuvent être développées au fur et à
mesure que de nouvelles données viennent compléter l’ensemble d’apprentissage).
Le choix des questions peut dépendre de tout l’ensemble d’apprentissage, ou
uniquement de
{
X1, . . . , Xn
}
. Dans ce dernier cas, on dit que l’arbre de décision
possède la “X-property” (cf. chapitre 20 de [4] pour une discussion dans le cas
du classement), et les sorties Y1, . . . , Yn ne servent que dans le moyennage. Un
exemple d’arbre ayant la “X-property” est lorsque les questions à un noeud coupent
l’ensemble des points correspondant à ce noeud en deux sous-ensembles de même
taille (à plus ou moins un X près), et cela sans tenir compte des sorties.
Se restreindre à ce type de partition peut paraître restrictif en pratique, mais
procure une garantie de non sur-apprentissage (la notion de sur-apprentissage sera
expliquée au chapitre suivant). En fait, lorsqu’un arbre de décision possède la “X-
property”, l’analyse de sa performance théorique provient des concepts présentés
dans ce chapitre, alors que dans le cas contraire (par exemple, lorsque la partition
est choisie en essayant que les valeurs des sorties soient le plus homogène possible
sur les éléments de la partition), l’étude du comportement de l’arbre de décision
relève davantage des outils qui seront présentés dans le chapitre suivant.

CHAPITRE 3
Algorithmes par minimisation du risque empirique
1. Principe de la minimisation du risque empirique
Rappelons tout d’abord que le risque d’une fonction de prédiction g : X → Y
est défini par
R(g) = Eℓ[Y, g(X)].
Le but d’un algorithme d’apprentissage est de trouver une fonction de prédiction
dont le risque est aussi faible que possible (autrement dit aussi proche que possible
du risque des fonctions cibles).
La distribution P générant les données étant inconnue, le risque R et les fonc-
tions cibles sont inconnus. Néanmoins, le risque R(g) peut être estimé par son
équivalent empirique
r(g) = 1
n
∑n
i=1 ℓ[Yi, g(Xi)].
Si nous supposons E
{
ℓ[Y, g(X)]
}2
< +∞, alors la loi forte des grands nombres
et le théorème de la limite centrale permettent d’affirmer
r(g)
p.s.
−→
n→+∞
R(g)
√
n
[
r(g) − R(g)
] L
−→
n→+∞
N
(
0, Var ℓ[Y, g(X)]
)
.
Pour toute fonction de prédiction g, la variable aléatoire r(g) effectue donc des
déviations en O(1/
√
n) autour de sa moyenne R(g).
Puisque nous cherchons une fonction qui minimise le risque R et puisque ce
risque est approché par le risque empirique r, il est naturel de considérer l’algorithme
d’apprentissage, dit de minimisation du risque empirique, défini par
ˆgMRE ∈ argmin
g∈G
r(g), (3.1.15)
où G est un sous-ensemble de F(X, Y).
Prendre G = F(X, Y) n’est pas une bonne idée. Tout d’abord, cela entraîne un
problème de choix puisqu’en général, pour tout ensemble d’apprentissage, il existe
une infinité de fonctions de prédiction minimisant le risque empirique (voir figure
1). Par ailleurs et surtout, si on prend l’algorithme du plus proche voisin comme
minimiseur du risque empirique (en régression aux moindres carrés ou en classe-
ment), alors on peut montrer que cet algorithme est «loin» d’être universellement
consistant.
Prendre G = F(X, Y) mène en général à un surapprentissage dans la mesure
où l’algorithme résultant a un risque empirique qui peut être très inférieure à son
risque réel (même lorsque la taille de l’ensemble d’apprentissage tend vers l’infini).
En pratique, il faut prendre G suffisamment grand pour pouvoir raisonnable-
ment approcher toute fonction tout en ne le prenant pas trop grand pour éviter que
l’algorithme «surapprenne». La «grandeur» de l’ensemble G est appelée capacité
23

24 3. ALGORITHMES PAR MINIMISATION DU RISQUE EMPIRIQUE
Xi
Yi
Figure 1. Surapprentissage en régression aux moindres carrés :
les couples entrées-sorties sont représentés par des croix. Les deux
courbes minimisent le risque empirique 1
n
∑n
i=1[Yi − g(Xi)]2
(puis-
qu’elles ont toutes les deux un risque empirique nulle). La courbe
ﬁne semble apprendre par coeur la valeur des sorties associées aux
entrées de l’ensemble d’apprentissage. On dit qu’elle “surapprend”.
Au contraire, la courbe épaisse explique plus simplement les don-
nées.
ou complexité. Un autre point de vue consiste à rajouter à r(g) une pénalisation,
quand par exemple, la fonction g est trop irrégulière. Ces deux approches sont en
fait proches l’une de l’autre. L’approche par pénalisation sera adoptée pour les
Machines à Vecteurs Supports
Soit ˜g une fonction minimisant le risque sur G :
˜g ∈ argmin
g∈G
R(g).
On suppose le minimum atteint pour simpliﬁer l’exposé. D’après l’inégalité
R(ˆgMRE) ≥ R(˜g) ≥ R(g∗
),
L’excès de risque de ˆgMRE se décompose en deux termes positifs, appelés erreur
d’estimation et erreur d’approximation (ou biais) :
R(ˆgMRE) − R(g∗
) = R(ˆgMRE) − R(˜g)
erreur d’estimation
+ R(˜g) − R(g∗
)
erreur d’approximation
,
Plus G est grand, plus l’erreur d’approximation est faible mais plus l’erreur d’es-
timation est en général grande. Il y a donc un compromis à trouver dans le choix
de G. Ce compromis est souvent appelé dilemme «biais-variance» , où le terme
variance provient du lien entre l’erreur d’estimation et la variabilité de l’ensemble

2. RÉSEAUX DE NEURONES 25
d’apprentissage que nous avons supposé dans notre formalisme être une réalisation
de variables aléatoires i.i.d..
L’erreur d’estimation peut être bornée par deux fois le suprémum du processus
empirique : g → |R(g) − r(g)| défini sur G. En effet, nous avons
R(ˆgMRE) − R(˜g) = R(ˆgMRE) − r(ˆgMRE) + r(ˆgMRE) − r(˜g)
≤0
+r(˜g) − R(˜g)
≤ sup
g∈G
|R(g) − r(g)| + 0 + sup
g∈G
|R(g) − r(g)|
≤ 2sup
g∈G
|R(g) − r(g)|. (3.1.16)
Voir Section 4 pour plus de bornes concernant l’erreur d’estimation.
2. Réseaux de neurones
2.1. Définitions. Les réseaux de neurones sont nés de la volonté de modéli-
ser le fonctionnement du cerveau. Un neurone biologique reçoit des stimuli de ses
voisins, et produit un signal lorsque son seuil d’activation est dépassé. La modéli-
sation de Mc Culloch et Pitts (1943) considère que le neurone fait une combinaison
linéaire de ses entrées, d’où la fonction d’activation
g(x) = 1I∑d
j=1 aj x(j)+a0>0,
où les xj sont les stimuli envoyés par les neurones voisins et −a0 est le seuil d’acti-
vation.
Définition 2.1. Une sigmoïde σ est une fonction croissante telle que
{
σ(x) −→
x→−∞
0
σ(x) −→
x→+∞
1
Exemple 1 : σ(x) = 1Ix≥0
Exemple 2 : σ(x) = 1
1+exp(−x)
Exemple 3 : σ(x) = 1
2 + 1
π arctan x
Définition 2.2. – Un neurone (artificiel) est une fonction définie sur Rd
par
g(x) = σ
( ∑d
j=1 ajx(j)
+ a0
)
= σ(a · ˜x)
où a = (a0, · · · , ad)t
, ˜x = (1, x(1)
, · · · , x(d)
)t
et σ est une sigmoïde.
– Un réseau de neurones à une couche cachée est une fonction f : Rd
→ R
définie par
f(x) =
∑k
j=1 cjσ(aj · ˜x) + c0
où ˜x = (1, x(1)
, · · · , x(d)
)t
. La sigmoïde σ, le nombre de neurones k et les
paramètres a1, . . . , ak ∈ Rd+1
, c0, c1, . . . , ck ∈ R caractérisent le réseau.

Σ
1
a
(0)
k
a
(d)
k
a
(d)
1
a
(1)
1
a
(0)
1
x(d)
x(1)
1
ck
c1
c0
c0 + Σk
j=1cjσ(aj · ˜x)
x
˜x
Σ σ
Σ σ
a
(1)
k
Figure 2. Représentation d’un réseau de neurones à une couche.
L’algorithme du réseau de neurones choisit par minimisation du
risque empirique les vecteurs a1, . . . , ak et les paramètres
c0, c1, . . . , ck.
2.2. Consistance.
Théorème 2.1. Soient (kn) une suite d’entiers et (βn) une suite de réels. Soit
Fn l’ensemble des réseaux de neurones à une couche tels que k ≤ kn et
∑k
i=0 |ci| ≤
βn. L’algorithme ˆf qui produit pour l’ensemble d’apprentissage Zn
1 la fonction de
prédiction de Fn minimisant l’erreur quadratique empirique, i.e.
ˆf ∈ argmin
f∈Fn
∑n
i=1[Yi − f(Xi)]2
,
est universellement consistant si kn → +∞, βn → +∞ et
knβ4
n ln(knβ2
n)
n −→
n→+∞
0.
Démonstration. Voir Chapitre 16 de [6].
2.3. Remarques pratiques. La minimisation de l’erreur quadratique empi-
rique est un problème d’optimisation non convexe en raison de la sigmoïde. Par
conséquent, il n’existe pas en général d’algorithme permettant d’obtenir systéma-
tique le minimum global. Il faut donc avoir recours à des heuristiques pour trouver
les meilleurs minima locaux (et éventuellement) un minimum global.
La méthode la plus utilisée (classiﬁcation) est la rétro-propagation par descente
de gradient stochastique déﬁnie ci-dessous.
Définition 2.3. Soit f : Rd
→ R une fonction C1
à minimiser. Soit Dxf( ∂f
∂x1
(x) · · · ∂f
∂xd
(x)
)
le vecteur ligne des dérivées partielles au point x ∈ Rd
.
– La descente de gradient est la méthode itérative de recherche du minimum
(et de l’arg-minimum) de la fonction f basée sur l’itération
{
x0 ∈ Rd
xk+1 = xk − η
[
Dxk
f
]t
où x0 ∈ Rd
est un point arbitrairement choisi (si possible proche de l’arg-
minimum inconnu) et η > 0 doit être bien choisi (si trop petit, convergence
très lente vers le minimum local ; si trop grand, divergence possible).

3. OUTILS PROBABILISTES 27
– Lorsque la fonction f est une composée de fonctions C1
, la rétro-propagation
est la méthode calculant les dérivées partielles de f par la relation donnant
la différentielle d’une composée de fonctions :
Dxf = Dx(ϕ1 ◦ · · · ◦ ϕm) = Dϕ2◦···◦ϕm(x)ϕ1 × Dϕ3◦···◦ϕm(x)ϕ2 × · · · × Dxϕm
– Soient W1, . . . , Wn des v.a. i.i.d. à valeurs dans W. Considérons les fonctions
f telles que
f(x) =
∑n
i=1 φ(Wi, x).
pour φ fonction C1
de W ×Rd
dans R. Soit ∂φ
∂x
( ∂φ
∂x1
· · · ∂φ
∂xd
)
. La descente
de gradient stochastique est la méthode itérative de recherche du minimum
et de l’arg-minimum de la fonction f basée sur l’itération



x0,0 ∈ Rd
xk,i = xk,i−1 − η
[∂φ
∂x (Wi, xk,i−1)
]t
∀i ∈ {1, . . . , n} et ∀k ≥ 0
xk+1,0 = xk,n
De nouveau, le réel η > 0 est un paramètre à bien choisir et x0,0 doit être si
possible choisi près de l’arg-minimum recherché.
Remarque 2.1. L’algorithme des réseaux de neurones est une méthode d’ap-
prentissage puissante ayant notamment donné d’excellents résultats sur les pro-
blèmes de reconnaissance de visages ([5]) et de reconnaissance de chiffres manus-
crits ([11]). Des conseils sur la manière d’implémenter cet algorithme sont donnés
dans [8, 7, 11].
3. Outils probabilistes
Pour un rappel de probabilités, vous pouvez vous reporter aux notes manus-
crites et/ou aux pages fr.wikipedia.org sur la «fonction de répartition», la «conver-
gence de variables aléatoires» et le «théorème de Borel-Cantelli» et/ou votre cours
favori de probabilités.
Définition 3.1. Fonction de répartition d’une variable aléatoire V La fonction
de répartition d’une variable aléatoire V est la fonction FV définie par :
FV : t −→ FV (t) = P(V ≤ t).
Propriétés de FV :
(i) croissante
(ii) partout continue à droite
(iii) admet en tout point t0 une limite à gauche, égale à P(V < t0)
(iv) limt→−∞ FV (t) = 0
(v) limt→+∞ FV (t) = 1
Soient W1, W2, . . . , Wn, . . . des variables aléatoires à valeurs réelles.
Convergence en loi :
Wn
L
−→
n→+∞
W ⇔ ∀t ∈ R, tel que FW continue en t, FWn (t) −→
n→+∞
FW (t)
⇔ ∀f : R → R, continue et bornée , Ef(Wn) −→
n→+∞
Ef(W)
⇔ ∀t ∈ R , EeitWn
−→
n→+∞
EeitW
(avec i2
= −1)

Convergence en probabilité :
Wn
P
−→
n→+∞
W ⇔ ∀ε > 0 , P(|Wn − W| ≥ ε) −→
n→+∞
0
Convergence presque sûre (p.s.) :
Wn
p.s.
−→
n→+∞
W ⇔ P(Wn −→
n→+∞
W) = 1
De manière plus explicite, si (Ω, F, P) désigne l’espace probabilisé :
Wn
p.s.
−→
n→+∞
W ⇔ P
({
ω ∈ Ω, Wn(ω) −→
n→+∞
W(ω)
})
= 1
convergence presque sûre ⇒ convergence en probabilité ⇒ convergence en loi
Les réciproques sont fausses. Néanmoins, le théorème suivant montre qu’une
convergence en probabilité «suﬃsamment forte» implique la convergence presque
sûre.
Théorème 3.1. Si pour tout ε > 0,
∑
n≥1 P(|Wn − W| > ε) < +∞, alors
Wn
p.s.
−→
n→+∞
W.
Démonstration. On utilise la lemme de Borel-Cantelli.
Théorème 3.2 (Loi Forte des Grands Nombres (L.F.G.N.)). Si V, V1, V2, . . .
est une suite de v.a. i.i.d. intégrables, alors
¯V
∑n
i=1 Vi
n
p.s.
−→
n→+∞
EV
Théorème 3.3 (Théorème de la Limite Centrale (T.L.C.)). Si V, V1, V2, . . . est
une suite de v.a. i.i.d. de carrés intégrables, alors
√
n
(
¯V − EV
) L
−→
n→+∞
N(0, Var V ),
ou de manière équivalente : pour tout réel t,
P
{√ n
Var V
(
¯V − EV
)
> t
}
−→
n→+∞
∫ +∞
t
e− u2
2
√
2π
du.
Théorème 3.4 (Inégalité de Markov ). Pour toute v.a.r. X et tout a > 0,
P(|X| ≥ a) ≤ 1
a E|X|.
Démonstration. C’est une conséquence directe de |X| ≥ a1I|X|≥a.
Exercice : Soient V1, V2,......,Vn des variables aléatoires i.i.d telles que EV 2 < +∞ , soit ¯V =∑n
i=1 Vi
n
1)Montrer que P( ¯V − EV > ε) ≤ 1
ε2 E[( ¯V − EV )2]
2) En déduire la Loi des Grands Nombres : ¯V
P
−→
n→+∞
EV
Correction : 1) ε donné
P( ¯V − EV > ε) = P( ¯V − EV
2
> ε2
)
≤
1
ε2
E[( ¯V − EV )2
]

2) Pour Wi = (Vi − EV )/n :
E[( ¯V − EV )2] = E[(
∑n
i=1 Wi)2]
= Var (
∑n
i=1 Wi)
=
∑n
i=1 Var (Wi)
= n
Var (V )
n2
=
Var (V )
n
−→
n→+∞
0
Théorème 3.5 (Inégalité de Jensen). Pour toute fonction convexe φ : Rd
→ R
et toute variable aléatoire X intégrable à valeurs dans Rd
:
φ(EX) ≤ Eφ(X). (3.3.17)
Théorème 3.6 (Inégalité de Hoeffding ). Soit V une v.a.r. telle que a ≤ V ≤ b
p.s.
(1) ∀s ∈ R, Ees(V −EV )
≤ e
s2(b−a)2
8
(2) Soient V1, . . . , Vn n i.i.d. copies de V . Pour tout t ≥ 0
P
(
¯V − EV > t
)
≤ e
− 2nt2
(b−a)2
.
Démonstration. (1) s=0 trivial et s < 0 correspond à s > 0 avec V ← −V
Introduisons φ(s) = ln EesV
. On a φ′
(s) = E[V esV
]
E[esV ]
= EPs(dV )V où
Ps(dV ) =
esV
EP(dV )esV
· P(dV ).
Par définition de cette probabilité, l’espérance de toute fonction continue bornée
par rapport à cette distribution est :
EPs(du)f(u) = EP(du)
[
esu
EP(du′)esu′ f(u)
]
=
EP(du)[esu
f(u)]
EP(du′)esu′ .
On a
φ′′
(s) =
EV 2
esV
EesV
−
(EV esV
)2
(EesV )2
= EPs(dV )[V 2
] − [EPs(dV )V ]2
= Var Ps(dV )V
Formule de Taylor avec reste intégral : φ(s) = φ(0) + sφ′
(0) +
∫ s
0
(s − t)φ′′
(t)dt. On
en déduit
ln EesV
= sEV +
∫ s
0
(s − t)(Var Ps(dV )V )dt.
Pour une v.a.r. W vérifiant a ≤ w ≤ b p.s
Var W ≤ E
(
W −
a + b
2
)2
≤
(
b − a
2
)2
=
(b − a)2
4
.
⇒ ln EesV
≤ sEV +
∫ s
0
(s − t)
(b − a)2
4
dt
≤ sEV +
(b − a)2
s2
8

(2) Argument de Chernoff (passer à l’exponentielle, puis inégalité de Markov, puis
utilisation de l’indépendance) :
P(V − EV > t) = P
(
es(V −EV )
> est
)
≤ e−st
E[es(V −EV )
]
= e−st
E[e
∑n
i=1(Vi−EV )
n ]
= e−st
E[e
(V −EV )
n ]
n
≤ e−st+ s2
n
b−a2
8
= e
− 2nt2
(b−a)2
par choix de s minimisant la borne précédente.
Définition 3.2. Un résultat probablement approximativement correct (P.A.C.)
est une affirmation du type :
∀ 0 < ε ≤ 1, avec probabilité au moins 1 − ε, l’événement Aε se produit,
où (Aε) une famille d’événements paramétrés par ε. Si Aε = {V ≤ Wε} avec V et
Wε v.a.r., alors on parle de borne P.A.C. pour V .
Par exemple, l’inégalité de Hoeffding mène à une borne P.A.C. sur ¯V :
Posons ε = e
− 2nt2
(b−a)2
. On a alors t = (b − a)
√
ln(ε−1)
2n , et la borne de Hoeffding
s’écrit :
P
(
¯V − EV > (b − a)
√
ln(ε−1)
2n
)
≤ ε.
Donc pour tout ε > 0, avec probabilité au moins 1 − ε,
¯V ≤ EV + (b − a)
√
ln(ε−1)
2n .
Théorème 3.7 (Borne de l’union). Version simple : Soient un entier m ≥ 2
et des événements E1, . . . , Em. On a
P
(
E1 ∪ · · · ∪ Em
)
≤
∑m
j=1 P(Ej).
Version sophistiquée : Soient (A1
ε), . . . , (Am
ε ) des familles d’événements para-
métrés par ε > 0 vérifiant



∀ε > 0, avec probabilité au moins 1 − ε, A1
ε se produit
...
∀ε > 0, avec probabilité au moins 1 − ε, Am
ε se produit
Alors pour tout ε > 0, avec probabilité au moins 1 − mε,
les événements A1
ε, . . . , Am
ε se produisent simultanément,
autrement dit pour tout ε > 0, avec probabilité au moins 1 − ε,
les événements A1
ε/m, . . . , Am
ε/m se produisent simultanément,

Démonstration. La version sophistiquée découle de la version simple. La
démonstration dans le cas de deux évènements Aε et Bε est :
P(Aε ∩ Bε) = 1 − P((Aε ∩ Bε)c
) = 1 − P(Ac
ε ∪ Bc
ε)
≥ 1 − (P(Ac
ε)
≤ε
+ P(Bc
ε)
≤ε
)
≥ 1 − 2ε
Cette démonstration se généralise sans difficulté au cas des m événements.
Exemple : retour sur Hoeffding
Aε =
{
¯V − EV ≤ (b − a)
√
ln(ε−1)
2n
}
Bε =
{
EV − ¯V ≤ (b − a)
√
ln(ε−1)
2n
}
∀ε > 0, avec probabilité ≥ 1 − ε , les événements Aε/2 et Bε/2 se produit :
¯V − EV ≤ (b − a)
√
ln(2ε−1)
2n . (3.3.18)
Pour raccourcir les notations, aj
i sera la notation compressée de ai, . . . , aj. Ainsi
pouvons-nous écrire (a1, . . . , an) = (an
1 ) = (ai−1
1 , ai, an
i+1).
Théorème 3.8 (Inégalités de Hoeffding-Azuma (version McDiarmid) ). Soient
V1, . . . , Vn des v.a. i.i.d. à valeurs dans un ensemble V. Soit g : Vn
→ R tel que
pour c ≥ 0,
sup
i∈{1,...,n}
vn
1 ∈Vn
,v∈V
g(vi−1
1 , vi, vn
i+1) − g(vi−1
1 , v, vn
i+1) ≤ c.
Alors W = g(V1, . . . , Vn) satisfait pour tout réel λ,
Eeλ(W −EW )
≤ e
nλ2c2
8
et pour tout t ≥ 0,
P
(
W − EW > t
)
≤ e− 2t2
nc2
Démonstration admise.
Remarque 3.1. Le théorème précédent généralise le théorème de Hoeffding.
Il mène à des bornes P.A.C.. En appliquant le résultat à −W et en utilisant le
principe de la borne de l’union, nous obtenons que pour tout t ≥ 0,
{
P
(
EW − W > t
)
≤ e− 2t2
nc2
P
(
|W − EW| > t
)
≤ 2e− 2t2
nc2
.
D’après le Théorème Central Limite, pour Z v.a.r. de loi N(0, 1), on a
P
[√
n
Var V
( ¯V − EV ) > α
]
−→
n→+∞
P(Z>α)
≤ e
2α2varV
(b−a)2
.

Par ailleurs, on prouve relativement aisément : e
−α2
2
α
√
2π
(1− 1
α2 ) ≤
∫ +∞
α
e
−t2
2
√
2π
dt ≤ e
−α2
2
α
√
2π
Si L(V ) = δa+δb
2 (i.e P(V = a) = 1
2 = P(V = b)), alors Var V = (b−a)2
4 et la borne
de Hoeffding donne e− α2
2 . L’exposant de l’exponentielle est donc celui attendu.
Lorsque la variance de V est faible, la comparaison du résultat du T.L.C. et de
l’inégalité de Hoeffding montre que cette dernière inégalité est peu précise. On n’a
pas le bon exposant. L’inégalité suivante doit alors lui être préférée.
Théorème 3.9 (Inégalité de Bernstein ). Soit φ la fonction convexe croissante
et positive définie par φ(u) = (eu
− 1 − u)/u2
pour u ̸= 0 et φ(0) = 1/2. Soit V une
v.a.r. telle que V ≤ b p.s. et b′
= b − EV .
– Pour tout s ≥ 0
ln Ees(V −EV )
≤
{
φ(sb′
)s2
Var V
φ(sb)s2
EV 2 .
– Soient V1, . . . , Vn des i.i.d. copies de V
– pour tout ε > 0, avec probabilité au moins 1 − ε,
¯V ≤ EV +
√
2 ln(ε−1)EV 2
n + (b ∨ 0)ln(ε−1
)
3n
– pour tout ε > 0, avec probabilité au moins 1 − ε,
¯V ≤ EV +
√
2 ln(ε−1)Var V
n + b′ ln(ε−1
)
3n
– pour tout t ≥ 0,
P
(
¯V − EV > t
)
≤ e
− nt2
2Var V +(2b′t)/3
Théorème 3.10. Pour toute v.a.r. W ≥ 0,
EW =
∫ +∞
0
P(W > t)dt =
∫ +∞
0
P(W ≥ t)dt.
En conséquence, pour toute v.a.r. V
EV ≤
∫ +∞
0
P(V > t)dt =
∫ +∞
0
P(V ≥ t)dt
Démonstration. La première affirmation s’obtient en utilisant le théorème
de Fubini et
W =
∫ +∞
0
1It<W dt =
∫ +∞
0
1It≤W dt.
La deuxième affirmation se déduit de la première en remarquant que max(V, 0) est
une v.a. positive ou nulle et EV ≤ E max(V, 0).
Théorème 3.11. Soient σ > 0, m ≥ 2, W1, . . . , Wm v.a.r. tels que pour tout
s > 0 et tout 1 ≤ i ≤ m, EesWi
≤ e
s2σ2
2 . Alors
E
{
max
1≤i≤m
Wi
}
≤ σ
√
2 ln m.
Si en plus pour tout s > 0, Ee−sWi
≤ e
s2σ2
2 , alors
E
{
max
1≤i≤m
|Wi|
}
≤ σ
√
2 ln(2m).

4. ETUDE DE LA PERFORMANCE DE LA MINIMISATION DU RISQUE EMPIRIQUE 33
4. Etude de la performance de la minimisation du risque empirique
Rappelons tout d’abord que le minimiseur du risque empirique sur l’ensemble
de fonctions de prédiction G produit une fonction
ˆgMRE ∈ argmin
g∈G
r(g).
Soit
˜g ∈ argmin
g∈G
R(g).
On suppose le minimum atteint pour simplifier l’exposé. D’après l’inégalité
R(ˆgMRE) ≥ R(˜g) ≥ R(g∗
),
L’excès de risque de ˆgMRE se décompose en deux termes positifs, appelés erreur
d’estimation et erreur d’approximation (ou biais) :
R(ˆgMRE) − R(g∗
) = R(ˆgMRE) − R(˜g)
erreur d’estimation
+ R(˜g) − R(g∗
)
erreur d’approximation
,
Cette partie étudie l’erreur d’estimation.
Les résultats de consistance sont basés sur l’étude de ER(ˆg), où l’espérance est
prise par rapport à la loi de l’ensemble d’apprentissage. Pour mieux décrire la v.a.
R(ˆg), nous allons établir différents types d’inégalités P.A.C. :
(1) Bornes relatives :
– R(ˆg) ≤ R(˜g)+ quantité mesurant la capacité de G indépendant des
données (éventuellement dépendant de P).
– R(ˆg) ≤ R(˜g)+ quantité empirique (i.e. calculable sur les données)
mesurant la capacité de G
(2) Bornes non relatives : R(ˆg) ≤ quantité empirique (typiquement dépendant
du risque empirique de ˆg et de la capacité empirique de G)
De ces bornes P.A.C., nous pouvons si nécessaire déduire des majorations de
ER(ˆg) (voir Théorème 3.10). Dans toute cette section, nous supposons que les pertes
sont bornées au sens où il existe des réels a et b tels que pour tout y, y′
a ≤ ℓ(y, y′
) ≤ b.
4.1. Capacité de G = cardinal de G. Lorsque l’ensemble G de fonctions
considérées est fini, alors le cardinal de G est une première mesure de complexité
(ou capacité) de G.
Théorème 4.1. Pour tout ε > 0, avec probabilité au moins 1 − ε,
R(ˆg) − R(˜g) ≤ (b − a)
√
2 ln(2|G|ε−1)
n
.
Démonstration. D’après l’inégalité (3.1.16) :
R(ˆg) − R(˜g) ≤ 2sup
g∈G
|R(g) − r(g)|.
D’après la borne de Hoeffding (3.3.18) : pour tout g ∈ G, pour tout ε > 0, avec
probabilité au moins 1 − ε :
|R(g) − r(g)| ≤ (b − a)
√
ln(2ε−1)
2n
.

En employant la borne de l’union, on en déduit que pour tout ε > 0, avec probabilité
au moins 1 − ε, pour tout g ∈ G (notez bien le changement de position de «pour
tout g») :
|R(g) − r(g)| ≤ (b − a)
√
ln(2|G|ε−1)
2n
,
d’où le résultat annoncé.
4.2. Capacité de G = nombre de Rademacher de la trace de G sur les
données.
Définition 4.1. Pour toute partie A de Rn
, le nombre de Rademacher de A
est
Rn(A) = Eσ
{ 1
n sup
a∈A
∑n
i=1 σiai
}
, (3.4.19)
où σ1, . . . , σn sont des v.a. i.i.d. de Rademacher, i.e. prenant comme valeurs +1 et
−1 avec probabilité 1/2.
Soit
F =
{
(x, y) → ℓ[y, g(x)] : g ∈ G
}
un ensemble de fonctions de Z dans R.
La trace de F sur Zn
1 est le sous-ensemble de Rn
défini par
F(Zn
1 )
{(
f(Z1), . . . , f(Zn)
)
; f ∈ F
}
De même, la trace de G sur X1, . . . , Xn est le sous-ensemble de Rn
défini par
G(X1, . . . , Xn)
{(
g(X1), . . . , g(Xn)
)
; g ∈ G
}
.
Théorème 4.2. Sous l’hypothèse que les pertes sont toujours comprises entre
a et b,
– avec probabilité au moins 1 − 2ε :
R(ˆg) ≤ r(ˆg) + 2Rn
[
F(Zn
1 )
]
+ 3(b − a)
√
ln(ε−1)
2n
calculable sur les données
.
– avec probabilité au moins 1 − 3ε :
R(ˆg) − R(˜g) ≤ 2Rn
[
F(Zn
1 )
]
+ 4(b − a)
√
ln(ε−1)
2n
calculable sur les données
.
4.2.1. Application à la classification binaire et dimension de Vapnik-Cervonenkis.
Dans cette section, Y = {0; 1} et l(y, y′
) = 1Iy̸=y′ .
Lemme 4.3. Rn[F(Zn
1 )] ≤
√
2 ln |G(Xn
1 )|
n .
Lemme 4.4 (admis). Soit ρ la distance de Hamming sur {0; 1}n
: ρ(x, y) =
1
n
∑n
i=1 1Ixi̸=yi
(
= 1
n
∑n
i=1 |xi − yi|
)
. On a
Rn[F(Zn
1 )] ≤ 12
∫ 1
0
√
ln[2N(r,G(Xn
1 ),ρ)]
n dr,

4. ETUDE DE LA PERFORMANCE DE LA MINIMISATION DU RISQUE EMPIRIQUE 35
où N(r, G(Xn
1 ), ρ) est la taille du plus petit réseau de rayon r pour la distance ρ
couvrant G, i.e. du plus petit ensemble S ⊂ G tel que G ⊂ ∪s∈SBρ(s, r), avec Bρ(s, r)
la boule fermée centrée en s et de rayon r.
Remarque 4.1. La démonstration de ce lemme repose sur une vision télésco-
pique de G (zoom arrière), appelée chaînage. Par rapport au Lemme 4.3, le Lemme
4.4 est une amélioration pour certains modèles G lorsque n est suffisamment grand
(cf. Remarque 4.2, p.35).
Définition 4.2. La dimension de Vapnik-Cervonenkis de G est
VG max
{
J ∈ N : max
x1∈X,...,xJ ∈X
|G(x1, . . . , xJ )| = 2J
}
.
Si VG < +∞, G est appelé classe de Vapnik-Cervonenkis. La dimension de Vapnik-
Cervonenkis sur Xn
1 de G est définie par
VG(Xn
1 ) = max
{
J ∈ N : max
{x1,...,xJ }⊂{X1,...,Xn}
|G(x1, . . . , xJ )| = 2J
}
.
Lemme 4.5. Si n ≥ VG, alors VG = max
x1∈X,...,xn∈X
VG(xn
1 ).
Lemme 4.6 (Lemme de Sauer (admis) ). Pour tout (x1, . . . , xn) ∈ Xn
|G(xn
1 )| ≤
∑VG (xn
1 )
k=0 Ck
n ≤
{
(n + 1)VG (xn
1 )
toujours
( en
VG (xn
1 )
)VG (xn
1 )
si n ≥ VG(xn
1 )
,
où Ck
n = n!
k!(n−k)! est le coefficient binomial des entiers n et k.
Lemme 4.7 (Lemme de Haussler (admis)). Pour tout 0 < r ≤ 1, avec les
notations du Lemme 4.4, on a
N(r, G(Xn
1 ), ρ) ≤
(
4e
r
)VG (xn
1 )
.
Remarque 4.2. Ces deux derniers lemmes appliqués conjointement avec le
Théorème 4.2 et respectivement les Lemmes 4.3 et 4.4 donnent respectivement



R(ˆg) ≤ r(ˆg) + 2
√
2VG (xn
1 ) ln(n+1)
n + 3
√
ln(ε−1)
2n
R(ˆg) − R(˜g) ≤ 2
√
2VG (xn
1 ) ln(n+1)
n + 4
√
ln(ε−1)
2n
et 


R(ˆg) ≤ r(ˆg) + 48
√
VG (xn
1 )
n + 3
√
ln(ε−1)
2n
R(ˆg) − R(˜g) ≤ 48
√
VG (xn
1 )
n + 4
√
ln(ε−1)
2n (A)
Le chaînage a donc permis la suppression du logarithme au prix d’une constante
nettement supérieur. Les bornes théoriques ont toujours des constantes pessimistes.
Ces bornes sont d’un intérêt limité en pratique si l’on s’attache à sa valeur numé-
rique. Néanmoins, les expériences numériques montrent que les meilleures bornes
de la littérature ont la bonne forme : on observe véritablement en faisant varier
la dimension de Vapnik-Cervonenkis et la taille de l’ensemble d’apprentissage une
variation proportionnel à
√
VG(xn
1 )/n. Par ailleurs, cette borne est optimale (en

termes de dépendance en VG et en n) au sens où une simple application du Théo-
rème 6.2 donne que pour toute classe de Vapnik-Cervonenkis et tout algorithme
d’apprentissage ˆg, il existe une probabilité générant les données pour laquelle
ER(ˆg) − R(˜g) ≥ min
(
1
8
√
VG
n
,
1 −
√
n/V
2
)
.
En particulier, pour n assez grand, i.e., pour n ≥ VG
4 , on a ER(ˆg) − R(˜g) ≥ 1
8
√
VG
n .
Cette dernière inégalité est à comparer avec l’inégalité suivante qui se déduit (non
trivialement) de l’inégalité (A) et qui est valable pour l’algorithme de minimisation
du risque empirique sur G :
ER(ˆg) − R(˜g) ≤ 48
√
VG(xn
1 )
n
+ 4
√
ln(3e)
2n
Théorème 4.8. Soit H un espace vectoriel de fonctions de X dans R. Soit
G =
{
x → sgn[h(x)]; h ∈ H
}
. On a
VG = dim H.
Exemple 1. Pour X = Rd
et H =
{
x →
∑d
j=1 ajxj + a0; a0 ∈ R, . . . , ad ∈ R
}
,
les frontières des fonctions de G associées à H sont des hyperplans. La dimension
de Vapnik-Cervonenkis de G est d + 1. Cela mène à une borne P.A.C. de la forme
R(ˆg) − R(˜g) ≤ C
(√
d+1
n +
√
ln(ε−1)
n
)
pour une constante C appropriée.

Bibliographie
[1] J.-Y. Audibert. Fast learning rates in statistical inference through aggregation. Ann. Stat.,
37 :1591–1646, Sep 2009.
[2] B. Blankertz, K.-R. Mller, G. Curio, T. Vaughan, G. Schalk, J. Wolpaw, A. Schlgl, C. Neu-
per, G. Pfurtscheller, T. Hinterberger, M. Schrder, and N. Birbaumer. BCI competition 2003 :
Progress and perspectives in detection and discrimination of EEG single trials. IEEE Tran-
sactions on Biomedical Engineering, 51(6) :1044–1051, 2004.
[3] D. DeCoste and B. Schölkopf. Training invariant support vector machines. Machine Learning,
46 :161–190, 2002.
[4] L. Devroye, L. Györfi, and G. Lugosi. A Probabilistic Theory of Pattern Recognition. Springer-
Verlag, 1996.
[5] C. Garcia and M. Delakis. Convolutional face finder : A neural architecture for fast and
robust face detection. IEEE Transactions on Pattern Analysis and Machine Intelligence,
26(11) :1408–1423, 2004.
[6] L. Györfi, M. Kohler, A. Krzy˙zak, and H. Walk. A Distribution-Free Theory of Nonparametric
Regression. Springer, 2004.
[7] Y. LeCun, 2005. Notes de cours, http://www.cs.nyu.edu/~yann/2005f-G22-2565-001/
diglib/lecture09-optim.djvu, nécessite le visualiseur de format djvu : http://djvu.org/
download/.
[8] Y. LeCun, L. Bottou, G. Orr, and K. Muller. Efficient backprop. In G. Orr and Muller K.,
editors, Neural Networks : Tricks of the trade. Springer, 1998. http://yann.lecun.com/exdb/
publis/pdf/lecun-98b.pdf.
[9] Y. LeCun and C. Cortes. MNIST page. http://yann.lecun.com/exdb/mnist/.
[10] G. Schalk, D. McFarland, T. Hinterberger, N. Birbaumer, and J. Wolpaw. BCI2000 : a general-
purpose brain-computer interface system. IEEE Transactions on Biomedical Engineering,
51(6) :1034–1043, 2004.
[11] P.Y. Simard, D. Steinkraus, and J. Platt. Best practice for convolutional neural networks
applied to visual document analysis. International Conference on Document Analysis and
Recogntion (ICDAR), IEEE Computer Society, pages 958–962, 2003.
37

APPRENTISSAGE STATISTIQUE

Recommandé

Recommandé

Contenu connexe

Tendances

Tendances (8)

Similaire à APPRENTISSAGE STATISTIQUE

Similaire à APPRENTISSAGE STATISTIQUE (20)

APPRENTISSAGE STATISTIQUE