1. Intro Ranking binaire Ranking multi-classes Conclusion R´f´rences
ee
Ranking binaire et agr´gation pour le cas
e
multi-classes
Sylvain Robbiano
4 novembre 2011
Sylvain Robbiano Ranking binaire et agr´gation pour le cas multi-classes
e
2. Intro Ranking binaire Ranking multi-classes Conclusion R´f´rences illustratif Notations
e Exemple
e
Base de donn´es UCI : Cardiotocography
e
Environ 1000 individus
20 caract´ristiques
e
Un label (Normal ; Suspect ; Pathologique)
Apprendre de fa¸on automatique ` ordonner les patients
c a
Utilisation de fonction de scoring (s : X → R)
x2 x7 xn−1 x1 x4 . . .
P S P P N ...
Nombreux domaines d’application :
finance (credit-scoring), m´decine (diagnostic m´dical),
e e
recherche de documents (moteurs de recherche), automobile,
etc.
Sylvain Robbiano Ranking binaire et agr´gation pour le cas multi-classes
e
3. Intro Ranking binaire Ranking multi-classes Conclusion R´f´rences illustratif Notations
e Exemple
e
t ∈ R → (P {s(X) > t | Y = 0} , P {s(X) > t | Y = 1}) .
ROCF0 ,F1 (s, α) = 1 − Fs,1 ◦ F−1 (1 − α)
s,0
Figure: Courbe ROC
Sylvain Robbiano Ranking binaire et agr´gation pour le cas multi-classes
e
4. Intro Ranking binaire Ranking multi-classes Conclusion R´f´rences illustratif Notations
e Exemple
e
Optimalit´
e
Pour tout s ∈ S,∀α ∈ [0, 1] ROCF0 ,F1 (s, α) ≤ ROCF0 ,F1 (Φ10 , α).
Donc
∗
SF0 ,F1 = {s ∈ S telles que : ∀(x, x ) ∈ X 2 :
ΦF1 ,F0 (x) < ΦF1 ,F0 (x ) ⇒ s(x) < s(x )}
AUC
D´finition, AUCF0 ,F1 (s) =
e α∈[0,1] ROCF0 ,F1 (s, α)dα
AUCF0 ,F1 (s) = P s(X) < s(X )|Y = 0, Y = 1
1
+ P s(X) = s(X )|Y = 0, Y = 1 .
2
Sylvain Robbiano Ranking binaire et agr´gation pour le cas multi-classes
e
5. Intro Ranking binaire Ranking multi-classes Conclusion R´f´rences illustratif Notations
e Exemple
e
Notations
X l’espace des caract´ristiques (souvent ⊂ Rd )
e
Y l’ensemble des classes
µ loi marginale de X
ηi (x) = P (Y = i|X = x)
η(x) = E[Y |X = x] la fonction de r´gression
e
En binaire
Y = {0, 1}
p = P{Y = 1}
η1 (x) = η(x)
Sylvain Robbiano Ranking binaire et agr´gation pour le cas multi-classes
e
6. Intro Ranking binaire Ranking multi-classes Conclusion R´f´rences illustratif Notations
e Exemple
e
1 Introduction
2 Ranking binaire
3 Ranking multi-classes
4 Conclusion
Sylvain Robbiano Ranking binaire et agr´gation pour le cas multi-classes
e
7. Intro Ranking binaire Ranking multi-classes Conclusion R´f´rences
e Optimisation de l’AUC La m´thode TreeRank
e e
RLSrank et SVMrank
f (x) = n βi k(x, xi )
i=1
SVMrank
n1 n0
2
arg min I{f (xi ) − f (xj ) < 0} + λ f k
f ∈H
i=1 j=1
RLSrank
n1 n0
arg min (1 − (f (xi ) − f (xj )))2 + λ f 2
k
f ∈H
i=1 j=1
Sylvain Robbiano Ranking binaire et agr´gation pour le cas multi-classes
e
8. Intro Ranking binaire Ranking multi-classes Conclusion R´f´rences
e Optimisation de l’AUC La m´thode TreeRank
e e
RankBoost
Entr´e. D = {(xi , yi )}, w1 (i, j) = 1/(n1 n0 ) .
e
Pour t=1,..,T
1 Trouver le classifieur ht qui maximise le score en
fonction des wt
n1 n0
rt = max wt (i, j)(ht (xi ) − ht (xj ))
ht ∈H
i=1 j=1
2 Choix du poids du classifieur αt = 1
2 ln 1+rt
1−rt
3 MAJ des poids
wt+1 (i, j) ∝ wt (i, j) exp(αt (ht (xi ) − ht (xj )))
T
Sortie. H(x) = t=1 αt ht (x).
Sylvain Robbiano Ranking binaire et agr´gation pour le cas multi-classes
e
9. Intro Ranking binaire Ranking multi-classes Conclusion R´f´rences
e Optimisation de l’AUC La m´thode TreeRank
e e
Utilisation des rangs
Id´e
e
Trouver s ∈ S qui minimise
n
1 Rank(s(Xi ))
Wn (s) = I{Yi = 1}φ
n1 n+1
i=1
φ(u) = u (AUC)
φ(u) = uI{u ≥ u0 } ([CV07])
φ(u) = up ([Rud06])
φ(u) = c((n + 1)u)I{u ≥ k/(n + 1)} (DCG)
Proposition ([CV09a])
ˆ
Sous de bonnes conditions Wn (s) converge vers
E[φ(Fs (s(X))|Y = 1]
Sylvain Robbiano Ranking binaire et agr´gation pour le cas multi-classes
e
10. Intro Ranking binaire Ranking multi-classes Conclusion R´f´rences
e Optimisation de l’AUC La m´thode TreeRank
e e
Methodes plug-in
Id´e
e
Estimer directement η(x) = P{Y = 1|X = x} et s’en servir
comme fonction de scoring.
Inconv´nient
e
Difficult´s li´es ` la dimension des donn´es.
e e a e
R´sultat th´orique
e e
Sous de bonnes conditions l’estimateur plug-in atteint la vitesse
minimax [CR11].
Sylvain Robbiano Ranking binaire et agr´gation pour le cas multi-classes
e
11. Intro Ranking binaire Ranking multi-classes Conclusion R´f´rences
e Optimisation de l’AUC La m´thode TreeRank
e e
Arbres d’ordonnancement
Arbre binaire orient´ T , de
e
racine l’espace d’entr´e X
e
Chaque noeud est scind´ en
e
deux selon une r`gle de
e
partitionnement port´e par les
e
branches de T , de sorte `a
maximiser l’AUC
La fonction de score sT est constante par morceaux, caract´ris´e
e e
par la partition ordonn´e de X d´finie par les feuilles de T
e e
Sylvain Robbiano Ranking binaire et agr´gation pour le cas multi-classes
e
12. Intro Ranking binaire Ranking multi-classes Conclusion R´f´rences
e Optimisation de l’AUC La m´thode TreeRank
e e
Approximation affine par morceaux de la courbe ROC optimale
Proc´dure d’approximation adaptative et it´rative de la courbe ROC∗
e e
∗
par une fonction affine par morceaux, ROC .
Initialisation : X
∗
ROC : diagonale principale de
l’espace ROC
Premi`re it´ration : X = C+ ∪ C−
e e
∗
ROC : ligne bris´e ` 2
e a
segments d’AUC maximale
It´rations sur les nouveaux
e
∗
segments de ROC
Sylvain Robbiano Ranking binaire et agr´gation pour le cas multi-classes
e
13. Intro Ranking binaire Ranking multi-classes Conclusion R´f´rences
e Optimisation de l’AUC La m´thode TreeRank
e e
Approximation affine par morceaux de la courbe ROC optimale
Proc´dure d’approximation adaptative et it´rative de la courbe ROC∗
e e
∗
par une fonction affine par morceaux, ROC .
Initialisation : X
∗
ROC : diagonale principale de
l’espace ROC
Premi`re it´ration : X = C+ ∪ C−
e e
∗
ROC : ligne bris´e ` 2
e a
segments d’AUC maximale
It´rations sur les nouveaux
e
∗
segments de ROC
Sylvain Robbiano Ranking binaire et agr´gation pour le cas multi-classes
e
14. Intro Ranking binaire Ranking multi-classes Conclusion R´f´rences
e Optimisation de l’AUC La m´thode TreeRank
e e
Approximation affine par morceaux de la courbe ROC optimale
Proc´dure d’approximation adaptative et it´rative de la courbe ROC∗
e e
∗
par une fonction affine par morceaux, ROC .
Initialisation : X
∗
ROC : diagonale principale de
l’espace ROC
Premi`re it´ration : X = C+ ∪ C−
e e
∗
ROC : ligne bris´e ` 2
e a
segments d’AUC maximale
It´rations sur les nouveaux
e
∗
segments de ROC
Sylvain Robbiano Ranking binaire et agr´gation pour le cas multi-classes
e
15. Intro Ranking binaire Ranking multi-classes Conclusion R´f´rences
e Optimisation de l’AUC La m´thode TreeRank
e e
Un probl`me de classification binaire pond´r´e
e ee
∗
It´ration : introduction d’un point dans la courbe ROC
e
Le noeud C est scind´ en deux C = C+ ∪ C− ...
e
...de sorte ` maximiser l’AUC.
a
On obtient la courbe ROC∗ de s : x → 2 · I{x ∈ C+ } − 1...
...associ´e ` C+ = {x ∈ X : η(x) ≥ p}, o` p = PC {Y = 1},...
e a u
...qui est solution du probl`me de classification binaire
e
pond´r´e :
ee
minC+ ⊂C 2p(1 − p) · P{X ∈ C+ , Y = +1} + 2p(1 − p) · P{X ∈ C+ , Y =
/
−1}
Sylvain Robbiano Ranking binaire et agr´gation pour le cas multi-classes
e
16. Intro Ranking binaire Ranking multi-classes Conclusion R´f´rences
e Optimisation de l’AUC La m´thode TreeRank
e e
Conclusion sur TreeRank
Convergence asymptotique en norme L1 et L∞ sous
certaines hypoth`ses de r´gularit´ sur la courbe ROC∗
e e e
([CV09b])
Un empilement de probl`mes de classification
e
Le probl`me d’ordonnancement binaire peut ˆtre vu comme un
e e
continuum de probl`mes de classification binaire pond´r´e, qui
e ee
consiste ` estimer la collection Cη = {x ∈ X : η(x) ≥ u}u∈(0,1) des
a
ensembles de niveaux de la probabilit´ a posteriori.
e
N’importe quel algorithme de classification...
...arbres de classification, SVM...
...selon les contraintes du probl`me pos´ :
e e
Flexibilit´, interpr´tabilit´ du mod`le, temps de calcul, etc.
e e e e
http ://treerank.sourceforge.net/
Sylvain Robbiano Ranking binaire et agr´gation pour le cas multi-classes
e
17. Intro Ranking binaire Ranking multi-classes Conclusion R´f´rences
e Notations
e Optimalit´ Agr´gation Simulations
e e
Y = {1, 2, 3}.
Fi la fonction de r´partition de X sachant que la classe Y = i.
e
φi (x) = Fi (dx)/µ(dx) la densit´ conditionnelle de X|Y = i.
e
Φi,j = φi /φj
S = {s : X → R}
∗
Si,j l’ensemble des fonctions optimales pour la tache i contre
j.
Fs,k d´signe la fonction de r´partition de s(X) sachant que
e e
Y = k.
Sylvain Robbiano Ranking binaire et agr´gation pour le cas multi-classes
e
18. Intro Ranking binaire Ranking multi-classes Conclusion R´f´rences
e Notations
e Optimalit´ Agr´gation Simulations
e e
D´finition
e
S ∗ = ∩k>l Sk,l
Hypoth`se
e
( MLR ) Pour tout (k, l) ∈ {1, 2}2 , pour tout (x, x ) ∈ X 2 , on a :
Φk+1,k (x) < Φk+1,k (x ) ⇒ Φl+1,l (x) ≤ Φl+1,l (x ).
Proposition
S ∗ est non vide ssi l’hypoth`se MLR est verifi´e. En particulier,
e e
η ∈ S ∗.
Sylvain Robbiano Ranking binaire et agr´gation pour le cas multi-classes
e
19. Intro Ranking binaire Ranking multi-classes Conclusion R´f´rences
e Notations
e Optimalit´ Agr´gation Simulations
e e
Surface ROC
3
Cs,t (x) = k · I{tk−1 < s(x) ≤ tk }
k=1
o` −∞ = t0 < t1 ≤ t2 < t3 = ∞.
u
D´finition
e
M (t) = (Fs,1 (t1 ), Fs,2 (t2 ) − Fs,2 (t1 ), 1 − Fs,3 (t2 )) ,
o` t1 ≤ t2
u
∀(α, γ) ∈ [0, 1]2 , ROC(s, α, γ) = Fs,2 ◦ F−1 (1 − γ) − Fs,2 ◦ F−1 (α)
s,3 s,1
+
Sylvain Robbiano Ranking binaire et agr´gation pour le cas multi-classes
e
20. Intro Ranking binaire Ranking multi-classes Conclusion R´f´rences
e Notations
e Optimalit´ Agr´gation Simulations
e e
Sylvain Robbiano Ranking binaire et agr´gation pour le cas multi-classes
e
21. Intro Ranking binaire Ranking multi-classes Conclusion R´f´rences
e Notations
e Optimalit´ Agr´gation Simulations
e e
Propri´t´s de la surface ROC
ee
Pour toutes distributions F1 (dx), F2 (dx) et F3 (dx) sur X et pour
toute fonction de scoring s ∈ S, on a les propri´t´s suivantes.
ee
Intersections avec une face de l’espace ROC.
Invariance. pour toute fonction strictement croissante T ,
ROC(T ◦ s, α, γ) = ROC(s, α, γ).
Concavit´. Si l’hypoth`se (MLR) est v´rifi´e, la surface
e e e e
ROC∗ est concave.
Diff´rentiabilit´.
e e
∂ fs,2 −1 −1
ROC(s, α, γ) = − fs,1 Fs,1 (α) quand fs,1 (Fs,1 (α)) > 0,
∂α
∂ fs,2 −1 −1
ROC(s, α, γ) = − fs,3 Fs,3 (1 − γ) quand fs,3 (Fs,3 (1 − γ)) > 0.
∂γ
Sylvain Robbiano Ranking binaire et agr´gation pour le cas multi-classes
e
22. Intro Ranking binaire Ranking multi-classes Conclusion R´f´rences
e Notations
e Optimalit´ Agr´gation Simulations
e e
Volume sous la surface ROC
Proposition
VUS(s) = P {s(X1 ) < s(X2 ) < s(X3 )|Y1 = 1, Y2 = 2, Y3 = 3}
1
+ P {s(X1 ) = s(X2 ) < s(X3 )|Y1 = 1, Y2 = 2, Y3 = 3}
2
1
+ P {s(X1 ) < s(X2 ) = s(X3 )|Y1 = 1, Y2 = 2, Y3 = 3}
2
1
+ P {s(X1 ) = s(X2 ) = s(X3 )|Y1 = 1, Y2 = 2, Y3 = 3} ,
6
Sylvain Robbiano Ranking binaire et agr´gation pour le cas multi-classes
e
23. Intro Ranking binaire Ranking multi-classes Conclusion R´f´rences
e Notations
e Optimalit´ Agr´gation Simulations
e e
Crit`re pour le ranking
e
Proposition
Si l’hypoth`se (MLR) est v´rifi´e alors ∀(α, γ) ∈ [0, 1]2 on a
e e e
ROC(s, α, γ) ≤ ROC∗ (α, γ).
Proposition
Si il existe s∗ telle que pour toute s ∈ S, on ait : ∀(α, γ) ∈ [0, 1]2
ROC(s, α, γ) ≤ ROC(s∗ , α, γ).
Alors S ∗ est non vide et s∗ est dans S ∗ .
Sylvain Robbiano Ranking binaire et agr´gation pour le cas multi-classes
e
24. Intro Ranking binaire Ranking multi-classes Conclusion R´f´rences
e Notations
e Optimalit´ Agr´gation Simulations
e e
Borne ponctuelle pour la surface ROC
Rs,α = {x ∈ X |s(x) > Q(i) (s, α)}
(i)
o` Q(i) (s, α) est le quantile d’ordre α de Fs,i .
u
Th´oreme
e
Supposons que l’hypoth`se MLR soit v´rifi´e et que s∗ et s ont des
e e e
lois continues. On a : ∀(α, γ) ∈ [0, 1]2
ROC∗ (α, γ) − ROC(s, α, γ)
1
≤ E[|η1 (x) − Q(1) (η1 , α)|IR∗(1) ∆R(1) ]
p2 α s,α
1
+ E[|η3 (X) − Q(3) (η3 , 1 − γ)|IR∗(3) ∆R(3) ]
p2 1−γ s,1−γ
Sylvain Robbiano Ranking binaire et agr´gation pour le cas multi-classes
e
25. Intro Ranking binaire Ranking multi-classes Conclusion R´f´rences
e Notations
e Optimalit´ Agr´gation Simulations
e e
D´ficit de VUS
e
Th´or`me
e e
Supposons que l’hypoth`se MLR soit v´rifi´e. Alors, pour toute
e e e
fonction s ∈ S, on a
VUS∗ − VUS(s) ≤ AUC∗ 1 ,F2 − AUCF1 ,F2 (s)
F
+ AUC∗ 2 ,F3 − AUCF2 ,F3 (s) .
F
Th´or`me
e e
Sous l’hypoth`se MLR, on a :
e
p1 + p3
VUS∗ − VUS(ˆ) ≤
η E[|η(X) − η (X)|]
ˆ
p1 p2 p3
Sylvain Robbiano Ranking binaire et agr´gation pour le cas multi-classes
e
26. Intro Ranking binaire Ranking multi-classes Conclusion R´f´rences
e Notations
e Optimalit´ Agr´gation Simulations
e e
AUCF0 ,F1 (s) = P s(X) < s(X )|Y = 0, Y = 1
1
+ P s(X) = s(X )|Y = 0, Y = 1 .
2
τ de Kendall
τ (V, W ) = P V − V · W − W >0
1 1
+ P V =V , W =W + P V =V , W =W .
2 2
Proposition
1 − τν (s1 , s2 ) dτ (s1 , s2 )
|AUCF1 ,F2 (s1 ) − AUCF1 ,F2 (s2 )| ≤ = ν .
4p(1 − p) 2p(1 − p)
Sylvain Robbiano Ranking binaire et agr´gation pour le cas multi-classes
e
27. Intro Ranking binaire Ranking multi-classes Conclusion R´f´rences
e Notations
e Optimalit´ Agr´gation Simulations
e e
Agr´gation via le τ de Kendall pour l’ordonnancement
e
multi-classes
Entr´e. Echantillons de donn´es D et D , un
e e
algorithme d’ordonnancement A, sous ensemble S1 de
fonctions de scoring.
1 Apprentissage des fonctions de scoring pour
chaque paire.
2 Agr´gation des r`gles de scoring. Calculer s(x) dans
e e
S1 ⊂ S
K−1 K−1
τµ s, s(k) = max τµ s, s(k) ,
s∈S1
k=1 k=1
Sylvain Robbiano Ranking binaire et agr´gation pour le cas multi-classes
e
28. Intro Ranking binaire Ranking multi-classes Conclusion R´f´rences
e Notations
e Optimalit´ Agr´gation Simulations
e e
R´sultat th´orique
e e
Proposition
Sous de bonnes conditions,
a/(1+a)
dτν (s∗ , s) ≤ C · AUC∗ 1 ,F2 − AUCF1 ,F2 (s)
F ,
Proposition
Sous de bonnes conditions, si sn (x)(resp sn (x)) est
AUC-consistante pour la tˆche 1 contre 2 (resp 2 contre 3) alors
a
la proc´dure d’agr´gation est VUS-consistante.
e e
Sylvain Robbiano Ranking binaire et agr´gation pour le cas multi-classes
e
29. Intro Ranking binaire Ranking multi-classes Conclusion R´f´rences
e Notations
e Optimalit´ Agr´gation Simulations
e e
s∗ s∗
1,2 s∗
2,3 η1 η2 η3
0.2 0.2 0.2 0.7692 0.2000 0.0308
0.4 0.4 0.2 0.6250 0.3250 0.0500
0.6 0.8 0.6 0.3968 0.4127 0.1905
0.8 0.8 0.8 0.3731 0.3881 0.2388
1 1 1 0.3030 0.3939 0.3030
1.25 1.25 1 0.2581 0.4194 0.3226
1.66 1.66 1.66 0.1682 0.3645 0.4673
2.5 2.5 2.5 0.0952 0.3095 0.5952
5 2.5 5 0.0597 0.1940 0.7463
b.
a. Ensembles de
Echantillon simul´.
e niveaux optimaux.
Sylvain Robbiano Ranking binaire et agr´gation pour le cas multi-classes
e
30. Intro Ranking binaire Ranking multi-classes Conclusion R´f´rences
e Notations
e Optimalit´ Agr´gation Simulations
e e
Table: Comparaison des VUS : VUS∗ = 0.3855
Method VUS(σ)
TreeRank 1v2 0.3681 (±0.0060)
TreeRank 2v3 0.3611 (±0.0056)
TreeRank 1v3 0.3774 (±0.0037)
TreeRank Agg 0.3818 (±0.0027)
RankBoostVUS 0.3681 (±0.0013)
RankBoost Agg 0.3687 (±0.0013)
SVMrank lin 0.3557 (±0.0008)
SVMrank gauss 0.3734 (±0.0008)
RLScore lin 0.3554 (±0.0005)
RLScore gauss 0.3742 (±0.0007)
Sylvain Robbiano Ranking binaire et agr´gation pour le cas multi-classes
e
31. Intro Ranking binaire Ranking multi-classes Conclusion R´f´rences
e Notations
e Optimalit´ Agr´gation Simulations
e e
Table: Comparaison des VUS test - ”Cardiotocography”
Method VUS test
TreeRank 1v2 0.2357
TreeRank 2v3 0.3314
TreeRank 1v3 0.6932
TreeRank Agg 0.8141
RankBoostVUS 0.8346
RankBoost Agg 0.8959
SVMrank lin 0.7202
SVMrank gauss 0.7856
RLScore lin 0.7652
RLScore gauss 0.7829
Sylvain Robbiano Ranking binaire et agr´gation pour le cas multi-classes
e
32. Intro Ranking binaire Ranking multi-classes Conclusion R´f´rences
ee
Tour d’horizon du cas binaire
Ranking multi-classes : hypoth`se MLR et surface ROC
e
Proc´dure d’agr´gation et comparaison empirique avec l’´tat
e e e
de l’art
Algorithme de ranking multi-classes ayant pour objectif le VUS
Sylvain Robbiano Ranking binaire et agr´gation pour le cas multi-classes
e
33. Intro Ranking binaire Ranking multi-classes Conclusion R´f´rences
ee
[CR11] S. Cl´men¸on and S. Robbiano. Minimax learning rates
e c
for bipartite ranking and plug-in rules. In Procedings of
ICML, 2011.
[CV07] S. Cl´men¸on and N. Vayatis. Ranking the best
e c
instances. Journal of Machine Learning Research,
8 :2671–2699, 2007.
[CV09a] S. Cl´men¸on and N. Vayatis. Empirical performance
e c
maximization based on linear rank statistics. In NIPS,
volume 3559 of Lecture Notes in Computer Science,
pages 1–15. Springer, 2009.
[CV09b] S. Cl´men¸on and N. Vayatis. Tree-based ranking
e c
methods. IEEE Transactions on Information Theory,
55(9) :4316–4336, 2009.
[Rud06] C. Rudin. Ranking with a P-Norm Push. In Proceedings
of COLT, 2006.
Sylvain Robbiano Ranking binaire et agr´gation pour le cas multi-classes
e