SlideShare une entreprise Scribd logo
1  sur  12
Télécharger pour lire hors ligne
Convex Multi-Task Feature Learning
Réalisé par :
OUKID Inès
BELOUADAH Sakher
Master AIC
1
1 Introduction
L’apprentissage multitâche est le processus impliquant la résolution de taches d’apprentis-
sages multiples reliées par une structure commune afin d’améliorer les performances lors de la
généralisation. Une des idées les plus prometteuses dans l’apprentissage multitâche est la sélection
de features communs ou un motif parcimonieux est partagé entre les représentations spécifiques
des features de toutes les taches.
Ce type d’apprentissage considère chaque tâche comme étant une tache indépendante des autres.
Cependant, au lieu d’apprendre chacune de ces tâches indépendamment, il les apprend ensemble
en les considérants comme étant une seule tache d’apprentissage. Ceci peut être efficace dans le
cas où chaque tache d’apprentissage est associée à un ensemble de données limitées et permettant
ainsi un partage des données entre les taches et donc une meilleure performance prédictive pour
chaque tache individuelle.
Cet article propose une approche d’apprentissage multitâche basée sur la sélection des features
communs en utilisant une méthode de régularisation appliquée sur la matrice de coefficient.Il
porte sur le développement d’une généralisation multi-tâche non-convexe de la régularisation
1-norme mono tâche qui peut être utilisée pour apprendre quelques caractéristiques communes
à travers des tâches multiples. Etant donné que le problème proposé est non convexe, l’article
parvient à démontrer que celui-ci est équivalent à un problème convexe et par conséquent qu’il
peut être résolu en utilisant un algorithme itératif. L’article démontre également que l’algorithme
itératif en question converge vers une solution optimale du problème initial qui est non convexe.
Pour finir, une nouvelle méthode de généralisation non linéaire est proposée et ce en se basant
sur l’utilisation des noyaux.
1.1 Formulation du problème
La configuration suivante a été considérée : étant donné un ensemble de T taches d’appren-
tissage (classification, régression . . . ) tel que les données ont été prises d’un même espace X x Y,
où chaque X est inclus dans Rd
et chaque Y dans R. Chaque tache d’apprentissage dispose de
m instances (exemples) :
{(x1,t, y1,t), (x2,t, y2,t), ....., (xm,t, ym,t)}
Ces données sont générées par un ensemble de distributions propres à chaque tache Pt dans X x
Y. Et donc les données totales disponibles sont :
{{(x1,1, y1,1), ..., (xm,1, ym,1)}...{(x1,T , y1,T ), ..., (xm,T , ym,T )}}
Il est supposé que les distributions Pt sont diffèrent entre les taches, mais reliés entre eux.
Le but est de :
— Construire les T fonctions ;
— Découvrir les relations particulières entre les différentes taches : les tâches sont dites reliées
si elles partagent un petit ensemble de features.
2
1.1.1 Fonction objective
L’hypothèse est représentée par une fonction (1) :
ft(x) = ΣN
i=1aithi(x) (1)
Le but est donc d’apprendre les features h les paramètres ait ainsi que le nombrer de features
à partir des données.
Pour cela, ils considèrent que les features sont des fonctions linéaires homogènes i.e. de la forme
hi(x) = ui, x , avec : ui ∈ Rd
(cas étendu en sections suivantes, ou h est un élément d’un espace d’Hilbert à noyaux repro-
duisant).
Seule supposition : les vecteurs ui sont orthogonaux (produits scalaires nuls). Cette hypo-
thèse, va permettre de développer une méthode d’apprentissage convexe dans la section suivante.
En posant U matrice contenant les vecteurs ui, la formule (1) peut être écrite sous la forme :
ft(x) = Σd
i=1ait ui, x = at, UT
x
1.1.2 Fonction d’erreur
Les taches partageant un nombre réduit de features impliquent que la matrice A possède
beaucoup de lignes = à 0. Par conséquent au lieu d’apprendre le nombre de features N directe-
ment, un terme régulariseur est introduit permettant de favoriser un nombre réduits de lignes
différentes de zéro.
En utilisant la méthode du noyau, tel que :K(x, z) =< x, Uz > La fonction d’erreur régula-
risée est donc introduite (2) :
ε(A, U) = ΣT
t=1Σm
i=1L(yti, at, UT
xti ) + γ A 2
2,1 (2)
Où :
— Gamma > 0 paramètre de régularisation,
— Le premier terme représente la moyenne des erreurs de toutes les taches qui est convexe
dans le deuxième argument (le produit scalaire),
— Le second terme (régulariseur) pénalise la norme (2,1) de la matrice A. La magnitude des
composantes de ce terme-là indique l’important de chaque feature,
Si la matrice U est connue et  minimise la fonction convexe ε(., U), alors le nombre de
composantes du vecteur b(Â) différents de zéro « b(a) = vecteur contenant les 2-normes des ai
correspondant au feature i » n’augmentera pas avec gamma.
Cette propriété de parcimonie est plus clair en ne considérant qu’une seule fonction t :
3
Σm
i=1L(yti, at, UT
xti ) + γ at
2
1 (3)
Le fait d’utiliser la norme 1 mène à une solution parcimonieuse et donc beaucoup de composantes
du vecteur appris at seront à zéro. Par conséquent, le nombre de composantes différents de zéro
de la solution du problème est une fonction non-croissante de gamma.
Etant donné que le but n’est pas seulement de sélectionner les features mais de les apprendre
aussi, on minimise la fonction d’erreur ε par rapport à U. Donc l’apprentissage des features dans
le domaine multitâche revient à résoudre le problème d’optimisation suivant :
min{ε(A, U) : U ∈ Od
, A ∈ Rd×T
} (4)
Où Od
représente l’ensemble des matrices d x d orthogonales.
Ce problème d’optimisation (4) permet d’apprendre la représentation en dimension réduite
partagée entre les tâches. Cependant, un ensemble de challenges est rencontré lors de sa résolu-
tion :
— Problème non-convexe bien qu’il soit convexe séparément pour U et pour A.
— Le terme régulariseur n’est pas lisse, et donc le problème d’optimisation est plus compliqué
à résoudre.
Dans ce qui suit, des optima globaux sont trouvés en résolvant des problèmes d’optimisation
convexe équivalent. A partir de là, il est supposé que lorsque A = 0 celle-ci ne minimise pas le
problème (4), en effet cela n’a aucun intérêt.
Remarque : si la matrice U n’est pas apprise et que U est égal à la matrice identité, le problème
(4) sélectionne un petit ensemble de variable commun aux tâches. Et dans ce cas on se retrouve
avec ce problème d’optimisation convexe :
min{ΣT
t=1Σm
i=1L(yti, at, xti ) + γ A 2
2,1} (5)
1.1.3 Problème d’optimisation convexe équivalent
Le problème non-convexe non lisse (4) peut être transformé en un problème équivalent
convexe. Pour cela, pour chaque W ∈ Rd×T
avec wt comme colonnes, et D ∈ Sd
+ tel que Sd
+
définie l’ensemble des matrices d x d symétriques définies positives, la fonction suivante a été
définie :
R(W, D) = ΣT
t=1Σm
i=1L(yti, wt, xti ) + γΣT
t=1 wt, D+
wt
(6)
Sous certaines contraintes, cette fonction objective donne lieu à un problème d’optimisation
convexe. En outre, bien que le régulariseur de (6) ne soit pas lisse il sera démontré par la suite
que la minimisation partielle par rapport à D mène à un algorithme d’optimisation qui converge
globalement.
4
En se basant sur le théorème 1, le problème (4) est équivalent à minimiser :
min{R(W, D) : W ∈ Rd×T
, D ∈ Sd
+, trace(D) <= 1, range(W) ⊆ range(D)} (7)
En particulier, si (Â,Û) est une solution optimale pour (4) alors :
(W, D) = (ÛÂ, Û × Diag( ai
2
A 2,1
)d
i=1ÛT
) (8)
Est une solution optimale pour le problème (7). Ainsi, cela implique que :
— R(W, D) >= ε(A, U)
— Le minimum de (4) ne dépasse pas la borne inférieure de (7)
— Concernant le problème (7), la trace de la matrice D a été bornée (sinon une solution
qui est à D = ∞ sera une solution qui minimise la régularisation, cependant cela ne
représente pas le cas auquel nous nous intéressons). De manière similaire, une contrainte
a été imposée afin que le « terme pénaliseur » soit minoré et éloigné de 0. Sans cette
condition il serait possible que DW = 0.
1.2 Algorithme de minimisation alternée
Dans cette section, nous présentons l’algorithme permettant de résoudre le problème d’optimi-
sation convexe (7) en minimisant alternativement la fonction R par rapport à W et D séparément.
En utilisant un paramètre de perturbation , la convergence de (7) vers une solution optimale
globale en faisant tendre vers 0 a été prouvée.
L’algorithme présenté permet donc de minimiser la fonction R tel que :
R (W, D) = ΣT
t=1Σm
i=1L(yti, wt, xti ) + γtrace(D−1
(WWT
+ I))
(9)
Le terme regularisateur de cette fonction, maintenant D non singulière(inversible), est lisse tel
que R a un unique minimiser. Les deux étapes de l’algorithme minimisant R sont les suivantes :
1.2.1 Minimisation par rapport à W
D est fixé et la minimisation se fait sur W en résolvant :
min{ΣT
t=1Σm
i=1L(yti, wt, xti ) + γΣT
t=1 wt, D−1
wt : W ∈ Rd×T
} (10)
Avec wt colonne de la matrice W. Cette minimisation peut être réalisée de manière indépendante
pour les tâches puisque le régulariseur découple lorsque D est fixé. Plus précisément, l’intro-
duction de nouvelles variables pour une D−1/2
wt donne un problème de régularisation 2-norme
standard pour chaque tâche avec le même noyau K(x, z) =< x, Dz >, x, z ∈ Rd
.
5
1.2.2 Minimisation par rapport à D
W est fixée, et R est minimisé par rapport à D. Il s’agit de résoudre le problème :
min{ΣT
t=1 wt, D−1
wt + trace(D−1
) : D ∈ Dd
++, trace(D) <= 1}
(11)
La solution optimale à (11) est :
D (W) = (WWT
+ I)1/2
trace(WWT + I)1/2 (12)
Quant à la valeur optimale celle-ci est égale à : :
(trace(WWT
+ I)1/2
)2
L’algorithme 1 est vu comme une alternance entre une étape supervisée et une non-supervisée.
— L’étape supervisée : permet d’apprendre les wt spécifique à chaque tâche et ce en utilisant
une représentation commune car le D encapsule les features ui par conséquent en fixant
D, la représentation est fixée aussi.
— L’étape non-supervisée : la fonction de régression est fixée et la représentation commune
est apprise.
En substituant l’équation (12) avec = 0 dans l’équation (6) pour R, on obtient un problème
de régularisation en W :
min{ΣT
t=1Σm
i=1L(yti, wt, xti ) + γ W 2
tr: W ∈ Rd×T
} (13)
avec : W tr= trace(WWT
)1/2
représentant la « trace norm » et peut être exprimée comme
étant la somme des valeurs singulières de W.
1.3 Apprentissage des features non-linéaires
Dans cette section, il a été considéré que les features sont associées à un noyau et sont donc
des fonctions non linéaires de l’input.
Les fonctions objectives appartiennent à un espace d’Hilbert à noyau reproduisant. Le but est
d’apprendre T fonctions de régression de la forme :
ft(x) = at, UT
ϕ(x) = wt, ϕ(x) , x ∈ Rd
Où ϕ : Rd
→ RM
est un feature map qui en général est non-linéaire avec une Dimension M large.
Il est supposé que la fonction Kernel est donnée :
k(x, x ) = ϕ(x), ϕ(x )
En remplaçant x par ϕ(x), le problème à minimiser en W revient à :
6
min{ΣT
t=1Σm
i=1L(yti, wt, ϕ(xti) ) + γ W 2
tr: W ∈ Rd×T
} (14)
Ce problème peut être vu comme une généralisation du problème standard de régularisation
2-norme. Dans le cas ou t=1, la trace norme W tr est égale à w1 2
Dans ce cas la solution optimale w d’un tel problème est dans le span (intersection de tous les
sous-espaces contenant cet ensemble) de l’ensemble d’entrainement.
w = Σm
i=1ciϕ(xi)
Ce résultat est connu comme étant le « representer » et est entendu au cas général (14).
En utilisant le théorème 4 de l’article, si W est solution optimale au problème (14) alors pour
chaque t il existe un vecteur ct tel que :
wt = ΣT
s=1Σm
i=1(ct)siϕ(xsi) (15)
Il est possible de récrire l’équation (15) en utilisant la notation matricielle est d’utiliser W
comme un multiple de la matrice input Φ ∈ RM×mT
et la matrice C ∈ Rmt×T
W = ΦC (16)
Le théorème (4) appliqué à l’équation (14) permet d’obtenir un problème d’optimisation équi-
valent et implique qu’il est possible de restreindre l’ensemble des solutions de l’équation (14) aux
matrices W satisfaisant l’équation (16) pour certains C.
En posant L = Span{ϕ(xti) : t ∈ NT , i ∈ Nm} et soit δ sa dimension. Afin d’exploiter
l’invariance unitaire de la trace norme, la matrice V de dimension M × δ a été considérée telle
que ses colonnes forment une base orthogonale de L. l’équation (16) implique qu’il existe une
matrice Θ ∈ Rδ×T
W = V Θ (17)
En substituant l’équation (17) dans l’équation (14) nous obtenons la fonction objective suivante :
ΣT
t=1Σm
i=1L(yti ϑt, V T
ϕ(xti) ) + γ Θ 2
tr: Θ ∈ Rδ×T
(18)
Le problème (14) est donc équivalent à :
min{ΣT
t=1Σm
i=1L(yti ϑt, V T
ϕ(xti) ) + γ Θ 2
tr: Θ ∈ Rδ×T
} (19)
En outre, il y a une correspondance one-to-one entre les solutions optimales de (14) et celles de
(19) donnée par (17).
Le problème (19) est un problème en variables, et peut être résolu indépendamment de la di-
mension M du feature map d’origine.
7
2 Description des données
La base de données sur laquelle nous avons fait nos expérimentations est prise à partir de «
Inner London Education Authority ». Cette base représente un ensemble de notes d’examens de
15362 étudiants au total répartis sur 139 écoles différentes à Londres durant les années 1985,1986
et 1987. Le nombre d’étudiants dans chaque école varie entre 20 et 150. Afin d’effectuer les
différents tests pour un apprentissage multitâche, nous avons considéré chaque école comme étant
une tache, et l’ensemble des étudiants appartenant à une école comme l’ensemble des données.
Il existe donc 139 taches qui correspondent à la prédiction des performances des étudiants dans
chaque école, où chaque tache à un nombre d’exemples différents.
2.1 Description des attributs
Les attributs de chaque entrée sont : année d’examen (YR), quatre (4) attributs spécifiques aux
informations des différentes écoles et trois (3) attributs spécifiques aux étudiants. Les attributs
qui sont constants pour chaque école pour une année donnée sont : le pourcentage d’étudiants
bénéficiant de repas gratuits au niveau de l’école, pourcentage d’étudiants ayant les meilleurs
résultats dans le test de raisonnement verbal, le type de l’école (SGN) ainsi que la dénomination
de l’école (SDN).
Les attributs spécifiques aux étudiants sont : le sexe(GEN), le résultat du test de raisonnement
verbal (peut prendre trois valeurs : 1,2 et 3) et le groupe ethnique (ETH).
2.2 Prétraitement des données
Nous avons tout d’abord remplacé les attributs catégoriques par des valeurs binaires pour
chaque valeur possible. Au total, nous obtenons un ensemble de 27 attributs. Par la suite, nous
avons effectué dix divisions aléatoires sur l’ensemble des données afin de générer l’ensemble
d’apprentissage et l’ensemble de tests. Ces derniers représentent 75% et 25% de la totalité res-
pectivement. Nous avons aussi remarqué que le nombre des étudiants diffère d’une école à l’autre.
En moyenne, l’ensemble d’apprentissage contient environs 80 étudiants par école et l’ensemble
de test contient environs 30 étudiant par école.
3 Implémentation
Le code fournis programmé sous Matlab se compose de 6 méthodes différentes, permettant de
réaliser le processus d’apprentissage ainsi que la sélection de features dans le contexte multitâche.
Ce processus, qui est une généralisation de la régularisation basée sur la norme 1, s’exécute
en alternant entre l’apprentissage des fonctions qui sont spécifiques à chaque tache en utilisant
l’astuce du noyau, et l’apprentissage d’une représentation parcimonieuse de ces fonctions qui sera
commune entre les différentes taches (une représentation dans une dimension plus réduite).
Il est donc possible d’effectuer trois méthodes d’exécutions différentes qui sont :
3.0.1 Apprentissage des features
Une phase d’apprentissage supervisé : le but de cette fonction est d’apprendre les features
communs entre les taches en calculant la valeur optimale de la matrice W qui permet de minimiser
8
la fonction objective perturbée Rε où e est définie comme une valeur de tolérance de perturbation
passée en entrée.
La première étape est de définir la valeur fixée de la matrice D qui initialement est égale à 1/d
en utilisant les instructions :
D=size(x,1)
Vect=ones(1,d)/d
Dini=diag(Vect)
Ensuite, la valeur de W est mise à jour tant qu’elle converge vers la solution optimale, c’est-
à-dire tant que la différence entre les Wt et Wt−1 est supérieur à la valeur d’epsilon (il a été
démontré en première section qu’il existe seulement une solution globale optimale).
Dans cette méthode, la valeur initiale d’epsilon joue un rôle important dans la convergence
de W. Afin d’automatiser le processus et d’obtenir la meilleure valeur de W, nous avons modifié
l’algorithme de tel façon à réduire la valeur d’epsilon à une valeur proche de zéro à chaque fois
que la matrice W se stabilise au voisinage d’une valeur. Le processus d’optimisation se termine
lorsque la valeur d’epsilon est inférieure à 10−16
.
3.0.2 Sélection de variables
La phase d’apprentissage non supervisé permet d’apprendre une représentation commune
entre les taches. Contrairement à la première méthode, il est nécessaire de fixer la valeur de
W, et d’apprendre la valeur de D qui permet de minimiser la fonction objective perturbée. La
condition initiale impose que la matrice D soit diagonale.
3.0.3 Méthode d’apprentissages indépendants
Dans cette méthode, au lieu d’effectuer un processus d’apprentissage multitâche, le problème
est considéré comme étant plusieurs taches de régressions. Dans ce cas, nous effectuons 139
apprentissages indépendants.
3.1 Difficultés
Une des difficultés que nous avons rencontrées et le fait que les codes soient fournis sans
aucune indication sur leurs contenus ainsi que sur les valeurs des paramètres qu’il fallait passer
en entrée. Le manque de commentaires a rendu la tâche de compréhension et d’exécution plus
difficile.
L’autre difficulté rencontrée est le fait de trouver des datasets répondant aux contraintes
imposées par le multi-tâche learning sur lesquelles nous aurions pu faire nos expérimentations.
Nous avons opté pour l’utilisation de la base de données « School Data », ou il a été nécessaire
de procéder au prétraitement des données ainsi qu’à la division des celles-ci en plusieurs taches
en effet nous aurions préféré pouvoir tester sur un autre jeu de données.
9
4 Expérimentations
Dans cette partie, nous allons présenter les différents résultats d’expérimentations sur la base
de données School Data.
Afin de tenir compte des différentes populations de chaque école, nous avons calculé l’erreur
de chaque tâche par une méthode de validation croisée, ensuite nous avons normalisé selon les
populations d’écoles.
Afin de comparer les résultats avec d’autres travaux sur la même base, la mesure de pour-
centage dite « explained varience » a été utilisée. Cette mesure est utilisée dans le domaine de
l’apprentissage en multitâche et est définie comme étant la proportion de l’erreur quadratique
moyenne par rapport à la variance des données comme suit :
Explained Variance = 1 − SumSquaredErrors
T otalV ariance
Une grande valeur est préférée à une petite valeur.
La figure ci-dessous montre la comparaison entre les différentes méthodes de l’article avec deux
méthodes d’apprentissage multitâche l’une basée sur une approche appelée Gaussian Process[1]
et la seconde est basée sur une approche appelée bayésien hiérarchique[2]. La méthode d’appren-
tissages « indépendant » consiste à effectuer 139 apprentissages propres à chaque tâche (par
conséquent, cela implique d’apprendre les paramètres de régularisation indépendamment).
La méthode GPMTFS réfère à la méthode basée sur le Gaussian Process, HBMTL à la mé-
thode bayesienne et MTL-FEAT à celle de l’article : Nous remarquons tout d’abord l’existence
Figure 1 – Comparaison entre les différents méthode de multitask learning
d’une forte variance entre les tâches, cela signifie que celles-ci ne sont pas basées sur un modèle
de tache particulier.
Nous remarquons que les méthodes implémentées dans l’article MTL-FEAT sont plus perfor-
mantes que la méthode basée sur le Gaussian Process, idem pour la méthode d’apprentissages «
10
indépendant ». L’utilisation de l’astuce du noyau dans l’apprentissage de features permet d’amé-
liorer les résultats. Les résultats obtenus en appliquant la méthode bayésienne hiérarchique semble
être meilleurs que ceux de l’article. Cependant, il est difficile de les comparer car la fonction ob-
jective utilisée ne peut être comparée directement avec celle de l’article. De plus, la manière dont
les données sont divisées n’est pas mentionnée, ce qui peut affecter les résultats.
L’autre remarque que nous avons constatée est que les attributs qui affectent la réussite scolaire
sont les mêmes et partagés sur toutes les écoles (comme attendu) ceci peut être confirmé en
observant la figure ci-dessous qui montre les attributs importants. Les notes d’examens prédites
dépendent fortement de l’attribut qui représente le résultat de test du raisonnement verbal. Par
contre, aucun des attributs relatifs aux écoles n’as été jugé important.
Figure 2 – Features learning sur la base School
Finalement, quand le nombre de taches augmente, la performance de MLT-FEAT augmente
aussi. De la même manière, quand la valeur de gamma augmente, le motif est plus parcimonieux.
5 Conclusion
L’article présente un algorithme permettant d’apprendre une représentation parcimonieuse
commune entre plusieurs taches. Ces représentations sont des fonctions orthonormées dans un
espace d’Hilbert à noyaux reproduisant. Cette méthode est basée sur une régularisation mixée
qui est la norme (2-1).
Initialement, le problème d’optimisation non convexe a été ramené à un problème d’optimisation
convexe. En présentant un algorithme permettant d’alterner entre une phase d’apprentissage
supervisé permettant d’apprendre les features en utilisant la méthode de noyau, et une phase
d’apprentissage non supervisée permettant la sélection de variables.
Les expérimentations reproduites sur la base School data ont montrées que cette méthode permet
d’apprendre une représentation parcimonieuse commune entre les taches. Ce qui améliore les
11
performances de la prédiction contrairement à un apprentissage mono tâche. Un autre point fort
de cette méthode est que le nombre de features appris n’est pas fixe (ou à définir) mais varie
selon le terme de régularisation. La méthode aussi permet de converger vers la solution optimale
globale (son existence est prouvée dans la première section).
Bien que cette méthode soit performante, des difficultés ont été rencontrées lors de la reproduction
des expérimentations en raison de l’absence d’indication sur les variables à passer en paramètres,
et de commentaires concernant le rôle de chaque fonction.
Références
[1] P.K. Srijith and Srijith Shevde. Gaussian Process Multi-task Learning Using Joint Features
Selection. ECML PKDD 2014 France.
[2]B. Bakker and T. Heskes. Task clustering and gating for bayesian multi– task learning.
Journal of Machine Learning Research, 4 :83–99, 2003.
12

Contenu connexe

Tendances

Modelisation non supervisee
Modelisation non superviseeModelisation non supervisee
Modelisation non superviseeminiloka
 
Géométrie différentielle élémentaire pour la physique-Mostafa Bousder
Géométrie différentielle élémentaire pour la physique-Mostafa BousderGéométrie différentielle élémentaire pour la physique-Mostafa Bousder
Géométrie différentielle élémentaire pour la physique-Mostafa BousderMostafa Bousder
 
Plongement de mots :Modèle basé sur les réseaux de neurones
Plongement de mots :Modèle basé sur les réseaux de neuronesPlongement de mots :Modèle basé sur les réseaux de neurones
Plongement de mots :Modèle basé sur les réseaux de neuronesserge sonfack
 
Equations différentielles, DUT MP, CM 2
Equations différentielles, DUT MP, CM 2Equations différentielles, DUT MP, CM 2
Equations différentielles, DUT MP, CM 2Christophe Palermo
 
Hitting time for bessel processes and WOMS algorithm
Hitting time for bessel processes and WOMS algorithmHitting time for bessel processes and WOMS algorithm
Hitting time for bessel processes and WOMS algorithmVictor Bontemps
 
Equations différentielles, DUT MP, CM1
Equations différentielles, DUT MP, CM1Equations différentielles, DUT MP, CM1
Equations différentielles, DUT MP, CM1Christophe Palermo
 
Test d'évaluation math/physique
Test d'évaluation math/physiqueTest d'évaluation math/physique
Test d'évaluation math/physiqueCentre Epsilon
 
Problème De Sac à Dos
Problème De Sac à Dos Problème De Sac à Dos
Problème De Sac à Dos chagra bassem
 
Equations différentielles, DUT MP, CM 4
Equations différentielles, DUT MP, CM 4Equations différentielles, DUT MP, CM 4
Equations différentielles, DUT MP, CM 4Christophe Palermo
 
Fórmulas elementales de derivación
Fórmulas elementales de derivaciónFórmulas elementales de derivación
Fórmulas elementales de derivaciónLuis Castañeda
 
Chapitre 2 complexité
Chapitre 2 complexitéChapitre 2 complexité
Chapitre 2 complexitéSana Aroussi
 
Cours algorithmique et complexite complet
Cours algorithmique et complexite completCours algorithmique et complexite complet
Cours algorithmique et complexite completChahrawoods Dmz
 
Suite exercice
Suite exerciceSuite exercice
Suite exercicehassan1488
 
SUR L'INSTANT DE PREMIER PASSAGE DANS LES RISQUES DYNAMIQUES ACTUARIELS
SUR L'INSTANT DE PREMIER PASSAGE DANS LES RISQUES DYNAMIQUES ACTUARIELSSUR L'INSTANT DE PREMIER PASSAGE DANS LES RISQUES DYNAMIQUES ACTUARIELS
SUR L'INSTANT DE PREMIER PASSAGE DANS LES RISQUES DYNAMIQUES ACTUARIELSMohamed Amine KACEF
 
S3 algebre i (polycopie du cours)
S3 algebre i (polycopie du cours)S3 algebre i (polycopie du cours)
S3 algebre i (polycopie du cours)issa-fariss
 
Chapitre 3 la recherche tabou
Chapitre 3 la recherche tabouChapitre 3 la recherche tabou
Chapitre 3 la recherche tabouAchraf Manaa
 

Tendances (19)

Modelisation non supervisee
Modelisation non superviseeModelisation non supervisee
Modelisation non supervisee
 
Géométrie différentielle élémentaire pour la physique-Mostafa Bousder
Géométrie différentielle élémentaire pour la physique-Mostafa BousderGéométrie différentielle élémentaire pour la physique-Mostafa Bousder
Géométrie différentielle élémentaire pour la physique-Mostafa Bousder
 
Plongement de mots :Modèle basé sur les réseaux de neurones
Plongement de mots :Modèle basé sur les réseaux de neuronesPlongement de mots :Modèle basé sur les réseaux de neurones
Plongement de mots :Modèle basé sur les réseaux de neurones
 
Clustering
ClusteringClustering
Clustering
 
Equations différentielles, DUT MP, CM 2
Equations différentielles, DUT MP, CM 2Equations différentielles, DUT MP, CM 2
Equations différentielles, DUT MP, CM 2
 
Hitting time for bessel processes and WOMS algorithm
Hitting time for bessel processes and WOMS algorithmHitting time for bessel processes and WOMS algorithm
Hitting time for bessel processes and WOMS algorithm
 
Equations différentielles, DUT MP, CM1
Equations différentielles, DUT MP, CM1Equations différentielles, DUT MP, CM1
Equations différentielles, DUT MP, CM1
 
Test d'évaluation math/physique
Test d'évaluation math/physiqueTest d'évaluation math/physique
Test d'évaluation math/physique
 
Problème De Sac à Dos
Problème De Sac à Dos Problème De Sac à Dos
Problème De Sac à Dos
 
Equations différentielles, DUT MP, CM 4
Equations différentielles, DUT MP, CM 4Equations différentielles, DUT MP, CM 4
Equations différentielles, DUT MP, CM 4
 
Chapitre 1 rappel
Chapitre 1 rappelChapitre 1 rappel
Chapitre 1 rappel
 
Alg.3 resolution des_systemes_lineaires
Alg.3 resolution des_systemes_lineairesAlg.3 resolution des_systemes_lineaires
Alg.3 resolution des_systemes_lineaires
 
Fórmulas elementales de derivación
Fórmulas elementales de derivaciónFórmulas elementales de derivación
Fórmulas elementales de derivación
 
Chapitre 2 complexité
Chapitre 2 complexitéChapitre 2 complexité
Chapitre 2 complexité
 
Cours algorithmique et complexite complet
Cours algorithmique et complexite completCours algorithmique et complexite complet
Cours algorithmique et complexite complet
 
Suite exercice
Suite exerciceSuite exercice
Suite exercice
 
SUR L'INSTANT DE PREMIER PASSAGE DANS LES RISQUES DYNAMIQUES ACTUARIELS
SUR L'INSTANT DE PREMIER PASSAGE DANS LES RISQUES DYNAMIQUES ACTUARIELSSUR L'INSTANT DE PREMIER PASSAGE DANS LES RISQUES DYNAMIQUES ACTUARIELS
SUR L'INSTANT DE PREMIER PASSAGE DANS LES RISQUES DYNAMIQUES ACTUARIELS
 
S3 algebre i (polycopie du cours)
S3 algebre i (polycopie du cours)S3 algebre i (polycopie du cours)
S3 algebre i (polycopie du cours)
 
Chapitre 3 la recherche tabou
Chapitre 3 la recherche tabouChapitre 3 la recherche tabou
Chapitre 3 la recherche tabou
 

Similaire à Convex Multi-Task Feature Learning

Etude d'article d'optimisation : Proximal algorithms
Etude d'article d'optimisation : Proximal algorithmsEtude d'article d'optimisation : Proximal algorithms
Etude d'article d'optimisation : Proximal algorithmsKhalilBergaoui
 
optimisation cours.pdf
optimisation cours.pdfoptimisation cours.pdf
optimisation cours.pdfMouloudi1
 
M1_exercices_corriges.pdf
M1_exercices_corriges.pdfM1_exercices_corriges.pdf
M1_exercices_corriges.pdfDurelDonfack
 
Rapport - Partie th‚orique
Rapport - Partie th‚oriqueRapport - Partie th‚orique
Rapport - Partie th‚oriqueBelkacem KAID
 
Chapitre 3 NP-complétude
Chapitre 3 NP-complétudeChapitre 3 NP-complétude
Chapitre 3 NP-complétudeSana Aroussi
 
Omp math nombres-complexes
Omp math nombres-complexesOmp math nombres-complexes
Omp math nombres-complexesAhmed Ali
 
M2 An 1986 20 3 371 0
M2 An 1986  20 3 371 0M2 An 1986  20 3 371 0
M2 An 1986 20 3 371 0guest8b8369
 
Chaitre 3 Fonctions logiques (1).pptx
Chaitre 3 Fonctions logiques (1).pptxChaitre 3 Fonctions logiques (1).pptx
Chaitre 3 Fonctions logiques (1).pptxMohammedJaafari3
 
Cours algorithmique et complexite complet
Cours algorithmique et complexite completCours algorithmique et complexite complet
Cours algorithmique et complexite completChahrawoods Dmz
 
Cours algorithmique et complexite
Cours algorithmique et complexite Cours algorithmique et complexite
Cours algorithmique et complexite Saddem Chikh
 
Cours Math Algèbre SMsssssss1 21-2222fsm.pdf
Cours Math Algèbre SMsssssss1 21-2222fsm.pdfCours Math Algèbre SMsssssss1 21-2222fsm.pdf
Cours Math Algèbre SMsssssss1 21-2222fsm.pdfachrafelbouzidi2
 
slides statistique mathématique.pdf
slides statistique mathématique.pdfslides statistique mathématique.pdf
slides statistique mathématique.pdfFadwaZiani
 
Cours programmation en matlab2 (1)
Cours programmation en matlab2 (1)Cours programmation en matlab2 (1)
Cours programmation en matlab2 (1)Guesmi Amal
 
Intégrations sur des espaces produits
Intégrations sur des espaces produitsIntégrations sur des espaces produits
Intégrations sur des espaces produitsNIDAL SABI
 
01_LES_TENSEURS.pdf
01_LES_TENSEURS.pdf01_LES_TENSEURS.pdf
01_LES_TENSEURS.pdfNSANGOU1
 

Similaire à Convex Multi-Task Feature Learning (20)

Oc1 2013
Oc1 2013Oc1 2013
Oc1 2013
 
10677467.ppt
10677467.ppt10677467.ppt
10677467.ppt
 
Etude d'article d'optimisation : Proximal algorithms
Etude d'article d'optimisation : Proximal algorithmsEtude d'article d'optimisation : Proximal algorithms
Etude d'article d'optimisation : Proximal algorithms
 
optimisation cours.pdf
optimisation cours.pdfoptimisation cours.pdf
optimisation cours.pdf
 
M1_exercices_corriges.pdf
M1_exercices_corriges.pdfM1_exercices_corriges.pdf
M1_exercices_corriges.pdf
 
Théorie des distributions
Théorie des distributionsThéorie des distributions
Théorie des distributions
 
Rapport - Partie th‚orique
Rapport - Partie th‚oriqueRapport - Partie th‚orique
Rapport - Partie th‚orique
 
Chapitre 3 NP-complétude
Chapitre 3 NP-complétudeChapitre 3 NP-complétude
Chapitre 3 NP-complétude
 
Msm1 corr algebre
Msm1 corr algebreMsm1 corr algebre
Msm1 corr algebre
 
Omp math nombres-complexes
Omp math nombres-complexesOmp math nombres-complexes
Omp math nombres-complexes
 
Regression logistque
Regression  logistqueRegression  logistque
Regression logistque
 
M2 An 1986 20 3 371 0
M2 An 1986  20 3 371 0M2 An 1986  20 3 371 0
M2 An 1986 20 3 371 0
 
Chaitre 3 Fonctions logiques (1).pptx
Chaitre 3 Fonctions logiques (1).pptxChaitre 3 Fonctions logiques (1).pptx
Chaitre 3 Fonctions logiques (1).pptx
 
Cours algorithmique et complexite complet
Cours algorithmique et complexite completCours algorithmique et complexite complet
Cours algorithmique et complexite complet
 
Cours algorithmique et complexite
Cours algorithmique et complexite Cours algorithmique et complexite
Cours algorithmique et complexite
 
Cours Math Algèbre SMsssssss1 21-2222fsm.pdf
Cours Math Algèbre SMsssssss1 21-2222fsm.pdfCours Math Algèbre SMsssssss1 21-2222fsm.pdf
Cours Math Algèbre SMsssssss1 21-2222fsm.pdf
 
slides statistique mathématique.pdf
slides statistique mathématique.pdfslides statistique mathématique.pdf
slides statistique mathématique.pdf
 
Cours programmation en matlab2 (1)
Cours programmation en matlab2 (1)Cours programmation en matlab2 (1)
Cours programmation en matlab2 (1)
 
Intégrations sur des espaces produits
Intégrations sur des espaces produitsIntégrations sur des espaces produits
Intégrations sur des espaces produits
 
01_LES_TENSEURS.pdf
01_LES_TENSEURS.pdf01_LES_TENSEURS.pdf
01_LES_TENSEURS.pdf
 

Convex Multi-Task Feature Learning

  • 1. Convex Multi-Task Feature Learning Réalisé par : OUKID Inès BELOUADAH Sakher Master AIC 1
  • 2. 1 Introduction L’apprentissage multitâche est le processus impliquant la résolution de taches d’apprentis- sages multiples reliées par une structure commune afin d’améliorer les performances lors de la généralisation. Une des idées les plus prometteuses dans l’apprentissage multitâche est la sélection de features communs ou un motif parcimonieux est partagé entre les représentations spécifiques des features de toutes les taches. Ce type d’apprentissage considère chaque tâche comme étant une tache indépendante des autres. Cependant, au lieu d’apprendre chacune de ces tâches indépendamment, il les apprend ensemble en les considérants comme étant une seule tache d’apprentissage. Ceci peut être efficace dans le cas où chaque tache d’apprentissage est associée à un ensemble de données limitées et permettant ainsi un partage des données entre les taches et donc une meilleure performance prédictive pour chaque tache individuelle. Cet article propose une approche d’apprentissage multitâche basée sur la sélection des features communs en utilisant une méthode de régularisation appliquée sur la matrice de coefficient.Il porte sur le développement d’une généralisation multi-tâche non-convexe de la régularisation 1-norme mono tâche qui peut être utilisée pour apprendre quelques caractéristiques communes à travers des tâches multiples. Etant donné que le problème proposé est non convexe, l’article parvient à démontrer que celui-ci est équivalent à un problème convexe et par conséquent qu’il peut être résolu en utilisant un algorithme itératif. L’article démontre également que l’algorithme itératif en question converge vers une solution optimale du problème initial qui est non convexe. Pour finir, une nouvelle méthode de généralisation non linéaire est proposée et ce en se basant sur l’utilisation des noyaux. 1.1 Formulation du problème La configuration suivante a été considérée : étant donné un ensemble de T taches d’appren- tissage (classification, régression . . . ) tel que les données ont été prises d’un même espace X x Y, où chaque X est inclus dans Rd et chaque Y dans R. Chaque tache d’apprentissage dispose de m instances (exemples) : {(x1,t, y1,t), (x2,t, y2,t), ....., (xm,t, ym,t)} Ces données sont générées par un ensemble de distributions propres à chaque tache Pt dans X x Y. Et donc les données totales disponibles sont : {{(x1,1, y1,1), ..., (xm,1, ym,1)}...{(x1,T , y1,T ), ..., (xm,T , ym,T )}} Il est supposé que les distributions Pt sont diffèrent entre les taches, mais reliés entre eux. Le but est de : — Construire les T fonctions ; — Découvrir les relations particulières entre les différentes taches : les tâches sont dites reliées si elles partagent un petit ensemble de features. 2
  • 3. 1.1.1 Fonction objective L’hypothèse est représentée par une fonction (1) : ft(x) = ΣN i=1aithi(x) (1) Le but est donc d’apprendre les features h les paramètres ait ainsi que le nombrer de features à partir des données. Pour cela, ils considèrent que les features sont des fonctions linéaires homogènes i.e. de la forme hi(x) = ui, x , avec : ui ∈ Rd (cas étendu en sections suivantes, ou h est un élément d’un espace d’Hilbert à noyaux repro- duisant). Seule supposition : les vecteurs ui sont orthogonaux (produits scalaires nuls). Cette hypo- thèse, va permettre de développer une méthode d’apprentissage convexe dans la section suivante. En posant U matrice contenant les vecteurs ui, la formule (1) peut être écrite sous la forme : ft(x) = Σd i=1ait ui, x = at, UT x 1.1.2 Fonction d’erreur Les taches partageant un nombre réduit de features impliquent que la matrice A possède beaucoup de lignes = à 0. Par conséquent au lieu d’apprendre le nombre de features N directe- ment, un terme régulariseur est introduit permettant de favoriser un nombre réduits de lignes différentes de zéro. En utilisant la méthode du noyau, tel que :K(x, z) =< x, Uz > La fonction d’erreur régula- risée est donc introduite (2) : ε(A, U) = ΣT t=1Σm i=1L(yti, at, UT xti ) + γ A 2 2,1 (2) Où : — Gamma > 0 paramètre de régularisation, — Le premier terme représente la moyenne des erreurs de toutes les taches qui est convexe dans le deuxième argument (le produit scalaire), — Le second terme (régulariseur) pénalise la norme (2,1) de la matrice A. La magnitude des composantes de ce terme-là indique l’important de chaque feature, Si la matrice U est connue et  minimise la fonction convexe ε(., U), alors le nombre de composantes du vecteur b(Â) différents de zéro « b(a) = vecteur contenant les 2-normes des ai correspondant au feature i » n’augmentera pas avec gamma. Cette propriété de parcimonie est plus clair en ne considérant qu’une seule fonction t : 3
  • 4. Σm i=1L(yti, at, UT xti ) + γ at 2 1 (3) Le fait d’utiliser la norme 1 mène à une solution parcimonieuse et donc beaucoup de composantes du vecteur appris at seront à zéro. Par conséquent, le nombre de composantes différents de zéro de la solution du problème est une fonction non-croissante de gamma. Etant donné que le but n’est pas seulement de sélectionner les features mais de les apprendre aussi, on minimise la fonction d’erreur ε par rapport à U. Donc l’apprentissage des features dans le domaine multitâche revient à résoudre le problème d’optimisation suivant : min{ε(A, U) : U ∈ Od , A ∈ Rd×T } (4) Où Od représente l’ensemble des matrices d x d orthogonales. Ce problème d’optimisation (4) permet d’apprendre la représentation en dimension réduite partagée entre les tâches. Cependant, un ensemble de challenges est rencontré lors de sa résolu- tion : — Problème non-convexe bien qu’il soit convexe séparément pour U et pour A. — Le terme régulariseur n’est pas lisse, et donc le problème d’optimisation est plus compliqué à résoudre. Dans ce qui suit, des optima globaux sont trouvés en résolvant des problèmes d’optimisation convexe équivalent. A partir de là, il est supposé que lorsque A = 0 celle-ci ne minimise pas le problème (4), en effet cela n’a aucun intérêt. Remarque : si la matrice U n’est pas apprise et que U est égal à la matrice identité, le problème (4) sélectionne un petit ensemble de variable commun aux tâches. Et dans ce cas on se retrouve avec ce problème d’optimisation convexe : min{ΣT t=1Σm i=1L(yti, at, xti ) + γ A 2 2,1} (5) 1.1.3 Problème d’optimisation convexe équivalent Le problème non-convexe non lisse (4) peut être transformé en un problème équivalent convexe. Pour cela, pour chaque W ∈ Rd×T avec wt comme colonnes, et D ∈ Sd + tel que Sd + définie l’ensemble des matrices d x d symétriques définies positives, la fonction suivante a été définie : R(W, D) = ΣT t=1Σm i=1L(yti, wt, xti ) + γΣT t=1 wt, D+ wt (6) Sous certaines contraintes, cette fonction objective donne lieu à un problème d’optimisation convexe. En outre, bien que le régulariseur de (6) ne soit pas lisse il sera démontré par la suite que la minimisation partielle par rapport à D mène à un algorithme d’optimisation qui converge globalement. 4
  • 5. En se basant sur le théorème 1, le problème (4) est équivalent à minimiser : min{R(W, D) : W ∈ Rd×T , D ∈ Sd +, trace(D) <= 1, range(W) ⊆ range(D)} (7) En particulier, si (Â,Û) est une solution optimale pour (4) alors : (W, D) = (ÛÂ, Û × Diag( ai 2 A 2,1 )d i=1ÛT ) (8) Est une solution optimale pour le problème (7). Ainsi, cela implique que : — R(W, D) >= ε(A, U) — Le minimum de (4) ne dépasse pas la borne inférieure de (7) — Concernant le problème (7), la trace de la matrice D a été bornée (sinon une solution qui est à D = ∞ sera une solution qui minimise la régularisation, cependant cela ne représente pas le cas auquel nous nous intéressons). De manière similaire, une contrainte a été imposée afin que le « terme pénaliseur » soit minoré et éloigné de 0. Sans cette condition il serait possible que DW = 0. 1.2 Algorithme de minimisation alternée Dans cette section, nous présentons l’algorithme permettant de résoudre le problème d’optimi- sation convexe (7) en minimisant alternativement la fonction R par rapport à W et D séparément. En utilisant un paramètre de perturbation , la convergence de (7) vers une solution optimale globale en faisant tendre vers 0 a été prouvée. L’algorithme présenté permet donc de minimiser la fonction R tel que : R (W, D) = ΣT t=1Σm i=1L(yti, wt, xti ) + γtrace(D−1 (WWT + I)) (9) Le terme regularisateur de cette fonction, maintenant D non singulière(inversible), est lisse tel que R a un unique minimiser. Les deux étapes de l’algorithme minimisant R sont les suivantes : 1.2.1 Minimisation par rapport à W D est fixé et la minimisation se fait sur W en résolvant : min{ΣT t=1Σm i=1L(yti, wt, xti ) + γΣT t=1 wt, D−1 wt : W ∈ Rd×T } (10) Avec wt colonne de la matrice W. Cette minimisation peut être réalisée de manière indépendante pour les tâches puisque le régulariseur découple lorsque D est fixé. Plus précisément, l’intro- duction de nouvelles variables pour une D−1/2 wt donne un problème de régularisation 2-norme standard pour chaque tâche avec le même noyau K(x, z) =< x, Dz >, x, z ∈ Rd . 5
  • 6. 1.2.2 Minimisation par rapport à D W est fixée, et R est minimisé par rapport à D. Il s’agit de résoudre le problème : min{ΣT t=1 wt, D−1 wt + trace(D−1 ) : D ∈ Dd ++, trace(D) <= 1} (11) La solution optimale à (11) est : D (W) = (WWT + I)1/2 trace(WWT + I)1/2 (12) Quant à la valeur optimale celle-ci est égale à : : (trace(WWT + I)1/2 )2 L’algorithme 1 est vu comme une alternance entre une étape supervisée et une non-supervisée. — L’étape supervisée : permet d’apprendre les wt spécifique à chaque tâche et ce en utilisant une représentation commune car le D encapsule les features ui par conséquent en fixant D, la représentation est fixée aussi. — L’étape non-supervisée : la fonction de régression est fixée et la représentation commune est apprise. En substituant l’équation (12) avec = 0 dans l’équation (6) pour R, on obtient un problème de régularisation en W : min{ΣT t=1Σm i=1L(yti, wt, xti ) + γ W 2 tr: W ∈ Rd×T } (13) avec : W tr= trace(WWT )1/2 représentant la « trace norm » et peut être exprimée comme étant la somme des valeurs singulières de W. 1.3 Apprentissage des features non-linéaires Dans cette section, il a été considéré que les features sont associées à un noyau et sont donc des fonctions non linéaires de l’input. Les fonctions objectives appartiennent à un espace d’Hilbert à noyau reproduisant. Le but est d’apprendre T fonctions de régression de la forme : ft(x) = at, UT ϕ(x) = wt, ϕ(x) , x ∈ Rd Où ϕ : Rd → RM est un feature map qui en général est non-linéaire avec une Dimension M large. Il est supposé que la fonction Kernel est donnée : k(x, x ) = ϕ(x), ϕ(x ) En remplaçant x par ϕ(x), le problème à minimiser en W revient à : 6
  • 7. min{ΣT t=1Σm i=1L(yti, wt, ϕ(xti) ) + γ W 2 tr: W ∈ Rd×T } (14) Ce problème peut être vu comme une généralisation du problème standard de régularisation 2-norme. Dans le cas ou t=1, la trace norme W tr est égale à w1 2 Dans ce cas la solution optimale w d’un tel problème est dans le span (intersection de tous les sous-espaces contenant cet ensemble) de l’ensemble d’entrainement. w = Σm i=1ciϕ(xi) Ce résultat est connu comme étant le « representer » et est entendu au cas général (14). En utilisant le théorème 4 de l’article, si W est solution optimale au problème (14) alors pour chaque t il existe un vecteur ct tel que : wt = ΣT s=1Σm i=1(ct)siϕ(xsi) (15) Il est possible de récrire l’équation (15) en utilisant la notation matricielle est d’utiliser W comme un multiple de la matrice input Φ ∈ RM×mT et la matrice C ∈ Rmt×T W = ΦC (16) Le théorème (4) appliqué à l’équation (14) permet d’obtenir un problème d’optimisation équi- valent et implique qu’il est possible de restreindre l’ensemble des solutions de l’équation (14) aux matrices W satisfaisant l’équation (16) pour certains C. En posant L = Span{ϕ(xti) : t ∈ NT , i ∈ Nm} et soit δ sa dimension. Afin d’exploiter l’invariance unitaire de la trace norme, la matrice V de dimension M × δ a été considérée telle que ses colonnes forment une base orthogonale de L. l’équation (16) implique qu’il existe une matrice Θ ∈ Rδ×T W = V Θ (17) En substituant l’équation (17) dans l’équation (14) nous obtenons la fonction objective suivante : ΣT t=1Σm i=1L(yti ϑt, V T ϕ(xti) ) + γ Θ 2 tr: Θ ∈ Rδ×T (18) Le problème (14) est donc équivalent à : min{ΣT t=1Σm i=1L(yti ϑt, V T ϕ(xti) ) + γ Θ 2 tr: Θ ∈ Rδ×T } (19) En outre, il y a une correspondance one-to-one entre les solutions optimales de (14) et celles de (19) donnée par (17). Le problème (19) est un problème en variables, et peut être résolu indépendamment de la di- mension M du feature map d’origine. 7
  • 8. 2 Description des données La base de données sur laquelle nous avons fait nos expérimentations est prise à partir de « Inner London Education Authority ». Cette base représente un ensemble de notes d’examens de 15362 étudiants au total répartis sur 139 écoles différentes à Londres durant les années 1985,1986 et 1987. Le nombre d’étudiants dans chaque école varie entre 20 et 150. Afin d’effectuer les différents tests pour un apprentissage multitâche, nous avons considéré chaque école comme étant une tache, et l’ensemble des étudiants appartenant à une école comme l’ensemble des données. Il existe donc 139 taches qui correspondent à la prédiction des performances des étudiants dans chaque école, où chaque tache à un nombre d’exemples différents. 2.1 Description des attributs Les attributs de chaque entrée sont : année d’examen (YR), quatre (4) attributs spécifiques aux informations des différentes écoles et trois (3) attributs spécifiques aux étudiants. Les attributs qui sont constants pour chaque école pour une année donnée sont : le pourcentage d’étudiants bénéficiant de repas gratuits au niveau de l’école, pourcentage d’étudiants ayant les meilleurs résultats dans le test de raisonnement verbal, le type de l’école (SGN) ainsi que la dénomination de l’école (SDN). Les attributs spécifiques aux étudiants sont : le sexe(GEN), le résultat du test de raisonnement verbal (peut prendre trois valeurs : 1,2 et 3) et le groupe ethnique (ETH). 2.2 Prétraitement des données Nous avons tout d’abord remplacé les attributs catégoriques par des valeurs binaires pour chaque valeur possible. Au total, nous obtenons un ensemble de 27 attributs. Par la suite, nous avons effectué dix divisions aléatoires sur l’ensemble des données afin de générer l’ensemble d’apprentissage et l’ensemble de tests. Ces derniers représentent 75% et 25% de la totalité res- pectivement. Nous avons aussi remarqué que le nombre des étudiants diffère d’une école à l’autre. En moyenne, l’ensemble d’apprentissage contient environs 80 étudiants par école et l’ensemble de test contient environs 30 étudiant par école. 3 Implémentation Le code fournis programmé sous Matlab se compose de 6 méthodes différentes, permettant de réaliser le processus d’apprentissage ainsi que la sélection de features dans le contexte multitâche. Ce processus, qui est une généralisation de la régularisation basée sur la norme 1, s’exécute en alternant entre l’apprentissage des fonctions qui sont spécifiques à chaque tache en utilisant l’astuce du noyau, et l’apprentissage d’une représentation parcimonieuse de ces fonctions qui sera commune entre les différentes taches (une représentation dans une dimension plus réduite). Il est donc possible d’effectuer trois méthodes d’exécutions différentes qui sont : 3.0.1 Apprentissage des features Une phase d’apprentissage supervisé : le but de cette fonction est d’apprendre les features communs entre les taches en calculant la valeur optimale de la matrice W qui permet de minimiser 8
  • 9. la fonction objective perturbée Rε où e est définie comme une valeur de tolérance de perturbation passée en entrée. La première étape est de définir la valeur fixée de la matrice D qui initialement est égale à 1/d en utilisant les instructions : D=size(x,1) Vect=ones(1,d)/d Dini=diag(Vect) Ensuite, la valeur de W est mise à jour tant qu’elle converge vers la solution optimale, c’est- à-dire tant que la différence entre les Wt et Wt−1 est supérieur à la valeur d’epsilon (il a été démontré en première section qu’il existe seulement une solution globale optimale). Dans cette méthode, la valeur initiale d’epsilon joue un rôle important dans la convergence de W. Afin d’automatiser le processus et d’obtenir la meilleure valeur de W, nous avons modifié l’algorithme de tel façon à réduire la valeur d’epsilon à une valeur proche de zéro à chaque fois que la matrice W se stabilise au voisinage d’une valeur. Le processus d’optimisation se termine lorsque la valeur d’epsilon est inférieure à 10−16 . 3.0.2 Sélection de variables La phase d’apprentissage non supervisé permet d’apprendre une représentation commune entre les taches. Contrairement à la première méthode, il est nécessaire de fixer la valeur de W, et d’apprendre la valeur de D qui permet de minimiser la fonction objective perturbée. La condition initiale impose que la matrice D soit diagonale. 3.0.3 Méthode d’apprentissages indépendants Dans cette méthode, au lieu d’effectuer un processus d’apprentissage multitâche, le problème est considéré comme étant plusieurs taches de régressions. Dans ce cas, nous effectuons 139 apprentissages indépendants. 3.1 Difficultés Une des difficultés que nous avons rencontrées et le fait que les codes soient fournis sans aucune indication sur leurs contenus ainsi que sur les valeurs des paramètres qu’il fallait passer en entrée. Le manque de commentaires a rendu la tâche de compréhension et d’exécution plus difficile. L’autre difficulté rencontrée est le fait de trouver des datasets répondant aux contraintes imposées par le multi-tâche learning sur lesquelles nous aurions pu faire nos expérimentations. Nous avons opté pour l’utilisation de la base de données « School Data », ou il a été nécessaire de procéder au prétraitement des données ainsi qu’à la division des celles-ci en plusieurs taches en effet nous aurions préféré pouvoir tester sur un autre jeu de données. 9
  • 10. 4 Expérimentations Dans cette partie, nous allons présenter les différents résultats d’expérimentations sur la base de données School Data. Afin de tenir compte des différentes populations de chaque école, nous avons calculé l’erreur de chaque tâche par une méthode de validation croisée, ensuite nous avons normalisé selon les populations d’écoles. Afin de comparer les résultats avec d’autres travaux sur la même base, la mesure de pour- centage dite « explained varience » a été utilisée. Cette mesure est utilisée dans le domaine de l’apprentissage en multitâche et est définie comme étant la proportion de l’erreur quadratique moyenne par rapport à la variance des données comme suit : Explained Variance = 1 − SumSquaredErrors T otalV ariance Une grande valeur est préférée à une petite valeur. La figure ci-dessous montre la comparaison entre les différentes méthodes de l’article avec deux méthodes d’apprentissage multitâche l’une basée sur une approche appelée Gaussian Process[1] et la seconde est basée sur une approche appelée bayésien hiérarchique[2]. La méthode d’appren- tissages « indépendant » consiste à effectuer 139 apprentissages propres à chaque tâche (par conséquent, cela implique d’apprendre les paramètres de régularisation indépendamment). La méthode GPMTFS réfère à la méthode basée sur le Gaussian Process, HBMTL à la mé- thode bayesienne et MTL-FEAT à celle de l’article : Nous remarquons tout d’abord l’existence Figure 1 – Comparaison entre les différents méthode de multitask learning d’une forte variance entre les tâches, cela signifie que celles-ci ne sont pas basées sur un modèle de tache particulier. Nous remarquons que les méthodes implémentées dans l’article MTL-FEAT sont plus perfor- mantes que la méthode basée sur le Gaussian Process, idem pour la méthode d’apprentissages « 10
  • 11. indépendant ». L’utilisation de l’astuce du noyau dans l’apprentissage de features permet d’amé- liorer les résultats. Les résultats obtenus en appliquant la méthode bayésienne hiérarchique semble être meilleurs que ceux de l’article. Cependant, il est difficile de les comparer car la fonction ob- jective utilisée ne peut être comparée directement avec celle de l’article. De plus, la manière dont les données sont divisées n’est pas mentionnée, ce qui peut affecter les résultats. L’autre remarque que nous avons constatée est que les attributs qui affectent la réussite scolaire sont les mêmes et partagés sur toutes les écoles (comme attendu) ceci peut être confirmé en observant la figure ci-dessous qui montre les attributs importants. Les notes d’examens prédites dépendent fortement de l’attribut qui représente le résultat de test du raisonnement verbal. Par contre, aucun des attributs relatifs aux écoles n’as été jugé important. Figure 2 – Features learning sur la base School Finalement, quand le nombre de taches augmente, la performance de MLT-FEAT augmente aussi. De la même manière, quand la valeur de gamma augmente, le motif est plus parcimonieux. 5 Conclusion L’article présente un algorithme permettant d’apprendre une représentation parcimonieuse commune entre plusieurs taches. Ces représentations sont des fonctions orthonormées dans un espace d’Hilbert à noyaux reproduisant. Cette méthode est basée sur une régularisation mixée qui est la norme (2-1). Initialement, le problème d’optimisation non convexe a été ramené à un problème d’optimisation convexe. En présentant un algorithme permettant d’alterner entre une phase d’apprentissage supervisé permettant d’apprendre les features en utilisant la méthode de noyau, et une phase d’apprentissage non supervisée permettant la sélection de variables. Les expérimentations reproduites sur la base School data ont montrées que cette méthode permet d’apprendre une représentation parcimonieuse commune entre les taches. Ce qui améliore les 11
  • 12. performances de la prédiction contrairement à un apprentissage mono tâche. Un autre point fort de cette méthode est que le nombre de features appris n’est pas fixe (ou à définir) mais varie selon le terme de régularisation. La méthode aussi permet de converger vers la solution optimale globale (son existence est prouvée dans la première section). Bien que cette méthode soit performante, des difficultés ont été rencontrées lors de la reproduction des expérimentations en raison de l’absence d’indication sur les variables à passer en paramètres, et de commentaires concernant le rôle de chaque fonction. Références [1] P.K. Srijith and Srijith Shevde. Gaussian Process Multi-task Learning Using Joint Features Selection. ECML PKDD 2014 France. [2]B. Bakker and T. Heskes. Task clustering and gating for bayesian multi– task learning. Journal of Machine Learning Research, 4 :83–99, 2003. 12