Convex Multi-Task Feature Learning

Convex Multi-Task Feature Learning
Réalisé par :
OUKID Inès
BELOUADAH Sakher
Master AIC
1

1 Introduction
L’apprentissage multitâche est le processus impliquant la résolution de taches d’apprentis-
sages multiples reliées par une structure commune afin d’améliorer les performances lors de la
généralisation. Une des idées les plus prometteuses dans l’apprentissage multitâche est la sélection
de features communs ou un motif parcimonieux est partagé entre les représentations spécifiques
des features de toutes les taches.
Ce type d’apprentissage considère chaque tâche comme étant une tache indépendante des autres.
Cependant, au lieu d’apprendre chacune de ces tâches indépendamment, il les apprend ensemble
en les considérants comme étant une seule tache d’apprentissage. Ceci peut être efficace dans le
cas où chaque tache d’apprentissage est associée à un ensemble de données limitées et permettant
ainsi un partage des données entre les taches et donc une meilleure performance prédictive pour
chaque tache individuelle.
Cet article propose une approche d’apprentissage multitâche basée sur la sélection des features
communs en utilisant une méthode de régularisation appliquée sur la matrice de coefficient.Il
porte sur le développement d’une généralisation multi-tâche non-convexe de la régularisation
1-norme mono tâche qui peut être utilisée pour apprendre quelques caractéristiques communes
à travers des tâches multiples. Etant donné que le problème proposé est non convexe, l’article
parvient à démontrer que celui-ci est équivalent à un problème convexe et par conséquent qu’il
peut être résolu en utilisant un algorithme itératif. L’article démontre également que l’algorithme
itératif en question converge vers une solution optimale du problème initial qui est non convexe.
Pour finir, une nouvelle méthode de généralisation non linéaire est proposée et ce en se basant
sur l’utilisation des noyaux.
1.1 Formulation du problème
La configuration suivante a été considérée : étant donné un ensemble de T taches d’appren-
tissage (classification, régression . . . ) tel que les données ont été prises d’un même espace X x Y,
où chaque X est inclus dans Rd
et chaque Y dans R. Chaque tache d’apprentissage dispose de
m instances (exemples) :
{(x1,t, y1,t), (x2,t, y2,t), ....., (xm,t, ym,t)}
Ces données sont générées par un ensemble de distributions propres à chaque tache Pt dans X x
Y. Et donc les données totales disponibles sont :
{{(x1,1, y1,1), ..., (xm,1, ym,1)}...{(x1,T , y1,T ), ..., (xm,T , ym,T )}}
Il est supposé que les distributions Pt sont diffèrent entre les taches, mais reliés entre eux.
Le but est de :
— Construire les T fonctions ;
— Découvrir les relations particulières entre les différentes taches : les tâches sont dites reliées
si elles partagent un petit ensemble de features.
2

1.1.1 Fonction objective
L’hypothèse est représentée par une fonction (1) :
ft(x) = ΣN
i=1aithi(x) (1)
Le but est donc d’apprendre les features h les paramètres ait ainsi que le nombrer de features
à partir des données.
Pour cela, ils considèrent que les features sont des fonctions linéaires homogènes i.e. de la forme
hi(x) = ui, x , avec : ui ∈ Rd
(cas étendu en sections suivantes, ou h est un élément d’un espace d’Hilbert à noyaux repro-
duisant).
Seule supposition : les vecteurs ui sont orthogonaux (produits scalaires nuls). Cette hypo-
thèse, va permettre de développer une méthode d’apprentissage convexe dans la section suivante.
En posant U matrice contenant les vecteurs ui, la formule (1) peut être écrite sous la forme :
ft(x) = Σd
i=1ait ui, x = at, UT
x
1.1.2 Fonction d’erreur
Les taches partageant un nombre réduit de features impliquent que la matrice A possède
beaucoup de lignes = à 0. Par conséquent au lieu d’apprendre le nombre de features N directe-
ment, un terme régulariseur est introduit permettant de favoriser un nombre réduits de lignes
diﬀérentes de zéro.
En utilisant la méthode du noyau, tel que :K(x, z) =< x, Uz > La fonction d’erreur régula-
risée est donc introduite (2) :
ε(A, U) = ΣT
t=1Σm
i=1L(yti, at, UT
xti ) + γ A 2
2,1 (2)
Où :
— Gamma > 0 paramètre de régularisation,
— Le premier terme représente la moyenne des erreurs de toutes les taches qui est convexe
dans le deuxième argument (le produit scalaire),
— Le second terme (régulariseur) pénalise la norme (2,1) de la matrice A. La magnitude des
composantes de ce terme-là indique l’important de chaque feature,
Si la matrice U est connue et Â minimise la fonction convexe ε(., U), alors le nombre de
composantes du vecteur b(Â) diﬀérents de zéro « b(a) = vecteur contenant les 2-normes des ai
correspondant au feature i » n’augmentera pas avec gamma.
Cette propriété de parcimonie est plus clair en ne considérant qu’une seule fonction t :
3

Σm
i=1L(yti, at, UT
xti ) + γ at
2
1 (3)
Le fait d’utiliser la norme 1 mène à une solution parcimonieuse et donc beaucoup de composantes
du vecteur appris at seront à zéro. Par conséquent, le nombre de composantes différents de zéro
de la solution du problème est une fonction non-croissante de gamma.
Etant donné que le but n’est pas seulement de sélectionner les features mais de les apprendre
aussi, on minimise la fonction d’erreur ε par rapport à U. Donc l’apprentissage des features dans
le domaine multitâche revient à résoudre le problème d’optimisation suivant :
min{ε(A, U) : U ∈ Od
, A ∈ Rd×T
} (4)
Où Od
représente l’ensemble des matrices d x d orthogonales.
Ce problème d’optimisation (4) permet d’apprendre la représentation en dimension réduite
partagée entre les tâches. Cependant, un ensemble de challenges est rencontré lors de sa résolu-
tion :
— Problème non-convexe bien qu’il soit convexe séparément pour U et pour A.
— Le terme régulariseur n’est pas lisse, et donc le problème d’optimisation est plus compliqué
à résoudre.
Dans ce qui suit, des optima globaux sont trouvés en résolvant des problèmes d’optimisation
convexe équivalent. A partir de là, il est supposé que lorsque A = 0 celle-ci ne minimise pas le
problème (4), en effet cela n’a aucun intérêt.
Remarque : si la matrice U n’est pas apprise et que U est égal à la matrice identité, le problème
(4) sélectionne un petit ensemble de variable commun aux tâches. Et dans ce cas on se retrouve
avec ce problème d’optimisation convexe :
min{ΣT
t=1Σm
i=1L(yti, at, xti ) + γ A 2
2,1} (5)
1.1.3 Problème d’optimisation convexe équivalent
Le problème non-convexe non lisse (4) peut être transformé en un problème équivalent
convexe. Pour cela, pour chaque W ∈ Rd×T
avec wt comme colonnes, et D ∈ Sd
+ tel que Sd
+
définie l’ensemble des matrices d x d symétriques définies positives, la fonction suivante a été
définie :
R(W, D) = ΣT
t=1Σm
i=1L(yti, wt, xti ) + γΣT
t=1 wt, D+
wt
(6)
Sous certaines contraintes, cette fonction objective donne lieu à un problème d’optimisation
convexe. En outre, bien que le régulariseur de (6) ne soit pas lisse il sera démontré par la suite
que la minimisation partielle par rapport à D mène à un algorithme d’optimisation qui converge
globalement.
4

En se basant sur le théorème 1, le problème (4) est équivalent à minimiser :
min{R(W, D) : W ∈ Rd×T
, D ∈ Sd
+, trace(D) <= 1, range(W) ⊆ range(D)} (7)
En particulier, si (Â,Û) est une solution optimale pour (4) alors :
(W, D) = (ÛÂ, Û × Diag( ai
2
A 2,1
)d
i=1ÛT
) (8)
Est une solution optimale pour le problème (7). Ainsi, cela implique que :
— R(W, D) >= ε(A, U)
— Le minimum de (4) ne dépasse pas la borne inférieure de (7)
— Concernant le problème (7), la trace de la matrice D a été bornée (sinon une solution
qui est à D = ∞ sera une solution qui minimise la régularisation, cependant cela ne
représente pas le cas auquel nous nous intéressons). De manière similaire, une contrainte
a été imposée afin que le « terme pénaliseur » soit minoré et éloigné de 0. Sans cette
condition il serait possible que DW = 0.
1.2 Algorithme de minimisation alternée
Dans cette section, nous présentons l’algorithme permettant de résoudre le problème d’optimi-
sation convexe (7) en minimisant alternativement la fonction R par rapport à W et D séparément.
En utilisant un paramètre de perturbation , la convergence de (7) vers une solution optimale
globale en faisant tendre vers 0 a été prouvée.
L’algorithme présenté permet donc de minimiser la fonction R tel que :
R (W, D) = ΣT
t=1Σm
i=1L(yti, wt, xti ) + γtrace(D−1
(WWT
+ I))
(9)
Le terme regularisateur de cette fonction, maintenant D non singulière(inversible), est lisse tel
que R a un unique minimiser. Les deux étapes de l’algorithme minimisant R sont les suivantes :
1.2.1 Minimisation par rapport à W
D est fixé et la minimisation se fait sur W en résolvant :
min{ΣT
t=1Σm
i=1L(yti, wt, xti ) + γΣT
t=1 wt, D−1
wt : W ∈ Rd×T
} (10)
Avec wt colonne de la matrice W. Cette minimisation peut être réalisée de manière indépendante
pour les tâches puisque le régulariseur découple lorsque D est fixé. Plus précisément, l’intro-
duction de nouvelles variables pour une D−1/2
wt donne un problème de régularisation 2-norme
standard pour chaque tâche avec le même noyau K(x, z) =< x, Dz >, x, z ∈ Rd
.
5

1.2.2 Minimisation par rapport à D
W est fixée, et R est minimisé par rapport à D. Il s’agit de résoudre le problème :
min{ΣT
t=1 wt, D−1
wt + trace(D−1
) : D ∈ Dd
++, trace(D) <= 1}
(11)
La solution optimale à (11) est :
D (W) = (WWT
+ I)1/2
trace(WWT + I)1/2 (12)
Quant à la valeur optimale celle-ci est égale à : :
(trace(WWT
+ I)1/2
)2
L’algorithme 1 est vu comme une alternance entre une étape supervisée et une non-supervisée.
— L’étape supervisée : permet d’apprendre les wt spécifique à chaque tâche et ce en utilisant
une représentation commune car le D encapsule les features ui par conséquent en fixant
D, la représentation est fixée aussi.
— L’étape non-supervisée : la fonction de régression est fixée et la représentation commune
est apprise.
En substituant l’équation (12) avec = 0 dans l’équation (6) pour R, on obtient un problème
de régularisation en W :
min{ΣT
t=1Σm
i=1L(yti, wt, xti ) + γ W 2
tr: W ∈ Rd×T
} (13)
avec : W tr= trace(WWT
)1/2
représentant la « trace norm » et peut être exprimée comme
étant la somme des valeurs singulières de W.
1.3 Apprentissage des features non-linéaires
Dans cette section, il a été considéré que les features sont associées à un noyau et sont donc
des fonctions non linéaires de l’input.
Les fonctions objectives appartiennent à un espace d’Hilbert à noyau reproduisant. Le but est
d’apprendre T fonctions de régression de la forme :
ft(x) = at, UT
ϕ(x) = wt, ϕ(x) , x ∈ Rd
Où ϕ : Rd
→ RM
est un feature map qui en général est non-linéaire avec une Dimension M large.
Il est supposé que la fonction Kernel est donnée :
k(x, x ) = ϕ(x), ϕ(x )
En remplaçant x par ϕ(x), le problème à minimiser en W revient à :
6

min{ΣT
t=1Σm
i=1L(yti, wt, ϕ(xti) ) + γ W 2
tr: W ∈ Rd×T
} (14)
Ce problème peut être vu comme une généralisation du problème standard de régularisation
2-norme. Dans le cas ou t=1, la trace norme W tr est égale à w1 2
Dans ce cas la solution optimale w d’un tel problème est dans le span (intersection de tous les
sous-espaces contenant cet ensemble) de l’ensemble d’entrainement.
w = Σm
i=1ciϕ(xi)
Ce résultat est connu comme étant le « representer » et est entendu au cas général (14).
En utilisant le théorème 4 de l’article, si W est solution optimale au problème (14) alors pour
chaque t il existe un vecteur ct tel que :
wt = ΣT
s=1Σm
i=1(ct)siϕ(xsi) (15)
Il est possible de récrire l’équation (15) en utilisant la notation matricielle est d’utiliser W
comme un multiple de la matrice input Φ ∈ RM×mT
et la matrice C ∈ Rmt×T
W = ΦC (16)
Le théorème (4) appliqué à l’équation (14) permet d’obtenir un problème d’optimisation équi-
valent et implique qu’il est possible de restreindre l’ensemble des solutions de l’équation (14) aux
matrices W satisfaisant l’équation (16) pour certains C.
En posant L = Span{ϕ(xti) : t ∈ NT , i ∈ Nm} et soit δ sa dimension. Aﬁn d’exploiter
l’invariance unitaire de la trace norme, la matrice V de dimension M × δ a été considérée telle
que ses colonnes forment une base orthogonale de L. l’équation (16) implique qu’il existe une
matrice Θ ∈ Rδ×T
W = V Θ (17)
En substituant l’équation (17) dans l’équation (14) nous obtenons la fonction objective suivante :
ΣT
t=1Σm
i=1L(yti ϑt, V T
ϕ(xti) ) + γ Θ 2
tr: Θ ∈ Rδ×T
(18)
Le problème (14) est donc équivalent à :
min{ΣT
t=1Σm
i=1L(yti ϑt, V T
ϕ(xti) ) + γ Θ 2
tr: Θ ∈ Rδ×T
} (19)
En outre, il y a une correspondance one-to-one entre les solutions optimales de (14) et celles de
(19) donnée par (17).
Le problème (19) est un problème en variables, et peut être résolu indépendamment de la di-
mension M du feature map d’origine.
7

2 Description des données
La base de données sur laquelle nous avons fait nos expérimentations est prise à partir de «
Inner London Education Authority ». Cette base représente un ensemble de notes d’examens de
15362 étudiants au total répartis sur 139 écoles différentes à Londres durant les années 1985,1986
et 1987. Le nombre d’étudiants dans chaque école varie entre 20 et 150. Afin d’effectuer les
différents tests pour un apprentissage multitâche, nous avons considéré chaque école comme étant
une tache, et l’ensemble des étudiants appartenant à une école comme l’ensemble des données.
Il existe donc 139 taches qui correspondent à la prédiction des performances des étudiants dans
chaque école, où chaque tache à un nombre d’exemples différents.
2.1 Description des attributs
Les attributs de chaque entrée sont : année d’examen (YR), quatre (4) attributs spécifiques aux
informations des différentes écoles et trois (3) attributs spécifiques aux étudiants. Les attributs
qui sont constants pour chaque école pour une année donnée sont : le pourcentage d’étudiants
bénéficiant de repas gratuits au niveau de l’école, pourcentage d’étudiants ayant les meilleurs
résultats dans le test de raisonnement verbal, le type de l’école (SGN) ainsi que la dénomination
de l’école (SDN).
Les attributs spécifiques aux étudiants sont : le sexe(GEN), le résultat du test de raisonnement
verbal (peut prendre trois valeurs : 1,2 et 3) et le groupe ethnique (ETH).
2.2 Prétraitement des données
Nous avons tout d’abord remplacé les attributs catégoriques par des valeurs binaires pour
chaque valeur possible. Au total, nous obtenons un ensemble de 27 attributs. Par la suite, nous
avons effectué dix divisions aléatoires sur l’ensemble des données afin de générer l’ensemble
d’apprentissage et l’ensemble de tests. Ces derniers représentent 75% et 25% de la totalité res-
pectivement. Nous avons aussi remarqué que le nombre des étudiants diffère d’une école à l’autre.
En moyenne, l’ensemble d’apprentissage contient environs 80 étudiants par école et l’ensemble
de test contient environs 30 étudiant par école.
3 Implémentation
Le code fournis programmé sous Matlab se compose de 6 méthodes différentes, permettant de
réaliser le processus d’apprentissage ainsi que la sélection de features dans le contexte multitâche.
Ce processus, qui est une généralisation de la régularisation basée sur la norme 1, s’exécute
en alternant entre l’apprentissage des fonctions qui sont spécifiques à chaque tache en utilisant
l’astuce du noyau, et l’apprentissage d’une représentation parcimonieuse de ces fonctions qui sera
commune entre les différentes taches (une représentation dans une dimension plus réduite).
Il est donc possible d’effectuer trois méthodes d’exécutions différentes qui sont :
3.0.1 Apprentissage des features
Une phase d’apprentissage supervisé : le but de cette fonction est d’apprendre les features
communs entre les taches en calculant la valeur optimale de la matrice W qui permet de minimiser
8

la fonction objective perturbée Rε où e est définie comme une valeur de tolérance de perturbation
passée en entrée.
La première étape est de définir la valeur fixée de la matrice D qui initialement est égale à 1/d
en utilisant les instructions :
D=size(x,1)
Vect=ones(1,d)/d
Dini=diag(Vect)
Ensuite, la valeur de W est mise à jour tant qu’elle converge vers la solution optimale, c’est-
à-dire tant que la différence entre les Wt et Wt−1 est supérieur à la valeur d’epsilon (il a été
démontré en première section qu’il existe seulement une solution globale optimale).
Dans cette méthode, la valeur initiale d’epsilon joue un rôle important dans la convergence
de W. Afin d’automatiser le processus et d’obtenir la meilleure valeur de W, nous avons modifié
l’algorithme de tel façon à réduire la valeur d’epsilon à une valeur proche de zéro à chaque fois
que la matrice W se stabilise au voisinage d’une valeur. Le processus d’optimisation se termine
lorsque la valeur d’epsilon est inférieure à 10−16
.
3.0.2 Sélection de variables
La phase d’apprentissage non supervisé permet d’apprendre une représentation commune
entre les taches. Contrairement à la première méthode, il est nécessaire de fixer la valeur de
W, et d’apprendre la valeur de D qui permet de minimiser la fonction objective perturbée. La
condition initiale impose que la matrice D soit diagonale.
3.0.3 Méthode d’apprentissages indépendants
Dans cette méthode, au lieu d’effectuer un processus d’apprentissage multitâche, le problème
est considéré comme étant plusieurs taches de régressions. Dans ce cas, nous effectuons 139
apprentissages indépendants.
3.1 Difficultés
Une des difficultés que nous avons rencontrées et le fait que les codes soient fournis sans
aucune indication sur leurs contenus ainsi que sur les valeurs des paramètres qu’il fallait passer
en entrée. Le manque de commentaires a rendu la tâche de compréhension et d’exécution plus
difficile.
L’autre difficulté rencontrée est le fait de trouver des datasets répondant aux contraintes
imposées par le multi-tâche learning sur lesquelles nous aurions pu faire nos expérimentations.
Nous avons opté pour l’utilisation de la base de données « School Data », ou il a été nécessaire
de procéder au prétraitement des données ainsi qu’à la division des celles-ci en plusieurs taches
en effet nous aurions préféré pouvoir tester sur un autre jeu de données.
9

4 Expérimentations
Dans cette partie, nous allons présenter les différents résultats d’expérimentations sur la base
de données School Data.
Afin de tenir compte des différentes populations de chaque école, nous avons calculé l’erreur
de chaque tâche par une méthode de validation croisée, ensuite nous avons normalisé selon les
populations d’écoles.
Afin de comparer les résultats avec d’autres travaux sur la même base, la mesure de pour-
centage dite « explained varience » a été utilisée. Cette mesure est utilisée dans le domaine de
l’apprentissage en multitâche et est définie comme étant la proportion de l’erreur quadratique
moyenne par rapport à la variance des données comme suit :
Explained Variance = 1 − SumSquaredErrors
T otalV ariance
Une grande valeur est préférée à une petite valeur.
La figure ci-dessous montre la comparaison entre les différentes méthodes de l’article avec deux
méthodes d’apprentissage multitâche l’une basée sur une approche appelée Gaussian Process[1]
et la seconde est basée sur une approche appelée bayésien hiérarchique[2]. La méthode d’appren-
tissages « indépendant » consiste à effectuer 139 apprentissages propres à chaque tâche (par
conséquent, cela implique d’apprendre les paramètres de régularisation indépendamment).
La méthode GPMTFS réfère à la méthode basée sur le Gaussian Process, HBMTL à la mé-
thode bayesienne et MTL-FEAT à celle de l’article : Nous remarquons tout d’abord l’existence
Figure 1 – Comparaison entre les différents méthode de multitask learning
d’une forte variance entre les tâches, cela signifie que celles-ci ne sont pas basées sur un modèle
de tache particulier.
Nous remarquons que les méthodes implémentées dans l’article MTL-FEAT sont plus perfor-
mantes que la méthode basée sur le Gaussian Process, idem pour la méthode d’apprentissages «
10

indépendant ». L’utilisation de l’astuce du noyau dans l’apprentissage de features permet d’amé-
liorer les résultats. Les résultats obtenus en appliquant la méthode bayésienne hiérarchique semble
être meilleurs que ceux de l’article. Cependant, il est difficile de les comparer car la fonction ob-
jective utilisée ne peut être comparée directement avec celle de l’article. De plus, la manière dont
les données sont divisées n’est pas mentionnée, ce qui peut affecter les résultats.
L’autre remarque que nous avons constatée est que les attributs qui affectent la réussite scolaire
sont les mêmes et partagés sur toutes les écoles (comme attendu) ceci peut être confirmé en
observant la figure ci-dessous qui montre les attributs importants. Les notes d’examens prédites
dépendent fortement de l’attribut qui représente le résultat de test du raisonnement verbal. Par
contre, aucun des attributs relatifs aux écoles n’as été jugé important.
Figure 2 – Features learning sur la base School
Finalement, quand le nombre de taches augmente, la performance de MLT-FEAT augmente
aussi. De la même manière, quand la valeur de gamma augmente, le motif est plus parcimonieux.
5 Conclusion
L’article présente un algorithme permettant d’apprendre une représentation parcimonieuse
commune entre plusieurs taches. Ces représentations sont des fonctions orthonormées dans un
espace d’Hilbert à noyaux reproduisant. Cette méthode est basée sur une régularisation mixée
qui est la norme (2-1).
Initialement, le problème d’optimisation non convexe a été ramené à un problème d’optimisation
convexe. En présentant un algorithme permettant d’alterner entre une phase d’apprentissage
supervisé permettant d’apprendre les features en utilisant la méthode de noyau, et une phase
d’apprentissage non supervisée permettant la sélection de variables.
Les expérimentations reproduites sur la base School data ont montrées que cette méthode permet
d’apprendre une représentation parcimonieuse commune entre les taches. Ce qui améliore les
11

performances de la prédiction contrairement à un apprentissage mono tâche. Un autre point fort
de cette méthode est que le nombre de features appris n’est pas fixe (ou à définir) mais varie
selon le terme de régularisation. La méthode aussi permet de converger vers la solution optimale
globale (son existence est prouvée dans la première section).
Bien que cette méthode soit performante, des difficultés ont été rencontrées lors de la reproduction
des expérimentations en raison de l’absence d’indication sur les variables à passer en paramètres,
et de commentaires concernant le rôle de chaque fonction.
Références
[1] P.K. Srijith and Srijith Shevde. Gaussian Process Multi-task Learning Using Joint Features
Selection. ECML PKDD 2014 France.
[2]B. Bakker and T. Heskes. Task clustering and gating for bayesian multi– task learning.
Journal of Machine Learning Research, 4 :83–99, 2003.
12

Convex Multi-Task Feature Learning

Recommandé

Recommandé

Contenu connexe

Tendances

Tendances (19)

Similaire à Convex Multi-Task Feature Learning

Similaire à Convex Multi-Task Feature Learning (20)

Convex Multi-Task Feature Learning