Movie Recommendation system

000
001
002
003
004
005
006
007
008
009
010
011
012
013
014
015
016
017
018
019
020
021
022
023
024
025
026
027
028
029
030
031
032
033
034
035
036
037
038
039
040
041
042
043
044
045
046
047
048
049
050
051
052
053
054
055
056
057
058
059
060
061
062
063
064
065
066
067
068
069
070
071
072
073
074
075
076
077
078
079
080
081
082
083
084
085
086
087
088
089
090
091
092
093
094
095
096
097
098
099
100
101
102
103
104
105
106
107
108
109
Movie Recommendation system
by OUKID Inès and BELOUADAH Sakher
Abstract
Les systèmes de recommandation dans le com-
merce électroniques deviennent de plus en plus
importants en raison du grand nombre de
choix que les consommateurs confrontent. En
générale, les systèmes de recommandation pren-
nent d’abord un ensemble d’entrées, qui pour-
rait représenter les profils d’utilisateurs, un en-
semble d’articles notés, etc., puis identifient les
analogies entre les entrées et passent les paires
similaires pour la prédiction. Parmi les tech-
niques utilisées dans la construction des systèmes
de recommandation, le filtrage collaboratif est
l’une des approches les plus prometteuses. Dans
ce rapport, nous aborderons les défis de la con-
struction d’un système de recommandation ef-
ficace et utile à partir d’un grand ensemble de
données, par la suite nous discuterons de notre
approche d’identification des voisins ainsi que
nos méthodes de prédiction. Nous présenterons
également les résultats de notre expérience en
évaluant la précision de nos algorithmes.
1. Introduction
La quantité d’informations générée par Internet évolue si
rapidement que les Internautes se sentent vite dépassés.
Cela représente un problème majeur pour le commerce
électronique, car les acheteurs en ligne ne peuvent tout sim-
plement pas explorer et comparer l’ensemble des produits
proposés. C’est précisément dans ce contexte et dans le
but de résoudre ce problème que les systèmes de recom-
mandation ont été introduits. Différentes approches ont
donc été proposé parmi ces techniques existantes, le filtrage
collaboratif est l’une des approches les plus prometteuses
permettant ainsi de construire des systèmes de recomman-
dation. Le filtrage collaboratif recueille les préférences
de l’utilisateur pour des articles, recherche un ensemble
d’utilisateurs voisins ayant les mêmes préférences et par la
suite déduit la note (ou l’appréciation) d’un article donné
Preliminary work. Under review by the International Conference
on Machine Learning (ICML). Do not distribute.
en se basant sur les informations collectées. Le principe
fondamental de ces systèmes est de recommander les pro-
duits ayants les meilleurs notes à l’utilisateur en question.
Les systèmes de recommandation sont particulièrement
utiles lorsque les magasins en ligne vendent et proposent un
grand nombre de produits appartenant au même domaine
(musique, films, livres...etc.). La recommandation est
basée sur les produits déjà notés par d’autres utilisateurs.
Un système de recommandation utile génère également des
prédictions précises. Nous allons expliquer ces défis plus
en détails dans les sections qui suivent.
Dans ce rapport, nous nous intéressons aux méthodes de
collaboration, en particulier les méthodes de recommanda-
tion basés item-item et user-item.
1.1. Défis
Le premier défi des systèmes de recommandation col-
laboratif est d’identifier les voisins et ce d’une manière
efficace. Ayant un nombre important d’utilisateurs et
d’articles (dans notre cas, films), le temps nécessaire
pour la recommandation doit être minime dans le cas
d’une génération en temps réel. Le processus de calcule
de recommandation se fait en deux étapes. La première
étape consiste à identifier les voisins des articles que nous
essayons de recommander. Dans cette étape le système
doit d’abord effectuer une recherche à travers des milliers
d’articles et doit calculer les similarités entre les articles
candidats et l’article cible. Une fois que le calcul des
similarités est effectué, l’étape suivante représente l’étape
de prédiction qui se base sur les similarités obtenues lors
de l’étape 1. La prédiction étant obtenue, le système
recommandera des articles à l’utilisateur selon un seuil de
similarité donné.
Le deuxième défi est de calculer la note et ce avec
précision. Avant d’effectuer la prédiction, il est donc
nécessaire de collecter des informations à partir des
voisins. Cependant, ce calcul de similarité entre les articles
est une tâche difficile qui représente ici un des challenges
de la recommandation d’articles.
Nous présentons dans ce rapport deux approches efficaces
de recommandation, tout en détaillant les différentes
méthodes utilisées lors de l’implémentation permettant de
surpasser les problématiques mentionnées précédemment.

110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
2. État de l’art
Le problème de recommandation d’items dans certaines
bases de données ”fixes” a été largement étudié, et deux
paradigmes principaux ont émergé. Dans le ”content-based
recommandation” on essaie de recommander des articles
similaires à ceux qu’un utilisateur donné a aimés par le
passé, alors que dans la recommandation collaborative, on
identifie les utilisateurs dont les goûts sont similaires à ceux
de l’utilisateur donné, par la suite le système recommande
les articles qu’ils ont aimés.
Les systèmes mettant en œuvre les approches de recom-
mandation basées sur le contenu consistent à analyser un
ensemble de documents ou de descriptions d’éléments et de
construire un modèle ou un profil représentatif des intérêts
des utilisateurs sur la base de caractéristiques d’articles
précédemment notés par un utilisateur.
Le profil est une représentation structurée des intérêts
des utilisateurs, utilisé pour recommander de nouveaux
éléments intéressants. Le processus de recommandation
consiste donc essentiellement à faire correspondre les at-
tributs du profil de l’utilisateur aux attributs d’un article. Le
résultat est un jugement pertinent qui représente le niveau
d’intérêt de l’utilisateur pour cet article. L’objectif est donc
alors de cerner et de comprendre les motivations ayant con-
duit l’utilisateur à juger comme pertinent ou non un item
donné.
Cependant, le ”content-based” montre certains limites.
Parmi ces inconvénients nous citerons:
• Analyse limitée du contenu: si le contenu ne contient
pas suffisamment d’informations pour discriminer les
éléments de manière précise, la recommandation ne
sera pas efficace à la fin.
• Les méthodes basées sur le contenu fournissent un
degré de ”nouveauté” assez limité, car le but est de
faire correspondre les caractéristiques des profils avec
celles des items. Par conséquent le ”content-based fil-
tering” quasi parfait ne suggère rien de ”surprenant.”
• Nouvel utilisateur: quand il n’y a pas suffisamment
d’informations pour établir un profil solide pour un
utilisateur, la recommandation ne peut être fournie de
manière correcte.
C’est pour ces raisons que nous avons opté pour
l’implémentation des méthodes de recommandation
collaboratives.
Les systèmes de recommandation basés sur le filtrage col-
laborative est un sujet bien étudié. Ces systèmes essayent
de prédire les notes de certains articles pour un utilisateur
cible en se basant sur les articles déjà notés par d’autres
utilisateurs [1] et ce en utilisant une mesure de similarité
bien définie. LikeMinds [2] est une des applications
les plus populaires qui utilise le filtrage collaborative.
L’algorithme utilisé prend en entrée un utilisateur cible
ainsi qu’un ensemble d’utilisateurs candidats, et calcule
la similarité en se basant sur la différence entre les notes
données par l’utilisateur cible, et celles des candidats.
Le candidat ayant le score de similarité le plus haut est
considéré comme étant un mentor pour l’utilisateur cible.
Les notes de ce dernier sont par la suite calculées en se
basant sur les notes du mentor.
3. Problème de parcimonie
Un problème de complexité se pose en raison du nom-
bre important de notes que le système doit traiter. Cepen-
dant, pour la plupart des systèmes de recommandations, le
fait d’avoir peu de notes représente un problème de plus
grande importance. Ce problème se pose lorsqu’un nom-
bre conséquent d’articles est proposé. En effet, proportion-
nellement à la taille du stock disponible, un nombre réduit
d’articles est évalué et ce par un nombre réduit d’utilisateur.
Par conséquent seul un pourcentage faible de la totalité des
articles est noté. Dans cette situation, il est difficile de trou-
ver des utilisateurs qui partagent les mêmes articles. Ce
phénomène est plus connu sous le nom de problème de
parcimonie. Par conséquent différentes solutions ont donc
été proposées afin d’y remédier. Parmi elles on retrouve :
• Description du contenu : Le descriptif des articles per-
met d’augmenter la quantité d’information de manière
générale, mais en particulier celle que les utilisa-
teurs ont en commun. Cependant, l’utilisation des
méthodes collaboratives ont montré leur efficacité par
rapport aux méthodes basées sur le contenu.
• Évaluations implicites : Certains systèmes essaient
d’augmenter le nombre d’évaluations d’un utilisa-
teur en se basant sur son comportement. Cependant,
l’utilisateur doit impérativement explorer l’article
avant que le système puisse en déduire la note.
• Réduction de la dimension : En réduisant la dimen-
sion de l’espace d’information, les notes de deux util-
isateurs peuvent être utilisées pour les prédictions,
même s’ils ne partagent pas les mêmes articles. Paz-
zani et Billsus [3] ont proposé une méthode de
prédiction basée sur l’utilisation des réseaux de neu-
rones au lieu de la corrélation, où les notes des utilisa-
teurs sont représentées par des matrices booléennes.
Ces matrices sont par la suite projetées dans un es-
pace de dimension réduite en utilisant l’indexation
sémantique latente. Cette approche bien qu’elle soit
efficace fait face à un problème important qui est la
complexité computationnel.

220
221
222
223
224
225
226
227
228
229
230
231
232
233
234
235
236
237
238
239
240
241
242
243
244
245
246
247
248
249
250
251
252
253
254
255
256
257
258
259
260
261
262
263
264
265
266
267
268
269
270
271
272
273
274
275
276
277
278
279
280
281
282
283
284
285
286
287
288
289
290
291
292
293
294
295
296
297
298
299
300
301
302
303
304
305
306
307
308
309
310
311
312
313
314
315
316
317
318
319
320
321
322
323
324
325
326
327
328
329
4. Basline
Nous présentons tout d’abord les méthodes de prédiction
de base. Ces méthodes sont utiles pour établir des base-
lines non personnalisées contre lequel des algorithmes per-
sonnalisés peuvent être comparés. Les algorithmes de base
ne dépendent pas des notes des utilisateurs et peuvent être
utiles pour fournir des prédictions concernant de nouveaux
utilisateurs. Nous notons une prédiction de base d’un util-
isateur u et un article i par bu,i. L’algorithme de base le
plus simple est de prédire la note moyenne parmi toutes les
évaluations dans le système : bu,i = m ( où m est la note
moyenne globale ). Ceci peut être amélioré en prédisant
la note moyenne attribuée par l’utilisateur bu,i = ru ,
pour cet article bu,i = ri. Cette baseline peut être encore
améliorée en combinant la moyenne de l’utilisateur avec
l’écart moyen de la moyenne des notes que l’utilisateur a
attribué à un article spécifique. En général, une baseline de
la forme suivante peut être utilisée:
bu,i = m + bu + bi
Où bu, bi sont les prédicteurs de base des utilisateurs et
d’articles respectivement. Ces prédicteurs peuvent être
définis en utilisant simplement la moyenne des décalages
(offsets) de la façon suivante:
bu = 1
|Iu| ΣiεIu (ru,i − m)
bi = 1
|Ui| ΣuεUi
(ru,i − bu − m)
Cette baseline peut encore être améliorée et ce en four-
nissant une estimation plus raisonnable des préférences des
utilisateurs face à un échantillonnage parcimonieux. Cela
est fait en introduisant les deux variables βu et βi [4]:
bu = 1
|Iu|+βu
ΣiεIu
(ru,i − m)
bi = 1
|Ui|+βi
ΣuεUi
(ru,i − bu − m)
Cet ajustement permet d’avoir une note proche de la
note moyenne globale lorsqu’un utilisateur n’a noté que
quelques articles, ou si un article n’a pas été noté par
plusieurs utilisateurs. Notre choix s’est porté sur cette
baseline en raison de son efficacité [4].
5. Calcul de la similarité
Le filtrage collaborative est basé essentiellement sur la
mesure de la similarité, d’où l’importance d’utiliser un
algorithme efficace. Différentes méthodes sont utilisées
et permettent de calculer généralement la distance ou la
corrélation entre 2 vecteurs.
5.1. Distance de Manhattan:
La distace de Manhattan est l’une des méthodes les plus
simples pour mesurer la distance entre deux points associée
à la norme1. Ayant deux point x et y, la distance entre les
deux est définie par:
d(x, y) = Σn
k=1 | xk − yk |
5.2. Distance Euclidienne
Plus intuitive que la distance de Manhattan, la dis-
tance euclidienne est considérée comme étant la distance
géométrique dans un espace multidimensionnel. Elle est
calculée en utilisant la formule :
d(x, y) = Σn
k=1(xk − yk)2
5.3. Pearson Correlation Coefficient PCC
Ce coefficient est plus complexe que la distance euclidi-
enne et la distance Manhattan mais obtient généralement
de meilleurs résultats avec des données non normalisées.
C’est le cas par exemple lorsque nous avons des utilisateurs
qui donnent seulement des mauvaises notes et d’autres qui
ne donnent que des bonnes notes. La PCC mesure le nom-
bre de fois ou deux variables changent ensemble divisé par
le produit du nombre de fois où celles-ci changent individu-
ellement. Plus les variables changent ”ensembles” par rap-
port à la façon dont elles changent individuellement, plus
elles sont corrélées.
pearson(x, y) =
Σn
k=1(xk−¯x)(yk−¯y)
√
Σn
k=1
(xk−¯x)2Σn
k=1
(xy−¯y)2
5.4. Cosinus
La similarité cosinus (ou mesure cosinus) permet de cal-
culer la similarité entre deux vecteurs à n dimensions en
déterminant le cosinus de l’angle entre eux. La formule
utilisée est :
cos(Θ) = x.y
x ∗ y
Dans notre cas, nous avons opté pour l’utilisation de la
mesure PCC afin de calculer la similarité entre les articles.
6. Approches implémentées
Le but de ce projet est d’implémenter deux méthodes basée
recommandation collaborative. Dans ce rapport de mi-
parcours les filtrages basés item-item et item-user ont été
implémenté et sont présentés dans ce qui suit :

330
331
332
333
334
335
336
337
338
339
340
341
342
343
344
345
346
347
348
349
350
351
352
353
354
355
356
357
358
359
360
361
362
363
364
365
366
367
368
369
370
371
372
373
374
375
376
377
378
379
380
381
382
383
384
385
386
387
388
389
390
391
392
393
394
395
396
397
398
399
400
401
402
403
404
405
406
407
408
409
410
411
412
413
414
415
416
417
418
419
420
421
422
423
424
425
426
427
428
429
430
431
432
433
434
435
436
437
438
439
6.1. Memory-Based Collaborative Filtering(item-item)
Cette approche peut être décrite par : ”les utilisateurs qui
ont aimé ce produit, ont aussi aimé ...” Le principe est
de prendre en entrée un ensemble d’articles (films par ex-
emple), d’attribuer pour chaque article un vecteur de car-
actéristiques puis de calculer le nombre de fois où chaque
article est proche ou éloigné des autres articles et ce en se
basant sur les descripteurs. Ainsi, les articles sont jugés
proches en fonction de cette similaire.
6.1.1. IDENTIFICATION DES VOISINS
Notre but est de savoir à quel point deux articles sont sim-
ilaires. L’idée est donc, pour chaque paire de films (arti-
cles) A et B, d’extraire l’ensemble des utilisateurs qui ont
noté A et B, de construire deux vecteurs à partir des notes
correspondant à A et B respectivement puis de calculer la
corrélation entre ces deux vecteurs selon l’algorithme ci-
dessous :
Algorithm 1 Identification des voisins (item-item)
Entrées: Films F, Utilisateurs U, Notes NF U
Sortie: Matrice de corrélation
Pour chaque deux films A et B dans F:
uA,uB=ExtraireUtilisateurs (A,B)
communs=Intersect(uA,uB)
dA,dB=Descripteurs(communs,uA,uB)
correlation(A,B)=Pearson(dA,dB)
Fin Pour
Ce type de systèmes est très efficace pour trouver des arti-
cles qui sont similaires à ceux que l’utilisateur aime. Dans
le cas réel, les utilisateurs ne noteront pas tous les articles
par conséquent on retrouve le problème de parcimonie. La
solution proposée est d’extraire la liste des utilisateurs qui
ont noté l’article A, et celle des utilisateurs qui ont noté
l’article B, ensuite de trouver l’intersection entre les deux
i.e. ”les utilisateurs qui ont noté les deux articles”. En
utilisant ces informations, on construit les descripteurs des
deux articles qui sont représentés par deux vecteurs con-
tenant les notes des utilisateurs communs pour chaque arti-
cle. L’étape finale est donc d’identifier les voisins en util-
isant la mesure de similarité PCC.
Les valeurs retournées par PCC varient entre -1 et 1, où
PCC(A,B) plus grand que zéro signifie que les deux arti-
cles ont une corrélation positive et donc qu’ils sont simi-
laires. L’article A est jugé comme étant un bon voisin de
B selon la valeur de PCC qui est à maximiser. Cependant,
le temps de calcul de PCC est important car pour chaque
paire d’articles, le système a besoin d’abord de trouver
l’intersection entre uA et uB, de calculer les moyennes, et
puis de calculer le coefficient de corrélation de Pearson.
Pour remédier à cela, nous utilisons une formule simplifiée
afin d’éviter de calculer les moyennes pour chaque paire.
Qui est :
PCC(x, y) =
ΣN
k=1xkyk
ΣN
k=1
xkΣN
k=1
yk
N
(ΣN
k=1
x2
k
−
(ΣN
k=1
xk)2
N )(ΣN
k=1
y2
k
−
(ΣN
k=1
yk)2
N )
6.1.2. PR ÉDICTION
Une fois l’identification des voisins effectuée, il est
nécessaire de procéder à l’étape suivante qui consiste à
utiliser les mesures de similarités calculées entre chaque
paire pour la prédiction. Ayant un utilisateur qui a noté un
article A et n’a jamais rencontré l’article B, nous utilisons
le calcul collaboratif précédent afin de prédire la possibilité
que cet utilisateur apprécie ou non le deuxième article et ce
en fonction de la mesure de corrélation entre les deux arti-
cles.
L’étape la plus importante dans les méthodes de collabora-
tion est la génération des sorties en termes de prédictions.
Une fois que nous avons identifié l’ensemble des items sim-
ilaires en utilisant les mesures de similarité, l’étape suiv-
ante est d’utiliser une technique permettant d’obtenir les
prédictions d’un utilisateur cible à partir de l’ensemble des
notes que ce dernier a attribué aux autres items. Pour cela,
deux techniques peuvent être utilisées qui sont:
a. La somme pondérée:
Comme son nom l’indique, cette méthode permet la
prédiction de la note attribuée par l’utilisateur u à un item
i et ceci en calculant la somme des notes attribuées par
l’utilisateur aux items similaires à l’item i. Chaque note
est pondérée par la similarité correspondante si,j entre les
deux items i et j. Formellement, Nous pouvons écrire la
prédiction Pi,u comme suit:
Pi,u =
Σall similar items,N (si,N ,Ru,N )
Σall similar items,N (|si,N |)
Autrement dit, cette approches permet de prédire comment
l’utilisateur cible peut noter les items similaires. La somme
pondérée est ajustée par la somme des termes de similarité
afin d’assurer que la note prédite appartient à la plage des
valeurs prédéfinie.
b. La régression :
Cette approche est similaire à l’approche de la somme
pondérée. Cependant, au lieu d’utiliser directement les
notes des items similaires, elle utilise une approximation
des notes en se basant sur un modèle de régression. En
pratique, les similarités calculé en utilisant la mesure cosi-
nus ou les mesures de corrélations sont parfois trompeuses
dans le sens où deux vecteurs de notes peuvent être dis-
tants (dans le sens euclidien) cependant peuvent avoir une
grande similarité. Dans ce cas, en utilisant les notes brutes
de ces items peut conduire à une mauvaise prédiction.
L’idée de base est d’utiliser la même formule de la tech-

440
441
442
443
444
445
446
447
448
449
450
451
452
453
454
455
456
457
458
459
460
461
462
463
464
465
466
467
468
469
470
471
472
473
474
475
476
477
478
479
480
481
482
483
484
485
486
487
488
489
490
491
492
493
494
495
496
497
498
499
500
501
502
503
504
505
506
507
508
509
510
511
512
513
514
515
516
517
518
519
520
521
522
523
524
525
526
527
528
529
530
531
532
533
534
535
536
537
538
539
540
541
542
543
544
545
546
547
548
549
nique précédente, mais au lieu d’utiliser les notes brutes
Ru,N de l’item similaire N, cette approches utilise leurs
approximation Ru,N en se basant sur un modèle linéaire.
Si nous notons les vecteurs respectifs de l’item cible i et
l’item similaire N par Ri et RN , le modèle de régression
linaire peut être formulé comme suit :
RN = αRi + β +
Les paramètres de la régression linaire α et β sont à
déterminer à partir des deux vecteurs de notes. est l’erreur
du modèle de régression.
Nous avons opté pour l’utilisation de la deuxième méthode
qui permet de palier aux problèmes qui peuvent avoir lieux
en utilisant la mesure de similarité PCC.
6.1.3. PREMI ÈRES EXP ÉRIMENTATIONS
Les données sur lesquelles nous avons lancé nos algo-
rithmes sont extraites d’une compétition Kaggle [4]. Cette
base contient un ensemble de films choisit aléatoirement
et noté par un ensemble d’utilisateurs. Ces notes varient
entre 0 et 5. Chaque instance dans la base est représentée
par un triplé (userid, movieid, rating) où le nombre total
d’instances est 4 000 056, ce qui représente seulement 2%
des notes possibles.
Nous commençons tout d’abord par identifier les films les
plus notés en les affichant par ordre décroissant, cela nous
permet d’avoir une idée sur les articles qui peuvent nous
apporter des informations utiles. Le tableau ci-dessous
représente les cinq premiers articles les plus notés :
Table 1. Les films les plus populaires
FILM NOMBRE DES NOTES
AMERICAN BEAUTY 1684
STAR WARS: EPISODE V 1585
STAR WARS: EPISODE IV 1573
BACK TO THE FUTURE 1396
THE MATRIX 1373
De la même manière, nous poursuivons par l’extraction des
identifiants des utilisateurs les plus actifs (ayants attribuer
le plus des notes). Ces derniers sont les utilisateurs qui
peuvent nous apporter le maximum de gain d’informations
sur les films.
Table 2. Les utilisateurs les plus actifs
ID DE L’UTILISATEUR NOMBRE FILMS NOT ÉS
3618 1344
5795 1272
4344 1271
4510 1240
4227 1222
Prenons par exemple les deux films : ”The Empire Strikes
Back” (1980) et ”Return of the Jedi” (1983). Afin de
mesurer leur corrélation, nous procédons par l’extraction
des utilisateurs ayants noté ces derniers. Nous remarquons
que parmi les utilisateurs, 1167 utilisateurs ont noté les
deux films. Dans ce cas, chaque film sera décrit par un
vecteur de dimension égale à 1167, ou chaque élément i
représente une note attribué par un utilisateur i. Ainsi, La
corrélation calculée ente les deux films est égale à 0.73 ce
qui indique qu’ils sont similaires.
Nous étendons notre système afin de calculer la similarité
entre chaque paire de films dans notre base. Le tableau ci-
dessous représente les cinq premiers résultats de calcule de
corrélation entre les films :
Table 3. Les films les plus similaires
FILM A FILM B CORR ÉLATION
RET. OF THE JEDI EMP. STRIKES BACK 0.787
STAR TREK STAR TREK III 0.758
STAR TREK STAR TREK V 0.720
STAR WARS RET. OF THE JEDI 0.687
STAR TREK VI STAR TREK III 0.635
Ces mesures de corrélation nous permettent d’avoir plus
d’information sur les films. Par exemple, les utilisateurs qui
ont aimé Return of the Jedi vont aussi aimer Empire Strikes
back et vice versa, les utilisateurs qui n’ont pas donné de
bonne notes au premier film, vont donner une mauvaise
note au second.
Nous avons aussi remarqué que bien que les deux séries
StarWars et StarTrek appartiennent à la même catégorie,
la mesure de similarité entre les deux est faible ( 0.08
entre Star Trek V et Empire Strikes back par exemple).
Cela implique que l’utilisation des méthodes collaboratives
nous permet d’exploiter d’autres caractéristiques permet-
tant d’avoir des informations plus pertinentes sur les arti-
cles qu’en se basant uniquement sur le contenu des films
par exemple. En effet, visiblement les utilisateurs ayant
aimé StarWars ne recommanderaient pas les StarTrek
Il est donc possible de recommander des films aux utilisa-

550
551
552
553
554
555
556
557
558
559
560
561
562
563
564
565
566
567
568
569
570
571
572
573
574
575
576
577
578
579
580
581
582
583
584
585
586
587
588
589
590
591
592
593
594
595
596
597
598
599
600
601
602
603
604
605
606
607
608
609
610
611
612
613
614
615
616
617
618
619
620
621
622
623
624
625
626
627
628
629
630
631
632
633
634
635
636
637
638
639
640
641
642
643
644
645
646
647
648
649
650
651
652
653
654
655
656
657
658
659
teurs n’ayant jamais vu ces films. Prenons par exemple un
utilisateur ayant donné une bonne note à StarWars V, les
films les plus similaires qui vont être recommandé à celui-
ci sont représentés par la figure ci dessous:
Figure 1. Les films les plus corrélés avec StarWars V.
Concernant la méthode de filtrage collaboratif ’Memory-
Based’ basée item-item traditionnelle décrite jusqu’à
présent, la structure des descripteurs est sous la forme
d’un vecteur multidimensionnel. Avec ce point de vue,
cependant, les vecteurs sont de très grande dimension.
L’étape suivante de ce projet kaggle est d’implémenter
la méthode basée user-item en utilisant la technique de
factorisation matricielle (SVD). En raison de la complexité
computationnelle de la méthode basée item-item, le choix
d’une méthode de factorisation s’est donc imposé de
lui-même afin d’accélérer le traitement et ce en appliquant
une réduction de dimension.
6.2. Model-Based Collaborative Filtering
Les méthodes de collaboration Memory based utilisent
la corrélation entre une paire d’items dans le cas item-
item, ou une paire d’utilisateurs dans le cas user-user.
Ce mécanisme utilise les notes attribuées par les utilisa-
teur afin de calculer les similarités entre les utilisateurs
ou items. Cependant, les méthodes collaboratives Model
based utilisent les informations RS afin de générer les
prédiction. Contrairement au méthodes Memory based, ces
méthodes n’utilisent pas l’intégralité de la base de données
pour calculer les prédiction des données réelles.
Il existe plusieurs algorithmes de filtrage collaboratif : les
Models based tels que Les réseaux bayésiens, les modèles
de clustering, les ”Latent Semantic Models” tels que la
décomposition en valeurs singulières (SVD), l’analyse en
composantes principales (PCA) et la factorisation ma-
tricielle probabiliste pour la réduction de dimension de la
matrice contenant les notes des utilisateurs.
6.2.1. FACTORISATION MATRICIELLE
Les premiers algorithmes de filtrage collaboratif pour les
systèmes de recommandation étaient basés sur l’inférence
d’associations, qui possède une complexité temporelle très
élevée et une très faible flexibilité (évolutivité). En effet,
les implémentations ainsi que les algorithmes de filtrage
collaboratif pour les applications des systèmes de recom-
mandation sont confrontés à plusieurs défis. Le premier
est la taille des ensembles de données à traiter. Le sec-
ond provient de la rareté de la notation matricielle, ce qui
signifie que pour chaque utilisateur seul un petit nombre
d’éléments est noté. C’est pour cette raison que de nou-
velles méthodes plus évolutive et plus efficace basées sur
des opérations matricielles ont été introduite. En effet, à
l’aide de ces méthodes les défis rencontrés sont mieux pris
en charge par la factorisation matricielle.
La factorisation matricielle joue un rôle important dans
le filtrage collaboratif pour les systèmes de recomman-
dation. Cette méthode est considérée principalement
comme étant une méthode d’apprentissage non supervisé
pour la décomposition en variable latente et la réduction
de dimensionnalité. La prédiction de notes ainsi que
la recommandation peuvent être obtenues par un large
éventail d’algorithmes, tandis que les méthodes dites ”
Neighborhood-based Collaborative Filtering ” sont simples
et intuitives. Les techniques de factorisation de matrices
sont généralement plus efficaces car ces dernières permet-
tent de découvrir les caractéristiques latentes sous-jacentes
des interactions entre les utilisateurs et les items. C’est
donc un outil mathématique permettant de manipuler des
matrices, et est donc applicable dans de nombreux domaine
en particulier lorsque l’on désire trouver une information
latente contenue au niveau des données. Parmi les modèles
de factorisation bien connus on retrouve SVD et PCA qui
permettent d’identifier les facteurs latents dans le domaine
de la recherche d’information et ce dans le but de faire face
aux défis de filtrage collaboratif.
La plupart des modèles MF sont basés sur le modèle
de facteur latent [7]. Cette approche de factorisation
est considérée comme étant l’approche la plus précise
pour réduire le problème des niveaux élevés de parci-
monie dans les bases de données des systèmes de recom-
mandation, et ce en utilisant parfois des techniques de
réduction de la dimensionnalité. Pour ce faire, il est
généralement nécessaire de combiner deux techniques :
une méthode basée sur un modèle d’indexation sémantique
latente (LSI) et une méthode de réduction de la dimen-
sionnalité Singular Value Décomposition (SVD) [7] [8].
Il est à noter que les méthodes de type SVD et PCA sont
considérées comme étant les techniques bien établies pour
l’identification des facteurs latents dans le domaine de la
recherche d’information. Ces méthodes sont donc dev-

660
661
662
663
664
665
666
667
668
669
670
671
672
673
674
675
676
677
678
679
680
681
682
683
684
685
686
687
688
689
690
691
692
693
694
695
696
697
698
699
700
701
702
703
704
705
706
707
708
709
710
711
712
713
714
715
716
717
718
719
720
721
722
723
724
725
726
727
728
729
730
731
732
733
734
735
736
737
738
739
740
741
742
743
744
745
746
747
748
749
750
751
752
753
754
755
756
757
758
759
760
761
762
763
764
765
766
767
768
769
enues populaires et ce en combinant une bonne évolutivité
i.e. ”scalabilité” avec une précision prédictive et offrent
beaucoup de flexibilité pour modéliser diverses applica-
tions de la vie réelle.
6.2.2. MÉTHODOLOGIE
Nous disposons tout d’abord d’un ensemble d’utilisateurs
noté U, et un ensemble d’items noté I. Soit R la matrice
de taille |U| × |I| contenant toutes les évaluations que les
utilisateurs ont affectées aux articles. Le but consiste donc
à trouver deux matrices, P(|U|×K) et Q(|I|×K) de telle
sorte que leur produit soit égal approximativement à R:
R ≈ P × QT
= R
De cette façon, les modèles de factorisation matricielle
mappent les utilisateurs ainsi que les items à un espace
de facteur latent commun de dimension f et permet donc
de modéliser les interactions utilisateur-item comme un
produit interne dans cet espace [9]. Par conséquent,
chaque élément i est associé à un vecteur qi ∈ Rf
,
et chaque utilisateur u est associé à un vecteur pu ∈
Rf
. Pour un item donné i, les éléments de qi mesurent
l’importance pour lequel cet item possède des facteurs
positifs ou négatifs. Le résultat du produit point à point
qT
i pu capture l’interaction entre l’utilisateur u et l’item i,
cela représente donc l’intérêt global que porte l’utilisateur
en question aux caractéristiques de l’item i. Cela permet
donc d’approximer le score que l’utilisateur u attribuerait à
l’item i qui est désignée par rij Cela nous mène à estimer:
rij = pT
i qj = Σk
k=1pi,kqk,j
Il s’agit maintenant de trouver un moyen d’obtenir P et Q.
Une approche permettant de résoudre ce problème est de
commencer par initialiser les deux matrices à des valeurs
aléatoires, calculer à quel point leur produit est différent de
M, puis de minimiser cette différence itérativement. Cette
méthode est appelée descente du gradient et sert à trouver
le minimum local de la différence.
La différence ici, généralement appelée l’erreur entre la
note estimée et la note réelle et peut être calculée en util-
isant la formule suivante pour chaque paire utilisateur-item
:
e2
ij = (rij − rij)2
= (rij − ΣK
k=1pi,kqk,j)2
nous considérons l’erreur quadratique car la note estimée
peut être plus grande ou plus petite que la note réelle.
Afin de minimiser l’erreur, nous devons savoir dans quelle
direction nous devons minimiser les valeurs de pi,k et qk,j.
Autrement dit, nous devons savoir la direction du gradient
au niveau des valeurs actuelles, et donc il est nécessaire de
dériver l’équation ci-dessus par rapport aux deux variables
séparément :
d
dpi,k
e2
ij = −2((rij − rij)(qk,j) = −2eijqk,j
d
dqk,j
e2
ij = −2((rij − rij)(pi,k) = −2eijpi,k
Ayant le gradient, nous pouvons formuler les règles de mise
à jour de pi,k et qk,j comme suit :
pi,k = pi,k + α d
dpi,k
e2
ij = pi,k + 2αeijqk,j
qk,j = qk,j + α d
dqk,j
e2
ij = qk,j + 2αeijpi,k
Ici, α est une constante dont la valeur détermine le pas à
prendre pour atteindre la valeur minimale. D’une manière
générale, la valeur de α doit être petite, en effet, une grande
valeur pourrait ne pas atteindre le minimum.
En utilisant la formule de mise à jour ci-dessus, nous pou-
vons effectuer l’opération de minimisation itérativement
jusqu’à ce que l’erreur converge vers son minimum.
Nous pouvons vérifier l’erreur globale calculée en utilisant
l’équation suivante et déterminer quand il est nécessaire
d’arrêter le processus :
E = Σ(ui,dj ,ri,j )∈T ei,j =
Σ(ui,dj ,ri,j )∈T (rij − ΣK
k=1pi,kqk,j)2
Où T représente l’ensemble de tuples observé de la forme
(ui, dj, ri,j), qui représentent respectivement l’utilisateur
i, l’item j, la note attribué par i à j.
6.2.3. RÉGULARISATION
Afin d’éviter le phénomène de sur-apprentissage, nous
ajoutons un terme de régularisation à la fonction de coût
comme suit :
e2
i,j = (rij − ΣK
k=1pi,kqk,j)2
+ β
2 ΣK
k=1( P 2
+ Q 2
)
Le paramètre β est utilisé afin de contrôler les magnitudes
des vecteurs de caractéristiques des utilisateurs et des items
( user-feature et item-feature) de telle manière que Q et
P donnent une meilleure approximation de R sans avoir à
contenir de grands nombres.
De la même manière, nous obtenons les nouvelles règles de
mise à jours :
pi,k = pi,k + α d
dpi,k
e2
ij = pi,k + α(2eijqk,j − βpi,k)
qk,j = qk,j + α d
dqk,j
e2
ij = qk,j + α(2eijpi,k − βqk,j)
Dans notre cas, nous avons choisi les valeurs de α et de β
par validation croisée (voir la section suivante).
7. Expérimentations
Nous avons commencé nos expérimentations par deviser
l’ensemble des données en deux sous ensembles apprentis-
sage et tests. Pour cela, nous avons introduit une variable

770
771
772
773
774
775
776
777
778
779
780
781
782
783
784
785
786
787
788
789
790
791
792
793
794
795
796
797
798
799
800
801
802
803
804
805
806
807
808
809
810
811
812
813
814
815
816
817
818
819
820
821
822
823
824
825
826
827
828
829
830
831
832
833
834
835
836
837
838
839
840
841
842
843
844
845
846
847
848
849
850
851
852
853
854
855
856
857
858
859
860
861
862
863
864
865
866
867
868
869
870
871
872
873
874
875
876
877
878
879
x qui détermine le pourcentage de données utilisées pour
l’apprentissage et pour les tests. Une valeur x = 0.8 in-
dique 80% des données d’apprentissage et 20% de tests.
L’ensemble des données contenant 4000056 instances a été
converti en une matrice A de la forme utilisateur-item ayant
12022 lignes (utilisateurs) et 17241 colonnes (films qui ont
été noté par au moins un utilisateur).
Pour nos expérimentation, nous avons aussi pris en con-
sidération un facteur qui est le niveau de parcimonie de la
base de données. Pour une matrice de données A, ce facteur
est défini par :
Niveau parcimonie = 1 − entree−non−nulles
totalite−d entrees
Dans notre cas, le niveau de parcimonie est égale à :
Niveau parcimonie = 1 − 4000056
12022x17241 = 0, 9807
Avant de commencer l’évaluation expérimentale complète
des différents algorithmes, nous déterminons la sensi-
bilité des différents paramètres pour les différentes ap-
proches. Ces paramètres incluent le step-size α , le taux
de régularisation β ainsi que le ratio d’apprentissage/test x.
Nous déterminons par la suite l’ensemble des valeurs opti-
males à partir des graphes obtenus.
Afin de déterminer la sensibilité des paramètres, nous tra-
vaillons seulement sur l’ensemble d’apprentissage en le
subdivisant encore en deux sous ensembles (apprentis-
sage et tests) et effectuons nos expérimentations sur ces
derniers. Ainsi, nous avons effectué une cross-validation
en 5 folds, en choisissant aléatoirement différents ensem-
bles d’apprentissage et de test.
7.1. Environnement de développement
l’ensemble de nos algorithmes ont été implémentés
sous python en utilisant les librairies NUMPY et
GRAPHLAB[7]. Nous avons effectué toutes nos
expériences sur machine ayant une processeur intel i7 à 2.4
Ghz et ayant 8gb de mémoire.
7.2. Mesure de performance
Il existe plusieurs mesures de performances utilisées dans
le domaine des systèmes de recommandation. Ces mesures
peuvent être divisées en deux catégories :
7.2.1. DECISION SUPPORT
Ce type de mesures permet d’évaluer à quel point le
système de prédiction est efficace et à quel point celui-ci
permet d’effectuer un choix cohérent d’items à proposer
aux utilisateurs. Cette mesure suppose que le processus de
prédiction est une opération binaire : soit les items sont cor-
rectement prédits (i.e. bons) ou non (i.e. mauvais). Avec
cette observation, Un item ayant un score de prédiction de
1,5 ou 2,5 sur 5 est sans importance si l’utilisateur choisit
de considérer que les prédiction de 4 ou plus. Les méthodes
les plus utilisées sont reversal rate et ROC sensitivity.
7.2.2. MESURE STATISTIQUE
Cette mesure de précision Permet d’évaluer la précision
d’un système en comparant les notes prédites avec les notes
réelles attribuées par les utilisateurs. La mesure Root Mean
Squared Error RMSE est parmi les plus utilisées, une pe-
tite valeur de RMSE indique un système plus précis. Dans
notre cas, nous avons modifié cette mesure en ajoutant un
terme régularisation afin d’éviter le sur-apprentissage et fa-
voriser le modèle le moins complexe.
7.3. Résultats
Dans cette section nous présentons non résultats
d’expérimentations de nos systèmes de prédiction
collaborative basée mémoire (dans notre cas item-item
based) et basée modèle (factorisation matricielle). Nous
commençons tout d’abord par comparer l’effet de
l’utilisation des différents mesures de similarités dans la
première approche (item-item). Par la suite, nous utilis-
erons la meilleure mesure afin de comparer l’approche
collaborative basée mémoire et notre baseline. Dans
la dernière partie nous déterminons la sensibilité des
différents paramètres de l’approche basée modèle (fac-
torisation matricielle) en effectuant une cross-validation.
Ainsi, en fixant les paramètres nous comparons les
méthodes implémentées avec la baseline en terme de
précision. La mesure de précision utilisée à travers les
expérimentation est RMSE avec un terme de régularisation.
7.4. Effets d’algorithmes de similarité
Nous avons implémenté trois algorithmes de similarité
différents qui sont : cosinus, la version améliorée de Pear-
son Correlation Coefficient (permettant un calcule moins
couteux en terme de temps d’exécution) et la distance eucli-
dienne. Les résultats sont représentés dans l’histogramme
suivant:

880
881
882
883
884
885
886
887
888
889
890
891
892
893
894
895
896
897
898
899
900
901
902
903
904
905
906
907
908
909
910
911
912
913
914
915
916
917
918
919
920
921
922
923
924
925
926
927
928
929
930
931
932
933
934
935
936
937
938
939
940
941
942
943
944
945
946
947
948
949
950
951
952
953
954
955
956
957
958
959
960
961
962
963
964
965
966
967
968
969
970
971
972
973
974
975
976
977
978
979
980
981
982
983
984
985
986
987
988
989
Figure 2. Les performances relatives au différents mesures de
similarité
En observant les résultats, nous remarquons que la valeur
RMSE associée à la mesure PCP est la plus petite. Nous
déduisons donc que la mesure PCP donne la meilleure per-
formance.
Nous avons dans ce qui suit, opté pour l’utilisation de
la mesure de similarité PCP. La figure 3 montre les per-
formances obtenues par la première approche (item-item
memory based) et l’algorithme de baseline décrit dans le
point 4 de ce projet.
Figure 3. Les performances obtenues par les deux approches
baseline et item-item memory based
Cependant cette approche reste couteuse en terme de temps
de calcul. Ainsi, ces mesure de similarités dans certains
cas ne permettent pas de bien modéliser la relation entre
items. C’est pour cette raison que nous avons opté pour
l’implémentation de l’approche model based collaborative
filtering en utilisant la factorisation matricielle.
7.5. Effets du choix des paramètres
La factorisation matricielle, bien qu’elle soit efficace, sa
performance dépend fortement des choix des paramètres
intervenants dans le processus d’apprentissage. Nous no-
tons par α le step-size qui intervient dans la descente du
gradient (mise à jours des paramètres), par β le facteur de
la régularisation qui intervient dans le calcule de RMSE.
Les autres paramètres à prendre en considération sont le
ratio apprentissage/test x qui est fixé à 0.8, le nombre de
folds de la validation croisée qui est fixé à 5 et le nombre
des dimensions de la factorisation est fixée à 5. La figure
4 montre les résultats d’exécution de la validation croisée
pour différentes valeurs de β.
Figure 4. Cross-validation pour différents valeurs de β
Nous remarquons que la meilleure précision est obtenue en
utilisant β = 10−5
.
La valeur de α est initialisé aléatoirement entre 0 et 1.
Ce paramètre sera mis à jours tant que le processus con-
verge vers la solution optimale en exécutant à chaque fois
α = α/2. Ainsi, nous avons opté pour l’utilisation de
l’ensemble des paramètres suivants dans la méthode de fac-
torisation matricielle:
Paramètre Valeur
Factor Dimension 5
β 0.00001
α 0.0719471 (V.S.I)
n Folds 5
V.S.I: Variable Selon l’Initialisation
La figure 5 montre une comparaison entre l’algorithme
de baseline et les deux méthodes implémentées (memory-
based et model-based) en utilisant les paramètres optimaux.

990
991
992
993
994
995
996
997
998
999
1000
1001
1002
1003
1004
1005
1006
1007
1008
1009
1010
1011
1012
1013
1014
1015
1016
1017
1018
1019
1020
1021
1022
1023
1024
1025
1026
1027
1028
1029
1030
1031
1032
1033
1034
1035
1036
1037
1038
1039
1040
1041
1042
1043
1044
1045
1046
1047
1048
1049
1050
1051
1052
1053
1054
1055
1056
1057
1058
1059
1060
1061
1062
1063
1064
1065
1066
1067
1068
1069
1070
1071
1072
1073
1074
1075
1076
1077
1078
1079
1080
1081
1082
1083
1084
1085
1086
1087
1088
1089
1090
1091
1092
1093
1094
1095
1096
1097
1098
1099
Figure 5. Les performances obtenues par les deux approches
baseline et item-item memory based
8. Conclusion
Les systèmes de recommandation ont pour origines une
variété de domaines de recherche, tel que la recherche
d’information, le filtrage de l’information. Ils représentent
une manière innovante et puissante d’extraire des valeurs
partir de bases de données utilisateur. Ces systèmes
aident les utilisateurs à trouver les articles qu’ils souhait-
ent acheter. En effet, ces systèmes font ainsi bénéficier
les utilisateurs en leur permettant de trouver les articles
qu’ils aiment. Tout en aidant également l’entreprise en
générant plus de ventes. Les systèmes de recommanda-
tion sont en train de devenir un outil essentiel dans le com-
merce électronique sur le Web. Cependant, ces systèmes
souffrent de l’énorme volume de données utilisateur con-
tenu les bases de données existantes. Ces derniers en souf-
friront d’avantage étant donné la croissance du volume de
données utilisateur disponibles sur le Web qui est à prévoir.
C’est pour cette raison que de nouvelles méthodes ont été
introduites afin de permettre d’améliorer considérablement
l’évolutivité de ces systèmes.
Dans ce projet, nous avons implémenté différentes
manières de prédire à quel point un utilisateur risque
d’apprécier un article. Nous avons également présenté
nos expérimentations et la manière dont nous avons évalué
chaque algorithme modélisant un système de recomman-
dation. Les résultats obtenus montrent que les techniques
(memory-based) basées sur le calcul de similarité bien
qu’elles soient efficaces restent couteuses en terme de
temps de calcul. Ainsi, leurs efficacité est relative à la
mesure de similarité utilisée. Les méthodes (model-based)
quand à elles, sont beaucoup moins couteuses en temps
d’exécution et cela est du à la factorisation matricielle.
Nous avons montré comment palier au phénomène de sur-
apprentissage en ajoutant un terme régularisation à la fonc-
tion loss. Ainsi, la cross-validation nous a permet de choisir
les paramètres optimaux pour le système.
Références
[1] Gediminas Adomavicius and Alexander Tuzhilin
”Toward the Next Generation of Recommender Systems:
A Survey of the State-of-the-Art and Possible Extensions”
IEEE Transactions on Knowledge, Vol 17, No 6, June 2005
[2] Dan R. Greening ”Building Consumer Trust with
Accurate Product Recommendations”, A White Paper on
LikeMinds Personalization Server
[3] D. Billsus and M. J. Pazzani, “Learning collabora-
tive information filters,” in AAAI 2008 Workshop on Rec-
ommender Systems, 1998.
[4] S. Funk, “Netflix update: Try this at home,”
http://sifter.org/˜ simon/journal/20061211.html, Archived
by WebCite at http://www. webcitation.org/5pVQphxrD,
December 2006.
[5] Royi Ronen, Noam Koenigstein, Elad Ziklik, Mikael
Sitruk, Ronen Yaari, Neta Haiby-Weiss, “Sage: Recom-
mender Engine as a Cloud Service,” Published in ACM
RecSys’13, Hong Kong, China, ACM 978- 1-4503-2409-
0/13/10, c ACM, October 12–16, 2013.
[6] GraphLab API, a DAT OT M machine learning
toolkit that provides users with state-of-theart algorithms
for classification. Version 1.8.0 https ://dato.com/
[7] David Goldberg, David Nichols, Brian M. Oki and
Douglas Terry, “Using Collaborative Filtering to Weave an
Information Tapestry,” Communications of the ACM, Vol.
35, No.12, December 1992.
[8] Yehuda Koren, “Matrix Factorization Techniques for
Recommender Systems,” Published by the IEEE Computer
Society, IEEE 0018-9162/09, pp. 42- 49, c IEEE, August
2009.
[9] Ruslan Salakhutdinov and Andriy Mnih, “Proba-
bilistic Matrix Factorization,” Published in the Proceed-
ings of Neural Information Processing Systems Foundation
(NIPS’07), December 4, 2007.

Movie Recommendation system

Contenu connexe

En vedette

Movie Recommendation system