Introduction aux systèmes
de recommandation
Réalisé par :
BABZINE BAHIJA
ER-RAHMOUNY ZOHAYR
Encadré par :
Mr. El-fenaouy Reda
Mr. Gardelle Bertin
1-Définition de système de recommandation:
Un système de recommandation est une forme spécifique de filtrage
de l’information qui a pour but de présenter à un utilisateur des
éléments qui sont susceptibles de l’intéresser, et ce, en se basant sur
ses préférences et son comportement. On tente donc de prédire votre
appréciation face à un élément pour ainsi vous suggérer ce que vous
serez le plus en mesure d’apprécier.
l’augmentation d’interaction entre utilisateurs : les réseaux
sociaux vont vous suggérer des amis (Facebook, Linkedin)
Augmenter le chiffre d’affaires : c’est une raison plus évidente, avec
notamment les sites de e-commerce, des entreprises du retail, par
exemple la Fnac, Amazon, ou Carrefour lorsque vous faites vos
courses en ligne.
Les objectifs du système de recommandation:
Augmenter l’engagement des utilisateurs : valable pour les sites de
contenus tels que Youtube, Netflix, Spotify
Comment construire un système de recommendation?
Il y a 2 grands modèles qui peuvent
être utilisés pour construire un
moteur de recommandation :
Filtrage collaboratif
Content-based
•Filtrage collaboratif
L’une des premières techniques utilisées et qui demeure encore aujourd’hui
parmi les plus simples et les plus efficaces est le filtrage collaboratif. Ce
procédé en trois étapes commence par la collecte d’information sur les
utilisateurs. Puis, on forme une matrice afin de calculer des associations.
Finalement, nous sommes en mesure de faire une recommandation avec un
niveau de confiance assez élevé.
c’est une approche qui est entièrement basée sur des
algorithmes de Machine Learning. En prenant
l’exemple de Netflix, il va s’agir avec cette approche
de prédire les préférences de films d’un utilisateur
en fonction des notes données sur ce film par
d’autres utilisateurs. C’est l’approche
mathématiques dont on entend le plus parler, mais
celle qui est la moins mise en production.
L’approche « model-based » ou Factorisation de matrice:
2 problèmes à ceci
Les données peuvent
manquer
le temps de calcul
peut être très long
La recommandation en temps réel n’est alors pas possible.
l’approche produit permet de se référer aux
caractéristiques du produit, du film, de la
musique pour construire des sous-groupes de
produits qui sont similaires. Si un utilisateur
a vu des films de super-héros, vont lui être
proposés par la suite d’autres films de
super-héros.
L’approche « Item-based »:
dans cette approche, on va se reposer sur les
informations données sur le compte de
utilisateur, ses préférences, ses goûts. Cette
fois, ce sont les utilisateurs qui vont être
groupés. En prenant l’exemple des films, le
moteur va proposer les mêmes films aux
utilisateurs de mêmes caractéristiques.
L’approche « User-based »:
Content-based
Cet algorithme analyse un ensemble de contenu sans prendre en compte les
utilisateurs et détecte les similarités entre les contenus à des fins de
recommandation en inspectant son contenu. Pour le content-based, l’analyse de
contenu consiste par exemple à identifier le sujet d’un contenu en répertoriant tous
les mots d’un article de presse puis en comparant tous les mots de l’article analysés
aux autres articles. Plus un article aura un nombre de mots similaires, plus ces
articles seront considérés comme « proches » permettant ainsi de détecter les sujets
identiques ou similaires et d’en déduire des recommandations pour le lecteur.
La manière la plus simple de décrire un catalogue d’éléments est d’avoir une liste
explicite des caractéristiques de chaque. Pour un livre par exemple, on peut utiliser le
genre, le nom des auteurs, l’éditeur ou toute autre information relative au livre, puis
stocker ces caractéristiques.
Le profil de l’utilisateur est exprimé sous forme d’une liste d’intérêts basée sur les
mêmes caractéristiques. La coïncidence entre les caractéristiques des éléments et le
profil de l’utilisateur peut être mesurée de différentes manières :
l’indice de Dice ou d’autres mesures de similarité
le TF-IDF (Term Frequency-Inverse Document
les techniques basées sur la similarité des espaces vectoriels (les approches
bayésiennes, les arbres de décision, etc.) couplées avec des techniques
statistiques, lorsqu’il y a trop de mots-clés.
Les autres modèles:
Populaire:
Comme son nom l’indique cet algorithme permet de recommander les contenus
les plus populaires. Le tracking des visiteurs sur la plateforme permet de savoir
quels films ont été les plus consultés, regardés, partagés, cliqués, etc. Une fois
détectés, ces contenus sont proposés aux autres utilisateurs.
Random:
Normalement cet algorithme est rarement utilisé, mais il a le mérite
d’exister. C’est en quelque sorte la roue de secours si les algorithmes que
nous avons vus précédemment sont à court de recommandations. Ce qui
est communément appelé le random consiste à proposer des
recommandations de manière totalement aléatoire pour éviter de rester en
panne sur le bord de la route.
Les différentes approches de NLP based recommendation system
1. Text Similarity
2. Named Entity Recognition
3. Topic Extraction
4. Keyword Extraction
MERCI POUR VOTRE ATTENTION

Introduction aux systèmes de recommandation.pptx

  • 1.
    Introduction aux systèmes derecommandation Réalisé par : BABZINE BAHIJA ER-RAHMOUNY ZOHAYR Encadré par : Mr. El-fenaouy Reda Mr. Gardelle Bertin
  • 2.
    1-Définition de systèmede recommandation: Un système de recommandation est une forme spécifique de filtrage de l’information qui a pour but de présenter à un utilisateur des éléments qui sont susceptibles de l’intéresser, et ce, en se basant sur ses préférences et son comportement. On tente donc de prédire votre appréciation face à un élément pour ainsi vous suggérer ce que vous serez le plus en mesure d’apprécier.
  • 3.
    l’augmentation d’interaction entreutilisateurs : les réseaux sociaux vont vous suggérer des amis (Facebook, Linkedin) Augmenter le chiffre d’affaires : c’est une raison plus évidente, avec notamment les sites de e-commerce, des entreprises du retail, par exemple la Fnac, Amazon, ou Carrefour lorsque vous faites vos courses en ligne. Les objectifs du système de recommandation: Augmenter l’engagement des utilisateurs : valable pour les sites de contenus tels que Youtube, Netflix, Spotify
  • 4.
    Comment construire unsystème de recommendation? Il y a 2 grands modèles qui peuvent être utilisés pour construire un moteur de recommandation : Filtrage collaboratif Content-based
  • 5.
    •Filtrage collaboratif L’une despremières techniques utilisées et qui demeure encore aujourd’hui parmi les plus simples et les plus efficaces est le filtrage collaboratif. Ce procédé en trois étapes commence par la collecte d’information sur les utilisateurs. Puis, on forme une matrice afin de calculer des associations. Finalement, nous sommes en mesure de faire une recommandation avec un niveau de confiance assez élevé.
  • 6.
    c’est une approchequi est entièrement basée sur des algorithmes de Machine Learning. En prenant l’exemple de Netflix, il va s’agir avec cette approche de prédire les préférences de films d’un utilisateur en fonction des notes données sur ce film par d’autres utilisateurs. C’est l’approche mathématiques dont on entend le plus parler, mais celle qui est la moins mise en production. L’approche « model-based » ou Factorisation de matrice:
  • 8.
    2 problèmes àceci Les données peuvent manquer le temps de calcul peut être très long La recommandation en temps réel n’est alors pas possible.
  • 9.
    l’approche produit permetde se référer aux caractéristiques du produit, du film, de la musique pour construire des sous-groupes de produits qui sont similaires. Si un utilisateur a vu des films de super-héros, vont lui être proposés par la suite d’autres films de super-héros. L’approche « Item-based »:
  • 11.
    dans cette approche,on va se reposer sur les informations données sur le compte de utilisateur, ses préférences, ses goûts. Cette fois, ce sont les utilisateurs qui vont être groupés. En prenant l’exemple des films, le moteur va proposer les mêmes films aux utilisateurs de mêmes caractéristiques. L’approche « User-based »:
  • 14.
    Content-based Cet algorithme analyseun ensemble de contenu sans prendre en compte les utilisateurs et détecte les similarités entre les contenus à des fins de recommandation en inspectant son contenu. Pour le content-based, l’analyse de contenu consiste par exemple à identifier le sujet d’un contenu en répertoriant tous les mots d’un article de presse puis en comparant tous les mots de l’article analysés aux autres articles. Plus un article aura un nombre de mots similaires, plus ces articles seront considérés comme « proches » permettant ainsi de détecter les sujets identiques ou similaires et d’en déduire des recommandations pour le lecteur.
  • 16.
    La manière laplus simple de décrire un catalogue d’éléments est d’avoir une liste explicite des caractéristiques de chaque. Pour un livre par exemple, on peut utiliser le genre, le nom des auteurs, l’éditeur ou toute autre information relative au livre, puis stocker ces caractéristiques. Le profil de l’utilisateur est exprimé sous forme d’une liste d’intérêts basée sur les mêmes caractéristiques. La coïncidence entre les caractéristiques des éléments et le profil de l’utilisateur peut être mesurée de différentes manières :
  • 17.
    l’indice de Diceou d’autres mesures de similarité le TF-IDF (Term Frequency-Inverse Document les techniques basées sur la similarité des espaces vectoriels (les approches bayésiennes, les arbres de décision, etc.) couplées avec des techniques statistiques, lorsqu’il y a trop de mots-clés.
  • 18.
    Les autres modèles: Populaire: Commeson nom l’indique cet algorithme permet de recommander les contenus les plus populaires. Le tracking des visiteurs sur la plateforme permet de savoir quels films ont été les plus consultés, regardés, partagés, cliqués, etc. Une fois détectés, ces contenus sont proposés aux autres utilisateurs.
  • 19.
    Random: Normalement cet algorithmeest rarement utilisé, mais il a le mérite d’exister. C’est en quelque sorte la roue de secours si les algorithmes que nous avons vus précédemment sont à court de recommandations. Ce qui est communément appelé le random consiste à proposer des recommandations de manière totalement aléatoire pour éviter de rester en panne sur le bord de la route.
  • 21.
    Les différentes approchesde NLP based recommendation system
  • 22.
  • 23.
    2. Named EntityRecognition
  • 24.
  • 26.
  • 27.