Machine Learning dans lesMoteurs de recherche8-9 mars 2012Philippe YONNETDirecteur SEO Internationalphilippe.yonnet@twenga...
Pourquoi parler de ces algorithmes ?  Il est fort possible que l’algorithme  Panda soit un algorithme  d’apprentissage aut...
L’apprentissage automatique Machine learning en anglais Conception et développement d’algorithmes capables de  s’autoam
Applications classiques Reconnaissance de formes, reconnaissance de caractère Robotique Classification automatique
Les principaux types d’apprentissage Apprentissage supervisé    Présence d’un « oracle » qui fournit un jeu de réponses ...
Quelques grandes catégories d’algorithmes Les algorithmes à bases d’arbres de décision    Data mining, entrepôts de donn...
L’apprentissage automatique et le spam                                                                  SPAM  Classificati...
Pourquoi ces algorithmes ont-ils été longtempssous-utilisés par les moteurs de recherche?Longtemps, l’utilisation de ces a...
Définition d’un classifierUne première approche possible (et triviale) pour déterminer les lois régissantun ensemble de do...
Les Support Vector Machines SVM   Un des principes de la technique des SVM : il existe souvent plusieurs     frontières pe...
SVM : La recherche d’un hyperplan « frontière »Recherche d’un hyperplan « frontière » dans la technique des SVM : la front...
Panda et les SVM Amit Singhal décrit l’algorithme ainsi dans une interview de  Wired: « Vous pouvez imaginer dans un esp...
REFERENCES Machine Learning chez Google    http://research.google.com/pubs/MachineLearning.html    PLANET: Massively Pa...
Références   Machine Learning chez Bing!        http://research.microsoft.com/en-us/groups/ml/        http://research.m...
Prochain SlideShare
Chargement dans…5
×

Apprentissage Automatique et moteurs de recherche

3 237 vues

Publié le

Une introduction aux algorithmes d'apprentissage automatique, et à leur utilisation possible dans Panda, et la lutte contre le spamdexing

0 commentaire
2 j’aime
Statistiques
Remarques
  • Soyez le premier à commenter

Aucun téléchargement
Vues
Nombre de vues
3 237
Sur SlideShare
0
Issues des intégrations
0
Intégrations
12
Actions
Partages
0
Téléchargements
68
Commentaires
0
J’aime
2
Intégrations 0
Aucune incorporation

Aucune remarque pour cette diapositive

Apprentissage Automatique et moteurs de recherche

  1. 1. Machine Learning dans lesMoteurs de recherche8-9 mars 2012Philippe YONNETDirecteur SEO Internationalphilippe.yonnet@twenga.com
  2. 2. Pourquoi parler de ces algorithmes ? Il est fort possible que l’algorithme Panda soit un algorithme d’apprentissage automatique. Son auteur, un dénommé… Panda. Il y’a deux Panda connus chez Google, tous les deux ont travaillé sur des projets de Machine Learning…
  3. 3. L’apprentissage automatique Machine learning en anglais Conception et développement d’algorithmes capables de s’autoam
  4. 4. Applications classiques Reconnaissance de formes, reconnaissance de caractère Robotique Classification automatique
  5. 5. Les principaux types d’apprentissage Apprentissage supervisé  Présence d’un « oracle » qui fournit un jeu de réponses désirées (exemples ou contre-exemples) Apprentissage non supervisé  Classification automatique / Clustering  Lalgorithme doit découvrir par lui-même la structure plus ou moins cachée des données Apprentissage par renforcement  lalgorithme apprend un comportement étant donné une observation. Laction de lalgorithme sur lenvironnement produit une valeur de retour qui guide lalgorithme dapprentissage.On identifie d’autres types d’algorithmes : semi-supervisé,partiellement supervisé…
  6. 6. Quelques grandes catégories d’algorithmes Les algorithmes à bases d’arbres de décision  Data mining, entrepôts de données, aide à la décision, système experts, diagnostic Le boosting  Amélioration des systèmes de classification binaire Les réseaux de neurones artificiels Les algorithmes génétiques  Sélection naturelle des meilleurs programmes L’ILP (inductive logic programming) :  exemples positifs + exemples négatifs + base de connaissances = règles (utile en TAL) Les Support Vector Machines Les Réseaux Bayésiens  diagnostic (médical et industriel), lanalyse de risques, la détection des spams et le data mining.
  7. 7. L’apprentissage automatique et le spam SPAM Classification automatique utilisant l’apprentissage supervisé à partir de données étiquetées (classifiées) par un humain (« oracle »). L’objectif est de déterminer une fonction opérationnelle séparant correctement les points bleus et rouges (courbe verte)
  8. 8. Pourquoi ces algorithmes ont-ils été longtempssous-utilisés par les moteurs de recherche?Longtemps, l’utilisation de ces algorithmes a été bridée par troisproblèmes : La difficulté de création des données d’entrainement Le temps de calcul et les besoins en ressources La faisabilité pure des calculs
  9. 9. Définition d’un classifierUne première approche possible (et triviale) pour déterminer les lois régissantun ensemble de données : la régression. L’objectif est de déterminer une courbequi donne une approximation correcte des points mesurés. Dans l’exemple degauche, la courbe est droite affine y=ax+b. A droite un polynome plus complexe.
  10. 10. Les Support Vector Machines SVM Un des principes de la technique des SVM : il existe souvent plusieurs frontières permettant de « séparer » des échantillons de points. Les meilleures frontières sont celles qui maximisent la distance entre la frontière et les points (les « séparateurs à vastes marges »). L’algorithme SVM permet d’identifier les frontières donnant le minimum d’erreurs de classification.
  11. 11. SVM : La recherche d’un hyperplan « frontière »Recherche d’un hyperplan « frontière » dans la technique des SVM : la frontière ici estrelativement complexe si on la décrit dans l’espace à deux dimensions qui décrit lesdonnées d’entrainement. En transposant le problème dans un espace muldimensionnel (3dimensions sur le schéma) il peut être possible de trouver un hyperplan (ici un plan), simpleà décrire, qui permet de classifier facilement les données. Tiens tiens… J’ai déjà vu ça quelque part
  12. 12. Panda et les SVM Amit Singhal décrit l’algorithme ainsi dans une interview de Wired: « Vous pouvez imaginer dans un espace muldimensionnel un groupe de points, certains points sont rouges, certains points sont verts, and pour d’autres c’est un mélange des deux. Votre travail est de trouver un hyperplan qui indique que la plupart des choses d’un côté de ce plan sont rouges, et que la plupart des choses de l’autre côté sont le contraire de « rouge » ».
  13. 13. REFERENCES Machine Learning chez Google  http://research.google.com/pubs/MachineLearning.html  PLANET: Massively Parallel Learning of Tree Ensembles with MapReduce Biswanath Panda, Joshua S. Herbach, Sugato Basu, Roberto J. Bayardo, Google, Inc. http://www.bayardo.org/ps/vldb2009.pdf  KDX: An Indexer for Support Vector Machines Navneet Panda, Edward Y. Chang, Google Inc http://www.computer.org/portal/web/csdl/doi/10.1109/TKDE.2006.101  OASIS : Large Scale Online Learning of Image Similarity Through Ranking Gal Chechik , Varun Sharma, Samy Bengio, Google Inc & Uri Shalit, The Gonda brain research center, Bar Ilan University www.robots.ox.ac.uk/~vgg/rg/papers/rankingsimilarity.pdf
  14. 14. Références Machine Learning chez Bing!  http://research.microsoft.com/en-us/groups/ml/  http://research.microsoft.com/en-us/groups/mlp/  http://research.microsoft.com/en-us/groups/mlpml/ ... Beyond PageRank: Machine Learning for Static Ranking Matthew Richardson, Microsoft Research, Amit Prakash MSN, Eric Brill, Microsoft Research www.inf.unibz.it/~ricci/SDB/slides/fRank-Presentation.pdf Machine Learning chez Yahoo!  http://research.yahoo.com/Machine_Learning  Developing parallel sequential minimal optimization for fast training support vector machine. Yahoo Labs, Cao, L.J.; Keerthi, S.S.; Ong, C.J.; Uvaraj, P.; Fu, X.J.; Lee, H.P. http://research.yahoo.com/pub/951

×