Big-Data et données SEO par Affini-Tech

931 vues

Publié le

Comment les outils Big-Data (Hadoop, NOSQL, R, etc...) permettent de scaler les démarches SEO. Retours d'expérience de Affini-Tech

Publié dans : Technologie
0 commentaire
4 j’aime
Statistiques
Remarques
  • Soyez le premier à commenter

Aucun téléchargement
Vues
Nombre de vues
931
Sur SlideShare
0
Issues des intégrations
0
Intégrations
64
Actions
Partages
0
Téléchargements
8
Commentaires
0
J’aime
4
Intégrations 0
Aucune incorporation

Aucune remarque pour cette diapositive

Big-Data et données SEO par Affini-Tech

  1. 1. BIGDATA ET DONNÉES SEO Vincent Heuschling @vhe74mercredi 5 décembre 12
  2. 2. AGENDA AFFINI-TECH SEO ? TRAITER et ANALYSER MESURER OUTILS EVOLUTION DES MOYENSmercredi 5 décembre 12
  3. 3. 3 PILIERS Méthodes projets Business Outils de reporting & & Data-visualisation Analyses BigData Modélisation Hadoop Technos Sciences Statistiques (R) NoSQL Machine Learning Cloud Intégration, Mise en Oeuvre, Conseil et Formation Une démarche intégrée de bout en bout © 2012 Affini-Tech - Diffusion restreinte 3mercredi 5 décembre 12
  4. 4. Collecter Analyser Présenter Stocker Valoriser Organiser Traiter Data- BigData Décisionnel Science Votre infrastructure Notre Cloud © 2012 Affini-Tech - Diffusion restreinte 4mercredi 5 décembre 12
  5. 5. SEO ? Optimiser le trafic dun site web issu des moteurs de recherche. Définir quels éléments du site sont à forte valeur et les promouvoir vers les moteurs de recherches Mesurer et étudier le positionnement du site sur des recherches vis à vis de sa concurrencemercredi 5 décembre 12
  6. 6. CONTEXTE 100 millions de visites par mois Patrimoine informationnel très riche Business model basé sur la pub Marché ultra concurrentiel Plus de 15 Go de log par jour (sous-traités) Appliance Teradata de 12 To compressés + SASmercredi 5 décembre 12
  7. 7. COMBIEN ? 10 visites SEO (hors marque) 30 visites SEO (marque) 90 visites non SEO 20 crawl x7 à x10 au total (pages + ressources) Nécessité de filtrer à la sourcemercredi 5 décembre 12
  8. 8. DÉMARCHE SEO Mesurer Collecter Produire Analysermercredi 5 décembre 12
  9. 9. TROUVER 400K NOUVELLES URLS À PROMOUVOIR PARMI 84M ? Similarités et Classifications Recommandation & intelligence collective OpenDatamercredi 5 décembre 12
  10. 10. OUTILS Collecter Traiter Analyser Pigmercredi 5 décembre 12
  11. 11. TYPES DE REQUETES Analyse par zones de géographique Données socio-économiques Recherches de similarités Analyse au niveau Url (granularité fine) Impact du Crawl sur les visitesmercredi 5 décembre 12
  12. 12. PIPELINE Data Insee géo-éco Visites Logs Similarit. Urls. seo Crawl seomercredi 5 décembre 12
  13. 13. IMPACT DU CRAWL Projection et croisement de 2 sources Visites Crawl Pig COGROUP Patterns sur TSmercredi 5 décembre 12
  14. 14. LONG TAIL Très grosses concentrations d’activités sur certaines localités. Map/Reduce !! 1: 3003 2: 399 10: 243 PIG Skewed joins 50: 100 100: 54 500: 4mercredi 5 décembre 12
  15. 15. HEATMAPS Départements (96) Volume de visites Activités (10500)mercredi 5 décembre 12
  16. 16. MESURER : RANKINGS Collecte des réponses Google (30x par recherche = dizaines de millions par mois) Forte croissance de la volumétrie Classifier et Segmenter par produit, par thématiques.mercredi 5 décembre 12
  17. 17. mercredi 5 décembre 12
  18. 18. OUTILS Collecter Traiter Stocker Visualiser D3.js Pig Analysermercredi 5 décembre 12
  19. 19. MONGODB Base document Stocker l’information avec son contexte Données agrégées et leurs détails Univers Catégories { univers : ‘‘restaurants’’, n métrique : 250, n n regions : [‘‘idf ’’, ‘‘paca’’], Métriques sousMétriques : [ n {petitesVilles : 80}, {moyennesVilles : 70}, Localités {grandesVilles : 100},] }mercredi 5 décembre 12
  20. 20. RÉSULTATSmercredi 5 décembre 12
  21. 21. EVOLUTIONS ? Plus de temps réel : Impala, Spark/Shark ? Bases de données colonnes pour les données pure SQL ? Utilisation d’Elasticsearch pour indexer les données raffinées ?mercredi 5 décembre 12
  22. 22. MERCI ! Vincent Heuschling Gsm : 06 61 88 76 71 Email : vhe@affini-tech.com Web : http://www.affini-tech.com Twitter : @affinitech & @vhe74 © 2012 Affini-Tech - Diffusion restreinte 24mercredi 5 décembre 12

×