5. SEO ?
Optimiser le trafic d'un site web issu
des moteurs de recherche.
Définir quels éléments du site sont à forte
valeur et les promouvoir vers les moteurs de
recherches
Mesurer et étudier le positionnement du site
sur des recherches vis à vis de sa concurrence
mercredi 5 décembre 12
6. CONTEXTE
100 millions de visites par mois
Patrimoine informationnel très riche
Business model basé sur la pub
Marché ultra concurrentiel
Plus de 15 Go de log par jour (sous-traités)
Appliance Teradata de 12 To compressés + SAS
mercredi 5 décembre 12
7. COMBIEN ?
10 visites SEO (hors marque)
30 visites SEO (marque)
90 visites non SEO
20 crawl
x7 à x10 au total (pages + ressources)
Nécessité de filtrer à la source
mercredi 5 décembre 12
8. DÉMARCHE SEO
Mesurer Collecter
Produire Analyser
mercredi 5 décembre 12
9. TROUVER 400K NOUVELLES URLS
À PROMOUVOIR PARMI 84M ?
Similarités et Classifications
Recommandation &
intelligence collective
OpenData
mercredi 5 décembre 12
10. OUTILS
Collecter Traiter Analyser
Pig
mercredi 5 décembre 12
11. TYPES DE REQUETES
Analyse par zones de géographique
Données socio-économiques
Recherches de similarités
Analyse au niveau Url (granularité fine)
Impact du Crawl sur les visites
mercredi 5 décembre 12
12. PIPELINE
Data
Insee
géo-éco
Visites
Logs Similarit. Urls.
seo
Crawl
seo
mercredi 5 décembre 12
13. IMPACT DU CRAWL
Projection et croisement de 2 sources
Visites
Crawl
Pig COGROUP
Patterns sur TS
mercredi 5 décembre 12
14. LONG TAIL
Très grosses concentrations d’activités sur
certaines localités.
Map/Reduce !! 1: 3003
2: 399
10: 243
PIG Skewed joins 50: 100
100: 54
500: 4
mercredi 5 décembre 12
15. HEATMAPS
Départements
(96)
Volume de
visites
Activités (10500)
mercredi 5 décembre 12
16. MESURER : RANKINGS
Collecte des réponses Google (30x par
recherche = dizaines de millions par mois)
Forte croissance de la volumétrie
Classifier et Segmenter par produit, par
thématiques.
mercredi 5 décembre 12
19. MONGODB
Base document
Stocker l’information avec son contexte
Données agrégées et leurs détails
Univers Catégories { univers : ‘‘restaurants’’,
n métrique : 250,
n n regions : [‘‘idf ’’, ‘‘paca’’],
Métriques sousMétriques : [
n {petitesVilles : 80},
{moyennesVilles : 70},
Localités
{grandesVilles : 100},]
}
mercredi 5 décembre 12
21. EVOLUTIONS ?
Plus de temps réel : Impala, Spark/Shark ?
Bases de données colonnes pour les données
pure SQL ?
Utilisation d’Elasticsearch pour indexer les
données raffinées ?
mercredi 5 décembre 12