Big Data et SEO, par Vincent Heuschling

•

2 j'aime•3,722 vues

Modern Data Stack France

BIGDATA
ET DONNÉES SEO

Vincent Heuschling
@vhe74
mercredi 5 décembre 12

AGENDA
AFFINI-TECH
SEO ?
TRAITER et ANALYSER
MESURER
OUTILS
EVOLUTION DES MOYENS

mercredi 5 décembre 12

3 PILIERS
Méthodes projets
Business
Outils de reporting
&
& Data-visualisation
Analyses

BigData Modélisation
Hadoop Technos Sciences Statistiques (R)
NoSQL Machine Learning
Cloud

Intégration, Mise en Oeuvre, Conseil et Formation
Une démarche intégrée de bout en bout

© 2012 Afﬁni-Tech - Diffusion restreinte 3

mercredi 5 décembre 12

Collecter Analyser Présenter
Stocker Valoriser Organiser
Traiter

Data-
BigData Décisionnel
Science

Votre infrastructure Notre Cloud

© 2012 Afﬁni-Tech - Diffusion restreinte 4

mercredi 5 décembre 12

SEO ?
Optimiser le traﬁc d'un site web issu
des moteurs de recherche.
Déﬁnir quels éléments du site sont à forte
valeur et les promouvoir vers les moteurs de
recherches
Mesurer et étudier le positionnement du site
sur des recherches vis à vis de sa concurrence

mercredi 5 décembre 12

CONTEXTE
100 millions de visites par mois
Patrimoine informationnel très riche
Business model basé sur la pub
Marché ultra concurrentiel
Plus de 15 Go de log par jour (sous-traités)
Appliance Teradata de 12 To compressés + SAS

mercredi 5 décembre 12

COMBIEN ?
10 visites SEO (hors marque)
30 visites SEO (marque)
90 visites non SEO
20 crawl
x7 à x10 au total (pages + ressources)
Nécessité de ﬁltrer à la source

mercredi 5 décembre 12

DÉMARCHE SEO

Mesurer Collecter

Produire Analyser

mercredi 5 décembre 12

TROUVER 400K NOUVELLES URLS
À PROMOUVOIR PARMI 84M ?

Similarités et Classiﬁcations
Recommandation &
intelligence collective
OpenData

mercredi 5 décembre 12

OUTILS
Collecter Traiter Analyser

Pig

mercredi 5 décembre 12

TYPES DE REQUETES
Analyse par zones de géographique
Données socio-économiques
Recherches de similarités
Analyse au niveau Url (granularité ﬁne)
Impact du Crawl sur les visites

mercredi 5 décembre 12

PIPELINE
Data
Insee
géo-éco

Visites
Logs Similarit. Urls.
seo

Crawl
seo

mercredi 5 décembre 12

IMPACT DU CRAWL

Projection et croisement de 2 sources
Visites
Crawl
Pig COGROUP
Patterns sur TS

mercredi 5 décembre 12

LONG TAIL
Très grosses concentrations d’activités sur
certaines localités.
Map/Reduce !! 1: 3003
2: 399
10: 243
PIG Skewed joins 50: 100
100: 54
500: 4

mercredi 5 décembre 12

HEATMAPS
Départements
(96)

Volume de
visites
Activités (10500)

mercredi 5 décembre 12

MESURER : RANKINGS

Collecte des réponses Google (30x par
recherche = dizaines de millions par mois)
Forte croissance de la volumétrie
Classiﬁer et Segmenter par produit, par
thématiques.

mercredi 5 décembre 12

OUTILS
Collecter Traiter Stocker Visualiser

D3.js
Pig

Analyser

mercredi 5 décembre 12

MONGODB
Base document
Stocker l’information avec son contexte
Données agrégées et leurs détails
Univers Catégories { univers : ‘‘restaurants’’,
n métrique : 250,
n n regions : [‘‘idf ’’, ‘‘paca’’],
Métriques sousMétriques : [
n {petitesVilles : 80},
{moyennesVilles : 70},
Localités
{grandesVilles : 100},]
}
mercredi 5 décembre 12

EVOLUTIONS ?

Plus de temps réel : Impala, Spark/Shark ?
Bases de données colonnes pour les données
pure SQL ?
Utilisation d’Elasticsearch pour indexer les
données rafﬁnées ?

mercredi 5 décembre 12

GENERALISATION
Scalabilité des outils de traitement de logs
Variation des besoins
Migration mySQL vers Hadoop/Hive : SQL
Plateforme managée : "Simple as a Query"
Avoir une boite à outils de Data-Analyse
Dans un cloud mais local (FR)

mercredi 5 décembre 12

MERCI !

Vincent Heuschling
Gsm : 06 61 88 76 71
Email : vhe@afﬁni-tech.com
Web : http://www.afﬁni-tech.com
Twitter : @afﬁnitech & @vhe74

© 2012 Afﬁni-Tech - Diffusion restreinte 24

mercredi 5 décembre 12

Recommandé

Big-Data et données SEO par Affini-Tech

Vincent Heuschling

Hadoop Ecosystème (2013-03) par Affini-Tech

Vincent Heuschling

Dépasser map() et reduce()Modern Data Stack France

Hadoop HPC, calcul de VAR sur Hadoop vs GridGainModern Data Stack France

Hadoop chez Kobojo

Modern Data Stack France

HCatalog

Modern Data Stack France

Hadopp Vue d'ensemble

Modern Data Stack France

Hadoop Graph Analysis par Thomas VialModern Data Stack France

Recommandé

Big-Data et données SEO par Affini-Tech

Vincent Heuschling

Hadoop Ecosystème (2013-03) par Affini-Tech

Vincent Heuschling

Dépasser map() et reduce()Modern Data Stack France

Hadoop HPC, calcul de VAR sur Hadoop vs GridGainModern Data Stack France

Hadoop chez Kobojo

Modern Data Stack France

HCatalog

Modern Data Stack France

Hadopp Vue d'ensemble

Modern Data Stack France

Hadoop Graph Analysis par Thomas VialModern Data Stack France

Retour Hadoop Summit 2012

Modern Data Stack France

June Spark meetup : search as recommandation

Modern Data Stack France

Paris Spark meetup : Extension de Spark (Tachyon / Spark JobServer) par jlamiel

Modern Data Stack France

Spark ML par Xebia (Spark Meetup du 11/06/2015)

Modern Data Stack France

Mathias Herberts fait le retour d'expérience Hadoop au Crédit Mutuel ArkéaModern Data Stack France

Spark dataframe

Modern Data Stack France

Intro à la librairie R GGPLOT2

Vincent Heuschling

Feedback du EMEA Hadoop Summit 2013

Vincent Heuschling

Analyse prédictive en assurance santé par Julien CabotModern Data Stack France

M7 and Apache Drill, Micheal HausenblasModern Data Stack France

Cascalog présenté par Bertrand DechouxModern Data Stack France

Syncsort et le retour d'expérience ComScoreModern Data Stack France

Marcel Kornacker: Impala tech talk Tue Feb 26th 2013Modern Data Stack France

IBM Stream au Hadoop User GroupModern Data Stack France

Hug france-2012-12-04

Ted Dunning

Hadoop on AzureModern Data Stack France

Talend Open Studio for Big Data (powered by Apache Hadoop)

Modern Data Stack France

Cassandra Hadoop Best Practices by Jeremy HannaModern Data Stack France

Cassandra Hadoop Integration at HUG France by Piotr KołaczkowskiModern Data Stack France

Hadoop meetup : HUGFR Construire le cluster le plus rapide pour l'analyse des...

Modern Data Stack France

Construire le cluster le plus rapide pour l'analyse des datas : benchmarks sur un régresseur par Christopher Bourez (Axa Global Direct) Les toutes dernières technologies de calcul parallèle permettent de calculer des modèles de prédiction sur des big datas en des temps records. Avec le cloud est facilité l'accès à des configurations hardware modernes avec la possibilité d'une scalabilité éphémère durant les calculs. Des benchmarks sont réalisés sur plusieurs configuration hardware, allant de 1 instance à un cluster de 100 instances. Christopher Bourez, développeur & manager expert en systèmes d'information modernes chez Axa Global Direct. Alien thinker. Blog : http://christopher5106.github.io/

Linked In 3eme Table Ronde 20111209

Dario Mangano

Estimation de projets Drupal

Adyax

Contenu connexe

En vedette

Retour Hadoop Summit 2012

Modern Data Stack France

June Spark meetup : search as recommandation

Modern Data Stack France

Paris Spark meetup : Extension de Spark (Tachyon / Spark JobServer) par jlamiel

Modern Data Stack France

Spark ML par Xebia (Spark Meetup du 11/06/2015)

Modern Data Stack France

Mathias Herberts fait le retour d'expérience Hadoop au Crédit Mutuel ArkéaModern Data Stack France

Spark dataframe

Modern Data Stack France

Intro à la librairie R GGPLOT2

Vincent Heuschling

Feedback du EMEA Hadoop Summit 2013

Vincent Heuschling

Analyse prédictive en assurance santé par Julien CabotModern Data Stack France

M7 and Apache Drill, Micheal HausenblasModern Data Stack France

Cascalog présenté par Bertrand DechouxModern Data Stack France

Syncsort et le retour d'expérience ComScoreModern Data Stack France

Marcel Kornacker: Impala tech talk Tue Feb 26th 2013Modern Data Stack France

IBM Stream au Hadoop User GroupModern Data Stack France

Hug france-2012-12-04

Ted Dunning

Hadoop on AzureModern Data Stack France

Talend Open Studio for Big Data (powered by Apache Hadoop)

Modern Data Stack France

Cassandra Hadoop Best Practices by Jeremy HannaModern Data Stack France

Cassandra Hadoop Integration at HUG France by Piotr KołaczkowskiModern Data Stack France

Hadoop meetup : HUGFR Construire le cluster le plus rapide pour l'analyse des...

Modern Data Stack France

En vedette (20)

Retour Hadoop Summit 2012

June Spark meetup : search as recommandation

Paris Spark meetup : Extension de Spark (Tachyon / Spark JobServer) par jlamiel

Spark ML par Xebia (Spark Meetup du 11/06/2015)

Mathias Herberts fait le retour d'expérience Hadoop au Crédit Mutuel Arkéa

Spark dataframe

Intro à la librairie R GGPLOT2

Feedback du EMEA Hadoop Summit 2013

Analyse prédictive en assurance santé par Julien Cabot

M7 and Apache Drill, Micheal Hausenblas

Cascalog présenté par Bertrand Dechoux

Syncsort et le retour d'expérience ComScore

Marcel Kornacker: Impala tech talk Tue Feb 26th 2013

IBM Stream au Hadoop User Group

Hug france-2012-12-04

Hadoop on Azure

Talend Open Studio for Big Data (powered by Apache Hadoop)

Cassandra Hadoop Best Practices by Jeremy Hanna

Cassandra Hadoop Integration at HUG France by Piotr Kołaczkowski

Hadoop meetup : HUGFR Construire le cluster le plus rapide pour l'analyse des...

Similaire à Big Data et SEO, par Vincent Heuschling

Linked In 3eme Table Ronde 20111209

Dario Mangano

Estimation de projets Drupal

Adyax

Valtech - Big Data : Détails d’une mise en œuvre

Valtech

Big Data : Détails d’une mise en œuvre Construction d’une solution d’analyse d’e-reputation Collecter et stocker les données : Quelle infrastructure ? Corréler et agréger les données : Quelle analyse ? Restituer et exploiter : Quels résultats ? Présentation animée par Hervé Desaunois, Responsable Technique, Valtech herve.desaunois@valtech.fr Evénement - Big Data : ne dormez pas sur vos données ! Valtech - 29/11

Comment devenir Data Scientist ?

Jedha Bootcamp

Ritme data solutions : Plateforme Data Science COsMO

Aurélien Adamo

Session découverte de la Logical Data Fabric soutenue par la Data Virtualization

Denodo

Watch full webinar here: https://bit.ly/3oGxZmz Reconnu en tant que leader dans le Gartner® Magic Quadrant™ for Data Integration Tools ainsi que Customers’ Choice 3 années consécutives, Denodo Platform, soutenue par la Data Virtualization, permet une approche moderne de l'intégration, de la gestion et de la livraison des données, en offrant des fonctionnalités clés telles que la couche d'abstraction des données, les requêtes optimisées par l'IA pour les charges de travail analytiques complexes, le data catalog basé sur l'IA/ML, et la gestion de l'infrastructure cloud. Découvrez lors de cette session d'1h30 en quoi la Logical Data Fabric et la Data Virtualization révolutionnent l'approche métier & IT dans l’accès, la livraison, la consommation, la gouvernance et la sécurisation de vos données, quel que soit l'âge de votre technologie, le format de la donnée ou son emplacement. Cette technologie mature comble le fossé entre l’IT et les utilisateurs métier, et permet des économies considérables en termes de coûts et de temps.

Escen221019

Alexandre Cazaurang

Acquérir, développer et fidéliser votre Tribu

TRIBELEADR

Similaire à Big Data et SEO, par Vincent Heuschling (8)

Linked In 3eme Table Ronde 20111209

Estimation de projets Drupal

Valtech - Big Data : Détails d’une mise en œuvre

Comment devenir Data Scientist ?

Ritme data solutions : Plateforme Data Science COsMO

Session découverte de la Logical Data Fabric soutenue par la Data Virtualization

Escen221019

Acquérir, développer et fidéliser votre Tribu

Plus de Modern Data Stack France

Stash - Data FinOPS

Modern Data Stack France

FinOps Data - FR - par Matthieu Rousseau & Ismael Goulani Matthieu Rousseau, CEO & Data Engineer Modeo. Ismael Goulani, CTO & Data Engineer Modeo. Retour sur le premier prix dans la catégorie "Solution Innovante" du challenge #LaNuitdelaData avec leur solution Stach, plateforme qui aide les équipes Data à mieux comprendre l'utilisation des données par les "consumers", son coût, et son impact carbone.

Vue d'ensemble Dremio

Modern Data Stack France

Dremio, une architecture simple et performance pour votre data lakehouse. Dans le monde de la donnée, Dremio, est inclassable ! C’est à la fois une plateforme de diffusion des données, un moteur SQL puissant basé sur Apache Arrow, Apache Calcite, Apache Parquet, un catalogue de données actif et aussi un Data Lakehouse ouvert ! Après avoir fait connaissance avec cette plateforme, il s’agira de préciser comment Dremio aide les organisations à relever les défis qui sont les leurs en matière de gestion et gouvernance des données facilitant l’exécution de leurs analyses dans le cloud (et/ou sur site) sans le coût, la complexité et le verrouillage des entrepôts de données.

From Data Warehouse to Lakehouse

Modern Data Stack France

Tomer Shiran est le fondateur et chef de produit (CPO) de Dremio. Tomer était le 4e employé et vice-président produit de MapR, un pionnier de l'analyse du Big Data. Il a également occupé de nombreux postes de gestion de produits et d'ingénierie chez IBM Research et Microsoft, et a fondé plusieurs sites Web qui ont servi des millions d'utilisateurs. Il est titulaire d'un Master en génie informatique de l'Université Carnegie Mellon et d'un Bachelor of Science en informatique du Technion - Israel Institute of Technology. Le Modern Data Stack meetup est ravi d'accueillir Tomer Shiran. Depuis Apache Drill, Apache Arrow maintenant Apache Iceberg, il ancre avec ses équipes des choix pour Dremio avec une vision de la plateforme de données “ouverte” basée sur des technologies open source. En plus, de ces valeurs qui évitent le verrouillage de clients dans des formats propriétaires, il a aussi le souci des coûts qu’engendrent de telles plateformes. Il sait aussi proposer un certain nombre de fonctionnalités qui transforment la gestion de données grâce à des initiatives telles Nessie qui ouvre la route du Data As Code et du transactionnel multi-processus. Le Modern Data Stack Meetup laisse “carte blanche” à Tomer Shiran afin qu’il nous partage son expérience et sa vision quant à l’Open Data Lakehouse.

Talend spark meetup 03042017 - Paris Spark Meetup

Modern Data Stack France

Paris Spark Meetup - Trifacta - 03_04_2017

Modern Data Stack France

HUG France Feb 2016 - Migration de données structurées entre Hadoop et RDBMS ...

Modern Data Stack France

Migration de données structurées entre Hadoop et RDBMS par Louis Rabiet (Squid Solution) Avec l'extraction de données stockées dans une base de données relationnelle à l'aide d'un outil de BI avancé, et avec l'envoi via Kafka des données vers Tachyon, plusieurs sessions Spark peuvent travailler sur le même dataset en limitant la duplication. On obtient grâce à cela une communication à coût contrôlé entre la base de données d'origine et Spark ce qui permet de réintroduire de manière dynamique les données modifiées avec MLlib tout en travaillant sur des données à jour. Les résultats préliminaires seront partagés durant cette présentation.

Hadoop France meetup Feb2016 : recommendations with spark

Modern Data Stack France

Système de recommandations de produits sur un site marchand par Koby KARP, Data Scientist (Equancy) & Hervé MIGNOT, Partner at Equancy La recommandation reste un outil clé pour la personnalisation des sites marchands et le sujet est loin d’être épuisé. La prise en compte de la particularité d’un marché peut nécessité d’adapter le traitement et les algorithmes utilisés. Après une revue des techniques de recommandations, nous présenterons la démarche spécifique que nous avons adopté. Le système a été développé sous Spark pour la préparation des données et le calcul des modèles de recommandations. Une API simple et son service ont été développé pour délivrer les recommandations aux applications clientes.

Hug janvier 2016 -EDF

Modern Data Stack France

L'approche Model as Code par Benoit Grossin (EDF-R&D) et Matthieu Vautrot (Quantmetry) La mise en production de modèles est une étape charnière du cycle de vie d’un projet Data Science mené au sein d’une entreprise. On observe que cette partie est encore rarement industrialisée alors qu’elle est indispensable pour l’exploitation continue des résultats des modèles. Lorsque qu’un modèle finalisé présente un pouvoir prédictif satisfaisant en phase de développement, l'industrialisation de sa mise en production permet de le déployer et de l’exploiter de manière continue et automatique et ce, en minimisant la charge de travail. Notre intervention présentera notre retour d'expérience dans le contexte EDF sur la mise en place d'une approche capable de raccourcir voire d'annuler le temps de mise en production dans un environnement Hadoop et plus particulièrement Hive. Benoit Grossin est Ingénieur de Recherche chez EDF-R&D ICAM Matthieu Vautrot est Consultant Analytics & Big Data chez Quantmetry

HUG France - 20160114 industrialisation_process_big_data CanalPlus

Modern Data Stack France

Industrialisation des processus Big Data chez CANAL+ par Pascal PERISSEAU et Stephen CLAIRVILLE (CanalPlus) L'intégration de la brique technique Big Data au sein d'une architecture décisionnelle déjà existante. Retour d’expérience sur les développements réalisés afin de faciliter l’intégration, la supervision, et l’exploitation des flux Hadoop dans notre écosystème décisionnel / présentation de la phase préparatoire de la mise à disposition des données aux data analysts et data scientists. Pascal PERISSEAU, responsable technique du pôle décisionnel et Big Data chez CANAL+ depuis 10 ans Stephen CLAIRVILLE, chef de projet tech. lead Big Data depuis 2 ans chez CANAL+

Hugfr SPARK & RIAK -20160114_hug_france

Modern Data Stack France

Presentation faite lors du Hadoop User Group France du 14 janvier 2016. L’analytique temps réel avec Riak et Spark par Michael Carney (Basho) et Olivier Girardot de Lateral Thoughts Selon un rapport de Salesforce, le nombre de sources de données analysées par les entreprises progressera de 83% au cours des cinq prochaines années, ainsi les organisations veulent désormais fournir des connaissances en temps réel même sur les appareils mobiles. Le traitement temps réel est donc, le futur de l’analyse big data. Ce talk présentera des nouveautés en matière de l’analyse temps réel autour de la famille SGBD Riak et Spark. Michael Carney est le Directeur Commercial de Basho pour le Sud d’Europe. Fondateur de MySQL France et de MariaDB, Michael a rejoint Basho en janvier 2015 pour explorer le monde de données sans tables ! Olivier Girardot est le CTO de Lateral Thoughts, il est développeur et formateur au sujet de Spark et également spécialiste de Java/Python dans le domaine de la finance de marché.

HUG France : HBase in Financial Industry par Pierre Bittner (Scaled Risk CTO)

Modern Data Stack France

HBase in Financial Industry par Pierre Bittner (Scaled Risk CTO) Le traitement et l’analyse de grand volume de données sont au cœur des activités des banques. Bon nombre d’acteurs des marchés financiers ont déjà adopté Hadoop sur de nombreux cas d’usage : gestion des risques, identification des opportunités commerciales, détection de fraude, surveillance des marchés… Une incroyable diversité de format doit être gérée. De ce point de vue, HBase est un choix naturel de base de données distribuée grâce à son modèle de donnée dynamique. Après une présentation générale des caractéristiques d’HBase, ce talk présente comment modéliser les informations traitées pour s’adapter à différents contextes d’utilisation. Pierre Bittner est le CTO de Scaled Risk, éditeur d’une plateforme Big Data dédiée aux institutions financières. Scaled Risk est bâtie sur HBase. Pierre intervient depuis 10 ans sur les SI bancaires.

Apache Flink par Bilal Baltagi Paris Spark Meetup Dec 2015

Modern Data Stack France

Démarrer rapidement avec Apache Flink par Bilal Baltagi - Présentation de l'éco Système Apache Flink - Prise en main rapide Bilal Baltagi a obtenu un master en analyse des données à l'Université Paris Nord - Paris 13. Il est actuellement consultant décisionnel chez Sarenza à Paris. Il intervient sur toutes les phases d'un projet décisionnel et Big data: recueil des besoins, conceptions, réalisations et accompagnement des utilisateurs. Bilal est de plus en plus intéressé à l'intersection de la Big Data avec la Business Intelligence et aime jouer avec Apache Flink!

Datalab 101 (Hadoop, Spark, ElasticSearch) par Jonathan Winandy - Paris Spark...

Modern Data Stack France

Datalab 101 (Hadoop, Spark, ElasticSearch) par Jonathan Winandy Retour d'expérience sur la mise en place d'un Datalab avec Hadoop, Spark et ElasticSearch dans un environnement contraint. Nous allons exposer les méthodes qui nous ont permis d'améliorer la conception, le développement, les performances et la recette d'une application complexe en Spark. Jonathan Winandy est MOE, développeur Java/Scala spécialisé dans les pipelines de données.

Record linkage, a real use case with spark ml - Paris Spark meetup Dec 2015

Modern Data Stack France

Record Linkage, un cas d’utilisation en Spark ML par Alexis Seigneurin Le Record Linkage est le process qui consiste à trouver, dans un data set, les enregistrements qui représentent la même entité. Cette opération est particulièrement compliquée quand, comme nous, vous travaillez avec des données anonymisées. C’est là que le Machine Learning vient en renfort ! Nous avons implémenté un algorithme de Record Linkage en Spark SQL (DataFrames) et Spark ML plutôt que d’utiliser des règles statiques. Nous verrons le process de Feature Engineering, pourquoi nous avons dû étendre Spark DataFrames pour préserver des méta-données au travers du pipeline de traitement, et comment nous avons utilisé le Machine Learning pour réconcilier les enregistrements. Nous verrons enfin comment nous avons industrialisé cette application. Alexis Seigneurin : Développeur depuis 15 ans, j'attache beaucoup d'importance aux problématiques de traitement, d'analyse et de stockage de la donnée.Chez Ippon, j'interviens principalement sur des missions de conseil et d'architecture autour de technologies big data. Par ailleurs, j'anime la formation Spark chez Ippon.

Spark meetup at viadeo

Modern Data Stack France

Hadoop User Group 29Jan2015 Apache Flink / Haven / CapGemnini REX

Modern Data Stack France

HUG Hadoop User Group du 29 Janvier 2015 chez HP. Slidedeck des 3 talks ci-dessous: #1: Traitement des données non structurées (Vidéos, images, …) avec Haven pour Hadoop, #2: Apache Flink: Fast and Reliable Large-scale Data Processing, #3: Etude de cas, projet Hadoop dans le domaine des RH avec Capgemini. La vectorisation des documents : rendre comparables des informations non structurées, de nouvelles opportunités pour un acteur de l’emploi

The Cascading (big) data application framework

Modern Data Stack France

Introduction sur Tez par Olivier RENAULT de HortonWorks Meetup du 25/11/2014

Modern Data Stack France

During this presentation, Olivier will introduce Apache Tez. What it does ? Why is it seen by many as the Map Reduce v2. How is it helping Hive / Pig / Cascading and other increase their performance. Speaker: Olivier Renault is a Principal Solution Engineer at Hortonworks the company behind Hortonworks Data Platform. Olivier is an expert on how to deploy Hadoop at scale in a secure and performant manner.

Hug france - Administration Hadoop et retour d’expérience BI avec Impala, lim...

Modern Data Stack France

HUGFR : Une infrastructure Kafka & Storm pour lutter contre les attaques DDoS...

Modern Data Stack France

Plus de Modern Data Stack France (20)

Stash - Data FinOPS

Vue d'ensemble Dremio

From Data Warehouse to Lakehouse

Talend spark meetup 03042017 - Paris Spark Meetup

Paris Spark Meetup - Trifacta - 03_04_2017

HUG France Feb 2016 - Migration de données structurées entre Hadoop et RDBMS ...

Hadoop France meetup Feb2016 : recommendations with spark

Hug janvier 2016 -EDF

HUG France - 20160114 industrialisation_process_big_data CanalPlus

Hugfr SPARK & RIAK -20160114_hug_france

HUG France : HBase in Financial Industry par Pierre Bittner (Scaled Risk CTO)

Apache Flink par Bilal Baltagi Paris Spark Meetup Dec 2015

Datalab 101 (Hadoop, Spark, ElasticSearch) par Jonathan Winandy - Paris Spark...

Record linkage, a real use case with spark ml - Paris Spark meetup Dec 2015

Spark meetup at viadeo

Hadoop User Group 29Jan2015 Apache Flink / Haven / CapGemnini REX

The Cascading (big) data application framework

Introduction sur Tez par Olivier RENAULT de HortonWorks Meetup du 25/11/2014

Hug france - Administration Hadoop et retour d’expérience BI avec Impala, lim...

HUGFR : Une infrastructure Kafka & Storm pour lutter contre les attaques DDoS...

Big Data et SEO, par Vincent Heuschling

1. BIGDATA ET DONNÉES SEO Vincent Heuschling @vhe74 mercredi 5 décembre 12

2. AGENDA AFFINI-TECH SEO ? TRAITER et ANALYSER MESURER OUTILS EVOLUTION DES MOYENS mercredi 5 décembre 12

3. 3 PILIERS Méthodes projets Business Outils de reporting & & Data-visualisation Analyses BigData Modélisation Hadoop Technos Sciences Statistiques (R) NoSQL Machine Learning Cloud Intégration, Mise en Oeuvre, Conseil et Formation Une démarche intégrée de bout en bout © 2012 Afﬁni-Tech - Diffusion restreinte 3 mercredi 5 décembre 12

5. SEO ? Optimiser le traﬁc d'un site web issu des moteurs de recherche. Déﬁnir quels éléments du site sont à forte valeur et les promouvoir vers les moteurs de recherches Mesurer et étudier le positionnement du site sur des recherches vis à vis de sa concurrence mercredi 5 décembre 12

6. CONTEXTE 100 millions de visites par mois Patrimoine informationnel très riche Business model basé sur la pub Marché ultra concurrentiel Plus de 15 Go de log par jour (sous-traités) Appliance Teradata de 12 To compressés + SAS mercredi 5 décembre 12

7. COMBIEN ? 10 visites SEO (hors marque) 30 visites SEO (marque) 90 visites non SEO 20 crawl x7 à x10 au total (pages + ressources) Nécessité de ﬁltrer à la source mercredi 5 décembre 12

8. DÉMARCHE SEO Mesurer Collecter Produire Analyser mercredi 5 décembre 12

9. TROUVER 400K NOUVELLES URLS À PROMOUVOIR PARMI 84M ? Similarités et Classiﬁcations Recommandation & intelligence collective OpenData mercredi 5 décembre 12

10. OUTILS Collecter Traiter Analyser Pig mercredi 5 décembre 12

11. TYPES DE REQUETES Analyse par zones de géographique Données socio-économiques Recherches de similarités Analyse au niveau Url (granularité ﬁne) Impact du Crawl sur les visites mercredi 5 décembre 12

12. PIPELINE Data Insee géo-éco Visites Logs Similarit. Urls. seo Crawl seo mercredi 5 décembre 12

13. IMPACT DU CRAWL Projection et croisement de 2 sources Visites Crawl Pig COGROUP Patterns sur TS mercredi 5 décembre 12

14. LONG TAIL Très grosses concentrations d’activités sur certaines localités. Map/Reduce !! 1: 3003 2: 399 10: 243 PIG Skewed joins 50: 100 100: 54 500: 4 mercredi 5 décembre 12

15. HEATMAPS Départements (96) Volume de visites Activités (10500) mercredi 5 décembre 12

16. MESURER : RANKINGS Collecte des réponses Google (30x par recherche = dizaines de millions par mois) Forte croissance de la volumétrie Classiﬁer et Segmenter par produit, par thématiques. mercredi 5 décembre 12

17. mercredi 5 décembre 12

18. OUTILS Collecter Traiter Stocker Visualiser D3.js Pig Analyser mercredi 5 décembre 12

19. MONGODB Base document Stocker l’information avec son contexte Données agrégées et leurs détails Univers Catégories { univers : ‘‘restaurants’’, n métrique : 250, n n regions : [‘‘idf ’’, ‘‘paca’’], Métriques sousMétriques : [ n {petitesVilles : 80}, {moyennesVilles : 70}, Localités {grandesVilles : 100},] } mercredi 5 décembre 12

20. RÉSULTATS mercredi 5 décembre 12

21. EVOLUTIONS ? Plus de temps réel : Impala, Spark/Shark ? Bases de données colonnes pour les données pure SQL ? Utilisation d’Elasticsearch pour indexer les données rafﬁnées ? mercredi 5 décembre 12

22. GENERALISATION Scalabilité des outils de traitement de logs Variation des besoins Migration mySQL vers Hadoop/Hive : SQL Plateforme managée : "Simple as a Query" Avoir une boite à outils de Data-Analyse Dans un cloud mais local (FR) mercredi 5 décembre 12

23. MERCI ! Vincent Heuschling Gsm : 06 61 88 76 71 Email : vhe@affini-tech.com Web : http://www.affini-tech.com Twitter : @affinitech & @vhe74 © 2012 Affini-Tech - Diffusion restreinte 24 mercredi 5 décembre 12