SlideShare une entreprise Scribd logo
1  sur  23
Fausses données
et Bad Data :
restez vigilant!
Vincent Terrasi
Product Director OnCrawl
Formateur – Conférencier
Chasseur de BAD DATA
@vincentterrasi
LA plateforme dédiée à l’optimisation
technique du référencement naturel
OnCrawl SEO Crawler
Analysez votre site
à la manière de Google
OnCrawl Log Analyzer
Suivez le comportement des bots
et des visiteurs
OnCrawl Data³
Comprenez l’influence des
facteurs de positionnement
sur l’indexabilité
Source : InfoGix.com
Source : Gartner 2018 + Harvard Business Review
G
A
F
A
OOGLE +
ACEBOOK DEALS
MAZON
RESTAURANTS
PPLE PING
3 100 000 000 000 000 000 $ par an
3,1 TRILLION $ par an
=
LA DETTE DATA COÛTE BEAUCOUP PLUS CHER QUE LA DETTE TECHNIQUE
DATA DIFFERENTE
Google Analytics et AT Internet
 Pas les mêmes définitions
Google Search et Google Adword
 Pas les mêmes objectifs
SEMrush et Yooda
 Pas les mêmes périmètres
SOLUTIONS : VALIDER LES DEFINITIONS
DATA CORROMPUE
VOLONTAIRE
> Achat de clics > Achat de trafic > Achat de Likes
INVOLONTAIRE
> Les bots > Passage TV > DDOS
UN PEU LES DEUX
 Réduire le temps de session !
 Changer le modèle d’attribution
SOLUTION
1. Créer une vue
« Raw Data » qui
tous les bots
2. Monitorer les
changements
de trafic à la hausse
la baisse
DATA MANQUANTE
Google Analytics vs Search Console vs Logs
Site
 1 TAG JS manquant
 1 TAG JS posé plusieurs fois
Serveur
 1 SOUCI TECHNIQUE
Client :
 Adblocker
 DO NOT TRACK
SOLUTIONS : CRAWLER - ANTI-ADBLOCK
DATA A SUPPRIMER
 Nouvelles lois ( RGPD )
 Durée de conservation
SOLUTIONS : ANONYMISER LES DATA, DECLARER TOUS LES PROCESS
MULTI SOURCE
Quelles données sont les plus fiables ?
DATA PÉRIMÉE
 Changement d’adresse
 Fusion / Acquisition de société
 Changement de téléphone
SOLUTIONS : METTRE DES DATES de MISE A JOUR A LA MINUTE PRES
DATA MAL CONVERTIE
 Timezone
 Currencies ( €, $, … )
SOLUTIONS : RECUPERER CHAQUE JOUR LES TAUX DE CONVERSION
CLIENT DUPLIQUE
Level 1
> sur plusieurs bases de données différentes
Level 2
> sous différentes identifications
Level 3
> sur plusieurs bases de données différentes et sous
différentes identifications
Solution : Référentiel client unique
DATA DECLARATIVE
 CRM
SOLUTIONS : UTILISER UN TIERS DE CONFIANCE
DATA TROP AGGREGEE
> Temporel : Filtrer à l’heure sur des
jour
> Catégoriel : Catégorie qui regroupe trop
catégories
> Lieu : Filtrer par ville sur des données
SOLUTIONS : TRAVAILLER SUR LES DONNES BRUTES
CHAMPS DE FORMULAIRE MANQUANT ou PRIS EN OTAGE
> Ajout du SIRET
> Ajout du DUNS
> Séparer le code postal de l’adresse
MACHINE LEARNING : SUR-OPTIMISATION
Avec les BAD DATA, les biais sont amplifiés par les machines
 Word2Vec
GENRE : Machine à coudre
AGE : Docteur
SOLUTION
1. Identifier la direction du biais
2. Neutraliser ces mots
3. Egaliser les pairs ( la seul différence entre fille et garçon
doit être le genre )
4. Si la pair de mots est peu défini, nous pouvons la
passer
Les BAD DATA peuvent être très utile
VOIX
IMAGE
TEXTE
VIDEO
NEWS
DEVELOPPER L’ESPRIT CRITIQUE
PLAN
ANTI
BAD
DATA
Savoir à quoi ressemble les BAD DATA
(Champ vide, Champ dupliqué, Donnée de
mauvaise qualité)
Surveiller chaque jour tous les changements
impactants de façon automatique
Collecter seulement les données dont vous avez
besoin, partager et documenter des définitions
communes
Nettoyer, enrichir et auditer régulièrement vos
données
Développer l’esprit critique de vos équipes
www.oncrawl.com
Start your free trial
MERCI

Contenu connexe

Similaire à Fausses données et Bad Data : restez vigilant !

Formation stratégie numérique
Formation stratégie numériqueFormation stratégie numérique
Formation stratégie numériqueDanielle Tardif
 
Arnaques, crimes et analytics - Aristide Riou - Measure Camp Paris 2016
Arnaques, crimes et analytics - Aristide Riou - Measure Camp Paris 2016Arnaques, crimes et analytics - Aristide Riou - Measure Camp Paris 2016
Arnaques, crimes et analytics - Aristide Riou - Measure Camp Paris 2016Prénom Nom de famille
 
Les trois A’s : Automation #part 3
Les trois A’s : Automation #part 3Les trois A’s : Automation #part 3
Les trois A’s : Automation #part 3Semrush France
 
Google Analytics : le dompter pour décider ... à bon escient !
Google Analytics : le dompter pour décider ... à bon escient !Google Analytics : le dompter pour décider ... à bon escient !
Google Analytics : le dompter pour décider ... à bon escient !Enhance Digital
 
FR - Emarketing Paris - Automatiser ? Oui, mais pas n'importe comment
FR - Emarketing Paris - Automatiser ? Oui, mais pas n'importe commentFR - Emarketing Paris - Automatiser ? Oui, mais pas n'importe comment
FR - Emarketing Paris - Automatiser ? Oui, mais pas n'importe commentCopernica BV
 
Les trois A’s : Attribution #part 1
Les trois A’s : Attribution #part 1Les trois A’s : Attribution #part 1
Les trois A’s : Attribution #part 1Semrush France
 
28/09/2017 Séminaire Data & Activation Client
28/09/2017 Séminaire Data & Activation Client28/09/2017 Séminaire Data & Activation Client
28/09/2017 Séminaire Data & Activation ClientSoft Computing
 
Web Analytics: Optimiser sa performance web
Web Analytics: Optimiser sa performance webWeb Analytics: Optimiser sa performance web
Web Analytics: Optimiser sa performance webOSERESO
 
Google Analytics - Des bases actionnables en 45min - LEC Geneve 2019
Google Analytics - Des bases actionnables en 45min - LEC Geneve 2019Google Analytics - Des bases actionnables en 45min - LEC Geneve 2019
Google Analytics - Des bases actionnables en 45min - LEC Geneve 2019Bruno Guyot
 
Adwebmaroc Programmatique Real Time Bidding
Adwebmaroc Programmatique Real Time BiddingAdwebmaroc Programmatique Real Time Bidding
Adwebmaroc Programmatique Real Time BiddingMouna Ouajid Berrada
 
Flupa UX Days 2017: "UX + DONNÉES = <3> par Simon White
Flupa UX Days 2017: "UX + DONNÉES = <3> par Simon WhiteFlupa UX Days 2017: "UX + DONNÉES = <3> par Simon White
Flupa UX Days 2017: "UX + DONNÉES = <3> par Simon WhiteFlupa
 
Optimiser sa stratégie d'acquisition (conférence E-commerce Paris 2014, Flori...
Optimiser sa stratégie d'acquisition (conférence E-commerce Paris 2014, Flori...Optimiser sa stratégie d'acquisition (conférence E-commerce Paris 2014, Flori...
Optimiser sa stratégie d'acquisition (conférence E-commerce Paris 2014, Flori...altima°
 
Comment la DMP permet à SFR de proposer l’offre la plus adaptée à ses clients
Comment la DMP permet à SFR de proposer l’offre la plus adaptée à ses clientsComment la DMP permet à SFR de proposer l’offre la plus adaptée à ses clients
Comment la DMP permet à SFR de proposer l’offre la plus adaptée à ses clientsMorgan Fabre
 
L’analytique web : Transformer les chiffres en intelligence d’affaires
L’analytique web : Transformer les chiffres en intelligence d’affairesL’analytique web : Transformer les chiffres en intelligence d’affaires
L’analytique web : Transformer les chiffres en intelligence d’affairesGestion Websource inc.
 
Créer un site internet ou un blog
Créer un site internet ou un blogCréer un site internet ou un blog
Créer un site internet ou un blogSéverine Alix
 
UX + DONNÉES = Coeur + CRO
UX + DONNÉES = Coeur + CROUX + DONNÉES = Coeur + CRO
UX + DONNÉES = Coeur + CROSimon White
 
e-marketing / webmarketing
e-marketing / webmarketinge-marketing / webmarketing
e-marketing / webmarketingNetinUp Berry
 
Webinar Data et fidélisation client
Webinar Data et fidélisation clientWebinar Data et fidélisation client
Webinar Data et fidélisation clientNicolas BRUCHET
 

Similaire à Fausses données et Bad Data : restez vigilant ! (20)

Formation stratégie numérique
Formation stratégie numériqueFormation stratégie numérique
Formation stratégie numérique
 
Arnaques, crimes et analytics - Aristide Riou - Measure Camp Paris 2016
Arnaques, crimes et analytics - Aristide Riou - Measure Camp Paris 2016Arnaques, crimes et analytics - Aristide Riou - Measure Camp Paris 2016
Arnaques, crimes et analytics - Aristide Riou - Measure Camp Paris 2016
 
Les trois A’s : Automation #part 3
Les trois A’s : Automation #part 3Les trois A’s : Automation #part 3
Les trois A’s : Automation #part 3
 
Google Analytics : le dompter pour décider ... à bon escient !
Google Analytics : le dompter pour décider ... à bon escient !Google Analytics : le dompter pour décider ... à bon escient !
Google Analytics : le dompter pour décider ... à bon escient !
 
FR - Emarketing Paris - Automatiser ? Oui, mais pas n'importe comment
FR - Emarketing Paris - Automatiser ? Oui, mais pas n'importe commentFR - Emarketing Paris - Automatiser ? Oui, mais pas n'importe comment
FR - Emarketing Paris - Automatiser ? Oui, mais pas n'importe comment
 
E-commerce
E-commerce E-commerce
E-commerce
 
Les trois A’s : Attribution #part 1
Les trois A’s : Attribution #part 1Les trois A’s : Attribution #part 1
Les trois A’s : Attribution #part 1
 
28/09/2017 Séminaire Data & Activation Client
28/09/2017 Séminaire Data & Activation Client28/09/2017 Séminaire Data & Activation Client
28/09/2017 Séminaire Data & Activation Client
 
Web Analytics: Optimiser sa performance web
Web Analytics: Optimiser sa performance webWeb Analytics: Optimiser sa performance web
Web Analytics: Optimiser sa performance web
 
Google Analytics - Des bases actionnables en 45min - LEC Geneve 2019
Google Analytics - Des bases actionnables en 45min - LEC Geneve 2019Google Analytics - Des bases actionnables en 45min - LEC Geneve 2019
Google Analytics - Des bases actionnables en 45min - LEC Geneve 2019
 
Data Marketing - Formation
Data Marketing - FormationData Marketing - Formation
Data Marketing - Formation
 
Adwebmaroc Programmatique Real Time Bidding
Adwebmaroc Programmatique Real Time BiddingAdwebmaroc Programmatique Real Time Bidding
Adwebmaroc Programmatique Real Time Bidding
 
Flupa UX Days 2017: "UX + DONNÉES = <3> par Simon White
Flupa UX Days 2017: "UX + DONNÉES = <3> par Simon WhiteFlupa UX Days 2017: "UX + DONNÉES = <3> par Simon White
Flupa UX Days 2017: "UX + DONNÉES = <3> par Simon White
 
Optimiser sa stratégie d'acquisition (conférence E-commerce Paris 2014, Flori...
Optimiser sa stratégie d'acquisition (conférence E-commerce Paris 2014, Flori...Optimiser sa stratégie d'acquisition (conférence E-commerce Paris 2014, Flori...
Optimiser sa stratégie d'acquisition (conférence E-commerce Paris 2014, Flori...
 
Comment la DMP permet à SFR de proposer l’offre la plus adaptée à ses clients
Comment la DMP permet à SFR de proposer l’offre la plus adaptée à ses clientsComment la DMP permet à SFR de proposer l’offre la plus adaptée à ses clients
Comment la DMP permet à SFR de proposer l’offre la plus adaptée à ses clients
 
L’analytique web : Transformer les chiffres en intelligence d’affaires
L’analytique web : Transformer les chiffres en intelligence d’affairesL’analytique web : Transformer les chiffres en intelligence d’affaires
L’analytique web : Transformer les chiffres en intelligence d’affaires
 
Créer un site internet ou un blog
Créer un site internet ou un blogCréer un site internet ou un blog
Créer un site internet ou un blog
 
UX + DONNÉES = Coeur + CRO
UX + DONNÉES = Coeur + CROUX + DONNÉES = Coeur + CRO
UX + DONNÉES = Coeur + CRO
 
e-marketing / webmarketing
e-marketing / webmarketinge-marketing / webmarketing
e-marketing / webmarketing
 
Webinar Data et fidélisation client
Webinar Data et fidélisation clientWebinar Data et fidélisation client
Webinar Data et fidélisation client
 

Plus de Vincent Terrasi

SEO CAMP'us Paris 2024 - Déploiement de l'IA générative privée dans les organ...
SEO CAMP'us Paris 2024 - Déploiement de l'IA générative privée dans les organ...SEO CAMP'us Paris 2024 - Déploiement de l'IA générative privée dans les organ...
SEO CAMP'us Paris 2024 - Déploiement de l'IA générative privée dans les organ...Vincent Terrasi
 
IA générative : Menace ou Opportunité pour le SEO
IA générative : Menace ou Opportunité pour le SEOIA générative : Menace ou Opportunité pour le SEO
IA générative : Menace ou Opportunité pour le SEOVincent Terrasi
 
slides SEO CAMP'us Paris 2022 - Google et tools SEO On vous a menti
slides SEO CAMP'us Paris 2022 - Google et tools SEO  On vous a mentislides SEO CAMP'us Paris 2022 - Google et tools SEO  On vous a menti
slides SEO CAMP'us Paris 2022 - Google et tools SEO On vous a mentiVincent Terrasi
 
Une IA pour votre SEO, une méthode inédite pour accélérer vos projets Data SEO
Une IA pour votre SEO, une méthode inédite pour accélérer vos projets Data SEOUne IA pour votre SEO, une méthode inédite pour accélérer vos projets Data SEO
Une IA pour votre SEO, une méthode inédite pour accélérer vos projets Data SEOVincent Terrasi
 
SEO AnswerBox, une méthode inédite pour interroger vos données et créer vos d...
SEO AnswerBox, une méthode inédite pour interroger vos données et créer vos d...SEO AnswerBox, une méthode inédite pour interroger vos données et créer vos d...
SEO AnswerBox, une méthode inédite pour interroger vos données et créer vos d...Vincent Terrasi
 
Génération de contenu pour le SEO
Génération de contenu pour le SEOGénération de contenu pour le SEO
Génération de contenu pour le SEOVincent Terrasi
 
Comment faire du Data SEO sans savoir programmer ?
Comment faire du Data SEO sans savoir programmer ?Comment faire du Data SEO sans savoir programmer ?
Comment faire du Data SEO sans savoir programmer ?Vincent Terrasi
 
Explainable Machine Learning for Ranking Factors
Explainable Machine Learning for Ranking FactorsExplainable Machine Learning for Ranking Factors
Explainable Machine Learning for Ranking FactorsVincent Terrasi
 
Comment les plateformes de Data Science métamorphosent le SEO ?
Comment les plateformes de Data Science métamorphosent le SEO ?Comment les plateformes de Data Science métamorphosent le SEO ?
Comment les plateformes de Data Science métamorphosent le SEO ?Vincent Terrasi
 
Find out how DataScience has revolutionized SEO for OVH
Find out how DataScience has revolutionized SEO for OVHFind out how DataScience has revolutionized SEO for OVH
Find out how DataScience has revolutionized SEO for OVHVincent Terrasi
 
How to boost your datamanagement with Dremio ?
How to boost your datamanagement with Dremio ?How to boost your datamanagement with Dremio ?
How to boost your datamanagement with Dremio ?Vincent Terrasi
 
How to automate all your SEO projects
How to automate all your SEO projectsHow to automate all your SEO projects
How to automate all your SEO projectsVincent Terrasi
 
How Data Science can boost your SEO ?
How Data Science can boost your SEO ?How Data Science can boost your SEO ?
How Data Science can boost your SEO ?Vincent Terrasi
 
Analyse your SEO Data with R and Kibana
Analyse your SEO Data with R and KibanaAnalyse your SEO Data with R and Kibana
Analyse your SEO Data with R and KibanaVincent Terrasi
 

Plus de Vincent Terrasi (15)

SEO CAMP'us Paris 2024 - Déploiement de l'IA générative privée dans les organ...
SEO CAMP'us Paris 2024 - Déploiement de l'IA générative privée dans les organ...SEO CAMP'us Paris 2024 - Déploiement de l'IA générative privée dans les organ...
SEO CAMP'us Paris 2024 - Déploiement de l'IA générative privée dans les organ...
 
IA générative : Menace ou Opportunité pour le SEO
IA générative : Menace ou Opportunité pour le SEOIA générative : Menace ou Opportunité pour le SEO
IA générative : Menace ou Opportunité pour le SEO
 
slides SEO CAMP'us Paris 2022 - Google et tools SEO On vous a menti
slides SEO CAMP'us Paris 2022 - Google et tools SEO  On vous a mentislides SEO CAMP'us Paris 2022 - Google et tools SEO  On vous a menti
slides SEO CAMP'us Paris 2022 - Google et tools SEO On vous a menti
 
Une IA pour votre SEO, une méthode inédite pour accélérer vos projets Data SEO
Une IA pour votre SEO, une méthode inédite pour accélérer vos projets Data SEOUne IA pour votre SEO, une méthode inédite pour accélérer vos projets Data SEO
Une IA pour votre SEO, une méthode inédite pour accélérer vos projets Data SEO
 
SEO AnswerBox, une méthode inédite pour interroger vos données et créer vos d...
SEO AnswerBox, une méthode inédite pour interroger vos données et créer vos d...SEO AnswerBox, une méthode inédite pour interroger vos données et créer vos d...
SEO AnswerBox, une méthode inédite pour interroger vos données et créer vos d...
 
Génération de contenu pour le SEO
Génération de contenu pour le SEOGénération de contenu pour le SEO
Génération de contenu pour le SEO
 
Comment faire du Data SEO sans savoir programmer ?
Comment faire du Data SEO sans savoir programmer ?Comment faire du Data SEO sans savoir programmer ?
Comment faire du Data SEO sans savoir programmer ?
 
Explainable Machine Learning for Ranking Factors
Explainable Machine Learning for Ranking FactorsExplainable Machine Learning for Ranking Factors
Explainable Machine Learning for Ranking Factors
 
Comment les plateformes de Data Science métamorphosent le SEO ?
Comment les plateformes de Data Science métamorphosent le SEO ?Comment les plateformes de Data Science métamorphosent le SEO ?
Comment les plateformes de Data Science métamorphosent le SEO ?
 
Find out how DataScience has revolutionized SEO for OVH
Find out how DataScience has revolutionized SEO for OVHFind out how DataScience has revolutionized SEO for OVH
Find out how DataScience has revolutionized SEO for OVH
 
How to boost your datamanagement with Dremio ?
How to boost your datamanagement with Dremio ?How to boost your datamanagement with Dremio ?
How to boost your datamanagement with Dremio ?
 
How to automate all your SEO projects
How to automate all your SEO projectsHow to automate all your SEO projects
How to automate all your SEO projects
 
How Data Science can boost your SEO ?
How Data Science can boost your SEO ?How Data Science can boost your SEO ?
How Data Science can boost your SEO ?
 
Meetup Data-science OVH
Meetup Data-science OVHMeetup Data-science OVH
Meetup Data-science OVH
 
Analyse your SEO Data with R and Kibana
Analyse your SEO Data with R and KibanaAnalyse your SEO Data with R and Kibana
Analyse your SEO Data with R and Kibana
 

Fausses données et Bad Data : restez vigilant !

  • 1. Fausses données et Bad Data : restez vigilant!
  • 2. Vincent Terrasi Product Director OnCrawl Formateur – Conférencier Chasseur de BAD DATA @vincentterrasi
  • 3. LA plateforme dédiée à l’optimisation technique du référencement naturel OnCrawl SEO Crawler Analysez votre site à la manière de Google OnCrawl Log Analyzer Suivez le comportement des bots et des visiteurs OnCrawl Data³ Comprenez l’influence des facteurs de positionnement sur l’indexabilité
  • 5. Source : Gartner 2018 + Harvard Business Review G A F A OOGLE + ACEBOOK DEALS MAZON RESTAURANTS PPLE PING
  • 6. 3 100 000 000 000 000 000 $ par an 3,1 TRILLION $ par an = LA DETTE DATA COÛTE BEAUCOUP PLUS CHER QUE LA DETTE TECHNIQUE
  • 7. DATA DIFFERENTE Google Analytics et AT Internet  Pas les mêmes définitions Google Search et Google Adword  Pas les mêmes objectifs SEMrush et Yooda  Pas les mêmes périmètres SOLUTIONS : VALIDER LES DEFINITIONS
  • 8. DATA CORROMPUE VOLONTAIRE > Achat de clics > Achat de trafic > Achat de Likes INVOLONTAIRE > Les bots > Passage TV > DDOS UN PEU LES DEUX  Réduire le temps de session !  Changer le modèle d’attribution
  • 9. SOLUTION 1. Créer une vue « Raw Data » qui tous les bots 2. Monitorer les changements de trafic à la hausse la baisse
  • 10. DATA MANQUANTE Google Analytics vs Search Console vs Logs Site  1 TAG JS manquant  1 TAG JS posé plusieurs fois Serveur  1 SOUCI TECHNIQUE Client :  Adblocker  DO NOT TRACK SOLUTIONS : CRAWLER - ANTI-ADBLOCK
  • 11. DATA A SUPPRIMER  Nouvelles lois ( RGPD )  Durée de conservation SOLUTIONS : ANONYMISER LES DATA, DECLARER TOUS LES PROCESS
  • 12. MULTI SOURCE Quelles données sont les plus fiables ?
  • 13. DATA PÉRIMÉE  Changement d’adresse  Fusion / Acquisition de société  Changement de téléphone SOLUTIONS : METTRE DES DATES de MISE A JOUR A LA MINUTE PRES
  • 14. DATA MAL CONVERTIE  Timezone  Currencies ( €, $, … ) SOLUTIONS : RECUPERER CHAQUE JOUR LES TAUX DE CONVERSION
  • 15. CLIENT DUPLIQUE Level 1 > sur plusieurs bases de données différentes Level 2 > sous différentes identifications Level 3 > sur plusieurs bases de données différentes et sous différentes identifications Solution : Référentiel client unique
  • 16. DATA DECLARATIVE  CRM SOLUTIONS : UTILISER UN TIERS DE CONFIANCE
  • 17. DATA TROP AGGREGEE > Temporel : Filtrer à l’heure sur des jour > Catégoriel : Catégorie qui regroupe trop catégories > Lieu : Filtrer par ville sur des données SOLUTIONS : TRAVAILLER SUR LES DONNES BRUTES
  • 18. CHAMPS DE FORMULAIRE MANQUANT ou PRIS EN OTAGE > Ajout du SIRET > Ajout du DUNS > Séparer le code postal de l’adresse
  • 19. MACHINE LEARNING : SUR-OPTIMISATION Avec les BAD DATA, les biais sont amplifiés par les machines  Word2Vec GENRE : Machine à coudre AGE : Docteur
  • 20. SOLUTION 1. Identifier la direction du biais 2. Neutraliser ces mots 3. Egaliser les pairs ( la seul différence entre fille et garçon doit être le genre ) 4. Si la pair de mots est peu défini, nous pouvons la passer
  • 21. Les BAD DATA peuvent être très utile VOIX IMAGE TEXTE VIDEO NEWS DEVELOPPER L’ESPRIT CRITIQUE
  • 22. PLAN ANTI BAD DATA Savoir à quoi ressemble les BAD DATA (Champ vide, Champ dupliqué, Donnée de mauvaise qualité) Surveiller chaque jour tous les changements impactants de façon automatique Collecter seulement les données dont vous avez besoin, partager et documenter des définitions communes Nettoyer, enrichir et auditer régulièrement vos données Développer l’esprit critique de vos équipes