SlideShare une entreprise Scribd logo
1  sur  27
Télécharger pour lire hors ligne
Bons Robots, Mauvais Robots
Un Intense Trafic
Paris Web 2015
François
Hodierne
Berlin
Tout agent qui utilise le protocole HTTP

d’une manière plus ou moins automatisée.
Robots ?
Bons
Robots
Un intense traffic !
Bons
Robots
• Indexation: Google,Yahoo, Bing, Baidu
• Analyse de lien: Facebook,Twitter
• Monitoring: Pingdom, Netcraft
• RSS: Feedly, Superfeedr
• Hors Ligne: Pocket, Readability
Mauvais
Robots
• Spam : commentaires, wiki, forum
• Attaque de Force Brute
• Piratage : failles de sécurité
• Scrapping : vol de contenu
• Fraude à la publicité
Robots
Bizarres
• Identité générique

Absente, Librairies HTTP par défaut
• Indexeurs fous
• Scripts bogués
• Robots oubliés
Combien ?
63 à 80 %
du trafic HTTP généré
par les robots
Source:
https://www.incapsula.com/blog/bot-traffic-report-2014.html
Bons
Robots
Un intense traffic !
Bons
Robots
• Robots.txt: Allow, Disallow, Crawl Interval
• <meta name="robots" content="noindex"/>
• <a rel="nofollow">
• Sitemaps
• Formulaire de Contact / Addresse Email
Mauvais
Robots
Mauvais Robots
Centre de
Commandement
Site Cible
Librairie
HTTP
Navigateur
Fantôme
Proxys
Botnet
APIs pour les IPs
• XBL (Spamhaus)

https://www.spamhaus.org/xbl/
• http:BL (Honey Pot Project)

https://www.projecthoneypot.org/httpbl.php
• TorDNSEL (Réseau Tor)

https://www.torproject.org/projects/tordnsel.html
En têtes HTTP
• User-Agent
• Accept
• Accept-Language
• Accept-Encoding
• Accept-Charset
• From
91.200.12.56 - - [02/Oct/
2015:10:15:00 +0200] "GET / HTTP/1.1"
200 1437 "-" "Mozilla/5.0
(compatible; Googlebot/2.1; +http://
www.google.com/bot.html)"
66.249.64.25 - - [02/Oct/
2015:10:15:00 +0200] "GET / HTTP/1.1"
200 1437 "-" "Mozilla/5.0
(compatible; Googlebot/2.1; +http://
www.google.com/bot.html)"
Hostname crawl-66-249-64-25.googlebot.com
DNSBL Http:BL: Search Engine
User-Agent
Mozilla/5.0 (compatible; Googlebot/2.1;
+http://www.google.com/bot.html)
Accept */*
Accept-Encoding gzip,deflate
From googlebot(at)googlebot.com
Connection Keep-alive
Protocol HTTP/1.1
Hostname li423-22.members.linode.com
DNSBL Tor, CBL, Http:BL: Spam
User-Agent
Mozilla/5.0 (compatible; Googlebot/2.1;
+http://www.google.com/bot.html)
Accept */*
Accept-Encoding gzip, deflate
From none
Connection keep-alive
Protocol HTTP/1.1
212.83.164.41 - - [02/Oct/
2015:10:25:00 +0200] "GET / HTTP/1.0"
200 1437 "-" "Mozilla/5.0 (Windows NT
6.1; WOW64) AppleWebKit/537.36
(KHTML, like Gecko) Chrome/
39.0.2171.95 Safari/537.36"
73.194.118.61 - - [02/Oct/
2015:10:25:00 +0200] "GET / HTTP/1.1"
200 1437 "-" "Mozilla/5.0 (Windows NT
6.1; WOW64) AppleWebKit/537.36
(KHTML, like Gecko) Chrome/
45.0.2454.85 Safari/537.36"
Hostname c-73-194-118-61.hsd1.nj.comcast.net
DNSBL /
User-Agent
Mozilla/5.0 (Windows NT 6.1; WOW64)
AppleWebKit/537.36 (KHTML, like Gecko)
Chrome/45.0.2454.85 Safari/537.36
Accept
text/html,application/xhtml+xml,application/xml;q=0.9,
image/webp,*/*;q=0.8
Accept-Encoding gzip, deflate, sdch
Accept-Language en-US,en;q=0.8
Connection keep-alive
Protocol HTTP/1.1
Hostname 212-83-164-41.rev.poneytelecom.eu
DNSBL Http:BL: Spam
User-Agent
Mozilla/5.0 (Windows NT 6.1; WOW64)
AppleWebKit/537.36 (KHTML, like Gecko)
Chrome/39.0.2171.95 Safari/537.36
Accept
text/html, application/xml;q=0.9, application/xhtml+xml, image/png,
image/webp, image/jpeg, image/gif, image/x-xbitmap, */*;q=0.1
Accept-Encoding gzip, deflate
Accept-Language en
Connection Keep-Alive
Protocol HTTP/1.0
• Surveiller

Access Logs, Logstash/Kibana/Elasticsearch
• Protéger

Web Application Firewall, Security Plugins
• Freiner

Global et particulier: post, authentification
• Bloquer

Délicat …
• Intense trafic qui pèse sur les :
• performances
• coûts
• statistiques
• sécurité
• A ne pas négliger …
Mot de la fin
Les Robots sont parmi nous.
Ne les oubliez pas.
Merci !
email : francois@hodierne.net
twitter : @znarf
François Hodierne

Contenu connexe

En vedette

Genova Essenziale
Genova EssenzialeGenova Essenziale
Genova Essenzialeguest0fc85b
 
Keynote EuroIA Paris, 2010 — HSBC Brazil Case Study
Keynote EuroIA Paris, 2010 —  HSBC Brazil Case Study Keynote EuroIA Paris, 2010 —  HSBC Brazil Case Study
Keynote EuroIA Paris, 2010 — HSBC Brazil Case Study Paulo Floriano
 
Netvibes Developer Meetup - Paris - May 2008
Netvibes Developer Meetup - Paris - May 2008Netvibes Developer Meetup - Paris - May 2008
Netvibes Developer Meetup - Paris - May 2008François Hodierne
 
interaction South America 2011 — Workshop
interaction South America 2011  — Workshopinteraction South America 2011  — Workshop
interaction South America 2011 — WorkshopPaulo Floriano
 
Engaje-se ao usuário para que ele se engaje a você - World Usability Day SP 2014
Engaje-se ao usuário para que ele se engaje a você - World Usability Day SP 2014Engaje-se ao usuário para que ele se engaje a você - World Usability Day SP 2014
Engaje-se ao usuário para que ele se engaje a você - World Usability Day SP 2014Paulo Floriano
 
Startup 101 - Founder Institute
Startup 101 - Founder InstituteStartup 101 - Founder Institute
Startup 101 - Founder InstitutePaulo Floriano
 

En vedette (9)

CARDIO DRUGS
CARDIO DRUGSCARDIO DRUGS
CARDIO DRUGS
 
Matma
MatmaMatma
Matma
 
Nuria
NuriaNuria
Nuria
 
Genova Essenziale
Genova EssenzialeGenova Essenziale
Genova Essenziale
 
Keynote EuroIA Paris, 2010 — HSBC Brazil Case Study
Keynote EuroIA Paris, 2010 —  HSBC Brazil Case Study Keynote EuroIA Paris, 2010 —  HSBC Brazil Case Study
Keynote EuroIA Paris, 2010 — HSBC Brazil Case Study
 
Netvibes Developer Meetup - Paris - May 2008
Netvibes Developer Meetup - Paris - May 2008Netvibes Developer Meetup - Paris - May 2008
Netvibes Developer Meetup - Paris - May 2008
 
interaction South America 2011 — Workshop
interaction South America 2011  — Workshopinteraction South America 2011  — Workshop
interaction South America 2011 — Workshop
 
Engaje-se ao usuário para que ele se engaje a você - World Usability Day SP 2014
Engaje-se ao usuário para que ele se engaje a você - World Usability Day SP 2014Engaje-se ao usuário para que ele se engaje a você - World Usability Day SP 2014
Engaje-se ao usuário para que ele se engaje a você - World Usability Day SP 2014
 
Startup 101 - Founder Institute
Startup 101 - Founder InstituteStartup 101 - Founder Institute
Startup 101 - Founder Institute
 

Similaire à Bons Robots, Mauvais Robots : Un Intense Trafic

Utilisation avancée d'un crawler - SEO Camp'us 2015
Utilisation avancée d'un crawler - SEO Camp'us 2015Utilisation avancée d'un crawler - SEO Camp'us 2015
Utilisation avancée d'un crawler - SEO Camp'us 2015Philippe YONNET
 
從蟒蛇到神龍 - 從 1 接關繼續打造爬蟲程式
從蟒蛇到神龍 - 從 1 接關繼續打造爬蟲程式從蟒蛇到神龍 - 從 1 接關繼續打造爬蟲程式
從蟒蛇到神龍 - 從 1 接關繼續打造爬蟲程式Chun-Yu Tseng
 
Delegation d'authentification
Delegation d'authentificationDelegation d'authentification
Delegation d'authentificationSébastien Brault
 
Colloque cyber 2010 les botnets
Colloque cyber 2010   les botnetsColloque cyber 2010   les botnets
Colloque cyber 2010 les botnetsmichelcusin
 
Mystères et associés dans les résultats de Google
Mystères et associés dans les résultats de GoogleMystères et associés dans les résultats de Google
Mystères et associés dans les résultats de GoogleAymeric Bouillat
 
Analyse combinée crawl + logs - Search Foresight & Botify
Analyse combinée crawl + logs - Search Foresight & BotifyAnalyse combinée crawl + logs - Search Foresight & Botify
Analyse combinée crawl + logs - Search Foresight & BotifyPhilippe YONNET
 
SEARCH Y - Aymeric Bouillat - "Mystères et Associés" dans les résultats de Go...
SEARCH Y - Aymeric Bouillat - "Mystères et Associés" dans les résultats de Go...SEARCH Y - Aymeric Bouillat - "Mystères et Associés" dans les résultats de Go...
SEARCH Y - Aymeric Bouillat - "Mystères et Associés" dans les résultats de Go...SEARCH Y - Philippe Yonnet Evénements
 
Tuni'SEO 2014 : Utiliser un crawler pour optimiser son site pour le SEO
Tuni'SEO 2014 : Utiliser un crawler pour optimiser son site pour le SEOTuni'SEO 2014 : Utiliser un crawler pour optimiser son site pour le SEO
Tuni'SEO 2014 : Utiliser un crawler pour optimiser son site pour le SEOTuni' SEO
 
ToursJUG - Anniversaire 2016
ToursJUG - Anniversaire 2016ToursJUG - Anniversaire 2016
ToursJUG - Anniversaire 2016François Robert
 
Optimiser réellement le référencement naturel de WordPress
Optimiser réellement le référencement naturel de WordPressOptimiser réellement le référencement naturel de WordPress
Optimiser réellement le référencement naturel de WordPressDaniel Roch - SeoMix
 
Analyse de logs SEO : pour qui, pour quoi, comment ?
Analyse de logs SEO : pour qui, pour quoi, comment ?Analyse de logs SEO : pour qui, pour quoi, comment ?
Analyse de logs SEO : pour qui, pour quoi, comment ?Julien Deneuville
 
Présentation sur l'HTTPS - SEO CAMP - 21 Avril 2017
Présentation sur l'HTTPS - SEO CAMP - 21 Avril 2017Présentation sur l'HTTPS - SEO CAMP - 21 Avril 2017
Présentation sur l'HTTPS - SEO CAMP - 21 Avril 2017Brioude Internet
 
Présentation sur l'HTTPS - SEO CAMP - 21 Avril 2017
Présentation sur l'HTTPS - SEO CAMP - 21 Avril 2017Présentation sur l'HTTPS - SEO CAMP - 21 Avril 2017
Présentation sur l'HTTPS - SEO CAMP - 21 Avril 2017Jordan Perrenes
 
Utiliser un crawler pour le seo
Utiliser un crawler pour le seoUtiliser un crawler pour le seo
Utiliser un crawler pour le seoPhilippe YONNET
 
Global Azure Bootcamp 2018 - Microsoft Bot
Global Azure Bootcamp 2018 - Microsoft BotGlobal Azure Bootcamp 2018 - Microsoft Bot
Global Azure Bootcamp 2018 - Microsoft Botfelixbillon
 
La mise en cache et ses secrets
La mise en cache et ses secretsLa mise en cache et ses secrets
La mise en cache et ses secretsAymeric Bouillat
 

Similaire à Bons Robots, Mauvais Robots : Un Intense Trafic (20)

Utilisation avancée d'un crawler - SEO Camp'us 2015
Utilisation avancée d'un crawler - SEO Camp'us 2015Utilisation avancée d'un crawler - SEO Camp'us 2015
Utilisation avancée d'un crawler - SEO Camp'us 2015
 
Désindexation
DésindexationDésindexation
Désindexation
 
從蟒蛇到神龍 - 從 1 接關繼續打造爬蟲程式
從蟒蛇到神龍 - 從 1 接關繼續打造爬蟲程式從蟒蛇到神龍 - 從 1 接關繼續打造爬蟲程式
從蟒蛇到神龍 - 從 1 接關繼續打造爬蟲程式
 
Le guide du robots.txt
Le guide du robots.txtLe guide du robots.txt
Le guide du robots.txt
 
Delegation d'authentification
Delegation d'authentificationDelegation d'authentification
Delegation d'authentification
 
Colloque cyber 2010 les botnets
Colloque cyber 2010   les botnetsColloque cyber 2010   les botnets
Colloque cyber 2010 les botnets
 
Mystères et associés dans les résultats de Google
Mystères et associés dans les résultats de GoogleMystères et associés dans les résultats de Google
Mystères et associés dans les résultats de Google
 
PHP et PHP Framework
PHP et PHP FrameworkPHP et PHP Framework
PHP et PHP Framework
 
Analyse combinée crawl + logs - Search Foresight & Botify
Analyse combinée crawl + logs - Search Foresight & BotifyAnalyse combinée crawl + logs - Search Foresight & Botify
Analyse combinée crawl + logs - Search Foresight & Botify
 
SEARCH Y - Aymeric Bouillat - "Mystères et Associés" dans les résultats de Go...
SEARCH Y - Aymeric Bouillat - "Mystères et Associés" dans les résultats de Go...SEARCH Y - Aymeric Bouillat - "Mystères et Associés" dans les résultats de Go...
SEARCH Y - Aymeric Bouillat - "Mystères et Associés" dans les résultats de Go...
 
Tuni'SEO 2014 : Utiliser un crawler pour optimiser son site pour le SEO
Tuni'SEO 2014 : Utiliser un crawler pour optimiser son site pour le SEOTuni'SEO 2014 : Utiliser un crawler pour optimiser son site pour le SEO
Tuni'SEO 2014 : Utiliser un crawler pour optimiser son site pour le SEO
 
ToursJUG - Anniversaire 2016
ToursJUG - Anniversaire 2016ToursJUG - Anniversaire 2016
ToursJUG - Anniversaire 2016
 
Web 2.0
Web 2.0Web 2.0
Web 2.0
 
Optimiser réellement le référencement naturel de WordPress
Optimiser réellement le référencement naturel de WordPressOptimiser réellement le référencement naturel de WordPress
Optimiser réellement le référencement naturel de WordPress
 
Analyse de logs SEO : pour qui, pour quoi, comment ?
Analyse de logs SEO : pour qui, pour quoi, comment ?Analyse de logs SEO : pour qui, pour quoi, comment ?
Analyse de logs SEO : pour qui, pour quoi, comment ?
 
Présentation sur l'HTTPS - SEO CAMP - 21 Avril 2017
Présentation sur l'HTTPS - SEO CAMP - 21 Avril 2017Présentation sur l'HTTPS - SEO CAMP - 21 Avril 2017
Présentation sur l'HTTPS - SEO CAMP - 21 Avril 2017
 
Présentation sur l'HTTPS - SEO CAMP - 21 Avril 2017
Présentation sur l'HTTPS - SEO CAMP - 21 Avril 2017Présentation sur l'HTTPS - SEO CAMP - 21 Avril 2017
Présentation sur l'HTTPS - SEO CAMP - 21 Avril 2017
 
Utiliser un crawler pour le seo
Utiliser un crawler pour le seoUtiliser un crawler pour le seo
Utiliser un crawler pour le seo
 
Global Azure Bootcamp 2018 - Microsoft Bot
Global Azure Bootcamp 2018 - Microsoft BotGlobal Azure Bootcamp 2018 - Microsoft Bot
Global Azure Bootcamp 2018 - Microsoft Bot
 
La mise en cache et ses secrets
La mise en cache et ses secretsLa mise en cache et ses secrets
La mise en cache et ses secrets
 

Bons Robots, Mauvais Robots : Un Intense Trafic

  • 1. Bons Robots, Mauvais Robots Un Intense Trafic Paris Web 2015
  • 3. Tout agent qui utilise le protocole HTTP
 d’une manière plus ou moins automatisée. Robots ?
  • 5. • Indexation: Google,Yahoo, Bing, Baidu • Analyse de lien: Facebook,Twitter • Monitoring: Pingdom, Netcraft • RSS: Feedly, Superfeedr • Hors Ligne: Pocket, Readability
  • 7. • Spam : commentaires, wiki, forum • Attaque de Force Brute • Piratage : failles de sécurité • Scrapping : vol de contenu • Fraude à la publicité
  • 9. • Identité générique
 Absente, Librairies HTTP par défaut • Indexeurs fous • Scripts bogués • Robots oubliés
  • 11. 63 à 80 % du trafic HTTP généré par les robots Source: https://www.incapsula.com/blog/bot-traffic-report-2014.html
  • 13. • Robots.txt: Allow, Disallow, Crawl Interval • <meta name="robots" content="noindex"/> • <a rel="nofollow"> • Sitemaps • Formulaire de Contact / Addresse Email
  • 15. Mauvais Robots Centre de Commandement Site Cible Librairie HTTP Navigateur Fantôme Proxys Botnet
  • 16. APIs pour les IPs • XBL (Spamhaus)
 https://www.spamhaus.org/xbl/ • http:BL (Honey Pot Project)
 https://www.projecthoneypot.org/httpbl.php • TorDNSEL (Réseau Tor)
 https://www.torproject.org/projects/tordnsel.html
  • 17. En têtes HTTP • User-Agent • Accept • Accept-Language • Accept-Encoding • Accept-Charset • From
  • 18. 91.200.12.56 - - [02/Oct/ 2015:10:15:00 +0200] "GET / HTTP/1.1" 200 1437 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http:// www.google.com/bot.html)" 66.249.64.25 - - [02/Oct/ 2015:10:15:00 +0200] "GET / HTTP/1.1" 200 1437 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http:// www.google.com/bot.html)"
  • 19. Hostname crawl-66-249-64-25.googlebot.com DNSBL Http:BL: Search Engine User-Agent Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html) Accept */* Accept-Encoding gzip,deflate From googlebot(at)googlebot.com Connection Keep-alive Protocol HTTP/1.1
  • 20. Hostname li423-22.members.linode.com DNSBL Tor, CBL, Http:BL: Spam User-Agent Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html) Accept */* Accept-Encoding gzip, deflate From none Connection keep-alive Protocol HTTP/1.1
  • 21. 212.83.164.41 - - [02/Oct/ 2015:10:25:00 +0200] "GET / HTTP/1.0" 200 1437 "-" "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/ 39.0.2171.95 Safari/537.36" 73.194.118.61 - - [02/Oct/ 2015:10:25:00 +0200] "GET / HTTP/1.1" 200 1437 "-" "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/ 45.0.2454.85 Safari/537.36"
  • 22. Hostname c-73-194-118-61.hsd1.nj.comcast.net DNSBL / User-Agent Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/45.0.2454.85 Safari/537.36 Accept text/html,application/xhtml+xml,application/xml;q=0.9, image/webp,*/*;q=0.8 Accept-Encoding gzip, deflate, sdch Accept-Language en-US,en;q=0.8 Connection keep-alive Protocol HTTP/1.1
  • 23. Hostname 212-83-164-41.rev.poneytelecom.eu DNSBL Http:BL: Spam User-Agent Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.95 Safari/537.36 Accept text/html, application/xml;q=0.9, application/xhtml+xml, image/png, image/webp, image/jpeg, image/gif, image/x-xbitmap, */*;q=0.1 Accept-Encoding gzip, deflate Accept-Language en Connection Keep-Alive Protocol HTTP/1.0
  • 24. • Surveiller
 Access Logs, Logstash/Kibana/Elasticsearch • Protéger
 Web Application Firewall, Security Plugins • Freiner
 Global et particulier: post, authentification • Bloquer
 Délicat …
  • 25. • Intense trafic qui pèse sur les : • performances • coûts • statistiques • sécurité • A ne pas négliger … Mot de la fin
  • 26. Les Robots sont parmi nous. Ne les oubliez pas.
  • 27. Merci ! email : francois@hodierne.net twitter : @znarf François Hodierne