Captation Ic05 A09

Le web Crawler Autres m´thodes
e Exemple

Captation de donn´es web
e

Camille Maussang

camille.maussang@rtgi.fr
RTGI

IC05 - A09

Camille Maussang camille.maussang@rtgi.fr RTGI
e

e Exemple

Qui suis-je ?

e

e Exemple

Qui suis-je ?
Camille Maussang (cmaussan)

e

e Exemple

Qui suis-je ?
Chef du dev chez RTGI...

e

e Exemple

Qui suis-je ?
... qui fabrique des outils d’analyse du web social

e

e Exemple

Qui suis-je ?
... qui fabrique des outils d’analyse du web social
... en captant des donn´es sur le web ;)
e

e

e Exemple

Qu’est-ce que le web et comment le saisir ?

Le web est un corpus de documents

e

e Exemple


ouvert,

e

e Exemple


ouvert,
h´t´rog`ne,
ee e

e

e Exemple


ouvert,
h´t´rog`ne,
ee e
et dynamique.

e

e Exemple


Le web peut ˆtre repr´sent´ par des graphes
e e e

e

e Exemple


e e e
o` les noeuds sont :
u

e

e Exemple


e e e
u
des pages,

e

e Exemple


e e e
u
des pages,
des sites,

e

e Exemple


e e e
u
des pages,
des sites,
des mots,

e

e Exemple


e e e
u
des pages,
des sites,
des mots,
ou des gens,

e

e Exemple


e e e
u
des pages,
des sites,
des mots,
ou des gens,
et les arcs des liens.

e

e Exemple


Capter des donn´es sur le web requiert un certain nombre de
e
ressources

e

e Exemple


e
ressources
Bande passante

e

e Exemple


e
ressources
Bande passante
Stockage

e

e Exemple


e
ressources
Bande passante
Stockage
Temps machine

e

e Exemple


Donc :

e

e Exemple


Donc :
Que cherchons-nous ?

e

e Exemple


Donc :
Que faire pour r´cup´rer ce qui nous est important ?
e e

e

e Exemple


Donc :
e e
Toujours penser « heuristiques »...

e

e Exemple


Donc :
e e
Toujours penser « heuristiques »...
... et « eﬀets de bord »!

e

e Exemple


Ne jamais oublier !

e

e Exemple


Ne jamais oublier !
Le web c’est

e

e Exemple


Ne jamais oublier !
Le web c’est n’importe qui (ouvert)

e

e Exemple


Ne jamais oublier !
Le web c’est n’importe qui (ouvert) qui publie n’importe quoi
(h´t´rog`ne)
ee e

e

e Exemple


Ne jamais oublier !
Le web c’est n’importe qui (ouvert) qui publie n’importe quoi
(h´t´rog`ne) n’importe quand (dynamique).
ee e

e

e Exemple

D´ﬁnitions
e

Normes, recommandations et standards

e

e Exemple

D´ﬁnitions
e

Norme (ISO/RFC) : HTTP, URL, SGML, HTML 1-2, MIME

e

e Exemple

D´ﬁnitions
e

Recommandation W3C : HTML 3-4-5, XHTML 1, CSS, DOM

e

e Exemple

D´ﬁnitions
e

Standards : PDF et Flash (Taux de p´n´tration > 99%)
e e

e

e Exemple

D´ﬁnitions
e

e e

Web dynamique

e

e Exemple

D´ﬁnitions
e

e e

Web dynamique
server-side : CGI, PHP, Perl, Python, Ruby, JSP, ASP

e

e Exemple

D´ﬁnitions
e

e e

Web dynamique
server-side : CGI, PHP, Perl, Python, Ruby, JSP, ASP
client-side : Javascript, Flash, ActiveX, Applet Java

e

e Exemple

Prologue

Principe

e

e Exemple

Prologue

Principe
T´l´charger une page
ee

e

e Exemple

Prologue

Principe
ee

$ wget ’ http ::// www . example . org / ’ -O page . html
$ curl ’ http ::// www . example . org / ’ > page . html
$ perl - MLWP :: Simple -e ’ print get ( " http :// www . example . org / " ) ’ > page . html

e

e Exemple

Prologue

Principe
ee


D´j` des probl`mes
ea e

e

e Exemple

Prologue

Principe
ee


D´j` des probl`mes
ea e
Type de ﬁchier

e

e Exemple

Prologue

Principe
ee


D´j` des probl`mes
ea e
Type de ﬁchier
Encodage

e

e Exemple

Prologue

Principe
ee


D´j` des probl`mes
ea e
Type de ﬁchier
Encodage
Contenu (HTML)

e

e Exemple

Crawler

Principe

e

e Exemple

Crawler

Principe
T´l´charger 1 page
ee

e

e Exemple

Crawler

Principe
ee
Extraire les liens

e

e Exemple

Crawler

Principe
ee
Extraire les liens
T´l´charger les pages point´es par les liens
ee e

e

e Exemple

Crawler

Principe
ee
Extraire les liens
T´l´charger les pages point´es par les liens
ee e
etc. etc.

e

e Exemple

Crawler
1 use strict ; use warnings ;
2 use LWP :: Simple ;
3
4 my ( $max_depth , @seed ) = @ARGV or die ( ’ need depth and url ( s ) ’ );
5 my @ a l r e a d y _ v i s i t e d = ();
6 my $depth = 0;
7 my @to_visit = @seed ;
8
9 while ( $depth <= $max_depth && @to_visit ) {
10 print " crawling depth $depth n " ;
11 my @links = ();
12 for my $url ( @to_visit ) {
13 if ( my $content = get ( $url ) ) {
14 while ( $content =~ m / <a href ="([^"]+)" / gi ) { push @links , $1 }
15 }
16 push @already_visited , $url ;
17 print " $url visited . n " ;
18 }
19 @to_visit = ();
20 for my $url_to_check ( @links ) {
21 my $to_push = 0;
22 for my $url_visited ( @ a l r e a d y _ v i s i t e d ) {
23 if ( $url_to_check eq $url_visited ) { $to_push = 0; last ; }
24 $to_push = 1;
25 }
26 push @to_visit , $url_to_check
27 if ( $to_push && ! grep { $_ eq $url_to_check } @to_visit );
28 }
29 $depth ++;
30 }
31 print " end . n " ;

e

e Exemple

Crawler

M´triques (distance, profondeur, etc.)
e

e

e Exemple

Crawler

e
Performance (goulots d’´tranglement)
e

e

e Exemple

Crawler

e
Performance (goulots d’´tranglement)
e
Scalabilit´ (de 1 page ` 1G pages)
e a

e

e Exemple

Crawler

e

e Exemple

Crawler

De nouveaux probl`mes
e

e

e Exemple

Crawler

e
Politesse

e

e Exemple

Crawler

e
Politesse
DoS (Denial of Service) : DNS, Serveurs HTTP

e

e Exemple

Crawler

e
Politesse
Blacklistage oﬃciel (robots.txt, sitemap.xml, etc.)

e

e Exemple

Crawler

e
Politesse
Blacklistage oﬃcieux (cloaking, pi`ges ` robot)
e a

e

e Exemple

Crawler

e
Politesse
e a
Addressage

e

e Exemple

Crawler

e
Politesse
e a
Addressage
Normalisation d’URL (doublons)

e

e Exemple

Crawler

e
Politesse
e a
Addressage
Site ou page ?

e

e Exemple

Crawler

e
Politesse
e a
Addressage
Site ou page ?
Plusieurs permaliens pour un seul contenu (GYM aide un peu)

e

e Exemple

Crawler

e
Politesse
e a
Addressage
Site ou page ?
Autres...

e

e Exemple

Crawler

e
Politesse
e a
Addressage
Site ou page ?
Autres...
Javascript

e

e Exemple

Crawler

e
Politesse
e a
Addressage
Site ou page ?
Autres...
Javascript
Deep web

e

e Exemple

Crawler

e
Politesse
e a
Addressage
Site ou page ?
Autres...
Javascript
Deep web
Web priv´e

e

e Exemple

Crawler

Astuces

e

e Exemple

Crawler

Astuces
Utiliser les headers HTTP

e

e Exemple

Crawler

Astuces
User-agent

e

e Exemple

Crawler

Astuces
User-agent
random et sleep

e

e Exemple

Crawler

Astuces
User-agent
random et sleep
Multi-agent plutˆt que multi-thread
o

e

e Exemple

Crawler

Astuces
User-agent
random et sleep
o

Principes du Focused crawler

e

e Exemple

Crawler

Astuces
User-agent
random et sleep
o

Ne t´l´charger que les pages pertinentes
ee

e

e Exemple

Crawler

Astuces
User-agent
random et sleep
o

ee

Indicateurs topologiques

e

e Exemple

Crawler

Astuces
User-agent
random et sleep
o

ee

Indicateurs topologiques
Indicateurs s´mantiques
e

e

e Exemple

Aggr´gation
e

Principe

e

e Exemple

Aggr´gation
e

Principe
Syndication ou comment renverser l’acc`s aux donn´es
e e

e

e Exemple

Aggr´gation
e

Principe
e e

Probl`mes
e

e

e Exemple

Aggr´gation
e

Principe
e e

Probl`mes
e
Atom, RSS, encore mille versions

e

e Exemple

Aggr´gation
e

Principe
e e

Probl`mes
e
Flux complet / partiel / vide ...

e

e Exemple

Aggr´gation
e

Principe
e e

Probl`mes
e
Flux complet / partiel / vide ...
... avec ou sans date, permaliens, HTML

e

e Exemple

Scraping

Principe

e

e Exemple

Scraping

Principe
Analyser une page web pour en extraire une information sp´ciﬁque
e

e

e Exemple

Scraping

Principe
e

Probl`mes
e

e

e Exemple

Scraping

Principe
e

Probl`mes
e
DOM ou Regexp ou les deux

e

e Exemple

Scraping

Principe
e

Probl`mes
e
Template et dynamisme des pages scrap´es
e

e

e Exemple

Scraping

Principe
e

Probl`mes
e
Template et dynamisme des pages scrap´es
e
Flash et Javascript

e

e Exemple

API

Principe

e

e Exemple

API

Principe
Utiliser les API de certains sites pour collecter la donn´e
e

e

e Exemple

API

Principe
e

Probl`mes
e

e

e Exemple

API

Principe
e

Probl`mes
e
Limitations

e

e Exemple

API

Principe
e

Probl`mes
e
Limitations
API propri´taires
e

e

e Exemple

Un exemple concret

Cr´er un corpus de documents sur un th`me pr´cis avec Google
e e e

e

e Exemple

Un exemple concret

e e e
Cr´er un set de requˆtes
e e

e

e Exemple

Un exemple concret

e e e
e e
´
Ecrire un robot de captation

e

e Exemple

Un exemple concret

e e e
e e
´
Module de scraping des r´sultats de Google
e
(avec Web::Scraper par ex.)

e

e Exemple

Un exemple concret

e e e
e e
´
e
Module d’ordonnancement

e

e Exemple

Un exemple concret

e e e
e e
´
e
Module de « crawl »

e

e Exemple

Un exemple concret

e e e
e e
´
e
Module de « crawl »
Capter les donn´es :)
e

e

e Exemple

Wikip´dia est ton ami :)
e

http://en.wikipedia.org/wiki/HTML
http://en.wikipedia.org/wiki/Web_crawler
http://en.wikipedia.org/wiki/Focused_crawler
http://en.wikipedia.org/wiki/Web_scraping
http://en.wikipedia.org/wiki/URL_normalization
http://en.wikipedia.org/wiki/Cloaking
http://en.wikipedia.org/wiki/User_agent
http://en.wikipedia.org/wiki/Spider_trap
http://en.wikipedia.org/wiki/Denial-of-service_attack
etc.

e

e Exemple

Merci !

http://labs.rtgi.eu/
http://github.com/cmaussan/Picrowler
http://github.com/cmaussan/captation-ic05-a09-tex

e

Captation Ic05 A09

Contenu connexe

En vedette

Plus de Fabien Pfaender

Dernier

Captation Ic05 A09