SlideShare une entreprise Scribd logo
1  sur  19
Télécharger pour lire hors ligne
Analyse et classification d’URL
        Projet iPinion - avril 2010
Objectifs
•   Extraire le maximum d’informations possible
    d’une URL sans avoir à crawler la page
    correspondante
•   La taxonomie utilisée pour la classification est
    basée sur l’auteur du contenu : institutionnel,
    corporate, particulier, journaliste
•   D’autres aspects sont pris en compte par un
    système de tags (type de site, langue, etc.)
Sommaire

• 1. Analyse de l’URL de base
• 2. Analyse du path
• 3. Résultats
• 4. Traitements postérieurs
Décomposition d’une URL

Protocole   Sous-domaine   Domaine   TLD     Sous-dossier   Sous-dossiers

http://tempsreel.nouvelobs.com/actualite/social/20100412.OBS2257/
 sncf-78-de-ter-en-regions-57-de-trains-grande-lignes-teoz.html
                                     Titre                                  Extension
1. Analyse de l’URL de base

• L’URL de base se compose du sous-
  domaine, du domaine, du TLD, et
  éventuellement du premier sous-répertoire
• Elle est la partie la plus signifiante de l’URL,
  et contient toujours le nom du site
• Elle a l’inconvénient d’être très courte
Déterminer le nom du site
       Le nom du site est l’un de ces trois tokens :
http://tempsreel.nouvelobs.com/actualite/social/20100412.OBS2257/
 sncf-78-de-ter-en-regions-57-de-trains-grande-lignes-teoz.html


  http://infopartage.blogspot.com/2010/04/des-dizaines-de-milliers-de-polonais.html
                   http://twitter.com/bitsmedia/status/12255541587
http://www.liberation.fr/societe/0101630566-malentendu-sur-les-zones-noires-de-xynthia

   -> si l’URL contient deux tokens, le premier est le nom du site
   -> si elle contient trois tokens :
      -> si elle commence par www, le token suivant est le nom du site
      -> si non, on examine le deuxième token :
          -> si c’est un service de blog listé, le premier token est le site
          -> si non, le deuxième token est le site, et le premier est un sous-domaine, à
   traiter avec les sous-url
   -> dans tous les cas, le dernier token est le TLD
   -> si le nom du site récupéré à l’issue de cette première étape est dans la liste des
   exceptions, le nom du site est le premier token suivant l’URL de base (ex : twitter)
Tests sur le nom du site 1
    •   On recheche le nom, par ordre de priorité, dans :
    - la liste des exceptions
    - la liste ‘institutionnels’
    - la liste ‘médias’
    - Google News (s’il est présent, il est ajouté à la liste ‘médias’)
    - la base des marques déposées de l’INPI (s’il est présent, il est ajouté à la
    liste ‘marques’)
 http://www.elysee.fr/president/les-actualites/communiques-de-presse/
2010/avril/annulation-du-deplacement-de-m-le-president-de-la.8579.html

                           auteur="institutionnel"


 http://www.lepost.fr/article/2009/05/13/1533812_la-banque-postale-
                       comprend-la-crise.html

                                 auteur="média"
Tests sur le nom du site II

  • Si tous les tests précédents échouent, on
     recherche la présence de mots qualifiants
     (‘lefilm’, ‘blog’, ‘actu’) dans le nom du site
                 http://fragiles-lefilm.com/
  nom="fragiles" type="film" auteur="corporate" lang="fr"


  • En cas de nouvel échec, on effectue ces tests
     sur le sous-domaine et le premier sous-
     répertoire
http://leblog.vendeesign.com/web20/facebook-lance-facebook-lite-un-
                        twitter-like-6543/
              nom="vendeesign" type="blog" lang="fr"
Tests sur le TLD

• Si le TLD est national : on note #france (.fr),
  #francophone (.ch) ou #international (.de)
• Si le TLD est générique : s’il existe des
  restrictions particulières (.gov, .mil, .edu), on
  ajoute un tag correspondant (#institutionnel)
• Cas spécifique : .gouv.fr , par exemple, ajoute
  les tags #france et #institutionnel
2. Analyse du path

• La suite de l’URL (‘path’) est segmentée sur
  les ‘/’
• Le path peut contenir de nombreuses
  informations pertinentes
• Cependant, il doit être traité différemment
  de la partie principale l’URL
Recherche de date
• On trouve souvent une date encodée dans
  la première partie du path
• Diverses expressions régulières permettent
  de rechercher la présence d’une date
• La date de publication d’une page est une
  information importante pour en
  déterminer la pertinence
    http://www.capitaine-commerce.com/2007/12/20/
  http://fr.rian.ru/business/20071001/81826681.html
Test sur l’extension

• L’analyse de l’extension permet de
  déterminer s’il s’agit d’une page (.html, .php,
  etc.), d’un fichier multimédia (.jpg, .png, etc.),
  ou d’un flux RSS (.xml)
• On peut ensuite savoir quels traitements
  postérieurs seront possibles ou nécessaires :
  il est par exemple inutile de crawler les
  adresses pointant vers un fichier multimédia
Recherche du type de site

   • Certains tokens (ex. : ‘wiki’ ou ‘blog’)
      permettent de déterminer le type de site
      correspondant à l’URL
     http://forums.thinkpads.com/viewtopic.php?f=43&t=86489
                          type="forum"


   • Le type de site peut également être
      déterminé à partir des listes de sites
      utilisées pour l’analyse
http://www.lepost.fr/article/2009/05/13/1533812_la-banque-postale-
                      comprend-la-crise.html
                        type="actualités"
Parsing du titre
    • On fait l’hypothèse que le dernier token
       avant l’extension est le titre de la page
    • On élimine tous les nombres de plus de
       quatre chiffres, ainsi que tout se qui se trouve
       avant un underscore, dans le premier token
    • On tokenize ensuite sur ‘-’ , le seul
       séparateur possible
http://cordonsbourse.blogs.liberation.fr/cori/2009/08/un-milliard-
   deuros-provisionn%C3%A9-pour-les-traders-de-bnp-paribas.html

  titre="un milliard deuros provisionné pour les traders de bnp
                            paribas"
Des tags pour les autres
             informations
     • Si un mot qualifiant a été identifié dans
         l’URL, mais pas à une position particulière
         (ni nom du site, ni titre de la page), il est
         récupéré sous forme de tag :

http://emploi.france5.fr/emploi/creation-entreprise/choisir-son-statut/
                           53169148-fr.php

                     tags="creation entreprise"
3. Résultats provisoires

• A l’issue du script on dispose au minimum,
  pour chaque URL, du nom du site.
• On parvient à identifier un type d’auteur
  dans 60-70% des cas
• On dispose également de plusieurs tags
  (environ 5 par URL en moyenne)
Exemples complets I
http://al-turayya.hautetfort.com/archive/2010/03/08/
     faire-un-don-pour-soutenir-mon-blog.html

<url site="al turayya" page_title="faire un don pour
    soutenir mon blog" auteur="perso" type="blog"
service="hautetfort" lang="fr" filetype="text/html"
date="08/03/2010">http://al-turayya.hautetfort.com/
 archive/2010/03/08/faire-un-don-pour-soutenir-mon-
                   blog.html</url>




              http://www.ameliste.fr/

<url site="ameliste" auteur="commercial" lang="fr">
           http://www.ameliste.fr/</url>
Exemples complets II
     http://www.lalibre.be/economie/finance/article/
        285542/ing-a-bien-commence-l-annee.html


<url site="lalibre.be" page_title="ing a bien commence
       l annee" tags="economie finance article"
auteur="média" lang="fr" country="be" filetype="text/
           html" date="08/03/2010">http://al-
 turayya.hautetfort.com/archive/2010/03/08/faire-un-
         don-pour-soutenir-mon-blog.html</url>
4. Traitements postérieurs
• A l’issue de ce premier traitement, on peut
  envisager d’affiner la classification des URL
• On classifie les URL du corpus de référence en
  fonction d’une typologie plus fine, créant ainsi
  des ‘profils’
• Dans un second temps, on peut envisager
  d’utiliser ce corpus annoté avec un programme
  d’apprentissage automatique supervisé

Contenu connexe

Tendances

Web Invisible et Deep Web
Web Invisible et Deep WebWeb Invisible et Deep Web
Web Invisible et Deep Webei4idi
 
Modèle d'une plateforme de veille visant à automatiser la rediffusion de l'in...
Modèle d'une plateforme de veille visant à automatiser la rediffusion de l'in...Modèle d'une plateforme de veille visant à automatiser la rediffusion de l'in...
Modèle d'une plateforme de veille visant à automatiser la rediffusion de l'in...Serge Courrier
 

Tendances (6)

RDF : une introduction
RDF : une introductionRDF : une introduction
RDF : une introduction
 
Web Invisible et Deep Web
Web Invisible et Deep WebWeb Invisible et Deep Web
Web Invisible et Deep Web
 
Initiation la rechercher sur le web
Initiation la rechercher sur le webInitiation la rechercher sur le web
Initiation la rechercher sur le web
 
Boostez vos recherches sur Internet
Boostez vos recherches sur InternetBoostez vos recherches sur Internet
Boostez vos recherches sur Internet
 
Modèle d'une plateforme de veille visant à automatiser la rediffusion de l'in...
Modèle d'une plateforme de veille visant à automatiser la rediffusion de l'in...Modèle d'une plateforme de veille visant à automatiser la rediffusion de l'in...
Modèle d'une plateforme de veille visant à automatiser la rediffusion de l'in...
 
Art_URL
Art_URLArt_URL
Art_URL
 

En vedette

Atelier sur les logiciels et services Web gratuits pouvant être utiles en thè...
Atelier sur les logiciels et services Web gratuits pouvant être utiles en thè...Atelier sur les logiciels et services Web gratuits pouvant être utiles en thè...
Atelier sur les logiciels et services Web gratuits pouvant être utiles en thè...URFIST de Paris
 
Atelier 2 Presentation Po
Atelier 2 Presentation PoAtelier 2 Presentation Po
Atelier 2 Presentation PoPaul Ohana
 
Avantages clé des solutions vidéo empreinte.com
Avantages clé des solutions vidéo empreinte.comAvantages clé des solutions vidéo empreinte.com
Avantages clé des solutions vidéo empreinte.comEmpreinte Multimédia
 
Extranet de la Médiathèque de la Cité de la musique à la Bfm de Limoges
Extranet de la Médiathèque de la Cité de la musique à la Bfm de LimogesExtranet de la Médiathèque de la Cité de la musique à la Bfm de Limoges
Extranet de la Médiathèque de la Cité de la musique à la Bfm de Limogesvisconti vivien
 
Franchise d‘entreprise maroc
Franchise d‘entreprise marocFranchise d‘entreprise maroc
Franchise d‘entreprise marocWSI_Morocco
 
Dansparis 090407134823-phpapp02
Dansparis 090407134823-phpapp02Dansparis 090407134823-phpapp02
Dansparis 090407134823-phpapp02cmunozpuig
 
MobApp by mobilactif
MobApp by mobilactifMobApp by mobilactif
MobApp by mobilactifMobilActif
 
Le pape et_la_vitesse
Le pape et_la_vitesseLe pape et_la_vitesse
Le pape et_la_vitesseourbothy
 
U1 l2 introductory interpersonal activity
U1 l2 introductory interpersonal activityU1 l2 introductory interpersonal activity
U1 l2 introductory interpersonal activityJenna Bryant
 
Competencias 110622182722-phpapp01
Competencias 110622182722-phpapp01Competencias 110622182722-phpapp01
Competencias 110622182722-phpapp01María Valbuena
 
Hardware
HardwareHardware
Hardwarelesgri
 

En vedette (20)

Adresse Url
Adresse UrlAdresse Url
Adresse Url
 
CDI : Décrypter une URL
CDI : Décrypter une URLCDI : Décrypter une URL
CDI : Décrypter une URL
 
Atelier sur les logiciels et services Web gratuits pouvant être utiles en thè...
Atelier sur les logiciels et services Web gratuits pouvant être utiles en thè...Atelier sur les logiciels et services Web gratuits pouvant être utiles en thè...
Atelier sur les logiciels et services Web gratuits pouvant être utiles en thè...
 
Atelier 2 Presentation Po
Atelier 2 Presentation PoAtelier 2 Presentation Po
Atelier 2 Presentation Po
 
Avantages clé des solutions vidéo empreinte.com
Avantages clé des solutions vidéo empreinte.comAvantages clé des solutions vidéo empreinte.com
Avantages clé des solutions vidéo empreinte.com
 
Presentación3
Presentación3Presentación3
Presentación3
 
Extranet de la Médiathèque de la Cité de la musique à la Bfm de Limoges
Extranet de la Médiathèque de la Cité de la musique à la Bfm de LimogesExtranet de la Médiathèque de la Cité de la musique à la Bfm de Limoges
Extranet de la Médiathèque de la Cité de la musique à la Bfm de Limoges
 
Google drive
Google driveGoogle drive
Google drive
 
Franchise d‘entreprise maroc
Franchise d‘entreprise marocFranchise d‘entreprise maroc
Franchise d‘entreprise maroc
 
Quitar fondo (1)
Quitar fondo (1)Quitar fondo (1)
Quitar fondo (1)
 
Dansparis 090407134823-phpapp02
Dansparis 090407134823-phpapp02Dansparis 090407134823-phpapp02
Dansparis 090407134823-phpapp02
 
Conferencista Internacional
Conferencista InternacionalConferencista Internacional
Conferencista Internacional
 
MobApp by mobilactif
MobApp by mobilactifMobApp by mobilactif
MobApp by mobilactif
 
Le pape et_la_vitesse
Le pape et_la_vitesseLe pape et_la_vitesse
Le pape et_la_vitesse
 
The beatles
The beatlesThe beatles
The beatles
 
Tema 1
Tema 1Tema 1
Tema 1
 
U1 l2 introductory interpersonal activity
U1 l2 introductory interpersonal activityU1 l2 introductory interpersonal activity
U1 l2 introductory interpersonal activity
 
Competencias 110622182722-phpapp01
Competencias 110622182722-phpapp01Competencias 110622182722-phpapp01
Competencias 110622182722-phpapp01
 
Hardware
HardwareHardware
Hardware
 
Triana
TrianaTriana
Triana
 

Similaire à Classificateur d'URL

Utilisation avancée d'un crawler - SEO Camp'us 2015
Utilisation avancée d'un crawler - SEO Camp'us 2015Utilisation avancée d'un crawler - SEO Camp'us 2015
Utilisation avancée d'un crawler - SEO Camp'us 2015Philippe YONNET
 
Blogs pour la veille
Blogs pour la veilleBlogs pour la veille
Blogs pour la veilleAref Jdey
 
Methodologie Recherche Je 15 Dec
Methodologie Recherche Je 15 DecMethodologie Recherche Je 15 Dec
Methodologie Recherche Je 15 DecBibliolab
 
Screaming frog - l'outil ne fait pas l'artisan
Screaming frog - l'outil ne fait pas l'artisanScreaming frog - l'outil ne fait pas l'artisan
Screaming frog - l'outil ne fait pas l'artisanAymeric Bouillat
 
Référencement & Standards Web : La même direction (PW2009)
Référencement & Standards Web : La même direction (PW2009)Référencement & Standards Web : La même direction (PW2009)
Référencement & Standards Web : La même direction (PW2009)Thierry Régagnon
 
Cours SEO / Référencement Naturel - août 2013
Cours SEO / Référencement Naturel - août 2013Cours SEO / Référencement Naturel - août 2013
Cours SEO / Référencement Naturel - août 2013Pierre Ammeloot
 
Utilisation professionnelle des flux RSS
Utilisation professionnelle des flux RSSUtilisation professionnelle des flux RSS
Utilisation professionnelle des flux RSSStéphane Dufournet
 
Introduction aux blogs
Introduction aux blogsIntroduction aux blogs
Introduction aux blogsolivier
 
Le SEO expliqué aux développeurs - Jean-Baptiste Marchand-Arvier
Le SEO expliqué aux développeurs - Jean-Baptiste Marchand-ArvierLe SEO expliqué aux développeurs - Jean-Baptiste Marchand-Arvier
Le SEO expliqué aux développeurs - Jean-Baptiste Marchand-ArvierLa Cuisine du Web
 
CSS @font-face : Des polices personnalisées
CSS @font-face : Des polices personnaliséesCSS @font-face : Des polices personnalisées
CSS @font-face : Des polices personnaliséesYves Van Goethem
 
Du seo d'hier au référencement de demain un avenir plein de ressources (m...
Du seo d'hier au référencement de demain   un avenir plein de ressources (m...Du seo d'hier au référencement de demain   un avenir plein de ressources (m...
Du seo d'hier au référencement de demain un avenir plein de ressources (m...semrush_webinars
 
Contribuer à schema.org - Retour d’expérience : extension ELI pour les lois ...
Contribuer à schema.org - Retour d’expérience : extension ELI pour les lois ...Contribuer à schema.org - Retour d’expérience : extension ELI pour les lois ...
Contribuer à schema.org - Retour d’expérience : extension ELI pour les lois ...pwod
 
La recherche sur Internet: devenez un super chercheur
La recherche sur Internet: devenez un super chercheurLa recherche sur Internet: devenez un super chercheur
La recherche sur Internet: devenez un super chercheurElium
 
Au-delà de la gestion de flux RSS, valoriser sa veille
Au-delà de la gestion de flux RSS, valoriser sa veilleAu-delà de la gestion de flux RSS, valoriser sa veille
Au-delà de la gestion de flux RSS, valoriser sa veilleURFIST de Paris
 
Maitriser environnement informationnel_aut2015_ing4001
Maitriser environnement informationnel_aut2015_ing4001Maitriser environnement informationnel_aut2015_ing4001
Maitriser environnement informationnel_aut2015_ing4001Cynthia Lisée
 
Utiliser un crawler pour le seo
Utiliser un crawler pour le seoUtiliser un crawler pour le seo
Utiliser un crawler pour le seoPhilippe YONNET
 

Similaire à Classificateur d'URL (20)

Utilisation avancée d'un crawler - SEO Camp'us 2015
Utilisation avancée d'un crawler - SEO Camp'us 2015Utilisation avancée d'un crawler - SEO Camp'us 2015
Utilisation avancée d'un crawler - SEO Camp'us 2015
 
Blogs pour la veille
Blogs pour la veilleBlogs pour la veille
Blogs pour la veille
 
Methodologie Recherche Je 15 Dec
Methodologie Recherche Je 15 DecMethodologie Recherche Je 15 Dec
Methodologie Recherche Je 15 Dec
 
Screaming frog - l'outil ne fait pas l'artisan
Screaming frog - l'outil ne fait pas l'artisanScreaming frog - l'outil ne fait pas l'artisan
Screaming frog - l'outil ne fait pas l'artisan
 
Référencement & Standards Web : La même direction (PW2009)
Référencement & Standards Web : La même direction (PW2009)Référencement & Standards Web : La même direction (PW2009)
Référencement & Standards Web : La même direction (PW2009)
 
Cours SEO / Référencement Naturel - août 2013
Cours SEO / Référencement Naturel - août 2013Cours SEO / Référencement Naturel - août 2013
Cours SEO / Référencement Naturel - août 2013
 
Utilisation professionnelle des flux RSS
Utilisation professionnelle des flux RSSUtilisation professionnelle des flux RSS
Utilisation professionnelle des flux RSS
 
Introduction aux blogs
Introduction aux blogsIntroduction aux blogs
Introduction aux blogs
 
Se faire connaitre sur le web
Se faire connaitre sur le webSe faire connaitre sur le web
Se faire connaitre sur le web
 
Recommandations seo Webdo
Recommandations seo WebdoRecommandations seo Webdo
Recommandations seo Webdo
 
Le SEO expliqué aux développeurs - Jean-Baptiste Marchand-Arvier
Le SEO expliqué aux développeurs - Jean-Baptiste Marchand-ArvierLe SEO expliqué aux développeurs - Jean-Baptiste Marchand-Arvier
Le SEO expliqué aux développeurs - Jean-Baptiste Marchand-Arvier
 
CSS @font-face : Des polices personnalisées
CSS @font-face : Des polices personnaliséesCSS @font-face : Des polices personnalisées
CSS @font-face : Des polices personnalisées
 
Du seo d'hier au référencement de demain un avenir plein de ressources (m...
Du seo d'hier au référencement de demain   un avenir plein de ressources (m...Du seo d'hier au référencement de demain   un avenir plein de ressources (m...
Du seo d'hier au référencement de demain un avenir plein de ressources (m...
 
Désindexation
DésindexationDésindexation
Désindexation
 
Contribuer à schema.org - Retour d’expérience : extension ELI pour les lois ...
Contribuer à schema.org - Retour d’expérience : extension ELI pour les lois ...Contribuer à schema.org - Retour d’expérience : extension ELI pour les lois ...
Contribuer à schema.org - Retour d’expérience : extension ELI pour les lois ...
 
La recherche sur Internet: devenez un super chercheur
La recherche sur Internet: devenez un super chercheurLa recherche sur Internet: devenez un super chercheur
La recherche sur Internet: devenez un super chercheur
 
Atelier template
Atelier templateAtelier template
Atelier template
 
Au-delà de la gestion de flux RSS, valoriser sa veille
Au-delà de la gestion de flux RSS, valoriser sa veilleAu-delà de la gestion de flux RSS, valoriser sa veille
Au-delà de la gestion de flux RSS, valoriser sa veille
 
Maitriser environnement informationnel_aut2015_ing4001
Maitriser environnement informationnel_aut2015_ing4001Maitriser environnement informationnel_aut2015_ing4001
Maitriser environnement informationnel_aut2015_ing4001
 
Utiliser un crawler pour le seo
Utiliser un crawler pour le seoUtiliser un crawler pour le seo
Utiliser un crawler pour le seo
 

Plus de martin255

Digital Paleontology - Digging for Ancient Tweets
Digital Paleontology - Digging for Ancient TweetsDigital Paleontology - Digging for Ancient Tweets
Digital Paleontology - Digging for Ancient Tweetsmartin255
 
Kontrast@TOTh 2012
Kontrast@TOTh 2012Kontrast@TOTh 2012
Kontrast@TOTh 2012martin255
 
Kontrast@TKE 2012
Kontrast@TKE 2012Kontrast@TKE 2012
Kontrast@TKE 2012martin255
 
Classificateur d'URL
Classificateur d'URLClassificateur d'URL
Classificateur d'URLmartin255
 
Architecture procédurale
Architecture procéduraleArchitecture procédurale
Architecture procéduralemartin255
 
L'unité documentaire sur le web
L'unité documentaire sur le webL'unité documentaire sur le web
L'unité documentaire sur le webmartin255
 

Plus de martin255 (6)

Digital Paleontology - Digging for Ancient Tweets
Digital Paleontology - Digging for Ancient TweetsDigital Paleontology - Digging for Ancient Tweets
Digital Paleontology - Digging for Ancient Tweets
 
Kontrast@TOTh 2012
Kontrast@TOTh 2012Kontrast@TOTh 2012
Kontrast@TOTh 2012
 
Kontrast@TKE 2012
Kontrast@TKE 2012Kontrast@TKE 2012
Kontrast@TKE 2012
 
Classificateur d'URL
Classificateur d'URLClassificateur d'URL
Classificateur d'URL
 
Architecture procédurale
Architecture procéduraleArchitecture procédurale
Architecture procédurale
 
L'unité documentaire sur le web
L'unité documentaire sur le webL'unité documentaire sur le web
L'unité documentaire sur le web
 

Classificateur d'URL

  • 1. Analyse et classification d’URL Projet iPinion - avril 2010
  • 2. Objectifs • Extraire le maximum d’informations possible d’une URL sans avoir à crawler la page correspondante • La taxonomie utilisée pour la classification est basée sur l’auteur du contenu : institutionnel, corporate, particulier, journaliste • D’autres aspects sont pris en compte par un système de tags (type de site, langue, etc.)
  • 3. Sommaire • 1. Analyse de l’URL de base • 2. Analyse du path • 3. Résultats • 4. Traitements postérieurs
  • 4. Décomposition d’une URL Protocole Sous-domaine Domaine TLD Sous-dossier Sous-dossiers http://tempsreel.nouvelobs.com/actualite/social/20100412.OBS2257/ sncf-78-de-ter-en-regions-57-de-trains-grande-lignes-teoz.html Titre Extension
  • 5. 1. Analyse de l’URL de base • L’URL de base se compose du sous- domaine, du domaine, du TLD, et éventuellement du premier sous-répertoire • Elle est la partie la plus signifiante de l’URL, et contient toujours le nom du site • Elle a l’inconvénient d’être très courte
  • 6. Déterminer le nom du site Le nom du site est l’un de ces trois tokens : http://tempsreel.nouvelobs.com/actualite/social/20100412.OBS2257/ sncf-78-de-ter-en-regions-57-de-trains-grande-lignes-teoz.html http://infopartage.blogspot.com/2010/04/des-dizaines-de-milliers-de-polonais.html http://twitter.com/bitsmedia/status/12255541587 http://www.liberation.fr/societe/0101630566-malentendu-sur-les-zones-noires-de-xynthia -> si l’URL contient deux tokens, le premier est le nom du site -> si elle contient trois tokens : -> si elle commence par www, le token suivant est le nom du site -> si non, on examine le deuxième token : -> si c’est un service de blog listé, le premier token est le site -> si non, le deuxième token est le site, et le premier est un sous-domaine, à traiter avec les sous-url -> dans tous les cas, le dernier token est le TLD -> si le nom du site récupéré à l’issue de cette première étape est dans la liste des exceptions, le nom du site est le premier token suivant l’URL de base (ex : twitter)
  • 7. Tests sur le nom du site 1 • On recheche le nom, par ordre de priorité, dans : - la liste des exceptions - la liste ‘institutionnels’ - la liste ‘médias’ - Google News (s’il est présent, il est ajouté à la liste ‘médias’) - la base des marques déposées de l’INPI (s’il est présent, il est ajouté à la liste ‘marques’) http://www.elysee.fr/president/les-actualites/communiques-de-presse/ 2010/avril/annulation-du-deplacement-de-m-le-president-de-la.8579.html auteur="institutionnel" http://www.lepost.fr/article/2009/05/13/1533812_la-banque-postale- comprend-la-crise.html auteur="média"
  • 8. Tests sur le nom du site II • Si tous les tests précédents échouent, on recherche la présence de mots qualifiants (‘lefilm’, ‘blog’, ‘actu’) dans le nom du site http://fragiles-lefilm.com/ nom="fragiles" type="film" auteur="corporate" lang="fr" • En cas de nouvel échec, on effectue ces tests sur le sous-domaine et le premier sous- répertoire http://leblog.vendeesign.com/web20/facebook-lance-facebook-lite-un- twitter-like-6543/ nom="vendeesign" type="blog" lang="fr"
  • 9. Tests sur le TLD • Si le TLD est national : on note #france (.fr), #francophone (.ch) ou #international (.de) • Si le TLD est générique : s’il existe des restrictions particulières (.gov, .mil, .edu), on ajoute un tag correspondant (#institutionnel) • Cas spécifique : .gouv.fr , par exemple, ajoute les tags #france et #institutionnel
  • 10. 2. Analyse du path • La suite de l’URL (‘path’) est segmentée sur les ‘/’ • Le path peut contenir de nombreuses informations pertinentes • Cependant, il doit être traité différemment de la partie principale l’URL
  • 11. Recherche de date • On trouve souvent une date encodée dans la première partie du path • Diverses expressions régulières permettent de rechercher la présence d’une date • La date de publication d’une page est une information importante pour en déterminer la pertinence http://www.capitaine-commerce.com/2007/12/20/ http://fr.rian.ru/business/20071001/81826681.html
  • 12. Test sur l’extension • L’analyse de l’extension permet de déterminer s’il s’agit d’une page (.html, .php, etc.), d’un fichier multimédia (.jpg, .png, etc.), ou d’un flux RSS (.xml) • On peut ensuite savoir quels traitements postérieurs seront possibles ou nécessaires : il est par exemple inutile de crawler les adresses pointant vers un fichier multimédia
  • 13. Recherche du type de site • Certains tokens (ex. : ‘wiki’ ou ‘blog’) permettent de déterminer le type de site correspondant à l’URL http://forums.thinkpads.com/viewtopic.php?f=43&t=86489 type="forum" • Le type de site peut également être déterminé à partir des listes de sites utilisées pour l’analyse http://www.lepost.fr/article/2009/05/13/1533812_la-banque-postale- comprend-la-crise.html type="actualités"
  • 14. Parsing du titre • On fait l’hypothèse que le dernier token avant l’extension est le titre de la page • On élimine tous les nombres de plus de quatre chiffres, ainsi que tout se qui se trouve avant un underscore, dans le premier token • On tokenize ensuite sur ‘-’ , le seul séparateur possible http://cordonsbourse.blogs.liberation.fr/cori/2009/08/un-milliard- deuros-provisionn%C3%A9-pour-les-traders-de-bnp-paribas.html titre="un milliard deuros provisionné pour les traders de bnp paribas"
  • 15. Des tags pour les autres informations • Si un mot qualifiant a été identifié dans l’URL, mais pas à une position particulière (ni nom du site, ni titre de la page), il est récupéré sous forme de tag : http://emploi.france5.fr/emploi/creation-entreprise/choisir-son-statut/ 53169148-fr.php tags="creation entreprise"
  • 16. 3. Résultats provisoires • A l’issue du script on dispose au minimum, pour chaque URL, du nom du site. • On parvient à identifier un type d’auteur dans 60-70% des cas • On dispose également de plusieurs tags (environ 5 par URL en moyenne)
  • 17. Exemples complets I http://al-turayya.hautetfort.com/archive/2010/03/08/ faire-un-don-pour-soutenir-mon-blog.html <url site="al turayya" page_title="faire un don pour soutenir mon blog" auteur="perso" type="blog" service="hautetfort" lang="fr" filetype="text/html" date="08/03/2010">http://al-turayya.hautetfort.com/ archive/2010/03/08/faire-un-don-pour-soutenir-mon- blog.html</url> http://www.ameliste.fr/ <url site="ameliste" auteur="commercial" lang="fr"> http://www.ameliste.fr/</url>
  • 18. Exemples complets II http://www.lalibre.be/economie/finance/article/ 285542/ing-a-bien-commence-l-annee.html <url site="lalibre.be" page_title="ing a bien commence l annee" tags="economie finance article" auteur="média" lang="fr" country="be" filetype="text/ html" date="08/03/2010">http://al- turayya.hautetfort.com/archive/2010/03/08/faire-un- don-pour-soutenir-mon-blog.html</url>
  • 19. 4. Traitements postérieurs • A l’issue de ce premier traitement, on peut envisager d’affiner la classification des URL • On classifie les URL du corpus de référence en fonction d’une typologie plus fine, créant ainsi des ‘profils’ • Dans un second temps, on peut envisager d’utiliser ce corpus annoté avec un programme d’apprentissage automatique supervisé