Analyse et classification d’URL        Projet iPinion - avril 2010
Objectifs•   Extraire le maximum d’informations possible    d’une URL sans avoir à crawler la page    correspondante•   La...
Sommaire• 1. Analyse de l’URL de base• 2. Analyse du path• 3. Résultats• 4. Traitements postérieurs
Décomposition d’une URLProtocole   Sous-domaine   Domaine   TLD     Sous-dossier   Sous-dossiershttp://tempsreel.nouvelobs...
1. Analyse de l’URL de base• L’URL de base se compose du sous-  domaine, du domaine, du TLD, et  éventuellement du premier...
Déterminer le nom du site       Le nom du site est l’un de ces trois tokens :http://tempsreel.nouvelobs.com/actualite/soci...
Tests sur le nom du site 1    •   On recheche le nom, par ordre de priorité, dans :    - la liste des exceptions    - la l...
Tests sur le nom du site II  • Si tous les tests précédents échouent, on     recherche la présence de mots qualifiants     ...
Tests sur le TLD• Si le TLD est national : on note #france (.fr),  #francophone (.ch) ou #international (.de)• Si le TLD e...
2. Analyse du path• La suite de l’URL (‘path’) est segmentée sur  les ‘/’• Le path peut contenir de nombreuses  informatio...
Recherche de date• On trouve souvent une date encodée dans  la première partie du path• Diverses expressions régulières pe...
Test sur l’extension• L’analyse de l’extension permet de  déterminer s’il s’agit d’une page (.html, .php,  etc.), d’un fich...
Recherche du type de site   • Certains tokens (ex. : ‘wiki’ ou ‘blog’)      permettent de déterminer le type de site      ...
Parsing du titre    • On fait l’hypothèse que le dernier token       avant l’extension est le titre de la page    • On éli...
Des tags pour les autres             informations     • Si un mot qualifiant a été identifié dans         l’URL, mais pas à ...
3. Résultats provisoires• A l’issue du script on dispose au minimum,  pour chaque URL, du nom du site.• On parvient à iden...
Exemples complets Ihttp://al-turayya.hautetfort.com/archive/2010/03/08/     faire-un-don-pour-soutenir-mon-blog.html<url s...
Exemples complets II     http://www.lalibre.be/economie/finance/article/        285542/ing-a-bien-commence-l-annee.html<ur...
4. Traitements postérieurs• A l’issue de ce premier traitement, on peut  envisager d’affiner la classification des URL• On c...
Prochain SlideShare
Chargement dans…5
×

Classificateur d'URL

652 vues

Publié le

Publié dans : Technologie
0 commentaire
0 j’aime
Statistiques
Remarques
  • Soyez le premier à commenter

  • Soyez le premier à aimer ceci

Aucun téléchargement
Vues
Nombre de vues
652
Sur SlideShare
0
Issues des intégrations
0
Intégrations
96
Actions
Partages
0
Téléchargements
4
Commentaires
0
J’aime
0
Intégrations 0
Aucune incorporation

Aucune remarque pour cette diapositive

Classificateur d'URL

  1. 1. Analyse et classification d’URL Projet iPinion - avril 2010
  2. 2. Objectifs• Extraire le maximum d’informations possible d’une URL sans avoir à crawler la page correspondante• La taxonomie utilisée pour la classification est basée sur l’auteur du contenu : institutionnel, corporate, particulier, journaliste• D’autres aspects sont pris en compte par un système de tags (type de site, langue, etc.)
  3. 3. Sommaire• 1. Analyse de l’URL de base• 2. Analyse du path• 3. Résultats• 4. Traitements postérieurs
  4. 4. Décomposition d’une URLProtocole Sous-domaine Domaine TLD Sous-dossier Sous-dossiershttp://tempsreel.nouvelobs.com/actualite/social/20100412.OBS2257/ sncf-78-de-ter-en-regions-57-de-trains-grande-lignes-teoz.html Titre Extension
  5. 5. 1. Analyse de l’URL de base• L’URL de base se compose du sous- domaine, du domaine, du TLD, et éventuellement du premier sous-répertoire• Elle est la partie la plus signifiante de l’URL, et contient toujours le nom du site• Elle a l’inconvénient d’être très courte
  6. 6. Déterminer le nom du site Le nom du site est l’un de ces trois tokens :http://tempsreel.nouvelobs.com/actualite/social/20100412.OBS2257/ sncf-78-de-ter-en-regions-57-de-trains-grande-lignes-teoz.html http://infopartage.blogspot.com/2010/04/des-dizaines-de-milliers-de-polonais.html http://twitter.com/bitsmedia/status/12255541587http://www.liberation.fr/societe/0101630566-malentendu-sur-les-zones-noires-de-xynthia -> si l’URL contient deux tokens, le premier est le nom du site -> si elle contient trois tokens : -> si elle commence par www, le token suivant est le nom du site -> si non, on examine le deuxième token : -> si c’est un service de blog listé, le premier token est le site -> si non, le deuxième token est le site, et le premier est un sous-domaine, à traiter avec les sous-url -> dans tous les cas, le dernier token est le TLD -> si le nom du site récupéré à l’issue de cette première étape est dans la liste des exceptions, le nom du site est le premier token suivant l’URL de base (ex : twitter)
  7. 7. Tests sur le nom du site 1 • On recheche le nom, par ordre de priorité, dans : - la liste des exceptions - la liste ‘institutionnels’ - la liste ‘médias’ - Google News (s’il est présent, il est ajouté à la liste ‘médias’) - la base des marques déposées de l’INPI (s’il est présent, il est ajouté à la liste ‘marques’) http://www.elysee.fr/president/les-actualites/communiques-de-presse/2010/avril/annulation-du-deplacement-de-m-le-president-de-la.8579.html auteur="institutionnel" http://www.lepost.fr/article/2009/05/13/1533812_la-banque-postale- comprend-la-crise.html auteur="média"
  8. 8. Tests sur le nom du site II • Si tous les tests précédents échouent, on recherche la présence de mots qualifiants (‘lefilm’, ‘blog’, ‘actu’) dans le nom du site http://fragiles-lefilm.com/ nom="fragiles" type="film" auteur="corporate" lang="fr" • En cas de nouvel échec, on effectue ces tests sur le sous-domaine et le premier sous- répertoirehttp://leblog.vendeesign.com/web20/facebook-lance-facebook-lite-un- twitter-like-6543/ nom="vendeesign" type="blog" lang="fr"
  9. 9. Tests sur le TLD• Si le TLD est national : on note #france (.fr), #francophone (.ch) ou #international (.de)• Si le TLD est générique : s’il existe des restrictions particulières (.gov, .mil, .edu), on ajoute un tag correspondant (#institutionnel)• Cas spécifique : .gouv.fr , par exemple, ajoute les tags #france et #institutionnel
  10. 10. 2. Analyse du path• La suite de l’URL (‘path’) est segmentée sur les ‘/’• Le path peut contenir de nombreuses informations pertinentes• Cependant, il doit être traité différemment de la partie principale l’URL
  11. 11. Recherche de date• On trouve souvent une date encodée dans la première partie du path• Diverses expressions régulières permettent de rechercher la présence d’une date• La date de publication d’une page est une information importante pour en déterminer la pertinence http://www.capitaine-commerce.com/2007/12/20/ http://fr.rian.ru/business/20071001/81826681.html
  12. 12. Test sur l’extension• L’analyse de l’extension permet de déterminer s’il s’agit d’une page (.html, .php, etc.), d’un fichier multimédia (.jpg, .png, etc.), ou d’un flux RSS (.xml)• On peut ensuite savoir quels traitements postérieurs seront possibles ou nécessaires : il est par exemple inutile de crawler les adresses pointant vers un fichier multimédia
  13. 13. Recherche du type de site • Certains tokens (ex. : ‘wiki’ ou ‘blog’) permettent de déterminer le type de site correspondant à l’URL http://forums.thinkpads.com/viewtopic.php?f=43&t=86489 type="forum" • Le type de site peut également être déterminé à partir des listes de sites utilisées pour l’analysehttp://www.lepost.fr/article/2009/05/13/1533812_la-banque-postale- comprend-la-crise.html type="actualités"
  14. 14. Parsing du titre • On fait l’hypothèse que le dernier token avant l’extension est le titre de la page • On élimine tous les nombres de plus de quatre chiffres, ainsi que tout se qui se trouve avant un underscore, dans le premier token • On tokenize ensuite sur ‘-’ , le seul séparateur possiblehttp://cordonsbourse.blogs.liberation.fr/cori/2009/08/un-milliard- deuros-provisionn%C3%A9-pour-les-traders-de-bnp-paribas.html titre="un milliard deuros provisionné pour les traders de bnp paribas"
  15. 15. Des tags pour les autres informations • Si un mot qualifiant a été identifié dans l’URL, mais pas à une position particulière (ni nom du site, ni titre de la page), il est récupéré sous forme de tag :http://emploi.france5.fr/emploi/creation-entreprise/choisir-son-statut/ 53169148-fr.php tags="creation entreprise"
  16. 16. 3. Résultats provisoires• A l’issue du script on dispose au minimum, pour chaque URL, du nom du site.• On parvient à identifier un type d’auteur dans 60-70% des cas• On dispose également de plusieurs tags (environ 5 par URL en moyenne)
  17. 17. Exemples complets Ihttp://al-turayya.hautetfort.com/archive/2010/03/08/ faire-un-don-pour-soutenir-mon-blog.html<url site="al turayya" page_title="faire un don pour soutenir mon blog" auteur="perso" type="blog"service="hautetfort" lang="fr" filetype="text/html"date="08/03/2010">http://al-turayya.hautetfort.com/ archive/2010/03/08/faire-un-don-pour-soutenir-mon- blog.html</url> http://www.ameliste.fr/<url site="ameliste" auteur="commercial" lang="fr"> http://www.ameliste.fr/</url>
  18. 18. Exemples complets II http://www.lalibre.be/economie/finance/article/ 285542/ing-a-bien-commence-l-annee.html<url site="lalibre.be" page_title="ing a bien commence l annee" tags="economie finance article"auteur="média" lang="fr" country="be" filetype="text/ html" date="08/03/2010">http://al- turayya.hautetfort.com/archive/2010/03/08/faire-un- don-pour-soutenir-mon-blog.html</url>
  19. 19. 4. Traitements postérieurs• A l’issue de ce premier traitement, on peut envisager d’affiner la classification des URL• On classifie les URL du corpus de référence en fonction d’une typologie plus fine, créant ainsi des ‘profils’• Dans un second temps, on peut envisager d’utiliser ce corpus annoté avec un programme d’apprentissage automatique supervisé

×