(exploration du web)

1 891 vues

Publié le

2.exploration du web

Publié dans : Business, Technologie
0 commentaire
1 j’aime
Statistiques
Remarques
  • Soyez le premier à commenter

Aucun téléchargement
Vues
Nombre de vues
1 891
Sur SlideShare
0
Issues des intégrations
0
Intégrations
7
Actions
Partages
0
Téléchargements
71
Commentaires
0
J’aime
1
Intégrations 0
Aucune incorporation

Aucune remarque pour cette diapositive

(exploration du web)

  1. 1. Université AbdelmalekEssadi<br />Faculté des Sciences<br />de Tétouan<br />Département Mathématiques <br />et Informatiques<br />Année univ. : 2010-2011<br />Filière : SMP S4 <br />2 – Exploration du Web<br />Anouar Abtoy<br />anouar.abtoy@uae.ma<br />1<br />
  2. 2. Introduction<br />Internet : <br />vaste champ d’information.<br />Connecte des millions d’ordinateurs entre eux à travers le monde.<br />2<br />
  3. 3. Introduction<br />L’information peut provenir de différents sources:<br />Institutions (librairies, universités, gouvernements, musées…)<br />Organisations informelles (groupe d'intérêts, forums, blogs, liste de diffusion…)<br />Publications (livres, journaux, revues, rapports…)<br />Médias (TV, radio,vidéos,DVD,MP3…)<br />Individus (enseignants, bibliothécaires, experts, amis…)<br />3<br />
  4. 4. Introduction<br />L’utilisation d’Internet pour rechercher de l’information s’impose comme un passage obligé.<br />Les difficultés d’utilisation:<br />Le choix d’un mauvais outil de recherche.<br />Mal stratégie de recherche.<br />Le choix des mauvaises mots-clés.<br />Mal expression des requêtes.<br />4<br />
  5. 5. Histoire d’Internet<br />1957: lancement du premier Spoutnik par les russes <br />( pleine Guerre froide).<br />Le président Eisenhower des USA décida de créer l’ARPA ( Advanced ResearchProjectsAgency) au sien de DoD (Department of Defense).<br />Objectif: créer un système de communication décentralisé pour l’armée américaine dans le cas de destruction de l’ensemble des réseaux de communication par des ogives atomiques soviétiques..<br />5<br />
  6. 6. Histoire d’Internet<br />1967: les premiers fondements théoriques de ARPANET.<br />Ne disposait que du service de courrier électronique.<br />1969: l’utilisation de ARPANET dans le domaine public.<br />ARPANET relie 4 instituts universitaires ( Standford, UCLA, Santa barbara et Utah)<br />6<br />
  7. 7. Qu’est-ce qu’Internet ?<br />Le réseau des réseaux.<br />Acheminer l’information d’une machine vers une autre.<br />L’un des protocoles qui a marqué l’impulsion d’Internet est TCP/IP<br />7<br />
  8. 8. Le Web<br />En anglais : WroldWide Web<br />la « toile (d’araignée) mondiale »<br />communément appelé le Web, parfois la Toile ou le WWW (3W).<br />Le Web n’est qu’une des applications d’Internet<br />8<br />
  9. 9. Le Web<br />Origine: 1989<br />Tim Berners Lee propose de créer su le site internet du CERN ( Centre européen pour la recherche nucléaire) un ensemble de documents reliés les uns aux autres par des liens hypertextes.<br />9<br />Tim Berners Lee<br />
  10. 10. Le Web<br />Le WWW:<br />Utilise le protocole HTTP pour transférer les documents.<br />Les documents ( pages) sont écrits dans un langage HTML(HypertextMarkupLanguage)<br />10<br />Hypertexte: un lien qui consiste à lier ou pointer un document vers un autre<br />
  11. 11. Le Web <br />Document HTML<br />Page Web<br />Extension : .html<br />Ensemble de pages Web == un site Web.<br />11<br />
  12. 12. Le Web <br />Un site Web doit être hébergé par un serveur.<br />Un certain nombre d’outils sont à installer:<br />Un Serveur Web (Ex: Apache)<br />Un langage de script (Ex: PHP) <br />Un serveur de base de données (Ex: MySQL)<br />…<br />12<br />
  13. 13. Le Web<br />Pour consulter une page Web, il faut disposer d’un navigateur:<br />MozillaFirefox<br />Internet Explorer<br />Google Chrome<br />Apple Safari<br />……<br />13<br />
  14. 14. Le Web Visible<br />Le web dit visible ou surfacique est en fait constitué de toutes les pages indexées par les moteurs de recherche Google, Yahoo, Bing…).<br />Indexation : <br />14<br />un moteur de recherche "aspire" les pages et les indexe dans des bases de données contenues sur des servers. Lorsqu'un quelconque utilisateur effectue une recherche, il lance dans le même temps une requête sur la base de donnée. <br />Ex: Google indexe environ 9 à 10 % du web entier  ces 10% qui constituent le web visible<br />
  15. 15. Le Web invisible<br />Dit aussi le web caché (en anglais Hidden web ) ou le web profond (deep web).<br />C’est la partie du web accessible en ligne, mais non indexée par les moteurs de recherche classiques généralistes.<br /> inaccessible aux moteur de recherche.<br />15<br />
  16. 16. Le Web invisible<br />Selon CompletePlanet*, le web profond serait 500 fois plus grand que le web de surface ( visible).<br />16<br />*:http://aip.completeplanet.com/<br />
  17. 17. Le Web invisible<br />Typologie du contenu des sites:<br />Les bases de données (BD) spécialisées par sujet:<br /> Ex: des BD médicales, de physique, de brevets;<br />Les BD internes à des sites volumineux:<br /> Ces pages sont générées dynamiquement.<br /> Ex: la base de connaissance des sites Microsoft <br />17<br />
  18. 18. Le Web invisible<br />Typologie du contenu des sites:<br />Les publications: les BD interrogeables ( via un moteur interne) donnant accès à des articles, des extraits d’ouvrages, des thèses, des livres blancs…<br /> Ex: FindArticles et books.google;<br />18<br />
  19. 19. Le Web invisible<br />Typologie du contenu des sites:<br />Les bibliothèques en ligne. <br /> Ex: la bibliothèques du Congés des États-Unis;<br />19<br />
  20. 20. Le Web invisible<br />Typologie du contenu des sites:<br />Les pages jaunes et blanches: répertoires de personnes morales et physiques.<br /> Ex: www.pj.ma<br />20<br />
  21. 21. Le Web invisible<br />Comment identifier les sites du web invisibles ?<br />Quelques outils :<br />Outils de recherche spécialisés:<br />Yahoo! SearchSubscriptions ( recherche thématique)<br />Incywincy ( moteur de recherche du web invisible)<br />21<br />
  22. 22. Le Web invisible<br />FindArticles( moteur de recherche d’articles, de journaux, de magazines, etc…)<br />Google Scholar(moteur de recherche des travaux universitaires)<br />22<br />
  23. 23. Le Web invisible<br />High Beam( moteur de recherche, à usage académique et professionnel, de journaux, magazines, et d’autres publications)<br />HighWirePress(spécialisé dans la numérisation des publications scientifiques : journaux, ouvrages et autres)<br />23<br />
  24. 24. Le Web invisible<br />Les répertoires de moteurs:<br />Allsearchengines( spécialisé dans la recherche sur le web britannique)<br />Finderseeker(moteur de recherche des moteur de recherche)<br />24<br />
  25. 25. Le Web invisible<br />Les bases de données interrogeables:<br />The Internet Archive ( librairie numérique offrant l’accès universel aux ouvrages, vidéos, musiques…)<br />25<br />
  26. 26. Le Web invisible<br />Les Bibliothèques en ligne:<br />Libdex( annuaire des librairies)<br />26<br />
  27. 27. Les outils de recherche<br />27<br />
  28. 28. Les moteurs de recherche<br />Indexent régulièrement des millions de pages web dans une base de données.<br />La plupart des moteurs de recherche disposant de 3 composantes :<br />Un logiciel de indexation: appelés aussi robots, spiders ou crawlers.<br />Un logiciel de recherche<br />Un index<br />Ex:<br />28<br />
  29. 29. Les moteurs de recherche<br />chaque moteur de recherche propose une formulaire simple de recherche.<br />La recherche s’effectue dans la base de données du moteur et nonsur la totalité d’Internet.<br />29<br />
  30. 30. Les moteurs de recherche<br />Classement des résultats: on peut distinguer deux grandes classes de méthodes de tri:<br />Le tri par pertinence: les résultats d’une requête sont affichés selon un ordre déterminé par le calcul d’un score pour chaque réponse.<br />Le tri par popularité: deux méthodes principales:<br />La méthode basée sur la co-citation: utilise le nombre de liens pointant sur les pages.<br />La méthode basée sur la mesure d’audience: tri les pages en fonction du nombre de visites qu’elles reçoivent<br />30<br />
  31. 31. Les annuaires<br />Annuaires ou répertoires ≠ moteurs de recherche.<br />Recensent des sites web classés par catégories et sous catégorises.<br />2 types : généralistes et spécialisé.<br />Ex: annuaire généraliste<br />Résultats:<br />Par mots-clés<br />Par forme de catégories<br />31<br />
  32. 32. Les métamoteurs<br />est un logiciel qui puise ses informations à travers plusieurs moteurs de recherche.<br />le métamoteur envoie ses Requêtes à plusieurs moteurs de recherche, et retourne les résultats de chacun d'eux.<br />Ex:<br />32<br />
  33. 33. D’autres outils<br />Les encyclopédies: elles présentent des informations validées, sûres et de qualité.<br />Site fédérateurs et guides: ils indexent des sites validés pour leur qualité dans des domaines précis appartenant au web visible et invisible.<br />Les webrings: est une collection de sites web et sont souvent composés de sites aux thèmes similaires.<br />33<br />
  34. 34. Les techniques de recherche<br />34<br />
  35. 35. Méthodologies de recherche<br />Définition du besoin d’information:<br />L’identification des composantes.<br />La priorisation des composantes.<br />La formulation des composantes : ex: les synonymes.<br />Limitations:<br />Linguistique : plus de 85% du web sont en anglais.<br />Chronologique: date de publication et période couverte.<br />Géographique : origine des pages web.<br />35<br />
  36. 36. Opérateurs de recherche<br />Opérateurs logiques (booléens): OR (ou), AND(et),NOT(sauf).<br />Recherche d’expressions: l’utilisations des guillemets(« … »).<br />Les parenthèses: sont utilisées pour forcer l’ordre d’exécution des opérateurs.<br />Ex: (cours OR TD )ET (physique ET quantique)<br />36<br />
  37. 37. Opérateurs de recherche<br />Opérateurs avancés:<br />Title, intitle ou allintitle: rehcercher les mots-clés uniquement dans le titre des pages web<br /> Ex: intitle:licence professionnelle<br />Filetype: lancer des rehcercher selon le type et e format de fichier.<br /> Ex: cours algèbre filetype:pdf<br />Site: réaliser des recherches au niveau d’un site dont le contenu et très volumineux.<br /> Ex: cours réseaux site:www.siteduzero.net<br />D’autres opérateurs, visiter : www.searchengineshowdown.com<br />37<br />

×