Université AbdelmalekEssadiFaculté des Sciencesde TétouanDépartement Mathématiques et InformatiquesAnnée univ. : 2010-2011Filière : SMP S4  2 – Exploration du WebAnouar Abtoyanouar.abtoy@uae.ma1
IntroductionInternet : vaste champ d’information.Connecte des millions d’ordinateurs entre eux à travers le monde.2
IntroductionL’information peut provenir de différents sources:Institutions (librairies, universités, gouvernements, musées…)Organisations informelles (groupe d'intérêts, forums, blogs, liste de diffusion…)Publications (livres, journaux, revues, rapports…)Médias (TV, radio,vidéos,DVD,MP3…)Individus (enseignants, bibliothécaires, experts, amis…)3
IntroductionL’utilisation d’Internet pour rechercher de l’information s’impose comme un passage obligé.Les difficultés d’utilisation:Le choix d’un mauvais outil de recherche.Mal stratégie de recherche.Le choix des mauvaises mots-clés.Mal expression des requêtes.4
Histoire d’Internet1957: lancement du premier Spoutnik par les russes ( pleine Guerre froide).Le président Eisenhower des USA décida de créer l’ARPA ( Advanced ResearchProjectsAgency) au sien de DoD (Department of Defense).Objectif: créer un système de communication décentralisé pour l’armée américaine dans le cas de destruction de l’ensemble des réseaux de communication par des ogives atomiques soviétiques..5
Histoire d’Internet1967: les premiers fondements théoriques de ARPANET.Ne disposait que du service de courrier électronique.1969: l’utilisation de ARPANET dans le domaine public.ARPANET relie 4 instituts universitaires ( Standford, UCLA, Santa barbara et Utah)6
Qu’est-ce qu’Internet ?Le réseau des réseaux.Acheminer l’information d’une machine vers une autre.L’un des protocoles qui a marqué l’impulsion d’Internet est TCP/IP7
Le WebEn anglais : WroldWide Webla « toile (d’araignée) mondiale »communément appelé le Web, parfois la Toile ou le WWW (3W).Le Web n’est qu’une des applications d’Internet8
Le WebOrigine: 1989Tim Berners Lee propose de créer su le site internet du CERN ( Centre européen pour la recherche nucléaire) un ensemble de documents reliés les uns aux autres par des liens hypertextes.9Tim Berners Lee
Le WebLe WWW:Utilise le protocole HTTP pour transférer les documents.Les documents ( pages) sont écrits dans un langage HTML(HypertextMarkupLanguage)10Hypertexte: un lien qui consiste à lier ou pointer un document vers un autre
Le Web	Document HTMLPage WebExtension : .htmlEnsemble de pages Web == un site Web.11
Le Web	Un site Web doit être hébergé par un serveur.Un certain nombre d’outils sont à installer:Un Serveur Web (Ex: Apache)Un langage de script (Ex: PHP) Un serveur de base de données (Ex: MySQL)…12
Le WebPour consulter une page Web, il faut disposer d’un navigateur:MozillaFirefoxInternet ExplorerGoogle ChromeApple Safari……13
Le Web VisibleLe web dit visible ou surfacique est en fait constitué de toutes les pages indexées par les moteurs de recherche Google, Yahoo, Bing…).Indexation : 14un moteur de recherche "aspire" les pages et les indexe dans des bases de données contenues sur des servers. Lorsqu'un quelconque utilisateur effectue une recherche, il lance dans le même temps une requête sur la base de donnée. Ex: Google indexe environ 9 à 10 % du web entier  ces 10% qui constituent le web visible
Le Web invisibleDit aussi le web caché (en anglais Hidden web ) ou le web profond (deep web).C’est la partie du web accessible en ligne, mais non indexée par les moteurs de recherche classiques généralistes. inaccessible aux moteur de recherche.15
Le Web invisibleSelon CompletePlanet*, le web profond serait 500 fois plus grand que le web de surface ( visible).16*:http://aip.completeplanet.com/
Le Web invisibleTypologie du contenu des sites:Les bases de données (BD) spécialisées par sujet:	Ex: des BD médicales, de physique, de brevets;Les BD internes à des sites volumineux:	Ces pages sont générées dynamiquement.	Ex: la base de connaissance des sites Microsoft 17
Le Web invisibleTypologie du contenu des sites:Les publications: les BD interrogeables ( via un moteur interne) donnant accès à des articles, des extraits d’ouvrages, des thèses, des livres blancs…	Ex: FindArticles et books.google;18
Le Web invisibleTypologie du contenu des sites:Les bibliothèques en ligne. 	Ex: la bibliothèques du Congés des États-Unis;19
Le Web invisibleTypologie du contenu des sites:Les pages jaunes et blanches: répertoires de personnes morales et physiques.	Ex: www.pj.ma20
Le Web invisibleComment identifier les sites du web invisibles ?Quelques outils :Outils de recherche spécialisés:Yahoo! SearchSubscriptions ( recherche thématique)Incywincy ( moteur de recherche du web invisible)21
Le Web invisibleFindArticles( moteur de recherche d’articles, de journaux, de magazines, etc…)Google Scholar(moteur de recherche des travaux universitaires)22
Le Web invisibleHigh Beam( moteur de recherche, à usage académique et professionnel, de journaux, magazines, et d’autres publications)HighWirePress(spécialisé dans la numérisation des publications scientifiques : journaux, ouvrages et autres)23
Le Web invisibleLes répertoires de moteurs:Allsearchengines( spécialisé dans la recherche sur le web britannique)Finderseeker(moteur de recherche des moteur de recherche)24
Le Web invisibleLes bases de données interrogeables:The Internet Archive ( librairie numérique offrant l’accès universel aux ouvrages, vidéos, musiques…)25
Le Web invisibleLes Bibliothèques en ligne:Libdex( annuaire des librairies)26
Les outils de recherche27
Les moteurs de rechercheIndexent régulièrement des millions de pages web dans une base de données.La plupart des moteurs de recherche disposant de 3 composantes :Un logiciel de indexation: appelés aussi robots, spiders ou crawlers.Un logiciel de rechercheUn indexEx:28
Les moteurs de recherchechaque moteur de recherche propose une formulaire simple de recherche.La recherche s’effectue dans la base de données du moteur et nonsur la totalité d’Internet.29
Les moteurs de rechercheClassement des résultats: on peut distinguer deux grandes classes de méthodes de tri:Le tri par pertinence: les résultats d’une requête sont affichés selon un ordre déterminé par le calcul d’un score pour chaque réponse.Le tri par popularité: deux méthodes principales:La méthode basée sur la co-citation: utilise le nombre de liens pointant sur les pages.La méthode basée sur la mesure d’audience: tri les pages en fonction du nombre de visites qu’elles reçoivent30
Les annuairesAnnuaires ou répertoires ≠ moteurs de recherche.Recensent des sites web classés par catégories et sous catégorises.2 types :  généralistes et spécialisé.Ex: annuaire généralisteRésultats:Par mots-clésPar forme de catégories31
Les métamoteursest un logiciel qui puise ses informations à travers plusieurs moteurs de recherche.le métamoteur envoie ses Requêtes à plusieurs moteurs de recherche, et retourne les résultats de chacun d'eux.Ex:32
D’autres outilsLes encyclopédies: elles présentent des informations validées, sûres et de qualité.Site fédérateurs et guides: ils indexent des sites validés pour leur qualité dans des domaines précis appartenant au web visible et invisible.Les webrings: est une collection de sites web et sont souvent composés de sites aux thèmes similaires.33
Les techniques de recherche34
Méthodologies de rechercheDéfinition du besoin d’information:L’identification des composantes.La priorisation des composantes.La formulation des composantes : ex: les synonymes.Limitations:Linguistique : plus de 85% du web sont en anglais.Chronologique:  date de publication et période couverte.Géographique : origine des pages web.35
Opérateurs de rechercheOpérateurs logiques (booléens): OR (ou), AND(et),NOT(sauf).Recherche d’expressions:  l’utilisations des guillemets(« … »).Les parenthèses:  sont utilisées pour forcer l’ordre d’exécution des opérateurs.Ex:    (cours OR TD )ET (physique ET quantique)36
Opérateurs de rechercheOpérateurs avancés:Title, intitle ou allintitle: rehcercher les mots-clés uniquement dans le titre des pages web	Ex: 	intitle:licence professionnelleFiletype: lancer des rehcercher selon le type et e format de fichier.	Ex: 	cours algèbre filetype:pdfSite: réaliser des recherches au niveau d’un site dont le contenu et très volumineux.	Ex:	cours réseaux site:www.siteduzero.netD’autres opérateurs, visiter : 				www.searchengineshowdown.com37

(exploration du web)

  • 1.
    Université AbdelmalekEssadiFaculté desSciencesde TétouanDépartement Mathématiques et InformatiquesAnnée univ. : 2010-2011Filière : SMP S4 2 – Exploration du WebAnouar Abtoyanouar.abtoy@uae.ma1
  • 2.
    IntroductionInternet : vastechamp d’information.Connecte des millions d’ordinateurs entre eux à travers le monde.2
  • 3.
    IntroductionL’information peut provenirde différents sources:Institutions (librairies, universités, gouvernements, musées…)Organisations informelles (groupe d'intérêts, forums, blogs, liste de diffusion…)Publications (livres, journaux, revues, rapports…)Médias (TV, radio,vidéos,DVD,MP3…)Individus (enseignants, bibliothécaires, experts, amis…)3
  • 4.
    IntroductionL’utilisation d’Internet pourrechercher de l’information s’impose comme un passage obligé.Les difficultés d’utilisation:Le choix d’un mauvais outil de recherche.Mal stratégie de recherche.Le choix des mauvaises mots-clés.Mal expression des requêtes.4
  • 5.
    Histoire d’Internet1957: lancementdu premier Spoutnik par les russes ( pleine Guerre froide).Le président Eisenhower des USA décida de créer l’ARPA ( Advanced ResearchProjectsAgency) au sien de DoD (Department of Defense).Objectif: créer un système de communication décentralisé pour l’armée américaine dans le cas de destruction de l’ensemble des réseaux de communication par des ogives atomiques soviétiques..5
  • 6.
    Histoire d’Internet1967: lespremiers fondements théoriques de ARPANET.Ne disposait que du service de courrier électronique.1969: l’utilisation de ARPANET dans le domaine public.ARPANET relie 4 instituts universitaires ( Standford, UCLA, Santa barbara et Utah)6
  • 7.
    Qu’est-ce qu’Internet ?Leréseau des réseaux.Acheminer l’information d’une machine vers une autre.L’un des protocoles qui a marqué l’impulsion d’Internet est TCP/IP7
  • 8.
    Le WebEn anglais: WroldWide Webla « toile (d’araignée) mondiale »communément appelé le Web, parfois la Toile ou le WWW (3W).Le Web n’est qu’une des applications d’Internet8
  • 9.
    Le WebOrigine: 1989TimBerners Lee propose de créer su le site internet du CERN ( Centre européen pour la recherche nucléaire) un ensemble de documents reliés les uns aux autres par des liens hypertextes.9Tim Berners Lee
  • 10.
    Le WebLe WWW:Utilisele protocole HTTP pour transférer les documents.Les documents ( pages) sont écrits dans un langage HTML(HypertextMarkupLanguage)10Hypertexte: un lien qui consiste à lier ou pointer un document vers un autre
  • 11.
    Le Web Document HTMLPageWebExtension : .htmlEnsemble de pages Web == un site Web.11
  • 12.
    Le Web Un siteWeb doit être hébergé par un serveur.Un certain nombre d’outils sont à installer:Un Serveur Web (Ex: Apache)Un langage de script (Ex: PHP) Un serveur de base de données (Ex: MySQL)…12
  • 13.
    Le WebPour consulterune page Web, il faut disposer d’un navigateur:MozillaFirefoxInternet ExplorerGoogle ChromeApple Safari……13
  • 14.
    Le Web VisibleLeweb dit visible ou surfacique est en fait constitué de toutes les pages indexées par les moteurs de recherche Google, Yahoo, Bing…).Indexation : 14un moteur de recherche "aspire" les pages et les indexe dans des bases de données contenues sur des servers. Lorsqu'un quelconque utilisateur effectue une recherche, il lance dans le même temps une requête sur la base de donnée. Ex: Google indexe environ 9 à 10 % du web entier  ces 10% qui constituent le web visible
  • 15.
    Le Web invisibleDitaussi le web caché (en anglais Hidden web ) ou le web profond (deep web).C’est la partie du web accessible en ligne, mais non indexée par les moteurs de recherche classiques généralistes. inaccessible aux moteur de recherche.15
  • 16.
    Le Web invisibleSelonCompletePlanet*, le web profond serait 500 fois plus grand que le web de surface ( visible).16*:http://aip.completeplanet.com/
  • 17.
    Le Web invisibleTypologiedu contenu des sites:Les bases de données (BD) spécialisées par sujet: Ex: des BD médicales, de physique, de brevets;Les BD internes à des sites volumineux: Ces pages sont générées dynamiquement. Ex: la base de connaissance des sites Microsoft 17
  • 18.
    Le Web invisibleTypologiedu contenu des sites:Les publications: les BD interrogeables ( via un moteur interne) donnant accès à des articles, des extraits d’ouvrages, des thèses, des livres blancs… Ex: FindArticles et books.google;18
  • 19.
    Le Web invisibleTypologiedu contenu des sites:Les bibliothèques en ligne. Ex: la bibliothèques du Congés des États-Unis;19
  • 20.
    Le Web invisibleTypologiedu contenu des sites:Les pages jaunes et blanches: répertoires de personnes morales et physiques. Ex: www.pj.ma20
  • 21.
    Le Web invisibleCommentidentifier les sites du web invisibles ?Quelques outils :Outils de recherche spécialisés:Yahoo! SearchSubscriptions ( recherche thématique)Incywincy ( moteur de recherche du web invisible)21
  • 22.
    Le Web invisibleFindArticles(moteur de recherche d’articles, de journaux, de magazines, etc…)Google Scholar(moteur de recherche des travaux universitaires)22
  • 23.
    Le Web invisibleHighBeam( moteur de recherche, à usage académique et professionnel, de journaux, magazines, et d’autres publications)HighWirePress(spécialisé dans la numérisation des publications scientifiques : journaux, ouvrages et autres)23
  • 24.
    Le Web invisibleLesrépertoires de moteurs:Allsearchengines( spécialisé dans la recherche sur le web britannique)Finderseeker(moteur de recherche des moteur de recherche)24
  • 25.
    Le Web invisibleLesbases de données interrogeables:The Internet Archive ( librairie numérique offrant l’accès universel aux ouvrages, vidéos, musiques…)25
  • 26.
    Le Web invisibleLesBibliothèques en ligne:Libdex( annuaire des librairies)26
  • 27.
    Les outils derecherche27
  • 28.
    Les moteurs derechercheIndexent régulièrement des millions de pages web dans une base de données.La plupart des moteurs de recherche disposant de 3 composantes :Un logiciel de indexation: appelés aussi robots, spiders ou crawlers.Un logiciel de rechercheUn indexEx:28
  • 29.
    Les moteurs derecherchechaque moteur de recherche propose une formulaire simple de recherche.La recherche s’effectue dans la base de données du moteur et nonsur la totalité d’Internet.29
  • 30.
    Les moteurs derechercheClassement des résultats: on peut distinguer deux grandes classes de méthodes de tri:Le tri par pertinence: les résultats d’une requête sont affichés selon un ordre déterminé par le calcul d’un score pour chaque réponse.Le tri par popularité: deux méthodes principales:La méthode basée sur la co-citation: utilise le nombre de liens pointant sur les pages.La méthode basée sur la mesure d’audience: tri les pages en fonction du nombre de visites qu’elles reçoivent30
  • 31.
    Les annuairesAnnuaires ourépertoires ≠ moteurs de recherche.Recensent des sites web classés par catégories et sous catégorises.2 types : généralistes et spécialisé.Ex: annuaire généralisteRésultats:Par mots-clésPar forme de catégories31
  • 32.
    Les métamoteursest unlogiciel qui puise ses informations à travers plusieurs moteurs de recherche.le métamoteur envoie ses Requêtes à plusieurs moteurs de recherche, et retourne les résultats de chacun d'eux.Ex:32
  • 33.
    D’autres outilsLes encyclopédies:elles présentent des informations validées, sûres et de qualité.Site fédérateurs et guides: ils indexent des sites validés pour leur qualité dans des domaines précis appartenant au web visible et invisible.Les webrings: est une collection de sites web et sont souvent composés de sites aux thèmes similaires.33
  • 34.
  • 35.
    Méthodologies de rechercheDéfinitiondu besoin d’information:L’identification des composantes.La priorisation des composantes.La formulation des composantes : ex: les synonymes.Limitations:Linguistique : plus de 85% du web sont en anglais.Chronologique: date de publication et période couverte.Géographique : origine des pages web.35
  • 36.
    Opérateurs de rechercheOpérateurslogiques (booléens): OR (ou), AND(et),NOT(sauf).Recherche d’expressions: l’utilisations des guillemets(« … »).Les parenthèses: sont utilisées pour forcer l’ordre d’exécution des opérateurs.Ex: (cours OR TD )ET (physique ET quantique)36
  • 37.
    Opérateurs de rechercheOpérateursavancés:Title, intitle ou allintitle: rehcercher les mots-clés uniquement dans le titre des pages web Ex: intitle:licence professionnelleFiletype: lancer des rehcercher selon le type et e format de fichier. Ex: cours algèbre filetype:pdfSite: réaliser des recherches au niveau d’un site dont le contenu et très volumineux. Ex: cours réseaux site:www.siteduzero.netD’autres opérateurs, visiter : www.searchengineshowdown.com37