Recherche et évaluation de l’information sur Internet Méthodologie documentaire en Licence 1 2011-2012
Methodoc :  http://www.sites.univ-rennes2.fr/scd/methodoc/
 
Plan 1 / La recherche d’information sur Internet (RII) :  notions et contexte 2 / Les principaux enjeux et la méthodologie de la « RII » en 10 règles 3 / Fonctionnement des moteurs de recherche 4 / Protéger son identité numérique 5 / Faire de la veille informationnelle 6 / Evaluer l’information 7 / Lutter contre le plagiat et pour le respect de la propriété intellectuelle
1 / La recherche d’information sur Internet (RII) :  notions et contexte
1 / Notions Internet  : INTERconnected NETwork (début des années 1960) Protocole : TCP/IP (cf. cours C2i) Applications d’Internet : web mais aussi courrier électronique, messagerie instantanée, partage de fichiers (peer-to-peer), etc. Le web  : World Wide Web (début des années 1990) Protocole : HTML* (cf. cours C2i) architecture client-serveur : le client à l’aide d’un programme appelé le navigateur ( Internet Explorer, Firefox, etc.) se connecte à une machine distante, le serveur web, qui contient les données sous forme de pages web, structurées par un langage commun (HTML*) *  Hypertext   Markup   Language
Le langage HTML
1 / Le contexte : complexité d’Internet Un paradoxe : l’illusion de facilité qu’offrent certains outils de recherche alors qu’Internet se complexifie à mesure de son expansion. Quelles sont les raisons de cette complexité : Sa nature  (à l’origine un outil de communication pas documentaire) Son contenu Enchevêtrement des applications (web, messagerie, forum, etc.) Diversité croissante du web (sites, blogs, réseaux sociaux, etc.) Son développement rapide et continu Quelles conséquences pour l’information?
1/ Le « déluge informationnel » Réalité documentaire : 1996 : entre 100 et 250 000 sites web 2006 : entre 80 et 100 millions de sites En 2008 : plus de 1000 milliards de pages web ? En deux ans, plus de contenu créé que dans toute l’histoire de l’humanité 93 % de ce contenu = électronique 70 % des données créées par des individus Réalité sociale : 500 millions d’utilisateurs sur Facebook
1 / Contexte : abondance de l’information Croissance du nombre de sites depuis 1995 (Netcraft)
1 / Contexte : Seule une minorité des pages est visible à partir des moteurs de recherche WEB invisible : Bases de données Catalogues en ligne des bibliothèques Intranet Pages jaunes / blanches Publications archivées
1 / Contexte : web entre babil et Babel Hétérogénéité   : des sources, documents, contenus, supports, points de vue) Fragmentation  : dispersion sur l’ensemble de la toile (image du puzzle à reconstituer) Manque de structuration  :  pages HTML (langage de description ≠ indexation), coexistence pages statiques et dynamiques Changement continuel  : contenu et adresse url, naissance et disparition des pages (importance des outils de capture et de mémorisation) Multilinguisme  (barrière des langues, caractères non latins) La fiabilité en question  : Web 2.0 : diversité des producteurs de données. Web = outil d’expression personnelle autant que vecteur d’information (d’après V. Mesguish et A. Thomas,  Net Recherche , 2009, ADBS, 2009)
Hétérogénéité des sources
2/ Les principaux enjeux et la méthodologie de la « RII » en 10 règles
2 /Des problèmes liés à l’indistinction des contenus et des outils du web… Quels changements majeurs de la recherche d’information, avec Internet ? Du monde professionnel au grand public : Usager « seul face aux outils » De l’ordre au désordre :  Usager « seul face aux documents » De la confiance  a priori  à la validation personnelle: Usager « seul face à l’information »  Du monde non-marchand à l’économie de l’attention: Usager « seul face aux liens commerciaux » De la transparence à la traçabilité généralisée :  Usager « seul face à ses traces »
2 /qui requièrent des aptitudes et une méthode :  les 10 règles de la RII (1) Maîtriser les outils de navigation maîtriser l'interrogation avancée connaître différents outils Savoir questionner identifier l'objet de la recherche bien cerner le sujet traduire concepts en mots-clés identifier les sources pertinentes Choisir les bons mots-clés Chercher l'information à la source trouver les sites de référence privilégier les sources primaires
2 / Les 10 règles de la RII (2) Toujours analyser l'information recouper,  critiquer , comparer... conserver les données   bookmark du navigateur outils de gestion de signets  Zotero, Delicious... Maîtriser le temps faire plan de recherche éviter l'exhaustivité Rester clair sur ses objectifs
 
 
 
 
 
2 / Les 10 règles de la recherche d'information (3) Utiliser différents types d'outils combiner moteurs, annuaires, métamoteurs... Etre "agile" lecture rapide rebondir d'un document à l'autre Mais… éviter le zapping (d’après V. Mesguich, A. Thomas,  Net Recherche 2009 , ADBS, 2009)
3/ Fonctionnement des moteurs de recherche
3 / Panorama des outils de recherche Les catégories d’outils (cf. cours C2i) : Les annuaires thématiques (cf. TP) Les moteurs de recherche Les métamoteurs Les portails spécialisés (cf. TP) Les outils collaboratifs Domaine en perpétuelle innovation, qui propose de nombreux outils mais soumis à des enjeux économiques et financiers très importants.
3 / Les  moteurs de recherche Définition : outil automatisé d’indexation et de recherche des ressources du web Fonctionnement :   3 modules autonomes : robot collecteur : collecte des données  module d’indexation : base de données du moteur (mémoire)  module de requête : gestion des requêtes et des résultats
3 / Fonctionnement des moteurs de recherche Source :  R. Viseur, CETIC
3 /  Moteurs de recherche : la gestion des résultats Méthodes de classement des résultats   Enjeux du classement des résultats ( ranking ) selon leur pertinence Deux grandes méthodes de classement :   tri par  indice de pertinence  : calculs statistiques sur la fréquence des termes… tri par  popularité  : indice de  popularité Google Présentation des résultats :  affichage des résultats, description des documents, exploitation
3 / La  recherche avancée dans  Google
3 / Les moteurs : Quelques exemples Moteur de recherche scientifique http://www.scholar.google.fr Google Scholar Le moteur de demain ? http:// www.oamos.com Oamos catégorisation http://www.exalead.fr/search Exalead Indexation des tweets http://www.topsy.com Topsy Exemples de moteurs utilisant cette technologie Adresse URL Moteurs de recherche
3 / Un exemple : le moteur  Exalead
 
 
 
3 / Les métamoteurs Définition :   Un métamoteur est un outil de recherche qui  interroge simultanément plusieurs outils  (moteurs et annuaires). Après une élimination des doublons, les résulats sont compilés et classés selon un indice de pertinence. Diversité des métamoteurs :  En ligne / hors-ligne Généraux / spécialisés Catégorisation des résultats ( dossiers thématiques) Exemple : Ixquick
3 / Les métamoteurs :  Ixquick
3 /  Le positionnement payant Différence entre liens naturels et liens sponsorisés ?  Problèmes et enjeux :  De plus en plus d’usagers arrivent sur des sites via les liens sponsorisés De plus en plus d’entreprises investissent dans des campagnes de liens sponsorisés Question : savoir distinguer un lien sponsorisé d’un lien naturel Question par rapport à la recherche, l’accès à l’information, son usage Problème : près de 60 % des gens ignorent la différence Risques des liens sponsorisés : 8,5% des liens sponsorisés conduiraient vers des sites représentant un risque pour l’internaute  (étude McAfee Site Advisor, Mai 2006)
3 / Le positionnement payant (2) savoir repérer les liens sponsorisés Liens « naturels » Liens commerciaux : 97 % du CA (5, 7 Mrds de $ , fin 08)
3 / Le positionnement payant (3)  La vente de mots clés Juin 2010 : rachat de mots clés dont « oil spill » par BP à Google.
4 / Protéger son identité numérique
4 / La googlisation Source :  S2M
4 / La googlisation Googlisation  : utilisation exclusive des services de Google Différents problèmes :  Dangers du monopole :  “ le  monde selon Google ”, monopole d’une entreprise sur tous les secteurs de l’information  Problèmes du classement, de pertinence des résultats  Problèmes de la traçabilité, de la conservation des données personnelles  Risques d’addiction, de “googlisation” des usages    Enjeux de la formation pour diversifier les outils, prendre du recul
 
4 / L ’économie de l’attention Enjeu majeur sur le web : comment capter et garder l’attention des usagers ?   La variante internet du « temps de cerveau disponible » :  «  Les internautes vous paient avec le temps qu'ils passent sur vos contenus, ils vous paient avec leur attention. C'est cette attention, que les annonceurs veulent »  .  David Eun, responsable des partenariats de contenus chez Google à New York (janvier 08)
4 / Propriétés des données personnelles Types de données détenues par les grands portails :  Les requêtes sur les moteurs (logs) :  Ce qui m’intéresse Les blogs :  Mes opinions Les réseaux sociaux:  Mes réseaux personnels La messagerie, les forums, le « chat » :  Avec qui je communique et sur quoi Création de gigantesques base de données sur les goûts et habitudes des internautes   Enjeux :   Profilage marketing Pouvoir considérable accordé aux outils Risques d’intrusion de pouvoirs autoritaires (cf Chine, Iran...) Cf exemple récent de la vie d’un internaute reconstituée sur  Le Tigre
Qui constitue les fichiers ? 1.  Les fournisseurs d’accès  > Directive  Data retention  (mars 2006)  lutte contre le terrorisme 2. Les moteurs de recherche  > Publicité comportementale grâce aux  cookies 3. Les réseaux sociaux (Facebook et Twitter) > Facebook : bouton  like  (recommandation par un pair) 4. L’internaute qui se fiche lui-même sur Facebook. Profil / re-documentarisation
La géolocalisation par le mobile :  Votre position dans l’espace est une donnée personnelle très intéressante pour les publicitaires. Les  smartphones , branchés en permanence sur Internet permettent à une myriade de sociétés privées de vous envoyer des messages publicitaires pour des services ou commerces de proximité. La technologie  Bluetooth , au départ destinée à permettre l’usage des oreillettes sans fil permet de vous pister dans certains lieux (aéroports, musées, centres commerciaux) Twitter  relève les coordonnées de l’expéditeur et les revend à Foursquare qui envoie de la publicité géolocalisée
4/ Propriétés des données : réponse de Google aux demandes des Etats Voir aussi  la  carte des  bloggeurs  incarcérés
4 / Réponse de Google aux demandes des citoyens “ Si vous souhaitez que personne ne soit au courant de certaines choses que vous faites, peut-être que vous ne devriez tout simplement pas les faire . ”  Eric Schmidt, PDG de Google
4 / Propriétés des données : La notion d’identité numérique
4 / L’e-reputation (1) Exemple :  Marc L.  (Le Tigre) Traces difficilement effaçables  (serveurs étrangers inaccessibles physiquement ou légalement) Identité fractionnée   (composée à des moments et dans des registres différents ex. : blog de jeunesse et CV professionnel) Recomposition aveugle  (les moteurs de recherche remixent automatiquement et sans discernement des traces hétérogènes) L’écosystème de l’ e-réputation
Les 2 CV : le vôtre et Facebook En 2009 : 77% des recruteurs  américains "googlisaient" systématiquement les noms des candidats  45% d'entre eux  ont complété cette recherche par une visite sur des réseaux sociaux (en particulier Facebook)  35% d'entre eux  ont déclaré avoir déjà rayé un candidat de leur liste en raison de ce qu'ils avaient trouvé à son propos sur la Toile   Dessin de  Vidberg
 
5 / Faire de la veille informationnelle
5 / Les outils de veille (recherche automatisée) Google Alertes Service de Google qui permet de mettre en place des veilles (collecte et exploitation d’informations) à partir de mots-clés. Selon l’actualisation de la base de données de Google, on reçoit périodiquement des mails qui annoncent  quels sont les nouveaux liens/articles/pages qui contiennent les mots de la recherche. Avantages de Google Alertes : Utilisation très simple Aucun logiciel à installer Réception périodique des résultats dans son courrier électronique
5 / Les outils de veille (recherche automatisée) Google Alertes
5 / Les outils de veille (recherche automatisée) Outils de syndication de contenus Définition :   Agrégation de contenus divers sur un même navigateur  possibilité de publier automatiquement sur un site web des informations issues d‘autres sites web  Plusieurs fonctions des fils RSS : Suivre l’actualité d’un site  : réception de toutes les nouveautés Se tenir informé  : Sur l’actualité : tous les journaux proposent des fils RSS Presse : ex.  Le Monde Sur un domaine : suivi de blogs et de sites spécialisés ex.  L'Atelier des icônes Outil de veille et de surveillance , technique du  push Format RSS =  Rich Site Summary,  ou  Really Simple Syndication
5 / Les outils de veille (recherche automatisée) Outils de syndication de contenus Comment reconnaître les fils RSS ?  Logos sur les sites, ou bien RSS, ou ATOM  :  En lien, derrière le logo :  l'adresse URL du fichier texte permettant la syndication Exemple : passer la souris sur un fil RSS et observer la barre d'état du navigateur Lors de la mise à jour d’un site web, un fichier texte au format XML contenant une description synthétique des nouveautés du site est généré en temps réel  Plusieurs formats de fils RSS :  0.91, RSS 1.0,  RSS 2.0  et  Atom  ; compatibles
5 /  Les outils de veille (recherche automatisée) Exemple d’agrégateur :  Netvibes
6 / Evaluer l’information
6 / Evaluation de l’information Difficultés sur Internet: « déluge informationnel » pollution de l ’information : l’infopollution hétérogénéité des sources fiabilité incertaine identification difficile  des auteurs
6 / Evaluation de l’information La notion « d’infopollution »: La surabondance La désinformation, la médiocrité de l’information « Intoxication » : rumeurs, Redondance… La  contamination Prolifération des informations indésirables (sites négationnistes, sectes…). Contamination des informations « saines » L’invasion publicitaire Remèdes  :   rôle clé de l’évaluation de l’information : demande des compétences disciplinaires (évaluation du contenu) mais aussi des compétences informationnelles et des savoir-faire
 
 
6 / Evaluation de l’information Quelques principes   1/ Bien identifier : la source : le site, l ’organisation l’auteur la nature du document 2/ Evaluer : la source ou l’auteur : fiabilité, notoriété, compétences le contenu : la pertinence et la qualité du document
6 / Evaluation de l’information L’identification : savoir-faire Décodage des URL Décodage de la page d’accueil d’un site Mesure de la notoriété d’un site Identification du réseau de l’auteur : liens, bibliographie... Identifier la nature du document Repérage des dates, des liens externes, des sources… Consulter le cours en ligne : chapitre «  Evaluation  de l’information »
6 / Réutilisation de l'information Gérer ses liens ou favoris, utiliser les RSS Comment citer les documents électroniques - Methodoc sur Cursus http://www.sites.uhb.fr/scd/Methodoc_citation.html - Comment citer un document électronique ?  Bibliothèque de l'Université de Laval (Québec) http:// www.bibl.ulaval.ca / doelec /doelec29_abrege.html La question du plagiat
7 / Lutter contre le plagiat et pour le respect de la propriété intellectuelle
7 / Vous plagiez quand vous : Copier textuellement un passage d’un livre, d’une revue ou d’une page Web sans le mettre entre guillemets et/ou sans en mentionner la source  Insérer dans un travail des images, des graphiques, des données, etc. provenant de sources externes sans indiquer la provenance  Résumer l’idée originale d’un auteur en l’exprimant dans ses propres mots, mais en omettant d’en indiquer la source  Traduire partiellement ou totalement un texte sans en mentionner la provenance  Réutiliser un travail produit dans un autre cours sans avoir obtenu au préalable l’accord du professeur  Utiliser le travail d’une autre personne et le présenter comme le sien (et ce, même si cette personne a donné son accord)  Acheter un travail sur le Web Source :  Infosphères
Moyens mis en œuvre contre le plagiat Détection grâce à Google en cas de soupçon Logiciels de détection de similitudes utilisés dans certaines facs. Certains sont gratuits ( http://www.plagium.com , copytracker). Les universités s’abonnent de plus en plus à des sites de détection payants ( http://www.compilatio.net ) Un arsenal de sanctions dissuasives : Le plagiat est en théorie un délit passible de poursuites judiciaires, mais il entraîne plus souvent pour celui qui en est convaincu des sanctions disciplinaires allant du blâme à l’annulation du diplôme.
7 / Comment puis-je citer et copier de la musique et des films ? La loi  DADVSI  interdit le téléchargement irrégulier (piratage) Ne pas dépasser un certain  volume  (musique : pas plus de 6 minutes ou 15% de l’œuvre) Ne jamais rendre accessible la ressource copiée sur internet Dans le cadre d’un travail scolaire (exception pédagogique) ne rendre la citation accessible qu’en  intranet Copie privée : à des fins de  conservation  uniquement
Merci de votre attention [email_address] [email_address] [email_address]

Internet 2011 2012 illustré v3

  • 1.
    Recherche et évaluationde l’information sur Internet Méthodologie documentaire en Licence 1 2011-2012
  • 2.
    Methodoc : http://www.sites.univ-rennes2.fr/scd/methodoc/
  • 3.
  • 4.
    Plan 1 /La recherche d’information sur Internet (RII) : notions et contexte 2 / Les principaux enjeux et la méthodologie de la « RII » en 10 règles 3 / Fonctionnement des moteurs de recherche 4 / Protéger son identité numérique 5 / Faire de la veille informationnelle 6 / Evaluer l’information 7 / Lutter contre le plagiat et pour le respect de la propriété intellectuelle
  • 5.
    1 / Larecherche d’information sur Internet (RII) : notions et contexte
  • 6.
    1 / NotionsInternet : INTERconnected NETwork (début des années 1960) Protocole : TCP/IP (cf. cours C2i) Applications d’Internet : web mais aussi courrier électronique, messagerie instantanée, partage de fichiers (peer-to-peer), etc. Le web : World Wide Web (début des années 1990) Protocole : HTML* (cf. cours C2i) architecture client-serveur : le client à l’aide d’un programme appelé le navigateur ( Internet Explorer, Firefox, etc.) se connecte à une machine distante, le serveur web, qui contient les données sous forme de pages web, structurées par un langage commun (HTML*) * Hypertext Markup Language
  • 7.
  • 8.
    1 / Lecontexte : complexité d’Internet Un paradoxe : l’illusion de facilité qu’offrent certains outils de recherche alors qu’Internet se complexifie à mesure de son expansion. Quelles sont les raisons de cette complexité : Sa nature (à l’origine un outil de communication pas documentaire) Son contenu Enchevêtrement des applications (web, messagerie, forum, etc.) Diversité croissante du web (sites, blogs, réseaux sociaux, etc.) Son développement rapide et continu Quelles conséquences pour l’information?
  • 9.
    1/ Le «déluge informationnel » Réalité documentaire : 1996 : entre 100 et 250 000 sites web 2006 : entre 80 et 100 millions de sites En 2008 : plus de 1000 milliards de pages web ? En deux ans, plus de contenu créé que dans toute l’histoire de l’humanité 93 % de ce contenu = électronique 70 % des données créées par des individus Réalité sociale : 500 millions d’utilisateurs sur Facebook
  • 10.
    1 / Contexte: abondance de l’information Croissance du nombre de sites depuis 1995 (Netcraft)
  • 11.
    1 / Contexte: Seule une minorité des pages est visible à partir des moteurs de recherche WEB invisible : Bases de données Catalogues en ligne des bibliothèques Intranet Pages jaunes / blanches Publications archivées
  • 12.
    1 / Contexte: web entre babil et Babel Hétérogénéité : des sources, documents, contenus, supports, points de vue) Fragmentation : dispersion sur l’ensemble de la toile (image du puzzle à reconstituer) Manque de structuration : pages HTML (langage de description ≠ indexation), coexistence pages statiques et dynamiques Changement continuel : contenu et adresse url, naissance et disparition des pages (importance des outils de capture et de mémorisation) Multilinguisme (barrière des langues, caractères non latins) La fiabilité en question : Web 2.0 : diversité des producteurs de données. Web = outil d’expression personnelle autant que vecteur d’information (d’après V. Mesguish et A. Thomas, Net Recherche , 2009, ADBS, 2009)
  • 13.
  • 14.
    2/ Les principauxenjeux et la méthodologie de la « RII » en 10 règles
  • 15.
    2 /Des problèmesliés à l’indistinction des contenus et des outils du web… Quels changements majeurs de la recherche d’information, avec Internet ? Du monde professionnel au grand public : Usager « seul face aux outils » De l’ordre au désordre : Usager « seul face aux documents » De la confiance a priori à la validation personnelle: Usager « seul face à l’information » Du monde non-marchand à l’économie de l’attention: Usager « seul face aux liens commerciaux » De la transparence à la traçabilité généralisée : Usager « seul face à ses traces »
  • 16.
    2 /qui requièrentdes aptitudes et une méthode : les 10 règles de la RII (1) Maîtriser les outils de navigation maîtriser l'interrogation avancée connaître différents outils Savoir questionner identifier l'objet de la recherche bien cerner le sujet traduire concepts en mots-clés identifier les sources pertinentes Choisir les bons mots-clés Chercher l'information à la source trouver les sites de référence privilégier les sources primaires
  • 17.
    2 / Les10 règles de la RII (2) Toujours analyser l'information recouper, critiquer , comparer... conserver les données bookmark du navigateur outils de gestion de signets Zotero, Delicious... Maîtriser le temps faire plan de recherche éviter l'exhaustivité Rester clair sur ses objectifs
  • 18.
  • 19.
  • 20.
  • 21.
  • 22.
  • 23.
    2 / Les10 règles de la recherche d'information (3) Utiliser différents types d'outils combiner moteurs, annuaires, métamoteurs... Etre "agile" lecture rapide rebondir d'un document à l'autre Mais… éviter le zapping (d’après V. Mesguich, A. Thomas, Net Recherche 2009 , ADBS, 2009)
  • 24.
    3/ Fonctionnement desmoteurs de recherche
  • 25.
    3 / Panoramades outils de recherche Les catégories d’outils (cf. cours C2i) : Les annuaires thématiques (cf. TP) Les moteurs de recherche Les métamoteurs Les portails spécialisés (cf. TP) Les outils collaboratifs Domaine en perpétuelle innovation, qui propose de nombreux outils mais soumis à des enjeux économiques et financiers très importants.
  • 26.
    3 / Les moteurs de recherche Définition : outil automatisé d’indexation et de recherche des ressources du web Fonctionnement : 3 modules autonomes : robot collecteur : collecte des données module d’indexation : base de données du moteur (mémoire) module de requête : gestion des requêtes et des résultats
  • 27.
    3 / Fonctionnementdes moteurs de recherche Source : R. Viseur, CETIC
  • 28.
    3 / Moteurs de recherche : la gestion des résultats Méthodes de classement des résultats Enjeux du classement des résultats ( ranking ) selon leur pertinence Deux grandes méthodes de classement : tri par indice de pertinence : calculs statistiques sur la fréquence des termes… tri par popularité : indice de popularité Google Présentation des résultats : affichage des résultats, description des documents, exploitation
  • 29.
    3 / La recherche avancée dans Google
  • 30.
    3 / Lesmoteurs : Quelques exemples Moteur de recherche scientifique http://www.scholar.google.fr Google Scholar Le moteur de demain ? http:// www.oamos.com Oamos catégorisation http://www.exalead.fr/search Exalead Indexation des tweets http://www.topsy.com Topsy Exemples de moteurs utilisant cette technologie Adresse URL Moteurs de recherche
  • 31.
    3 / Unexemple : le moteur Exalead
  • 32.
  • 33.
  • 34.
  • 35.
    3 / Lesmétamoteurs Définition : Un métamoteur est un outil de recherche qui interroge simultanément plusieurs outils (moteurs et annuaires). Après une élimination des doublons, les résulats sont compilés et classés selon un indice de pertinence. Diversité des métamoteurs : En ligne / hors-ligne Généraux / spécialisés Catégorisation des résultats ( dossiers thématiques) Exemple : Ixquick
  • 36.
    3 / Lesmétamoteurs : Ixquick
  • 37.
    3 / Le positionnement payant Différence entre liens naturels et liens sponsorisés ? Problèmes et enjeux : De plus en plus d’usagers arrivent sur des sites via les liens sponsorisés De plus en plus d’entreprises investissent dans des campagnes de liens sponsorisés Question : savoir distinguer un lien sponsorisé d’un lien naturel Question par rapport à la recherche, l’accès à l’information, son usage Problème : près de 60 % des gens ignorent la différence Risques des liens sponsorisés : 8,5% des liens sponsorisés conduiraient vers des sites représentant un risque pour l’internaute (étude McAfee Site Advisor, Mai 2006)
  • 38.
    3 / Lepositionnement payant (2) savoir repérer les liens sponsorisés Liens « naturels » Liens commerciaux : 97 % du CA (5, 7 Mrds de $ , fin 08)
  • 39.
    3 / Lepositionnement payant (3) La vente de mots clés Juin 2010 : rachat de mots clés dont « oil spill » par BP à Google.
  • 40.
    4 / Protégerson identité numérique
  • 41.
    4 / Lagooglisation Source : S2M
  • 42.
    4 / Lagooglisation Googlisation : utilisation exclusive des services de Google Différents problèmes : Dangers du monopole : “ le monde selon Google ”, monopole d’une entreprise sur tous les secteurs de l’information Problèmes du classement, de pertinence des résultats Problèmes de la traçabilité, de la conservation des données personnelles Risques d’addiction, de “googlisation” des usages  Enjeux de la formation pour diversifier les outils, prendre du recul
  • 43.
  • 44.
    4 / L’économie de l’attention Enjeu majeur sur le web : comment capter et garder l’attention des usagers ? La variante internet du « temps de cerveau disponible » : «  Les internautes vous paient avec le temps qu'ils passent sur vos contenus, ils vous paient avec leur attention. C'est cette attention, que les annonceurs veulent »  . David Eun, responsable des partenariats de contenus chez Google à New York (janvier 08)
  • 45.
    4 / Propriétésdes données personnelles Types de données détenues par les grands portails : Les requêtes sur les moteurs (logs) : Ce qui m’intéresse Les blogs : Mes opinions Les réseaux sociaux: Mes réseaux personnels La messagerie, les forums, le « chat » : Avec qui je communique et sur quoi Création de gigantesques base de données sur les goûts et habitudes des internautes Enjeux : Profilage marketing Pouvoir considérable accordé aux outils Risques d’intrusion de pouvoirs autoritaires (cf Chine, Iran...) Cf exemple récent de la vie d’un internaute reconstituée sur Le Tigre
  • 46.
    Qui constitue lesfichiers ? 1. Les fournisseurs d’accès > Directive Data retention (mars 2006) lutte contre le terrorisme 2. Les moteurs de recherche > Publicité comportementale grâce aux cookies 3. Les réseaux sociaux (Facebook et Twitter) > Facebook : bouton like (recommandation par un pair) 4. L’internaute qui se fiche lui-même sur Facebook. Profil / re-documentarisation
  • 47.
    La géolocalisation parle mobile : Votre position dans l’espace est une donnée personnelle très intéressante pour les publicitaires. Les smartphones , branchés en permanence sur Internet permettent à une myriade de sociétés privées de vous envoyer des messages publicitaires pour des services ou commerces de proximité. La technologie Bluetooth , au départ destinée à permettre l’usage des oreillettes sans fil permet de vous pister dans certains lieux (aéroports, musées, centres commerciaux) Twitter relève les coordonnées de l’expéditeur et les revend à Foursquare qui envoie de la publicité géolocalisée
  • 48.
    4/ Propriétés desdonnées : réponse de Google aux demandes des Etats Voir aussi la carte des bloggeurs incarcérés
  • 49.
    4 / Réponsede Google aux demandes des citoyens “ Si vous souhaitez que personne ne soit au courant de certaines choses que vous faites, peut-être que vous ne devriez tout simplement pas les faire . ” Eric Schmidt, PDG de Google
  • 50.
    4 / Propriétésdes données : La notion d’identité numérique
  • 51.
    4 / L’e-reputation(1) Exemple : Marc L. (Le Tigre) Traces difficilement effaçables (serveurs étrangers inaccessibles physiquement ou légalement) Identité fractionnée (composée à des moments et dans des registres différents ex. : blog de jeunesse et CV professionnel) Recomposition aveugle (les moteurs de recherche remixent automatiquement et sans discernement des traces hétérogènes) L’écosystème de l’ e-réputation
  • 52.
    Les 2 CV: le vôtre et Facebook En 2009 : 77% des recruteurs américains "googlisaient" systématiquement les noms des candidats 45% d'entre eux ont complété cette recherche par une visite sur des réseaux sociaux (en particulier Facebook) 35% d'entre eux ont déclaré avoir déjà rayé un candidat de leur liste en raison de ce qu'ils avaient trouvé à son propos sur la Toile Dessin de Vidberg
  • 53.
  • 54.
    5 / Fairede la veille informationnelle
  • 55.
    5 / Lesoutils de veille (recherche automatisée) Google Alertes Service de Google qui permet de mettre en place des veilles (collecte et exploitation d’informations) à partir de mots-clés. Selon l’actualisation de la base de données de Google, on reçoit périodiquement des mails qui annoncent quels sont les nouveaux liens/articles/pages qui contiennent les mots de la recherche. Avantages de Google Alertes : Utilisation très simple Aucun logiciel à installer Réception périodique des résultats dans son courrier électronique
  • 56.
    5 / Lesoutils de veille (recherche automatisée) Google Alertes
  • 57.
    5 / Lesoutils de veille (recherche automatisée) Outils de syndication de contenus Définition : Agrégation de contenus divers sur un même navigateur possibilité de publier automatiquement sur un site web des informations issues d‘autres sites web Plusieurs fonctions des fils RSS : Suivre l’actualité d’un site : réception de toutes les nouveautés Se tenir informé : Sur l’actualité : tous les journaux proposent des fils RSS Presse : ex. Le Monde Sur un domaine : suivi de blogs et de sites spécialisés ex. L'Atelier des icônes Outil de veille et de surveillance , technique du push Format RSS = Rich Site Summary, ou Really Simple Syndication
  • 58.
    5 / Lesoutils de veille (recherche automatisée) Outils de syndication de contenus Comment reconnaître les fils RSS ? Logos sur les sites, ou bien RSS, ou ATOM : En lien, derrière le logo : l'adresse URL du fichier texte permettant la syndication Exemple : passer la souris sur un fil RSS et observer la barre d'état du navigateur Lors de la mise à jour d’un site web, un fichier texte au format XML contenant une description synthétique des nouveautés du site est généré en temps réel Plusieurs formats de fils RSS : 0.91, RSS 1.0, RSS 2.0 et Atom ; compatibles
  • 59.
    5 / Les outils de veille (recherche automatisée) Exemple d’agrégateur : Netvibes
  • 60.
    6 / Evaluerl’information
  • 61.
    6 / Evaluationde l’information Difficultés sur Internet: « déluge informationnel » pollution de l ’information : l’infopollution hétérogénéité des sources fiabilité incertaine identification difficile des auteurs
  • 62.
    6 / Evaluationde l’information La notion « d’infopollution »: La surabondance La désinformation, la médiocrité de l’information « Intoxication » : rumeurs, Redondance… La contamination Prolifération des informations indésirables (sites négationnistes, sectes…). Contamination des informations « saines » L’invasion publicitaire Remèdes : rôle clé de l’évaluation de l’information : demande des compétences disciplinaires (évaluation du contenu) mais aussi des compétences informationnelles et des savoir-faire
  • 63.
  • 64.
  • 65.
    6 / Evaluationde l’information Quelques principes 1/ Bien identifier : la source : le site, l ’organisation l’auteur la nature du document 2/ Evaluer : la source ou l’auteur : fiabilité, notoriété, compétences le contenu : la pertinence et la qualité du document
  • 66.
    6 / Evaluationde l’information L’identification : savoir-faire Décodage des URL Décodage de la page d’accueil d’un site Mesure de la notoriété d’un site Identification du réseau de l’auteur : liens, bibliographie... Identifier la nature du document Repérage des dates, des liens externes, des sources… Consulter le cours en ligne : chapitre «  Evaluation de l’information »
  • 67.
    6 / Réutilisationde l'information Gérer ses liens ou favoris, utiliser les RSS Comment citer les documents électroniques - Methodoc sur Cursus http://www.sites.uhb.fr/scd/Methodoc_citation.html - Comment citer un document électronique ? Bibliothèque de l'Université de Laval (Québec) http:// www.bibl.ulaval.ca / doelec /doelec29_abrege.html La question du plagiat
  • 68.
    7 / Luttercontre le plagiat et pour le respect de la propriété intellectuelle
  • 69.
    7 / Vousplagiez quand vous : Copier textuellement un passage d’un livre, d’une revue ou d’une page Web sans le mettre entre guillemets et/ou sans en mentionner la source Insérer dans un travail des images, des graphiques, des données, etc. provenant de sources externes sans indiquer la provenance Résumer l’idée originale d’un auteur en l’exprimant dans ses propres mots, mais en omettant d’en indiquer la source Traduire partiellement ou totalement un texte sans en mentionner la provenance Réutiliser un travail produit dans un autre cours sans avoir obtenu au préalable l’accord du professeur Utiliser le travail d’une autre personne et le présenter comme le sien (et ce, même si cette personne a donné son accord) Acheter un travail sur le Web Source : Infosphères
  • 70.
    Moyens mis enœuvre contre le plagiat Détection grâce à Google en cas de soupçon Logiciels de détection de similitudes utilisés dans certaines facs. Certains sont gratuits ( http://www.plagium.com , copytracker). Les universités s’abonnent de plus en plus à des sites de détection payants ( http://www.compilatio.net ) Un arsenal de sanctions dissuasives : Le plagiat est en théorie un délit passible de poursuites judiciaires, mais il entraîne plus souvent pour celui qui en est convaincu des sanctions disciplinaires allant du blâme à l’annulation du diplôme.
  • 71.
    7 / Commentpuis-je citer et copier de la musique et des films ? La loi DADVSI interdit le téléchargement irrégulier (piratage) Ne pas dépasser un certain volume (musique : pas plus de 6 minutes ou 15% de l’œuvre) Ne jamais rendre accessible la ressource copiée sur internet Dans le cadre d’un travail scolaire (exception pédagogique) ne rendre la citation accessible qu’en intranet Copie privée : à des fins de conservation uniquement
  • 72.
    Merci de votreattention [email_address] [email_address] [email_address]

Notes de l'éditeur

  • #3 Accès au Méthodoc via Cursus et via Portail documentaire Présenter les quatre manières de naviguer dans Methodoc qui sont disponibles sur la page d’accueil : Par disciplines (-> guides disciplinaires disponibles dans la majeure partie des disciplines) Dans le cours Methodoc proprement dit (dans les 5 parties qui le composent) Par mot-clé (nuage de tags) Dans les guides « comment faire » peu nombreux encore, mais bientôt riches et foisonnants. Diaporama du CM Disponible.
  • #7 But de la diapo : inviter les étudiants à ne pas confondre le web et Internet Le cours C2i est celui de Michel Legault qui est obligatoire au 1er semestre de L1 Prévoir un schéma explicatif LANGAGE DE BALISAGE d’HYPERTEXTE : voir affichage – code source Internet: au départ système de communication de l’armée développé pendant la guerre froide. Mise en place d’un système sans « centre » mais avec des nœuds, tous égaux, reliés les uns aux autres. Réseau militaire sans aucune optique documentaire HTML: Avant 2003 : Il fallait connaître le langage HTML pour faire des pages web A partir de 2003 / 2004 : des éditeurs de pages web simplifient la mise en ligne de sites web, blogs, etc.
  • #8 HTML : protocole d’échange Pour voir la page en HTML : Affichage / code source de la page
  • #9 Ex application web : Twitter (microbloging)
  • #10 Traduction de l’anglais : « trouver de l’information pertinente sur Internet ressemble à vouloir se servir un verre à une bouche d’incendie » (Rétablir les crédits image) 70% du contenu généré par des individus : institutions minoritaires
  • #11 Courbe de création de noms de domaines « Active » : nom de domaines de sites effectivement mis à jour Noter fléchissement de la courbe à relier à l’explosion des blogs. Lorsque vers 2003-2004, création des CMS « Containt Management System » qui rendent superflue la connaissance du langage HTML et n’obligent plus à l’hébergement sur un serveur avec un nom de domaine. On peut éditer sur une plate-forme déjà connue : Blogger, Word Press Fracture numérique : 1ere étape: avant 2000 tout le monde n’étais pas connecté à Internet 2eme étape : de plus en plus de monde connecté à Internet, mais manque de méthode pour y recherche de l’information
  • #12 Note : certains catalogues comme le SUDOC ont « émergé » pendant un temps, puisque les pages de ce catalogue étaient référencés dans Google Scholar. Les références bibliographiques de certaines bases de données (Science Direct) le sont également (Dans Google Scholar) Bien rappeler qu’à mesure que le web visible croît, le web invisible croît dans des proportions équivalentes. Au milieu des années 2000 on estimait que le web invisible était 500 fois supérieur au web visible Exemples web invisible : Intranet ENT etu R2 et Intranet ENT personnels R2
  • #13 Non fraicheur de l’infromation parfois : les moteurs ne passent pas chaque jour et mettent des pages en cache À propos de la fiabilité : rappeler la polémique autour du « Culte de l’amateur » (livre d’Andrew Keen paru en 2007) cf. article du Devoir : http://www.ledevoir.com/culture/livres/242224/essais-le-livre-noir-d-internet Ex de recherche sur Danton : des sites pas très sérieux! Fragmentation : un bibliothèque gigantesque, mais avec tous les livres dispersés , ouverts à n’importe quelle page, des livres, des articles, des images, du son…
  • #14 Des sites peu sérieux arrivent parfois en têtes des résultats
  • #16 Seul face aux outils : une bibliothèque avec un fichier homogène avec une information normée Seul face aux outils : Google présente des résultats de pages hétérogènes d’une manière qui les homogénéise Seul face aux documents : dans une bibliothèque, le professionnel peut aider à la recherche. Seul face à l’information : par rapport à l’offre d’une BU, la fiabilité des documents web est un problème. Seul face aux liens commerciaux : tout Internet semble gratuit (malgré abonnement mensuel) mais rien n’est gratuit pour les annonceurs Relative absence de médiation –un créneau à occuper pour les bibliothécaires. Traces : historique des recherches, logs, cookies, spywares, mais aussi profils, pages personnelles, réseaux sociaux, etc.
  • #17 Différents outils : portails, annuaires, etc.
  • #18 1. Analyser l’information Comparer : par exemple, l’article de wikipedia avec celui de l’Universalis ou bien deux versions successives d’un même article de wikipedia Une fois sur wikipedia, montrer pour Bush VOIR LA SOURCE – ou pour Pédophilie « cet article ne cite pas suffisamment ses sources » Recouper : par exemple, tel contenu avec tel rédacteur ayant des intérêts économiques dans le domaine considéré Critiquer : un bon exemple (présent dans le livret du tuteur : http://www.ogm.org/pages/ogm.php?cat=05. Quand on va sur cette page, puis sur la page d’accueil, on voit que les responsables du site sont des vendeurs de semences OGM ou bien des acteurs ayant des intérêts économiques dans la vente d’OGM (Ognis, oleosem, seproma, uipp) 2. Conserver les données Mieux vaut une bibliothèque de signets (diigo par exemple) ou un outil de gestion de références (Zotero) que le bookmark du navigateur dont les capacités sont limitées.
  • #24 La typologie des outils du web est vue en cours de C2i, on peut passer vite sur la question. L’usage des métamoteurs tend à se raréfier, ne pas y insister.
  • #26 Annuaires thématiques: Signets de la BNF : sélection de sites Internet et pages web, fraîcheur de l’information par des mises à jour régulières
  • #27 Les robots parcourent les sites de liens en liens du web visible et indexent en texte intégral
  • #29 Formule de Google : critère principal : pagerank, plus une page est citée par d’autres pages web, plus elle est jugée intéressant par Google = > Popularité Critère non académique, universitaire, ni scientifique
  • #30 Ex: recherche simple: Femmes d’alger dans leur appartement =>60 200 résultats recherche simple en expression exacte « Femmes d’alger dans leur appartement » => 15 00 résultats Recherche avancée : expression exacte ; langue: français; format : PDF (documents plus ou moins formalisés) Recherche avancée : mot: delacroix ; domaine : erudit.org Eviter la polysémie Ex: Boulanger # général boulanger
  • #31 Accès Google scholar : dans Google, choisir plus et encore plus
  • #32 Site en français/ Interface intuitive Présenter la navigation par facettes possible avec Exalead Navigation par type de site Par type de support Par type de fichier Par terme associé (navigation sémantique) : fonction absente de la recherche avancée de Google, sauf avec la roue magique : ex affaire dreyfus Par langue Par pays Ce type de navigation est amené à devenir un standard aussi dans les sites des bibliothèques Ex: la règle du jeu Limitation dès l’affichage de la recherche Termes associés : proposition de Jean Renoir
  • #37 En perte de vitesse face à l’omniprésence de Google Recherche sur 10 moteurs et sites (ici encadrés en rouge) Les premiers résultats (ici encadrés en vert) sont des liens commerciaux Les étoiles à côté du résultat (ici encadrées en rouge) indique son indice de pertinence
  • #39 Modèle économique de Google basé sur la publicité Liens commerciaux en haut et à droit car zones les plus cliquées Liens en haut sont les plus chers Publicité personnalisée : liés aux formulaires complétés en ligne Publicité ciblée ou contextuelle : par rapport aux mots clefs saisis Publicité comportementale : liée aux mots clefs saisis et aux traces laissées (cookies des sites déjà visités)
  • #40 Achat de mots clés aux enchères = effets pervers Les sites « non alarmistes » arrivent dans els 1er résultats Ex: Oil spill = marée noire => par BP « émeutes banlieues » => en 2005 ramenait vers le site UMP « perquisition » => en 2010 (pendant l’affaire Bettencourt) ramenait vers le site UMP
  • #42 Actuellement : en France 91,2 %
  • #43 Aller sur + et encore +
  • #44 Youtube, Picasa,
  • #46 Yahoo à donné à la Chine les adresses IP d’opposants chinois par intérêt économique Site de la FNAC suggère à un client ce que d’autres clients intéressés par ce produit ont également consulté ou acheté sur le site
  • #47 1. Les fournisseurs d’accès (directive Data retention de mars 2006) au nom de la lutte contre le terrorisme 2. Les moteurs de recherche (Google archive le parcours des internautes sur ses sites ou ses sites partenaires pour leur envoyer de la publicité contextuelle. D’après une enquête récente (http://www.lemondeinformatique.fr/actualites/lire-les-francais-se-sentent-en-securite-sur-internet-a-tort-31743.html) (menée par l’Agence Media GroupeM et publiée le 23 septembre, 38% des internautes songent à effacer les cookies de leur disque dur, cette tendance croît avec les internautes très actifs) 3. Les réseaux sociaux (Facebook et Twitter notamment) Sur le marché de la recommandation sur lequel mise un certain nombre de partenaires de Facebook, voir le billet d’Olivier Ertzscheid du 4 octobre 2010 <http://affordance.typepad.com/mon_weblog/2010/10/prescription-et-recommandation-des-pairs-et-des-tiers.html> 4. L’internaute , en quelque sorte, qui se fiche lui-même sur Facebook mais avec une possibilité de se re-documenter (réinventer son identité)
  • #48 Source : Yves Eudes, Y-a-t-il une vie privée sur Internet ? Le Monde, vendredi 28 mai 2010 Laurence Girard, L’exploitation des informations privées à des fins commerciales aiguise les appétits , Le Monde, 28 mai 2010
  • #49 France : 5ème demandeuse de données personnelles sur les usagers (846 par mois) mais censure très peu de contenu (10 demandes par an) Allemagne : demande peu de données personnelles, mais censure davantage (188 requêtes dont 94% ont été acceptées) La censure peut-être au service de la loi. Allemagne : lutte contre les sites nazis Certains pays censurent même jusqu’à leurs demandes de censure : nombre de demandes de données personnelles et de censure par le gouvernement chinois à Google : top-secret. Bloggeurs incarcérés : notamment Hossein Derakhshan qui est incarcéré depuis 2 ans et encourt la peine de mort <http://www.ginisty.com/Internet-sans-Frontieres-appelle-au-renforcement-de-la-mobilisation-pour-defendre-le-pere-de-la-blogosphere-iranienne_a483.html>
  • #51 Prescription à partir de l’historique des requêtes : on vous propose des articles qui ressemblent à ceux dont vous avez consulté les notices descriptives Prescription à partir de la statistique : on vous propose des articles qui sont le plus fréquemment achetés (block-busters) Pour l’instant, les deux types de prescription sont contigus
  • #52 Définition : l’ identité numérique est la collection de traces (écrits, vidéos, messages, achats etc.) laissée consciemment ou non durant notre navigation sur le réseau. Ces traces, réarrangées par les moteurs de recherche et les sites de réseaux sociaux dessinent notre réputation numérique . Exemple Marc L. Des journalistes on choisi un nom au hasard, et ont réuni toutes els informations disséminées sur le réseau Flickr / Facebook / Archives Google ( presse locale, sites web) / Youtube
  • #53 autres éléments : 1 agresseur retrouvé parce qu’il s’est vanté de son agression sur Facebook, une fille en arrêt-maladie pour dépression qui publie sur facebook des photos de fiesta, une fille postulant pour un emploi de cadre qui posé les seins nus pour une cause humanitaire…
  • #54 Etapes pour paramétrer son compte Facebook et contrôler l’accès aux informations du compte et aux informations publiées: 1/ Compte 2/ Paramètres de confidentialité 3/ Afficher les paramètres
  • #56 Pour créer des alertes Google : Plus / Encore plu : Alertes Bien choisir ses mots clés Abonnement et désabonnement rapide au service Ne génère aucune publicité
  • #60 Montrer SAVM, ou CERHIO, ou médiathèque Ouverture de compte très simple: nécessite une adresse mail valide Ajout de flux rapide et facile Sur un site, localiser la liste des flus disponibles, copier l’url et ajouter à l’agrégateur
  • #63 EX Martin Lyther King.org – truth about King – forum discussion : White power Cliquer sur « Thuth about king » à droite Cliquer tout en bas de la page sur « Join MLK Discussion » forum ». On tombe sur le site « White pride, world wide » : Site raciste. Slogan d’un ancien membre du ku klux klan