SlideShare une entreprise Scribd logo
1  sur  65
Télécharger pour lire hors ligne
De la bibliothèque numérique au web
              de données
L’unité documentaire sur internet
   Ateliers Méthodologiques DLWeb - Saison 2
                3 décembre 2010
               Martin Lafréchoux
!




   Je suis en doctorat à Paris Ouest Nanterre, au laboratoire MoDyCo. Ma thèse est en
sciences du langage, je plutôt un TAListe. Elle concerne le document sur internet, en
particulier le document textuel.
   Je vais parler de documents, plus précisément, je vais vous présenter les difficultés
conceptuelles et pratiques auxquelles je me heurte actuellement, à l’université et dans
l’entreprise. Le point commun de ces difficultés est qu’il n’existe pas de modélisation
permettant de conceptualiser et de manipuler tous les aspects d’une page web.
  Je commence tout juste mes recherches, je vais donc plutôt évoquer des problèmes que
des solutions. Et pour que ma présentation soit claire malgré tout, je partirai d’exemples
concrets. Et comme je parlerai essentiellement de texte, je vous montrerai des images.
URL

                                     Pages


                                Données
Dans un premier temps, j’évaluerai l’adéquation entre la notion traditionnelle de document et
le web.
Ensuite je détaillerai le fonctionnement de plusieurs modes d’enregistrement du web - en
particulier les conséquences théoriques de choix pratiques.
Enfin, je vous présenterai les problématiques plus nouvelles, liées à ce qu’on appelle
généralement le web de données.
URL




Qu’est-ce qu’un document ? Sur un plan théorique, ce n’est pas une question simple.
Pour l’instant, il me suffit d’utiliser une définition fonctionnelle - je définirai le document par
ses propriétés - qu’indexe-t-on quand on indexe un document web ?
Ces propriétés sont celles qu’on utilise dans les systèmes d’information pour classer les
documents.
• Titre
             • Auteur
             • Contenu
             • Date
             • ISBN


Un document standard : il a un titre, un auteur, une date de publication, un contenu délimité,
et un identifiant unique - l’ISBN.

Pour définir le document web de manière fonctionnelle, c’est généralement de cet identifiant
unique qu’on part - l’URL.
A une URL correspond une page, et cette page devient de fait notre unité documentaire.
L’auteur !




Par exemple, un article de presse.
Le web n’est plus une bibliothèque numérique, mais normalement il reste un certain nombre
de contenus auxquels le modèle du document s’applique encore bien.
L’auteur !




On a un auteur
L’auteur !




Le titre, pas de problème.
On a bien une date. Bon, c’est la date de dernière modification, et non la date de première
publication.
Le contenu principal, pas de problème.
• Titre
             • Auteur
             • Contenu
             • Date
             • URL


Tout va bien. C’est globalement ce qui a émergé petit à petit dans les années 90 et début
2000.
L’auteur !




Sauf qu’il y a un grand nombre d’autres contenus sur cette page dont nos propriétés ne
tiennent pas compte.
Au premier chef desquelles les ‘réactions’ ou ‘commentaires’.
C’est embêtant : les commentaires sont sur la même page. Ils ont la même URL.
Leurs auteurs sont-ils des co-auteurs de l’article ? Non. L’article est clairement séparé des
commentaires, ne serait-ce que typographiquement.
Leur auteur est différent, donc c’est un autre document, non ? Ils ont pourtant la même URL.
Et puis, font-ils sens, privés du document d’origine ? Non, pas vraiment, puisqu’ils s’y
réfèrent implicitement en permanence.
• Dernière modification
        • Contenu principal
        • Auteur principal
        • Titre principal
        • URL


En général, on résout ce problème en identifiant un contenu principal et en nettoyant le reste.
On obtient quelque chose qui correspond relativement bien au modèle du document
traditionnel.

Je trouve que ça pose beaucoup de problèmes, notamment pour les commentaires.
Les commentaires représentent un volume de texte supérieur.
Et, comme il s’agit de commentaires modérés, ce ne sont pas des dizaines ou des centaines
de réaction d’une ligne ou deux.
Il y a une certaine qualité de rédaction. Par exemple, ce commentaire des chiffres concrets,
avec leur source, qui est un rapport officiel. L’article de départ citait un article du Parisien et
le programme du parti socialiste.
Où est le contenu principal ?

On voit que même avec un contenu web censément proche d’un document traditionnel, on
rencontre quelques problèmes de modélisation.
L’auteur principal ?




On commence à avoir quelques soupçons. Allons plus loin.
Le contenu principal ?
A minima : un tweet




Le premier mouvement c’est d’aller vers une unité indivisible.

Un tweet a une date, un auteur, des bornes, une URL unique. Par contre, il est extrêmement
court, et la majorité de son contenu sémantique - de sa valeur - est dans le lien, c’est-à-dire
ailleurs.
Parenthèse
Si on va par là, un like Facebook est sûrement enregistré avec le nom de celui qui a cliqué, le
moment précis où le clic est intervenu, et la chose qui a été ‘appréciée’ par l’utilisateur.
Il y a clairement une intention.
En dépit de l’effacement progressif de la différence entre les outils de création / édition et les
outils de consultation de documents, je ne pense pas qu’un like Facebook soit un document.
Par contre, pour un tweet, la question se pose.
Reprenons l’exemple de twitter. Voici un tweet standard, essentiellement tourné vers
l’extérieur.
Détaillons rapidement son contenu : ‘lagayascienza’ est le pseudonyme de la personne qui a
écrit le tweet.
Ensuite, le texte du tweet.
Ensuite, un lien vers du contenu
Puis un hashtag, #Lego.
Ce qui porte le sens, ici, c’est le lien. Le reste est mystérieux.
Orgueil et Préjugés et Zombies est une réécriture parodique de Jane Austen, et on peut donc
supposer que le contenu du lien sera dans la même veine.
Le hashtag #Lego nous apprend qu’il sera question de Legos. Il permet de donner un indice
sur le contenu du tweet, et de le contextualiser en le faisant apparaître dans les recherches
portant sur les Legos

On peut donc tagger le contenu extrêmement facilement.

Le lien.
Si on suit le lien du tweet d’origine, on passe d’abord par un service de raccourcissement
d’URL (en l’occurence is.gd), qui redirige vers la page suivante :
Il s’agit d’un post sur un weblog personnel. La photo représente une reconstitution
parodique du célèbre tableau Nighthawks d’Edward Hopper : les clients du bar du tableau
d’origine subissent ici l’attaque de zombies semblables à ceux du film La Nuit des morts-
vivants (Night of the Living- Dead) de George Romero. La scène est rendue au moyen de
figurines et de briques Lego.

On trouve en dessous deux liens.
Celui de droite, précédé du mot ‘via’, indique comment le blogueur a découvert l’existence
de la photo. Il pointe donc vers un autre site, qui commente la photo.
Celui de gauche, intitulé ‘Nighthawks of the Living Dead’, sert de légende à la photo : il
donne son titre et pointe vers sa page d’origine.
Sous sa photo, l’auteur explique qu’il n’a fait que mener à son terme l’idée proposée par un
autre membre de flickr, mais non terminée (WIP = work in progress). Si on suit le lien, on
aboutit à la page suivante :
Ce dessin a été posté en 2008, et n’a jamais été terminé par son auteur d’origine.
Conclusion

        •    Qui est l’auteur ?
        • Où commence le document ?
        • Où s’arrête-t-il ?
        • Comment l’enregistrer ?
Dans l’espace physique, le document est linéaire, attribuable et borné.

Dans ce contexte, il me paraît malaisé de répondre à des questions censément simples, telles
que : - qu’est-ce qui constitue le contenu ? - qu’est-ce qui est original ?
- qui est l’auteur ? - où le document commence-t-il et où s’arrête-t-il ?

Pourtant, cette incertitude ne gêne en rien les divers ‘auteurs’, ni encore moins les
spectateurs / consommateurs.
Il n’y a pas de problème pratique. Il y a un problème conceptuel : le web fonctionne très bien.
Les problèmes deviennent manifestes lorsque nous cherchons à l’enregistrer.
Pages


Par rapport à l’intervention précédente, je serai très terre à terre.
Persistance ?




Dans la doxa, le web est censé s’auto-réguler, et donc s’auto-préserver. Il incomberait à
chaque site de mettre en place des moyens de persistance de ses pages.

Le terme de ‘persistance’ est utilisé par les archives britanniques du web pour désigner leur
démarche consistant à préserver les pages des sites gouvernementaux, même inutilisées.

Mais : c’est peu fiable, et totalement arbitraire. Un site peut disparaître du jour au lendemain,
simplement parce que plus personne ne veut payer pour l’héberger.
Ironie de la situation : ce que vous voyez à l’écran est la page actuelle du RTP-Doc

Auparavant, les gens enregistraient les pages sur leur propre ordinateur, pour tout un tas de
raisons. Aujourd’hui, ce n’est plus le cas.
Archivage individuel

           • Préserver ce qui pourrait disparaître
           • Un archivage de ressources, et non de
               documents
           • Enregistrement d’une cristallisation à
               l’instant t



A vieilli : c’est ce qu’on faisait dans les années 90.
Aujourd’hui, on fait avec des favoris, voire avec des outils de bookmarking (type delicio.us).
Montre bien la nature du net : ce qu’on enregistre va changer ou disparaître. On garde la
ressource ou un snapshot du document.
Dans tous les cas, il faudra redocumentariser.
Par exemple, le 19 novembre dernier, Jean-François Copé a signé une tribune dans Slate sur
la question de l’illettrisme. Cette tribune a été publiée avec une faute à ‘illettrisme’ dans le
titre.
La faute a été corrigée près de deux heures après la publication, ce qui a laissé le temps à
beaucoup de gens, moi compris, de faire une capture d’écran.
Un exemple de démarche individuelle collectivisée : The Internet Archaeology
Né en réaction à la fin de geocities en octobre 2009, qui a effectivement entraîné la
disparition de nombreux sites ‘antiques’
Sont confrontés à des problématiques d’archivage (We ask that users provide at minimum the approximate   date and

source of the image.)

Il y a quelque chose de la société savante.
On peut débattre de la valeur esthétique des choses qui sont préservées, évidemment.

Dans tous les cas, ce type d’archivage préserve les ressources, mais pas l’expérience
utilisateur.
Screencast




Pour préserver l’expérience utilisateur, on en vient à faire du screencast.
On a vu la semaine dernière les avantages et les inconvénients :
- pas besoin d’émuler une expérience utilisateur avec un crawler, puisque c’est effectivement
un utilisateur qui enregistre son parcours de navigation
- mais : on garde la profondeur mais on perd l’interactivité.
Le web comme corpus




A l’autre bout du spectre, on trouve l’idée d’utiliser le web comme un corpus.
L’idée intéresse énormément les linguistes, vu le coût que représente la constitution d’un
corpus classique.
Les démarches peuvent être très diverses : récupérer des n-grammes, constituer des corpus
thématiques pour l’entraînement d’algos d’analyse syntaxique, etc.
Il existe même des corpus constitués et tenus à jour automatiquement, à partir de flux RSS.
Mais : textuel uniquement. Nettoyage très brutal. Aplatissement total et irrémédiable du
contenu de la page.
Comment faire pour préserver la profondeur ?
Faut-il conserver toutes les données ?
Wikipedia, qui conserve les données d’édition de toutes ses pages, toutes les versions
successives, etc.
En septembre dernier, à l’occasion de la conférence dConstruct, James Bridle a décidé
d’imprimer les 12.000 modifications effectuées sur la page Wikipedia « Iraq War », entre
décembre 2004 et novembre 2009.
Le résultat est plus ou moins de la taille d’une encyclopédie classique.
Enfin ! Une archive qui fonctionne, complète !
Imprimer ces données, leur donner une existence physique, permet de retrouver le sens des
proportions et du ridicule.
Si jamais on devait archiver sur papier, on ferait un tri. Pourquoi ne pas faire ce tri pour une
archive numérique ?
Facebook, conscient de l’ambiguité de sa position, et désireux de donner à ses utilisateurs
un os à ronger, redonne aux gens la place de l’archiviste en les incitant à télécharger
l’ensemble de leur activité à des fins d’archivage. L’annonce est venue début octobre dernier,
au même moment que Facebook Places. Symboliquement, ils rendent aux personnes le
contrôle sur leurs données.
 Les gens se trouvent avec un export de BDD qui n’a strictement rien à voir avec leur
expérience de Facebook.
  Les données, une fois sorties de Facebook, n’ont pratiquement aucune valeur pour
l’utilisateur.
 Facebook n’est pas la somme des données que les gens y déposent.
 Facebook est un service.
Conclusion

        • Le web n’est accessible qu’au travers
             de la médiation de la page
        • Enregistrer la page entraîne une perte
             d’information



  Chaque méthode enregistre l’un ou l’autre aspect du web, en fonction des objectifs
poursuivis, mais aucune ne parvient à rendre compte de ce qu’est le web dans son
intégralité.
L’objet digital (le web) est converti en analogique (page) pour que nous puissions y accéder,
et c’est l’expérience produite par ces pages qu’on enregistre alors - essayer d’enregistrer le
web revient à filmer un écran.
  Par exemple, pour la recherche, on se trouve face à deux possibilités, dont aucune n’est
satisfaisante :
  - soit on utilise Google et le web lui-même, et on obtient des résultats impossibles à
reproduire, puisqu’obtenus sur un corpus non délimité et figé - ce qui est quand même
ennuyeux, sur un plan scientifique et sur un plan commercial.
 - soit on délimite un corpus d’étude, et on se trouve avec un objet d’étude qui a perdu la
majeure partie des propriétés du web.
  Et en tout cas il me semble qu’on ne dispose pas encore d’une méthode permettant de
rendre compte des aspects les plus originaux et les plus caractéristiques du web.
Données


On voudrait accéder au web ‘en soi’, et c’est la promesse actuelle.
Le web sémantique ?




Au cours de la décennie écoulée, la promesse du web sémantique a souvent été faite : dans
l’avenir, les ontologies nous permettraient d’organiser tout le contenu dispersé sur le web, de
transformer l’information en connaissance.
Le web syntaxique

        (pour l’instant au moins)


Problème : le web sémantique est très coûteux à mettre en oeuvre, très contraignant, et il
reste donc pour l’instant réservé à des applications très précises et délimitées.
Ca n’empêche pas le web de s’organiser.
Google et la SEO ont forcé les choses à s’organiser.
Des liens dans le langage




Sur twitter, les contraintes techniques obligent à utiliser des URL comme des symboles
linguistiques.
Le lien est la matérialisation de l’intention. Avec les liens et les tags, twitter a épuré
Du langage dans les liens

            Cliquez <a>ici</a> pour en
            savoir plus
            Plus d’informations sur
            <a>Laurent Gbagbo</a>




Google a forcé les gens à expliciter le contenu de leurs liens, faisant de tout webmaster
capable un annotateur - et transformant ainsi indirectement le texte plat du web en texte
complexe, relié, structuré.
Deep-linking




Un problème sans doute plus anecdotique pour l’instant, mais qui est appelé à devenir plus
prégnant - les liens profonds.
Youtube, maintenant le NYT et les blogs sous WordPress.
Le web de données
 Le web of data, ce sont des données, et des services destinés à explorer ces données.
 Exemple par excellence : twitter
  Ci-dessus, par exemple, We Read We Tweet, un mash-up des API du NY Times, de twitter,
et de Google Maps. Les arcs relient la localisation d’un tweet avec les lieux évoqués dans les
articles du NYT vers lesquels les tweets renvoient. Mais aussi Amazon, yelp, etc.
 Des services permettent d’accéder à ces ressources, créant des documents à la volée.
Sur le web of data, les internautes accèdent aux données grâce à des services et des
applications. Par exemple l’application de visualisation créée par les Français d’OWNI pour la
dernière fuite de Wikileaks.
Un contenu, plusieurs sites




Qu’est-ce qui rend un document unique s’il est reproduit à l’infini ? Qu’est-ce qui différencie
le plagiat de la citation ? L’attribution ? Mais s’il n’y a pas d’auteur ?
   La répétition - citation / scraping. Comment distinguer ce qui est pertinent (citation,
illustration, blog post, etc.) de ce qui ne l’est pas ? Pour un humain, c’est faisable.
 Pour une machine, il faudrait réussir à lier automatiquement contenu, auteur, et adresse
web (= ces trois données sont-elles cohérentes ?)
Public, collectif, privé

            • Privé = ce qui est sur notre ordinateur
            • Collectif = intranet, outils collaboratifs
            • Public = ce qui est accessible à tous


En 2006, l’équipe de recherche RTP-Doc définissait trois zones peuplées de documents numériques.

Où en est-on, en 2010 ?
Privé ?




Mais qu’est-ce qui est encore sur notre ordinateur ? Google Docs, Dropbox, synchro
desktop / laptop / iphone…
Pour ma part, je panique si un fichier n’est pas encore synchronisé, et qu’il se trouve à un
seul endroit. Si je peux encore lui donner une existence physique, je suis paniqué. Je sais
qu’on peut me le voler, que je peux le perdre, qu’il peut être détruit.
Semi-public ?




A première vue, Facebook semble plutôt être un changement quantitatif qu’un changement
qualitatif. On est impressionné par l’échelle du changement.
Mais si on peut être condamné en justice pour des propos tenus sur Facebook, alors on n'est
plus du tout dans le privé.
  Facebook est dans une position particulière et très délicate : ses centaines de millions
d’utilisateurs lui ont confié volontairement des données très personnelles, qui demeuraient
traditionnellement dans la sphère privée (photographies) ou restaient cantonnées au collectif.
Ce sont précisément les données auxquelles les publicitaires n’ont pas accès, et qu’ils
essaient d’établir par des méthodes d’échantillonnage, d’études, etc.
  La position est délicate, parce que les utilisateurs s’inquiètent périodiquement de ce qu’ils
ont laissés trop de données en possession de Facebook. Facebook ne peut pas donner aux
utilisateurs ce qu’ils veulent, c’est-à-dire un espace réellement privé-collectif, plutôt que
collectif-public, parce que c’est comme ça que Facebook gagne son argent.
Public ?
Spécificités nationales




Autre facteur d’hétérogénéité - le web présente des spécificités nationales qui vont très au-
delà de l’anecdotique. Le succès d’Orkut au Brésil. L’incapacité d’eBay à s’implanter en Asie -
Yahoo Auctions au Japon, Tao Bao en Chine.

En particulier, tous les pans du web asiatique (en particulier chinois et japonais) sont
extrêmement isolés.

Les Chinois doivent composer avec ‘the great firewall of China’. Leur web se développe très
différemment du nôtre. Il y a des différences culturelles très fortes. Ils ont par exemple de
gigantesques forums sur lesquels ils échangent des normes ISO piratées en échange de
travail scolaire. Ils essaient absolument d’empêcher les non-Chinois d’y participer - ils
veulent préserver ce qu’ils ont de l’attention des occidentaux - attention qui finirait, à force
de tractations diplomatiques, par déchaîner sur eux les foudres des autorités chinoises.
Gala-Kei




La barrière linguistique se double d’une barrière sociale : les japonais ont des sites très
pauvres techniquement afin de les rendre accessibles sur n’importe quel téléphone portable.

Ces frontières techniques tendent à régresser (iPhone & iPad changent la donne au Japon, le
web chinois s’ouvre timidement), mais tout cela reste sans effet sur l’isolement culturel.
Des robots et des hommes




En attendant le web sémantique, il faut tout de même trouver des solutions pour organiser la
masse de contenus produits en permanence sur le web. Ce travail revient à des algorithmes
et aux internautes.
Sur Google News, le rédac chef est l’algorithme. Il y a parfois des bizarreries (météo france),
mais globalement ça marche pas mal.
Sur reddit, les visiteurs sont, individuellement et consciemment, leur propre rédac chef et,
indirectement, ceux de tous les autres visiteurs du site.
 Le point intéressant est que peu d’entre eux prennent le temps de participer - ceux qui
participent ont donc un poids très important.
Le Huffington Post se targue d’être le premier organe de presse publié uniquement sur le
web (pure player) à atteindre l’équilibre financier. Comment ont-ils fait ?
  Une partie de la réponse, au moins. Sur le Huffington Post, les visiteurs sont, collectivement
et sans le savoir, les rédac chef. Leurs clics et le temps qu’ils passent sur chaque page
déterminent le positionnement du contenu de la une, y compris les top stories.
 Les ajustements ont lieu en temps réel.
  Ils envisagent d’adapter le contenu de la une en fonction de la situation géographique. du
visiteur, aussi.
Content Curators
L’autre moyen pour remettre du sens, le content curator.
Le terme a fait florès dans la presse technologique ces derniers mois. Une bonne définition : «Un “Content Curator” est
quelqu’un qui continuellement trouve, regroupe, organise et partage le contenu en ligne le plus pertinent sur un sujet spécifique.»
Par exemple, je m’intéresse au cinéma des pays nordiques. Malheureusement, je ne parle aucune langue
scandinave, et les informations sont difficiles à trouver en français ou en anglais.
Quand Satoshi Kon est mort, de manière très subite, les détails ont émergé au compte-
goutte : il est mort, il est mort du cancer, il est mort d’un cancer du pancréas, voilà où on en
était après 24h. Et puis est arrivé une longue lettre qu’il avait rédigé dans les jours précédant
sa mort. C’est sa femme qui l’a postée, en japonais. Il a ensuite fallu qu’un blogueuse la
traduise en anglais, sans la moindre autorisation, pour qu’elle se mette à circuler sur le net
anglophone, avant d’atteindre la France par le biais de twitter.

Pour que cette lettre parvienne jusqu’à moi, il aura fallu deux jours. C’est court, et c’est aussi
très long.
Conclusion

        • Le web est fragmentaire
        • Le circulation de l’information est sociale
          La
        • Le web est une barrière de corail


Ca me paraît extrêmement symptomatique de la situation. : techniquement, tout est
connecté. Le net est uniforme. En pratique, le net est fragmentaire. Les processus de
circulation des informations sont (a) locaux et (b) sociaux, c’est-à-dire, dans l’ensemble,
étonnamment archaïques.
 Reformulons : Des processus sociaux restent nécessaires pour accéder à l’information. Le
web n’est pas sémantique : il est pragmatique.
  C’est ce qui nous échappe pour l’instant lorsque nous essayons d’en faire des documents.
Le « nettoyage » opéré par les outils de crawl (par ex. Ceux présentés ici par Exalead l’an
dernier) transforme une page web en document manipulable, car correspondant au modèle
classique du document. Il me semble que c’est une erreur si l’objectif est de comprendre le
web. Il me semble qu’en nettoyant, en se focalisant sur ce que nous reconnaissons comme
« le contenu », on évacue ce qui fait que le web est le web.
 Enregistré, le document web est comme une branche de corail arrachée à la barrière - il
meurt.

Contenu connexe

Tendances

Les technologies du Web appliquées aux données structurées (1ère partie : Enc...
Les technologies du Web appliquées aux données structurées (1ère partie : Enc...Les technologies du Web appliquées aux données structurées (1ère partie : Enc...
Les technologies du Web appliquées aux données structurées (1ère partie : Enc...Gautier Poupeau
 
Informatique, web... Préparation au C2i
Informatique, web... Préparation au C2iInformatique, web... Préparation au C2i
Informatique, web... Préparation au C2iClément Dussarps
 
Formation Internet Isop 7 juin 2010
Formation Internet Isop 7 juin 2010Formation Internet Isop 7 juin 2010
Formation Internet Isop 7 juin 2010Letaillieur
 
Introduction au Web sémantique
Introduction au Web sémantiqueIntroduction au Web sémantique
Introduction au Web sémantiqueSpyderwoman
 
Contrôle de ses données et écriture de soiv.4
Contrôle de ses données et écriture de soiv.4Contrôle de ses données et écriture de soiv.4
Contrôle de ses données et écriture de soiv.4Olivier Le Deuff
 
Création de blog et sites internet
Création de blog et sites internetCréation de blog et sites internet
Création de blog et sites internetpiera5
 
Atelier des médias : entretien avec Audrey Tang - transcript
Atelier des médias : entretien avec Audrey Tang - transcriptAtelier des médias : entretien avec Audrey Tang - transcript
Atelier des médias : entretien avec Audrey Tang - transcriptMathias Virilli
 
Mon Intro Au Web 20
Mon Intro Au Web 20Mon Intro Au Web 20
Mon Intro Au Web 20anne.wiener
 
A la découverte du Web sémantique
A la découverte du Web sémantiqueA la découverte du Web sémantique
A la découverte du Web sémantiqueGautier Poupeau
 
Information numérique : défintions et enjeux
Information numérique : défintions et enjeuxInformation numérique : défintions et enjeux
Information numérique : défintions et enjeuxGautier Poupeau
 
Les bibliothèques et leurs catalogues 20110324
Les bibliothèques et leurs catalogues   20110324Les bibliothèques et leurs catalogues   20110324
Les bibliothèques et leurs catalogues 20110324Sylvain Machefert
 
Web sémantique
Web sémantiqueWeb sémantique
Web sémantiqueGreenIvory
 
Web Sémantique — Linked Data
Web Sémantique — Linked DataWeb Sémantique — Linked Data
Web Sémantique — Linked DataKlee Group
 
Atelier opac nouvelle generation
Atelier opac nouvelle generationAtelier opac nouvelle generation
Atelier opac nouvelle generationFleury Christine
 
Les technologies du Web appliquées aux données structurées (2ème partie : Rel...
Les technologies du Web appliquées aux données structurées (2ème partie : Rel...Les technologies du Web appliquées aux données structurées (2ème partie : Rel...
Les technologies du Web appliquées aux données structurées (2ème partie : Rel...Gautier Poupeau
 
La ressource Web : dialectique du changement et de la permanence et émergence...
La ressource Web : dialectique du changement et de la permanence et émergence...La ressource Web : dialectique du changement et de la permanence et émergence...
La ressource Web : dialectique du changement et de la permanence et émergence...Alexandre Monnin
 

Tendances (20)

Les technologies du Web appliquées aux données structurées (1ère partie : Enc...
Les technologies du Web appliquées aux données structurées (1ère partie : Enc...Les technologies du Web appliquées aux données structurées (1ère partie : Enc...
Les technologies du Web appliquées aux données structurées (1ère partie : Enc...
 
Propriété intellectuelle février 2012
Propriété intellectuelle février 2012Propriété intellectuelle février 2012
Propriété intellectuelle février 2012
 
Informatique, web... Préparation au C2i
Informatique, web... Préparation au C2iInformatique, web... Préparation au C2i
Informatique, web... Préparation au C2i
 
Formation Internet Isop 7 juin 2010
Formation Internet Isop 7 juin 2010Formation Internet Isop 7 juin 2010
Formation Internet Isop 7 juin 2010
 
Introduction au Web sémantique
Introduction au Web sémantiqueIntroduction au Web sémantique
Introduction au Web sémantique
 
Contrôle de ses données et écriture de soiv.4
Contrôle de ses données et écriture de soiv.4Contrôle de ses données et écriture de soiv.4
Contrôle de ses données et écriture de soiv.4
 
Création de blog et sites internet
Création de blog et sites internetCréation de blog et sites internet
Création de blog et sites internet
 
Atelier des médias : entretien avec Audrey Tang - transcript
Atelier des médias : entretien avec Audrey Tang - transcriptAtelier des médias : entretien avec Audrey Tang - transcript
Atelier des médias : entretien avec Audrey Tang - transcript
 
Propriété intellectuelle nov 2012
Propriété intellectuelle nov 2012Propriété intellectuelle nov 2012
Propriété intellectuelle nov 2012
 
Mon Intro Au Web 20
Mon Intro Au Web 20Mon Intro Au Web 20
Mon Intro Au Web 20
 
A la découverte du Web sémantique
A la découverte du Web sémantiqueA la découverte du Web sémantique
A la découverte du Web sémantique
 
Information numérique : défintions et enjeux
Information numérique : défintions et enjeuxInformation numérique : défintions et enjeux
Information numérique : défintions et enjeux
 
Les bibliothèques et leurs catalogues 20110324
Les bibliothèques et leurs catalogues   20110324Les bibliothèques et leurs catalogues   20110324
Les bibliothèques et leurs catalogues 20110324
 
Web sémantique
Web sémantiqueWeb sémantique
Web sémantique
 
Web Sémantique — Linked Data
Web Sémantique — Linked DataWeb Sémantique — Linked Data
Web Sémantique — Linked Data
 
Atelier opac nouvelle generation
Atelier opac nouvelle generationAtelier opac nouvelle generation
Atelier opac nouvelle generation
 
Les technologies du Web appliquées aux données structurées (2ème partie : Rel...
Les technologies du Web appliquées aux données structurées (2ème partie : Rel...Les technologies du Web appliquées aux données structurées (2ème partie : Rel...
Les technologies du Web appliquées aux données structurées (2ème partie : Rel...
 
Premiers pas sur le web : le navigateur
Premiers pas sur le web : le navigateurPremiers pas sur le web : le navigateur
Premiers pas sur le web : le navigateur
 
La ressource Web : dialectique du changement et de la permanence et émergence...
La ressource Web : dialectique du changement et de la permanence et émergence...La ressource Web : dialectique du changement et de la permanence et émergence...
La ressource Web : dialectique du changement et de la permanence et émergence...
 
Rediger Pour Le Blog
Rediger Pour Le BlogRediger Pour Le Blog
Rediger Pour Le Blog
 

En vedette

1 hojas de registro cualidades físicas y sus métodos 1
1 hojas de registro cualidades físicas y sus métodos 11 hojas de registro cualidades físicas y sus métodos 1
1 hojas de registro cualidades físicas y sus métodos 1Garcia-cervigon
 
Concours mompreneurs de l'année 2010
Concours mompreneurs de l'année 2010Concours mompreneurs de l'année 2010
Concours mompreneurs de l'année 2010PayPal
 
Sondage auprès des décideurs publics
Sondage auprès des décideurs publicsSondage auprès des décideurs publics
Sondage auprès des décideurs publicsHEXAGONE --
 
Atlas Européen : Temps De Travail
Atlas Européen : Temps De TravailAtlas Européen : Temps De Travail
Atlas Européen : Temps De TravailADP France
 
Proyecto final 102058 406
Proyecto final 102058 406Proyecto final 102058 406
Proyecto final 102058 406katherin11
 
Exemple de proposition PME Permabec
Exemple de proposition PME PermabecExemple de proposition PME Permabec
Exemple de proposition PME PermabecCarl Bilodeau
 
MoWall by MobilActif - Animation Photo Interactive
MoWall by MobilActif - Animation Photo InteractiveMoWall by MobilActif - Animation Photo Interactive
MoWall by MobilActif - Animation Photo InteractiveMobilActif
 
Journée Entreprise Responsable - atelier Mode d'emploi Oraveo
Journée Entreprise Responsable - atelier Mode d'emploi OraveoJournée Entreprise Responsable - atelier Mode d'emploi Oraveo
Journée Entreprise Responsable - atelier Mode d'emploi OraveoORAVEO
 
Naissance du nt bibleexpo 2013
Naissance du nt   bibleexpo 2013Naissance du nt   bibleexpo 2013
Naissance du nt bibleexpo 2013Christian Apel
 
158697 jean gillesdeschenaux
158697 jean gillesdeschenaux158697 jean gillesdeschenaux
158697 jean gillesdeschenauxfilipj2000
 

En vedette (20)

1 hojas de registro cualidades físicas y sus métodos 1
1 hojas de registro cualidades físicas y sus métodos 11 hojas de registro cualidades físicas y sus métodos 1
1 hojas de registro cualidades físicas y sus métodos 1
 
Archivo 2
Archivo 2Archivo 2
Archivo 2
 
Lennin
LenninLennin
Lennin
 
Progesterone+ cesarienne
Progesterone+ cesarienneProgesterone+ cesarienne
Progesterone+ cesarienne
 
Concours mompreneurs de l'année 2010
Concours mompreneurs de l'année 2010Concours mompreneurs de l'année 2010
Concours mompreneurs de l'année 2010
 
Sondage auprès des décideurs publics
Sondage auprès des décideurs publicsSondage auprès des décideurs publics
Sondage auprès des décideurs publics
 
Atlas Européen : Temps De Travail
Atlas Européen : Temps De TravailAtlas Européen : Temps De Travail
Atlas Européen : Temps De Travail
 
Trabajo de europa países ue
Trabajo de europa   países ueTrabajo de europa   países ue
Trabajo de europa países ue
 
Travajo empresarial
Travajo empresarialTravajo empresarial
Travajo empresarial
 
Nouveaux espaces et pratiques émergentes : La bibliothèque comme trait d'unio...
Nouveaux espaces et pratiques émergentes : La bibliothèque comme trait d'unio...Nouveaux espaces et pratiques émergentes : La bibliothèque comme trait d'unio...
Nouveaux espaces et pratiques émergentes : La bibliothèque comme trait d'unio...
 
Proyecto final 102058 406
Proyecto final 102058 406Proyecto final 102058 406
Proyecto final 102058 406
 
Exemple de proposition PME Permabec
Exemple de proposition PME PermabecExemple de proposition PME Permabec
Exemple de proposition PME Permabec
 
MoWall by MobilActif - Animation Photo Interactive
MoWall by MobilActif - Animation Photo InteractiveMoWall by MobilActif - Animation Photo Interactive
MoWall by MobilActif - Animation Photo Interactive
 
Diodos
DiodosDiodos
Diodos
 
Journée Entreprise Responsable - atelier Mode d'emploi Oraveo
Journée Entreprise Responsable - atelier Mode d'emploi OraveoJournée Entreprise Responsable - atelier Mode d'emploi Oraveo
Journée Entreprise Responsable - atelier Mode d'emploi Oraveo
 
Naissance du nt bibleexpo 2013
Naissance du nt   bibleexpo 2013Naissance du nt   bibleexpo 2013
Naissance du nt bibleexpo 2013
 
Polynesie e
Polynesie ePolynesie e
Polynesie e
 
158697 jean gillesdeschenaux
158697 jean gillesdeschenaux158697 jean gillesdeschenaux
158697 jean gillesdeschenaux
 
La Alimentacion
La AlimentacionLa Alimentacion
La Alimentacion
 
Julio preserntacion
Julio preserntacionJulio preserntacion
Julio preserntacion
 

Similaire à L'unité documentaire sur le web

Ecrire pour le web v1
Ecrire pour le web v1Ecrire pour le web v1
Ecrire pour le web v1Eric Mettout
 
Ecrire pour le web v3 cfj2012
Ecrire pour le web v3 cfj2012Ecrire pour le web v3 cfj2012
Ecrire pour le web v3 cfj2012Eric Mettout
 
Concevez votre site web avec php et my sql mathieu nebra
Concevez votre site web avec php et my sql   mathieu nebraConcevez votre site web avec php et my sql   mathieu nebra
Concevez votre site web avec php et my sql mathieu nebraRochdi BCHINI
 
Fondamentaux du journalisme web 2014 - partie 2
Fondamentaux du journalisme web 2014 - partie 2Fondamentaux du journalisme web 2014 - partie 2
Fondamentaux du journalisme web 2014 - partie 2Gwendal Perrin
 
Formation écriture pour le web
Formation écriture pour le webFormation écriture pour le web
Formation écriture pour le webVoyelle Voyelle
 
Blogging animation de communautés - easy writing par comenvrai
Blogging animation de communautés - easy writing par comenvraiBlogging animation de communautés - easy writing par comenvrai
Blogging animation de communautés - easy writing par comenvraiLpCoMeN ComenVrai
 
Experimentations en bibliotheques
Experimentations en bibliothequesExperimentations en bibliotheques
Experimentations en bibliothequesDavid Liziard
 
Guide auto-formation pour écrire pour le web~Learning Cube
Guide auto-formation pour écrire pour le web~Learning CubeGuide auto-formation pour écrire pour le web~Learning Cube
Guide auto-formation pour écrire pour le web~Learning CubeLaurent BOBY
 
Les outils du web 2.0 pour la recherche scientifique - Master 1 SACIM
Les outils du web 2.0 pour la recherche scientifique - Master 1 SACIMLes outils du web 2.0 pour la recherche scientifique - Master 1 SACIM
Les outils du web 2.0 pour la recherche scientifique - Master 1 SACIMMagalie Le Gall
 
Stratégie de valorisation et d'éditorialisation des ressources documentaires
Stratégie de valorisation et d'éditorialisation des ressources documentairesStratégie de valorisation et d'éditorialisation des ressources documentaires
Stratégie de valorisation et d'éditorialisation des ressources documentairesRenaud AIOUTZ
 
IUT-22oct2010-ecriture-multimedia
IUT-22oct2010-ecriture-multimediaIUT-22oct2010-ecriture-multimedia
IUT-22oct2010-ecriture-multimediaClaire prof
 
Documentaliste et rédaction - dossier complet easy writing
Documentaliste et rédaction - dossier complet easy writingDocumentaliste et rédaction - dossier complet easy writing
Documentaliste et rédaction - dossier complet easy writingPoleDocumentation.fr
 
Coffre à outils reseaux sociaux pour les autoéditees
Coffre à outils reseaux sociaux pour les autoéditeesCoffre à outils reseaux sociaux pour les autoéditees
Coffre à outils reseaux sociaux pour les autoéditeesChris Simon
 
Le Web et son architecture : Pour une critique philosophique de la notion d’u...
Le Web et son architecture : Pour une critique philosophique de la notion d’u...Le Web et son architecture : Pour une critique philosophique de la notion d’u...
Le Web et son architecture : Pour une critique philosophique de la notion d’u...Alexandre Monnin
 
Atelier Aefnb 28 AoûT 2007
Atelier Aefnb 28 AoûT 2007Atelier Aefnb 28 AoûT 2007
Atelier Aefnb 28 AoûT 2007ynnek
 
Ebook redaction-web-lu-et-reference
Ebook redaction-web-lu-et-referenceEbook redaction-web-lu-et-reference
Ebook redaction-web-lu-et-referenceAmel Miaoulis
 
Ouvrir un blog scientifique / Sciences exactes et expérimentales
Ouvrir un blog scientifique / Sciences exactes et expérimentalesOuvrir un blog scientifique / Sciences exactes et expérimentales
Ouvrir un blog scientifique / Sciences exactes et expérimentalesmfaury
 

Similaire à L'unité documentaire sur le web (20)

Ecrire pour le web v1
Ecrire pour le web v1Ecrire pour le web v1
Ecrire pour le web v1
 
Ecrire pour le web v3 cfj2012
Ecrire pour le web v3 cfj2012Ecrire pour le web v3 cfj2012
Ecrire pour le web v3 cfj2012
 
Concevez votre site web avec php et my sql mathieu nebra
Concevez votre site web avec php et my sql   mathieu nebraConcevez votre site web avec php et my sql   mathieu nebra
Concevez votre site web avec php et my sql mathieu nebra
 
Concevez votre site web avec php et mysql
Concevez votre site web avec php et mysqlConcevez votre site web avec php et mysql
Concevez votre site web avec php et mysql
 
Fondamentaux du journalisme web 2014 - partie 2
Fondamentaux du journalisme web 2014 - partie 2Fondamentaux du journalisme web 2014 - partie 2
Fondamentaux du journalisme web 2014 - partie 2
 
Formation écriture pour le web
Formation écriture pour le webFormation écriture pour le web
Formation écriture pour le web
 
Blogging animation de communautés - easy writing par comenvrai
Blogging animation de communautés - easy writing par comenvraiBlogging animation de communautés - easy writing par comenvrai
Blogging animation de communautés - easy writing par comenvrai
 
Experimentations en bibliotheques
Experimentations en bibliothequesExperimentations en bibliotheques
Experimentations en bibliotheques
 
Guide auto-formation pour écrire pour le web~Learning Cube
Guide auto-formation pour écrire pour le web~Learning CubeGuide auto-formation pour écrire pour le web~Learning Cube
Guide auto-formation pour écrire pour le web~Learning Cube
 
Les outils du web 2.0 pour la recherche scientifique - Master 1 SACIM
Les outils du web 2.0 pour la recherche scientifique - Master 1 SACIMLes outils du web 2.0 pour la recherche scientifique - Master 1 SACIM
Les outils du web 2.0 pour la recherche scientifique - Master 1 SACIM
 
Stratégie de valorisation et d'éditorialisation des ressources documentaires
Stratégie de valorisation et d'éditorialisation des ressources documentairesStratégie de valorisation et d'éditorialisation des ressources documentaires
Stratégie de valorisation et d'éditorialisation des ressources documentaires
 
IUT-22oct2010-ecriture-multimedia
IUT-22oct2010-ecriture-multimediaIUT-22oct2010-ecriture-multimedia
IUT-22oct2010-ecriture-multimedia
 
Documentaliste et rédaction - dossier complet easy writing
Documentaliste et rédaction - dossier complet easy writingDocumentaliste et rédaction - dossier complet easy writing
Documentaliste et rédaction - dossier complet easy writing
 
Veille Documentaire
Veille DocumentaireVeille Documentaire
Veille Documentaire
 
Coffre à outils reseaux sociaux pour les autoéditees
Coffre à outils reseaux sociaux pour les autoéditeesCoffre à outils reseaux sociaux pour les autoéditees
Coffre à outils reseaux sociaux pour les autoéditees
 
Le Web et son architecture : Pour une critique philosophique de la notion d’u...
Le Web et son architecture : Pour une critique philosophique de la notion d’u...Le Web et son architecture : Pour une critique philosophique de la notion d’u...
Le Web et son architecture : Pour une critique philosophique de la notion d’u...
 
Séance 4 - Publier sur Internet
Séance 4 - Publier sur InternetSéance 4 - Publier sur Internet
Séance 4 - Publier sur Internet
 
Atelier Aefnb 28 AoûT 2007
Atelier Aefnb 28 AoûT 2007Atelier Aefnb 28 AoûT 2007
Atelier Aefnb 28 AoûT 2007
 
Ebook redaction-web-lu-et-reference
Ebook redaction-web-lu-et-referenceEbook redaction-web-lu-et-reference
Ebook redaction-web-lu-et-reference
 
Ouvrir un blog scientifique / Sciences exactes et expérimentales
Ouvrir un blog scientifique / Sciences exactes et expérimentalesOuvrir un blog scientifique / Sciences exactes et expérimentales
Ouvrir un blog scientifique / Sciences exactes et expérimentales
 

Plus de martin255

Digital Paleontology - Digging for Ancient Tweets
Digital Paleontology - Digging for Ancient TweetsDigital Paleontology - Digging for Ancient Tweets
Digital Paleontology - Digging for Ancient Tweetsmartin255
 
Kontrast@TOTh 2012
Kontrast@TOTh 2012Kontrast@TOTh 2012
Kontrast@TOTh 2012martin255
 
Kontrast@TKE 2012
Kontrast@TKE 2012Kontrast@TKE 2012
Kontrast@TKE 2012martin255
 
Classificateur d'URL
Classificateur d'URLClassificateur d'URL
Classificateur d'URLmartin255
 
Classificateur d'URL
Classificateur d'URLClassificateur d'URL
Classificateur d'URLmartin255
 
Architecture procédurale
Architecture procéduraleArchitecture procédurale
Architecture procéduralemartin255
 

Plus de martin255 (6)

Digital Paleontology - Digging for Ancient Tweets
Digital Paleontology - Digging for Ancient TweetsDigital Paleontology - Digging for Ancient Tweets
Digital Paleontology - Digging for Ancient Tweets
 
Kontrast@TOTh 2012
Kontrast@TOTh 2012Kontrast@TOTh 2012
Kontrast@TOTh 2012
 
Kontrast@TKE 2012
Kontrast@TKE 2012Kontrast@TKE 2012
Kontrast@TKE 2012
 
Classificateur d'URL
Classificateur d'URLClassificateur d'URL
Classificateur d'URL
 
Classificateur d'URL
Classificateur d'URLClassificateur d'URL
Classificateur d'URL
 
Architecture procédurale
Architecture procéduraleArchitecture procédurale
Architecture procédurale
 

L'unité documentaire sur le web

  • 1. De la bibliothèque numérique au web de données L’unité documentaire sur internet Ateliers Méthodologiques DLWeb - Saison 2 3 décembre 2010 Martin Lafréchoux
  • 2. ! Je suis en doctorat à Paris Ouest Nanterre, au laboratoire MoDyCo. Ma thèse est en sciences du langage, je plutôt un TAListe. Elle concerne le document sur internet, en particulier le document textuel. Je vais parler de documents, plus précisément, je vais vous présenter les difficultés conceptuelles et pratiques auxquelles je me heurte actuellement, à l’université et dans l’entreprise. Le point commun de ces difficultés est qu’il n’existe pas de modélisation permettant de conceptualiser et de manipuler tous les aspects d’une page web. Je commence tout juste mes recherches, je vais donc plutôt évoquer des problèmes que des solutions. Et pour que ma présentation soit claire malgré tout, je partirai d’exemples concrets. Et comme je parlerai essentiellement de texte, je vous montrerai des images.
  • 3. URL Pages Données Dans un premier temps, j’évaluerai l’adéquation entre la notion traditionnelle de document et le web. Ensuite je détaillerai le fonctionnement de plusieurs modes d’enregistrement du web - en particulier les conséquences théoriques de choix pratiques. Enfin, je vous présenterai les problématiques plus nouvelles, liées à ce qu’on appelle généralement le web de données.
  • 4. URL Qu’est-ce qu’un document ? Sur un plan théorique, ce n’est pas une question simple. Pour l’instant, il me suffit d’utiliser une définition fonctionnelle - je définirai le document par ses propriétés - qu’indexe-t-on quand on indexe un document web ? Ces propriétés sont celles qu’on utilise dans les systèmes d’information pour classer les documents.
  • 5. • Titre • Auteur • Contenu • Date • ISBN Un document standard : il a un titre, un auteur, une date de publication, un contenu délimité, et un identifiant unique - l’ISBN. Pour définir le document web de manière fonctionnelle, c’est généralement de cet identifiant unique qu’on part - l’URL. A une URL correspond une page, et cette page devient de fait notre unité documentaire.
  • 6. L’auteur ! Par exemple, un article de presse. Le web n’est plus une bibliothèque numérique, mais normalement il reste un certain nombre de contenus auxquels le modèle du document s’applique encore bien.
  • 7. L’auteur ! On a un auteur
  • 8. L’auteur ! Le titre, pas de problème.
  • 9. On a bien une date. Bon, c’est la date de dernière modification, et non la date de première publication.
  • 10. Le contenu principal, pas de problème.
  • 11. • Titre • Auteur • Contenu • Date • URL Tout va bien. C’est globalement ce qui a émergé petit à petit dans les années 90 et début 2000.
  • 12. L’auteur ! Sauf qu’il y a un grand nombre d’autres contenus sur cette page dont nos propriétés ne tiennent pas compte. Au premier chef desquelles les ‘réactions’ ou ‘commentaires’.
  • 13. C’est embêtant : les commentaires sont sur la même page. Ils ont la même URL. Leurs auteurs sont-ils des co-auteurs de l’article ? Non. L’article est clairement séparé des commentaires, ne serait-ce que typographiquement. Leur auteur est différent, donc c’est un autre document, non ? Ils ont pourtant la même URL. Et puis, font-ils sens, privés du document d’origine ? Non, pas vraiment, puisqu’ils s’y réfèrent implicitement en permanence.
  • 14. • Dernière modification • Contenu principal • Auteur principal • Titre principal • URL En général, on résout ce problème en identifiant un contenu principal et en nettoyant le reste. On obtient quelque chose qui correspond relativement bien au modèle du document traditionnel. Je trouve que ça pose beaucoup de problèmes, notamment pour les commentaires.
  • 15. Les commentaires représentent un volume de texte supérieur. Et, comme il s’agit de commentaires modérés, ce ne sont pas des dizaines ou des centaines de réaction d’une ligne ou deux. Il y a une certaine qualité de rédaction. Par exemple, ce commentaire des chiffres concrets, avec leur source, qui est un rapport officiel. L’article de départ citait un article du Parisien et le programme du parti socialiste. Où est le contenu principal ? On voit que même avec un contenu web censément proche d’un document traditionnel, on rencontre quelques problèmes de modélisation.
  • 16. L’auteur principal ? On commence à avoir quelques soupçons. Allons plus loin.
  • 18. A minima : un tweet Le premier mouvement c’est d’aller vers une unité indivisible. Un tweet a une date, un auteur, des bornes, une URL unique. Par contre, il est extrêmement court, et la majorité de son contenu sémantique - de sa valeur - est dans le lien, c’est-à-dire ailleurs.
  • 19. Parenthèse Si on va par là, un like Facebook est sûrement enregistré avec le nom de celui qui a cliqué, le moment précis où le clic est intervenu, et la chose qui a été ‘appréciée’ par l’utilisateur. Il y a clairement une intention. En dépit de l’effacement progressif de la différence entre les outils de création / édition et les outils de consultation de documents, je ne pense pas qu’un like Facebook soit un document. Par contre, pour un tweet, la question se pose.
  • 20. Reprenons l’exemple de twitter. Voici un tweet standard, essentiellement tourné vers l’extérieur.
  • 21. Détaillons rapidement son contenu : ‘lagayascienza’ est le pseudonyme de la personne qui a écrit le tweet.
  • 22. Ensuite, le texte du tweet.
  • 23. Ensuite, un lien vers du contenu
  • 24. Puis un hashtag, #Lego. Ce qui porte le sens, ici, c’est le lien. Le reste est mystérieux. Orgueil et Préjugés et Zombies est une réécriture parodique de Jane Austen, et on peut donc supposer que le contenu du lien sera dans la même veine.
  • 25. Le hashtag #Lego nous apprend qu’il sera question de Legos. Il permet de donner un indice sur le contenu du tweet, et de le contextualiser en le faisant apparaître dans les recherches portant sur les Legos On peut donc tagger le contenu extrêmement facilement. Le lien.
  • 26. Si on suit le lien du tweet d’origine, on passe d’abord par un service de raccourcissement d’URL (en l’occurence is.gd), qui redirige vers la page suivante :
  • 27. Il s’agit d’un post sur un weblog personnel. La photo représente une reconstitution parodique du célèbre tableau Nighthawks d’Edward Hopper : les clients du bar du tableau d’origine subissent ici l’attaque de zombies semblables à ceux du film La Nuit des morts- vivants (Night of the Living- Dead) de George Romero. La scène est rendue au moyen de figurines et de briques Lego. On trouve en dessous deux liens.
  • 28. Celui de droite, précédé du mot ‘via’, indique comment le blogueur a découvert l’existence de la photo. Il pointe donc vers un autre site, qui commente la photo.
  • 29. Celui de gauche, intitulé ‘Nighthawks of the Living Dead’, sert de légende à la photo : il donne son titre et pointe vers sa page d’origine.
  • 30. Sous sa photo, l’auteur explique qu’il n’a fait que mener à son terme l’idée proposée par un autre membre de flickr, mais non terminée (WIP = work in progress). Si on suit le lien, on aboutit à la page suivante :
  • 31. Ce dessin a été posté en 2008, et n’a jamais été terminé par son auteur d’origine.
  • 32. Conclusion • Qui est l’auteur ? • Où commence le document ? • Où s’arrête-t-il ? • Comment l’enregistrer ? Dans l’espace physique, le document est linéaire, attribuable et borné. Dans ce contexte, il me paraît malaisé de répondre à des questions censément simples, telles que : - qu’est-ce qui constitue le contenu ? - qu’est-ce qui est original ? - qui est l’auteur ? - où le document commence-t-il et où s’arrête-t-il ? Pourtant, cette incertitude ne gêne en rien les divers ‘auteurs’, ni encore moins les spectateurs / consommateurs. Il n’y a pas de problème pratique. Il y a un problème conceptuel : le web fonctionne très bien. Les problèmes deviennent manifestes lorsque nous cherchons à l’enregistrer.
  • 33. Pages Par rapport à l’intervention précédente, je serai très terre à terre.
  • 34. Persistance ? Dans la doxa, le web est censé s’auto-réguler, et donc s’auto-préserver. Il incomberait à chaque site de mettre en place des moyens de persistance de ses pages. Le terme de ‘persistance’ est utilisé par les archives britanniques du web pour désigner leur démarche consistant à préserver les pages des sites gouvernementaux, même inutilisées. Mais : c’est peu fiable, et totalement arbitraire. Un site peut disparaître du jour au lendemain, simplement parce que plus personne ne veut payer pour l’héberger. Ironie de la situation : ce que vous voyez à l’écran est la page actuelle du RTP-Doc Auparavant, les gens enregistraient les pages sur leur propre ordinateur, pour tout un tas de raisons. Aujourd’hui, ce n’est plus le cas.
  • 35. Archivage individuel • Préserver ce qui pourrait disparaître • Un archivage de ressources, et non de documents • Enregistrement d’une cristallisation à l’instant t A vieilli : c’est ce qu’on faisait dans les années 90. Aujourd’hui, on fait avec des favoris, voire avec des outils de bookmarking (type delicio.us). Montre bien la nature du net : ce qu’on enregistre va changer ou disparaître. On garde la ressource ou un snapshot du document. Dans tous les cas, il faudra redocumentariser.
  • 36. Par exemple, le 19 novembre dernier, Jean-François Copé a signé une tribune dans Slate sur la question de l’illettrisme. Cette tribune a été publiée avec une faute à ‘illettrisme’ dans le titre. La faute a été corrigée près de deux heures après la publication, ce qui a laissé le temps à beaucoup de gens, moi compris, de faire une capture d’écran.
  • 37. Un exemple de démarche individuelle collectivisée : The Internet Archaeology Né en réaction à la fin de geocities en octobre 2009, qui a effectivement entraîné la disparition de nombreux sites ‘antiques’ Sont confrontés à des problématiques d’archivage (We ask that users provide at minimum the approximate date and source of the image.) Il y a quelque chose de la société savante.
  • 38. On peut débattre de la valeur esthétique des choses qui sont préservées, évidemment. Dans tous les cas, ce type d’archivage préserve les ressources, mais pas l’expérience utilisateur.
  • 39. Screencast Pour préserver l’expérience utilisateur, on en vient à faire du screencast. On a vu la semaine dernière les avantages et les inconvénients : - pas besoin d’émuler une expérience utilisateur avec un crawler, puisque c’est effectivement un utilisateur qui enregistre son parcours de navigation - mais : on garde la profondeur mais on perd l’interactivité.
  • 40. Le web comme corpus A l’autre bout du spectre, on trouve l’idée d’utiliser le web comme un corpus. L’idée intéresse énormément les linguistes, vu le coût que représente la constitution d’un corpus classique. Les démarches peuvent être très diverses : récupérer des n-grammes, constituer des corpus thématiques pour l’entraînement d’algos d’analyse syntaxique, etc. Il existe même des corpus constitués et tenus à jour automatiquement, à partir de flux RSS. Mais : textuel uniquement. Nettoyage très brutal. Aplatissement total et irrémédiable du contenu de la page. Comment faire pour préserver la profondeur ?
  • 41. Faut-il conserver toutes les données ? Wikipedia, qui conserve les données d’édition de toutes ses pages, toutes les versions successives, etc. En septembre dernier, à l’occasion de la conférence dConstruct, James Bridle a décidé d’imprimer les 12.000 modifications effectuées sur la page Wikipedia « Iraq War », entre décembre 2004 et novembre 2009. Le résultat est plus ou moins de la taille d’une encyclopédie classique. Enfin ! Une archive qui fonctionne, complète ! Imprimer ces données, leur donner une existence physique, permet de retrouver le sens des proportions et du ridicule. Si jamais on devait archiver sur papier, on ferait un tri. Pourquoi ne pas faire ce tri pour une archive numérique ?
  • 42. Facebook, conscient de l’ambiguité de sa position, et désireux de donner à ses utilisateurs un os à ronger, redonne aux gens la place de l’archiviste en les incitant à télécharger l’ensemble de leur activité à des fins d’archivage. L’annonce est venue début octobre dernier, au même moment que Facebook Places. Symboliquement, ils rendent aux personnes le contrôle sur leurs données. Les gens se trouvent avec un export de BDD qui n’a strictement rien à voir avec leur expérience de Facebook. Les données, une fois sorties de Facebook, n’ont pratiquement aucune valeur pour l’utilisateur. Facebook n’est pas la somme des données que les gens y déposent. Facebook est un service.
  • 43. Conclusion • Le web n’est accessible qu’au travers de la médiation de la page • Enregistrer la page entraîne une perte d’information Chaque méthode enregistre l’un ou l’autre aspect du web, en fonction des objectifs poursuivis, mais aucune ne parvient à rendre compte de ce qu’est le web dans son intégralité. L’objet digital (le web) est converti en analogique (page) pour que nous puissions y accéder, et c’est l’expérience produite par ces pages qu’on enregistre alors - essayer d’enregistrer le web revient à filmer un écran. Par exemple, pour la recherche, on se trouve face à deux possibilités, dont aucune n’est satisfaisante : - soit on utilise Google et le web lui-même, et on obtient des résultats impossibles à reproduire, puisqu’obtenus sur un corpus non délimité et figé - ce qui est quand même ennuyeux, sur un plan scientifique et sur un plan commercial. - soit on délimite un corpus d’étude, et on se trouve avec un objet d’étude qui a perdu la majeure partie des propriétés du web. Et en tout cas il me semble qu’on ne dispose pas encore d’une méthode permettant de rendre compte des aspects les plus originaux et les plus caractéristiques du web.
  • 44. Données On voudrait accéder au web ‘en soi’, et c’est la promesse actuelle.
  • 45. Le web sémantique ? Au cours de la décennie écoulée, la promesse du web sémantique a souvent été faite : dans l’avenir, les ontologies nous permettraient d’organiser tout le contenu dispersé sur le web, de transformer l’information en connaissance.
  • 46. Le web syntaxique (pour l’instant au moins) Problème : le web sémantique est très coûteux à mettre en oeuvre, très contraignant, et il reste donc pour l’instant réservé à des applications très précises et délimitées. Ca n’empêche pas le web de s’organiser. Google et la SEO ont forcé les choses à s’organiser.
  • 47. Des liens dans le langage Sur twitter, les contraintes techniques obligent à utiliser des URL comme des symboles linguistiques. Le lien est la matérialisation de l’intention. Avec les liens et les tags, twitter a épuré
  • 48. Du langage dans les liens Cliquez <a>ici</a> pour en savoir plus Plus d’informations sur <a>Laurent Gbagbo</a> Google a forcé les gens à expliciter le contenu de leurs liens, faisant de tout webmaster capable un annotateur - et transformant ainsi indirectement le texte plat du web en texte complexe, relié, structuré.
  • 49. Deep-linking Un problème sans doute plus anecdotique pour l’instant, mais qui est appelé à devenir plus prégnant - les liens profonds. Youtube, maintenant le NYT et les blogs sous WordPress.
  • 50. Le web de données Le web of data, ce sont des données, et des services destinés à explorer ces données. Exemple par excellence : twitter Ci-dessus, par exemple, We Read We Tweet, un mash-up des API du NY Times, de twitter, et de Google Maps. Les arcs relient la localisation d’un tweet avec les lieux évoqués dans les articles du NYT vers lesquels les tweets renvoient. Mais aussi Amazon, yelp, etc. Des services permettent d’accéder à ces ressources, créant des documents à la volée.
  • 51. Sur le web of data, les internautes accèdent aux données grâce à des services et des applications. Par exemple l’application de visualisation créée par les Français d’OWNI pour la dernière fuite de Wikileaks.
  • 52. Un contenu, plusieurs sites Qu’est-ce qui rend un document unique s’il est reproduit à l’infini ? Qu’est-ce qui différencie le plagiat de la citation ? L’attribution ? Mais s’il n’y a pas d’auteur ? La répétition - citation / scraping. Comment distinguer ce qui est pertinent (citation, illustration, blog post, etc.) de ce qui ne l’est pas ? Pour un humain, c’est faisable. Pour une machine, il faudrait réussir à lier automatiquement contenu, auteur, et adresse web (= ces trois données sont-elles cohérentes ?)
  • 53. Public, collectif, privé • Privé = ce qui est sur notre ordinateur • Collectif = intranet, outils collaboratifs • Public = ce qui est accessible à tous En 2006, l’équipe de recherche RTP-Doc définissait trois zones peuplées de documents numériques. Où en est-on, en 2010 ?
  • 54. Privé ? Mais qu’est-ce qui est encore sur notre ordinateur ? Google Docs, Dropbox, synchro desktop / laptop / iphone… Pour ma part, je panique si un fichier n’est pas encore synchronisé, et qu’il se trouve à un seul endroit. Si je peux encore lui donner une existence physique, je suis paniqué. Je sais qu’on peut me le voler, que je peux le perdre, qu’il peut être détruit.
  • 55. Semi-public ? A première vue, Facebook semble plutôt être un changement quantitatif qu’un changement qualitatif. On est impressionné par l’échelle du changement. Mais si on peut être condamné en justice pour des propos tenus sur Facebook, alors on n'est plus du tout dans le privé. Facebook est dans une position particulière et très délicate : ses centaines de millions d’utilisateurs lui ont confié volontairement des données très personnelles, qui demeuraient traditionnellement dans la sphère privée (photographies) ou restaient cantonnées au collectif. Ce sont précisément les données auxquelles les publicitaires n’ont pas accès, et qu’ils essaient d’établir par des méthodes d’échantillonnage, d’études, etc. La position est délicate, parce que les utilisateurs s’inquiètent périodiquement de ce qu’ils ont laissés trop de données en possession de Facebook. Facebook ne peut pas donner aux utilisateurs ce qu’ils veulent, c’est-à-dire un espace réellement privé-collectif, plutôt que collectif-public, parce que c’est comme ça que Facebook gagne son argent.
  • 57. Spécificités nationales Autre facteur d’hétérogénéité - le web présente des spécificités nationales qui vont très au- delà de l’anecdotique. Le succès d’Orkut au Brésil. L’incapacité d’eBay à s’implanter en Asie - Yahoo Auctions au Japon, Tao Bao en Chine. En particulier, tous les pans du web asiatique (en particulier chinois et japonais) sont extrêmement isolés. Les Chinois doivent composer avec ‘the great firewall of China’. Leur web se développe très différemment du nôtre. Il y a des différences culturelles très fortes. Ils ont par exemple de gigantesques forums sur lesquels ils échangent des normes ISO piratées en échange de travail scolaire. Ils essaient absolument d’empêcher les non-Chinois d’y participer - ils veulent préserver ce qu’ils ont de l’attention des occidentaux - attention qui finirait, à force de tractations diplomatiques, par déchaîner sur eux les foudres des autorités chinoises.
  • 58. Gala-Kei La barrière linguistique se double d’une barrière sociale : les japonais ont des sites très pauvres techniquement afin de les rendre accessibles sur n’importe quel téléphone portable. Ces frontières techniques tendent à régresser (iPhone & iPad changent la donne au Japon, le web chinois s’ouvre timidement), mais tout cela reste sans effet sur l’isolement culturel.
  • 59. Des robots et des hommes En attendant le web sémantique, il faut tout de même trouver des solutions pour organiser la masse de contenus produits en permanence sur le web. Ce travail revient à des algorithmes et aux internautes.
  • 60. Sur Google News, le rédac chef est l’algorithme. Il y a parfois des bizarreries (météo france), mais globalement ça marche pas mal.
  • 61. Sur reddit, les visiteurs sont, individuellement et consciemment, leur propre rédac chef et, indirectement, ceux de tous les autres visiteurs du site. Le point intéressant est que peu d’entre eux prennent le temps de participer - ceux qui participent ont donc un poids très important.
  • 62. Le Huffington Post se targue d’être le premier organe de presse publié uniquement sur le web (pure player) à atteindre l’équilibre financier. Comment ont-ils fait ? Une partie de la réponse, au moins. Sur le Huffington Post, les visiteurs sont, collectivement et sans le savoir, les rédac chef. Leurs clics et le temps qu’ils passent sur chaque page déterminent le positionnement du contenu de la une, y compris les top stories. Les ajustements ont lieu en temps réel. Ils envisagent d’adapter le contenu de la une en fonction de la situation géographique. du visiteur, aussi.
  • 63. Content Curators L’autre moyen pour remettre du sens, le content curator. Le terme a fait florès dans la presse technologique ces derniers mois. Une bonne définition : «Un “Content Curator” est quelqu’un qui continuellement trouve, regroupe, organise et partage le contenu en ligne le plus pertinent sur un sujet spécifique.» Par exemple, je m’intéresse au cinéma des pays nordiques. Malheureusement, je ne parle aucune langue scandinave, et les informations sont difficiles à trouver en français ou en anglais.
  • 64. Quand Satoshi Kon est mort, de manière très subite, les détails ont émergé au compte- goutte : il est mort, il est mort du cancer, il est mort d’un cancer du pancréas, voilà où on en était après 24h. Et puis est arrivé une longue lettre qu’il avait rédigé dans les jours précédant sa mort. C’est sa femme qui l’a postée, en japonais. Il a ensuite fallu qu’un blogueuse la traduise en anglais, sans la moindre autorisation, pour qu’elle se mette à circuler sur le net anglophone, avant d’atteindre la France par le biais de twitter. Pour que cette lettre parvienne jusqu’à moi, il aura fallu deux jours. C’est court, et c’est aussi très long.
  • 65. Conclusion • Le web est fragmentaire • Le circulation de l’information est sociale La • Le web est une barrière de corail Ca me paraît extrêmement symptomatique de la situation. : techniquement, tout est connecté. Le net est uniforme. En pratique, le net est fragmentaire. Les processus de circulation des informations sont (a) locaux et (b) sociaux, c’est-à-dire, dans l’ensemble, étonnamment archaïques. Reformulons : Des processus sociaux restent nécessaires pour accéder à l’information. Le web n’est pas sémantique : il est pragmatique. C’est ce qui nous échappe pour l’instant lorsque nous essayons d’en faire des documents. Le « nettoyage » opéré par les outils de crawl (par ex. Ceux présentés ici par Exalead l’an dernier) transforme une page web en document manipulable, car correspondant au modèle classique du document. Il me semble que c’est une erreur si l’objectif est de comprendre le web. Il me semble qu’en nettoyant, en se focalisant sur ce que nous reconnaissons comme « le contenu », on évacue ce qui fait que le web est le web. Enregistré, le document web est comme une branche de corail arrachée à la barrière - il meurt.