Supports pour un tutorial sur les nouvelles structures de documents et leur capacité à faire circuler les métadonnées et construire un web socio-sémantique.
Tutoriel délivré au congrès RSI, Deauville, septembre 2007.
2. Données et documents
● document : destiné à la lecture
● données : informations pouvant être
« traitées » (calcul, sélection,
agrégation, découverte, indexation,...)
● le numérique produit un
rapprochement des données et des
documents
3. Données -> document
● établir une
facture
● widget météo
● données : XML
● document :
– html
– pdf
– image (svg)
4. RSS
● <item>
● <title>La répression des manifestations en Birmanie a fait quatre
morts</title>
● <link>http://www.lemonde.fr/web/article/0,1-0@2-3216,36-
959582,0.html?xtor=RSS-3208</link>
● <description>Les forces de l'ordre ont chargé les manifestants, mercredi à
Rangoun. Le Conseil de sécurité de l'ONU doit se réunir
d'urgence.</description>
● <pubDate>Wed, 26 Sep 2007 16:58:08 GMT</pubDate>
● <guid isPermaLink=quot;falsequot;>http://www.lemonde.fr/web/article/0,1-0@2-
3216,36-959582,0.html?xtor=RSS-3208</guid>
● <enclosure
url=quot;http://medias.lemonde.fr/mmpub/edt/ill/2007/09/26/h_1_ill_959654_birma
nie.jpgquot; type=quot;image/jpegquot; length=quot;2502quot;></enclosure>
● </item>
5. Innovation ascendante
● simplicité du format
● usage simple (l'alerte de nouveautés)
● extensibilité : (X)ML
● facilité de créer des parseurs pour
intégrer dans des documents
dynamiques
● existence d'agrégateurs
6. Producteur de flux
● intérêt :
– faible utilisation de la bande passante
– alerter sur les nouveautés de son site
– attirer des lecteurs (économie de
l'attention)
– insertion de la publicité dans les flux
8. Channel
● <?xml version=quot;1.0quot; encoding=quot;iso-8859-1quot;?><rss version=quot;2.0quot;
xmlns:rdf=quot;http://www.w3.org/1999/02/22-rdf-syntax-ns#quot;>
● <channel>
●
● <title>Le Monde.fr : A la une</title>
● <link>http://www.lemonde.fr</link>
● <description>Toute l'actualité au moment de la connexion</description>
● <copyright>Copyright Le Monde.fr</copyright>
● <image><url>http://medias.lemonde.fr/mmpub/img/lgo/lemondefr_rss.gif</url
><title>Le Monde.fr</title><link>http://www.lemonde.fr</link></image>
● <pubDate>Wed, 26 Sep 2007 17:05:25 GMT</pubDate>
9. Enclosure (Podcast)
● lier à un objet numérique (son, vidéo,...)
● <item>
<title>Musik Please -Hors Série- Spécial 25 ans de Hip Hop</title>
<link>http://www.musikplease.com/index.php</link>
<description>Une playlist thématique, histoire de tourner
ensemble quelques pages de l'histoire musicale du hip hop.
[...]</description>
<itunes:author>Pierre Fosco</itunes:author>
<itunes:subtitle>Une playlist thématique [...]</itunes:subtitle>
<itunes:explicit>no</itunes:explicit>
<itunes:keywords>podcast,blog</itunes:keywords>
<pubDate>Thu, 20 Sep 2007 13:30:12 +0200</pubDate>
<enclosure
url=quot;http://pauvcast.net/explorer/podcasts/musikplease/2007/
musikpleasehs2.mp3quot; length=quot;11766717quot;
type=quot;audio/mpegquot; />
<guid isPermaLink=quot;falsequot;>musikpleasehs2.mp3</guid>
<dc:creator>Pierre Fosco</dc:creator>
</item>
10. La glu du web 2.0
● nouvelles, flux, blogs
● playlists, délinéarisation
● espaces de nom (faire cohabiter
plusieurs applications avec la même
architecture de document)
● personnalisation de l'information
● déterritorialisation (accès à l'unité à
partir d'annotations externes)
– digg, del.icio.us, ...
11. Du document aux données
● Extraction de connaissance
● Analyse linguistique et sémantique
● indexation ->
– accès aux documents
– appariement
● découpage de scènes (vidéo)
● reconnaissance d'objets (image)
12. Encoder l'information dans
le document
● distinction entre le document logique
(structure de document)
● le document lisible par un humain
(réalisation)
● la (les) feuilles de style
● trouver une forme d'encodage qui
facilite l'extraction par des robots
– de l'information
– des métadonnées
13. Microformats
● hCard, pour la description des personnes et organisations
● <div class=quot;vcardquot;>
<div class=quot;fn orgquot;>Wikimedia Foundation Inc.</div>
<div class=quot;adrquot;>
<div class=quot;street-addressquot;>200 2nd Ave. South #358</div>
<div>
<span class=quot;localityquot;>St. Petersburg</span>,
<abbr class=quot;regionquot; title=quot;Floridaquot;>FL</abbr>
<span class=quot;postal-codequot;>33701-4313</span>
</div>
<div class=quot;country-namequot;>USA</div>
</div>
<div>Phone: <span class=quot;telquot;>+1-727-231-0101</span></div>
<div>Email:
<span class=quot;emailquot;>info@wikimedia.org</span></div>
<div>
<span class=quot;telquot;><span class=quot;typequot;>Fax</span>:
<span class=quot;valuequot;>+1-727-258-0207</span></span>
</div>
</div>
14. Ce que sont les µf
● un moyen de penser les données dans
le document
● des principes de design pour les
données
● adapté à « la sémantique du monde
réel du XHTML » (lowercase semantic
web)
● un support pour la création d'outils de
lecture et d'extraction (cf Operator)
15. ce que ne sont pas les µf
● un nouveau langage
● une obligation pour les designer à
changer toutes leurs pratiques
● une panacée pour toutes les
taxonimies, ontologies,...
● une approche entièrement nouvelle qui
jetterait à la poubelle tout ce qui
marche actuellement
– http://microformats.org
16. Principes des µf
● résoudre des problèmes spécifiques
● partir du plus simple possible
● un design pour les humains en premier,
les machines ensuite
● réutilisation de blocs existant,
modularité, capacité à s'insérer
● permet des développements et des
services décentralisés
17. Web 2.0
● Un concept marketing
● Qui s'appuie sur des
changement réels du web
– innovations techniques
– modèle de participation sociale
– changement dans les formes de
valorisation économique
● C'est la conjonction de ces
trois renouvellements qui
fait le Web 2.0
18. La conversation
● les documents servent de support
à des relations sociales
● on parle d'autres documents (blogs)
● on sélectionne des documents... et on
le fait savoir (taggage, folksonomie)
● lecture coopérative
● priorité à l'usage (innovations
ascendante, « pro-am révolution » )
19. Web sémantique
● Rendre l'information disponible sur le
web utilisable directement par des
machines
● pour améliorer le service de filtrage ou
d'extraction de connaissances
proposé aux utilisateurs
● Un projet décentralisé, à l'image du web
● ... et fédérateur (visant l'ensemble du
savoir)
20. Quelques caractéristiques
● construire des descriptions sémantiques utilisables
par des communautés à l'intérieur du web
● Le web sémantique s'appuie sur une forte
normalisation
– des échanges (SOAP, WSDL, XML)
– des langages de descriptions (RDF, OWL)
– des langages de requêtes et d'inférence
(SPARQL)
● Il est nécessaire de consacrer une partie de
l'énergie de production de documents à organiser
des accès sémantiques (métadonnées,
construction de schémas de description et
d'ontologies)
21. Web 2.0 et Web
sémantique
● utiliser les usages ● modéliser les
simples, mais cumulés, documents et leur accès
des lecteurs ● construire des outils
● modélisation répartis et partagés
statistiques par l'usage – sémantiques (ontologies,
(cf correcteur orthographique de schémas)
Google) – ressources
● indexation sociale ● rigueur dans la
description (lecture par
● appariement statistique machine, IA)
(notamment pour la
publicité) ● délégation in fine à la
machine (échanges
multi-agents)
22. Web socio-sémantique
● Fournir des outils (sémantiques et
logiciels de traitement) qui sauront
prendre place dans l'existant
● Production coopérative de sens
(Wikipedia, catalogues coopératifs,
bibliothèques numériques,
cyberinfrastructures)
● Plusieurs méthodes pour diminuer la
pression cognitive sur le lecteur
(sélection, résumé, émergence,
ou conseil, commentaire, réseau social ?)
23. Un web de métadonnées
● Metadata is machine understandable information
about web resources or other things Tim Berners-Lee
● metadata is data les métadonnées sont enregistrées
comme des données, et on peut à nouveau faire des
assertions sur elles
● The architecture is of metadata represented as a set
of independent assertions. chaque assertion est
indépendante
● As much as possible of the syntax and semantics
should be able to be acquired by reference from a
metadata document.
● Un web de métadonnées
http://w3c.org/DesignIssues/Metadata
24. Métadonnées
● Données permettant de décrire
d'autres documents ou données
● Exploitables par des robots
● Utilisées pour classer, repérer,
organiser l'information
● Exemple : les fiches catalographiques
des bibliothèques
● Exemple : les tag ID3 des fichiers mp3
26. Dublin Core
● 1. Title ● 8. Type
● 2. Creator ● 9. Format
● 3. Subject ● 10. Identifier
● 4. Description ● 11. Source
● 5. Publisher ● 12. Language
● 6. Contributor ● 13. Relation
● 7. Date
27. Images
● Données EXIF
– données physiques
– intégrées directement dans l'image par les
appareils numériques
● Données XMP
– données physiques et documentaires
– usage lié aux logiciels de traitement
d'images (Photoshop, Acrobat,...)
– XML : données extensives
– http://www.adobe.com/products/xmp/
28. Son
● Nécessité de
contextualiser les
documents sonores
● Nouveaux enjeux de
l'industrie musicale
● appariement
(Pandora) ou
pression sociale
(lastFM)
29. RDF
● RDF : Resource
Description
Framework
● Un langage de graphe
● indépendance des
assertions
● utilisé pour les
métadonnées
31. Assertions
● En RDF, chaque assertion est
indépendante
● on la représente par un triplet
● Sujet : à propos de quoi (about)
● Prédicat : quelle relation
● Objet : quel renseignement sur cette
relation
32. Exemple
● Hernani est une pièce de théâtre dont
l'auteur est Victor Hugo
● Hernani est une pièce de théâtre
– Hernani : sujet
– est une : prédicat
– pièce de théâtre : objet
● Hernani a pour auteur Victor Hugo
– Hernani : sujet
– auteur : prédicat
– Victor Hugo : objet
33. RDF-A
● Intégrer les triplets RDF dans du code
HTML
● <p class=quot;contactinfoquot; about=quot;http://example.org/staff/joquot;>
My name is
<span property=quot;contact:fnquot;>Jo Smith</span>.
I'm a
<span property=quot;contact:titlequot;>
distinguished web engineer
</span>
at
<a rel=quot;contact:orgquot; href=quot;http://example.orgquot;>
Example.org
</a>.
You can contact me
<a rel=quot;contact:emailquot; href=quot;mailto:jo@example.orgquot;>
via email
</a>
</p>
35. URI
● Chaque élément d'une assertion
(triplet) est représenté par un URI
● Uniform Ressource Identifier
● Désigner des documents, des modes
d'organisation (schémas, ontologies)
● exemple : que veut dire titre en DC
● http://dublincore.org/2006/12/18/dces.rdf#title
36. URL
● Uniform ressource Locator
● Notation mondiale pour retrouver un
document (nappe de restaurant)
● choisir une dénomination claire,
mémorisable
● le « nom de domaine » est un choix
pour organiser l'espace mental
37. URL ->architecture de
l'information
● éviter les URL trop longs
– http://bbf.enssib.fr/sdx/BBF/frontoffice/2007/03/document.xsp?id=bbf-2007-03-0005-
001/2007/03/fam-dossier/dossier&statutMaitre=non&statutFils=non
● ne pas mélanger la désignation du
document et la méthode technique
utilisée pour le retrouver
– http://monsite.com/article.php?534
● clarté des URL (marque de confiance)
– http://tinyurl.com/a45r67
● référencement
38. URL rewriting
● Organiser son site pour pouvoir
nommer les documents (modèle de la
classification)
● Diffuser des versions stables des URL
● Ré-écrire les URL à l'entrée du site
● Utiliser un « routeur » interne pour
orienter vers les documents
39. Du document aux relations
● XML : balisage sémantique
● RDF : relations sémantiques
● Lecture : interprétation par un humain
● Extraction : transformer l'information
(GRDDL) en utilisant au mieux le
balisage (microformats, RDF-A)
● Requêtes logiques : extraire un « sous-
graphe » en tenant compte des définitions des
relations logiques (prédicats) – langage
SPARQL
40. GRDDL
● Indiquer la présence de données à
l'intérieur d'un document
(microformats, RDF-a,...)
● Indiquer l'URI d'un programme
susceptible de transformer ces données
en un fichier RDF
● Glanage : ré-utilisation secondaire des
informations diffusées
41. Cycle de vie du document
● maîtriser les outils de création et de
gestion,
● faciliter les échanges et la diffusion,
● garantir l’accessibilité et la
conservation.
● -> de la création à l'archivage (et
éventuellement la destruction)
42. Enjeux
● Organisation : une seule chaîne de
traitement pour tous les formats (papier,
web, mobile,...)
● Culture commune : formation aux outils,
compréhension du devenir des documents –
anti-conversation ?
● Economie : faire face à la masse des
documents (temps de lecture, synthèse)
● Patrimoine : conserver la mémoire
numérique et numériser la mémoire
43. Référence
● Pouvoir se référer à un document
numérique
● A tout moment (du présent à
l'archivage -> traçabilité documentaire)
● Document et preuve (B2B, contrats)
● Pérennité, intégrité, sécurité
44. Questions
● Normalisation (technique, règles de
conservation)
● De la base de données au document
(du transactionnel au pérenne)
● Signature et horodatage
● Support de stockage, de diffusion,
d'archivage
● => Architectes de l'information
45. Redocumentarisation
● Les documents numériques
ont besoin de clés de
description complexes (et
d'outils d'interprétation de
cette complexité)
● le continuum numérique
permet d'associer traces et
documents aux relations
humaines
● organiser la gouvernance de
l'univers documentaire
numérique (sélection,
validation, conservation,...)
46. Recherche
● RTP-Doc -> Roger T. Pédauque
● Réseau coopératif de la recherche sur
le document numérique (170
chercheurs francophones)
● Trois angles :
– forme : relation anthropologique à la
lecture
– texte : interprétation, classification
– médium : relation et organisation sociale
47. Enseignement
● Nécessité de formations assurant la synthèse
des trois aspects du DN
● Nouveaux corps de métiers (archivage
électronique, cycle de vie, architectes de
l'information, ingénierie documentaire,
projection et plannification)
● Formation permanente
● Université de Caen + CNAM Paris
● Master « Document numérique » à la
rentrée 2008
48. Roger T. Pédauque
● Comme l'ère industrielle a été marquée par
l'interchangeabilité des parties, la société de
l'information serait caractérisée par la possibilité
de ré-utiliser l'information (p.71)
● Un document ne serait finalement qu'un contrat
entre les hommes dont les qualités
anthropologiques (lisibilité, perception),
intellectuelles (compréhension, assimilation) et
sociales (sociabilité, intégration) fonderait une
part de leur humanité, de leur capacité à vivre
ensemble. Dans cette perspective, le numérique
n'est qu'une modalité de multiplication et
d'évolution de ces contrats.(p. 78)