Document et structure : vers un web socio-sémantique

4 186 vues

Publié le

Supports pour un tutorial sur les nouvelles structures de documents et leur capacité à faire circuler les métadonnées et construire un web socio-sémantique.
Tutoriel délivré au congrès RSI, Deauville, septembre 2007.

Publié dans : Technologie
0 commentaire
5 j’aime
Statistiques
Remarques
  • Soyez le premier à commenter

Aucun téléchargement
Vues
Nombre de vues
4 186
Sur SlideShare
0
Issues des intégrations
0
Intégrations
34
Actions
Partages
0
Téléchargements
67
Commentaires
0
J’aime
5
Intégrations 0
Aucune incorporation

Aucune remarque pour cette diapositive

Document et structure : vers un web socio-sémantique

  1. 1. Document et structure Tutorial RSI Deauville, le 27 septembre 2007 Hervé Le Crosnier Université de Caen
  2. 2. Données et documents ● document : destiné à la lecture ● données : informations pouvant être « traitées » (calcul, sélection, agrégation, découverte, indexation,...) ● le numérique produit un rapprochement des données et des documents
  3. 3. Données -> document ● établir une facture ● widget météo ● données : XML ● document : – html – pdf – image (svg)
  4. 4. RSS ● <item> ● <title>La répression des manifestations en Birmanie a fait quatre morts</title> ● <link>http://www.lemonde.fr/web/article/0,1-0@2-3216,36- 959582,0.html?xtor=RSS-3208</link> ● <description>Les forces de l'ordre ont chargé les manifestants, mercredi à Rangoun. Le Conseil de sécurité de l'ONU doit se réunir d'urgence.</description> ● <pubDate>Wed, 26 Sep 2007 16:58:08 GMT</pubDate> ● <guid isPermaLink=quot;falsequot;>http://www.lemonde.fr/web/article/0,1-0@2- 3216,36-959582,0.html?xtor=RSS-3208</guid> ● <enclosure url=quot;http://medias.lemonde.fr/mmpub/edt/ill/2007/09/26/h_1_ill_959654_birma nie.jpgquot; type=quot;image/jpegquot; length=quot;2502quot;></enclosure> ● </item>
  5. 5. Innovation ascendante ● simplicité du format ● usage simple (l'alerte de nouveautés) ● extensibilité : (X)ML ● facilité de créer des parseurs pour intégrer dans des documents dynamiques ● existence d'agrégateurs
  6. 6. Producteur de flux ● intérêt : – faible utilisation de la bande passante – alerter sur les nouveautés de son site – attirer des lecteurs (économie de l'attention) – insertion de la publicité dans les flux
  7. 7. Architecture Widgets Data is power
  8. 8. Channel ● <?xml version=quot;1.0quot; encoding=quot;iso-8859-1quot;?><rss version=quot;2.0quot; xmlns:rdf=quot;http://www.w3.org/1999/02/22-rdf-syntax-ns#quot;> ● <channel> ● ● <title>Le Monde.fr : A la une</title> ● <link>http://www.lemonde.fr</link> ● <description>Toute l'actualité au moment de la connexion</description> ● <copyright>Copyright Le Monde.fr</copyright> ● <image><url>http://medias.lemonde.fr/mmpub/img/lgo/lemondefr_rss.gif</url ><title>Le Monde.fr</title><link>http://www.lemonde.fr</link></image> ● <pubDate>Wed, 26 Sep 2007 17:05:25 GMT</pubDate>
  9. 9. Enclosure (Podcast) ● lier à un objet numérique (son, vidéo,...) ● <item> <title>Musik Please -Hors Série- Spécial 25 ans de Hip Hop</title> <link>http://www.musikplease.com/index.php</link> <description>Une playlist thématique, histoire de tourner ensemble quelques pages de l'histoire musicale du hip hop. [...]</description> <itunes:author>Pierre Fosco</itunes:author> <itunes:subtitle>Une playlist thématique [...]</itunes:subtitle> <itunes:explicit>no</itunes:explicit> <itunes:keywords>podcast,blog</itunes:keywords> <pubDate>Thu, 20 Sep 2007 13:30:12 +0200</pubDate> <enclosure url=quot;http://pauvcast.net/explorer/podcasts/musikplease/2007/ musikpleasehs2.mp3quot; length=quot;11766717quot; type=quot;audio/mpegquot; /> <guid isPermaLink=quot;falsequot;>musikpleasehs2.mp3</guid> <dc:creator>Pierre Fosco</dc:creator> </item>
  10. 10. La glu du web 2.0 ● nouvelles, flux, blogs ● playlists, délinéarisation ● espaces de nom (faire cohabiter plusieurs applications avec la même architecture de document) ● personnalisation de l'information ● déterritorialisation (accès à l'unité à partir d'annotations externes) – digg, del.icio.us, ...
  11. 11. Du document aux données ● Extraction de connaissance ● Analyse linguistique et sémantique ● indexation -> – accès aux documents – appariement ● découpage de scènes (vidéo) ● reconnaissance d'objets (image)
  12. 12. Encoder l'information dans le document ● distinction entre le document logique (structure de document) ● le document lisible par un humain (réalisation) ● la (les) feuilles de style ● trouver une forme d'encodage qui facilite l'extraction par des robots – de l'information – des métadonnées
  13. 13. Microformats ● hCard, pour la description des personnes et organisations ● <div class=quot;vcardquot;> <div class=quot;fn orgquot;>Wikimedia Foundation Inc.</div> <div class=quot;adrquot;> <div class=quot;street-addressquot;>200 2nd Ave. South #358</div> <div> <span class=quot;localityquot;>St. Petersburg</span>, <abbr class=quot;regionquot; title=quot;Floridaquot;>FL</abbr> <span class=quot;postal-codequot;>33701-4313</span> </div> <div class=quot;country-namequot;>USA</div> </div> <div>Phone: <span class=quot;telquot;>+1-727-231-0101</span></div> <div>Email: <span class=quot;emailquot;>info@wikimedia.org</span></div> <div> <span class=quot;telquot;><span class=quot;typequot;>Fax</span>: <span class=quot;valuequot;>+1-727-258-0207</span></span> </div> </div>
  14. 14. Ce que sont les µf ● un moyen de penser les données dans le document ● des principes de design pour les données ● adapté à « la sémantique du monde réel du XHTML » (lowercase semantic web) ● un support pour la création d'outils de lecture et d'extraction (cf Operator)
  15. 15. ce que ne sont pas les µf ● un nouveau langage ● une obligation pour les designer à changer toutes leurs pratiques ● une panacée pour toutes les taxonimies, ontologies,... ● une approche entièrement nouvelle qui jetterait à la poubelle tout ce qui marche actuellement – http://microformats.org
  16. 16. Principes des µf ● résoudre des problèmes spécifiques ● partir du plus simple possible ● un design pour les humains en premier, les machines ensuite ● réutilisation de blocs existant, modularité, capacité à s'insérer ● permet des développements et des services décentralisés
  17. 17. Web 2.0 ● Un concept marketing ● Qui s'appuie sur des changement réels du web – innovations techniques – modèle de participation sociale – changement dans les formes de valorisation économique ● C'est la conjonction de ces trois renouvellements qui fait le Web 2.0
  18. 18. La conversation ● les documents servent de support à des relations sociales ● on parle d'autres documents (blogs) ● on sélectionne des documents... et on le fait savoir (taggage, folksonomie) ● lecture coopérative ● priorité à l'usage (innovations ascendante, « pro-am révolution » )
  19. 19. Web sémantique ● Rendre l'information disponible sur le web utilisable directement par des machines ● pour améliorer le service de filtrage ou d'extraction de connaissances proposé aux utilisateurs ● Un projet décentralisé, à l'image du web ● ... et fédérateur (visant l'ensemble du savoir)
  20. 20. Quelques caractéristiques ● construire des descriptions sémantiques utilisables par des communautés à l'intérieur du web ● Le web sémantique s'appuie sur une forte normalisation – des échanges (SOAP, WSDL, XML) – des langages de descriptions (RDF, OWL) – des langages de requêtes et d'inférence (SPARQL) ● Il est nécessaire de consacrer une partie de l'énergie de production de documents à organiser des accès sémantiques (métadonnées, construction de schémas de description et d'ontologies)
  21. 21. Web 2.0 et Web sémantique ● utiliser les usages ● modéliser les simples, mais cumulés, documents et leur accès des lecteurs ● construire des outils ● modélisation répartis et partagés statistiques par l'usage – sémantiques (ontologies, (cf correcteur orthographique de schémas) Google) – ressources ● indexation sociale ● rigueur dans la description (lecture par ● appariement statistique machine, IA) (notamment pour la publicité) ● délégation in fine à la machine (échanges multi-agents)
  22. 22. Web socio-sémantique ● Fournir des outils (sémantiques et logiciels de traitement) qui sauront prendre place dans l'existant ● Production coopérative de sens (Wikipedia, catalogues coopératifs, bibliothèques numériques, cyberinfrastructures) ● Plusieurs méthodes pour diminuer la pression cognitive sur le lecteur (sélection, résumé, émergence, ou conseil, commentaire, réseau social ?)
  23. 23. Un web de métadonnées ● Metadata is machine understandable information about web resources or other things Tim Berners-Lee ● metadata is data les métadonnées sont enregistrées comme des données, et on peut à nouveau faire des assertions sur elles ● The architecture is of metadata represented as a set of independent assertions. chaque assertion est indépendante ● As much as possible of the syntax and semantics should be able to be acquired by reference from a metadata document. ● Un web de métadonnées http://w3c.org/DesignIssues/Metadata
  24. 24. Métadonnées ● Données permettant de décrire d'autres documents ou données ● Exploitables par des robots ● Utilisées pour classer, repérer, organiser l'information ● Exemple : les fiches catalographiques des bibliothèques ● Exemple : les tag ID3 des fichiers mp3
  25. 25. Métadonnées documentaires ● 4 types d'informations – Contenu : titre, sujet, description, source, langage, relation, couverture – Propriété intellectuelle : créateur, éditeur, contributeur, droits – Matérialisation : date, type, format, identifiant. – Géolocalisation : données GPS, thésaurus des villes et régions
  26. 26. Dublin Core ● 1. Title ● 8. Type ● 2. Creator ● 9. Format ● 3. Subject ● 10. Identifier ● 4. Description ● 11. Source ● 5. Publisher ● 12. Language ● 6. Contributor ● 13. Relation ● 7. Date
  27. 27. Images ● Données EXIF – données physiques – intégrées directement dans l'image par les appareils numériques ● Données XMP – données physiques et documentaires – usage lié aux logiciels de traitement d'images (Photoshop, Acrobat,...) – XML : données extensives – http://www.adobe.com/products/xmp/
  28. 28. Son ● Nécessité de contextualiser les documents sonores ● Nouveaux enjeux de l'industrie musicale ● appariement (Pandora) ou pression sociale (lastFM)
  29. 29. RDF ● RDF : Resource Description Framework ● Un langage de graphe ● indépendance des assertions ● utilisé pour les métadonnées
  30. 30. Représentation XML ● <?xml version=quot;1.0quot;?> <rdf:RDF xmlns:rdf=quot;http://www.w3.org/1999/02/22-rdf-syntax-ns#quot; xmlns:dc=quot;http://purl.org/dc/elements/1.1/quot; xmlns:exterms=quot;http://www.example.org/terms/quot;> <rdf:Description rdf:about=quot;http://www.example.org/index.htmlquot;> <exterms:creation-date>August 16, 1999</exterms:creation-date> <dc:language>en</dc:language> <dc:creator rdf:resource=quot;http://www.example.org/staffid/85740quot;/> </rdf:Description> </rdf:RDF>
  31. 31. Assertions ● En RDF, chaque assertion est indépendante ● on la représente par un triplet ● Sujet : à propos de quoi (about) ● Prédicat : quelle relation ● Objet : quel renseignement sur cette relation
  32. 32. Exemple ● Hernani est une pièce de théâtre dont l'auteur est Victor Hugo ● Hernani est une pièce de théâtre – Hernani : sujet – est une : prédicat – pièce de théâtre : objet ● Hernani a pour auteur Victor Hugo – Hernani : sujet – auteur : prédicat – Victor Hugo : objet
  33. 33. RDF-A ● Intégrer les triplets RDF dans du code HTML ● <p class=quot;contactinfoquot; about=quot;http://example.org/staff/joquot;> My name is <span property=quot;contact:fnquot;>Jo Smith</span>. I'm a <span property=quot;contact:titlequot;> distinguished web engineer </span> at <a rel=quot;contact:orgquot; href=quot;http://example.orgquot;> Example.org </a>. You can contact me <a rel=quot;contact:emailquot; href=quot;mailto:jo@example.orgquot;> via email </a> </p>
  34. 34. Le « cake » du web sémantique
  35. 35. URI ● Chaque élément d'une assertion (triplet) est représenté par un URI ● Uniform Ressource Identifier ● Désigner des documents, des modes d'organisation (schémas, ontologies) ● exemple : que veut dire titre en DC ● http://dublincore.org/2006/12/18/dces.rdf#title
  36. 36. URL ● Uniform ressource Locator ● Notation mondiale pour retrouver un document (nappe de restaurant) ● choisir une dénomination claire, mémorisable ● le « nom de domaine » est un choix pour organiser l'espace mental
  37. 37. URL ->architecture de l'information ● éviter les URL trop longs – http://bbf.enssib.fr/sdx/BBF/frontoffice/2007/03/document.xsp?id=bbf-2007-03-0005- 001/2007/03/fam-dossier/dossier&statutMaitre=non&statutFils=non ● ne pas mélanger la désignation du document et la méthode technique utilisée pour le retrouver – http://monsite.com/article.php?534 ● clarté des URL (marque de confiance) – http://tinyurl.com/a45r67 ● référencement
  38. 38. URL rewriting ● Organiser son site pour pouvoir nommer les documents (modèle de la classification) ● Diffuser des versions stables des URL ● Ré-écrire les URL à l'entrée du site ● Utiliser un « routeur » interne pour orienter vers les documents
  39. 39. Du document aux relations ● XML : balisage sémantique ● RDF : relations sémantiques ● Lecture : interprétation par un humain ● Extraction : transformer l'information (GRDDL) en utilisant au mieux le balisage (microformats, RDF-A) ● Requêtes logiques : extraire un « sous- graphe » en tenant compte des définitions des relations logiques (prédicats) – langage SPARQL
  40. 40. GRDDL ● Indiquer la présence de données à l'intérieur d'un document (microformats, RDF-a,...) ● Indiquer l'URI d'un programme susceptible de transformer ces données en un fichier RDF ● Glanage : ré-utilisation secondaire des informations diffusées
  41. 41. Cycle de vie du document ● maîtriser les outils de création et de gestion, ● faciliter les échanges et la diffusion, ● garantir l’accessibilité et la conservation. ● -> de la création à l'archivage (et éventuellement la destruction)
  42. 42. Enjeux ● Organisation : une seule chaîne de traitement pour tous les formats (papier, web, mobile,...) ● Culture commune : formation aux outils, compréhension du devenir des documents – anti-conversation ? ● Economie : faire face à la masse des documents (temps de lecture, synthèse) ● Patrimoine : conserver la mémoire numérique et numériser la mémoire
  43. 43. Référence ● Pouvoir se référer à un document numérique ● A tout moment (du présent à l'archivage -> traçabilité documentaire) ● Document et preuve (B2B, contrats) ● Pérennité, intégrité, sécurité
  44. 44. Questions ● Normalisation (technique, règles de conservation) ● De la base de données au document (du transactionnel au pérenne) ● Signature et horodatage ● Support de stockage, de diffusion, d'archivage ● => Architectes de l'information
  45. 45. Redocumentarisation ● Les documents numériques ont besoin de clés de description complexes (et d'outils d'interprétation de cette complexité) ● le continuum numérique permet d'associer traces et documents aux relations humaines ● organiser la gouvernance de l'univers documentaire numérique (sélection, validation, conservation,...)
  46. 46. Recherche ● RTP-Doc -> Roger T. Pédauque ● Réseau coopératif de la recherche sur le document numérique (170 chercheurs francophones) ● Trois angles : – forme : relation anthropologique à la lecture – texte : interprétation, classification – médium : relation et organisation sociale
  47. 47. Enseignement ● Nécessité de formations assurant la synthèse des trois aspects du DN ● Nouveaux corps de métiers (archivage électronique, cycle de vie, architectes de l'information, ingénierie documentaire, projection et plannification) ● Formation permanente ● Université de Caen + CNAM Paris ● Master « Document numérique » à la rentrée 2008
  48. 48. Roger T. Pédauque ● Comme l'ère industrielle a été marquée par l'interchangeabilité des parties, la société de l'information serait caractérisée par la possibilité de ré-utiliser l'information (p.71) ● Un document ne serait finalement qu'un contrat entre les hommes dont les qualités anthropologiques (lisibilité, perception), intellectuelles (compréhension, assimilation) et sociales (sociabilité, intégration) fonderait une part de leur humanité, de leur capacité à vivre ensemble. Dans cette perspective, le numérique n'est qu'une modalité de multiplication et d'évolution de ces contrats.(p. 78)

×