Principes de caractérisation des
collaboratoires en SHS et apport du
web socio-sémantique
Manuel Zacklad
(et équipe web so...
Disciplines sollicitées par les
collaboratoires
• La gestion des collaboratoires en SHS (projet Adonis?)
implique de crois...
Objectif de l’exposé
• Proposer une description « originale » des
collaboratoires en SHS
• Introduire la vision du web soc...
Projets de Tech-CICO sur les collaboratoires
• Initiateur de l’approche web socio-sémantique et
recherche ouverte d’inform...
Les collaboratoires des sciences
expérimentales aux SHS
Origine des collaboratoires
• Origine dans le domaine des sciences de la nature et
de la vie pour la mutualisation des don...
Collaboratoires en SHS : numérisation des
archives, des bibliothèques, des productions
intermédiaires de la recherche
• Le...
Trois hypothèses de travail
Première hypothèse de travail : mutation
méthodologique et épistémologique
• La généralisation des collaboratoires en SHS
...
Justification
• Les difficultés de recueil et de partage des corpus en
SHS explique le biais quantitatif de plusieurs disc...
Deuxième hypothèse de travail : nécessité
d’élargir les acceptions du « corpus »
• La problématique des collaboratoires en...
Troisième hypothèse de travail :
importance des approches relevant du web
socio-sémantique
• La conception des collaborato...
Définitions du corpus
A propos des définitions
• « Un corpus est une collection de données langagières
qui sont sélectionnées et organisées selo...
Préférence pour l’approche
documentaire renouvellée
• Aux « données langagières » et aux « textes » nous
préférons la réfé...
Définition d’un corpus documentaire
• Un corpus documentaire est une archive structurée de
documents sélectionnés et/ou pr...
Caractérisation des corpus et des
fonctionnalités des collaboratoires
Différentes dimensions pour la
caractérisation des corpus
• La classification des corpus permet la définition des
fonction...
Rappel sur les opérations de base
portant sur un corpus
documentaire
Constitution et exploitation d’un corpus
documentaire dans un contexte de
collaboratoire
• Recherche / production des docu...
Exemple dans le cadre d’une enquête sociologique
(corpus primaire)
• Recherche / production des documents pertinents : réa...
Approche des corpus selon les
disciplines
Caractérisation des corpus dans les
disciplines de l’interaction
(Atifi, Lejeune, Ninova, Zacklad)
• Trois exemples : soci...
La gestion des corpus ne concerne pas
uniquement la linguistique de corpus
• …mais celle-ci dispose d’un statut instrument...
Vision du corpus selon les étapes
de mise en œuvre
Trois types de corpus selon la mise
en œuvre
• Les corpus primaires sont ceux qui constituent la base
« empirique » de la ...
Analyse différentielle interne

Corpus Secondaire

Analyse différentielle interne

Analyse différentielle interne

Mise en...
Vision du corpus par affinage
Affinage progressif du corpus selon Rastier
(2002)
– « 1/ L’archive contient l’ensemble des documents
accessibles. Elle n’...
Selon notre approche : trois axes
d’affinage
• L’axe qui va du potentiel à l’effectif par
sélection/génération des documen...
Corpus potentiel (et virtuel)

Corpus effectif global & virtuel (on
ne sait pas encore s’il permettra
d’éprouver les hypot...
Caractérisation des corpus
primaires selon les méthodes de
constitution
Rappel sur la notion d’archive en
sciences de l’information
• Archive d’un organisme : courante, intermédiaire,
définitive...
Constitution des corpus primaires à partir
d’archives vernaculaires
Archive définitive

Archive intermédiaire

Archive cou...
Constitution des corpus primaires à
partir d’archives ad hoc
• On peut établir une distinction :
– Selon le caractère plus...
Enregistrement
avec interaction
verbale directe du
chercheur avec les
sujets

Enregistrement en
« situation naturelle »
sa...
Caractéristiques de l’accès au corpus
selon les formes de coopération
Formes de coopération
• Le chercheur dans des phases de travail
individuelles
• Coopération active : un collectif de cherc...
Approche monoacteur

Approche multi-acteurs
et coordination active

Approche multi-acteurs
& coopération passive

Articula...
Exemple des problématiques posées
par la mise en relation des différents
types de corpus
Exemple de l’articulation d’un
corpus primaire et secondaire
• Les frontières du corpus primaire peuvent
évoluer au cours ...
Evolutions des corpus primaires et
secondaires
Ensemble fermé de
documents secondaires

Ensemble ouvert de
documents secon...
Quelles technologies documentaires et
informationnelles pour les
collaboratoires ?
Différentes approches du sens
renvoyant à différentes technologies
• Les différents types de traitement requis dans le cad...
Diversité des formes d’expression
documentaires
• Image fixes (p.e. A. Bénel et al.), film (p.e B. Bachimont, Y.
Prié), te...
Processus d’étiquetage et d’annotation des fragments
documentaires
Etiquette ou annotation
concernant l’ensemble
du docume...
SOC élaboré = organisation des termes
élémentaire dans des réseaux de « concept
formels (ontologie), concepts
sémiotiques ...
Un cadre pluri-sémantique pour les
collaboratoires : l’approche du web
socio-sémantique
Informations diverses sur le Web socio
sémantique (W2S)
• Origine au sein de l’Ingénierie des Connaissances mais
ouverture...
Web socio-sémantique :
une vision du web
• Le web socio-sémantique (W2S) est un système
documentaire ouvert facilitant des...
Web socio-sémantique et Recherche
Ouverte d’Information
• Cette multiplicité des modes d’accès est ellemême associée à une...
Trois paradigmes d’accès à l’information
selon le web socio-sémantique
• Paradigme de la requête basée sur des attributs s...
Les trois paradigmes du W2S

Requêtes
(web sémantique, bases
de données…) –
sémantique formelle ou
référentielle

Navigati...
Exemple de la recherche d’une personne
Navigation
(attributs
heuristiques) :
Goût
Opinion
Compétence

Requête (attribut
st...
Le web Socio Sémantique : donne une place aux
techniques relevant du paradigme de la
navigation
• Les systèmes d’organisat...
Les systèmes d’organisation des
connaissances qui relèvent du paradigme de
la navigation heuristique
• Classification docu...
HyperTopic : système pivot pour le
W2S et la RIO
RIO, web socio sémantique &
sémantique, IC
• Les méthodes de l’IC contribuent à la
recherche ouverte d’information et devr...
Point de vue : caractérisations
concurrentes de l’item

NAVIGATION

Corrélation A

Thèmes :
thématisation heuristique
de l...
HyperTopic : système d’organisation
des connaissances pour la recherche
ouverte d’information
HyperTopic : trois approches de l’item
Thématisation
heuristique (liens
hypertextes)

Ontologies sémiotiques
(thèmes ou at...
Notion de point de vue
• C’est la diversité des formes de caractérisation de l’item
selon les communautés professionnelles...
Hypertopic : le protocole, dispositif
pivot pour la recherche ouverte
d’information
Inférences pragmatiques au cours de
la navigation
• La métasémiotique Hypertopic, est opérationnalisée à
l’aide de XML
• L...
PhP, Ajax…

Porphyry

Agorae

Java

Protocole HyperTopic
basé sur REST

Webdav

Sfqs*
Qsdf
sdqf
Sfqs*
Qsdf
sdqf

Sfqs*
Qsd...
Exemples d’applications
Agorae FT (Cahier
2005)

Porphyry Paestum
(Bénel, 2006)

DKN-SEQXAM (Zaher,
2006b)

Cassandre (Erpicum
& Lejeune 2005)

It...
Le client Agorae pour la gestion
participative de ressources
documentaires
(Zaher, Cahier et al.)
Le client HyperTopic Agoræ : exploration selon le point de vue des cursus de l’UTT
(a) point de vue (un établissement) (b)...
(c) item (un cours), (d) attribut standard/valeur (auteur, dernière modification…) (e)
ressource documentaire (ici des tra...
La même utilisation d’Hypertopic avec un
autre client dédié à la gestion des images
Porphyry
(Bénel et al.)
Fenêtre d’annotation
Fenêtre de confrontation de points de vue
Mise en relation des annotations textuelles
effectuées sur un objet
Merci de votre attention
Prochain SlideShare
Chargement dans…5
×

Collaboratoires & shs lyon ens

641 vues

Publié le

0 commentaire
0 j’aime
Statistiques
Remarques
  • Soyez le premier à commenter

  • Soyez le premier à aimer ceci

Aucun téléchargement
Vues
Nombre de vues
641
Sur SlideShare
0
Issues des intégrations
0
Intégrations
2
Actions
Partages
0
Téléchargements
2
Commentaires
0
J’aime
0
Intégrations 0
Aucune incorporation

Aucune remarque pour cette diapositive

Collaboratoires & shs lyon ens

  1. 1. Principes de caractérisation des collaboratoires en SHS et apport du web socio-sémantique Manuel Zacklad (et équipe web socio-sémantique J.P. Cahier, A. Bénel, H. Zaher, C. Zhou, C. Lejeune) Université de Technologie de Troyes Equipe Tech-CICO (Technologie de la Coopération pour l’Innovation et le Changement Organisationnel) UTT ICD/Tech-CICO - FRE CNRS 2848 Manuel Zacklad - Tech-CICO/UTT – Séminaire Lyon 1
  2. 2. Disciplines sollicitées par les collaboratoires • La gestion des collaboratoires en SHS (projet Adonis?) implique de croiser plusieurs perspectives disciplinaires: – Linguistique de corpus (importance des corpus abordés dans une perspective élargie) – Sciences de l’information et de la communication (gestion et diffusion des documents) – CSCW (Computer Supported Cooperative Work) – Ingénierie des Connaissances (approche technique et épistémologique des SOC) – Sociologie des sciences et épistémologie • Atout de l’équipe Tech-CICO dans cette perspective pluridisciplinaire
  3. 3. Objectif de l’exposé • Proposer une description « originale » des collaboratoires en SHS • Introduire la vision du web socio-sémantique et HyperTopic qui permet l’association de plusieurs logiciels open source • On parlera d’avantage des collaboratoires que du web socio-sémantique -> pour une autre fois ;-) • Dimension méthodologique et programmatique
  4. 4. Projets de Tech-CICO sur les collaboratoires • Initiateur de l’approche web socio-sémantique et recherche ouverte d’information • Initiateur de la méta-sémiotique (langage de représentation des connaissances) et du protocole HyperTopic permettant l’intégration de plusieurs serveurs et client (avec application dans des disciplines SHS) : – Agorae : gestion participative et multipoint de vue de ressources documentaires (Cahier, Zaher) : recherche en sociologie des sciences – Porphyry : gestion multipoints de vue d’images (Bénel anciennement projet dirigé par A. Iacovella) : recherche en archéologie – En lien avec liège : Cassandre - gestion de corpus textuels (C. Lejeune): recherche en sociologie • Thèse sur une méthodologie transdisciplinaire de gestion de corpus dans les disciplines de l’interaction (Atifi, Ninova)
  5. 5. Les collaboratoires des sciences expérimentales aux SHS
  6. 6. Origine des collaboratoires • Origine dans le domaine des sciences de la nature et de la vie pour la mutualisation des données issues d’équipements lourds : – consécutive à la généralisation de l’informatisation de ces équipements, – et à la généralisation de leur mise en réseau via internet • Objectif initial : partage des équipements et des données qu’ils produisent avec d’autres chercheurs « distants » (collaboratory = collaborative laboratory) • Elargissement à la problématique du travail coopératif entre les chercheurs à partir de ces données -> CSCW (Computer Supported Cooperative Work)
  7. 7. Collaboratoires en SHS : numérisation des archives, des bibliothèques, des productions intermédiaires de la recherche • Les équipements lourds des SHS sont les archives et les bibliothèques • Leur numérisation massive et la diffusion d’internet offre les mêmes opportunités que celles qui avaient été offertes aux sciences dures • Ces opportunités sont encore renforcées par les facilités de circulation et de partage des documents en cours d’élaboration (résultats intermédiaire, rapport, pré-diffusion…) : – Problématique des documents pour l’action, des archives ouvertes, du rôle des bibliothèques dans la gestion des archives courantes et intermédiaires des chercheurs
  8. 8. Trois hypothèses de travail
  9. 9. Première hypothèse de travail : mutation méthodologique et épistémologique • La généralisation des collaboratoires en SHS induit une mutation plus profonde que dans les sciences de la vie et de la nature – Le travail coopératif et la mise en commun des sources était une pratique courante • Dans les SHS, la généralisation des collaboratoires est susceptible produire une renouvellement profond des méthodes de travail et à terme des fondements épistémologiques de plusieurs disciplines • Hypothèse semble-t-il partagée avec Adonis (?)
  10. 10. Justification • Les difficultés de recueil et de partage des corpus en SHS explique le biais quantitatif de plusieurs disciplines (préférence pour les « données ») – la numérisation est susceptible d’y remédier largement • Quand les méthodes qualitatives sont mises en œuvre elles souffrent de plusieurs faiblesses notamment en terme de partage des sources et d’objectivation des méthodes de « codage » dans le cadre du processus d’interprétation – la numérisation est également susceptible de contribuer à pallier à ce défaut
  11. 11. Deuxième hypothèse de travail : nécessité d’élargir les acceptions du « corpus » • La problématique des collaboratoires en SHS excède les questions posées par la linguistique de corpus tout en repositionnant la linguistique comme une discipline pivot à plusieurs titres • Les acceptions du corpus doivent être plus large et inclure également des problématiques associées aux environnement documentaires facilitant la génération de nouvelles productions sémiotiques (atelier d’écriture)
  12. 12. Troisième hypothèse de travail : importance des approches relevant du web socio-sémantique • La conception des collaboratoires implique ellemême des méthodes et une méthode et une épistémologie renouvelé de la gestion de l’information qui combine les apports de la recherche d’information et des systèmes d’organisation des connaissances formels et heuristiques • Importance des recherches conduites dans le champ du web socio-sémantique et des modèles et outils « Hypertopic »
  13. 13. Définitions du corpus
  14. 14. A propos des définitions • « Un corpus est une collection de données langagières qui sont sélectionnées et organisées selon des critères linguistiques et extra-linguistiques explicites pour servir d’échantillon d’emplois déterminés d’une langue » (Habert 2000). » • « Un corpus est un regroupement structuré de textes intégraux, documentés, éventuellement enrichis par des étiquetages, et rassemblés : (i) de manière théorique réflexive en tenant compte des discours et des genres, et (ii) de manière pratique en vue d’une gamme d’applications. » (Rastier 2002)
  15. 15. Préférence pour l’approche documentaire renouvellée • Aux « données langagières » et aux « textes » nous préférons la référence au document • Renouvellement des réflexions sur le document : – Le document définit comme une production sémiotique inscrite dans un projet transactionnel délibéré (cf. le discours), enregistrée ou retranscrite sur un support pérenne et explicitement « documentarisé » par ses créateurs ou ses utilisateurs – Elargissement de la notion de corpus à d’autres modalités d’expression (image, film, enregistrement audio…) – Le document implique la prise en considération des supports des « production sémiotique » qui les véhiculent et qui déterminent les conditions de leur création et de leur réception (approche suivie dans le système « Prospero » Chateauraynaud)
  16. 16. Définition d’un corpus documentaire • Un corpus documentaire est une archive structurée de documents sélectionnés et/ou produits de manière systématique(1) pour permettre le déroulement d’une enquête(2). • La pertinence du corpus est virtuelle (corpus virtuel) tant que la justification de la sélection n’aura pas été produite par une analyse comparative explicitant les formes d’association entre les documents et les fragments documentaires rassemblés. Cette explicitation, produisant le corpus effectif, est réalisée à partir de systèmes d’organisation des connaissances (permettant l’annotation ou l’étiquetage). • En toute rigueur le corpus doit être conçu comme une collection documentaire mouvante soumise à un processus d’articulation progressif justifiant l’appartenance des documents à la collection. (1) (2) Dans un contexte de « rationalité limité » ou de « réflexivité » (cf. Damon Mayaffre) Au sens générique du pragmatisme et pas au sens restreint d’enquête sociologique
  17. 17. Caractérisation des corpus et des fonctionnalités des collaboratoires
  18. 18. Différentes dimensions pour la caractérisation des corpus • La classification des corpus permet la définition des fonctionnalités des collaboratoires – Statut des corpus selon les disciplines – Approche du corpus selon la mise en œuvre de la recherche : primaire, secondaire, tertiaire – Approche du corpus par affinage successif : potentiel/effectif , virtuel/attesté, global/de travail – Caractérisation des corpus primaires selon les méthodes de constitution – Approche des collaboratoires (et de l’articulation entre les corpus) selon les formes de coopération (mono-acteur, coopération active, coopération passive)
  19. 19. Rappel sur les opérations de base portant sur un corpus documentaire
  20. 20. Constitution et exploitation d’un corpus documentaire dans un contexte de collaboratoire • Recherche / production des documents pertinents • Stockage / organisation de l’accès • Organisation / classement / indexation • Lecture / analyse / codage / annotation • Synthèse / mise en forme / rédaction des analyses • Diffusion / partage
  21. 21. Exemple dans le cadre d’une enquête sociologique (corpus primaire) • Recherche / production des documents pertinents : réalisation d’entretiens semi-directifs par enregistrement et retranscription • Stockage / organisation de l’accès : stockage dans un répertoire ou dans une base de donnée documentaire • Organisation / classement / indexation [articulation externe] : utilisation de différents critères permettant de classer les document (caractéristiques des personnes interviewés, contexte, faits marquants…) • Lecture / analyse / codage / annotation [articulation interne] : lecture des entretiens, éventuellement utilisation d’un outil d’aide au repérage automatique de certaines régularités (cf. Cassandre) et indexation selon des catégories pertinentes, codage interprétatif (manuel) des expressions, ajouts d’annotations… • Synthèse / mise en forme / rédaction des analyses [articulation externe/interne] : extraction semi-automatique des extraits codés et comparaisons selon les critère d’articulation interne, rédaction des analyses… • Diffusion / partage : partage avec d’autres analystes des documents primaires (entretiens) des extraits d’entretiens codé, pré-diffusion à d’autres chercheurs à l’intérieur de « l’équipe projet » ou situés dans d’autres institutions, etc.
  22. 22. Approche des corpus selon les disciplines
  23. 23. Caractérisation des corpus dans les disciplines de l’interaction (Atifi, Lejeune, Ninova, Zacklad) • Trois exemples : sociologie qualitative, psychologie ergonomique linguistique interactionnelle • Disciplines qui constituent souvent des corpus « ad hoc » par entretien, questionnaire, observation… (cf. infra) • Différences en termes de modalités d’enregistrement et de retranscription • Différence en termes de représentativité des échantillons constitués • Différence en termes de modalité de découpage des morphèmes ou des ennoncés pertinent • Importance variable du « saut interprétatif » dans les opérations de codage • Etc.
  24. 24. La gestion des corpus ne concerne pas uniquement la linguistique de corpus • …mais celle-ci dispose d’un statut instrumental privilégié eu égard aux autres disciplines : – Toutes les SHS en tant qu’elle participent des sciences de la culture impliquent la gestion d’un « corpus primaire » qui peut être constitué de différentes manières – L’analyse des régularités à l’intérieur du corpus par le processus de codage revient à une identification de genres – Ces genres correspondent bien aux normes (Rastier) gouvernant la production des « œuvres » réalisées par les acteurs ou gouvernant les situations d’interaction • Le champ de notre réflexion sur les collaboratoires ne couvre pas que les disciplines de l’interaction : histoire, littérature, archéologie…
  25. 25. Vision du corpus selon les étapes de mise en œuvre
  26. 26. Trois types de corpus selon la mise en œuvre • Les corpus primaires sont ceux qui constituent la base « empirique » de la recherche et à partir desquels seront élaborées les conclusions de l’enquête • Les corpus secondaires sont constitués par des documents qui contribuent à l’étude des sources primaires : documents produits à l’issue d’autres enquêtes similaires, ouvrages méthodologiques, plan de codage. • Etat de l’art • Document méthodologiques • Outils de traitement logiciel • Les corpus tertiaires sont constitués par les productions originales de l’enquête, dans un état intermédiaire ou final
  27. 27. Analyse différentielle interne Corpus Secondaire Analyse différentielle interne Analyse différentielle interne Mise en relation externe Corpus Primaire Corpus Tertiaire
  28. 28. Vision du corpus par affinage
  29. 29. Affinage progressif du corpus selon Rastier (2002) – « 1/ L’archive contient l’ensemble des documents accessibles. Elle n’est pas un corpus, parce qu’elle n’est pas constituée pour une recherche déterminée. – 2/ Le corpus de référence est constitué par ensemble de textes sur lequel on va contraster les corpus d’étude. – 3/ Le corpus d’étude est délimité par les besoins de l’application. – 4/ Enfin le sous-corpus de travail en cours varie selon les phases de l’étude et peut ne contenir que des passages pertinents du texte ou des textes étudiés » – [Pour certaines applications informatiques, il faut encore distinguer, au cours de leur développement, le corpus d’apprentissage, le corpus de test, le corpus de validation]
  30. 30. Selon notre approche : trois axes d’affinage • L’axe qui va du potentiel à l’effectif par sélection/génération des documents pertinents: corpus potentiel/corpus effectif • L’axe qui va du global au local par sélection de certains documents dans un ensemble ou de certains extraits d’un document par le document global : corpus global/corpus de travail • L’axe qui va du virtuel à l’explicite, en explicitant les catégories de mise en relation et en justifiant la cohérence du corpus : corpus virtuel/corpus attesté (articulé, explicité)
  31. 31. Corpus potentiel (et virtuel) Corpus effectif global & virtuel (on ne sait pas encore s’il permettra d’éprouver les hypothèses de l’enquête) Corpus de travail (virtuel) Corpus de travail (virtuel) Corpus de travail (virtuel) Corpus de travail (attesté) Corpus de travail (attesté) Corpus de travail (attesté) Corpus global attesté (articulation des fragments documentaires et des documents à l’aide d’un SOC servant à l’annotation et l’étiquetage et permettant de tirer des conclusions)
  32. 32. Caractérisation des corpus primaires selon les méthodes de constitution
  33. 33. Rappel sur la notion d’archive en sciences de l’information • Archive d’un organisme : courante, intermédiaire, définitive • Le corpus est une archive documentaire constituée par le chercheur à fin d’enquête – Le corpus passe lui-même par ces différentes étapes selon la progression de la recherche (courante, intermédiaire, définitive) • Les corpus primaires peuvent être : – Constituées par des documents produits par les organismes ou acteurs enquêtés eux-mêmes « archive vernaculaire » à caractère public ou privé – Constituée par des documents faisant l’objet d’une création répondant besoin de l’enquête : archive constituée par des document ad hoc ou « archive ad hoc »
  34. 34. Constitution des corpus primaires à partir d’archives vernaculaires Archive définitive Archive intermédiaire Archive courante Bibliothèque et fond d’archive papier, archive web Recueil de documents administratifs, prélèvement sur des sites web d’archive intermédiaire, forum archivés, etc. Prélèvement par échantillonnage des documents produits sous forme papier ou numérique par les organismes et acteurs notamment sur le web Accès privé Fond d’archive privé Recueil de fonds d’archive au sein d’entreprises ou chez des particuliers (intranets, collections privées…) Prélèvement par échantillonnage des documents produits par les entreprises et particuliers Accès public
  35. 35. Constitution des corpus primaires à partir d’archives ad hoc • On peut établir une distinction : – Selon le caractère plus ou moins libre ou contraint des productions sémiotiques (qualitatifs vs quantitatif) – Selon le mode de constitution plus ou moins « participatif » des productions sémiotiques (langagière, filmique…)
  36. 36. Enregistrement avec interaction verbale directe du chercheur avec les sujets Enregistrement en « situation naturelle » sans interaction verbale provoquée avec le chercheur (ou avec peu d’interaction verbale) Enregistrement du comportement à partir de situations provoquées par le chercheur mais sans interaction verbale avec lui (ou peu) Productions sémiotique libres (qualitatives ) Entretien semi ou non directif, observation participantes Méthodes ethnographiques non participantes (à partir de situations naturelles) Psychologie sociale expérimentale Production sémiotique contraintes (données) Questionnaires Enregistrement partiel d’indice comportementaux (à partir de situations naturelles) Expérience de type psychophysique
  37. 37. Caractéristiques de l’accès au corpus selon les formes de coopération
  38. 38. Formes de coopération • Le chercheur dans des phases de travail individuelles • Coopération active : un collectif de chercheurs appartenant à un même projet dans le cadre d’une division du travail organisée • Coopération passive : un collectif de chercheurs n’appartenant pas au même projet mais mettant à disposition des ressources au bénéfice de la communauté.
  39. 39. Approche monoacteur Approche multi-acteurs et coordination active Approche multi-acteurs & coopération passive Articulation intradocumentaire Un acteur engagé dans Plusieurs acteurs le ttmt d’un document travaillant sur le même document dans le cadre d’un projet Plusieurs acteurs mettant à disposition sur le web un document partiellement travaillé Articulation interdocumentaire homogène Un acteur engagé dans le ttmt comparatif de plusieurs documents du même type de corpus (p.e. primaire) Plusieurs acteurs engagés dans le ttmt comparatif de plusieurs document du même type de corpus dans le cadre d’un projet Plusieurs acteurs mettant à disposition sur le web des documents appartenant à un corpus Articulation interdocumentaire hétérogène Un acteur engagé dans le ttmt de documents appartenant à plusieurs types de corpus Plusieurs acteurs mettant en relation des documents appartenant à plusieurs types de corpus dans le cadre d’un projet Plusieurs acteurs mettant à disposition sur le web des documents appartenant à plusieurs types de corpus
  40. 40. Exemple des problématiques posées par la mise en relation des différents types de corpus
  41. 41. Exemple de l’articulation d’un corpus primaire et secondaire • Les frontières du corpus primaire peuvent évoluer au cours de la recherche : cette évolution peut entrainer un élargissement du corpus secondaire (référence bibliographique associées, autres monographies…) • Inversement les associations réalisées à l’intérieur du corpus secondaire peuvent ellesmêmes influencer la définition des contours du corpus primaire : recherche de sources nouvelles
  42. 42. Evolutions des corpus primaires et secondaires Ensemble fermé de documents secondaires Ensemble ouvert de documents secondaires Ensemble fermé Base fixe (stade final de la de documents recherche) primaires Le traitement des documents primaires suscite la recherche de nouveaux documents secondaires (formulation de nouvelles hypothèses) Ensemble ouvert de documents primaires Coévolution du corpus primaire et du corpus secondaire (coévolution des hypothèses et des observables) L’exploitation des documents secondaires suscite la recherche de nouveaux documents primaires (recherche de nouveaux observables)
  43. 43. Quelles technologies documentaires et informationnelles pour les collaboratoires ?
  44. 44. Différentes approches du sens renvoyant à différentes technologies • Les différents types de traitement requis dans le cadre de l’usage des collaboratoires impliquent le recours à différents types de technologies informatique • Ces technologies reposent elles-mêmes sur des Systèmes d’Organisation des Connaissances qui permettent de réaliser des associations entre des fragments documentaires et des documents d’un ou plusieurs corpus • Ces associations sont rendues possibles par des opérations de description préalable plus ou moins systématiques des documents et de leur fragments qui se réalise de manière différente selon qu’il s’agit d’un texte, d’une image, d’un son, d’un film
  45. 45. Diversité des formes d’expression documentaires • Image fixes (p.e. A. Bénel et al.), film (p.e B. Bachimont, Y. Prié), textes -> un très grand nombre de chercheurs dans les domaines de l’ingénierie des connaissances, de la linguistique de corpus et de la recherche d’information (Aussenac, Bourrigault, Habert, Zweigenbaum, Charlet, Chateauraynaud, Lejeune… etc.) • Dans le cadre d’un texte le codage automatique peut porter sur chaque morphème (terme ou mot) ! • Mais même dans le cas d’un texte, le découpage de la séquence de caractères pertinents et son étiquetage relève d’une opération de description exogène basée sur une théorie linguistique plus ou moins explicite.
  46. 46. Processus d’étiquetage et d’annotation des fragments documentaires Etiquette ou annotation concernant l’ensemble du document Y2 X1 A Etiquetage ou annotation automatique, semiautomatique ou manuelle d’un document Etiquette ou annotation concernant des fragments du document C A B C
  47. 47. SOC élaboré = organisation des termes élémentaire dans des réseaux de « concept formels (ontologie), concepts sémiotiques (ontologie sémiotique), descripteurs (thésaurus)… Association intradocumentaire C A B A S A C M B B P C C Première Indexation du document basée sur des fragments - SOC élémentaire = une liste de descripteurs de bas niveau ancrée dans une zone du document = termes, suite de caractères, B A Association interdocumentaire
  48. 48. Un cadre pluri-sémantique pour les collaboratoires : l’approche du web socio-sémantique
  49. 49. Informations diverses sur le Web socio sémantique (W2S) • Origine au sein de l’Ingénierie des Connaissances mais ouverture vers les sciences de l’information et de la communication et les sciences du langage • Issu de Tech-CICO mais en cours de diffusion dans d’autres équipes ;-) (contact pris avec les communauté « pragmatic web » et « topic map ») • A la fois un cadre conceptuel et méthodologique et des outils opérationnels : méta-sémiotique et protocole Hypertopic et plusieurs logiciels open source • Contributeurs principaux : • Aurélien Bénel, Jean-Pierre Cahier, L’Hédi Zaher, Manuel Zacklad (UTT – Tech-CICO) & Christophe Lejeune (Liège)
  50. 50. Web socio-sémantique : une vision du web • Le web socio-sémantique (W2S) est un système documentaire ouvert facilitant des transactions coopératives interpersonnelles éventuellement très asynchrones et distribuées entre des acteurs individuels et collectifs engagés dans des échanges, débats, controverses, relevant de domaines très variés. • Deux conséquences pour l’instrumentation du W2S : • Les modalités et les outils de gestion des documents doivent être pour partie conçus par les acteurs eux-mêmes selon leur processus de coopération. • Il est nécessaire de combiner plusieurs paradigmes d’accès à l’information complémentaires.
  51. 51. Web socio-sémantique et Recherche Ouverte d’Information • Cette multiplicité des modes d’accès est ellemême associée à une vision originale de la recherche d’information « la recherche ouverte d’information » [information seeking vs information retrieval cf. L’hédi Zaher] • La RI est en fait de la « récupération d’information » la ROI, qui inclut l’usage de la RI, correspond effectivement à l’assistance à la de la « recherche »
  52. 52. Trois paradigmes d’accès à l’information selon le web socio-sémantique • Paradigme de la requête basée sur des attributs standardisés – monde clos en partie analogue au monde réel, sémantique référentielle, schéma de base de donnée relationnelle ou objet, ontologies formelles • Paradigme de la navigation heuristique en utilisant des attributs heuristiques (thèmes) – cartes de thèmes , sémantique rhétorico/herméneutique, réseau sémantique, ontologie sémiotique, hypertextes, premiers systèmes experts • Paradigme de la fouille dans des ressources documentaires – moteurs de recherche, la sémantique dépend elle-même de la nature du document. – Mais le moteur peut utiliser lui-même deux types de sémantiques : • référentielle sur des expressions dans la recherche de séquences, • probabiliste (utilisation de la théorie de l’information)
  53. 53. Les trois paradigmes du W2S Requêtes (web sémantique, bases de données…) – sémantique formelle ou référentielle Navigation (hypertexte, web socio sémantique…) – sémantique rhétoricoherméneutique Recherche Ouverte d’Information Fouille (recherche de séquences, TAL, recherche statistiques…) sémantique variable
  54. 54. Exemple de la recherche d’une personne Navigation (attributs heuristiques) : Goût Opinion Compétence Requête (attribut standard) Nom Age Adresse Fouille (document) Photo CV
  55. 55. Le web Socio Sémantique : donne une place aux techniques relevant du paradigme de la navigation • Les systèmes d’organisation des connaissances évolutifs requièrent une sémantique différente de la sémantique référentielle -> pas exclusivement des ontologies formelles ni de la fouille et ouverture vers d’autres SOC • Accent mis d’avantage dans nos travaux sur le « web visible » que sur le « web invisible » (les bases de données)
  56. 56. Les systèmes d’organisation des connaissances qui relèvent du paradigme de la navigation heuristique • Classification documentaires, thésaurus, ontologies sémiotiques… (structure hypertexte, annuaire internet, index…) construites par des gestionnaires de sites, des documentalistes, des ingénieurs de la connaissance avec la collaboration plus ou moins actives des usagers (folksonomies) • Exemple d’ontologie sémiotique : des cartes de thèmes (Cahier, 2005) ou réseaux de description (Bénel, 2003) [niveau des ontologies différentielles définies de la méthodologie Archonte de Bachimont]
  57. 57. HyperTopic : système pivot pour le W2S et la RIO
  58. 58. RIO, web socio sémantique & sémantique, IC • Les méthodes de l’IC contribuent à la recherche ouverte d’information et devraient combiner les trois approches : navigation, requêtes formelles, fouille • La recherche ouverte d’information vise à caractériser une situation, une entité, un projet : nous parlerons dans la métasémiotique HyperTopic d’un ITEM
  59. 59. Point de vue : caractérisations concurrentes de l’item NAVIGATION Corrélation A Thèmes : thématisation heuristique de l’item Système expert Item : identifiant de la situation ou de l’artefact objet de d’enquête Corrélation C Attributs standards : spécification référentielle de l’Item Ressources : documentation de l’item Corrélation B REQUETE Système de gestion documentaire Système hypertexte FOUILLE Association entre différentes formes de caractérisation de l’ITEM correspondant à différents types de corrélation
  60. 60. HyperTopic : système d’organisation des connaissances pour la recherche ouverte d’information
  61. 61. HyperTopic : trois approches de l’item Thématisation heuristique (liens hypertextes) Ontologies sémiotiques (thèmes ou attributs heuristiques) Point de vue Thème Attributs standards Item Ressources Ressources Spécification référentielle : objets et concepts (requêtes logiques) Documentation de l’item (fouille de texte) Manuel Zacklad - Tech-CICO/UTT - ACSICAIS 61
  62. 62. Notion de point de vue • C’est la diversité des formes de caractérisation de l’item selon les communautés professionnelles, d’intérêt, de pratiques ou les hypothèses en cours d’examen qui justifie le recours à plusieurs thématisations potentiellement concurrentes de l’item (Bénel, 2003 et Cahier 2005). • C’est également la multiplicité des points de vue qui structure le raisonnement heuristique en permettant selon les tâches de faire varier les caractérisations de l’item. • Dans les exemples canoniques du raisonnement diagnostic en médecine, un problème médical peut être décrit selon le point de vue des symptômes (point de vue des patients) ou selon celui des processus physiopathologiques en cause (point de vue des médecins).
  63. 63. Hypertopic : le protocole, dispositif pivot pour la recherche ouverte d’information
  64. 64. Inférences pragmatiques au cours de la navigation • La métasémiotique Hypertopic, est opérationnalisée à l’aide de XML • Le protocole HT V 1.0 développé en REST permet de naviguer dans les ressources documentaires selon une logique hypertextuelle et facilite la recherche ouverte d’information au sein des corpus. • En assistant la navigation, le protocole Hypertopic permet de réaliser des associations entre thèmes, ressources documentaires et attributs standardisés, dont on peut considérer qu’elles relèvent d’inférences pragmatiques correspondant à l’exploitation d’association heuristiques entre divers éléments.
  65. 65. PhP, Ajax… Porphyry Agorae Java Protocole HyperTopic basé sur REST Webdav Sfqs* Qsdf sdqf Sfqs* Qsdf sdqf Sfqs* Qsdf sdqf Bdd Postgress SQL Argos Cassandre Sfqs* Qsdf sdqf Sfqs* Qsdf sdqf
  66. 66. Exemples d’applications
  67. 67. Agorae FT (Cahier 2005) Porphyry Paestum (Bénel, 2006) DKN-SEQXAM (Zaher, 2006b) Cassandre (Erpicum & Lejeune 2005) Item Projet de R&D dans le domaine des télécoms Points de vue technologique; d’usage; de l’offre commerciale; du client ; etc. Item Vase /Scène figurée /Élément figuratif Item Article scientifique Item Entretien sociologique Points de vue Projets de recherche en archéologie et en histoire de l’art Points de vue Ceux des différents membres du projet Points de vue Analyse sociologique des facteurs de mobilisation Attribut standard Date de début; statut du projet; etc. Attribut standard Musée ou collection privée, Numéro d’inventaire Attribut standard Attribut standard Nom Attributs de l'acteur, date et lieu bibliographiques standard de l'entretien Thèmes IPV6; Services Web; voyages; santé; économies de bande passante, etc. (1500 thèmes) Thèmes Analyse de la forme du vase, des scènes figurées, de la technique de fabrication… Thèmes bacteria; bordetella spp; genome sequence; compartment, etc. (400 thèmes) Thèmes défi technique, distinction sociale, engagement politique, socialisation… Ressources Sites Web ou Pièces Jointes descriptifs du détail des projets Ressources Un dossier Ressources Textes des photo par vase, une photo articles, et fragments de par scène figurée, un ces textes fragment photo par élément figuratif Ressources Passages (textuel) de l'entretien
  68. 68. Le client Agorae pour la gestion participative de ressources documentaires (Zaher, Cahier et al.)
  69. 69. Le client HyperTopic Agoræ : exploration selon le point de vue des cursus de l’UTT (a) point de vue (un établissement) (b) thème (un cursus) (b’) sous-thèmes (des noms d’UV et leurs problématiques),
  70. 70. (c) item (un cours), (d) attribut standard/valeur (auteur, dernière modification…) (e) ressource documentaire (ici des transparents). Les « Tags » permettent aux utilisateurs de proposer d’autres sous-thèmes selon une méthode « ascendante ». Ceux-ci peuvent ensuite être intégrés aux ontologies sémiotiques associées aux points de vue.
  71. 71. La même utilisation d’Hypertopic avec un autre client dédié à la gestion des images Porphyry (Bénel et al.)
  72. 72. Fenêtre d’annotation
  73. 73. Fenêtre de confrontation de points de vue
  74. 74. Mise en relation des annotations textuelles effectuées sur un objet
  75. 75. Merci de votre attention

×