1. Principes de caractérisation des
collaboratoires en SHS et apport du
web socio-sémantique
Manuel Zacklad
(et équipe web socio-sémantique
J.P. Cahier, A. Bénel, H. Zaher, C. Zhou, C. Lejeune)
Université de Technologie de Troyes
Equipe Tech-CICO (Technologie de la Coopération pour
l’Innovation et le Changement Organisationnel)
UTT ICD/Tech-CICO - FRE CNRS 2848
Manuel Zacklad - Tech-CICO/UTT – Séminaire Lyon
1
2. Disciplines sollicitées par les
collaboratoires
• La gestion des collaboratoires en SHS (projet Adonis?)
implique de croiser plusieurs perspectives
disciplinaires:
– Linguistique de corpus (importance des corpus abordés
dans une perspective élargie)
– Sciences de l’information et de la communication (gestion
et diffusion des documents)
– CSCW (Computer Supported Cooperative Work)
– Ingénierie des Connaissances (approche technique et
épistémologique des SOC)
– Sociologie des sciences et épistémologie
• Atout de l’équipe Tech-CICO dans cette perspective
pluridisciplinaire
3. Objectif de l’exposé
• Proposer une description « originale » des
collaboratoires en SHS
• Introduire la vision du web socio-sémantique et
HyperTopic qui permet l’association de plusieurs
logiciels open source
• On parlera d’avantage des collaboratoires que du
web socio-sémantique -> pour une autre fois ;-)
• Dimension méthodologique et programmatique
4. Projets de Tech-CICO sur les collaboratoires
• Initiateur de l’approche web socio-sémantique et
recherche ouverte d’information
• Initiateur de la méta-sémiotique (langage de représentation
des connaissances) et du protocole HyperTopic permettant
l’intégration de plusieurs serveurs et client (avec
application dans des disciplines SHS) :
– Agorae : gestion participative et multipoint de vue de ressources
documentaires (Cahier, Zaher) : recherche en sociologie des
sciences
– Porphyry : gestion multipoints de vue d’images (Bénel anciennement projet dirigé par A. Iacovella) : recherche en
archéologie
– En lien avec liège : Cassandre - gestion de corpus textuels (C.
Lejeune): recherche en sociologie
• Thèse sur une méthodologie transdisciplinaire de gestion
de corpus dans les disciplines de l’interaction (Atifi, Ninova)
6. Origine des collaboratoires
• Origine dans le domaine des sciences de la nature et
de la vie pour la mutualisation des données issues
d’équipements lourds :
– consécutive à la généralisation de l’informatisation de ces
équipements,
– et à la généralisation de leur mise en réseau via internet
• Objectif initial : partage des équipements et des
données qu’ils produisent avec d’autres chercheurs
« distants » (collaboratory = collaborative laboratory)
• Elargissement à la problématique du travail coopératif
entre les chercheurs à partir de ces données -> CSCW
(Computer Supported Cooperative Work)
7. Collaboratoires en SHS : numérisation des
archives, des bibliothèques, des productions
intermédiaires de la recherche
• Les équipements lourds des SHS sont les archives et les
bibliothèques
• Leur numérisation massive et la diffusion d’internet
offre les mêmes opportunités que celles qui avaient
été offertes aux sciences dures
• Ces opportunités sont encore renforcées par les
facilités de circulation et de partage des documents en
cours d’élaboration (résultats intermédiaire, rapport,
pré-diffusion…) :
– Problématique des documents pour l’action, des archives
ouvertes, du rôle des bibliothèques dans la gestion des
archives courantes et intermédiaires des chercheurs
9. Première hypothèse de travail : mutation
méthodologique et épistémologique
• La généralisation des collaboratoires en SHS
induit une mutation plus profonde que dans les
sciences de la vie et de la nature
– Le travail coopératif et la mise en commun des
sources était une pratique courante
• Dans les SHS, la généralisation des collaboratoires
est susceptible produire une renouvellement
profond des méthodes de travail et à terme des
fondements épistémologiques de plusieurs
disciplines
• Hypothèse semble-t-il partagée avec Adonis (?)
10. Justification
• Les difficultés de recueil et de partage des corpus en
SHS explique le biais quantitatif de plusieurs disciplines
(préférence pour les « données »)
– la numérisation est susceptible d’y remédier largement
• Quand les méthodes qualitatives sont mises en œuvre
elles souffrent de plusieurs faiblesses notamment en
terme de partage des sources et d’objectivation des
méthodes de « codage » dans le cadre du processus
d’interprétation
– la numérisation est également susceptible de contribuer à
pallier à ce défaut
11. Deuxième hypothèse de travail : nécessité
d’élargir les acceptions du « corpus »
• La problématique des collaboratoires en SHS
excède les questions posées par la linguistique de
corpus tout en repositionnant la linguistique
comme une discipline pivot à plusieurs titres
• Les acceptions du corpus doivent être plus large
et inclure également des problématiques
associées aux environnement documentaires
facilitant la génération de nouvelles productions
sémiotiques (atelier d’écriture)
12. Troisième hypothèse de travail :
importance des approches relevant du web
socio-sémantique
• La conception des collaboratoires implique ellemême des méthodes et une méthode et une
épistémologie renouvelé de la gestion de
l’information qui combine les apports de la
recherche d’information et des systèmes
d’organisation des connaissances formels et
heuristiques
• Importance des recherches conduites dans le
champ du web socio-sémantique et des modèles
et outils « Hypertopic »
14. A propos des définitions
• « Un corpus est une collection de données langagières
qui sont sélectionnées et organisées selon des critères
linguistiques et extra-linguistiques explicites pour servir
d’échantillon d’emplois déterminés d’une langue »
(Habert 2000). »
• « Un corpus est un regroupement structuré de textes
intégraux, documentés, éventuellement enrichis par
des étiquetages, et rassemblés : (i) de manière
théorique réflexive en tenant compte des discours et
des genres, et (ii) de manière pratique en vue d’une
gamme d’applications. » (Rastier 2002)
15. Préférence pour l’approche
documentaire renouvellée
• Aux « données langagières » et aux « textes » nous
préférons la référence au document
• Renouvellement des réflexions sur le document :
– Le document définit comme une production sémiotique inscrite
dans un projet transactionnel délibéré (cf. le discours),
enregistrée ou retranscrite sur un support pérenne et
explicitement « documentarisé » par ses créateurs ou ses
utilisateurs
– Elargissement de la notion de corpus à d’autres modalités
d’expression (image, film, enregistrement audio…)
– Le document implique la prise en considération des supports
des « production sémiotique » qui les véhiculent et qui
déterminent les conditions de leur création et de leur réception
(approche suivie dans le système « Prospero » Chateauraynaud)
16. Définition d’un corpus documentaire
• Un corpus documentaire est une archive structurée de
documents sélectionnés et/ou produits de manière
systématique(1) pour permettre le déroulement d’une
enquête(2).
• La pertinence du corpus est virtuelle (corpus virtuel) tant que
la justification de la sélection n’aura pas été produite par une
analyse comparative explicitant les formes d’association entre
les documents et les fragments documentaires rassemblés.
Cette explicitation, produisant le corpus effectif, est réalisée à
partir de systèmes d’organisation des connaissances
(permettant l’annotation ou l’étiquetage).
• En toute rigueur le corpus doit être conçu comme une
collection documentaire mouvante soumise à un processus
d’articulation progressif justifiant l’appartenance des
documents à la collection.
(1)
(2)
Dans un contexte de « rationalité limité » ou de « réflexivité » (cf. Damon Mayaffre)
Au sens générique du pragmatisme et pas au sens restreint d’enquête sociologique
18. Différentes dimensions pour la
caractérisation des corpus
• La classification des corpus permet la définition des
fonctionnalités des collaboratoires
– Statut des corpus selon les disciplines
– Approche du corpus selon la mise en œuvre de la
recherche : primaire, secondaire, tertiaire
– Approche du corpus par affinage successif :
potentiel/effectif , virtuel/attesté, global/de travail
– Caractérisation des corpus primaires selon les méthodes
de constitution
– Approche des collaboratoires (et de l’articulation entre les
corpus) selon les formes de coopération (mono-acteur,
coopération active, coopération passive)
19. Rappel sur les opérations de base
portant sur un corpus
documentaire
20. Constitution et exploitation d’un corpus
documentaire dans un contexte de
collaboratoire
• Recherche / production des documents
pertinents
• Stockage / organisation de l’accès
• Organisation / classement / indexation
• Lecture / analyse / codage / annotation
• Synthèse / mise en forme / rédaction des
analyses
• Diffusion / partage
21. Exemple dans le cadre d’une enquête sociologique
(corpus primaire)
• Recherche / production des documents pertinents : réalisation
d’entretiens semi-directifs par enregistrement et retranscription
• Stockage / organisation de l’accès : stockage dans un répertoire ou dans
une base de donnée documentaire
• Organisation / classement / indexation [articulation externe] : utilisation
de différents critères permettant de classer les document (caractéristiques
des personnes interviewés, contexte, faits marquants…)
• Lecture / analyse / codage / annotation [articulation interne] : lecture des
entretiens, éventuellement utilisation d’un outil d’aide au repérage
automatique de certaines régularités (cf. Cassandre) et indexation selon
des catégories pertinentes, codage interprétatif (manuel) des expressions,
ajouts d’annotations…
• Synthèse / mise en forme / rédaction des analyses [articulation
externe/interne] : extraction semi-automatique des extraits codés et
comparaisons selon les critère d’articulation interne, rédaction des
analyses…
• Diffusion / partage : partage avec d’autres analystes des documents
primaires (entretiens) des extraits d’entretiens codé, pré-diffusion à
d’autres chercheurs à l’intérieur de « l’équipe projet » ou situés dans
d’autres institutions, etc.
23. Caractérisation des corpus dans les
disciplines de l’interaction
(Atifi, Lejeune, Ninova, Zacklad)
• Trois exemples : sociologie qualitative, psychologie
ergonomique linguistique interactionnelle
• Disciplines qui constituent souvent des corpus « ad hoc »
par entretien, questionnaire, observation… (cf. infra)
• Différences en termes de modalités d’enregistrement et de
retranscription
• Différence en termes de représentativité des échantillons
constitués
• Différence en termes de modalité de découpage des
morphèmes ou des ennoncés pertinent
• Importance variable du « saut interprétatif » dans les
opérations de codage
• Etc.
24. La gestion des corpus ne concerne pas
uniquement la linguistique de corpus
• …mais celle-ci dispose d’un statut instrumental privilégié eu
égard aux autres disciplines :
– Toutes les SHS en tant qu’elle participent des sciences de la
culture impliquent la gestion d’un « corpus primaire » qui
peut être constitué de différentes manières
– L’analyse des régularités à l’intérieur du corpus par le
processus de codage revient à une identification de genres
– Ces genres correspondent bien aux normes (Rastier)
gouvernant la production des « œuvres » réalisées par les
acteurs ou gouvernant les situations d’interaction
• Le champ de notre réflexion sur les collaboratoires ne couvre
pas que les disciplines de l’interaction : histoire, littérature,
archéologie…
26. Trois types de corpus selon la mise
en œuvre
• Les corpus primaires sont ceux qui constituent la base
« empirique » de la recherche et à partir desquels seront
élaborées les conclusions de l’enquête
• Les corpus secondaires sont constitués par des documents
qui contribuent à l’étude des sources primaires :
documents produits à l’issue d’autres enquêtes similaires,
ouvrages méthodologiques, plan de codage.
• Etat de l’art
• Document méthodologiques
• Outils de traitement logiciel
• Les corpus tertiaires sont constitués par les productions
originales de l’enquête, dans un état intermédiaire ou final
27. Analyse différentielle interne
Corpus Secondaire
Analyse différentielle interne
Analyse différentielle interne
Mise en relation externe
Corpus Primaire
Corpus Tertiaire
29. Affinage progressif du corpus selon Rastier
(2002)
– « 1/ L’archive contient l’ensemble des documents
accessibles. Elle n’est pas un corpus, parce qu’elle n’est pas
constituée pour une recherche déterminée.
– 2/ Le corpus de référence est constitué par ensemble de
textes sur lequel on va contraster les corpus d’étude.
– 3/ Le corpus d’étude est délimité par les besoins de
l’application.
– 4/ Enfin le sous-corpus de travail en cours varie selon les
phases de l’étude et peut ne contenir que des passages
pertinents du texte ou des textes étudiés »
– [Pour certaines applications informatiques, il faut encore
distinguer, au cours de leur développement, le corpus
d’apprentissage, le corpus de test, le corpus de validation]
30. Selon notre approche : trois axes
d’affinage
• L’axe qui va du potentiel à l’effectif par
sélection/génération des documents pertinents:
corpus potentiel/corpus effectif
• L’axe qui va du global au local par sélection de
certains documents dans un ensemble ou de
certains extraits d’un document par le document
global : corpus global/corpus de travail
• L’axe qui va du virtuel à l’explicite, en explicitant
les catégories de mise en relation et en justifiant
la cohérence du corpus : corpus virtuel/corpus
attesté (articulé, explicité)
31. Corpus potentiel (et virtuel)
Corpus effectif global & virtuel (on
ne sait pas encore s’il permettra
d’éprouver les hypothèses de
l’enquête)
Corpus de
travail (virtuel)
Corpus de
travail (virtuel)
Corpus de
travail (virtuel)
Corpus de
travail
(attesté)
Corpus de
travail
(attesté)
Corpus de
travail
(attesté)
Corpus global attesté (articulation des fragments
documentaires et des documents à l’aide d’un SOC
servant à l’annotation et l’étiquetage et permettant
de tirer des conclusions)
33. Rappel sur la notion d’archive en
sciences de l’information
• Archive d’un organisme : courante, intermédiaire,
définitive
• Le corpus est une archive documentaire constituée par
le chercheur à fin d’enquête
– Le corpus passe lui-même par ces différentes étapes selon
la progression de la recherche (courante, intermédiaire,
définitive)
• Les corpus primaires peuvent être :
– Constituées par des documents produits par les
organismes ou acteurs enquêtés eux-mêmes « archive
vernaculaire » à caractère public ou privé
– Constituée par des documents faisant l’objet d’une
création répondant besoin de l’enquête : archive
constituée par des document ad hoc ou « archive ad hoc »
34. Constitution des corpus primaires à partir
d’archives vernaculaires
Archive définitive
Archive intermédiaire
Archive courante
Bibliothèque et fond
d’archive papier,
archive web
Recueil de documents
administratifs,
prélèvement sur des sites
web d’archive
intermédiaire, forum
archivés, etc.
Prélèvement par
échantillonnage des
documents produits
sous forme papier ou
numérique par les
organismes et acteurs
notamment sur le
web
Accès privé Fond d’archive privé
Recueil de fonds
d’archive au sein
d’entreprises ou chez des
particuliers (intranets,
collections privées…)
Prélèvement par
échantillonnage des
documents produits
par les entreprises et
particuliers
Accès
public
35. Constitution des corpus primaires à
partir d’archives ad hoc
• On peut établir une distinction :
– Selon le caractère plus ou moins libre ou contraint
des productions sémiotiques (qualitatifs vs
quantitatif)
– Selon le mode de constitution plus ou moins
« participatif » des productions sémiotiques
(langagière, filmique…)
36. Enregistrement
avec interaction
verbale directe du
chercheur avec les
sujets
Enregistrement en
« situation naturelle »
sans interaction
verbale provoquée
avec le chercheur (ou
avec peu d’interaction
verbale)
Enregistrement du
comportement à partir de
situations provoquées
par le chercheur mais
sans interaction verbale
avec lui (ou peu)
Productions
sémiotique
libres
(qualitatives )
Entretien semi ou
non directif,
observation
participantes
Méthodes
ethnographiques non
participantes (à partir
de situations
naturelles)
Psychologie sociale
expérimentale
Production
sémiotique
contraintes
(données)
Questionnaires
Enregistrement partiel
d’indice
comportementaux (à
partir de situations
naturelles)
Expérience de type
psychophysique
38. Formes de coopération
• Le chercheur dans des phases de travail
individuelles
• Coopération active : un collectif de chercheurs
appartenant à un même projet dans le cadre
d’une division du travail organisée
• Coopération passive : un collectif de
chercheurs n’appartenant pas au même projet
mais mettant à disposition des ressources au
bénéfice de la communauté.
39. Approche monoacteur
Approche multi-acteurs
et coordination active
Approche multi-acteurs
& coopération passive
Articulation intradocumentaire
Un acteur engagé dans Plusieurs acteurs
le ttmt d’un document travaillant sur le même
document dans le cadre
d’un projet
Plusieurs acteurs
mettant à disposition
sur le web un document
partiellement travaillé
Articulation interdocumentaire
homogène
Un acteur engagé dans
le ttmt comparatif de
plusieurs documents
du même type de
corpus (p.e. primaire)
Plusieurs acteurs
engagés dans le ttmt
comparatif de plusieurs
document du même
type de corpus dans le
cadre d’un projet
Plusieurs acteurs
mettant à disposition
sur le web des
documents appartenant
à un corpus
Articulation interdocumentaire
hétérogène
Un acteur engagé dans
le ttmt de documents
appartenant à
plusieurs types de
corpus
Plusieurs acteurs
mettant en relation des
documents appartenant
à plusieurs types de
corpus dans le cadre
d’un projet
Plusieurs acteurs
mettant à disposition
sur le web des
documents appartenant
à plusieurs types de
corpus
41. Exemple de l’articulation d’un
corpus primaire et secondaire
• Les frontières du corpus primaire peuvent
évoluer au cours de la recherche : cette évolution
peut entrainer un élargissement du corpus
secondaire (référence bibliographique associées,
autres monographies…)
• Inversement les associations réalisées à
l’intérieur du corpus secondaire peuvent ellesmêmes influencer la définition des contours du
corpus primaire : recherche de sources nouvelles
42. Evolutions des corpus primaires et
secondaires
Ensemble fermé de
documents secondaires
Ensemble ouvert de
documents secondaires
Ensemble fermé Base fixe (stade final de la
de documents
recherche)
primaires
Le traitement des
documents primaires suscite
la recherche de nouveaux
documents secondaires
(formulation de nouvelles
hypothèses)
Ensemble
ouvert de
documents
primaires
Coévolution du corpus
primaire et du corpus
secondaire (coévolution des
hypothèses et des
observables)
L’exploitation des
documents secondaires
suscite la recherche de
nouveaux documents
primaires (recherche de
nouveaux observables)
44. Différentes approches du sens
renvoyant à différentes technologies
• Les différents types de traitement requis dans le cadre de
l’usage des collaboratoires impliquent le recours à
différents types de technologies informatique
• Ces technologies reposent elles-mêmes sur des Systèmes
d’Organisation des Connaissances qui permettent de
réaliser des associations entre des fragments
documentaires et des documents d’un ou plusieurs corpus
• Ces associations sont rendues possibles par des opérations
de description préalable plus ou moins systématiques des
documents et de leur fragments qui se réalise de manière
différente selon qu’il s’agit d’un texte, d’une image, d’un
son, d’un film
45. Diversité des formes d’expression
documentaires
• Image fixes (p.e. A. Bénel et al.), film (p.e B. Bachimont, Y.
Prié), textes -> un très grand nombre de chercheurs dans
les domaines de l’ingénierie des connaissances, de la
linguistique de corpus et de la recherche d’information
(Aussenac, Bourrigault, Habert, Zweigenbaum, Charlet,
Chateauraynaud, Lejeune… etc.)
• Dans le cadre d’un texte le codage automatique peut porter
sur chaque morphème (terme ou mot) !
• Mais même dans le cas d’un texte, le découpage de la
séquence de caractères pertinents et son étiquetage relève
d’une opération de description exogène basée sur une
théorie linguistique plus ou moins explicite.
46. Processus d’étiquetage et d’annotation des fragments
documentaires
Etiquette ou annotation
concernant l’ensemble
du document
Y2
X1
A
Etiquetage ou
annotation
automatique, semiautomatique ou
manuelle d’un
document
Etiquette ou annotation
concernant des
fragments du
document
C
A
B
C
47. SOC élaboré = organisation des termes
élémentaire dans des réseaux de « concept
formels (ontologie), concepts
sémiotiques (ontologie sémiotique), descripteurs
(thésaurus)…
Association
intradocumentaire
C
A
B
A
S
A
C
M
B
B
P
C
C
Première Indexation du document basée sur des
fragments - SOC élémentaire = une liste de
descripteurs de bas niveau ancrée dans une zone du
document = termes, suite de caractères,
B
A
Association
interdocumentaire
49. Informations diverses sur le Web socio
sémantique (W2S)
• Origine au sein de l’Ingénierie des Connaissances mais
ouverture vers les sciences de l’information et de la
communication et les sciences du langage
• Issu de Tech-CICO mais en cours de diffusion dans
d’autres équipes ;-) (contact pris avec les communauté
« pragmatic web » et « topic map »)
• A la fois un cadre conceptuel et méthodologique et des
outils opérationnels : méta-sémiotique et protocole
Hypertopic et plusieurs logiciels open source
• Contributeurs principaux :
• Aurélien Bénel, Jean-Pierre Cahier, L’Hédi Zaher, Manuel
Zacklad (UTT – Tech-CICO) & Christophe Lejeune (Liège)
50. Web socio-sémantique :
une vision du web
• Le web socio-sémantique (W2S) est un système
documentaire ouvert facilitant des transactions
coopératives interpersonnelles éventuellement très
asynchrones et distribuées entre des acteurs individuels
et collectifs engagés dans des échanges, débats,
controverses, relevant de domaines très variés.
• Deux conséquences pour l’instrumentation du W2S :
• Les modalités et les outils de gestion des documents
doivent être pour partie conçus par les acteurs eux-mêmes
selon leur processus de coopération.
• Il est nécessaire de combiner plusieurs paradigmes d’accès
à l’information complémentaires.
51. Web socio-sémantique et Recherche
Ouverte d’Information
• Cette multiplicité des modes d’accès est ellemême associée à une vision originale de la
recherche d’information « la recherche
ouverte d’information » [information seeking
vs information retrieval cf. L’hédi Zaher]
• La RI est en fait de la « récupération
d’information » la ROI, qui inclut l’usage de la
RI, correspond effectivement à l’assistance à la
de la « recherche »
52. Trois paradigmes d’accès à l’information
selon le web socio-sémantique
• Paradigme de la requête basée sur des attributs standardisés
– monde clos en partie analogue au monde réel, sémantique
référentielle, schéma de base de donnée relationnelle ou objet,
ontologies formelles
• Paradigme de la navigation heuristique en utilisant des
attributs heuristiques (thèmes)
– cartes de thèmes , sémantique rhétorico/herméneutique, réseau
sémantique, ontologie sémiotique, hypertextes, premiers systèmes
experts
• Paradigme de la fouille dans des ressources documentaires
– moteurs de recherche, la sémantique dépend elle-même de la nature
du document.
– Mais le moteur peut utiliser lui-même deux types de sémantiques :
• référentielle sur des expressions dans la recherche de séquences,
• probabiliste (utilisation de la théorie de l’information)
53. Les trois paradigmes du W2S
Requêtes
(web sémantique, bases
de données…) –
sémantique formelle ou
référentielle
Navigation
(hypertexte, web socio
sémantique…) –
sémantique rhétoricoherméneutique
Recherche Ouverte
d’Information
Fouille (recherche de
séquences, TAL,
recherche
statistiques…) sémantique variable
54. Exemple de la recherche d’une personne
Navigation
(attributs
heuristiques) :
Goût
Opinion
Compétence
Requête (attribut
standard)
Nom
Age
Adresse
Fouille (document)
Photo
CV
55. Le web Socio Sémantique : donne une place aux
techniques relevant du paradigme de la
navigation
• Les systèmes d’organisation des connaissances
évolutifs requièrent une sémantique différente de la
sémantique référentielle -> pas exclusivement des
ontologies formelles ni de la fouille et ouverture vers
d’autres SOC
• Accent mis d’avantage dans nos travaux sur le « web
visible » que sur le « web invisible » (les bases de
données)
56. Les systèmes d’organisation des
connaissances qui relèvent du paradigme de
la navigation heuristique
• Classification documentaires, thésaurus,
ontologies sémiotiques… (structure hypertexte,
annuaire internet, index…) construites par des
gestionnaires de sites, des documentalistes, des
ingénieurs de la connaissance avec la
collaboration plus ou moins actives des usagers
(folksonomies)
• Exemple d’ontologie sémiotique : des cartes de
thèmes (Cahier, 2005) ou réseaux de description
(Bénel, 2003) [niveau des ontologies
différentielles définies de la méthodologie
Archonte de Bachimont]
58. RIO, web socio sémantique &
sémantique, IC
• Les méthodes de l’IC contribuent à la
recherche ouverte d’information et devraient
combiner les trois approches : navigation,
requêtes formelles, fouille
• La recherche ouverte d’information vise à
caractériser une situation, une entité, un
projet : nous parlerons dans la
métasémiotique HyperTopic d’un ITEM
59. Point de vue : caractérisations
concurrentes de l’item
NAVIGATION
Corrélation A
Thèmes :
thématisation heuristique
de l’item
Système expert
Item : identifiant de la situation ou
de l’artefact objet de d’enquête
Corrélation C
Attributs standards :
spécification référentielle
de l’Item
Ressources :
documentation de l’item
Corrélation B
REQUETE
Système de gestion
documentaire
Système
hypertexte
FOUILLE
Association entre différentes formes de
caractérisation de l’ITEM correspondant à
différents types de corrélation
60. HyperTopic : système d’organisation
des connaissances pour la recherche
ouverte d’information
61. HyperTopic : trois approches de l’item
Thématisation
heuristique (liens
hypertextes)
Ontologies sémiotiques
(thèmes ou attributs heuristiques)
Point de vue
Thème
Attributs standards
Item
Ressources
Ressources
Spécification
référentielle : objets
et concepts
(requêtes logiques)
Documentation de
l’item (fouille de texte)
Manuel Zacklad - Tech-CICO/UTT - ACSICAIS
61
62. Notion de point de vue
• C’est la diversité des formes de caractérisation de l’item
selon les communautés professionnelles, d’intérêt, de
pratiques ou les hypothèses en cours d’examen qui justifie
le recours à plusieurs thématisations potentiellement
concurrentes de l’item (Bénel, 2003 et Cahier 2005).
• C’est également la multiplicité des points de vue qui
structure le raisonnement heuristique en permettant selon
les tâches de faire varier les caractérisations de l’item.
• Dans les exemples canoniques du raisonnement diagnostic
en médecine, un problème médical peut être décrit selon
le point de vue des symptômes (point de vue des patients)
ou selon celui des processus physiopathologiques en cause
(point de vue des médecins).
63. Hypertopic : le protocole, dispositif
pivot pour la recherche ouverte
d’information
64. Inférences pragmatiques au cours de
la navigation
• La métasémiotique Hypertopic, est opérationnalisée à
l’aide de XML
• Le protocole HT V 1.0 développé en REST permet de
naviguer dans les ressources documentaires selon une
logique hypertextuelle et facilite la recherche ouverte
d’information au sein des corpus.
• En assistant la navigation, le protocole Hypertopic
permet de réaliser des associations entre thèmes,
ressources documentaires et attributs standardisés,
dont on peut considérer qu’elles relèvent d’inférences
pragmatiques correspondant à l’exploitation
d’association heuristiques entre divers éléments.
67. Agorae FT (Cahier
2005)
Porphyry Paestum
(Bénel, 2006)
DKN-SEQXAM (Zaher,
2006b)
Cassandre (Erpicum
& Lejeune 2005)
Item Projet de R&D
dans le domaine des
télécoms
Points de vue
technologique; d’usage;
de l’offre commerciale;
du client ; etc.
Item Vase /Scène figurée
/Élément figuratif
Item Article scientifique
Item Entretien
sociologique
Points de vue Projets de
recherche en archéologie
et en histoire de l’art
Points de vue Ceux des
différents membres du
projet
Points de vue Analyse
sociologique des
facteurs de
mobilisation
Attribut standard Date
de début; statut du
projet; etc.
Attribut standard Musée
ou collection privée,
Numéro d’inventaire
Attribut standard
Attribut standard Nom
Attributs
de l'acteur, date et lieu
bibliographiques standard de l'entretien
Thèmes IPV6; Services
Web; voyages; santé;
économies de bande
passante, etc. (1500
thèmes)
Thèmes Analyse de la
forme du vase, des scènes
figurées, de la technique
de fabrication…
Thèmes bacteria;
bordetella spp; genome
sequence; compartment,
etc. (400 thèmes)
Thèmes défi
technique, distinction
sociale, engagement
politique,
socialisation…
Ressources Sites Web
ou Pièces Jointes
descriptifs du détail des
projets
Ressources Un dossier
Ressources Textes des
photo par vase, une photo articles, et fragments de
par scène figurée, un
ces textes
fragment photo par
élément figuratif
Ressources Passages
(textuel) de l'entretien
68. Le client Agorae pour la gestion
participative de ressources
documentaires
(Zaher, Cahier et al.)
69. Le client HyperTopic Agoræ : exploration selon le point de vue des cursus de l’UTT
(a) point de vue (un établissement) (b) thème (un cursus) (b’) sous-thèmes (des
noms d’UV et leurs problématiques),
70. (c) item (un cours), (d) attribut standard/valeur (auteur, dernière modification…) (e)
ressource documentaire (ici des transparents). Les « Tags » permettent aux
utilisateurs de proposer d’autres sous-thèmes selon une méthode « ascendante ».
Ceux-ci peuvent ensuite être intégrés aux ontologies sémiotiques associées aux
points de vue.
71. La même utilisation d’Hypertopic avec un
autre client dédié à la gestion des images
Porphyry
(Bénel et al.)