SlideShare une entreprise Scribd logo
1  sur  75
Télécharger pour lire hors ligne
Principes de caractérisation des
collaboratoires en SHS et apport du
web socio-sémantique
Manuel Zacklad
(et équipe web socio-sémantique
J.P. Cahier, A. Bénel, H. Zaher, C. Zhou, C. Lejeune)

Université de Technologie de Troyes
Equipe Tech-CICO (Technologie de la Coopération pour
l’Innovation et le Changement Organisationnel)
UTT ICD/Tech-CICO - FRE CNRS 2848
Manuel Zacklad - Tech-CICO/UTT – Séminaire Lyon

1
Disciplines sollicitées par les
collaboratoires
• La gestion des collaboratoires en SHS (projet Adonis?)
implique de croiser plusieurs perspectives
disciplinaires:
– Linguistique de corpus (importance des corpus abordés
dans une perspective élargie)
– Sciences de l’information et de la communication (gestion
et diffusion des documents)
– CSCW (Computer Supported Cooperative Work)
– Ingénierie des Connaissances (approche technique et
épistémologique des SOC)
– Sociologie des sciences et épistémologie

• Atout de l’équipe Tech-CICO dans cette perspective
pluridisciplinaire
Objectif de l’exposé
• Proposer une description « originale » des
collaboratoires en SHS
• Introduire la vision du web socio-sémantique et
HyperTopic qui permet l’association de plusieurs
logiciels open source
• On parlera d’avantage des collaboratoires que du
web socio-sémantique -> pour une autre fois ;-)
• Dimension méthodologique et programmatique
Projets de Tech-CICO sur les collaboratoires
• Initiateur de l’approche web socio-sémantique et
recherche ouverte d’information
• Initiateur de la méta-sémiotique (langage de représentation
des connaissances) et du protocole HyperTopic permettant
l’intégration de plusieurs serveurs et client (avec
application dans des disciplines SHS) :
– Agorae : gestion participative et multipoint de vue de ressources
documentaires (Cahier, Zaher) : recherche en sociologie des
sciences
– Porphyry : gestion multipoints de vue d’images (Bénel anciennement projet dirigé par A. Iacovella) : recherche en
archéologie
– En lien avec liège : Cassandre - gestion de corpus textuels (C.
Lejeune): recherche en sociologie

• Thèse sur une méthodologie transdisciplinaire de gestion
de corpus dans les disciplines de l’interaction (Atifi, Ninova)
Les collaboratoires des sciences
expérimentales aux SHS
Origine des collaboratoires
• Origine dans le domaine des sciences de la nature et
de la vie pour la mutualisation des données issues
d’équipements lourds :
– consécutive à la généralisation de l’informatisation de ces
équipements,
– et à la généralisation de leur mise en réseau via internet

• Objectif initial : partage des équipements et des
données qu’ils produisent avec d’autres chercheurs
« distants » (collaboratory = collaborative laboratory)
• Elargissement à la problématique du travail coopératif
entre les chercheurs à partir de ces données -> CSCW
(Computer Supported Cooperative Work)
Collaboratoires en SHS : numérisation des
archives, des bibliothèques, des productions
intermédiaires de la recherche
• Les équipements lourds des SHS sont les archives et les
bibliothèques
• Leur numérisation massive et la diffusion d’internet
offre les mêmes opportunités que celles qui avaient
été offertes aux sciences dures
• Ces opportunités sont encore renforcées par les
facilités de circulation et de partage des documents en
cours d’élaboration (résultats intermédiaire, rapport,
pré-diffusion…) :
– Problématique des documents pour l’action, des archives
ouvertes, du rôle des bibliothèques dans la gestion des
archives courantes et intermédiaires des chercheurs
Trois hypothèses de travail
Première hypothèse de travail : mutation
méthodologique et épistémologique
• La généralisation des collaboratoires en SHS
induit une mutation plus profonde que dans les
sciences de la vie et de la nature
– Le travail coopératif et la mise en commun des
sources était une pratique courante

• Dans les SHS, la généralisation des collaboratoires
est susceptible produire une renouvellement
profond des méthodes de travail et à terme des
fondements épistémologiques de plusieurs
disciplines
• Hypothèse semble-t-il partagée avec Adonis (?)
Justification
• Les difficultés de recueil et de partage des corpus en
SHS explique le biais quantitatif de plusieurs disciplines
(préférence pour les « données »)
– la numérisation est susceptible d’y remédier largement

• Quand les méthodes qualitatives sont mises en œuvre
elles souffrent de plusieurs faiblesses notamment en
terme de partage des sources et d’objectivation des
méthodes de « codage » dans le cadre du processus
d’interprétation
– la numérisation est également susceptible de contribuer à
pallier à ce défaut
Deuxième hypothèse de travail : nécessité
d’élargir les acceptions du « corpus »
• La problématique des collaboratoires en SHS
excède les questions posées par la linguistique de
corpus tout en repositionnant la linguistique
comme une discipline pivot à plusieurs titres
• Les acceptions du corpus doivent être plus large
et inclure également des problématiques
associées aux environnement documentaires
facilitant la génération de nouvelles productions
sémiotiques (atelier d’écriture)
Troisième hypothèse de travail :
importance des approches relevant du web
socio-sémantique
• La conception des collaboratoires implique ellemême des méthodes et une méthode et une
épistémologie renouvelé de la gestion de
l’information qui combine les apports de la
recherche d’information et des systèmes
d’organisation des connaissances formels et
heuristiques
• Importance des recherches conduites dans le
champ du web socio-sémantique et des modèles
et outils « Hypertopic »
Définitions du corpus
A propos des définitions
• « Un corpus est une collection de données langagières
qui sont sélectionnées et organisées selon des critères
linguistiques et extra-linguistiques explicites pour servir
d’échantillon d’emplois déterminés d’une langue »
(Habert 2000). »
• « Un corpus est un regroupement structuré de textes
intégraux, documentés, éventuellement enrichis par
des étiquetages, et rassemblés : (i) de manière
théorique réflexive en tenant compte des discours et
des genres, et (ii) de manière pratique en vue d’une
gamme d’applications. » (Rastier 2002)
Préférence pour l’approche
documentaire renouvellée
• Aux « données langagières » et aux « textes » nous
préférons la référence au document
• Renouvellement des réflexions sur le document :
– Le document définit comme une production sémiotique inscrite
dans un projet transactionnel délibéré (cf. le discours),
enregistrée ou retranscrite sur un support pérenne et
explicitement « documentarisé » par ses créateurs ou ses
utilisateurs
– Elargissement de la notion de corpus à d’autres modalités
d’expression (image, film, enregistrement audio…)
– Le document implique la prise en considération des supports
des « production sémiotique » qui les véhiculent et qui
déterminent les conditions de leur création et de leur réception
(approche suivie dans le système « Prospero » Chateauraynaud)
Définition d’un corpus documentaire
• Un corpus documentaire est une archive structurée de
documents sélectionnés et/ou produits de manière
systématique(1) pour permettre le déroulement d’une
enquête(2).
• La pertinence du corpus est virtuelle (corpus virtuel) tant que
la justification de la sélection n’aura pas été produite par une
analyse comparative explicitant les formes d’association entre
les documents et les fragments documentaires rassemblés.
Cette explicitation, produisant le corpus effectif, est réalisée à
partir de systèmes d’organisation des connaissances
(permettant l’annotation ou l’étiquetage).
• En toute rigueur le corpus doit être conçu comme une
collection documentaire mouvante soumise à un processus
d’articulation progressif justifiant l’appartenance des
documents à la collection.
(1)
(2)

Dans un contexte de « rationalité limité » ou de « réflexivité » (cf. Damon Mayaffre)
Au sens générique du pragmatisme et pas au sens restreint d’enquête sociologique
Caractérisation des corpus et des
fonctionnalités des collaboratoires
Différentes dimensions pour la
caractérisation des corpus
• La classification des corpus permet la définition des
fonctionnalités des collaboratoires
– Statut des corpus selon les disciplines
– Approche du corpus selon la mise en œuvre de la
recherche : primaire, secondaire, tertiaire
– Approche du corpus par affinage successif :
potentiel/effectif , virtuel/attesté, global/de travail
– Caractérisation des corpus primaires selon les méthodes
de constitution
– Approche des collaboratoires (et de l’articulation entre les
corpus) selon les formes de coopération (mono-acteur,
coopération active, coopération passive)
Rappel sur les opérations de base
portant sur un corpus
documentaire
Constitution et exploitation d’un corpus
documentaire dans un contexte de
collaboratoire
• Recherche / production des documents
pertinents
• Stockage / organisation de l’accès
• Organisation / classement / indexation
• Lecture / analyse / codage / annotation
• Synthèse / mise en forme / rédaction des
analyses
• Diffusion / partage
Exemple dans le cadre d’une enquête sociologique
(corpus primaire)
• Recherche / production des documents pertinents : réalisation
d’entretiens semi-directifs par enregistrement et retranscription
• Stockage / organisation de l’accès : stockage dans un répertoire ou dans
une base de donnée documentaire
• Organisation / classement / indexation [articulation externe] : utilisation
de différents critères permettant de classer les document (caractéristiques
des personnes interviewés, contexte, faits marquants…)
• Lecture / analyse / codage / annotation [articulation interne] : lecture des
entretiens, éventuellement utilisation d’un outil d’aide au repérage
automatique de certaines régularités (cf. Cassandre) et indexation selon
des catégories pertinentes, codage interprétatif (manuel) des expressions,
ajouts d’annotations…
• Synthèse / mise en forme / rédaction des analyses [articulation
externe/interne] : extraction semi-automatique des extraits codés et
comparaisons selon les critère d’articulation interne, rédaction des
analyses…
• Diffusion / partage : partage avec d’autres analystes des documents
primaires (entretiens) des extraits d’entretiens codé, pré-diffusion à
d’autres chercheurs à l’intérieur de « l’équipe projet » ou situés dans
d’autres institutions, etc.
Approche des corpus selon les
disciplines
Caractérisation des corpus dans les
disciplines de l’interaction
(Atifi, Lejeune, Ninova, Zacklad)
• Trois exemples : sociologie qualitative, psychologie
ergonomique linguistique interactionnelle
• Disciplines qui constituent souvent des corpus « ad hoc »
par entretien, questionnaire, observation… (cf. infra)
• Différences en termes de modalités d’enregistrement et de
retranscription
• Différence en termes de représentativité des échantillons
constitués
• Différence en termes de modalité de découpage des
morphèmes ou des ennoncés pertinent
• Importance variable du « saut interprétatif » dans les
opérations de codage
• Etc.
La gestion des corpus ne concerne pas
uniquement la linguistique de corpus
• …mais celle-ci dispose d’un statut instrumental privilégié eu
égard aux autres disciplines :
– Toutes les SHS en tant qu’elle participent des sciences de la
culture impliquent la gestion d’un « corpus primaire » qui
peut être constitué de différentes manières
– L’analyse des régularités à l’intérieur du corpus par le
processus de codage revient à une identification de genres
– Ces genres correspondent bien aux normes (Rastier)
gouvernant la production des « œuvres » réalisées par les
acteurs ou gouvernant les situations d’interaction
• Le champ de notre réflexion sur les collaboratoires ne couvre
pas que les disciplines de l’interaction : histoire, littérature,
archéologie…
Vision du corpus selon les étapes
de mise en œuvre
Trois types de corpus selon la mise
en œuvre
• Les corpus primaires sont ceux qui constituent la base
« empirique » de la recherche et à partir desquels seront
élaborées les conclusions de l’enquête
• Les corpus secondaires sont constitués par des documents
qui contribuent à l’étude des sources primaires :
documents produits à l’issue d’autres enquêtes similaires,
ouvrages méthodologiques, plan de codage.
• Etat de l’art
• Document méthodologiques
• Outils de traitement logiciel

• Les corpus tertiaires sont constitués par les productions
originales de l’enquête, dans un état intermédiaire ou final
Analyse différentielle interne

Corpus Secondaire

Analyse différentielle interne

Analyse différentielle interne

Mise en relation externe

Corpus Primaire

Corpus Tertiaire
Vision du corpus par affinage
Affinage progressif du corpus selon Rastier
(2002)
– « 1/ L’archive contient l’ensemble des documents
accessibles. Elle n’est pas un corpus, parce qu’elle n’est pas
constituée pour une recherche déterminée.
– 2/ Le corpus de référence est constitué par ensemble de
textes sur lequel on va contraster les corpus d’étude.
– 3/ Le corpus d’étude est délimité par les besoins de
l’application.
– 4/ Enfin le sous-corpus de travail en cours varie selon les
phases de l’étude et peut ne contenir que des passages
pertinents du texte ou des textes étudiés »
– [Pour certaines applications informatiques, il faut encore
distinguer, au cours de leur développement, le corpus
d’apprentissage, le corpus de test, le corpus de validation]
Selon notre approche : trois axes
d’affinage
• L’axe qui va du potentiel à l’effectif par
sélection/génération des documents pertinents:
corpus potentiel/corpus effectif
• L’axe qui va du global au local par sélection de
certains documents dans un ensemble ou de
certains extraits d’un document par le document
global : corpus global/corpus de travail
• L’axe qui va du virtuel à l’explicite, en explicitant
les catégories de mise en relation et en justifiant
la cohérence du corpus : corpus virtuel/corpus
attesté (articulé, explicité)
Corpus potentiel (et virtuel)

Corpus effectif global & virtuel (on
ne sait pas encore s’il permettra
d’éprouver les hypothèses de
l’enquête)

Corpus de
travail (virtuel)

Corpus de
travail (virtuel)

Corpus de
travail (virtuel)

Corpus de
travail
(attesté)

Corpus de
travail
(attesté)

Corpus de
travail
(attesté)

Corpus global attesté (articulation des fragments
documentaires et des documents à l’aide d’un SOC
servant à l’annotation et l’étiquetage et permettant
de tirer des conclusions)
Caractérisation des corpus
primaires selon les méthodes de
constitution
Rappel sur la notion d’archive en
sciences de l’information
• Archive d’un organisme : courante, intermédiaire,
définitive
• Le corpus est une archive documentaire constituée par
le chercheur à fin d’enquête
– Le corpus passe lui-même par ces différentes étapes selon
la progression de la recherche (courante, intermédiaire,
définitive)

• Les corpus primaires peuvent être :
– Constituées par des documents produits par les
organismes ou acteurs enquêtés eux-mêmes « archive
vernaculaire » à caractère public ou privé
– Constituée par des documents faisant l’objet d’une
création répondant besoin de l’enquête : archive
constituée par des document ad hoc ou « archive ad hoc »
Constitution des corpus primaires à partir
d’archives vernaculaires
Archive définitive

Archive intermédiaire

Archive courante

Bibliothèque et fond
d’archive papier,
archive web

Recueil de documents
administratifs,
prélèvement sur des sites
web d’archive
intermédiaire, forum
archivés, etc.

Prélèvement par
échantillonnage des
documents produits
sous forme papier ou
numérique par les
organismes et acteurs
notamment sur le
web

Accès privé Fond d’archive privé

Recueil de fonds
d’archive au sein
d’entreprises ou chez des
particuliers (intranets,
collections privées…)

Prélèvement par
échantillonnage des
documents produits
par les entreprises et
particuliers

Accès
public
Constitution des corpus primaires à
partir d’archives ad hoc
• On peut établir une distinction :
– Selon le caractère plus ou moins libre ou contraint
des productions sémiotiques (qualitatifs vs
quantitatif)
– Selon le mode de constitution plus ou moins
« participatif » des productions sémiotiques
(langagière, filmique…)
Enregistrement
avec interaction
verbale directe du
chercheur avec les
sujets

Enregistrement en
« situation naturelle »
sans interaction
verbale provoquée
avec le chercheur (ou
avec peu d’interaction
verbale)

Enregistrement du
comportement à partir de
situations provoquées
par le chercheur mais
sans interaction verbale
avec lui (ou peu)

Productions
sémiotique
libres
(qualitatives )

Entretien semi ou
non directif,
observation
participantes

Méthodes
ethnographiques non
participantes (à partir
de situations
naturelles)

Psychologie sociale
expérimentale

Production
sémiotique
contraintes
(données)

Questionnaires

Enregistrement partiel
d’indice
comportementaux (à
partir de situations
naturelles)

Expérience de type
psychophysique
Caractéristiques de l’accès au corpus
selon les formes de coopération
Formes de coopération
• Le chercheur dans des phases de travail
individuelles
• Coopération active : un collectif de chercheurs
appartenant à un même projet dans le cadre
d’une division du travail organisée
• Coopération passive : un collectif de
chercheurs n’appartenant pas au même projet
mais mettant à disposition des ressources au
bénéfice de la communauté.
Approche monoacteur

Approche multi-acteurs
et coordination active

Approche multi-acteurs
& coopération passive

Articulation intradocumentaire

Un acteur engagé dans Plusieurs acteurs
le ttmt d’un document travaillant sur le même
document dans le cadre
d’un projet

Plusieurs acteurs
mettant à disposition
sur le web un document
partiellement travaillé

Articulation interdocumentaire
homogène

Un acteur engagé dans
le ttmt comparatif de
plusieurs documents
du même type de
corpus (p.e. primaire)

Plusieurs acteurs
engagés dans le ttmt
comparatif de plusieurs
document du même
type de corpus dans le
cadre d’un projet

Plusieurs acteurs
mettant à disposition
sur le web des
documents appartenant
à un corpus

Articulation interdocumentaire
hétérogène

Un acteur engagé dans
le ttmt de documents
appartenant à
plusieurs types de
corpus

Plusieurs acteurs
mettant en relation des
documents appartenant
à plusieurs types de
corpus dans le cadre
d’un projet

Plusieurs acteurs
mettant à disposition
sur le web des
documents appartenant
à plusieurs types de
corpus
Exemple des problématiques posées
par la mise en relation des différents
types de corpus
Exemple de l’articulation d’un
corpus primaire et secondaire
• Les frontières du corpus primaire peuvent
évoluer au cours de la recherche : cette évolution
peut entrainer un élargissement du corpus
secondaire (référence bibliographique associées,
autres monographies…)
• Inversement les associations réalisées à
l’intérieur du corpus secondaire peuvent ellesmêmes influencer la définition des contours du
corpus primaire : recherche de sources nouvelles
Evolutions des corpus primaires et
secondaires
Ensemble fermé de
documents secondaires

Ensemble ouvert de
documents secondaires

Ensemble fermé Base fixe (stade final de la
de documents
recherche)
primaires

Le traitement des
documents primaires suscite
la recherche de nouveaux
documents secondaires
(formulation de nouvelles
hypothèses)

Ensemble
ouvert de
documents
primaires

Coévolution du corpus
primaire et du corpus
secondaire (coévolution des
hypothèses et des
observables)

L’exploitation des
documents secondaires
suscite la recherche de
nouveaux documents
primaires (recherche de
nouveaux observables)
Quelles technologies documentaires et
informationnelles pour les
collaboratoires ?
Différentes approches du sens
renvoyant à différentes technologies
• Les différents types de traitement requis dans le cadre de
l’usage des collaboratoires impliquent le recours à
différents types de technologies informatique
• Ces technologies reposent elles-mêmes sur des Systèmes
d’Organisation des Connaissances qui permettent de
réaliser des associations entre des fragments
documentaires et des documents d’un ou plusieurs corpus
• Ces associations sont rendues possibles par des opérations
de description préalable plus ou moins systématiques des
documents et de leur fragments qui se réalise de manière
différente selon qu’il s’agit d’un texte, d’une image, d’un
son, d’un film
Diversité des formes d’expression
documentaires
• Image fixes (p.e. A. Bénel et al.), film (p.e B. Bachimont, Y.
Prié), textes -> un très grand nombre de chercheurs dans
les domaines de l’ingénierie des connaissances, de la
linguistique de corpus et de la recherche d’information
(Aussenac, Bourrigault, Habert, Zweigenbaum, Charlet,
Chateauraynaud, Lejeune… etc.)
• Dans le cadre d’un texte le codage automatique peut porter
sur chaque morphème (terme ou mot) !
• Mais même dans le cas d’un texte, le découpage de la
séquence de caractères pertinents et son étiquetage relève
d’une opération de description exogène basée sur une
théorie linguistique plus ou moins explicite.
Processus d’étiquetage et d’annotation des fragments
documentaires
Etiquette ou annotation
concernant l’ensemble
du document

Y2

X1

A
Etiquetage ou
annotation
automatique, semiautomatique ou
manuelle d’un
document

Etiquette ou annotation
concernant des
fragments du
document

C
A
B
C
SOC élaboré = organisation des termes
élémentaire dans des réseaux de « concept
formels (ontologie), concepts
sémiotiques (ontologie sémiotique), descripteurs
(thésaurus)…

Association
intradocumentaire

C
A
B
A

S

A

C

M
B

B
P

C

C
Première Indexation du document basée sur des
fragments - SOC élémentaire = une liste de
descripteurs de bas niveau ancrée dans une zone du
document = termes, suite de caractères,

B
A

Association
interdocumentaire
Un cadre pluri-sémantique pour les
collaboratoires : l’approche du web
socio-sémantique
Informations diverses sur le Web socio
sémantique (W2S)
• Origine au sein de l’Ingénierie des Connaissances mais
ouverture vers les sciences de l’information et de la
communication et les sciences du langage
• Issu de Tech-CICO mais en cours de diffusion dans
d’autres équipes ;-) (contact pris avec les communauté
« pragmatic web » et « topic map »)
• A la fois un cadre conceptuel et méthodologique et des
outils opérationnels : méta-sémiotique et protocole
Hypertopic et plusieurs logiciels open source
• Contributeurs principaux :
• Aurélien Bénel, Jean-Pierre Cahier, L’Hédi Zaher, Manuel
Zacklad (UTT – Tech-CICO) & Christophe Lejeune (Liège)
Web socio-sémantique :
une vision du web
• Le web socio-sémantique (W2S) est un système
documentaire ouvert facilitant des transactions
coopératives interpersonnelles éventuellement très
asynchrones et distribuées entre des acteurs individuels
et collectifs engagés dans des échanges, débats,
controverses, relevant de domaines très variés.
• Deux conséquences pour l’instrumentation du W2S :
• Les modalités et les outils de gestion des documents
doivent être pour partie conçus par les acteurs eux-mêmes
selon leur processus de coopération.
• Il est nécessaire de combiner plusieurs paradigmes d’accès
à l’information complémentaires.
Web socio-sémantique et Recherche
Ouverte d’Information
• Cette multiplicité des modes d’accès est ellemême associée à une vision originale de la
recherche d’information « la recherche
ouverte d’information » [information seeking
vs information retrieval cf. L’hédi Zaher]
• La RI est en fait de la « récupération
d’information » la ROI, qui inclut l’usage de la
RI, correspond effectivement à l’assistance à la
de la « recherche »
Trois paradigmes d’accès à l’information
selon le web socio-sémantique
• Paradigme de la requête basée sur des attributs standardisés
– monde clos en partie analogue au monde réel, sémantique
référentielle, schéma de base de donnée relationnelle ou objet,
ontologies formelles

• Paradigme de la navigation heuristique en utilisant des
attributs heuristiques (thèmes)
– cartes de thèmes , sémantique rhétorico/herméneutique, réseau
sémantique, ontologie sémiotique, hypertextes, premiers systèmes
experts

• Paradigme de la fouille dans des ressources documentaires
– moteurs de recherche, la sémantique dépend elle-même de la nature
du document.
– Mais le moteur peut utiliser lui-même deux types de sémantiques :
• référentielle sur des expressions dans la recherche de séquences,
• probabiliste (utilisation de la théorie de l’information)
Les trois paradigmes du W2S

Requêtes
(web sémantique, bases
de données…) –
sémantique formelle ou
référentielle

Navigation
(hypertexte, web socio
sémantique…) –
sémantique rhétoricoherméneutique
Recherche Ouverte
d’Information

Fouille (recherche de
séquences, TAL,
recherche
statistiques…) sémantique variable
Exemple de la recherche d’une personne
Navigation
(attributs
heuristiques) :
Goût
Opinion
Compétence

Requête (attribut
standard)
Nom
Age
Adresse

Fouille (document)
Photo
CV
Le web Socio Sémantique : donne une place aux
techniques relevant du paradigme de la
navigation
• Les systèmes d’organisation des connaissances
évolutifs requièrent une sémantique différente de la
sémantique référentielle -> pas exclusivement des
ontologies formelles ni de la fouille et ouverture vers
d’autres SOC
• Accent mis d’avantage dans nos travaux sur le « web
visible » que sur le « web invisible » (les bases de
données)
Les systèmes d’organisation des
connaissances qui relèvent du paradigme de
la navigation heuristique
• Classification documentaires, thésaurus,
ontologies sémiotiques… (structure hypertexte,
annuaire internet, index…) construites par des
gestionnaires de sites, des documentalistes, des
ingénieurs de la connaissance avec la
collaboration plus ou moins actives des usagers
(folksonomies)
• Exemple d’ontologie sémiotique : des cartes de
thèmes (Cahier, 2005) ou réseaux de description
(Bénel, 2003) [niveau des ontologies
différentielles définies de la méthodologie
Archonte de Bachimont]
HyperTopic : système pivot pour le
W2S et la RIO
RIO, web socio sémantique &
sémantique, IC
• Les méthodes de l’IC contribuent à la
recherche ouverte d’information et devraient
combiner les trois approches : navigation,
requêtes formelles, fouille
• La recherche ouverte d’information vise à
caractériser une situation, une entité, un
projet : nous parlerons dans la
métasémiotique HyperTopic d’un ITEM
Point de vue : caractérisations
concurrentes de l’item

NAVIGATION

Corrélation A

Thèmes :
thématisation heuristique
de l’item

Système expert

Item : identifiant de la situation ou
de l’artefact objet de d’enquête
Corrélation C

Attributs standards :
spécification référentielle
de l’Item

Ressources :
documentation de l’item
Corrélation B

REQUETE

Système de gestion
documentaire

Système
hypertexte

FOUILLE

Association entre différentes formes de
caractérisation de l’ITEM correspondant à
différents types de corrélation
HyperTopic : système d’organisation
des connaissances pour la recherche
ouverte d’information
HyperTopic : trois approches de l’item
Thématisation
heuristique (liens
hypertextes)

Ontologies sémiotiques
(thèmes ou attributs heuristiques)
Point de vue
Thème

Attributs standards
Item

Ressources

Ressources
Spécification
référentielle : objets
et concepts
(requêtes logiques)

Documentation de
l’item (fouille de texte)
Manuel Zacklad - Tech-CICO/UTT - ACSICAIS

61
Notion de point de vue
• C’est la diversité des formes de caractérisation de l’item
selon les communautés professionnelles, d’intérêt, de
pratiques ou les hypothèses en cours d’examen qui justifie
le recours à plusieurs thématisations potentiellement
concurrentes de l’item (Bénel, 2003 et Cahier 2005).
• C’est également la multiplicité des points de vue qui
structure le raisonnement heuristique en permettant selon
les tâches de faire varier les caractérisations de l’item.
• Dans les exemples canoniques du raisonnement diagnostic
en médecine, un problème médical peut être décrit selon
le point de vue des symptômes (point de vue des patients)
ou selon celui des processus physiopathologiques en cause
(point de vue des médecins).
Hypertopic : le protocole, dispositif
pivot pour la recherche ouverte
d’information
Inférences pragmatiques au cours de
la navigation
• La métasémiotique Hypertopic, est opérationnalisée à
l’aide de XML
• Le protocole HT V 1.0 développé en REST permet de
naviguer dans les ressources documentaires selon une
logique hypertextuelle et facilite la recherche ouverte
d’information au sein des corpus.
• En assistant la navigation, le protocole Hypertopic
permet de réaliser des associations entre thèmes,
ressources documentaires et attributs standardisés,
dont on peut considérer qu’elles relèvent d’inférences
pragmatiques correspondant à l’exploitation
d’association heuristiques entre divers éléments.
PhP, Ajax…

Porphyry

Agorae

Java

Protocole HyperTopic
basé sur REST

Webdav

Sfqs*
Qsdf
sdqf
Sfqs*
Qsdf
sdqf

Sfqs*
Qsdf
sdqf

Bdd
Postgress
SQL

Argos

Cassandre

Sfqs*
Qsdf
sdqf

Sfqs*
Qsdf
sdqf
Exemples d’applications
Agorae FT (Cahier
2005)

Porphyry Paestum
(Bénel, 2006)

DKN-SEQXAM (Zaher,
2006b)

Cassandre (Erpicum
& Lejeune 2005)

Item Projet de R&D
dans le domaine des
télécoms
Points de vue
technologique; d’usage;
de l’offre commerciale;
du client ; etc.

Item Vase /Scène figurée
/Élément figuratif

Item Article scientifique

Item Entretien
sociologique

Points de vue Projets de
recherche en archéologie
et en histoire de l’art

Points de vue Ceux des
différents membres du
projet

Points de vue Analyse
sociologique des
facteurs de
mobilisation

Attribut standard Date
de début; statut du
projet; etc.

Attribut standard Musée
ou collection privée,
Numéro d’inventaire

Attribut standard
Attribut standard Nom
Attributs
de l'acteur, date et lieu
bibliographiques standard de l'entretien

Thèmes IPV6; Services
Web; voyages; santé;
économies de bande
passante, etc. (1500
thèmes)

Thèmes Analyse de la
forme du vase, des scènes
figurées, de la technique
de fabrication…

Thèmes bacteria;
bordetella spp; genome
sequence; compartment,
etc. (400 thèmes)

Thèmes défi
technique, distinction
sociale, engagement
politique,
socialisation…

Ressources Sites Web
ou Pièces Jointes
descriptifs du détail des
projets

Ressources Un dossier
Ressources Textes des
photo par vase, une photo articles, et fragments de
par scène figurée, un
ces textes
fragment photo par
élément figuratif

Ressources Passages
(textuel) de l'entretien
Le client Agorae pour la gestion
participative de ressources
documentaires
(Zaher, Cahier et al.)
Le client HyperTopic Agoræ : exploration selon le point de vue des cursus de l’UTT
(a) point de vue (un établissement) (b) thème (un cursus) (b’) sous-thèmes (des
noms d’UV et leurs problématiques),
(c) item (un cours), (d) attribut standard/valeur (auteur, dernière modification…) (e)
ressource documentaire (ici des transparents). Les « Tags » permettent aux
utilisateurs de proposer d’autres sous-thèmes selon une méthode « ascendante ».
Ceux-ci peuvent ensuite être intégrés aux ontologies sémiotiques associées aux
points de vue.
La même utilisation d’Hypertopic avec un
autre client dédié à la gestion des images
Porphyry
(Bénel et al.)
Fenêtre d’annotation
Fenêtre de confrontation de points de vue
Mise en relation des annotations textuelles
effectuées sur un objet
Merci de votre attention

Contenu connexe

En vedette

Usages du Très Haut Débit
Usages du Très Haut DébitUsages du Très Haut Débit
Usages du Très Haut Débitalg2801
 
Jacques chirac
Jacques chiracJacques chirac
Jacques chiracyenamare
 
Fortpflanzung des Hundes - Geschlechtsreife und Zyklus - Anett Heinrich
Fortpflanzung des Hundes - Geschlechtsreife und Zyklus - Anett HeinrichFortpflanzung des Hundes - Geschlechtsreife und Zyklus - Anett Heinrich
Fortpflanzung des Hundes - Geschlechtsreife und Zyklus - Anett HeinrichBulldoggen
 
HONOR DISCIPLINA Y LEALTAD
HONOR DISCIPLINA Y LEALTADHONOR DISCIPLINA Y LEALTAD
HONOR DISCIPLINA Y LEALTADAndres Paez
 
Informe conciliación1
Informe conciliación1Informe conciliación1
Informe conciliación1Heidy Balanta
 
Bayerisches Landesamt für Umwelt - Potentiale der oberflächennahen Geothermie
Bayerisches Landesamt für Umwelt - Potentiale der oberflächennahen GeothermieBayerisches Landesamt für Umwelt - Potentiale der oberflächennahen Geothermie
Bayerisches Landesamt für Umwelt - Potentiale der oberflächennahen GeothermieErdwärme Gemeinschaft Bayern e.V.
 
Multilingual Families : Präsentation des Projekts
Multilingual Families : Präsentation des ProjektsMultilingual Families : Präsentation des Projekts
Multilingual Families : Präsentation des ProjektsJoel Josephson
 
Comment faire mourir_une_nation
Comment faire mourir_une_nationComment faire mourir_une_nation
Comment faire mourir_une_nationdesintocx
 
Veille technologique
Veille technologiqueVeille technologique
Veille technologiquealg2801
 
Lastvariable Elektroenergietarife in der Kältetechnik (Martin Vesper, Yello S...
Lastvariable Elektroenergietarife in der Kältetechnik (Martin Vesper, Yello S...Lastvariable Elektroenergietarife in der Kältetechnik (Martin Vesper, Yello S...
Lastvariable Elektroenergietarife in der Kältetechnik (Martin Vesper, Yello S...co2online gem. GmbH
 
Website Speed mit CDN
Website Speed mit CDNWebsite Speed mit CDN
Website Speed mit CDNMariano Glas
 
Patientennutzen stärker in den Fokus rücken - Jan Geissler - DGHO-Pressekonfe...
Patientennutzen stärker in den Fokus rücken - Jan Geissler - DGHO-Pressekonfe...Patientennutzen stärker in den Fokus rücken - Jan Geissler - DGHO-Pressekonfe...
Patientennutzen stärker in den Fokus rücken - Jan Geissler - DGHO-Pressekonfe...jangeissler
 

En vedette (20)

Tome 9 - Introduction
Tome 9 - IntroductionTome 9 - Introduction
Tome 9 - Introduction
 
Usages du Très Haut Débit
Usages du Très Haut DébitUsages du Très Haut Débit
Usages du Très Haut Débit
 
Avisclients vlv
Avisclients vlvAvisclients vlv
Avisclients vlv
 
Bibeltreff1
Bibeltreff1Bibeltreff1
Bibeltreff1
 
Papi
PapiPapi
Papi
 
09juni_234
09juni_23409juni_234
09juni_234
 
Indépendance
IndépendanceIndépendance
Indépendance
 
Jacques chirac
Jacques chiracJacques chirac
Jacques chirac
 
Deutschesprache
DeutschespracheDeutschesprache
Deutschesprache
 
Fortpflanzung des Hundes - Geschlechtsreife und Zyklus - Anett Heinrich
Fortpflanzung des Hundes - Geschlechtsreife und Zyklus - Anett HeinrichFortpflanzung des Hundes - Geschlechtsreife und Zyklus - Anett Heinrich
Fortpflanzung des Hundes - Geschlechtsreife und Zyklus - Anett Heinrich
 
HONOR DISCIPLINA Y LEALTAD
HONOR DISCIPLINA Y LEALTADHONOR DISCIPLINA Y LEALTAD
HONOR DISCIPLINA Y LEALTAD
 
Informe conciliación1
Informe conciliación1Informe conciliación1
Informe conciliación1
 
Bayerisches Landesamt für Umwelt - Potentiale der oberflächennahen Geothermie
Bayerisches Landesamt für Umwelt - Potentiale der oberflächennahen GeothermieBayerisches Landesamt für Umwelt - Potentiale der oberflächennahen Geothermie
Bayerisches Landesamt für Umwelt - Potentiale der oberflächennahen Geothermie
 
Multilingual Families : Präsentation des Projekts
Multilingual Families : Präsentation des ProjektsMultilingual Families : Präsentation des Projekts
Multilingual Families : Präsentation des Projekts
 
Comment faire mourir_une_nation
Comment faire mourir_une_nationComment faire mourir_une_nation
Comment faire mourir_une_nation
 
Veille technologique
Veille technologiqueVeille technologique
Veille technologique
 
Linkwheels - Aufbau und Betrieb
Linkwheels - Aufbau und BetriebLinkwheels - Aufbau und Betrieb
Linkwheels - Aufbau und Betrieb
 
Lastvariable Elektroenergietarife in der Kältetechnik (Martin Vesper, Yello S...
Lastvariable Elektroenergietarife in der Kältetechnik (Martin Vesper, Yello S...Lastvariable Elektroenergietarife in der Kältetechnik (Martin Vesper, Yello S...
Lastvariable Elektroenergietarife in der Kältetechnik (Martin Vesper, Yello S...
 
Website Speed mit CDN
Website Speed mit CDNWebsite Speed mit CDN
Website Speed mit CDN
 
Patientennutzen stärker in den Fokus rücken - Jan Geissler - DGHO-Pressekonfe...
Patientennutzen stärker in den Fokus rücken - Jan Geissler - DGHO-Pressekonfe...Patientennutzen stärker in den Fokus rücken - Jan Geissler - DGHO-Pressekonfe...
Patientennutzen stärker in den Fokus rücken - Jan Geissler - DGHO-Pressekonfe...
 

Similaire à Collaboratoires & shs lyon ens

L’Ingénierie des corpus : Méthodes, outils et aspects normatifs
L’Ingénierie des corpus : Méthodes, outils et aspects normatifs L’Ingénierie des corpus : Méthodes, outils et aspects normatifs
L’Ingénierie des corpus : Méthodes, outils et aspects normatifs Mokhtar Ben Henda
 
Place du document numérique dans les ENT
Place du document numérique dans les ENTPlace du document numérique dans les ENT
Place du document numérique dans les ENTClément Dussarps
 
Françoise Lemaire et Rosine Lheureux_Explorer les nouveaux territoires de la ...
Françoise Lemaire et Rosine Lheureux_Explorer les nouveaux territoires de la ...Françoise Lemaire et Rosine Lheureux_Explorer les nouveaux territoires de la ...
Françoise Lemaire et Rosine Lheureux_Explorer les nouveaux territoires de la ...AssociationAF
 
Le projet du SCD de Nice: une approche globale des données de la recherche
Le projet du SCD de Nice: une approche globale des données de la rechercheLe projet du SCD de Nice: une approche globale des données de la recherche
Le projet du SCD de Nice: une approche globale des données de la rechercheMathieu Saby
 
[lecture] Faut-il mesurer la bande passante du design ?
[lecture] Faut-il mesurer la bande passante du design ?[lecture] Faut-il mesurer la bande passante du design ?
[lecture] Faut-il mesurer la bande passante du design ?Geoffrey Dorne
 
Rapport humanités numériques
Rapport humanités numériquesRapport humanités numériques
Rapport humanités numériquesOpenEdition
 
L'offre de services numériques du SCD de l'Institut National Polytechnique de...
L'offre de services numériques du SCD de l'Institut National Polytechnique de...L'offre de services numériques du SCD de l'Institut National Polytechnique de...
L'offre de services numériques du SCD de l'Institut National Polytechnique de...Institut National Polytechnique de Toulouse
 
L’édition de dictionnaires spécialisés et les enjeux de nomenclature : le ...
L’édition de dictionnaires spécialisés et les enjeux de nomenclature : le ...L’édition de dictionnaires spécialisés et les enjeux de nomenclature : le ...
L’édition de dictionnaires spécialisés et les enjeux de nomenclature : le ...Stéphane Vial
 
Jabes 2007 - Restitution atelier 4
Jabes 2007 - Restitution atelier 4Jabes 2007 - Restitution atelier 4
Jabes 2007 - Restitution atelier 4ABES
 
Quelles métadonnées pour les images scientifiques ?
Quelles métadonnées pour les images scientifiques ?Quelles métadonnées pour les images scientifiques ?
Quelles métadonnées pour les images scientifiques ?Lesticetlart Invisu
 
Ontologies, web de données et SKOS transformation
Ontologies, web de données et SKOS transformationOntologies, web de données et SKOS transformation
Ontologies, web de données et SKOS transformationcatherine roussey
 
CDI/CCC - Documentation et ressources : les enjeux du numérique
CDI/CCC - Documentation et ressources : les enjeux du numériqueCDI/CCC - Documentation et ressources : les enjeux du numérique
CDI/CCC - Documentation et ressources : les enjeux du numériqueElie ALLOUCHE
 
Intervention de Robin de Mourat, Séminaire "Formes de la recherches", 25 févr...
Intervention de Robin de Mourat, Séminaire "Formes de la recherches", 25 févr...Intervention de Robin de Mourat, Séminaire "Formes de la recherches", 25 févr...
Intervention de Robin de Mourat, Séminaire "Formes de la recherches", 25 févr...AIMEProject
 
Federating and Improving Document-related Activities Through Collective Annot...
Federating and Improving Document-related Activities Through Collective Annot...Federating and Improving Document-related Activities Through Collective Annot...
Federating and Improving Document-related Activities Through Collective Annot...Guillaume Cabanac
 
Projets d'Humanités numérique et collaboration de différents métiers
Projets d'Humanités numérique et collaboration de différents métiersProjets d'Humanités numérique et collaboration de différents métiers
Projets d'Humanités numérique et collaboration de différents métiersEmmanuelle Morlock
 

Similaire à Collaboratoires & shs lyon ens (20)

L’Ingénierie des corpus : Méthodes, outils et aspects normatifs
L’Ingénierie des corpus : Méthodes, outils et aspects normatifs L’Ingénierie des corpus : Méthodes, outils et aspects normatifs
L’Ingénierie des corpus : Méthodes, outils et aspects normatifs
 
Place du document numérique dans les ENT
Place du document numérique dans les ENTPlace du document numérique dans les ENT
Place du document numérique dans les ENT
 
Françoise Lemaire et Rosine Lheureux_Explorer les nouveaux territoires de la ...
Françoise Lemaire et Rosine Lheureux_Explorer les nouveaux territoires de la ...Françoise Lemaire et Rosine Lheureux_Explorer les nouveaux territoires de la ...
Françoise Lemaire et Rosine Lheureux_Explorer les nouveaux territoires de la ...
 
Le projet du SCD de Nice: une approche globale des données de la recherche
Le projet du SCD de Nice: une approche globale des données de la rechercheLe projet du SCD de Nice: une approche globale des données de la recherche
Le projet du SCD de Nice: une approche globale des données de la recherche
 
[lecture] Faut-il mesurer la bande passante du design ?
[lecture] Faut-il mesurer la bande passante du design ?[lecture] Faut-il mesurer la bande passante du design ?
[lecture] Faut-il mesurer la bande passante du design ?
 
Duchesne Medialab Mai09
Duchesne Medialab Mai09Duchesne Medialab Mai09
Duchesne Medialab Mai09
 
Présentation cice telos
Présentation cice   telosPrésentation cice   telos
Présentation cice telos
 
Rapport humanités numériques
Rapport humanités numériquesRapport humanités numériques
Rapport humanités numériques
 
L'offre de services numériques du SCD de l'Institut National Polytechnique de...
L'offre de services numériques du SCD de l'Institut National Polytechnique de...L'offre de services numériques du SCD de l'Institut National Polytechnique de...
L'offre de services numériques du SCD de l'Institut National Polytechnique de...
 
L’édition de dictionnaires spécialisés et les enjeux de nomenclature : le ...
L’édition de dictionnaires spécialisés et les enjeux de nomenclature : le ...L’édition de dictionnaires spécialisés et les enjeux de nomenclature : le ...
L’édition de dictionnaires spécialisés et les enjeux de nomenclature : le ...
 
Séminaire GSU nov 2012 BERGEY
Séminaire GSU nov 2012 BERGEYSéminaire GSU nov 2012 BERGEY
Séminaire GSU nov 2012 BERGEY
 
Jabes 2007 - Restitution atelier 4
Jabes 2007 - Restitution atelier 4Jabes 2007 - Restitution atelier 4
Jabes 2007 - Restitution atelier 4
 
Quelles métadonnées pour les images scientifiques ?
Quelles métadonnées pour les images scientifiques ?Quelles métadonnées pour les images scientifiques ?
Quelles métadonnées pour les images scientifiques ?
 
Ontologies, web de données et SKOS transformation
Ontologies, web de données et SKOS transformationOntologies, web de données et SKOS transformation
Ontologies, web de données et SKOS transformation
 
CDI/CCC - Documentation et ressources : les enjeux du numérique
CDI/CCC - Documentation et ressources : les enjeux du numériqueCDI/CCC - Documentation et ressources : les enjeux du numérique
CDI/CCC - Documentation et ressources : les enjeux du numérique
 
Intervention de Robin de Mourat, Séminaire "Formes de la recherches", 25 févr...
Intervention de Robin de Mourat, Séminaire "Formes de la recherches", 25 févr...Intervention de Robin de Mourat, Séminaire "Formes de la recherches", 25 févr...
Intervention de Robin de Mourat, Séminaire "Formes de la recherches", 25 févr...
 
Federating and Improving Document-related Activities Through Collective Annot...
Federating and Improving Document-related Activities Through Collective Annot...Federating and Improving Document-related Activities Through Collective Annot...
Federating and Improving Document-related Activities Through Collective Annot...
 
Projets d'Humanités numérique et collaboration de différents métiers
Projets d'Humanités numérique et collaboration de différents métiersProjets d'Humanités numérique et collaboration de différents métiers
Projets d'Humanités numérique et collaboration de différents métiers
 
Le projet SemanSciences
Le projet SemanSciencesLe projet SemanSciences
Le projet SemanSciences
 
Skos transformation
Skos transformationSkos transformation
Skos transformation
 

Collaboratoires & shs lyon ens

  • 1. Principes de caractérisation des collaboratoires en SHS et apport du web socio-sémantique Manuel Zacklad (et équipe web socio-sémantique J.P. Cahier, A. Bénel, H. Zaher, C. Zhou, C. Lejeune) Université de Technologie de Troyes Equipe Tech-CICO (Technologie de la Coopération pour l’Innovation et le Changement Organisationnel) UTT ICD/Tech-CICO - FRE CNRS 2848 Manuel Zacklad - Tech-CICO/UTT – Séminaire Lyon 1
  • 2. Disciplines sollicitées par les collaboratoires • La gestion des collaboratoires en SHS (projet Adonis?) implique de croiser plusieurs perspectives disciplinaires: – Linguistique de corpus (importance des corpus abordés dans une perspective élargie) – Sciences de l’information et de la communication (gestion et diffusion des documents) – CSCW (Computer Supported Cooperative Work) – Ingénierie des Connaissances (approche technique et épistémologique des SOC) – Sociologie des sciences et épistémologie • Atout de l’équipe Tech-CICO dans cette perspective pluridisciplinaire
  • 3. Objectif de l’exposé • Proposer une description « originale » des collaboratoires en SHS • Introduire la vision du web socio-sémantique et HyperTopic qui permet l’association de plusieurs logiciels open source • On parlera d’avantage des collaboratoires que du web socio-sémantique -> pour une autre fois ;-) • Dimension méthodologique et programmatique
  • 4. Projets de Tech-CICO sur les collaboratoires • Initiateur de l’approche web socio-sémantique et recherche ouverte d’information • Initiateur de la méta-sémiotique (langage de représentation des connaissances) et du protocole HyperTopic permettant l’intégration de plusieurs serveurs et client (avec application dans des disciplines SHS) : – Agorae : gestion participative et multipoint de vue de ressources documentaires (Cahier, Zaher) : recherche en sociologie des sciences – Porphyry : gestion multipoints de vue d’images (Bénel anciennement projet dirigé par A. Iacovella) : recherche en archéologie – En lien avec liège : Cassandre - gestion de corpus textuels (C. Lejeune): recherche en sociologie • Thèse sur une méthodologie transdisciplinaire de gestion de corpus dans les disciplines de l’interaction (Atifi, Ninova)
  • 5. Les collaboratoires des sciences expérimentales aux SHS
  • 6. Origine des collaboratoires • Origine dans le domaine des sciences de la nature et de la vie pour la mutualisation des données issues d’équipements lourds : – consécutive à la généralisation de l’informatisation de ces équipements, – et à la généralisation de leur mise en réseau via internet • Objectif initial : partage des équipements et des données qu’ils produisent avec d’autres chercheurs « distants » (collaboratory = collaborative laboratory) • Elargissement à la problématique du travail coopératif entre les chercheurs à partir de ces données -> CSCW (Computer Supported Cooperative Work)
  • 7. Collaboratoires en SHS : numérisation des archives, des bibliothèques, des productions intermédiaires de la recherche • Les équipements lourds des SHS sont les archives et les bibliothèques • Leur numérisation massive et la diffusion d’internet offre les mêmes opportunités que celles qui avaient été offertes aux sciences dures • Ces opportunités sont encore renforcées par les facilités de circulation et de partage des documents en cours d’élaboration (résultats intermédiaire, rapport, pré-diffusion…) : – Problématique des documents pour l’action, des archives ouvertes, du rôle des bibliothèques dans la gestion des archives courantes et intermédiaires des chercheurs
  • 9. Première hypothèse de travail : mutation méthodologique et épistémologique • La généralisation des collaboratoires en SHS induit une mutation plus profonde que dans les sciences de la vie et de la nature – Le travail coopératif et la mise en commun des sources était une pratique courante • Dans les SHS, la généralisation des collaboratoires est susceptible produire une renouvellement profond des méthodes de travail et à terme des fondements épistémologiques de plusieurs disciplines • Hypothèse semble-t-il partagée avec Adonis (?)
  • 10. Justification • Les difficultés de recueil et de partage des corpus en SHS explique le biais quantitatif de plusieurs disciplines (préférence pour les « données ») – la numérisation est susceptible d’y remédier largement • Quand les méthodes qualitatives sont mises en œuvre elles souffrent de plusieurs faiblesses notamment en terme de partage des sources et d’objectivation des méthodes de « codage » dans le cadre du processus d’interprétation – la numérisation est également susceptible de contribuer à pallier à ce défaut
  • 11. Deuxième hypothèse de travail : nécessité d’élargir les acceptions du « corpus » • La problématique des collaboratoires en SHS excède les questions posées par la linguistique de corpus tout en repositionnant la linguistique comme une discipline pivot à plusieurs titres • Les acceptions du corpus doivent être plus large et inclure également des problématiques associées aux environnement documentaires facilitant la génération de nouvelles productions sémiotiques (atelier d’écriture)
  • 12. Troisième hypothèse de travail : importance des approches relevant du web socio-sémantique • La conception des collaboratoires implique ellemême des méthodes et une méthode et une épistémologie renouvelé de la gestion de l’information qui combine les apports de la recherche d’information et des systèmes d’organisation des connaissances formels et heuristiques • Importance des recherches conduites dans le champ du web socio-sémantique et des modèles et outils « Hypertopic »
  • 14. A propos des définitions • « Un corpus est une collection de données langagières qui sont sélectionnées et organisées selon des critères linguistiques et extra-linguistiques explicites pour servir d’échantillon d’emplois déterminés d’une langue » (Habert 2000). » • « Un corpus est un regroupement structuré de textes intégraux, documentés, éventuellement enrichis par des étiquetages, et rassemblés : (i) de manière théorique réflexive en tenant compte des discours et des genres, et (ii) de manière pratique en vue d’une gamme d’applications. » (Rastier 2002)
  • 15. Préférence pour l’approche documentaire renouvellée • Aux « données langagières » et aux « textes » nous préférons la référence au document • Renouvellement des réflexions sur le document : – Le document définit comme une production sémiotique inscrite dans un projet transactionnel délibéré (cf. le discours), enregistrée ou retranscrite sur un support pérenne et explicitement « documentarisé » par ses créateurs ou ses utilisateurs – Elargissement de la notion de corpus à d’autres modalités d’expression (image, film, enregistrement audio…) – Le document implique la prise en considération des supports des « production sémiotique » qui les véhiculent et qui déterminent les conditions de leur création et de leur réception (approche suivie dans le système « Prospero » Chateauraynaud)
  • 16. Définition d’un corpus documentaire • Un corpus documentaire est une archive structurée de documents sélectionnés et/ou produits de manière systématique(1) pour permettre le déroulement d’une enquête(2). • La pertinence du corpus est virtuelle (corpus virtuel) tant que la justification de la sélection n’aura pas été produite par une analyse comparative explicitant les formes d’association entre les documents et les fragments documentaires rassemblés. Cette explicitation, produisant le corpus effectif, est réalisée à partir de systèmes d’organisation des connaissances (permettant l’annotation ou l’étiquetage). • En toute rigueur le corpus doit être conçu comme une collection documentaire mouvante soumise à un processus d’articulation progressif justifiant l’appartenance des documents à la collection. (1) (2) Dans un contexte de « rationalité limité » ou de « réflexivité » (cf. Damon Mayaffre) Au sens générique du pragmatisme et pas au sens restreint d’enquête sociologique
  • 17. Caractérisation des corpus et des fonctionnalités des collaboratoires
  • 18. Différentes dimensions pour la caractérisation des corpus • La classification des corpus permet la définition des fonctionnalités des collaboratoires – Statut des corpus selon les disciplines – Approche du corpus selon la mise en œuvre de la recherche : primaire, secondaire, tertiaire – Approche du corpus par affinage successif : potentiel/effectif , virtuel/attesté, global/de travail – Caractérisation des corpus primaires selon les méthodes de constitution – Approche des collaboratoires (et de l’articulation entre les corpus) selon les formes de coopération (mono-acteur, coopération active, coopération passive)
  • 19. Rappel sur les opérations de base portant sur un corpus documentaire
  • 20. Constitution et exploitation d’un corpus documentaire dans un contexte de collaboratoire • Recherche / production des documents pertinents • Stockage / organisation de l’accès • Organisation / classement / indexation • Lecture / analyse / codage / annotation • Synthèse / mise en forme / rédaction des analyses • Diffusion / partage
  • 21. Exemple dans le cadre d’une enquête sociologique (corpus primaire) • Recherche / production des documents pertinents : réalisation d’entretiens semi-directifs par enregistrement et retranscription • Stockage / organisation de l’accès : stockage dans un répertoire ou dans une base de donnée documentaire • Organisation / classement / indexation [articulation externe] : utilisation de différents critères permettant de classer les document (caractéristiques des personnes interviewés, contexte, faits marquants…) • Lecture / analyse / codage / annotation [articulation interne] : lecture des entretiens, éventuellement utilisation d’un outil d’aide au repérage automatique de certaines régularités (cf. Cassandre) et indexation selon des catégories pertinentes, codage interprétatif (manuel) des expressions, ajouts d’annotations… • Synthèse / mise en forme / rédaction des analyses [articulation externe/interne] : extraction semi-automatique des extraits codés et comparaisons selon les critère d’articulation interne, rédaction des analyses… • Diffusion / partage : partage avec d’autres analystes des documents primaires (entretiens) des extraits d’entretiens codé, pré-diffusion à d’autres chercheurs à l’intérieur de « l’équipe projet » ou situés dans d’autres institutions, etc.
  • 22. Approche des corpus selon les disciplines
  • 23. Caractérisation des corpus dans les disciplines de l’interaction (Atifi, Lejeune, Ninova, Zacklad) • Trois exemples : sociologie qualitative, psychologie ergonomique linguistique interactionnelle • Disciplines qui constituent souvent des corpus « ad hoc » par entretien, questionnaire, observation… (cf. infra) • Différences en termes de modalités d’enregistrement et de retranscription • Différence en termes de représentativité des échantillons constitués • Différence en termes de modalité de découpage des morphèmes ou des ennoncés pertinent • Importance variable du « saut interprétatif » dans les opérations de codage • Etc.
  • 24. La gestion des corpus ne concerne pas uniquement la linguistique de corpus • …mais celle-ci dispose d’un statut instrumental privilégié eu égard aux autres disciplines : – Toutes les SHS en tant qu’elle participent des sciences de la culture impliquent la gestion d’un « corpus primaire » qui peut être constitué de différentes manières – L’analyse des régularités à l’intérieur du corpus par le processus de codage revient à une identification de genres – Ces genres correspondent bien aux normes (Rastier) gouvernant la production des « œuvres » réalisées par les acteurs ou gouvernant les situations d’interaction • Le champ de notre réflexion sur les collaboratoires ne couvre pas que les disciplines de l’interaction : histoire, littérature, archéologie…
  • 25. Vision du corpus selon les étapes de mise en œuvre
  • 26. Trois types de corpus selon la mise en œuvre • Les corpus primaires sont ceux qui constituent la base « empirique » de la recherche et à partir desquels seront élaborées les conclusions de l’enquête • Les corpus secondaires sont constitués par des documents qui contribuent à l’étude des sources primaires : documents produits à l’issue d’autres enquêtes similaires, ouvrages méthodologiques, plan de codage. • Etat de l’art • Document méthodologiques • Outils de traitement logiciel • Les corpus tertiaires sont constitués par les productions originales de l’enquête, dans un état intermédiaire ou final
  • 27. Analyse différentielle interne Corpus Secondaire Analyse différentielle interne Analyse différentielle interne Mise en relation externe Corpus Primaire Corpus Tertiaire
  • 28. Vision du corpus par affinage
  • 29. Affinage progressif du corpus selon Rastier (2002) – « 1/ L’archive contient l’ensemble des documents accessibles. Elle n’est pas un corpus, parce qu’elle n’est pas constituée pour une recherche déterminée. – 2/ Le corpus de référence est constitué par ensemble de textes sur lequel on va contraster les corpus d’étude. – 3/ Le corpus d’étude est délimité par les besoins de l’application. – 4/ Enfin le sous-corpus de travail en cours varie selon les phases de l’étude et peut ne contenir que des passages pertinents du texte ou des textes étudiés » – [Pour certaines applications informatiques, il faut encore distinguer, au cours de leur développement, le corpus d’apprentissage, le corpus de test, le corpus de validation]
  • 30. Selon notre approche : trois axes d’affinage • L’axe qui va du potentiel à l’effectif par sélection/génération des documents pertinents: corpus potentiel/corpus effectif • L’axe qui va du global au local par sélection de certains documents dans un ensemble ou de certains extraits d’un document par le document global : corpus global/corpus de travail • L’axe qui va du virtuel à l’explicite, en explicitant les catégories de mise en relation et en justifiant la cohérence du corpus : corpus virtuel/corpus attesté (articulé, explicité)
  • 31. Corpus potentiel (et virtuel) Corpus effectif global & virtuel (on ne sait pas encore s’il permettra d’éprouver les hypothèses de l’enquête) Corpus de travail (virtuel) Corpus de travail (virtuel) Corpus de travail (virtuel) Corpus de travail (attesté) Corpus de travail (attesté) Corpus de travail (attesté) Corpus global attesté (articulation des fragments documentaires et des documents à l’aide d’un SOC servant à l’annotation et l’étiquetage et permettant de tirer des conclusions)
  • 32. Caractérisation des corpus primaires selon les méthodes de constitution
  • 33. Rappel sur la notion d’archive en sciences de l’information • Archive d’un organisme : courante, intermédiaire, définitive • Le corpus est une archive documentaire constituée par le chercheur à fin d’enquête – Le corpus passe lui-même par ces différentes étapes selon la progression de la recherche (courante, intermédiaire, définitive) • Les corpus primaires peuvent être : – Constituées par des documents produits par les organismes ou acteurs enquêtés eux-mêmes « archive vernaculaire » à caractère public ou privé – Constituée par des documents faisant l’objet d’une création répondant besoin de l’enquête : archive constituée par des document ad hoc ou « archive ad hoc »
  • 34. Constitution des corpus primaires à partir d’archives vernaculaires Archive définitive Archive intermédiaire Archive courante Bibliothèque et fond d’archive papier, archive web Recueil de documents administratifs, prélèvement sur des sites web d’archive intermédiaire, forum archivés, etc. Prélèvement par échantillonnage des documents produits sous forme papier ou numérique par les organismes et acteurs notamment sur le web Accès privé Fond d’archive privé Recueil de fonds d’archive au sein d’entreprises ou chez des particuliers (intranets, collections privées…) Prélèvement par échantillonnage des documents produits par les entreprises et particuliers Accès public
  • 35. Constitution des corpus primaires à partir d’archives ad hoc • On peut établir une distinction : – Selon le caractère plus ou moins libre ou contraint des productions sémiotiques (qualitatifs vs quantitatif) – Selon le mode de constitution plus ou moins « participatif » des productions sémiotiques (langagière, filmique…)
  • 36. Enregistrement avec interaction verbale directe du chercheur avec les sujets Enregistrement en « situation naturelle » sans interaction verbale provoquée avec le chercheur (ou avec peu d’interaction verbale) Enregistrement du comportement à partir de situations provoquées par le chercheur mais sans interaction verbale avec lui (ou peu) Productions sémiotique libres (qualitatives ) Entretien semi ou non directif, observation participantes Méthodes ethnographiques non participantes (à partir de situations naturelles) Psychologie sociale expérimentale Production sémiotique contraintes (données) Questionnaires Enregistrement partiel d’indice comportementaux (à partir de situations naturelles) Expérience de type psychophysique
  • 37. Caractéristiques de l’accès au corpus selon les formes de coopération
  • 38. Formes de coopération • Le chercheur dans des phases de travail individuelles • Coopération active : un collectif de chercheurs appartenant à un même projet dans le cadre d’une division du travail organisée • Coopération passive : un collectif de chercheurs n’appartenant pas au même projet mais mettant à disposition des ressources au bénéfice de la communauté.
  • 39. Approche monoacteur Approche multi-acteurs et coordination active Approche multi-acteurs & coopération passive Articulation intradocumentaire Un acteur engagé dans Plusieurs acteurs le ttmt d’un document travaillant sur le même document dans le cadre d’un projet Plusieurs acteurs mettant à disposition sur le web un document partiellement travaillé Articulation interdocumentaire homogène Un acteur engagé dans le ttmt comparatif de plusieurs documents du même type de corpus (p.e. primaire) Plusieurs acteurs engagés dans le ttmt comparatif de plusieurs document du même type de corpus dans le cadre d’un projet Plusieurs acteurs mettant à disposition sur le web des documents appartenant à un corpus Articulation interdocumentaire hétérogène Un acteur engagé dans le ttmt de documents appartenant à plusieurs types de corpus Plusieurs acteurs mettant en relation des documents appartenant à plusieurs types de corpus dans le cadre d’un projet Plusieurs acteurs mettant à disposition sur le web des documents appartenant à plusieurs types de corpus
  • 40. Exemple des problématiques posées par la mise en relation des différents types de corpus
  • 41. Exemple de l’articulation d’un corpus primaire et secondaire • Les frontières du corpus primaire peuvent évoluer au cours de la recherche : cette évolution peut entrainer un élargissement du corpus secondaire (référence bibliographique associées, autres monographies…) • Inversement les associations réalisées à l’intérieur du corpus secondaire peuvent ellesmêmes influencer la définition des contours du corpus primaire : recherche de sources nouvelles
  • 42. Evolutions des corpus primaires et secondaires Ensemble fermé de documents secondaires Ensemble ouvert de documents secondaires Ensemble fermé Base fixe (stade final de la de documents recherche) primaires Le traitement des documents primaires suscite la recherche de nouveaux documents secondaires (formulation de nouvelles hypothèses) Ensemble ouvert de documents primaires Coévolution du corpus primaire et du corpus secondaire (coévolution des hypothèses et des observables) L’exploitation des documents secondaires suscite la recherche de nouveaux documents primaires (recherche de nouveaux observables)
  • 43. Quelles technologies documentaires et informationnelles pour les collaboratoires ?
  • 44. Différentes approches du sens renvoyant à différentes technologies • Les différents types de traitement requis dans le cadre de l’usage des collaboratoires impliquent le recours à différents types de technologies informatique • Ces technologies reposent elles-mêmes sur des Systèmes d’Organisation des Connaissances qui permettent de réaliser des associations entre des fragments documentaires et des documents d’un ou plusieurs corpus • Ces associations sont rendues possibles par des opérations de description préalable plus ou moins systématiques des documents et de leur fragments qui se réalise de manière différente selon qu’il s’agit d’un texte, d’une image, d’un son, d’un film
  • 45. Diversité des formes d’expression documentaires • Image fixes (p.e. A. Bénel et al.), film (p.e B. Bachimont, Y. Prié), textes -> un très grand nombre de chercheurs dans les domaines de l’ingénierie des connaissances, de la linguistique de corpus et de la recherche d’information (Aussenac, Bourrigault, Habert, Zweigenbaum, Charlet, Chateauraynaud, Lejeune… etc.) • Dans le cadre d’un texte le codage automatique peut porter sur chaque morphème (terme ou mot) ! • Mais même dans le cas d’un texte, le découpage de la séquence de caractères pertinents et son étiquetage relève d’une opération de description exogène basée sur une théorie linguistique plus ou moins explicite.
  • 46. Processus d’étiquetage et d’annotation des fragments documentaires Etiquette ou annotation concernant l’ensemble du document Y2 X1 A Etiquetage ou annotation automatique, semiautomatique ou manuelle d’un document Etiquette ou annotation concernant des fragments du document C A B C
  • 47. SOC élaboré = organisation des termes élémentaire dans des réseaux de « concept formels (ontologie), concepts sémiotiques (ontologie sémiotique), descripteurs (thésaurus)… Association intradocumentaire C A B A S A C M B B P C C Première Indexation du document basée sur des fragments - SOC élémentaire = une liste de descripteurs de bas niveau ancrée dans une zone du document = termes, suite de caractères, B A Association interdocumentaire
  • 48. Un cadre pluri-sémantique pour les collaboratoires : l’approche du web socio-sémantique
  • 49. Informations diverses sur le Web socio sémantique (W2S) • Origine au sein de l’Ingénierie des Connaissances mais ouverture vers les sciences de l’information et de la communication et les sciences du langage • Issu de Tech-CICO mais en cours de diffusion dans d’autres équipes ;-) (contact pris avec les communauté « pragmatic web » et « topic map ») • A la fois un cadre conceptuel et méthodologique et des outils opérationnels : méta-sémiotique et protocole Hypertopic et plusieurs logiciels open source • Contributeurs principaux : • Aurélien Bénel, Jean-Pierre Cahier, L’Hédi Zaher, Manuel Zacklad (UTT – Tech-CICO) & Christophe Lejeune (Liège)
  • 50. Web socio-sémantique : une vision du web • Le web socio-sémantique (W2S) est un système documentaire ouvert facilitant des transactions coopératives interpersonnelles éventuellement très asynchrones et distribuées entre des acteurs individuels et collectifs engagés dans des échanges, débats, controverses, relevant de domaines très variés. • Deux conséquences pour l’instrumentation du W2S : • Les modalités et les outils de gestion des documents doivent être pour partie conçus par les acteurs eux-mêmes selon leur processus de coopération. • Il est nécessaire de combiner plusieurs paradigmes d’accès à l’information complémentaires.
  • 51. Web socio-sémantique et Recherche Ouverte d’Information • Cette multiplicité des modes d’accès est ellemême associée à une vision originale de la recherche d’information « la recherche ouverte d’information » [information seeking vs information retrieval cf. L’hédi Zaher] • La RI est en fait de la « récupération d’information » la ROI, qui inclut l’usage de la RI, correspond effectivement à l’assistance à la de la « recherche »
  • 52. Trois paradigmes d’accès à l’information selon le web socio-sémantique • Paradigme de la requête basée sur des attributs standardisés – monde clos en partie analogue au monde réel, sémantique référentielle, schéma de base de donnée relationnelle ou objet, ontologies formelles • Paradigme de la navigation heuristique en utilisant des attributs heuristiques (thèmes) – cartes de thèmes , sémantique rhétorico/herméneutique, réseau sémantique, ontologie sémiotique, hypertextes, premiers systèmes experts • Paradigme de la fouille dans des ressources documentaires – moteurs de recherche, la sémantique dépend elle-même de la nature du document. – Mais le moteur peut utiliser lui-même deux types de sémantiques : • référentielle sur des expressions dans la recherche de séquences, • probabiliste (utilisation de la théorie de l’information)
  • 53. Les trois paradigmes du W2S Requêtes (web sémantique, bases de données…) – sémantique formelle ou référentielle Navigation (hypertexte, web socio sémantique…) – sémantique rhétoricoherméneutique Recherche Ouverte d’Information Fouille (recherche de séquences, TAL, recherche statistiques…) sémantique variable
  • 54. Exemple de la recherche d’une personne Navigation (attributs heuristiques) : Goût Opinion Compétence Requête (attribut standard) Nom Age Adresse Fouille (document) Photo CV
  • 55. Le web Socio Sémantique : donne une place aux techniques relevant du paradigme de la navigation • Les systèmes d’organisation des connaissances évolutifs requièrent une sémantique différente de la sémantique référentielle -> pas exclusivement des ontologies formelles ni de la fouille et ouverture vers d’autres SOC • Accent mis d’avantage dans nos travaux sur le « web visible » que sur le « web invisible » (les bases de données)
  • 56. Les systèmes d’organisation des connaissances qui relèvent du paradigme de la navigation heuristique • Classification documentaires, thésaurus, ontologies sémiotiques… (structure hypertexte, annuaire internet, index…) construites par des gestionnaires de sites, des documentalistes, des ingénieurs de la connaissance avec la collaboration plus ou moins actives des usagers (folksonomies) • Exemple d’ontologie sémiotique : des cartes de thèmes (Cahier, 2005) ou réseaux de description (Bénel, 2003) [niveau des ontologies différentielles définies de la méthodologie Archonte de Bachimont]
  • 57. HyperTopic : système pivot pour le W2S et la RIO
  • 58. RIO, web socio sémantique & sémantique, IC • Les méthodes de l’IC contribuent à la recherche ouverte d’information et devraient combiner les trois approches : navigation, requêtes formelles, fouille • La recherche ouverte d’information vise à caractériser une situation, une entité, un projet : nous parlerons dans la métasémiotique HyperTopic d’un ITEM
  • 59. Point de vue : caractérisations concurrentes de l’item NAVIGATION Corrélation A Thèmes : thématisation heuristique de l’item Système expert Item : identifiant de la situation ou de l’artefact objet de d’enquête Corrélation C Attributs standards : spécification référentielle de l’Item Ressources : documentation de l’item Corrélation B REQUETE Système de gestion documentaire Système hypertexte FOUILLE Association entre différentes formes de caractérisation de l’ITEM correspondant à différents types de corrélation
  • 60. HyperTopic : système d’organisation des connaissances pour la recherche ouverte d’information
  • 61. HyperTopic : trois approches de l’item Thématisation heuristique (liens hypertextes) Ontologies sémiotiques (thèmes ou attributs heuristiques) Point de vue Thème Attributs standards Item Ressources Ressources Spécification référentielle : objets et concepts (requêtes logiques) Documentation de l’item (fouille de texte) Manuel Zacklad - Tech-CICO/UTT - ACSICAIS 61
  • 62. Notion de point de vue • C’est la diversité des formes de caractérisation de l’item selon les communautés professionnelles, d’intérêt, de pratiques ou les hypothèses en cours d’examen qui justifie le recours à plusieurs thématisations potentiellement concurrentes de l’item (Bénel, 2003 et Cahier 2005). • C’est également la multiplicité des points de vue qui structure le raisonnement heuristique en permettant selon les tâches de faire varier les caractérisations de l’item. • Dans les exemples canoniques du raisonnement diagnostic en médecine, un problème médical peut être décrit selon le point de vue des symptômes (point de vue des patients) ou selon celui des processus physiopathologiques en cause (point de vue des médecins).
  • 63. Hypertopic : le protocole, dispositif pivot pour la recherche ouverte d’information
  • 64. Inférences pragmatiques au cours de la navigation • La métasémiotique Hypertopic, est opérationnalisée à l’aide de XML • Le protocole HT V 1.0 développé en REST permet de naviguer dans les ressources documentaires selon une logique hypertextuelle et facilite la recherche ouverte d’information au sein des corpus. • En assistant la navigation, le protocole Hypertopic permet de réaliser des associations entre thèmes, ressources documentaires et attributs standardisés, dont on peut considérer qu’elles relèvent d’inférences pragmatiques correspondant à l’exploitation d’association heuristiques entre divers éléments.
  • 65. PhP, Ajax… Porphyry Agorae Java Protocole HyperTopic basé sur REST Webdav Sfqs* Qsdf sdqf Sfqs* Qsdf sdqf Sfqs* Qsdf sdqf Bdd Postgress SQL Argos Cassandre Sfqs* Qsdf sdqf Sfqs* Qsdf sdqf
  • 67. Agorae FT (Cahier 2005) Porphyry Paestum (Bénel, 2006) DKN-SEQXAM (Zaher, 2006b) Cassandre (Erpicum & Lejeune 2005) Item Projet de R&D dans le domaine des télécoms Points de vue technologique; d’usage; de l’offre commerciale; du client ; etc. Item Vase /Scène figurée /Élément figuratif Item Article scientifique Item Entretien sociologique Points de vue Projets de recherche en archéologie et en histoire de l’art Points de vue Ceux des différents membres du projet Points de vue Analyse sociologique des facteurs de mobilisation Attribut standard Date de début; statut du projet; etc. Attribut standard Musée ou collection privée, Numéro d’inventaire Attribut standard Attribut standard Nom Attributs de l'acteur, date et lieu bibliographiques standard de l'entretien Thèmes IPV6; Services Web; voyages; santé; économies de bande passante, etc. (1500 thèmes) Thèmes Analyse de la forme du vase, des scènes figurées, de la technique de fabrication… Thèmes bacteria; bordetella spp; genome sequence; compartment, etc. (400 thèmes) Thèmes défi technique, distinction sociale, engagement politique, socialisation… Ressources Sites Web ou Pièces Jointes descriptifs du détail des projets Ressources Un dossier Ressources Textes des photo par vase, une photo articles, et fragments de par scène figurée, un ces textes fragment photo par élément figuratif Ressources Passages (textuel) de l'entretien
  • 68. Le client Agorae pour la gestion participative de ressources documentaires (Zaher, Cahier et al.)
  • 69. Le client HyperTopic Agoræ : exploration selon le point de vue des cursus de l’UTT (a) point de vue (un établissement) (b) thème (un cursus) (b’) sous-thèmes (des noms d’UV et leurs problématiques),
  • 70. (c) item (un cours), (d) attribut standard/valeur (auteur, dernière modification…) (e) ressource documentaire (ici des transparents). Les « Tags » permettent aux utilisateurs de proposer d’autres sous-thèmes selon une méthode « ascendante ». Ceux-ci peuvent ensuite être intégrés aux ontologies sémiotiques associées aux points de vue.
  • 71. La même utilisation d’Hypertopic avec un autre client dédié à la gestion des images Porphyry (Bénel et al.)
  • 73. Fenêtre de confrontation de points de vue
  • 74. Mise en relation des annotations textuelles effectuées sur un objet
  • 75. Merci de votre attention