SlideShare une entreprise Scribd logo
Historisches
Institut
Inhaltserschliessung (I-II):
Manuelle und automatische Indexierung
Analyse documentaire (I-II):
indexation manuelle et automatique
Jean-Philippe Accart, MAS ALIS 2014-2016
15 août 2015
Modul/Module 2c
1
© Jean-Philippe Accart, MAS ALIS 2014/2016 –
Indexation/Classification/Clusters
2
Historisches
Institut
Inhaltserschliessung (I-II): Manuelle und automatische Indexierung
Analyse documentaire (I-II): indexation manuelle et automatique
Objectifs du cours
- Montrer les différences entre indexation manuelle et
automatique
- Expliquer leur utilité / à la recherche d’information
- Idem pour les classifications
- Introduire la notion de clusters
© Jean-Philippe Accart, MAS ALIS 2014/2016 –
Indexation/Classification/Clusters
3
Inhaltserschliessung (I-II): Manuelle und automatische
Indexierung
Analyse documentaire (I-II): indexation manuelle et automatique
Historisches
Institut
Sommaire
Introduction : Retours sur la recherche d’information / à la notion
d’info-obésité
• L’indexation manuelle
• L’indexation automatique
• Les classifications
• Les clusters
© Jean-Philippe Accart, MAS ALIS 2014/2016 –
Indexation/Classification/Clusters
4
Inhaltserschliessung (I-II): Manuelle und automatische
Indexierung
Analyse documentaire (I-II): indexation manuelle et automatique
Les contenus (contents) et la technologie
Historisches
Institut
© Jean-Philippe Accart, MAS ALIS 2014/2016 –
Indexation/Classification/Clusters
5
Inhaltserschliessung (I-II): Manuelle und automatische
Indexierung
Analyse documentaire (I-II): indexation manuelle et automatique
Historisches
Institut
Les contenus (contents) et la technologie
Les contenus d’information sont multiples:
- Revues, presse, livres… papier et numériques
- Internet, Intranet, réseaux d’entreprise
- Emails, documents internes
- Réseaux sociaux, infographies
Inhaltserschliessung (I-II): Manuelle und automatische
Indexierung
© Jean-Philippe Accart, MAS ALIS 2014/2016 –
Indexation/Classification/Clusters
6
Analyse documentaire (I-II): indexation manuelle et automatique
Historisches
Institut
L
e
s
d
o
n
n
é
e
s
n
L
Les données non structurées
(source http://www.idc.com/)
Inhaltserschliessung (I-II): Manuelle und automatische
Indexierung
© Jean-Philippe Accart, MAS ALIS 2014/2016 –
Indexation/Classification/Clusters
7
Analyse documentaire (I-II): indexation manuelle et automatique
Historisches
Institut
Le modèle classique de la recherche d’information (1)
Inhaltserschliessung (I-II): Manuelle und automatische
Indexierung
© Jean-Philippe Accart, MAS ALIS 2014/2016 –
Indexation/Classification/Clusters
8
Analyse documentaire (I-II): indexation manuelle et automatique
Historisches
Institut
Le modèle classique de la recherche d’information (2)
Inhaltserschliessung (I-II): Manuelle und automatische
Indexierung
© Jean-Philippe Accart, MAS ALIS 2014/2016 –
Indexation/Classification/Clusters
9
Analyse documentaire (I-II): indexation manuelle et automatique
Historisches
Institut
Inhaltserschliessung (I-II): Manuelle und automatische
Indexierung
Analyse documentaire (I-II): indexation manuelle et automatique
Historisches
Institut
Indexation/Classification/Clusters
10
© Jean-Philippe Accart, MAS ALIS 2014/2016 –
Indexation/Classification/Clusters
Inhaltserschliessung (I-II): Manuelle und automatische
Indexierung
Analyse documentaire (I-II): indexation manuelle et automatique
Historisches
Institut
© Jean-Philippe Accart, MAS ALIS 2014/2016 –
Indexation/Classification/Clusters
11
Modèles de la recherche d’information sur les moteurs de recherche
3 paramètres sont à considérer:
-> Représentations de documents et de la recherche (traduction
informatique)
-> Stratégies élaborées de recherche pour des résultats pertinents
-> Méthodes de ranking
3 modèles de recherche:
- Booléenne
- Vectorielle
- En utilisant les probabilités
Inhaltserschliessung (I-II): Manuelle und automatische
Indexierung
Analyse documentaire (I-II): indexation manuelle et automatique
Historisches
Institut
© Jean-Philippe Accart, MAS ALIS 2014/2016 –
Indexation/Classification/Clusters
12
II – Indexation manuelle et automatique
Inhaltserschliessung (I-II): Manuelle und automatische
Indexierung
Analyse documentaire (I-II): indexation manuelle et automatique
Historisches
Institut
© Jean-Philippe Accart, MAS ALIS 2014/2016 –
Indexation/Classification/Clusters
13
II – Indexation manuelle
• Indexation par dérivation
– Les mots-clés servant à l‘indexation sont dérivés du
document et „normalisés“
• Indexation par attribution
– Les mots-clés sont attribués à un document en utilisant une
terminologie autorisée (thesaurus, ontologie, index…)
Elle détermine les sujets importants du document.
Elle pose la question : qu’est-ce qu’un sujet pertinent ?
Fondée sur la lecture humaine et la capacité de comprendre
un document.
Inhaltserschliessung (I-II): Manuelle und automatische
Indexierung
Analyse documentaire (I-II): indexation manuelle et automatique
Historisches
Institut
© Jean-Philippe Accart, MAS ALIS 2014/2016 –
Indexation/Classification/Clusters
14
II – Indexation automatique
Elle est fondée sur la fréquence des termes trouvés dans un
document.
Fréquence relative versus absolue
- Par document
- Relative par rapport à une collection de documents
- Elimination des stopswords (mots vides : « le », « la », « de », « du »,
« ce »…)
Fréquence des termes est reliée à la pertinence: sujets principaux sont
plus fréquents.
Inhaltserschliessung (I-II): Manuelle und automatische
Indexierung
Analyse documentaire (I-II): indexation manuelle et automatique
Historisches
Institut
© Jean-Philippe Accart, MAS ALIS 2014/2016 –
Indexation/Classification/Clusters
15
II – Indexation automatique
3 modèles:
- Booléen
- Vectoriel
- Probabiliste
Inhaltserschliessung (I-II): Manuelle und automatische
Indexierung
Analyse documentaire (I-II): indexation manuelle et automatique
Historisches
Institut
Indexation/Classification/Clusters
16
II – Indexation automatique : Modèle booléen
Les vecteurs créés (les termes) sont libres.
Ils sont générés par hypothèse :
Soit B la base vectorielle des mots contenus dans le document.
Toute requête R est traitée de la même manière et ne contient que
les mots significatifs.
Le vecteur (le terme) de la requête est l’union des vecteurs de ses termes
significatifs dans B. Le résultat peut être nul.
Inhaltserschliessung (I-II): Manuelle und automatische
Indexierung
Analyse documentaire (I-II): indexation manuelle et automatique
Historisches
Institut
Indexation/Classification/Clusters
17
II – Indexation automatique : Modèle vectoriel
• A partir d‘un ensemble de termes, normalisation des termes et
élimination des stopwords
• Création d‘une matrice avec les termes restant pour chaque
document
Inhaltserschliessung (I-II): Manuelle und automatische
Indexierung
Analyse documentaire (I-II): indexation manuelle et automatique
Historisches
Institut
© Jean-Philippe Accart, MAS ALIS 2014/2016 –
Indexation/Classification/Clusters
17
II – Indexation automatique : Modèle probabiliste
• Mesure la probabilité de pertinence d’un document par
rapport à une requête
• Utilise 2 probabilités pour chaque document :
- la probabilité de pertinence du document D, P(per/D),
- la probabilité de non pertinence du document D,P(nonper/D)
• La fonction de recherche g(D) donne un ordonnancement des
documents: g(D) = (P(per/D)/P(nonper/D))
• Probabilités calculées en fonction des termes d’indexation de la
base de données
Inhaltserschliessung (I-II): Manuelle und automatische
Indexierung
Analyse documentaire (I-II): indexation manuelle et automatique
Historisches
Institut
© Jean-Philippe Accart, MAS ALIS 2014/2016 –
Indexation/Classification/Clusters
18
III – Les classifications
• Classification manuelle : on attribue manuellement des
classes prédéfinies à des documents.
• Classification automatique :
– on attribue automatiquement des classes prédéfinies à
des documents
– on regroupe des documents automatiquement dans des
clusters
Inhaltserschliessung (I-II): Manuelle und automatische
Indexierung
Analyse documentaire (I-II): indexation manuelle et automatique
Historisches
Institut
© Jean-Philippe Accart, MAS ALIS 2014/2016 –
Indexation/Classification/Clusters
19
IV – Les clusters
• Il s‘agit de regrouper des documents similaires dans des
clusters (ensembles) de documents
• Les documents regroupés dans un cluster doivent être
similaires
• Les documents de clusters différents doivent être dans des
clusters différents
• Les clusters sont la forme la plus courante d‘un savoir non
contrôlé
• Non contrôlé = les données ne sont pas annotées
Inhaltserschliessung (I-II): Manuelle und automatische
Indexierung
Analyse documentaire (I-II): indexation manuelle et automatique
Historisches
Institut
© Jean-Philippe Accart, MAS ALIS 2014/2016 –
Indexation/Classification/Clusters
20
IV – Les clusters
Inhaltserschliessung (I-II): Manuelle und automatische
Indexierung
Analyse documentaire (I-II): indexation manuelle et automatique
Historisches
Institut
© Jean-Philippe Accart, MAS ALIS 2014/2016 –
Indexation/Classification/Clusters
21
IV – Les clusters
• Ce qu‘il faut retenir de la notion de cluster ou de clustering :
– Si un terme trouvé dans un cluster est pertinent, alors les
autres termes du cluster le sont également (principe de
similarité)
– Contrairement à une liste de résultats fournis par un moteur
de recherche, la RI avec clustering affiche les documents
par similarité donc + de chances de fiabilité de la recherche
– http://vivisimo.com (IBM) est un système fondé sur les
clusters
Inhaltserschliessung (I-II): Manuelle und automatische
Indexierung
Analyse documentaire (I-II): indexation manuelle et automatique
Historisches
Institut
© Jean-Philippe Accart, MAS ALIS 2014/2016 –
Indexation/Classification/Clusters
22
IV – Les clusters
Applications pratiques:
- En biologie : pour les plantes, le regroupement de gènes
- En médecine: imagerie médicale
- En marketing et business: segments de marchés, clients
- Réseaux sociaux: reconnaissance de communautés
- Sciences sociales: analyse criminologique
- Climatologie : analyse des températures et des océans…
Inhaltserschliessung (I-II): Manuelle und automatische
Indexierung
Analyse documentaire (I-II): indexation manuelle et automatique
Historisches
Institut
© Jean-Philippe Accart, MAS ALIS 2014/2016 –
Indexation/Classification/Clusters
23
Bibliographie
AMAR M., Les Fondements théoriques de l’indexation : une approche linguistique, Paris, ADBS, 2000.
CHARTRON G., DALBIN S., MONTEIL M.-G., VÉRILLON M., « Indexation manuelle et indexation
automatique : dépasser les oppositions », Documentaliste/sciences de l’information, vol. 26, no
4-5,
1989, p. 181-187.
CHAUMIER J., DEJEAN M., « L’indexation documentaire : de l’analyse conceptuelle humaine à
l’analyse automatique morphosyntaxique », Documentaliste/sciences de l’information, vol. 27, no
6,
novembre-décembre 1990, p. 275-279.
GARFIELD E., « “Science Citation Index” – A New Dimension in Indexing », Science, New Series,
vol. 144, n° 3619, 1964, p. 649-654.
JOLION J.-M. (dir.), L’Indexation, Paris, Hermès Science Publications, 2001. Numéro de : Document
numérique, 2000, vol. 4, no
1-2.
MENON B., « Quelle indexation pour l’information professionnelle ? », dans L’Information
professionnelle, sous la dir. de Viviane Clavier et Céline Paganelli, Paris, Hermes-Lavoisier, 2013,
p. 83-105.
TIMIMI I., KOVACS S. (coord.), Indice, index, indexation, Paris, ADBS, 2006.
Normes
AFNOR, Norme NF Z 47-102 : principes généraux pour l’indexation des documents, Paris, AFNOR,
1996.
Inhaltserschliessung (I-II): Manuelle und automatische
Indexierung
Analyse documentaire (I-II): indexation manuelle et automatique
Historisches
Institut
© Jean-Philippe Accart, MAS ALIS 2014/2016 –
Indexation/Classification/Clusters
24
Guide d’indexation Rameau, Paris, BnF, 2010, en ligne : <http://guiderameau.bnf.fr/>.

Contenu connexe

Tendances

Chapitre 1 gestion des besoin en fond de roulement
Chapitre 1 gestion des besoin en fond de roulementChapitre 1 gestion des besoin en fond de roulement
Chapitre 1 gestion des besoin en fond de roulement
Taha Can
 
Analyse financ ajuste
Analyse financ ajusteAnalyse financ ajuste
Analyse financ ajuste
Nassim Diouri
 
2743557 dossier-ppe-robot-suiveur-de-ligne
2743557 dossier-ppe-robot-suiveur-de-ligne2743557 dossier-ppe-robot-suiveur-de-ligne
2743557 dossier-ppe-robot-suiveur-de-ligne
Aziz ShadowStokes
 

Tendances (20)

OpenAI FineTuning を試してみる
OpenAI FineTuning を試してみるOpenAI FineTuning を試してみる
OpenAI FineTuning を試してみる
 
Présentation intelligence artificielle et domaines d'applications - #DigitalT...
Présentation intelligence artificielle et domaines d'applications - #DigitalT...Présentation intelligence artificielle et domaines d'applications - #DigitalT...
Présentation intelligence artificielle et domaines d'applications - #DigitalT...
 
Chapitre 1 gestion des besoin en fond de roulement
Chapitre 1 gestion des besoin en fond de roulementChapitre 1 gestion des besoin en fond de roulement
Chapitre 1 gestion des besoin en fond de roulement
 
quadrotor
quadrotor quadrotor
quadrotor
 
Analyse en Composantes Principales
Analyse en Composantes PrincipalesAnalyse en Composantes Principales
Analyse en Composantes Principales
 
Analyse financ ajuste
Analyse financ ajusteAnalyse financ ajuste
Analyse financ ajuste
 
Analyse financiere
Analyse financiereAnalyse financiere
Analyse financiere
 
Audit
AuditAudit
Audit
 
Analyse en Composantes Principales
Analyse en Composantes PrincipalesAnalyse en Composantes Principales
Analyse en Composantes Principales
 
Algorithmique et Structures de Données II
Algorithmique et Structures de Données IIAlgorithmique et Structures de Données II
Algorithmique et Structures de Données II
 
Simulateur de vol FlightGear
Simulateur de vol FlightGearSimulateur de vol FlightGear
Simulateur de vol FlightGear
 
Mathematique financiere
Mathematique financiereMathematique financiere
Mathematique financiere
 
Gérer la comptabilité d'une petite association
Gérer la comptabilité d'une petite associationGérer la comptabilité d'une petite association
Gérer la comptabilité d'une petite association
 
Cours complet de comptabilité générale www.cours-economie.com
Cours complet de comptabilité générale www.cours-economie.comCours complet de comptabilité générale www.cours-economie.com
Cours complet de comptabilité générale www.cours-economie.com
 
Gestion des Chercheurs d’Emploi
Gestion des Chercheurs d’EmploiGestion des Chercheurs d’Emploi
Gestion des Chercheurs d’Emploi
 
PFE Master.pdf
PFE Master.pdfPFE Master.pdf
PFE Master.pdf
 
2743557 dossier-ppe-robot-suiveur-de-ligne
2743557 dossier-ppe-robot-suiveur-de-ligne2743557 dossier-ppe-robot-suiveur-de-ligne
2743557 dossier-ppe-robot-suiveur-de-ligne
 
Analyse financiere
Analyse financiereAnalyse financiere
Analyse financiere
 
Besoins, répartition et projections des médecins spécialistes au Cameroun
Besoins, répartition et projections des médecins spécialistes au CamerounBesoins, répartition et projections des médecins spécialistes au Cameroun
Besoins, répartition et projections des médecins spécialistes au Cameroun
 
Intelligence-artificielle-cancer-du-sein.pptx
Intelligence-artificielle-cancer-du-sein.pptxIntelligence-artificielle-cancer-du-sein.pptx
Intelligence-artificielle-cancer-du-sein.pptx
 

En vedette

Comprendre la chaîne du livre à l\'heure du numérique
Comprendre la chaîne du livre à l\'heure du numériqueComprendre la chaîne du livre à l\'heure du numérique
Comprendre la chaîne du livre à l\'heure du numérique
YouScribe
 
Passeport documentaire Licence et en Master
Passeport documentaire Licence et en MasterPasseport documentaire Licence et en Master
Passeport documentaire Licence et en Master
scduag
 
L\'informatique documentaire à l\'heure du tout web
L\'informatique documentaire à l\'heure du tout webL\'informatique documentaire à l\'heure du tout web
L\'informatique documentaire à l\'heure du tout web
Nicolas Morin
 

En vedette (20)

Le Métier de documentaliste en mutation
Le Métier de documentaliste en mutationLe Métier de documentaliste en mutation
Le Métier de documentaliste en mutation
 
Évolution du rôle du (de la) documentaliste : le travail en réseau
Évolution du rôle  du (de la) documentaliste : le travail en réseauÉvolution du rôle  du (de la) documentaliste : le travail en réseau
Évolution du rôle du (de la) documentaliste : le travail en réseau
 
Les metiers de la documentation et des bibliotheques face aux enjeux professi...
Les metiers de la documentation et des bibliotheques face aux enjeux professi...Les metiers de la documentation et des bibliotheques face aux enjeux professi...
Les metiers de la documentation et des bibliotheques face aux enjeux professi...
 
Les défis professionnels et de formation des métiers de la documentation et d...
Les défis professionnels et de formation des métiers de la documentation et d...Les défis professionnels et de formation des métiers de la documentation et d...
Les défis professionnels et de formation des métiers de la documentation et d...
 
Les utilisateurs au coeur des services documentaires
Les utilisateurs au coeur des services documentairesLes utilisateurs au coeur des services documentaires
Les utilisateurs au coeur des services documentaires
 
Évolution du rôle du (de la) documentaliste : des pistes d'avenir
Évolution du rôle  du (de la) documentaliste : des pistes d'avenirÉvolution du rôle  du (de la) documentaliste : des pistes d'avenir
Évolution du rôle du (de la) documentaliste : des pistes d'avenir
 
Rechercher l’information utile
Rechercher l’information utileRechercher l’information utile
Rechercher l’information utile
 
Licence pro documentaliste audiovisuel
Licence pro documentaliste audiovisuelLicence pro documentaliste audiovisuel
Licence pro documentaliste audiovisuel
 
Validation Siteweb
Validation SitewebValidation Siteweb
Validation Siteweb
 
Livre et lecture numérique
Livre et lecture numériqueLivre et lecture numérique
Livre et lecture numérique
 
Comprendre la chaîne du livre à l\'heure du numérique
Comprendre la chaîne du livre à l\'heure du numériqueComprendre la chaîne du livre à l\'heure du numérique
Comprendre la chaîne du livre à l\'heure du numérique
 
du signalement à la KB
du signalement à la KBdu signalement à la KB
du signalement à la KB
 
Passeport documentaire Licence et en Master
Passeport documentaire Licence et en MasterPasseport documentaire Licence et en Master
Passeport documentaire Licence et en Master
 
L\'informatique documentaire à l\'heure du tout web
L\'informatique documentaire à l\'heure du tout webL\'informatique documentaire à l\'heure du tout web
L\'informatique documentaire à l\'heure du tout web
 
Utiliser les médias sociaux avec ses élèves - Eduquer aux enjeux contemporain...
Utiliser les médias sociaux avec ses élèves - Eduquer aux enjeux contemporain...Utiliser les médias sociaux avec ses élèves - Eduquer aux enjeux contemporain...
Utiliser les médias sociaux avec ses élèves - Eduquer aux enjeux contemporain...
 
Stage outils curation_2014-12-03
Stage outils curation_2014-12-03Stage outils curation_2014-12-03
Stage outils curation_2014-12-03
 
Formation Initiale Informatique 2008
Formation Initiale Informatique 2008Formation Initiale Informatique 2008
Formation Initiale Informatique 2008
 
Logiciels libres en milieu industriel
Logiciels libres en milieu industrielLogiciels libres en milieu industriel
Logiciels libres en milieu industriel
 
Wikipédia : quels usages pédagogiques dans une démarche d'éducation aux médias ?
Wikipédia : quels usages pédagogiques dans une démarche d'éducation aux médias ?Wikipédia : quels usages pédagogiques dans une démarche d'éducation aux médias ?
Wikipédia : quels usages pédagogiques dans une démarche d'éducation aux médias ?
 
Contrat 2010-2013 Scduag
Contrat 2010-2013 ScduagContrat 2010-2013 Scduag
Contrat 2010-2013 Scduag
 

Plus de Ecole hôtelière de Lausanne - EHL

Systèmes de recommandation: applications en bibliothèque, archives et documen...
Systèmes de recommandation: applications en bibliothèque, archives et documen...Systèmes de recommandation: applications en bibliothèque, archives et documen...
Systèmes de recommandation: applications en bibliothèque, archives et documen...
Ecole hôtelière de Lausanne - EHL
 
Atelier Ecrire pour le web - Université de Genève - Droit de citation
Atelier Ecrire pour le web - Université de Genève - Droit de citationAtelier Ecrire pour le web - Université de Genève - Droit de citation
Atelier Ecrire pour le web - Université de Genève - Droit de citation
Ecole hôtelière de Lausanne - EHL
 

Plus de Ecole hôtelière de Lausanne - EHL (20)

L'accompagnement au changement comme condition de réussite : un exemple suisse
L'accompagnement au changement comme condition de réussite : un exemple suisseL'accompagnement au changement comme condition de réussite : un exemple suisse
L'accompagnement au changement comme condition de réussite : un exemple suisse
 
Comment l'esprit entrepreneurial vient aux bibliothecaires documentalistes
Comment l'esprit entrepreneurial vient aux bibliothecaires documentalistesComment l'esprit entrepreneurial vient aux bibliothecaires documentalistes
Comment l'esprit entrepreneurial vient aux bibliothecaires documentalistes
 
Advocacy, lobbying et mesures d'impact des bibliotheques
Advocacy, lobbying et mesures d'impact des bibliothequesAdvocacy, lobbying et mesures d'impact des bibliotheques
Advocacy, lobbying et mesures d'impact des bibliotheques
 
Bibliothécaire : entrepreneur en devenir ? - ABF, La Rochelle, 7 juin 2018
Bibliothécaire : entrepreneur en devenir ? - ABF, La Rochelle, 7 juin 2018Bibliothécaire : entrepreneur en devenir ? - ABF, La Rochelle, 7 juin 2018
Bibliothécaire : entrepreneur en devenir ? - ABF, La Rochelle, 7 juin 2018
 
Students Information Literacy Skills and Employability
Students Information Literacy Skills and Employability Students Information Literacy Skills and Employability
Students Information Literacy Skills and Employability
 
Nouvelles compétences en Info-Doc
Nouvelles compétences en Info-DocNouvelles compétences en Info-Doc
Nouvelles compétences en Info-Doc
 
Ressources humaines en bibliothèque : prêtes pour demain ?
Ressources humaines en bibliothèque : prêtes pour demain ?Ressources humaines en bibliothèque : prêtes pour demain ?
Ressources humaines en bibliothèque : prêtes pour demain ?
 
Innovative Services in Library and Information Services - Crimea 2015
Innovative Services in Library and Information Services - Crimea 2015Innovative Services in Library and Information Services - Crimea 2015
Innovative Services in Library and Information Services - Crimea 2015
 
Veille et curation de données - Lyon - 22 janvier 2015
Veille et curation de données - Lyon - 22 janvier 2015Veille et curation de données - Lyon - 22 janvier 2015
Veille et curation de données - Lyon - 22 janvier 2015
 
Systèmes de recommandation: applications en bibliothèque, archives et documen...
Systèmes de recommandation: applications en bibliothèque, archives et documen...Systèmes de recommandation: applications en bibliothèque, archives et documen...
Systèmes de recommandation: applications en bibliothèque, archives et documen...
 
Prestations des bibliothèques en matière de recherches, avec étude du cas : D...
Prestations des bibliothèques en matière de recherches, avec étude du cas : D...Prestations des bibliothèques en matière de recherches, avec étude du cas : D...
Prestations des bibliothèques en matière de recherches, avec étude du cas : D...
 
Dialogue et lien intergénérationnel : que fait la bibliothèques ? Illustrations
Dialogue et lien intergénérationnel : que fait la bibliothèques ? IllustrationsDialogue et lien intergénérationnel : que fait la bibliothèques ? Illustrations
Dialogue et lien intergénérationnel : que fait la bibliothèques ? Illustrations
 
التحديات المهنية والتكوينية لمهن التوثيق والمكتبات
التحديات المهنية والتكوينية  لمهن التوثيق والمكتبات التحديات المهنية والتكوينية  لمهن التوثيق والمكتبات
التحديات المهنية والتكوينية لمهن التوثيق والمكتبات
 
La mediation en bibliotheque: les 5 mediations
La mediation en bibliotheque: les 5 mediationsLa mediation en bibliotheque: les 5 mediations
La mediation en bibliotheque: les 5 mediations
 
Archives : La fabuleuse histoire de l'Hôpital d'Argenteuil
Archives : La fabuleuse histoire de l'Hôpital d'ArgenteuilArchives : La fabuleuse histoire de l'Hôpital d'Argenteuil
Archives : La fabuleuse histoire de l'Hôpital d'Argenteuil
 
Atelier Ecrire pour le web - Université de Genève - Droit de citation
Atelier Ecrire pour le web - Université de Genève - Droit de citationAtelier Ecrire pour le web - Université de Genève - Droit de citation
Atelier Ecrire pour le web - Université de Genève - Droit de citation
 
Et si on communiquait autrement valmedia 09.02.2012
Et si on communiquait autrement valmedia 09.02.2012Et si on communiquait autrement valmedia 09.02.2012
Et si on communiquait autrement valmedia 09.02.2012
 
Hin zu neuen ditgitalen nutzungen
Hin zu neuen ditgitalen nutzungen Hin zu neuen ditgitalen nutzungen
Hin zu neuen ditgitalen nutzungen
 
Outils et usages numeriques - ADBS LR - 15.04.2011
Outils et usages numeriques - ADBS LR - 15.04.2011Outils et usages numeriques - ADBS LR - 15.04.2011
Outils et usages numeriques - ADBS LR - 15.04.2011
 
Documentaliste dans un environnement numérique
Documentaliste dans un environnement numériqueDocumentaliste dans un environnement numérique
Documentaliste dans un environnement numérique
 

Dernier

Decret-n°19-10-du-23-janvier-2019-reglementant-lexportation-des-déchets-spéci...
Decret-n°19-10-du-23-janvier-2019-reglementant-lexportation-des-déchets-spéci...Decret-n°19-10-du-23-janvier-2019-reglementant-lexportation-des-déchets-spéci...
Decret-n°19-10-du-23-janvier-2019-reglementant-lexportation-des-déchets-spéci...
zidani2
 
support de formation Consignation et déconsignation des energies et produits...
support de formation  Consignation et déconsignation des energies et produits...support de formation  Consignation et déconsignation des energies et produits...
support de formation Consignation et déconsignation des energies et produits...
ABDELHADI ENNAIR
 

Dernier (12)

Decret-n°19-10-du-23-janvier-2019-reglementant-lexportation-des-déchets-spéci...
Decret-n°19-10-du-23-janvier-2019-reglementant-lexportation-des-déchets-spéci...Decret-n°19-10-du-23-janvier-2019-reglementant-lexportation-des-déchets-spéci...
Decret-n°19-10-du-23-janvier-2019-reglementant-lexportation-des-déchets-spéci...
 
Comment enseigner la langue française en Colombie?
Comment enseigner la langue française en Colombie?Comment enseigner la langue française en Colombie?
Comment enseigner la langue française en Colombie?
 
Guide d'utilisation Microsoft PowerPoint 2016
Guide d'utilisation Microsoft PowerPoint 2016Guide d'utilisation Microsoft PowerPoint 2016
Guide d'utilisation Microsoft PowerPoint 2016
 
EL KATRY Reem: Proposition de Programme Artistique et Exposition pour les Écoles
EL KATRY Reem: Proposition de Programme Artistique et Exposition pour les ÉcolesEL KATRY Reem: Proposition de Programme Artistique et Exposition pour les Écoles
EL KATRY Reem: Proposition de Programme Artistique et Exposition pour les Écoles
 
Sainte Jeanne d'Arc, patronne de la France 1412-1431.pptx
Sainte Jeanne d'Arc, patronne de la France 1412-1431.pptxSainte Jeanne d'Arc, patronne de la France 1412-1431.pptx
Sainte Jeanne d'Arc, patronne de la France 1412-1431.pptx
 
Newsletter SPW Agriculture en province du Luxembourg du 17-05-24
Newsletter SPW Agriculture en province du Luxembourg du 17-05-24Newsletter SPW Agriculture en province du Luxembourg du 17-05-24
Newsletter SPW Agriculture en province du Luxembourg du 17-05-24
 
Festival de Cannes 2024.pptx
Festival    de     Cannes        2024.pptxFestival    de     Cannes        2024.pptx
Festival de Cannes 2024.pptx
 
Épreuve de leçon SII.pptx
Épreuve de leçon  SII.pptxÉpreuve de leçon  SII.pptx
Épreuve de leçon SII.pptx
 
Cahier-de-Charges-Communication-Digitale-1-1.pdf
Cahier-de-Charges-Communication-Digitale-1-1.pdfCahier-de-Charges-Communication-Digitale-1-1.pdf
Cahier-de-Charges-Communication-Digitale-1-1.pdf
 
Résultats enquête RH 2024 Fonction Publique.pdf
Résultats enquête RH 2024 Fonction Publique.pdfRésultats enquête RH 2024 Fonction Publique.pdf
Résultats enquête RH 2024 Fonction Publique.pdf
 
support de formation Consignation et déconsignation des energies et produits...
support de formation  Consignation et déconsignation des energies et produits...support de formation  Consignation et déconsignation des energies et produits...
support de formation Consignation et déconsignation des energies et produits...
 
Présentation Webinaire Cohésion - Concevoir et mettre en place une CMDB, comm...
Présentation Webinaire Cohésion - Concevoir et mettre en place une CMDB, comm...Présentation Webinaire Cohésion - Concevoir et mettre en place une CMDB, comm...
Présentation Webinaire Cohésion - Concevoir et mettre en place une CMDB, comm...
 

L' Analyse documentaire : indexation, classification, clusters

  • 1. Historisches Institut Inhaltserschliessung (I-II): Manuelle und automatische Indexierung Analyse documentaire (I-II): indexation manuelle et automatique Jean-Philippe Accart, MAS ALIS 2014-2016 15 août 2015 Modul/Module 2c 1
  • 2. © Jean-Philippe Accart, MAS ALIS 2014/2016 – Indexation/Classification/Clusters 2 Historisches Institut Inhaltserschliessung (I-II): Manuelle und automatische Indexierung Analyse documentaire (I-II): indexation manuelle et automatique Objectifs du cours - Montrer les différences entre indexation manuelle et automatique - Expliquer leur utilité / à la recherche d’information - Idem pour les classifications - Introduire la notion de clusters
  • 3. © Jean-Philippe Accart, MAS ALIS 2014/2016 – Indexation/Classification/Clusters 3 Inhaltserschliessung (I-II): Manuelle und automatische Indexierung Analyse documentaire (I-II): indexation manuelle et automatique Historisches Institut Sommaire Introduction : Retours sur la recherche d’information / à la notion d’info-obésité • L’indexation manuelle • L’indexation automatique • Les classifications • Les clusters
  • 4. © Jean-Philippe Accart, MAS ALIS 2014/2016 – Indexation/Classification/Clusters 4 Inhaltserschliessung (I-II): Manuelle und automatische Indexierung Analyse documentaire (I-II): indexation manuelle et automatique Les contenus (contents) et la technologie Historisches Institut
  • 5. © Jean-Philippe Accart, MAS ALIS 2014/2016 – Indexation/Classification/Clusters 5 Inhaltserschliessung (I-II): Manuelle und automatische Indexierung Analyse documentaire (I-II): indexation manuelle et automatique Historisches Institut Les contenus (contents) et la technologie Les contenus d’information sont multiples: - Revues, presse, livres… papier et numériques - Internet, Intranet, réseaux d’entreprise - Emails, documents internes - Réseaux sociaux, infographies
  • 6. Inhaltserschliessung (I-II): Manuelle und automatische Indexierung © Jean-Philippe Accart, MAS ALIS 2014/2016 – Indexation/Classification/Clusters 6 Analyse documentaire (I-II): indexation manuelle et automatique Historisches Institut L e s d o n n é e s n L Les données non structurées (source http://www.idc.com/)
  • 7. Inhaltserschliessung (I-II): Manuelle und automatische Indexierung © Jean-Philippe Accart, MAS ALIS 2014/2016 – Indexation/Classification/Clusters 7 Analyse documentaire (I-II): indexation manuelle et automatique Historisches Institut Le modèle classique de la recherche d’information (1)
  • 8. Inhaltserschliessung (I-II): Manuelle und automatische Indexierung © Jean-Philippe Accart, MAS ALIS 2014/2016 – Indexation/Classification/Clusters 8 Analyse documentaire (I-II): indexation manuelle et automatique Historisches Institut Le modèle classique de la recherche d’information (2)
  • 9. Inhaltserschliessung (I-II): Manuelle und automatische Indexierung © Jean-Philippe Accart, MAS ALIS 2014/2016 – Indexation/Classification/Clusters 9 Analyse documentaire (I-II): indexation manuelle et automatique Historisches Institut
  • 10. Inhaltserschliessung (I-II): Manuelle und automatische Indexierung Analyse documentaire (I-II): indexation manuelle et automatique Historisches Institut Indexation/Classification/Clusters 10 © Jean-Philippe Accart, MAS ALIS 2014/2016 – Indexation/Classification/Clusters
  • 11. Inhaltserschliessung (I-II): Manuelle und automatische Indexierung Analyse documentaire (I-II): indexation manuelle et automatique Historisches Institut © Jean-Philippe Accart, MAS ALIS 2014/2016 – Indexation/Classification/Clusters 11 Modèles de la recherche d’information sur les moteurs de recherche 3 paramètres sont à considérer: -> Représentations de documents et de la recherche (traduction informatique) -> Stratégies élaborées de recherche pour des résultats pertinents -> Méthodes de ranking 3 modèles de recherche: - Booléenne - Vectorielle - En utilisant les probabilités
  • 12. Inhaltserschliessung (I-II): Manuelle und automatische Indexierung Analyse documentaire (I-II): indexation manuelle et automatique Historisches Institut © Jean-Philippe Accart, MAS ALIS 2014/2016 – Indexation/Classification/Clusters 12 II – Indexation manuelle et automatique
  • 13. Inhaltserschliessung (I-II): Manuelle und automatische Indexierung Analyse documentaire (I-II): indexation manuelle et automatique Historisches Institut © Jean-Philippe Accart, MAS ALIS 2014/2016 – Indexation/Classification/Clusters 13 II – Indexation manuelle • Indexation par dérivation – Les mots-clés servant à l‘indexation sont dérivés du document et „normalisés“ • Indexation par attribution – Les mots-clés sont attribués à un document en utilisant une terminologie autorisée (thesaurus, ontologie, index…) Elle détermine les sujets importants du document. Elle pose la question : qu’est-ce qu’un sujet pertinent ? Fondée sur la lecture humaine et la capacité de comprendre un document.
  • 14. Inhaltserschliessung (I-II): Manuelle und automatische Indexierung Analyse documentaire (I-II): indexation manuelle et automatique Historisches Institut © Jean-Philippe Accart, MAS ALIS 2014/2016 – Indexation/Classification/Clusters 14 II – Indexation automatique Elle est fondée sur la fréquence des termes trouvés dans un document. Fréquence relative versus absolue - Par document - Relative par rapport à une collection de documents - Elimination des stopswords (mots vides : « le », « la », « de », « du », « ce »…) Fréquence des termes est reliée à la pertinence: sujets principaux sont plus fréquents.
  • 15. Inhaltserschliessung (I-II): Manuelle und automatische Indexierung Analyse documentaire (I-II): indexation manuelle et automatique Historisches Institut © Jean-Philippe Accart, MAS ALIS 2014/2016 – Indexation/Classification/Clusters 15 II – Indexation automatique 3 modèles: - Booléen - Vectoriel - Probabiliste
  • 16. Inhaltserschliessung (I-II): Manuelle und automatische Indexierung Analyse documentaire (I-II): indexation manuelle et automatique Historisches Institut Indexation/Classification/Clusters 16 II – Indexation automatique : Modèle booléen Les vecteurs créés (les termes) sont libres. Ils sont générés par hypothèse : Soit B la base vectorielle des mots contenus dans le document. Toute requête R est traitée de la même manière et ne contient que les mots significatifs. Le vecteur (le terme) de la requête est l’union des vecteurs de ses termes significatifs dans B. Le résultat peut être nul.
  • 17. Inhaltserschliessung (I-II): Manuelle und automatische Indexierung Analyse documentaire (I-II): indexation manuelle et automatique Historisches Institut Indexation/Classification/Clusters 17 II – Indexation automatique : Modèle vectoriel • A partir d‘un ensemble de termes, normalisation des termes et élimination des stopwords • Création d‘une matrice avec les termes restant pour chaque document
  • 18. Inhaltserschliessung (I-II): Manuelle und automatische Indexierung Analyse documentaire (I-II): indexation manuelle et automatique Historisches Institut © Jean-Philippe Accart, MAS ALIS 2014/2016 – Indexation/Classification/Clusters 17 II – Indexation automatique : Modèle probabiliste • Mesure la probabilité de pertinence d’un document par rapport à une requête • Utilise 2 probabilités pour chaque document : - la probabilité de pertinence du document D, P(per/D), - la probabilité de non pertinence du document D,P(nonper/D) • La fonction de recherche g(D) donne un ordonnancement des documents: g(D) = (P(per/D)/P(nonper/D)) • Probabilités calculées en fonction des termes d’indexation de la base de données
  • 19. Inhaltserschliessung (I-II): Manuelle und automatische Indexierung Analyse documentaire (I-II): indexation manuelle et automatique Historisches Institut © Jean-Philippe Accart, MAS ALIS 2014/2016 – Indexation/Classification/Clusters 18 III – Les classifications • Classification manuelle : on attribue manuellement des classes prédéfinies à des documents. • Classification automatique : – on attribue automatiquement des classes prédéfinies à des documents – on regroupe des documents automatiquement dans des clusters
  • 20. Inhaltserschliessung (I-II): Manuelle und automatische Indexierung Analyse documentaire (I-II): indexation manuelle et automatique Historisches Institut © Jean-Philippe Accart, MAS ALIS 2014/2016 – Indexation/Classification/Clusters 19 IV – Les clusters • Il s‘agit de regrouper des documents similaires dans des clusters (ensembles) de documents • Les documents regroupés dans un cluster doivent être similaires • Les documents de clusters différents doivent être dans des clusters différents • Les clusters sont la forme la plus courante d‘un savoir non contrôlé • Non contrôlé = les données ne sont pas annotées
  • 21. Inhaltserschliessung (I-II): Manuelle und automatische Indexierung Analyse documentaire (I-II): indexation manuelle et automatique Historisches Institut © Jean-Philippe Accart, MAS ALIS 2014/2016 – Indexation/Classification/Clusters 20 IV – Les clusters
  • 22. Inhaltserschliessung (I-II): Manuelle und automatische Indexierung Analyse documentaire (I-II): indexation manuelle et automatique Historisches Institut © Jean-Philippe Accart, MAS ALIS 2014/2016 – Indexation/Classification/Clusters 21 IV – Les clusters • Ce qu‘il faut retenir de la notion de cluster ou de clustering : – Si un terme trouvé dans un cluster est pertinent, alors les autres termes du cluster le sont également (principe de similarité) – Contrairement à une liste de résultats fournis par un moteur de recherche, la RI avec clustering affiche les documents par similarité donc + de chances de fiabilité de la recherche – http://vivisimo.com (IBM) est un système fondé sur les clusters
  • 23. Inhaltserschliessung (I-II): Manuelle und automatische Indexierung Analyse documentaire (I-II): indexation manuelle et automatique Historisches Institut © Jean-Philippe Accart, MAS ALIS 2014/2016 – Indexation/Classification/Clusters 22 IV – Les clusters Applications pratiques: - En biologie : pour les plantes, le regroupement de gènes - En médecine: imagerie médicale - En marketing et business: segments de marchés, clients - Réseaux sociaux: reconnaissance de communautés - Sciences sociales: analyse criminologique - Climatologie : analyse des températures et des océans…
  • 24. Inhaltserschliessung (I-II): Manuelle und automatische Indexierung Analyse documentaire (I-II): indexation manuelle et automatique Historisches Institut © Jean-Philippe Accart, MAS ALIS 2014/2016 – Indexation/Classification/Clusters 23 Bibliographie AMAR M., Les Fondements théoriques de l’indexation : une approche linguistique, Paris, ADBS, 2000. CHARTRON G., DALBIN S., MONTEIL M.-G., VÉRILLON M., « Indexation manuelle et indexation automatique : dépasser les oppositions », Documentaliste/sciences de l’information, vol. 26, no 4-5, 1989, p. 181-187. CHAUMIER J., DEJEAN M., « L’indexation documentaire : de l’analyse conceptuelle humaine à l’analyse automatique morphosyntaxique », Documentaliste/sciences de l’information, vol. 27, no 6, novembre-décembre 1990, p. 275-279. GARFIELD E., « “Science Citation Index” – A New Dimension in Indexing », Science, New Series, vol. 144, n° 3619, 1964, p. 649-654. JOLION J.-M. (dir.), L’Indexation, Paris, Hermès Science Publications, 2001. Numéro de : Document numérique, 2000, vol. 4, no 1-2. MENON B., « Quelle indexation pour l’information professionnelle ? », dans L’Information professionnelle, sous la dir. de Viviane Clavier et Céline Paganelli, Paris, Hermes-Lavoisier, 2013, p. 83-105. TIMIMI I., KOVACS S. (coord.), Indice, index, indexation, Paris, ADBS, 2006. Normes AFNOR, Norme NF Z 47-102 : principes généraux pour l’indexation des documents, Paris, AFNOR, 1996.
  • 25. Inhaltserschliessung (I-II): Manuelle und automatische Indexierung Analyse documentaire (I-II): indexation manuelle et automatique Historisches Institut © Jean-Philippe Accart, MAS ALIS 2014/2016 – Indexation/Classification/Clusters 24 Guide d’indexation Rameau, Paris, BnF, 2010, en ligne : <http://guiderameau.bnf.fr/>.