L' Analyse documentaire : indexation, classification, clusters

Ecole hôtelière de Lausanne - EHL
Ecole hôtelière de Lausanne - EHLLibrary and Archives Manager at Ecole hoteliere de Lausanne à Ecole hôtelière de Lausanne - EHL
Historisches
Institut
Inhaltserschliessung (I-II):
Manuelle und automatische Indexierung
Analyse documentaire (I-II):
indexation manuelle et automatique
Jean-Philippe Accart, MAS ALIS 2014-2016
15 août 2015
Modul/Module 2c
1
© Jean-Philippe Accart, MAS ALIS 2014/2016 –
Indexation/Classification/Clusters
2
Historisches
Institut
Inhaltserschliessung (I-II): Manuelle und automatische Indexierung
Analyse documentaire (I-II): indexation manuelle et automatique
Objectifs du cours
- Montrer les différences entre indexation manuelle et
automatique
- Expliquer leur utilité / à la recherche d’information
- Idem pour les classifications
- Introduire la notion de clusters
© Jean-Philippe Accart, MAS ALIS 2014/2016 –
Indexation/Classification/Clusters
3
Inhaltserschliessung (I-II): Manuelle und automatische
Indexierung
Analyse documentaire (I-II): indexation manuelle et automatique
Historisches
Institut
Sommaire
Introduction : Retours sur la recherche d’information / à la notion
d’info-obésité
• L’indexation manuelle
• L’indexation automatique
• Les classifications
• Les clusters
© Jean-Philippe Accart, MAS ALIS 2014/2016 –
Indexation/Classification/Clusters
4
Inhaltserschliessung (I-II): Manuelle und automatische
Indexierung
Analyse documentaire (I-II): indexation manuelle et automatique
Les contenus (contents) et la technologie
Historisches
Institut
© Jean-Philippe Accart, MAS ALIS 2014/2016 –
Indexation/Classification/Clusters
5
Inhaltserschliessung (I-II): Manuelle und automatische
Indexierung
Analyse documentaire (I-II): indexation manuelle et automatique
Historisches
Institut
Les contenus (contents) et la technologie
Les contenus d’information sont multiples:
- Revues, presse, livres… papier et numériques
- Internet, Intranet, réseaux d’entreprise
- Emails, documents internes
- Réseaux sociaux, infographies
Inhaltserschliessung (I-II): Manuelle und automatische
Indexierung
© Jean-Philippe Accart, MAS ALIS 2014/2016 –
Indexation/Classification/Clusters
6
Analyse documentaire (I-II): indexation manuelle et automatique
Historisches
Institut
L
e
s
d
o
n
n
é
e
s
n
L
Les données non structurées
(source http://www.idc.com/)
Inhaltserschliessung (I-II): Manuelle und automatische
Indexierung
© Jean-Philippe Accart, MAS ALIS 2014/2016 –
Indexation/Classification/Clusters
7
Analyse documentaire (I-II): indexation manuelle et automatique
Historisches
Institut
Le modèle classique de la recherche d’information (1)
Inhaltserschliessung (I-II): Manuelle und automatische
Indexierung
© Jean-Philippe Accart, MAS ALIS 2014/2016 –
Indexation/Classification/Clusters
8
Analyse documentaire (I-II): indexation manuelle et automatique
Historisches
Institut
Le modèle classique de la recherche d’information (2)
Inhaltserschliessung (I-II): Manuelle und automatische
Indexierung
© Jean-Philippe Accart, MAS ALIS 2014/2016 –
Indexation/Classification/Clusters
9
Analyse documentaire (I-II): indexation manuelle et automatique
Historisches
Institut
Inhaltserschliessung (I-II): Manuelle und automatische
Indexierung
Analyse documentaire (I-II): indexation manuelle et automatique
Historisches
Institut
Indexation/Classification/Clusters
10
© Jean-Philippe Accart, MAS ALIS 2014/2016 –
Indexation/Classification/Clusters
Inhaltserschliessung (I-II): Manuelle und automatische
Indexierung
Analyse documentaire (I-II): indexation manuelle et automatique
Historisches
Institut
© Jean-Philippe Accart, MAS ALIS 2014/2016 –
Indexation/Classification/Clusters
11
Modèles de la recherche d’information sur les moteurs de recherche
3 paramètres sont à considérer:
-> Représentations de documents et de la recherche (traduction
informatique)
-> Stratégies élaborées de recherche pour des résultats pertinents
-> Méthodes de ranking
3 modèles de recherche:
- Booléenne
- Vectorielle
- En utilisant les probabilités
Inhaltserschliessung (I-II): Manuelle und automatische
Indexierung
Analyse documentaire (I-II): indexation manuelle et automatique
Historisches
Institut
© Jean-Philippe Accart, MAS ALIS 2014/2016 –
Indexation/Classification/Clusters
12
II – Indexation manuelle et automatique
Inhaltserschliessung (I-II): Manuelle und automatische
Indexierung
Analyse documentaire (I-II): indexation manuelle et automatique
Historisches
Institut
© Jean-Philippe Accart, MAS ALIS 2014/2016 –
Indexation/Classification/Clusters
13
II – Indexation manuelle
• Indexation par dérivation
– Les mots-clés servant à l‘indexation sont dérivés du
document et „normalisés“
• Indexation par attribution
– Les mots-clés sont attribués à un document en utilisant une
terminologie autorisée (thesaurus, ontologie, index…)
Elle détermine les sujets importants du document.
Elle pose la question : qu’est-ce qu’un sujet pertinent ?
Fondée sur la lecture humaine et la capacité de comprendre
un document.
Inhaltserschliessung (I-II): Manuelle und automatische
Indexierung
Analyse documentaire (I-II): indexation manuelle et automatique
Historisches
Institut
© Jean-Philippe Accart, MAS ALIS 2014/2016 –
Indexation/Classification/Clusters
14
II – Indexation automatique
Elle est fondée sur la fréquence des termes trouvés dans un
document.
Fréquence relative versus absolue
- Par document
- Relative par rapport à une collection de documents
- Elimination des stopswords (mots vides : « le », « la », « de », « du »,
« ce »…)
Fréquence des termes est reliée à la pertinence: sujets principaux sont
plus fréquents.
Inhaltserschliessung (I-II): Manuelle und automatische
Indexierung
Analyse documentaire (I-II): indexation manuelle et automatique
Historisches
Institut
© Jean-Philippe Accart, MAS ALIS 2014/2016 –
Indexation/Classification/Clusters
15
II – Indexation automatique
3 modèles:
- Booléen
- Vectoriel
- Probabiliste
Inhaltserschliessung (I-II): Manuelle und automatische
Indexierung
Analyse documentaire (I-II): indexation manuelle et automatique
Historisches
Institut
Indexation/Classification/Clusters
16
II – Indexation automatique : Modèle booléen
Les vecteurs créés (les termes) sont libres.
Ils sont générés par hypothèse :
Soit B la base vectorielle des mots contenus dans le document.
Toute requête R est traitée de la même manière et ne contient que
les mots significatifs.
Le vecteur (le terme) de la requête est l’union des vecteurs de ses termes
significatifs dans B. Le résultat peut être nul.
Inhaltserschliessung (I-II): Manuelle und automatische
Indexierung
Analyse documentaire (I-II): indexation manuelle et automatique
Historisches
Institut
Indexation/Classification/Clusters
17
II – Indexation automatique : Modèle vectoriel
• A partir d‘un ensemble de termes, normalisation des termes et
élimination des stopwords
• Création d‘une matrice avec les termes restant pour chaque
document
Inhaltserschliessung (I-II): Manuelle und automatische
Indexierung
Analyse documentaire (I-II): indexation manuelle et automatique
Historisches
Institut
© Jean-Philippe Accart, MAS ALIS 2014/2016 –
Indexation/Classification/Clusters
17
II – Indexation automatique : Modèle probabiliste
• Mesure la probabilité de pertinence d’un document par
rapport à une requête
• Utilise 2 probabilités pour chaque document :
- la probabilité de pertinence du document D, P(per/D),
- la probabilité de non pertinence du document D,P(nonper/D)
• La fonction de recherche g(D) donne un ordonnancement des
documents: g(D) = (P(per/D)/P(nonper/D))
• Probabilités calculées en fonction des termes d’indexation de la
base de données
Inhaltserschliessung (I-II): Manuelle und automatische
Indexierung
Analyse documentaire (I-II): indexation manuelle et automatique
Historisches
Institut
© Jean-Philippe Accart, MAS ALIS 2014/2016 –
Indexation/Classification/Clusters
18
III – Les classifications
• Classification manuelle : on attribue manuellement des
classes prédéfinies à des documents.
• Classification automatique :
– on attribue automatiquement des classes prédéfinies à
des documents
– on regroupe des documents automatiquement dans des
clusters
Inhaltserschliessung (I-II): Manuelle und automatische
Indexierung
Analyse documentaire (I-II): indexation manuelle et automatique
Historisches
Institut
© Jean-Philippe Accart, MAS ALIS 2014/2016 –
Indexation/Classification/Clusters
19
IV – Les clusters
• Il s‘agit de regrouper des documents similaires dans des
clusters (ensembles) de documents
• Les documents regroupés dans un cluster doivent être
similaires
• Les documents de clusters différents doivent être dans des
clusters différents
• Les clusters sont la forme la plus courante d‘un savoir non
contrôlé
• Non contrôlé = les données ne sont pas annotées
Inhaltserschliessung (I-II): Manuelle und automatische
Indexierung
Analyse documentaire (I-II): indexation manuelle et automatique
Historisches
Institut
© Jean-Philippe Accart, MAS ALIS 2014/2016 –
Indexation/Classification/Clusters
20
IV – Les clusters
Inhaltserschliessung (I-II): Manuelle und automatische
Indexierung
Analyse documentaire (I-II): indexation manuelle et automatique
Historisches
Institut
© Jean-Philippe Accart, MAS ALIS 2014/2016 –
Indexation/Classification/Clusters
21
IV – Les clusters
• Ce qu‘il faut retenir de la notion de cluster ou de clustering :
– Si un terme trouvé dans un cluster est pertinent, alors les
autres termes du cluster le sont également (principe de
similarité)
– Contrairement à une liste de résultats fournis par un moteur
de recherche, la RI avec clustering affiche les documents
par similarité donc + de chances de fiabilité de la recherche
– http://vivisimo.com (IBM) est un système fondé sur les
clusters
Inhaltserschliessung (I-II): Manuelle und automatische
Indexierung
Analyse documentaire (I-II): indexation manuelle et automatique
Historisches
Institut
© Jean-Philippe Accart, MAS ALIS 2014/2016 –
Indexation/Classification/Clusters
22
IV – Les clusters
Applications pratiques:
- En biologie : pour les plantes, le regroupement de gènes
- En médecine: imagerie médicale
- En marketing et business: segments de marchés, clients
- Réseaux sociaux: reconnaissance de communautés
- Sciences sociales: analyse criminologique
- Climatologie : analyse des températures et des océans…
Inhaltserschliessung (I-II): Manuelle und automatische
Indexierung
Analyse documentaire (I-II): indexation manuelle et automatique
Historisches
Institut
© Jean-Philippe Accart, MAS ALIS 2014/2016 –
Indexation/Classification/Clusters
23
Bibliographie
AMAR M., Les Fondements théoriques de l’indexation : une approche linguistique, Paris, ADBS, 2000.
CHARTRON G., DALBIN S., MONTEIL M.-G., VÉRILLON M., « Indexation manuelle et indexation
automatique : dépasser les oppositions », Documentaliste/sciences de l’information, vol. 26, no
4-5,
1989, p. 181-187.
CHAUMIER J., DEJEAN M., « L’indexation documentaire : de l’analyse conceptuelle humaine à
l’analyse automatique morphosyntaxique », Documentaliste/sciences de l’information, vol. 27, no
6,
novembre-décembre 1990, p. 275-279.
GARFIELD E., « “Science Citation Index” – A New Dimension in Indexing », Science, New Series,
vol. 144, n° 3619, 1964, p. 649-654.
JOLION J.-M. (dir.), L’Indexation, Paris, Hermès Science Publications, 2001. Numéro de : Document
numérique, 2000, vol. 4, no
1-2.
MENON B., « Quelle indexation pour l’information professionnelle ? », dans L’Information
professionnelle, sous la dir. de Viviane Clavier et Céline Paganelli, Paris, Hermes-Lavoisier, 2013,
p. 83-105.
TIMIMI I., KOVACS S. (coord.), Indice, index, indexation, Paris, ADBS, 2006.
Normes
AFNOR, Norme NF Z 47-102 : principes généraux pour l’indexation des documents, Paris, AFNOR,
1996.
Inhaltserschliessung (I-II): Manuelle und automatische
Indexierung
Analyse documentaire (I-II): indexation manuelle et automatique
Historisches
Institut
© Jean-Philippe Accart, MAS ALIS 2014/2016 –
Indexation/Classification/Clusters
24
Guide d’indexation Rameau, Paris, BnF, 2010, en ligne : <http://guiderameau.bnf.fr/>.
1 sur 25

Recommandé

APACHE HTTPAPACHE HTTP
APACHE HTTPRachid NID SAID
3.6K vues75 diapositives
TalendTalend
TalendKlee Group
5.6K vues25 diapositives
NoSQL et Big DataNoSQL et Big Data
NoSQL et Big Dataacogoluegnes
2.5K vues59 diapositives
Integration de donnees_etlIntegration de donnees_etl
Integration de donnees_etlhoracio lassey
5.2K vues18 diapositives

Contenu connexe

En vedette(20)

Le Métier de documentaliste en mutationLe Métier de documentaliste en mutation
Le Métier de documentaliste en mutation
Ecole hôtelière de Lausanne - EHL4.3K vues
Les utilisateurs au coeur des services documentairesLes utilisateurs au coeur des services documentaires
Les utilisateurs au coeur des services documentaires
Vaissaire-Agard Clotilde3.6K vues
Rechercher l’information utileRechercher l’information utile
Rechercher l’information utile
Ecole hôtelière de Lausanne - EHL2.1K vues
Licence pro documentaliste audiovisuelLicence pro documentaliste audiovisuel
Licence pro documentaliste audiovisuel
Éric Delcroix1.1K vues
Validation SitewebValidation Siteweb
Validation Siteweb
EMontel3.6K vues
Livre et lecture numériqueLivre et lecture numérique
Livre et lecture numérique
Vaissaire-Agard Clotilde6.4K vues
du signalement à la KBdu signalement à la KB
du signalement à la KB
Nicolas Morin693 vues
Stage outils curation_2014-12-03Stage outils curation_2014-12-03
Stage outils curation_2014-12-03
URFIST de Rennes 12.8K vues
Logiciels libres en milieu industrielLogiciels libres en milieu industriel
Logiciels libres en milieu industriel
Christian Charreyre1.3K vues
Contrat 2010-2013 ScduagContrat 2010-2013 Scduag
Contrat 2010-2013 Scduag
scduag523 vues

Plus de Ecole hôtelière de Lausanne - EHL(20)

Advocacy, lobbying et mesures d'impact des bibliothequesAdvocacy, lobbying et mesures d'impact des bibliotheques
Advocacy, lobbying et mesures d'impact des bibliotheques
Ecole hôtelière de Lausanne - EHL2.4K vues
Students Information Literacy Skills and Employability Students Information Literacy Skills and Employability
Students Information Literacy Skills and Employability
Ecole hôtelière de Lausanne - EHL996 vues
Nouvelles compétences en Info-DocNouvelles compétences en Info-Doc
Nouvelles compétences en Info-Doc
Ecole hôtelière de Lausanne - EHL902 vues
Ressources humaines en bibliothèque : prêtes pour demain ?Ressources humaines en bibliothèque : prêtes pour demain ?
Ressources humaines en bibliothèque : prêtes pour demain ?
Ecole hôtelière de Lausanne - EHL1.9K vues
Innovative Services in Library and Information Services - Crimea 2015Innovative Services in Library and Information Services - Crimea 2015
Innovative Services in Library and Information Services - Crimea 2015
Ecole hôtelière de Lausanne - EHL3.4K vues
Veille et curation de données - Lyon - 22 janvier 2015Veille et curation de données - Lyon - 22 janvier 2015
Veille et curation de données - Lyon - 22 janvier 2015
Ecole hôtelière de Lausanne - EHL4.2K vues
La mediation en bibliotheque: les 5 mediationsLa mediation en bibliotheque: les 5 mediations
La mediation en bibliotheque: les 5 mediations
Ecole hôtelière de Lausanne - EHL22.2K vues
Archives : La fabuleuse histoire de l'Hôpital d'ArgenteuilArchives : La fabuleuse histoire de l'Hôpital d'Argenteuil
Archives : La fabuleuse histoire de l'Hôpital d'Argenteuil
Ecole hôtelière de Lausanne - EHL4.6K vues
Et si on communiquait autrement valmedia 09.02.2012Et si on communiquait autrement valmedia 09.02.2012
Et si on communiquait autrement valmedia 09.02.2012
Ecole hôtelière de Lausanne - EHL1.3K vues
Hin zu neuen ditgitalen nutzungen Hin zu neuen ditgitalen nutzungen
Hin zu neuen ditgitalen nutzungen
Ecole hôtelière de Lausanne - EHL943 vues
Outils et usages numeriques - ADBS LR - 15.04.2011Outils et usages numeriques - ADBS LR - 15.04.2011
Outils et usages numeriques - ADBS LR - 15.04.2011
Ecole hôtelière de Lausanne - EHL1.6K vues
Documentaliste dans un environnement numériqueDocumentaliste dans un environnement numérique
Documentaliste dans un environnement numérique
Ecole hôtelière de Lausanne - EHL3K vues

Dernier(12)

L' Analyse documentaire : indexation, classification, clusters

  • 1. Historisches Institut Inhaltserschliessung (I-II): Manuelle und automatische Indexierung Analyse documentaire (I-II): indexation manuelle et automatique Jean-Philippe Accart, MAS ALIS 2014-2016 15 août 2015 Modul/Module 2c 1
  • 2. © Jean-Philippe Accart, MAS ALIS 2014/2016 – Indexation/Classification/Clusters 2 Historisches Institut Inhaltserschliessung (I-II): Manuelle und automatische Indexierung Analyse documentaire (I-II): indexation manuelle et automatique Objectifs du cours - Montrer les différences entre indexation manuelle et automatique - Expliquer leur utilité / à la recherche d’information - Idem pour les classifications - Introduire la notion de clusters
  • 3. © Jean-Philippe Accart, MAS ALIS 2014/2016 – Indexation/Classification/Clusters 3 Inhaltserschliessung (I-II): Manuelle und automatische Indexierung Analyse documentaire (I-II): indexation manuelle et automatique Historisches Institut Sommaire Introduction : Retours sur la recherche d’information / à la notion d’info-obésité • L’indexation manuelle • L’indexation automatique • Les classifications • Les clusters
  • 4. © Jean-Philippe Accart, MAS ALIS 2014/2016 – Indexation/Classification/Clusters 4 Inhaltserschliessung (I-II): Manuelle und automatische Indexierung Analyse documentaire (I-II): indexation manuelle et automatique Les contenus (contents) et la technologie Historisches Institut
  • 5. © Jean-Philippe Accart, MAS ALIS 2014/2016 – Indexation/Classification/Clusters 5 Inhaltserschliessung (I-II): Manuelle und automatische Indexierung Analyse documentaire (I-II): indexation manuelle et automatique Historisches Institut Les contenus (contents) et la technologie Les contenus d’information sont multiples: - Revues, presse, livres… papier et numériques - Internet, Intranet, réseaux d’entreprise - Emails, documents internes - Réseaux sociaux, infographies
  • 6. Inhaltserschliessung (I-II): Manuelle und automatische Indexierung © Jean-Philippe Accart, MAS ALIS 2014/2016 – Indexation/Classification/Clusters 6 Analyse documentaire (I-II): indexation manuelle et automatique Historisches Institut L e s d o n n é e s n L Les données non structurées (source http://www.idc.com/)
  • 7. Inhaltserschliessung (I-II): Manuelle und automatische Indexierung © Jean-Philippe Accart, MAS ALIS 2014/2016 – Indexation/Classification/Clusters 7 Analyse documentaire (I-II): indexation manuelle et automatique Historisches Institut Le modèle classique de la recherche d’information (1)
  • 8. Inhaltserschliessung (I-II): Manuelle und automatische Indexierung © Jean-Philippe Accart, MAS ALIS 2014/2016 – Indexation/Classification/Clusters 8 Analyse documentaire (I-II): indexation manuelle et automatique Historisches Institut Le modèle classique de la recherche d’information (2)
  • 9. Inhaltserschliessung (I-II): Manuelle und automatische Indexierung © Jean-Philippe Accart, MAS ALIS 2014/2016 – Indexation/Classification/Clusters 9 Analyse documentaire (I-II): indexation manuelle et automatique Historisches Institut
  • 10. Inhaltserschliessung (I-II): Manuelle und automatische Indexierung Analyse documentaire (I-II): indexation manuelle et automatique Historisches Institut Indexation/Classification/Clusters 10 © Jean-Philippe Accart, MAS ALIS 2014/2016 – Indexation/Classification/Clusters
  • 11. Inhaltserschliessung (I-II): Manuelle und automatische Indexierung Analyse documentaire (I-II): indexation manuelle et automatique Historisches Institut © Jean-Philippe Accart, MAS ALIS 2014/2016 – Indexation/Classification/Clusters 11 Modèles de la recherche d’information sur les moteurs de recherche 3 paramètres sont à considérer: -> Représentations de documents et de la recherche (traduction informatique) -> Stratégies élaborées de recherche pour des résultats pertinents -> Méthodes de ranking 3 modèles de recherche: - Booléenne - Vectorielle - En utilisant les probabilités
  • 12. Inhaltserschliessung (I-II): Manuelle und automatische Indexierung Analyse documentaire (I-II): indexation manuelle et automatique Historisches Institut © Jean-Philippe Accart, MAS ALIS 2014/2016 – Indexation/Classification/Clusters 12 II – Indexation manuelle et automatique
  • 13. Inhaltserschliessung (I-II): Manuelle und automatische Indexierung Analyse documentaire (I-II): indexation manuelle et automatique Historisches Institut © Jean-Philippe Accart, MAS ALIS 2014/2016 – Indexation/Classification/Clusters 13 II – Indexation manuelle • Indexation par dérivation – Les mots-clés servant à l‘indexation sont dérivés du document et „normalisés“ • Indexation par attribution – Les mots-clés sont attribués à un document en utilisant une terminologie autorisée (thesaurus, ontologie, index…) Elle détermine les sujets importants du document. Elle pose la question : qu’est-ce qu’un sujet pertinent ? Fondée sur la lecture humaine et la capacité de comprendre un document.
  • 14. Inhaltserschliessung (I-II): Manuelle und automatische Indexierung Analyse documentaire (I-II): indexation manuelle et automatique Historisches Institut © Jean-Philippe Accart, MAS ALIS 2014/2016 – Indexation/Classification/Clusters 14 II – Indexation automatique Elle est fondée sur la fréquence des termes trouvés dans un document. Fréquence relative versus absolue - Par document - Relative par rapport à une collection de documents - Elimination des stopswords (mots vides : « le », « la », « de », « du », « ce »…) Fréquence des termes est reliée à la pertinence: sujets principaux sont plus fréquents.
  • 15. Inhaltserschliessung (I-II): Manuelle und automatische Indexierung Analyse documentaire (I-II): indexation manuelle et automatique Historisches Institut © Jean-Philippe Accart, MAS ALIS 2014/2016 – Indexation/Classification/Clusters 15 II – Indexation automatique 3 modèles: - Booléen - Vectoriel - Probabiliste
  • 16. Inhaltserschliessung (I-II): Manuelle und automatische Indexierung Analyse documentaire (I-II): indexation manuelle et automatique Historisches Institut Indexation/Classification/Clusters 16 II – Indexation automatique : Modèle booléen Les vecteurs créés (les termes) sont libres. Ils sont générés par hypothèse : Soit B la base vectorielle des mots contenus dans le document. Toute requête R est traitée de la même manière et ne contient que les mots significatifs. Le vecteur (le terme) de la requête est l’union des vecteurs de ses termes significatifs dans B. Le résultat peut être nul.
  • 17. Inhaltserschliessung (I-II): Manuelle und automatische Indexierung Analyse documentaire (I-II): indexation manuelle et automatique Historisches Institut Indexation/Classification/Clusters 17 II – Indexation automatique : Modèle vectoriel • A partir d‘un ensemble de termes, normalisation des termes et élimination des stopwords • Création d‘une matrice avec les termes restant pour chaque document
  • 18. Inhaltserschliessung (I-II): Manuelle und automatische Indexierung Analyse documentaire (I-II): indexation manuelle et automatique Historisches Institut © Jean-Philippe Accart, MAS ALIS 2014/2016 – Indexation/Classification/Clusters 17 II – Indexation automatique : Modèle probabiliste • Mesure la probabilité de pertinence d’un document par rapport à une requête • Utilise 2 probabilités pour chaque document : - la probabilité de pertinence du document D, P(per/D), - la probabilité de non pertinence du document D,P(nonper/D) • La fonction de recherche g(D) donne un ordonnancement des documents: g(D) = (P(per/D)/P(nonper/D)) • Probabilités calculées en fonction des termes d’indexation de la base de données
  • 19. Inhaltserschliessung (I-II): Manuelle und automatische Indexierung Analyse documentaire (I-II): indexation manuelle et automatique Historisches Institut © Jean-Philippe Accart, MAS ALIS 2014/2016 – Indexation/Classification/Clusters 18 III – Les classifications • Classification manuelle : on attribue manuellement des classes prédéfinies à des documents. • Classification automatique : – on attribue automatiquement des classes prédéfinies à des documents – on regroupe des documents automatiquement dans des clusters
  • 20. Inhaltserschliessung (I-II): Manuelle und automatische Indexierung Analyse documentaire (I-II): indexation manuelle et automatique Historisches Institut © Jean-Philippe Accart, MAS ALIS 2014/2016 – Indexation/Classification/Clusters 19 IV – Les clusters • Il s‘agit de regrouper des documents similaires dans des clusters (ensembles) de documents • Les documents regroupés dans un cluster doivent être similaires • Les documents de clusters différents doivent être dans des clusters différents • Les clusters sont la forme la plus courante d‘un savoir non contrôlé • Non contrôlé = les données ne sont pas annotées
  • 21. Inhaltserschliessung (I-II): Manuelle und automatische Indexierung Analyse documentaire (I-II): indexation manuelle et automatique Historisches Institut © Jean-Philippe Accart, MAS ALIS 2014/2016 – Indexation/Classification/Clusters 20 IV – Les clusters
  • 22. Inhaltserschliessung (I-II): Manuelle und automatische Indexierung Analyse documentaire (I-II): indexation manuelle et automatique Historisches Institut © Jean-Philippe Accart, MAS ALIS 2014/2016 – Indexation/Classification/Clusters 21 IV – Les clusters • Ce qu‘il faut retenir de la notion de cluster ou de clustering : – Si un terme trouvé dans un cluster est pertinent, alors les autres termes du cluster le sont également (principe de similarité) – Contrairement à une liste de résultats fournis par un moteur de recherche, la RI avec clustering affiche les documents par similarité donc + de chances de fiabilité de la recherche – http://vivisimo.com (IBM) est un système fondé sur les clusters
  • 23. Inhaltserschliessung (I-II): Manuelle und automatische Indexierung Analyse documentaire (I-II): indexation manuelle et automatique Historisches Institut © Jean-Philippe Accart, MAS ALIS 2014/2016 – Indexation/Classification/Clusters 22 IV – Les clusters Applications pratiques: - En biologie : pour les plantes, le regroupement de gènes - En médecine: imagerie médicale - En marketing et business: segments de marchés, clients - Réseaux sociaux: reconnaissance de communautés - Sciences sociales: analyse criminologique - Climatologie : analyse des températures et des océans…
  • 24. Inhaltserschliessung (I-II): Manuelle und automatische Indexierung Analyse documentaire (I-II): indexation manuelle et automatique Historisches Institut © Jean-Philippe Accart, MAS ALIS 2014/2016 – Indexation/Classification/Clusters 23 Bibliographie AMAR M., Les Fondements théoriques de l’indexation : une approche linguistique, Paris, ADBS, 2000. CHARTRON G., DALBIN S., MONTEIL M.-G., VÉRILLON M., « Indexation manuelle et indexation automatique : dépasser les oppositions », Documentaliste/sciences de l’information, vol. 26, no 4-5, 1989, p. 181-187. CHAUMIER J., DEJEAN M., « L’indexation documentaire : de l’analyse conceptuelle humaine à l’analyse automatique morphosyntaxique », Documentaliste/sciences de l’information, vol. 27, no 6, novembre-décembre 1990, p. 275-279. GARFIELD E., « “Science Citation Index” – A New Dimension in Indexing », Science, New Series, vol. 144, n° 3619, 1964, p. 649-654. JOLION J.-M. (dir.), L’Indexation, Paris, Hermès Science Publications, 2001. Numéro de : Document numérique, 2000, vol. 4, no 1-2. MENON B., « Quelle indexation pour l’information professionnelle ? », dans L’Information professionnelle, sous la dir. de Viviane Clavier et Céline Paganelli, Paris, Hermes-Lavoisier, 2013, p. 83-105. TIMIMI I., KOVACS S. (coord.), Indice, index, indexation, Paris, ADBS, 2006. Normes AFNOR, Norme NF Z 47-102 : principes généraux pour l’indexation des documents, Paris, AFNOR, 1996.
  • 25. Inhaltserschliessung (I-II): Manuelle und automatische Indexierung Analyse documentaire (I-II): indexation manuelle et automatique Historisches Institut © Jean-Philippe Accart, MAS ALIS 2014/2016 – Indexation/Classification/Clusters 24 Guide d’indexation Rameau, Paris, BnF, 2010, en ligne : <http://guiderameau.bnf.fr/>.