L' Analyse documentaire : indexation, classification, clusters

3 104 vues

Publié le

Cours donné dans le cadre du MAS ALIS des Universités de Berne et Lausanne - 2014-2016

Publié dans : Formation

L' Analyse documentaire : indexation, classification, clusters

  1. 1. Historisches Institut Inhaltserschliessung (I-II): Manuelle und automatische Indexierung Analyse documentaire (I-II): indexation manuelle et automatique Jean-Philippe Accart, MAS ALIS 2014-2016 15 août 2015 Modul/Module 2c 1
  2. 2. © Jean-Philippe Accart, MAS ALIS 2014/2016 – Indexation/Classification/Clusters 2 Historisches Institut Inhaltserschliessung (I-II): Manuelle und automatische Indexierung Analyse documentaire (I-II): indexation manuelle et automatique Objectifs du cours - Montrer les différences entre indexation manuelle et automatique - Expliquer leur utilité / à la recherche d’information - Idem pour les classifications - Introduire la notion de clusters
  3. 3. © Jean-Philippe Accart, MAS ALIS 2014/2016 – Indexation/Classification/Clusters 3 Inhaltserschliessung (I-II): Manuelle und automatische Indexierung Analyse documentaire (I-II): indexation manuelle et automatique Historisches Institut Sommaire Introduction : Retours sur la recherche d’information / à la notion d’info-obésité • L’indexation manuelle • L’indexation automatique • Les classifications • Les clusters
  4. 4. © Jean-Philippe Accart, MAS ALIS 2014/2016 – Indexation/Classification/Clusters 4 Inhaltserschliessung (I-II): Manuelle und automatische Indexierung Analyse documentaire (I-II): indexation manuelle et automatique Les contenus (contents) et la technologie Historisches Institut
  5. 5. © Jean-Philippe Accart, MAS ALIS 2014/2016 – Indexation/Classification/Clusters 5 Inhaltserschliessung (I-II): Manuelle und automatische Indexierung Analyse documentaire (I-II): indexation manuelle et automatique Historisches Institut Les contenus (contents) et la technologie Les contenus d’information sont multiples: - Revues, presse, livres… papier et numériques - Internet, Intranet, réseaux d’entreprise - Emails, documents internes - Réseaux sociaux, infographies
  6. 6. Inhaltserschliessung (I-II): Manuelle und automatische Indexierung © Jean-Philippe Accart, MAS ALIS 2014/2016 – Indexation/Classification/Clusters 6 Analyse documentaire (I-II): indexation manuelle et automatique Historisches Institut L e s d o n n é e s n L Les données non structurées (source http://www.idc.com/)
  7. 7. Inhaltserschliessung (I-II): Manuelle und automatische Indexierung © Jean-Philippe Accart, MAS ALIS 2014/2016 – Indexation/Classification/Clusters 7 Analyse documentaire (I-II): indexation manuelle et automatique Historisches Institut Le modèle classique de la recherche d’information (1)
  8. 8. Inhaltserschliessung (I-II): Manuelle und automatische Indexierung © Jean-Philippe Accart, MAS ALIS 2014/2016 – Indexation/Classification/Clusters 8 Analyse documentaire (I-II): indexation manuelle et automatique Historisches Institut Le modèle classique de la recherche d’information (2)
  9. 9. Inhaltserschliessung (I-II): Manuelle und automatische Indexierung © Jean-Philippe Accart, MAS ALIS 2014/2016 – Indexation/Classification/Clusters 9 Analyse documentaire (I-II): indexation manuelle et automatique Historisches Institut
  10. 10. Inhaltserschliessung (I-II): Manuelle und automatische Indexierung Analyse documentaire (I-II): indexation manuelle et automatique Historisches Institut Indexation/Classification/Clusters 10 © Jean-Philippe Accart, MAS ALIS 2014/2016 – Indexation/Classification/Clusters
  11. 11. Inhaltserschliessung (I-II): Manuelle und automatische Indexierung Analyse documentaire (I-II): indexation manuelle et automatique Historisches Institut © Jean-Philippe Accart, MAS ALIS 2014/2016 – Indexation/Classification/Clusters 11 Modèles de la recherche d’information sur les moteurs de recherche 3 paramètres sont à considérer: -> Représentations de documents et de la recherche (traduction informatique) -> Stratégies élaborées de recherche pour des résultats pertinents -> Méthodes de ranking 3 modèles de recherche: - Booléenne - Vectorielle - En utilisant les probabilités
  12. 12. Inhaltserschliessung (I-II): Manuelle und automatische Indexierung Analyse documentaire (I-II): indexation manuelle et automatique Historisches Institut © Jean-Philippe Accart, MAS ALIS 2014/2016 – Indexation/Classification/Clusters 12 II – Indexation manuelle et automatique
  13. 13. Inhaltserschliessung (I-II): Manuelle und automatische Indexierung Analyse documentaire (I-II): indexation manuelle et automatique Historisches Institut © Jean-Philippe Accart, MAS ALIS 2014/2016 – Indexation/Classification/Clusters 13 II – Indexation manuelle • Indexation par dérivation – Les mots-clés servant à l‘indexation sont dérivés du document et „normalisés“ • Indexation par attribution – Les mots-clés sont attribués à un document en utilisant une terminologie autorisée (thesaurus, ontologie, index…) Elle détermine les sujets importants du document. Elle pose la question : qu’est-ce qu’un sujet pertinent ? Fondée sur la lecture humaine et la capacité de comprendre un document.
  14. 14. Inhaltserschliessung (I-II): Manuelle und automatische Indexierung Analyse documentaire (I-II): indexation manuelle et automatique Historisches Institut © Jean-Philippe Accart, MAS ALIS 2014/2016 – Indexation/Classification/Clusters 14 II – Indexation automatique Elle est fondée sur la fréquence des termes trouvés dans un document. Fréquence relative versus absolue - Par document - Relative par rapport à une collection de documents - Elimination des stopswords (mots vides : « le », « la », « de », « du », « ce »…) Fréquence des termes est reliée à la pertinence: sujets principaux sont plus fréquents.
  15. 15. Inhaltserschliessung (I-II): Manuelle und automatische Indexierung Analyse documentaire (I-II): indexation manuelle et automatique Historisches Institut © Jean-Philippe Accart, MAS ALIS 2014/2016 – Indexation/Classification/Clusters 15 II – Indexation automatique 3 modèles: - Booléen - Vectoriel - Probabiliste
  16. 16. Inhaltserschliessung (I-II): Manuelle und automatische Indexierung Analyse documentaire (I-II): indexation manuelle et automatique Historisches Institut Indexation/Classification/Clusters 16 II – Indexation automatique : Modèle booléen Les vecteurs créés (les termes) sont libres. Ils sont générés par hypothèse : Soit B la base vectorielle des mots contenus dans le document. Toute requête R est traitée de la même manière et ne contient que les mots significatifs. Le vecteur (le terme) de la requête est l’union des vecteurs de ses termes significatifs dans B. Le résultat peut être nul.
  17. 17. Inhaltserschliessung (I-II): Manuelle und automatische Indexierung Analyse documentaire (I-II): indexation manuelle et automatique Historisches Institut Indexation/Classification/Clusters 17 II – Indexation automatique : Modèle vectoriel • A partir d‘un ensemble de termes, normalisation des termes et élimination des stopwords • Création d‘une matrice avec les termes restant pour chaque document
  18. 18. Inhaltserschliessung (I-II): Manuelle und automatische Indexierung Analyse documentaire (I-II): indexation manuelle et automatique Historisches Institut © Jean-Philippe Accart, MAS ALIS 2014/2016 – Indexation/Classification/Clusters 17 II – Indexation automatique : Modèle probabiliste • Mesure la probabilité de pertinence d’un document par rapport à une requête • Utilise 2 probabilités pour chaque document : - la probabilité de pertinence du document D, P(per/D), - la probabilité de non pertinence du document D,P(nonper/D) • La fonction de recherche g(D) donne un ordonnancement des documents: g(D) = (P(per/D)/P(nonper/D)) • Probabilités calculées en fonction des termes d’indexation de la base de données
  19. 19. Inhaltserschliessung (I-II): Manuelle und automatische Indexierung Analyse documentaire (I-II): indexation manuelle et automatique Historisches Institut © Jean-Philippe Accart, MAS ALIS 2014/2016 – Indexation/Classification/Clusters 18 III – Les classifications • Classification manuelle : on attribue manuellement des classes prédéfinies à des documents. • Classification automatique : – on attribue automatiquement des classes prédéfinies à des documents – on regroupe des documents automatiquement dans des clusters
  20. 20. Inhaltserschliessung (I-II): Manuelle und automatische Indexierung Analyse documentaire (I-II): indexation manuelle et automatique Historisches Institut © Jean-Philippe Accart, MAS ALIS 2014/2016 – Indexation/Classification/Clusters 19 IV – Les clusters • Il s‘agit de regrouper des documents similaires dans des clusters (ensembles) de documents • Les documents regroupés dans un cluster doivent être similaires • Les documents de clusters différents doivent être dans des clusters différents • Les clusters sont la forme la plus courante d‘un savoir non contrôlé • Non contrôlé = les données ne sont pas annotées
  21. 21. Inhaltserschliessung (I-II): Manuelle und automatische Indexierung Analyse documentaire (I-II): indexation manuelle et automatique Historisches Institut © Jean-Philippe Accart, MAS ALIS 2014/2016 – Indexation/Classification/Clusters 20 IV – Les clusters
  22. 22. Inhaltserschliessung (I-II): Manuelle und automatische Indexierung Analyse documentaire (I-II): indexation manuelle et automatique Historisches Institut © Jean-Philippe Accart, MAS ALIS 2014/2016 – Indexation/Classification/Clusters 21 IV – Les clusters • Ce qu‘il faut retenir de la notion de cluster ou de clustering : – Si un terme trouvé dans un cluster est pertinent, alors les autres termes du cluster le sont également (principe de similarité) – Contrairement à une liste de résultats fournis par un moteur de recherche, la RI avec clustering affiche les documents par similarité donc + de chances de fiabilité de la recherche – http://vivisimo.com (IBM) est un système fondé sur les clusters
  23. 23. Inhaltserschliessung (I-II): Manuelle und automatische Indexierung Analyse documentaire (I-II): indexation manuelle et automatique Historisches Institut © Jean-Philippe Accart, MAS ALIS 2014/2016 – Indexation/Classification/Clusters 22 IV – Les clusters Applications pratiques: - En biologie : pour les plantes, le regroupement de gènes - En médecine: imagerie médicale - En marketing et business: segments de marchés, clients - Réseaux sociaux: reconnaissance de communautés - Sciences sociales: analyse criminologique - Climatologie : analyse des températures et des océans…
  24. 24. Inhaltserschliessung (I-II): Manuelle und automatische Indexierung Analyse documentaire (I-II): indexation manuelle et automatique Historisches Institut © Jean-Philippe Accart, MAS ALIS 2014/2016 – Indexation/Classification/Clusters 23 Bibliographie AMAR M., Les Fondements théoriques de l’indexation : une approche linguistique, Paris, ADBS, 2000. CHARTRON G., DALBIN S., MONTEIL M.-G., VÉRILLON M., « Indexation manuelle et indexation automatique : dépasser les oppositions », Documentaliste/sciences de l’information, vol. 26, no 4-5, 1989, p. 181-187. CHAUMIER J., DEJEAN M., « L’indexation documentaire : de l’analyse conceptuelle humaine à l’analyse automatique morphosyntaxique », Documentaliste/sciences de l’information, vol. 27, no 6, novembre-décembre 1990, p. 275-279. GARFIELD E., « “Science Citation Index” – A New Dimension in Indexing », Science, New Series, vol. 144, n° 3619, 1964, p. 649-654. JOLION J.-M. (dir.), L’Indexation, Paris, Hermès Science Publications, 2001. Numéro de : Document numérique, 2000, vol. 4, no 1-2. MENON B., « Quelle indexation pour l’information professionnelle ? », dans L’Information professionnelle, sous la dir. de Viviane Clavier et Céline Paganelli, Paris, Hermes-Lavoisier, 2013, p. 83-105. TIMIMI I., KOVACS S. (coord.), Indice, index, indexation, Paris, ADBS, 2006. Normes AFNOR, Norme NF Z 47-102 : principes généraux pour l’indexation des documents, Paris, AFNOR, 1996.
  25. 25. Inhaltserschliessung (I-II): Manuelle und automatische Indexierung Analyse documentaire (I-II): indexation manuelle et automatique Historisches Institut © Jean-Philippe Accart, MAS ALIS 2014/2016 – Indexation/Classification/Clusters 24 Guide d’indexation Rameau, Paris, BnF, 2010, en ligne : <http://guiderameau.bnf.fr/>.

×