Ce diaporama a bien été signalé.
Le téléchargement de votre SlideShare est en cours. ×

Introduction à la fouille de textes et positionnement de l'offre logicielle

Publicité
Publicité
Publicité
Publicité
Publicité
Publicité
Publicité
Publicité
Publicité
Publicité
Publicité
Publicité

Consultez-les par la suite

1 sur 69 Publicité

Introduction à la fouille de textes et positionnement de l'offre logicielle

Télécharger pour lire hors ligne

Introduction sur les domaines scientifiques impliqués dans la fouille de textes

- TAL et fouille de données : En quoi les données textuelles sont particulières (lexique, syntaxe mais aussi diversité langagière, des formats, des entités, des méta-données etc.) et quels sont les types de ressources utiles ou disponibles.
- Des modèles et des tâches (analyse grammaticale, désambiguisation, similarité textuelle, recherche et extraction d'information, classification...) et des collections standard pour évaluer des modèles et des outils
- Les approches automatisées sont associées à différentes manières de travailler les corpus (règles manuelles, apprentissage et bases d'exemples, degrés de supervision humaine, ...) : avantages / inconvénients, risques ...

Panorama méthodologique de l'offre logicielle académique ou commerciale

- Des outils pour l'utilisateur final, des APIs pour le développement, des plateformes d'annotation pour la création de bases d'apprentissage, des outils pour écrire des règles symboliques
- Des outils logiciels plus ou moins interactifs

Introduction sur les domaines scientifiques impliqués dans la fouille de textes

- TAL et fouille de données : En quoi les données textuelles sont particulières (lexique, syntaxe mais aussi diversité langagière, des formats, des entités, des méta-données etc.) et quels sont les types de ressources utiles ou disponibles.
- Des modèles et des tâches (analyse grammaticale, désambiguisation, similarité textuelle, recherche et extraction d'information, classification...) et des collections standard pour évaluer des modèles et des outils
- Les approches automatisées sont associées à différentes manières de travailler les corpus (règles manuelles, apprentissage et bases d'exemples, degrés de supervision humaine, ...) : avantages / inconvénients, risques ...

Panorama méthodologique de l'offre logicielle académique ou commerciale

- Des outils pour l'utilisateur final, des APIs pour le développement, des plateformes d'annotation pour la création de bases d'apprentissage, des outils pour écrire des règles symboliques
- Des outils logiciels plus ou moins interactifs

Publicité
Publicité

Plus De Contenu Connexe

Similaire à Introduction à la fouille de textes et positionnement de l'offre logicielle (20)

Plus par Patrice Bellot - Aix-Marseille Université / CNRS (LIS, INS2I) (9)

Publicité

Plus récents (20)

Introduction à la fouille de textes et positionnement de l'offre logicielle

  1. 1. TITRE DE VOTRE PRÉSENTATION Introduction à la FOUILLE DE TEXTES 
 et positionnement de l’offre logicielle Patrice Bellot (Aix-Marseille Univ, CNRS) patrice.bellot@cnrs-dir.fr ANF TDM — mars 2021
  2. 2. ANF TDM — Introduction Fouille de Textes QU’EST-CE QUE LA FOUILLE DE TEXTES ? Le croisement de plusieurs domaines • L’analyse et la fouille de données (Data Mining) • Le Traitement Automatique des Langues • La recherche et l’extraction d’information !2
  3. 3. ANF TDM — Introduction Fouille de Textes QUELQUES DIFFICULTÉS… Quelle que soit la nature des données : • Structures peu normalisées, formats variés • Les fameux V du Big Data : Volume, véracité, variabilité, valeur, vitesse Documents, textes et langues : • Données hétérogènes ou multimodales • Multilinguisme (lexiques, terminologies, syntaxes) • La langue est ambiguë Le Droit et les bonnes pratiques pour la mise en œuvre du TDM : !3 loi française Pour une République Numérique du 7 octobre 2016 et la directive européenne sur le droit d’auteur dans le marché unique numérique du 26 mars 2019 Des difficultés génériques.
 Des standards
 nécessaires. 
 Des solutions
 à partager.
  4. 4. ANF TDM — Introduction Fouille de Textes !4 Des données, des méta-données et des formats
  5. 5. ANF TDM — Introduction Fouille de Textes !5 Un processus de fouille de textes Définition du problème Récolte des données (corpus) Mise en forme Visualisation Exploration Traitement automatisé (modélisation, classification, mise en relation…) Recherche d’information Extraction d’information Traitement automatique des langues Ressources linguistiques Evaluation Décision Enrichissement
  6. 6. ANF TDM — Introduction Fouille de Textes !6 Des données Texte Image Audio
  7. 7. ANF TDM — Introduction Fouille de Textes !7 Des données « numérisables » Texte : des symboles (mots constitués de caractères) Image : des pixels Audio : des fréquences
  8. 8. ANF TDM — Introduction Fouille de Textes !8 L’encodage des caractères ASCII (années 1960, sur 7 bits) American Standard Code for Information Interchange ISO-Latin 1 sur 8 bits 
 (ISO/CEI 8859) Unicode (1988) dont UTF-8
 plus de 100 000 caractères (dont > 3 000 émojis)
 de 1 jusqu’à 6 octets https://unicode.org/emoji/charts/full-emoji-list.html https://home.unicode.org
  9. 9. ANF TDM — Introduction Fouille de Textes !9 L’encodage des documents = Evitons les PDF… PDF to text
  10. 10. ANF TDM — Introduction Fouille de Textes !10 Des documents « images »
  11. 11. ANF TDM — Introduction Fouille de Textes !12 L’encodage des documents : formats ouverts et méta-données XML https://tei-c.org/release/doc/tei-p5-doc/en/html/SG.html
  12. 12. ANF TDM — Introduction Fouille de Textes !13 L’encodage des documents : formats ouverts et méta-données
  13. 13. Texte intégral Résumés des articles https://i4oa.org
  14. 14. ANF TDM — Introduction Fouille de Textes !15 D’autres formats ouverts https://en.wikipedia.org/wiki/YAML https://en.wikipedia.org/wiki/JSON https://en.wikipedia.org/wiki/ Comma-separated_values CSV JSON YAML
  15. 15. ANF TDM — Introduction Fouille de Textes 04.06.19 !16 Unités lexicales et parties du discours Dépendances Constituants Niveaux lexicaux, syntaxiques, sémantiques © Manish Para https://medium.com/datadriveninvestor/ai-pos-parts-of-speech-tagger-part-2-fcf55f891d10 https://corenlp.run
  16. 16. ANF TDM — Introduction Fouille de Textes !17
  17. 17. ANF TDM — Introduction Fouille de Textes !18 Enrichir par la création de liens entre documents Test : http://bilbo.openeditionlab.org Sources : http://github.com/OpenEdition/bilbo
  18. 18. ANF TDM — Introduction Fouille de Textes 04.06.19 !19 Des approches informatiques 
 et des ressources linguistiques
  19. 19. ANF TDM — Introduction Fouille de Textes !20 Des exemples d’automates https://hal.archives-ouvertes.fr/hal-00145253/document Etude pour l’UNESCO (Univ. Avignon, Open Edition 2011)
  20. 20. ANF TDM — Introduction Fouille de Textes !21 Des formes, des distributions et des vecteurs Des formes rassemblées, 
 des sacs (de lettres, de mots) Des vecteurs Des modèles de langues Mot Probabilité BRIEF ARTICLE THE AUTHOR P(w1, w2, ..., wT 1, wT ) = T Y t=1 P(wt|wt 1, wt 2, ..., w1) BRIEF ARTICLE THE AUTHOR P(w1, w2, ..., wT 1, wT ) = T Y t=1 P(wt|wt 1, wt 2, ..., w1) Similarité(d1, d2) ⇡ ! d1. ! d2 BRIEF ARTICLE THE AUTHOR P(w1, w2, ..., wT 1, wT ) = T Y t=1 P(wt|wt 1, wt 2, ..., w1) Similarité(d1, d2) ⇡ ! d1. ! d2 Similarité(d1, d2) ⇡ cos( ! d1, ! d2) BRIEF ARTICLE THE AUTHOR P(w1, w2, ..., wT 1, wT ) = T Y t=1 P(wt|wt 1, wt 2, ..., w1) Similarité(d1, d2) ⇡ ! d1. ! d2 Similarité(d1, d2) ⇡ cos( ! d1, ! d2) P(Classe|(w1, w2, ..., wT 1, wT ))
  21. 21. ANF TDM — Introduction Fouille de Textes !22 Un exemple de modèle de langue https://books.google.com/ngrams
  22. 22. ANF TDM — Introduction Fouille de Textes !24 Approches numériques : des scores Ranking / Scores Décision ? Data
  23. 23. http://www.chu-rouen.fr/cismef/ https://www.ortolang.fr https://www.clarin.eu/content/virtual- language-observatory-vlo http://openminted.eu
  24. 24. ANF TDM — Introduction Fouille de Textes !26 Des environnements logiciels pour le développement et l’expérimentation
  25. 25. ANF TDM — Introduction Fouille de Textes !27 Isidore : un moteur pour les SHS https://isidore.science
  26. 26. ANF TDM — Introduction Fouille de Textes !28 Apache Lucene : indexation et recherche d’information https://lucene.apache.org
  27. 27. https://www.elastic.co
  28. 28. https://www.elastic.co
  29. 29. ANF TDM — Introduction Fouille de Textes !31
  30. 30. ANF TDM — Introduction Fouille de Textes !32 http://igm.univ-mlv.fr/~unitex/ r è g l e s s y n t a x i q u e s o u sémantiques Unitex pour des approches symboliques
  31. 31. ANF TDM — Introduction Fouille de Textes !33
  32. 32. https://github.com/d5555/TagEditor
  33. 33. https://prodi.gy/
  34. 34. ANF TDM — Introduction Fouille de Textes !36 Spacy https://spacy.io/
  35. 35. ANF TDM — Introduction Fouille de Textes !37 Spacy https://spacy.io/
  36. 36. ANF TDM — Introduction Fouille de Textes !38 Fonctionnalités de Spacy https://spacy.io/
  37. 37. ANF TDM — Introduction Fouille de Textes !39 NLTK http://www.nltk.org
  38. 38. ANF TDM — Introduction Fouille de Textes !40 NLTK http://www.nltk.org
  39. 39. ANF TDM — Introduction Fouille de Textes !41 NLTK http://www.nltk.org
  40. 40. ANF TDM — Introduction Fouille de Textes !42 Des bibliothèques Python (ou Java, C++, Swift)
  41. 41. http://tm.r-forge.r-project.org/
  42. 42. ANF TDM — Introduction Fouille de Textes 04.06.19 !44 Des plateformes logicielles orientée « fouille de textes »
  43. 43. ANF TDM — Introduction Fouille de Textes !45 De nombreux acteurs industriels
  44. 44. ANF TDM — Introduction Fouille de Textes Devon Think !46 https://www.devontechnologies.com/apps/devonthink
  45. 45. https://www.sas.com/fr_fr/software/text-miner.html
  46. 46. https://www.ibm.com/cloud/watson-natural-language-understanding
  47. 47. https://www.ibm.com/demos/live/natural-language-understanding/self-service/home
  48. 48. https://lejournal.cnrs.fr/articles/visualiser-la-recherche-sur-le-coronavirus-en-un-coup-doeil https://gargantext.org a collaborative web platform for the exploration of sets of unstructured documents. It combines tools from natural language processing, text- mining, complex networks analysis and interactive data visualization to pave the way toward new kinds of interactions with your digital corpora. In few minutes, you will be able to do knowledge maps, collaborative state- of-the-art, portfolio analysis
  49. 49. ANF TDM — Introduction Fouille de Textes !55 Visualisation ?
  50. 50. ANF TDM — Introduction Fouille de Textes !56 Représentation de documents par projection Analyse en Composantes Principales Vectorisation dans des espaces continus (Doc2Vec) par plongements lexicaux Cartes auto-organisées (SOM)
  51. 51. Dörk, M., C. Williamson, and S. Carpendale. “Towards Visual Web Search: Interactive Query Formulation and Search Result Visualization.” In WSSP. Madrid, Spain, 2009.
  52. 52. http://www-958.ibm.com/software/data/cognos/manyeyes/page/Word_Tree.html
  53. 53. https://www.neoformix.com
  54. 54. P. Bellot (AMU-CNRS, LIS-OpenEdition) !62 https://projector.tensorflow.org
  55. 55. P. Bellot (AMU-CNRS, LIS-OpenEdition) !63
  56. 56. ANF TDM — Introduction Fouille de Textes 04.06.19 !64 Des tâches pour la recherche en informatique
  57. 57. ANF TDM — Introduction Fouille de Textes DES APPLICATIONS • Enrichissement ou analyse d'un document :
 — Identification d’entités dans les textes (noms propres, dates, lieux…)
 — Classification et catégorisation automatiques
 — Construction de terminologie, extraction de mots-clés
 — Identification de citations et structuration de références bibliographiques
 — Structuration de documents « image » et reconnaissance de caractères
 — Analyse de sentiment
 — Résumé automatique
 — Attribution d’auteur • Intégration de plusieurs niveaux d’analyse sur des collections)
 — Recherche de documents, d’images, de pages Web
 — Recommandation automatique de contenus, veille
 — Systèmes de questions-réponses
 — Cartographie et navigation guidées
 — Détection de nouveauté,, de tendances… !65
  58. 58. ANF TDM — Introduction Fouille de Textes !66 De nombreuses compétitions http://www.clef-initiative.eu/ https://semeval.github.io/SemEval2021/tasks.html
  59. 59. ANF TDM — Introduction Fouille de Textes !67 https://www.kaggle.com/c/nlp-getting-started https://competitions.codalab.org/competitions/ https://tac.nist.gov/2020/index.html De nombreuses compétitions
  60. 60. ANF TDM — Introduction Fouille de Textes !68 https://deft.limsi.fr De nombreuses compétitions
  61. 61. ANF TDM — Introduction Fouille de Textes CONCLUSION : LE TDM… Nécessite : • un corpus cible, des ressources de spécialité • d’intégrer différents composants logiciels • un scénario et une référence pour évaluer la chaîne de traitements Faisable si : • les composants sont interopérables, les métadonnées compatibles • l’intégration de différents composants logiciels est possible
 (ou s’il existe déjà une brique logicielle répondant au besoin) Concerne et impacte : • La recherche scientifique dans son ensemble • La société au travers d’applications du quotidien !69 https://www.jisc.ac.uk/ reports/value-and- benefits-of-text-mining

×