SlideShare une entreprise Scribd logo
1  sur  69
Télécharger pour lire hors ligne
TITRE DE VOTRE PRÉSENTATION
Introduction à la FOUILLE DE TEXTES 

et positionnement de l’offre logicielle
Patrice Bellot (Aix-Marseille Univ, CNRS)
patrice.bellot@cnrs-dir.fr
ANF TDM — mars 2021
ANF TDM — Introduction Fouille de Textes
QU’EST-CE QUE LA FOUILLE DE TEXTES ?
Le croisement de plusieurs domaines
• L’analyse et la fouille de données (Data Mining)
• Le Traitement Automatique des Langues
• La recherche et l’extraction d’information
!2
ANF TDM — Introduction Fouille de Textes
QUELQUES DIFFICULTÉS…
Quelle que soit la nature des données :
• Structures peu normalisées, formats variés
• Les fameux V du Big Data : Volume, véracité, variabilité, valeur, vitesse
Documents, textes et langues :
• Données hétérogènes ou multimodales
• Multilinguisme (lexiques, terminologies, syntaxes)
• La langue est ambiguë
Le Droit et les bonnes pratiques pour la mise en œuvre du TDM :
!3
loi française Pour une République
Numérique du 7 octobre 2016 et la
directive européenne sur le droit
d’auteur dans le marché unique
numérique du 26 mars 2019
Des difficultés
génériques.

Des standards

nécessaires.


Des solutions

à partager.
ANF TDM — Introduction Fouille de Textes !4
Des données, des
méta-données et des
formats
ANF TDM — Introduction Fouille de Textes !5
Un processus de fouille de textes
Définition
du
problème
Récolte
des
données
(corpus)
Mise en forme
Visualisation
Exploration
Traitement
automatisé
(modélisation,
classification, mise
en relation…)
Recherche
d’information
Extraction
d’information
Traitement
automatique
des langues
Ressources
linguistiques
Evaluation
Décision
Enrichissement
ANF TDM — Introduction Fouille de Textes !6
Des données
Texte Image Audio
ANF TDM — Introduction Fouille de Textes !7
Des données « numérisables »
Texte : des symboles (mots
constitués de caractères)
Image : des pixels Audio : des fréquences
ANF TDM — Introduction Fouille de Textes
!8
L’encodage des caractères
ASCII (années 1960, sur 7 bits)
American Standard Code for
Information Interchange
ISO-Latin 1 sur 8 bits 

(ISO/CEI 8859)
Unicode (1988) dont UTF-8

plus de 100 000 caractères
(dont > 3 000 émojis)

de 1 jusqu’à 6 octets
https://unicode.org/emoji/charts/full-emoji-list.html
https://home.unicode.org
ANF TDM — Introduction Fouille de Textes !9
L’encodage des documents
=
Evitons les PDF…
PDF to text
ANF TDM — Introduction Fouille de Textes !10
Des documents « images »
ANF TDM — Introduction Fouille de Textes !12
L’encodage des documents : formats ouverts et méta-données
XML
https://tei-c.org/release/doc/tei-p5-doc/en/html/SG.html
ANF TDM — Introduction Fouille de Textes !13
L’encodage des documents : formats ouverts et méta-données
Texte intégral Résumés des articles
https://i4oa.org
ANF TDM — Introduction Fouille de Textes !15
D’autres formats ouverts
https://en.wikipedia.org/wiki/YAML
https://en.wikipedia.org/wiki/JSON
https://en.wikipedia.org/wiki/
Comma-separated_values
CSV
JSON
YAML
ANF TDM — Introduction Fouille de Textes
04.06.19
!16
Unités lexicales et parties du discours
Dépendances
Constituants
Niveaux lexicaux, syntaxiques, sémantiques
© Manish Para
https://medium.com/datadriveninvestor/ai-pos-parts-of-speech-tagger-part-2-fcf55f891d10
https://corenlp.run
ANF TDM — Introduction Fouille de Textes !17
ANF TDM — Introduction Fouille de Textes !18
Enrichir par la création de liens entre documents
Test	:	http://bilbo.openeditionlab.org	
Sources	:	http://github.com/OpenEdition/bilbo
ANF TDM — Introduction Fouille de Textes
04.06.19
!19
Des approches
informatiques 

et des ressources
linguistiques
ANF TDM — Introduction Fouille de Textes !20
Des exemples d’automates
https://hal.archives-ouvertes.fr/hal-00145253/document
Etude
pour
l’UNESCO
(Univ.
Avignon,
Open
Edition
2011)
ANF TDM — Introduction Fouille de Textes !21
Des formes, des distributions et des vecteurs
Des formes rassemblées, 

des sacs (de lettres, de mots)
Des vecteurs Des modèles de langues
Mot Probabilité
BRIEF ARTICLE
THE AUTHOR
P(w1, w2, ..., wT 1, wT ) =
T
Y
t=1
P(wt|wt 1, wt 2, ..., w1)
BRIEF ARTICLE
THE AUTHOR
P(w1, w2, ..., wT 1, wT ) =
T
Y
t=1
P(wt|wt 1, wt 2, ..., w1)
Similarité(d1, d2) ⇡
!
d1.
!
d2
BRIEF ARTICLE
THE AUTHOR
P(w1, w2, ..., wT 1, wT ) =
T
Y
t=1
P(wt|wt 1, wt 2, ..., w1)
Similarité(d1, d2) ⇡
!
d1.
!
d2 Similarité(d1, d2) ⇡ cos(
!
d1,
!
d2)
BRIEF ARTICLE
THE AUTHOR
P(w1, w2, ..., wT 1, wT ) =
T
Y
t=1
P(wt|wt 1, wt 2, ..., w1)
Similarité(d1, d2) ⇡
!
d1.
!
d2
Similarité(d1, d2) ⇡ cos(
!
d1,
!
d2)
P(Classe|(w1, w2, ..., wT 1, wT ))
ANF TDM — Introduction Fouille de Textes !22
Un exemple de modèle de langue
https://books.google.com/ngrams
ANF TDM — Introduction Fouille de Textes !24
Approches numériques : des scores
Ranking / Scores
Décision ?
Data
http://www.chu-rouen.fr/cismef/
https://www.ortolang.fr
https://www.clarin.eu/content/virtual-
language-observatory-vlo
http://openminted.eu
ANF TDM — Introduction Fouille de Textes !26
Des environnements
logiciels pour le
développement et
l’expérimentation
ANF TDM — Introduction Fouille de Textes !27
Isidore : un moteur pour les SHS
https://isidore.science
ANF TDM — Introduction Fouille de Textes !28
Apache Lucene : indexation et recherche d’information
https://lucene.apache.org
https://www.elastic.co
https://www.elastic.co
ANF TDM — Introduction Fouille de Textes !31
ANF TDM — Introduction Fouille de Textes !32
http://igm.univ-mlv.fr/~unitex/
r è g l e s s y n t a x i q u e s o u
sémantiques
Unitex pour des approches symboliques
ANF TDM — Introduction Fouille de Textes !33
https://github.com/d5555/TagEditor
https://prodi.gy/
ANF TDM — Introduction Fouille de Textes !36
Spacy https://spacy.io/
ANF TDM — Introduction Fouille de Textes !37
Spacy
https://spacy.io/
ANF TDM — Introduction Fouille de Textes !38
Fonctionnalités de Spacy https://spacy.io/
ANF TDM — Introduction Fouille de Textes !39
NLTK http://www.nltk.org
ANF TDM — Introduction Fouille de Textes !40
NLTK
http://www.nltk.org
ANF TDM — Introduction Fouille de Textes !41
NLTK
http://www.nltk.org
ANF TDM — Introduction Fouille de Textes !42
Des bibliothèques Python (ou Java, C++, Swift)
http://tm.r-forge.r-project.org/
ANF TDM — Introduction Fouille de Textes
04.06.19
!44
Des plateformes
logicielles orientée
« fouille de textes »
ANF TDM — Introduction Fouille de Textes
!45
De nombreux acteurs industriels
ANF TDM — Introduction Fouille de Textes
Devon Think
!46
https://www.devontechnologies.com/apps/devonthink
https://www.sas.com/fr_fr/software/text-miner.html
https://www.ibm.com/cloud/watson-natural-language-understanding
https://www.ibm.com/demos/live/natural-language-understanding/self-service/home
https://lejournal.cnrs.fr/articles/visualiser-la-recherche-sur-le-coronavirus-en-un-coup-doeil
https://gargantext.org
a collaborative web platform for the
exploration of sets of unstructured
documents. It combines tools from
natural language processing, text-
mining, complex networks analysis
and interactive data visualization to
pave the way toward new kinds of
interactions with your digital corpora. In
few minutes, you will be able to do
knowledge maps, collaborative state-
of-the-art, portfolio analysis
ANF TDM — Introduction Fouille de Textes !55
Visualisation ?
ANF TDM — Introduction Fouille de Textes !56
Représentation de documents par projection
Analyse en Composantes Principales
Vectorisation dans des espaces continus
(Doc2Vec) par plongements lexicaux
Cartes auto-organisées (SOM)
Dörk, M., C. Williamson, and S. Carpendale. “Towards Visual Web Search: Interactive
Query Formulation and Search Result Visualization.” In WSSP. Madrid, Spain, 2009.
http://www-958.ibm.com/software/data/cognos/manyeyes/page/Word_Tree.html
https://www.neoformix.com
P.	Bellot	(AMU-CNRS,	LIS-OpenEdition) !62
https://projector.tensorflow.org
P.	Bellot	(AMU-CNRS,	LIS-OpenEdition) !63
ANF TDM — Introduction Fouille de Textes
04.06.19
!64
Des tâches pour la
recherche en
informatique
ANF TDM — Introduction Fouille de Textes
DES APPLICATIONS
• Enrichissement ou analyse d'un document :

— Identification d’entités dans les textes (noms propres, dates, lieux…)

— Classification et catégorisation automatiques

— Construction de terminologie, extraction de mots-clés

— Identification de citations et structuration de références bibliographiques

— Structuration de documents « image » et reconnaissance de caractères

— Analyse de sentiment

— Résumé automatique

— Attribution d’auteur
• Intégration de plusieurs niveaux d’analyse sur des collections)

— Recherche de documents, d’images, de pages Web

— Recommandation automatique de contenus, veille

— Systèmes de questions-réponses

— Cartographie et navigation guidées

— Détection de nouveauté,, de tendances…
!65
ANF TDM — Introduction Fouille de Textes !66
De nombreuses compétitions
http://www.clef-initiative.eu/ https://semeval.github.io/SemEval2021/tasks.html
ANF TDM — Introduction Fouille de Textes !67
https://www.kaggle.com/c/nlp-getting-started
https://competitions.codalab.org/competitions/
https://tac.nist.gov/2020/index.html
De nombreuses compétitions
ANF TDM — Introduction Fouille de Textes !68
https://deft.limsi.fr
De nombreuses compétitions
ANF TDM — Introduction Fouille de Textes
CONCLUSION : LE TDM…
Nécessite :
• un corpus cible, des ressources de spécialité
• d’intégrer différents composants logiciels
• un scénario et une référence pour évaluer la chaîne de traitements
Faisable si :
• les composants sont interopérables, les métadonnées compatibles
• l’intégration de différents composants logiciels est possible

(ou s’il existe déjà une brique logicielle répondant au besoin)
Concerne et impacte :
• La recherche scientifique dans son ensemble
• La société au travers d’applications du quotidien
!69
https://www.jisc.ac.uk/
reports/value-and-
benefits-of-text-mining

Contenu connexe

Similaire à Introduction à la fouille de textes et positionnement de l'offre logicielle

Panorama des logiciels de gestion de références bibliographiques
Panorama des logiciels de gestion de références bibliographiquesPanorama des logiciels de gestion de références bibliographiques
Panorama des logiciels de gestion de références bibliographiquesURFIST de Paris
 
Semantic Information Systems
Semantic Information SystemsSemantic Information Systems
Semantic Information SystemsSerge Garlatti
 
Semantic Information Systems
Semantic Information SystemsSemantic Information Systems
Semantic Information SystemsSerge Garlatti
 
Semantic Information Systems
Semantic Information SystemsSemantic Information Systems
Semantic Information SystemsSerge Garlatti
 
États des lieux du Web sémantique
États des lieux du Web sémantiqueÉtats des lieux du Web sémantique
États des lieux du Web sémantiqueIvan Herman
 
Moteurs de recherche et web sémantique
Moteurs de recherche et web sémantiqueMoteurs de recherche et web sémantique
Moteurs de recherche et web sémantiqueAntidot
 
Modèles de données et langages de description ouverts 5 - 2021-2022
Modèles de données et langages de description ouverts   5 - 2021-2022Modèles de données et langages de description ouverts   5 - 2021-2022
Modèles de données et langages de description ouverts 5 - 2021-2022François-Xavier Boffy
 
03 Web Semantique
03  Web Semantique03  Web Semantique
03 Web Semantiquebadirh
 
Les (r)évolutions de la planète Web
Les (r)évolutions de la planète WebLes (r)évolutions de la planète Web
Les (r)évolutions de la planète WebFabien Gandon
 
Technologies numeriques & Documentation
Technologies numeriques & DocumentationTechnologies numeriques & Documentation
Technologies numeriques & DocumentationAntonin Benoît DIOUF
 
Les professionnels de l'information face aux défis du Web de données
Les professionnels de l'information face aux défis du Web de donnéesLes professionnels de l'information face aux défis du Web de données
Les professionnels de l'information face aux défis du Web de donnéesGautier Poupeau
 
Métadonnées de thèse
Métadonnées de thèseMétadonnées de thèse
Métadonnées de thèseY. Nicolas
 
Sudoc, Calames, theses.fr et le Web de données
Sudoc, Calames, theses.fr et le Web de donnéesSudoc, Calames, theses.fr et le Web de données
Sudoc, Calames, theses.fr et le Web de donnéesY. Nicolas
 
Histoire des Sciences et des techniques, TIC et Inquiry Based Science Teachin...
Histoire des Sciences et des techniques, TIC et Inquiry Based Science Teachin...Histoire des Sciences et des techniques, TIC et Inquiry Based Science Teachin...
Histoire des Sciences et des techniques, TIC et Inquiry Based Science Teachin...M@rsouin
 
Jabes 2011 - Ateliers "Sudoc, Calames, thèses.fr et le web de données"
Jabes 2011 - Ateliers "Sudoc, Calames, thèses.fr et le web de données"Jabes 2011 - Ateliers "Sudoc, Calames, thèses.fr et le web de données"
Jabes 2011 - Ateliers "Sudoc, Calames, thèses.fr et le web de données"ABES
 
metadata_pour_dirbu_mars2011
metadata_pour_dirbu_mars2011metadata_pour_dirbu_mars2011
metadata_pour_dirbu_mars2011Y. Nicolas
 
Créer un moteur de recherche avec des logiciels libres
Créer un moteur de recherche avec des logiciels libresCréer un moteur de recherche avec des logiciels libres
Créer un moteur de recherche avec des logiciels libresRobert Viseur
 
Détecter et nettoyer le contenu générique
Détecter et nettoyer le contenu génériqueDétecter et nettoyer le contenu générique
Détecter et nettoyer le contenu génériquebenoit chevillot
 
Présentation projet Mund@
Présentation projet Mund@Présentation projet Mund@
Présentation projet Mund@Romain Cambier
 

Similaire à Introduction à la fouille de textes et positionnement de l'offre logicielle (20)

Panorama des logiciels de gestion de références bibliographiques
Panorama des logiciels de gestion de références bibliographiquesPanorama des logiciels de gestion de références bibliographiques
Panorama des logiciels de gestion de références bibliographiques
 
Semantic Information Systems
Semantic Information SystemsSemantic Information Systems
Semantic Information Systems
 
Semantic Information Systems
Semantic Information SystemsSemantic Information Systems
Semantic Information Systems
 
Semantic Information Systems
Semantic Information SystemsSemantic Information Systems
Semantic Information Systems
 
États des lieux du Web sémantique
États des lieux du Web sémantiqueÉtats des lieux du Web sémantique
États des lieux du Web sémantique
 
Moteurs de recherche et web sémantique
Moteurs de recherche et web sémantiqueMoteurs de recherche et web sémantique
Moteurs de recherche et web sémantique
 
Modèles de données et langages de description ouverts 5 - 2021-2022
Modèles de données et langages de description ouverts   5 - 2021-2022Modèles de données et langages de description ouverts   5 - 2021-2022
Modèles de données et langages de description ouverts 5 - 2021-2022
 
03 Web Semantique
03  Web Semantique03  Web Semantique
03 Web Semantique
 
Les (r)évolutions de la planète Web
Les (r)évolutions de la planète WebLes (r)évolutions de la planète Web
Les (r)évolutions de la planète Web
 
Technologies numeriques & Documentation
Technologies numeriques & DocumentationTechnologies numeriques & Documentation
Technologies numeriques & Documentation
 
Les professionnels de l'information face aux défis du Web de données
Les professionnels de l'information face aux défis du Web de donnéesLes professionnels de l'information face aux défis du Web de données
Les professionnels de l'information face aux défis du Web de données
 
Métadonnées de thèse
Métadonnées de thèseMétadonnées de thèse
Métadonnées de thèse
 
Sudoc, Calames, theses.fr et le Web de données
Sudoc, Calames, theses.fr et le Web de donnéesSudoc, Calames, theses.fr et le Web de données
Sudoc, Calames, theses.fr et le Web de données
 
Histoire des Sciences et des techniques, TIC et Inquiry Based Science Teachin...
Histoire des Sciences et des techniques, TIC et Inquiry Based Science Teachin...Histoire des Sciences et des techniques, TIC et Inquiry Based Science Teachin...
Histoire des Sciences et des techniques, TIC et Inquiry Based Science Teachin...
 
Sem info system_2012
Sem info system_2012Sem info system_2012
Sem info system_2012
 
Jabes 2011 - Ateliers "Sudoc, Calames, thèses.fr et le web de données"
Jabes 2011 - Ateliers "Sudoc, Calames, thèses.fr et le web de données"Jabes 2011 - Ateliers "Sudoc, Calames, thèses.fr et le web de données"
Jabes 2011 - Ateliers "Sudoc, Calames, thèses.fr et le web de données"
 
metadata_pour_dirbu_mars2011
metadata_pour_dirbu_mars2011metadata_pour_dirbu_mars2011
metadata_pour_dirbu_mars2011
 
Créer un moteur de recherche avec des logiciels libres
Créer un moteur de recherche avec des logiciels libresCréer un moteur de recherche avec des logiciels libres
Créer un moteur de recherche avec des logiciels libres
 
Détecter et nettoyer le contenu générique
Détecter et nettoyer le contenu génériqueDétecter et nettoyer le contenu générique
Détecter et nettoyer le contenu générique
 
Présentation projet Mund@
Présentation projet Mund@Présentation projet Mund@
Présentation projet Mund@
 

Plus de Patrice Bellot - Aix-Marseille Université / CNRS (LIS, INS2I)

Plus de Patrice Bellot - Aix-Marseille Université / CNRS (LIS, INS2I) (9)

Analyse de sentiment et classification par approche neuronale en Python et Weka
Analyse de sentiment et classification par approche neuronale en Python et WekaAnalyse de sentiment et classification par approche neuronale en Python et Weka
Analyse de sentiment et classification par approche neuronale en Python et Weka
 
A combination of reduction and expansion approaches to handle with long natur...
A combination of reduction and expansion approaches to handle with long natur...A combination of reduction and expansion approaches to handle with long natur...
A combination of reduction and expansion approaches to handle with long natur...
 
Introduction générale sur les enjeux du Text and Data Mining TDM
Introduction générale sur les enjeux du Text and Data Mining TDMIntroduction générale sur les enjeux du Text and Data Mining TDM
Introduction générale sur les enjeux du Text and Data Mining TDM
 
Recommandation sociale : filtrage collaboratif et par le contenu
Recommandation sociale : filtrage collaboratif et par le contenuRecommandation sociale : filtrage collaboratif et par le contenu
Recommandation sociale : filtrage collaboratif et par le contenu
 
Scholarly Book Recommendation
Scholarly Book RecommendationScholarly Book Recommendation
Scholarly Book Recommendation
 
Infrastructures et recommandations pour les Humanités Numériques - Big Data e...
Infrastructures et recommandations pour les Humanités Numériques - Big Data e...Infrastructures et recommandations pour les Humanités Numériques - Big Data e...
Infrastructures et recommandations pour les Humanités Numériques - Big Data e...
 
Huma-Num une Infrastructure pour les SHS
Huma-Num une Infrastructure pour les SHSHuma-Num une Infrastructure pour les SHS
Huma-Num une Infrastructure pour les SHS
 
Some Information Retrieval Models and Our Experiments for TREC KBA
Some Information Retrieval Models and Our Experiments for TREC KBASome Information Retrieval Models and Our Experiments for TREC KBA
Some Information Retrieval Models and Our Experiments for TREC KBA
 
OpenEdition Lab projects in Text Mining
OpenEdition Lab projects in Text MiningOpenEdition Lab projects in Text Mining
OpenEdition Lab projects in Text Mining
 

Introduction à la fouille de textes et positionnement de l'offre logicielle

  • 1. TITRE DE VOTRE PRÉSENTATION Introduction à la FOUILLE DE TEXTES 
 et positionnement de l’offre logicielle Patrice Bellot (Aix-Marseille Univ, CNRS) patrice.bellot@cnrs-dir.fr ANF TDM — mars 2021
  • 2. ANF TDM — Introduction Fouille de Textes QU’EST-CE QUE LA FOUILLE DE TEXTES ? Le croisement de plusieurs domaines • L’analyse et la fouille de données (Data Mining) • Le Traitement Automatique des Langues • La recherche et l’extraction d’information !2
  • 3. ANF TDM — Introduction Fouille de Textes QUELQUES DIFFICULTÉS… Quelle que soit la nature des données : • Structures peu normalisées, formats variés • Les fameux V du Big Data : Volume, véracité, variabilité, valeur, vitesse Documents, textes et langues : • Données hétérogènes ou multimodales • Multilinguisme (lexiques, terminologies, syntaxes) • La langue est ambiguë Le Droit et les bonnes pratiques pour la mise en œuvre du TDM : !3 loi française Pour une République Numérique du 7 octobre 2016 et la directive européenne sur le droit d’auteur dans le marché unique numérique du 26 mars 2019 Des difficultés génériques.
 Des standards
 nécessaires. 
 Des solutions
 à partager.
  • 4. ANF TDM — Introduction Fouille de Textes !4 Des données, des méta-données et des formats
  • 5. ANF TDM — Introduction Fouille de Textes !5 Un processus de fouille de textes Définition du problème Récolte des données (corpus) Mise en forme Visualisation Exploration Traitement automatisé (modélisation, classification, mise en relation…) Recherche d’information Extraction d’information Traitement automatique des langues Ressources linguistiques Evaluation Décision Enrichissement
  • 6. ANF TDM — Introduction Fouille de Textes !6 Des données Texte Image Audio
  • 7. ANF TDM — Introduction Fouille de Textes !7 Des données « numérisables » Texte : des symboles (mots constitués de caractères) Image : des pixels Audio : des fréquences
  • 8. ANF TDM — Introduction Fouille de Textes !8 L’encodage des caractères ASCII (années 1960, sur 7 bits) American Standard Code for Information Interchange ISO-Latin 1 sur 8 bits 
 (ISO/CEI 8859) Unicode (1988) dont UTF-8
 plus de 100 000 caractères (dont > 3 000 émojis)
 de 1 jusqu’à 6 octets https://unicode.org/emoji/charts/full-emoji-list.html https://home.unicode.org
  • 9. ANF TDM — Introduction Fouille de Textes !9 L’encodage des documents = Evitons les PDF… PDF to text
  • 10. ANF TDM — Introduction Fouille de Textes !10 Des documents « images »
  • 11.
  • 12. ANF TDM — Introduction Fouille de Textes !12 L’encodage des documents : formats ouverts et méta-données XML https://tei-c.org/release/doc/tei-p5-doc/en/html/SG.html
  • 13. ANF TDM — Introduction Fouille de Textes !13 L’encodage des documents : formats ouverts et méta-données
  • 14. Texte intégral Résumés des articles https://i4oa.org
  • 15. ANF TDM — Introduction Fouille de Textes !15 D’autres formats ouverts https://en.wikipedia.org/wiki/YAML https://en.wikipedia.org/wiki/JSON https://en.wikipedia.org/wiki/ Comma-separated_values CSV JSON YAML
  • 16. ANF TDM — Introduction Fouille de Textes 04.06.19 !16 Unités lexicales et parties du discours Dépendances Constituants Niveaux lexicaux, syntaxiques, sémantiques © Manish Para https://medium.com/datadriveninvestor/ai-pos-parts-of-speech-tagger-part-2-fcf55f891d10 https://corenlp.run
  • 17. ANF TDM — Introduction Fouille de Textes !17
  • 18. ANF TDM — Introduction Fouille de Textes !18 Enrichir par la création de liens entre documents Test : http://bilbo.openeditionlab.org Sources : http://github.com/OpenEdition/bilbo
  • 19. ANF TDM — Introduction Fouille de Textes 04.06.19 !19 Des approches informatiques 
 et des ressources linguistiques
  • 20. ANF TDM — Introduction Fouille de Textes !20 Des exemples d’automates https://hal.archives-ouvertes.fr/hal-00145253/document Etude pour l’UNESCO (Univ. Avignon, Open Edition 2011)
  • 21. ANF TDM — Introduction Fouille de Textes !21 Des formes, des distributions et des vecteurs Des formes rassemblées, 
 des sacs (de lettres, de mots) Des vecteurs Des modèles de langues Mot Probabilité BRIEF ARTICLE THE AUTHOR P(w1, w2, ..., wT 1, wT ) = T Y t=1 P(wt|wt 1, wt 2, ..., w1) BRIEF ARTICLE THE AUTHOR P(w1, w2, ..., wT 1, wT ) = T Y t=1 P(wt|wt 1, wt 2, ..., w1) Similarité(d1, d2) ⇡ ! d1. ! d2 BRIEF ARTICLE THE AUTHOR P(w1, w2, ..., wT 1, wT ) = T Y t=1 P(wt|wt 1, wt 2, ..., w1) Similarité(d1, d2) ⇡ ! d1. ! d2 Similarité(d1, d2) ⇡ cos( ! d1, ! d2) BRIEF ARTICLE THE AUTHOR P(w1, w2, ..., wT 1, wT ) = T Y t=1 P(wt|wt 1, wt 2, ..., w1) Similarité(d1, d2) ⇡ ! d1. ! d2 Similarité(d1, d2) ⇡ cos( ! d1, ! d2) P(Classe|(w1, w2, ..., wT 1, wT ))
  • 22. ANF TDM — Introduction Fouille de Textes !22 Un exemple de modèle de langue https://books.google.com/ngrams
  • 23.
  • 24. ANF TDM — Introduction Fouille de Textes !24 Approches numériques : des scores Ranking / Scores Décision ? Data
  • 26. ANF TDM — Introduction Fouille de Textes !26 Des environnements logiciels pour le développement et l’expérimentation
  • 27. ANF TDM — Introduction Fouille de Textes !27 Isidore : un moteur pour les SHS https://isidore.science
  • 28. ANF TDM — Introduction Fouille de Textes !28 Apache Lucene : indexation et recherche d’information https://lucene.apache.org
  • 31. ANF TDM — Introduction Fouille de Textes !31
  • 32. ANF TDM — Introduction Fouille de Textes !32 http://igm.univ-mlv.fr/~unitex/ r è g l e s s y n t a x i q u e s o u sémantiques Unitex pour des approches symboliques
  • 33. ANF TDM — Introduction Fouille de Textes !33
  • 36. ANF TDM — Introduction Fouille de Textes !36 Spacy https://spacy.io/
  • 37. ANF TDM — Introduction Fouille de Textes !37 Spacy https://spacy.io/
  • 38. ANF TDM — Introduction Fouille de Textes !38 Fonctionnalités de Spacy https://spacy.io/
  • 39. ANF TDM — Introduction Fouille de Textes !39 NLTK http://www.nltk.org
  • 40. ANF TDM — Introduction Fouille de Textes !40 NLTK http://www.nltk.org
  • 41. ANF TDM — Introduction Fouille de Textes !41 NLTK http://www.nltk.org
  • 42. ANF TDM — Introduction Fouille de Textes !42 Des bibliothèques Python (ou Java, C++, Swift)
  • 44. ANF TDM — Introduction Fouille de Textes 04.06.19 !44 Des plateformes logicielles orientée « fouille de textes »
  • 45. ANF TDM — Introduction Fouille de Textes !45 De nombreux acteurs industriels
  • 46. ANF TDM — Introduction Fouille de Textes Devon Think !46 https://www.devontechnologies.com/apps/devonthink
  • 47.
  • 48.
  • 52. https://lejournal.cnrs.fr/articles/visualiser-la-recherche-sur-le-coronavirus-en-un-coup-doeil https://gargantext.org a collaborative web platform for the exploration of sets of unstructured documents. It combines tools from natural language processing, text- mining, complex networks analysis and interactive data visualization to pave the way toward new kinds of interactions with your digital corpora. In few minutes, you will be able to do knowledge maps, collaborative state- of-the-art, portfolio analysis
  • 53.
  • 54.
  • 55. ANF TDM — Introduction Fouille de Textes !55 Visualisation ?
  • 56. ANF TDM — Introduction Fouille de Textes !56 Représentation de documents par projection Analyse en Composantes Principales Vectorisation dans des espaces continus (Doc2Vec) par plongements lexicaux Cartes auto-organisées (SOM)
  • 57. Dörk, M., C. Williamson, and S. Carpendale. “Towards Visual Web Search: Interactive Query Formulation and Search Result Visualization.” In WSSP. Madrid, Spain, 2009.
  • 58.
  • 61.
  • 64. ANF TDM — Introduction Fouille de Textes 04.06.19 !64 Des tâches pour la recherche en informatique
  • 65. ANF TDM — Introduction Fouille de Textes DES APPLICATIONS • Enrichissement ou analyse d'un document :
 — Identification d’entités dans les textes (noms propres, dates, lieux…)
 — Classification et catégorisation automatiques
 — Construction de terminologie, extraction de mots-clés
 — Identification de citations et structuration de références bibliographiques
 — Structuration de documents « image » et reconnaissance de caractères
 — Analyse de sentiment
 — Résumé automatique
 — Attribution d’auteur • Intégration de plusieurs niveaux d’analyse sur des collections)
 — Recherche de documents, d’images, de pages Web
 — Recommandation automatique de contenus, veille
 — Systèmes de questions-réponses
 — Cartographie et navigation guidées
 — Détection de nouveauté,, de tendances… !65
  • 66. ANF TDM — Introduction Fouille de Textes !66 De nombreuses compétitions http://www.clef-initiative.eu/ https://semeval.github.io/SemEval2021/tasks.html
  • 67. ANF TDM — Introduction Fouille de Textes !67 https://www.kaggle.com/c/nlp-getting-started https://competitions.codalab.org/competitions/ https://tac.nist.gov/2020/index.html De nombreuses compétitions
  • 68. ANF TDM — Introduction Fouille de Textes !68 https://deft.limsi.fr De nombreuses compétitions
  • 69. ANF TDM — Introduction Fouille de Textes CONCLUSION : LE TDM… Nécessite : • un corpus cible, des ressources de spécialité • d’intégrer différents composants logiciels • un scénario et une référence pour évaluer la chaîne de traitements Faisable si : • les composants sont interopérables, les métadonnées compatibles • l’intégration de différents composants logiciels est possible
 (ou s’il existe déjà une brique logicielle répondant au besoin) Concerne et impacte : • La recherche scientifique dans son ensemble • La société au travers d’applications du quotidien !69 https://www.jisc.ac.uk/ reports/value-and- benefits-of-text-mining