SlideShare une entreprise Scribd logo
Pourquoi fouiller les publications
scientifiques ?
Mathieu Roche
ABES - 21 mai 2014
1 / 32
Introduction
Les algorithmes pour fouiller les documents
La fouille des publications scientifiques au Cirad
Prospectives
Plan
1 Introduction
2 Les algorithmes pour fouiller les documents
Les descripteurs linguistiques
La Recherche d’Information
L’évaluation
3 La fouille des publications scientifiques au Cirad
La recherche d’acronymes
L’extraction d’entités spatiales
L’extraction de la terminologie
4 Prospectives
2 / 32
Introduction
Les algorithmes pour fouiller les documents
La fouille des publications scientifiques au Cirad
Prospectives
Les 3V du "Big Data"
Volume : Données massives
Variété : Données hétérogènes "syntaxiquement" et
"sémantiquement"
Vélocité : Données disponibles par flux
Et encore plein d’autres V : Versatilité, Véracité, Visualisation,
Valorisation, etc.
3 / 32
Introduction
Les algorithmes pour fouiller les documents
La fouille des publications scientifiques au Cirad
Prospectives
Fouille de données
4 / 32
Introduction
Les algorithmes pour fouiller les documents
La fouille des publications scientifiques au Cirad
Prospectives
Les descripteurs linguistiques
La Recherche d’Information
L’évaluation
1 Introduction
2 Les algorithmes pour fouiller les documents
Les descripteurs linguistiques
La Recherche d’Information
L’évaluation
3 La fouille des publications scientifiques au Cirad
La recherche d’acronymes
L’extraction d’entités spatiales
L’extraction de la terminologie
4 Prospectives
5 / 32
Introduction
Les algorithmes pour fouiller les documents
La fouille des publications scientifiques au Cirad
Prospectives
Les descripteurs linguistiques
La Recherche d’Information
L’évaluation
Extraction/Acquisition Exploitation/Filtrage
Processus de Fouille de Textes
- - - -
- - - -
- - - -
- - - -
- - - -
- - - -
- - - -
- - - -
- - - -
- - - -
- - - -
- - - -
Données
Textuelles Connaissances
6 / 32
Introduction
Les algorithmes pour fouiller les documents
La fouille des publications scientifiques au Cirad
Prospectives
Les descripteurs linguistiques
La Recherche d’Information
L’évaluation
Les descripteurs linguistiques
Exemple
Il vend son bien de Montpellier
7 / 32
Introduction
Les algorithmes pour fouiller les documents
La fouille des publications scientifiques au Cirad
Prospectives
Les descripteurs linguistiques
La Recherche d’Information
L’évaluation
Traitement linguistique du mot
Sélection des mots ayant une fonction grammaticale définie
(par exemple, noms, verbes, adjectifs)
→ sélection des mots vend, bien et Montpellier
Remarque : distinction du mot bien entre nom, adverbe et adjectif
Exemple - Etiquetage
Il/Pronom vend/Verbe son/AdjPoss bien/Nom de/Prep
Montpellier/NomPropre
Principe de l’étiquetage grammatical (Brill’s tagger) :
lexiques
règles lexicales
règles contextuelles
8 / 32
Introduction
Les algorithmes pour fouiller les documents
La fouille des publications scientifiques au Cirad
Prospectives
Les descripteurs linguistiques
La Recherche d’Information
L’évaluation
Traitement linguistique du mot
Rassemblement des mots d’une même famille présents sous forme
fléchie : lemmatisation ou radicalisation
→ vend : vendre
Ajout de connaissances sémantiques
→ vendre est lié au concept du Commerce
Résolution anaphorique
→ remplacement du pronom
9 / 32
Introduction
Les algorithmes pour fouiller les documents
La fouille des publications scientifiques au Cirad
Prospectives
Les descripteurs linguistiques
La Recherche d’Information
L’évaluation
Traitement linguistique du syntagme
Des collocations aux syntagmes/termes
Sens global déductible des unités composant le groupe
(chapeau en paille)
Connaissances sémantiques
Connaissances syntaxiques (patrons ADJ-NOM,
NOM-PREP-NOM, etc)
Méthodes de TAL pour l’extraction de syntagmes/termes :
linguistiques, statistiques, mixtes
10 / 32
Introduction
Les algorithmes pour fouiller les documents
La fouille des publications scientifiques au Cirad
Prospectives
Les descripteurs linguistiques
La Recherche d’Information
L’évaluation
Résumé : du Corpus... aux descripteurs linguistiques
Mais pour des
personnes très
spontanées ...
Mais/COO pour/PREP
des/DTN:pl
personnes/SBC:pl
très/ADV
spontanées/ADJ
...
Etiquetage
Extraction des
descripteurs (par
exemple, syntagmes)
fichier clients
conseiller clientèle
front page
assurance qualité
logiciel ciel
...
- - - - - -
- - - - - -
- - - - - -
- - - - - -
- - - - - -
- - - - - -
- - - - - -
- - - - - -
- - - - - -
- - - - - -
- - - - - -
- - - - - -
- - - - - -
- - - - - -
- - - - - -
- - - - - -
- - - - - -
- - - - - -
- - - - - -
- - - - - -
Corpus
Nettoyage
Normalisation
Processus de Fouille de textes
11 / 32
Introduction
Les algorithmes pour fouiller les documents
La fouille des publications scientifiques au Cirad
Prospectives
Les descripteurs linguistiques
La Recherche d’Information
L’évaluation
1 Introduction
2 Les algorithmes pour fouiller les documents
Les descripteurs linguistiques
La Recherche d’Information
L’évaluation
3 La fouille des publications scientifiques au Cirad
La recherche d’acronymes
L’extraction d’entités spatiales
L’extraction de la terminologie
4 Prospectives
12 / 32
Introduction
Les algorithmes pour fouiller les documents
La fouille des publications scientifiques au Cirad
Prospectives
Les descripteurs linguistiques
La Recherche d’Information
L’évaluation
Recherche d’Information
Première étape : représentation des textes... l’approche "sac de
mots"
Pondération statistique des descripteurs : TF, IDF, TF-IDF,
13 / 32
Introduction
Les algorithmes pour fouiller les documents
La fouille des publications scientifiques au Cirad
Prospectives
Les descripteurs linguistiques
La Recherche d’Information
L’évaluation
Deuxième étape : Application d’un algorithme d’apprentissage
K plus proches voisins (KPPV) :
But : déterminer les K plus proches voisins de textes à prédire
Principe : La classe majoritaire propre à ces K plus proches voisins
est choisie pour les textes à prédire (ou la classe majoritaire après
pondération avec la mesure de similarité)
Paramètres : La valeur K et la mesure de similarité (par exemple,
la mesure cosinus)
14 / 32
Introduction
Les algorithmes pour fouiller les documents
La fouille des publications scientifiques au Cirad
Prospectives
Les descripteurs linguistiques
La Recherche d’Information
L’évaluation
Deuxième étape : Application d’un algorithme d’apprentissage
K plus proches voisins (KPPV) - Exemple :
15 / 32
Introduction
Les algorithmes pour fouiller les documents
La fouille des publications scientifiques au Cirad
Prospectives
Les descripteurs linguistiques
La Recherche d’Information
L’évaluation
1 Introduction
2 Les algorithmes pour fouiller les documents
Les descripteurs linguistiques
La Recherche d’Information
L’évaluation
3 La fouille des publications scientifiques au Cirad
La recherche d’acronymes
L’extraction d’entités spatiales
L’extraction de la terminologie
4 Prospectives
16 / 32
Introduction
Les algorithmes pour fouiller les documents
La fouille des publications scientifiques au Cirad
Prospectives
Les descripteurs linguistiques
La Recherche d’Information
L’évaluation
Précision = 9
10 = 90%
17 / 32
Introduction
Les algorithmes pour fouiller les documents
La fouille des publications scientifiques au Cirad
Prospectives
Les descripteurs linguistiques
La Recherche d’Information
L’évaluation
Précision = 9
10 = 90%
18 / 32
Introduction
Les algorithmes pour fouiller les documents
La fouille des publications scientifiques au Cirad
Prospectives
Les descripteurs linguistiques
La Recherche d’Information
L’évaluation
Précision = 9
10 = 90% / Rappel = 9
50 = 18%
19 / 32
Introduction
Les algorithmes pour fouiller les documents
La fouille des publications scientifiques au Cirad
Prospectives
La recherche d’acronymes
L’extraction d’entités spatiales
L’extraction de la terminologie
1 Introduction
2 Les algorithmes pour fouiller les documents
Les descripteurs linguistiques
La Recherche d’Information
L’évaluation
3 La fouille des publications scientifiques au Cirad
La recherche d’acronymes
L’extraction d’entités spatiales
L’extraction de la terminologie
4 Prospectives
20 / 32
Introduction
Les algorithmes pour fouiller les documents
La fouille des publications scientifiques au Cirad
Prospectives
La recherche d’acronymes
L’extraction d’entités spatiales
L’extraction de la terminologie
corpus Cirad (∼15 Mo)
corpus TETIS (∼500 Ko)
Merci à la Délégation à l’Information Scientifique Technique du Cirad
21 / 32
Introduction
Les algorithmes pour fouiller les documents
La fouille des publications scientifiques au Cirad
Prospectives
La recherche d’acronymes
L’extraction d’entités spatiales
L’extraction de la terminologie
• Identification automatique d’acronymes dans les textes (1)
Méthode
Étape 1 : Extraction des candidats (méthode par patron)
Étape 2 : Filtrage des candidats (méthode statistique)
Mesure Web (fouille du Web) :
WebDice(acro, def ) = 2×hits(acro,def )
hits(acro)+hits(def )
Exemple :
WebDice(BSV , Banana streak virus) =
2×hits(”BSV ” AND ”Banana streak virus”)
hits(”BSV ”)+hits(”Banana streak virus”)
22 / 32
Introduction
Les algorithmes pour fouiller les documents
La fouille des publications scientifiques au Cirad
Prospectives
La recherche d’acronymes
L’extraction d’entités spatiales
L’extraction de la terminologie
• Identification automatique d’acronymes dans les textes (2)
Résultats (données Cirad) :
Acronym Possible definition WebDice
ATPSM Agricultural Trade Policy Simulation Model 1.3014
TYLCV Tomato yellow leaf curl virus 0.7167
NRPS NonRibosomal Peptide Synthetase 0.4423
CIAT Centro international de agricultura tropical 0.1408
ACMV African cassava mosaic virus 0.0970
CSSV Cacao swollen shoot virus 0.0245
VLE Virtual Laboratory Environment 0.0222
CLF Corynespora Leaf Fall 0.0208
BSV Banana streak virus 0.0053
BMR Bois Massif Reconstitué 0.0046
ER Ehrlichia ruminantium 0.0004
BASIC Brésil, Afrique du Sud, Inde, Chine 0.0001
ASA Articulation du Semi-aride 0
MAE Mesures agrienvironnementales 0
[Roche, ISA workshop’2014]
23 / 32
Introduction
Les algorithmes pour fouiller les documents
La fouille des publications scientifiques au Cirad
Prospectives
La recherche d’acronymes
L’extraction d’entités spatiales
L’extraction de la terminologie
• Identification automatique d’Entités Spatiales (ES) dans les textes
Utilisation de patrons d’extraction pour identifier
des indicateurs spatiaux (orientation, distance, adjacence, inclusion,
figure géométrique)
des Entités Spatiales Absolues et Relatives
[Kergosien et al., IJGIS’2014]
24 / 32
Introduction
Les algorithmes pour fouiller les documents
La fouille des publications scientifiques au Cirad
Prospectives
La recherche d’acronymes
L’extraction d’entités spatiales
L’extraction de la terminologie
• Identification automatique des termes dans les textes (1)
Travaux menés avec Sophie Fortuno, (Cirad, TETIS)
Méthode
Étape 1 : Extraction des candidats termes (méthodes linguistiques +
statistiques)
Exemple : "soft contact" vs. "soft contact lens"
Étape 2 : Filtrage des candidats (combinaison avec d’autres méthodes +
des ressources comme Agrovoc)
25 / 32
Introduction
Les algorithmes pour fouiller les documents
La fouille des publications scientifiques au Cirad
Prospectives
La recherche d’acronymes
L’extraction d’entités spatiales
L’extraction de la terminologie
• Identification automatique des termes dans les textes (2) – Étape 1
[Lossio et al., IJKDB’2014]
26 / 32
Introduction
Les algorithmes pour fouiller les documents
La fouille des publications scientifiques au Cirad
Prospectives
La recherche d’acronymes
L’extraction d’entités spatiales
L’extraction de la terminologie
• Identification automatique des termes dans les textes (3) – Étape 2
+ prise en compte d’Agrovoc (vocabulaire contrôlé issu de la FAO –
Food and Agriculture Organization)
27 / 32
Introduction
Les algorithmes pour fouiller les documents
La fouille des publications scientifiques au Cirad
Prospectives
La recherche d’acronymes
L’extraction d’entités spatiales
L’extraction de la terminologie
• Identification automatique des termes dans les textes (3) – Résultats
Résultats quantitatifs [stage étudiants en informatique (Master IPS)]
Corpus Cirad : 28% des termes simples / 12% des termes
composés de BioTex sont présents dans Agrovoc
Corpus TETIS : 25% des termes simples / 1% des termes
composés de BioTex sont présents dans Agrovoc
Résultats qualitatifs [stage étudiante "Ressources documentaires et bases
de données"]
Définition de critères de pertinence liés à l’indexation :
sélectivité, objectivité, cohérence, indépendance contextuelle
28 / 32
Introduction
Les algorithmes pour fouiller les documents
La fouille des publications scientifiques au Cirad
Prospectives
La recherche d’acronymes
L’extraction d’entités spatiales
L’extraction de la terminologie
• Identification automatique des termes dans les textes (3) – Résultats
Exemples de termes (en français) : développement durable, sécurité
alimentaire, croissance démographique, développement rural,
aménagement du territoire, gouvernance territoriale, etc.
Publication en Open Data (CKAN – Comprehensive Knowledge
Archive Network) :
Mise en correspondance des (1) termes extraits, (2) entités spatiales, (3)
publications Cirad associées (numéros)
29 / 32
Introduction
Les algorithmes pour fouiller les documents
La fouille des publications scientifiques au Cirad
Prospectives
1 Introduction
2 Les algorithmes pour fouiller les documents
Les descripteurs linguistiques
La Recherche d’Information
L’évaluation
3 La fouille des publications scientifiques au Cirad
La recherche d’acronymes
L’extraction d’entités spatiales
L’extraction de la terminologie
4 Prospectives
30 / 32
Introduction
Les algorithmes pour fouiller les documents
La fouille des publications scientifiques au Cirad
Prospectives
Veille d’épidémiologie animale : Comment détecter des signaux faibles
dans la masse de données ?
Croisement des publications avec d’autres types de données (dépêches,
presse, tweets, etc.)
31 / 32
Introduction
Les algorithmes pour fouiller les documents
La fouille des publications scientifiques au Cirad
Prospectives
Remerciements
Les chercheurs : Sophie Fortuno (Cirad, TETIS), Maguelonne
Teisseire (Irstea, TETIS), Eric Kergosien (LIRMM), Juan Antonio
Lossio (LIRMM)
Les documentalistes : Marie-Claude Deboin (Cirad),
Marie-Christine Duchamp (Cirad), Marie-Francoise Fily (Cirad),
Josée Lessard (Cirad), Sylvie Blin-Sarah (Irstea)
Les étudiants : L3 - UM3 : Marie-Odile Aptel-Barral, M1 IPS -
UM2 : Amira Akli, Thinhinan Lounis, Serigne Toure, Salim Belkebir
32 / 32

Contenu connexe

En vedette

Examen 1º (1)
Examen 1º (1)Examen 1º (1)
Examen 1º (1)
JOSÉ TOMÁS
 
Gans test
Gans testGans test
Gans testNSGANS
 
Web Analytics classement CybereStat
Web Analytics classement CybereStatWeb Analytics classement CybereStat
Web Analytics classement CybereStatXjarrin
 
Corporativa
CorporativaCorporativa
Corporativa
camiloprieto
 
Pca raperie resume non tech
Pca raperie resume non tech Pca raperie resume non tech
Pca raperie resume non tech
Arnaud Wéry
 
Mercadoavanzado.blogspot.com 2010 06-01_archive.html
Mercadoavanzado.blogspot.com 2010 06-01_archive.htmlMercadoavanzado.blogspot.com 2010 06-01_archive.html
Mercadoavanzado.blogspot.com 2010 06-01_archive.html
Arquitecto bogota
 
Caso arturo
Caso arturoCaso arturo
Six.msu.presentation
Six.msu.presentationSix.msu.presentation
Six.msu.presentationwhitsizzle
 
Didactique du texte litteraire et TICE: quels tissages?
Didactique du texte litteraire et TICE: quels tissages?Didactique du texte litteraire et TICE: quels tissages?
Didactique du texte litteraire et TICE: quels tissages?CYBERFRANCE
 
Saneamiento interno Fundacion Tierra -forodialogo
Saneamiento interno Fundacion Tierra -forodialogoSaneamiento interno Fundacion Tierra -forodialogo
Saneamiento interno Fundacion Tierra -forodialogo
Gobernabilidad
 
EDUCACIÓN FÍSICA - BUP
EDUCACIÓN FÍSICA - BUPEDUCACIÓN FÍSICA - BUP
EDUCACIÓN FÍSICA - BUP
qaz1
 
Dans la tête de l'ennemi (suite)
Dans la tête de l'ennemi (suite) Dans la tête de l'ennemi (suite)
Dans la tête de l'ennemi (suite) Patrice Piardon
 
Formateurs et réseaux sociaux 3.11.12
Formateurs et réseaux sociaux 3.11.12Formateurs et réseaux sociaux 3.11.12
Formateurs et réseaux sociaux 3.11.12
Valérie Demont (-Steck)
 
FR - Goodlife Cards (2013)
FR - Goodlife Cards (2013)FR - Goodlife Cards (2013)
FR - Goodlife Cards (2013)
BobMagotteaux
 
Tics
TicsTics
les noceurs
les noceursles noceurs
les noceursLe Point
 
Desnutricion
DesnutricionDesnutricion
Desnutricion
UNAM
 
Continuidad
ContinuidadContinuidad
Continuidad
guest9bed97
 

En vedette (19)

Examen 1º (1)
Examen 1º (1)Examen 1º (1)
Examen 1º (1)
 
Gans test
Gans testGans test
Gans test
 
Web Analytics classement CybereStat
Web Analytics classement CybereStatWeb Analytics classement CybereStat
Web Analytics classement CybereStat
 
Corporativa
CorporativaCorporativa
Corporativa
 
Pca raperie resume non tech
Pca raperie resume non tech Pca raperie resume non tech
Pca raperie resume non tech
 
ma ville
ma villema ville
ma ville
 
Mercadoavanzado.blogspot.com 2010 06-01_archive.html
Mercadoavanzado.blogspot.com 2010 06-01_archive.htmlMercadoavanzado.blogspot.com 2010 06-01_archive.html
Mercadoavanzado.blogspot.com 2010 06-01_archive.html
 
Caso arturo
Caso arturoCaso arturo
Caso arturo
 
Six.msu.presentation
Six.msu.presentationSix.msu.presentation
Six.msu.presentation
 
Didactique du texte litteraire et TICE: quels tissages?
Didactique du texte litteraire et TICE: quels tissages?Didactique du texte litteraire et TICE: quels tissages?
Didactique du texte litteraire et TICE: quels tissages?
 
Saneamiento interno Fundacion Tierra -forodialogo
Saneamiento interno Fundacion Tierra -forodialogoSaneamiento interno Fundacion Tierra -forodialogo
Saneamiento interno Fundacion Tierra -forodialogo
 
EDUCACIÓN FÍSICA - BUP
EDUCACIÓN FÍSICA - BUPEDUCACIÓN FÍSICA - BUP
EDUCACIÓN FÍSICA - BUP
 
Dans la tête de l'ennemi (suite)
Dans la tête de l'ennemi (suite) Dans la tête de l'ennemi (suite)
Dans la tête de l'ennemi (suite)
 
Formateurs et réseaux sociaux 3.11.12
Formateurs et réseaux sociaux 3.11.12Formateurs et réseaux sociaux 3.11.12
Formateurs et réseaux sociaux 3.11.12
 
FR - Goodlife Cards (2013)
FR - Goodlife Cards (2013)FR - Goodlife Cards (2013)
FR - Goodlife Cards (2013)
 
Tics
TicsTics
Tics
 
les noceurs
les noceursles noceurs
les noceurs
 
Desnutricion
DesnutricionDesnutricion
Desnutricion
 
Continuidad
ContinuidadContinuidad
Continuidad
 

Similaire à Journées ABES 2014 - Pourquoi fouiller les publications scientifiques ? Retours d'expériences d'un chercheur

Polytech geii sept2016
Polytech geii sept2016Polytech geii sept2016
Recherche d'information et veille chimie 2017
Recherche d'information et veille chimie 2017Recherche d'information et veille chimie 2017
Recherche d'information et veille chimie 2017
Université Aix-Marseille - Service commun de la documentation
 
Droit documentation electronique edshs
Droit documentation electronique edshsDroit documentation electronique edshs
Droit documentation electronique edshs
carovalerie37
 
Documentation électronique. Ecole doctorale, droit
Documentation électronique. Ecole doctorale, droitDocumentation électronique. Ecole doctorale, droit
Documentation électronique. Ecole doctorale, droit
carovalerie37
 
Skos transformation
Skos transformationSkos transformation
Skos transformation
catherine roussey
 
Ontologies, web de données et SKOS transformation
Ontologies, web de données et SKOS transformationOntologies, web de données et SKOS transformation
Ontologies, web de données et SKOS transformation
catherine roussey
 
Atelier de recherche documentaire au bacc. en ingénierie - Automne 2016
Atelier de recherche documentaire au bacc. en ingénierie - Automne 2016Atelier de recherche documentaire au bacc. en ingénierie - Automne 2016
Atelier de recherche documentaire au bacc. en ingénierie - Automne 2016
Promotion du développement des compétences informationnelles (PDCI)
 
Le web sémantique - Sylvie Fayet
Le web sémantique - Sylvie FayetLe web sémantique - Sylvie Fayet
Le web sémantique - Sylvie Fayet
Association des Bibliothécaires de France
 
CRFCB AMU_evolutions-catalogage_091213_RDA
CRFCB AMU_evolutions-catalogage_091213_RDACRFCB AMU_evolutions-catalogage_091213_RDA
CRFCB AMU_evolutions-catalogage_091213_RDA
nonue12
 
Les étapes de la recherche documentaire
Les étapes de la recherche documentaireLes étapes de la recherche documentaire
Les étapes de la recherche documentairezebrezebu
 
Introduction à la fouille de textes et positionnement de l'offre logicielle
Introduction à la fouille de textes et positionnement de l'offre logicielleIntroduction à la fouille de textes et positionnement de l'offre logicielle
Introduction à la fouille de textes et positionnement de l'offre logicielle
Patrice Bellot - Aix-Marseille Université / CNRS (LIS, INS2I)
 
Esc tls méthodologie de recherche
Esc tls méthodologie de rechercheEsc tls méthodologie de recherche
Esc tls méthodologie de recherche02111978
 
Méthodologie de la recherche documentaire informatisée
Méthodologie de la recherche documentaire informatiséeMéthodologie de la recherche documentaire informatisée
Méthodologie de la recherche documentaire informatisée
SCD Paris-Sorbonne
 
M2 VPO nov. 2015
M2 VPO nov. 2015M2 VPO nov. 2015
M2 VPO nov. 2015
Université d'Angers
 
Tic recherche-scientifique
Tic recherche-scientifiqueTic recherche-scientifique
Tic recherche-scientifique
lazoumi ouarfli
 
Les métriques de la science (ou La bibliométrie pour les nuls)
Les métriques de la science (ou La bibliométrie pour les nuls)Les métriques de la science (ou La bibliométrie pour les nuls)
Les métriques de la science (ou La bibliométrie pour les nuls)
URFIST de Paris
 
M2 bcmp 2015 2016
M2 bcmp 2015 2016M2 bcmp 2015 2016
M2 bcmp 2015 2016
Université d'Angers
 
Indexation et ri
Indexation et riIndexation et ri
Indexation et ri
Drawat Yassine
 

Similaire à Journées ABES 2014 - Pourquoi fouiller les publications scientifiques ? Retours d'expériences d'un chercheur (20)

Polytech geii sept2016
Polytech geii sept2016Polytech geii sept2016
Polytech geii sept2016
 
Recherche d'information et veille chimie 2017
Recherche d'information et veille chimie 2017Recherche d'information et veille chimie 2017
Recherche d'information et veille chimie 2017
 
Droit documentation electronique edshs
Droit documentation electronique edshsDroit documentation electronique edshs
Droit documentation electronique edshs
 
Documentation électronique. Ecole doctorale, droit
Documentation électronique. Ecole doctorale, droitDocumentation électronique. Ecole doctorale, droit
Documentation électronique. Ecole doctorale, droit
 
Skos transformation
Skos transformationSkos transformation
Skos transformation
 
C2i d4 scd-amu 2016
C2i d4 scd-amu 2016C2i d4 scd-amu 2016
C2i d4 scd-amu 2016
 
Ontologies, web de données et SKOS transformation
Ontologies, web de données et SKOS transformationOntologies, web de données et SKOS transformation
Ontologies, web de données et SKOS transformation
 
IUT - PPP "métiers de la chimie"- septembre 2014
IUT - PPP "métiers de la chimie"- septembre 2014IUT - PPP "métiers de la chimie"- septembre 2014
IUT - PPP "métiers de la chimie"- septembre 2014
 
Atelier de recherche documentaire au bacc. en ingénierie - Automne 2016
Atelier de recherche documentaire au bacc. en ingénierie - Automne 2016Atelier de recherche documentaire au bacc. en ingénierie - Automne 2016
Atelier de recherche documentaire au bacc. en ingénierie - Automne 2016
 
Le web sémantique - Sylvie Fayet
Le web sémantique - Sylvie FayetLe web sémantique - Sylvie Fayet
Le web sémantique - Sylvie Fayet
 
CRFCB AMU_evolutions-catalogage_091213_RDA
CRFCB AMU_evolutions-catalogage_091213_RDACRFCB AMU_evolutions-catalogage_091213_RDA
CRFCB AMU_evolutions-catalogage_091213_RDA
 
Les étapes de la recherche documentaire
Les étapes de la recherche documentaireLes étapes de la recherche documentaire
Les étapes de la recherche documentaire
 
Introduction à la fouille de textes et positionnement de l'offre logicielle
Introduction à la fouille de textes et positionnement de l'offre logicielleIntroduction à la fouille de textes et positionnement de l'offre logicielle
Introduction à la fouille de textes et positionnement de l'offre logicielle
 
Esc tls méthodologie de recherche
Esc tls méthodologie de rechercheEsc tls méthodologie de recherche
Esc tls méthodologie de recherche
 
Méthodologie de la recherche documentaire informatisée
Méthodologie de la recherche documentaire informatiséeMéthodologie de la recherche documentaire informatisée
Méthodologie de la recherche documentaire informatisée
 
M2 VPO nov. 2015
M2 VPO nov. 2015M2 VPO nov. 2015
M2 VPO nov. 2015
 
Tic recherche-scientifique
Tic recherche-scientifiqueTic recherche-scientifique
Tic recherche-scientifique
 
Les métriques de la science (ou La bibliométrie pour les nuls)
Les métriques de la science (ou La bibliométrie pour les nuls)Les métriques de la science (ou La bibliométrie pour les nuls)
Les métriques de la science (ou La bibliométrie pour les nuls)
 
M2 bcmp 2015 2016
M2 bcmp 2015 2016M2 bcmp 2015 2016
M2 bcmp 2015 2016
 
Indexation et ri
Indexation et riIndexation et ri
Indexation et ri
 

Plus de ABES

FOLIO_presentation_par_BibLibre
FOLIO_presentation_par_BibLibreFOLIO_presentation_par_BibLibre
FOLIO_presentation_par_BibLibre
ABES
 
Jabes 2021 - Session parallele "Etablissements experimentaux : quelles incide...
Jabes 2021 - Session parallele "Etablissements experimentaux : quelles incide...Jabes 2021 - Session parallele "Etablissements experimentaux : quelles incide...
Jabes 2021 - Session parallele "Etablissements experimentaux : quelles incide...
ABES
 
JCR 2019 - Présentation : "Cidemis en amont, petits rappels"
JCR 2019 - Présentation : "Cidemis en amont, petits rappels"JCR 2019 - Présentation : "Cidemis en amont, petits rappels"
JCR 2019 - Présentation : "Cidemis en amont, petits rappels"
ABES
 
Jabes 2021 - Poster "Initiation aux études historiques"
Jabes 2021 - Poster "Initiation aux études historiques"Jabes 2021 - Poster "Initiation aux études historiques"
Jabes 2021 - Poster "Initiation aux études historiques"
ABES
 
JCR 2021 - Présentation "Et la boucle est bouclee"
JCR 2021 - Présentation "Et la boucle est bouclee"JCR 2021 - Présentation "Et la boucle est bouclee"
JCR 2021 - Présentation "Et la boucle est bouclee"
ABES
 
JCR 2021 - Présentation "Les demandes Cidemis, c'est vraiment termine !"
JCR 2021 - Présentation "Les demandes Cidemis, c'est vraiment termine !"JCR 2021 - Présentation "Les demandes Cidemis, c'est vraiment termine !"
JCR 2021 - Présentation "Les demandes Cidemis, c'est vraiment termine !"
ABES
 
JCR 2021 - Présentation "Cidemis au-dela des frontieres"
JCR 2021 - Présentation "Cidemis au-dela des frontieres"JCR 2021 - Présentation "Cidemis au-dela des frontieres"
JCR 2021 - Présentation "Cidemis au-dela des frontieres"
ABES
 
JCR 2021 - Présentation "Cidemis au Cieps"
JCR 2021 - Présentation "Cidemis au Cieps"JCR 2021 - Présentation "Cidemis au Cieps"
JCR 2021 - Présentation "Cidemis au Cieps"
ABES
 
JCR 2021 - Présentation "Cidemis à la Bibliothèque nationale de France"
JCR 2021 - Présentation "Cidemis à la Bibliothèque nationale de France"JCR 2021 - Présentation "Cidemis à la Bibliothèque nationale de France"
JCR 2021 - Présentation "Cidemis à la Bibliothèque nationale de France"
ABES
 
JCR 2021 - Présentation "Cidemis en amont : petits rappels"
JCR 2021 - Présentation "Cidemis en amont : petits rappels" JCR 2021 - Présentation "Cidemis en amont : petits rappels"
JCR 2021 - Présentation "Cidemis en amont : petits rappels"
ABES
 
Jabes 2021 - Session "Repenser le SI de l'Abes en période de transition(s)"
Jabes 2021 - Session "Repenser le SI de l'Abes en période de transition(s)"Jabes 2021 - Session "Repenser le SI de l'Abes en période de transition(s)"
Jabes 2021 - Session "Repenser le SI de l'Abes en période de transition(s)"
ABES
 
Jabes 2021 - 26 ans après la création de l'Abes
Jabes 2021 - 26 ans après la création de l'AbesJabes 2021 - 26 ans après la création de l'Abes
Jabes 2021 - 26 ans après la création de l'Abes
ABES
 
Jabes 2021 - Session parallèle "Mécanique des alignements d'identifiants aute...
Jabes 2021 - Session parallèle "Mécanique des alignements d'identifiants aute...Jabes 2021 - Session parallèle "Mécanique des alignements d'identifiants aute...
Jabes 2021 - Session parallèle "Mécanique des alignements d'identifiants aute...
ABES
 
Jabes 2021 - Les Actus de l'Abes, partie 2
Jabes 2021 - Les Actus de l'Abes, partie 2Jabes 2021 - Les Actus de l'Abes, partie 2
Jabes 2021 - Les Actus de l'Abes, partie 2
ABES
 
Jabes 2021 - Les Actus de l'Abes, partie 1
Jabes 2021 - Les Actus de l'Abes, partie 1Jabes 2021 - Les Actus de l'Abes, partie 1
Jabes 2021 - Les Actus de l'Abes, partie 1
ABES
 
Jabes 2021 - Poster "Expérimentation Sudoc FRBR"
Jabes 2021 - Poster "Expérimentation Sudoc FRBR"Jabes 2021 - Poster "Expérimentation Sudoc FRBR"
Jabes 2021 - Poster "Expérimentation Sudoc FRBR"
ABES
 
Jabes 2021 - Poster "Les données de la recherche à l'Université de Toulouse J...
Jabes 2021 - Poster "Les données de la recherche à l'Université de Toulouse J...Jabes 2021 - Poster "Les données de la recherche à l'Université de Toulouse J...
Jabes 2021 - Poster "Les données de la recherche à l'Université de Toulouse J...
ABES
 
Jabes 2021 - Poster "Utiliser des plugins pour améliorer la qualité de votre ...
Jabes 2021 - Poster "Utiliser des plugins pour améliorer la qualité de votre ...Jabes 2021 - Poster "Utiliser des plugins pour améliorer la qualité de votre ...
Jabes 2021 - Poster "Utiliser des plugins pour améliorer la qualité de votre ...
ABES
 
Jabes 2021 - Poster "Projet d'exposition documentaire et participative pour u...
Jabes 2021 - Poster "Projet d'exposition documentaire et participative pour u...Jabes 2021 - Poster "Projet d'exposition documentaire et participative pour u...
Jabes 2021 - Poster "Projet d'exposition documentaire et participative pour u...
ABES
 
Jabes 2021 - Poster "CorHAL, une voie pour les chercheurs : simplifier le dép...
Jabes 2021 - Poster "CorHAL, une voie pour les chercheurs : simplifier le dép...Jabes 2021 - Poster "CorHAL, une voie pour les chercheurs : simplifier le dép...
Jabes 2021 - Poster "CorHAL, une voie pour les chercheurs : simplifier le dép...
ABES
 

Plus de ABES (20)

FOLIO_presentation_par_BibLibre
FOLIO_presentation_par_BibLibreFOLIO_presentation_par_BibLibre
FOLIO_presentation_par_BibLibre
 
Jabes 2021 - Session parallele "Etablissements experimentaux : quelles incide...
Jabes 2021 - Session parallele "Etablissements experimentaux : quelles incide...Jabes 2021 - Session parallele "Etablissements experimentaux : quelles incide...
Jabes 2021 - Session parallele "Etablissements experimentaux : quelles incide...
 
JCR 2019 - Présentation : "Cidemis en amont, petits rappels"
JCR 2019 - Présentation : "Cidemis en amont, petits rappels"JCR 2019 - Présentation : "Cidemis en amont, petits rappels"
JCR 2019 - Présentation : "Cidemis en amont, petits rappels"
 
Jabes 2021 - Poster "Initiation aux études historiques"
Jabes 2021 - Poster "Initiation aux études historiques"Jabes 2021 - Poster "Initiation aux études historiques"
Jabes 2021 - Poster "Initiation aux études historiques"
 
JCR 2021 - Présentation "Et la boucle est bouclee"
JCR 2021 - Présentation "Et la boucle est bouclee"JCR 2021 - Présentation "Et la boucle est bouclee"
JCR 2021 - Présentation "Et la boucle est bouclee"
 
JCR 2021 - Présentation "Les demandes Cidemis, c'est vraiment termine !"
JCR 2021 - Présentation "Les demandes Cidemis, c'est vraiment termine !"JCR 2021 - Présentation "Les demandes Cidemis, c'est vraiment termine !"
JCR 2021 - Présentation "Les demandes Cidemis, c'est vraiment termine !"
 
JCR 2021 - Présentation "Cidemis au-dela des frontieres"
JCR 2021 - Présentation "Cidemis au-dela des frontieres"JCR 2021 - Présentation "Cidemis au-dela des frontieres"
JCR 2021 - Présentation "Cidemis au-dela des frontieres"
 
JCR 2021 - Présentation "Cidemis au Cieps"
JCR 2021 - Présentation "Cidemis au Cieps"JCR 2021 - Présentation "Cidemis au Cieps"
JCR 2021 - Présentation "Cidemis au Cieps"
 
JCR 2021 - Présentation "Cidemis à la Bibliothèque nationale de France"
JCR 2021 - Présentation "Cidemis à la Bibliothèque nationale de France"JCR 2021 - Présentation "Cidemis à la Bibliothèque nationale de France"
JCR 2021 - Présentation "Cidemis à la Bibliothèque nationale de France"
 
JCR 2021 - Présentation "Cidemis en amont : petits rappels"
JCR 2021 - Présentation "Cidemis en amont : petits rappels" JCR 2021 - Présentation "Cidemis en amont : petits rappels"
JCR 2021 - Présentation "Cidemis en amont : petits rappels"
 
Jabes 2021 - Session "Repenser le SI de l'Abes en période de transition(s)"
Jabes 2021 - Session "Repenser le SI de l'Abes en période de transition(s)"Jabes 2021 - Session "Repenser le SI de l'Abes en période de transition(s)"
Jabes 2021 - Session "Repenser le SI de l'Abes en période de transition(s)"
 
Jabes 2021 - 26 ans après la création de l'Abes
Jabes 2021 - 26 ans après la création de l'AbesJabes 2021 - 26 ans après la création de l'Abes
Jabes 2021 - 26 ans après la création de l'Abes
 
Jabes 2021 - Session parallèle "Mécanique des alignements d'identifiants aute...
Jabes 2021 - Session parallèle "Mécanique des alignements d'identifiants aute...Jabes 2021 - Session parallèle "Mécanique des alignements d'identifiants aute...
Jabes 2021 - Session parallèle "Mécanique des alignements d'identifiants aute...
 
Jabes 2021 - Les Actus de l'Abes, partie 2
Jabes 2021 - Les Actus de l'Abes, partie 2Jabes 2021 - Les Actus de l'Abes, partie 2
Jabes 2021 - Les Actus de l'Abes, partie 2
 
Jabes 2021 - Les Actus de l'Abes, partie 1
Jabes 2021 - Les Actus de l'Abes, partie 1Jabes 2021 - Les Actus de l'Abes, partie 1
Jabes 2021 - Les Actus de l'Abes, partie 1
 
Jabes 2021 - Poster "Expérimentation Sudoc FRBR"
Jabes 2021 - Poster "Expérimentation Sudoc FRBR"Jabes 2021 - Poster "Expérimentation Sudoc FRBR"
Jabes 2021 - Poster "Expérimentation Sudoc FRBR"
 
Jabes 2021 - Poster "Les données de la recherche à l'Université de Toulouse J...
Jabes 2021 - Poster "Les données de la recherche à l'Université de Toulouse J...Jabes 2021 - Poster "Les données de la recherche à l'Université de Toulouse J...
Jabes 2021 - Poster "Les données de la recherche à l'Université de Toulouse J...
 
Jabes 2021 - Poster "Utiliser des plugins pour améliorer la qualité de votre ...
Jabes 2021 - Poster "Utiliser des plugins pour améliorer la qualité de votre ...Jabes 2021 - Poster "Utiliser des plugins pour améliorer la qualité de votre ...
Jabes 2021 - Poster "Utiliser des plugins pour améliorer la qualité de votre ...
 
Jabes 2021 - Poster "Projet d'exposition documentaire et participative pour u...
Jabes 2021 - Poster "Projet d'exposition documentaire et participative pour u...Jabes 2021 - Poster "Projet d'exposition documentaire et participative pour u...
Jabes 2021 - Poster "Projet d'exposition documentaire et participative pour u...
 
Jabes 2021 - Poster "CorHAL, une voie pour les chercheurs : simplifier le dép...
Jabes 2021 - Poster "CorHAL, une voie pour les chercheurs : simplifier le dép...Jabes 2021 - Poster "CorHAL, une voie pour les chercheurs : simplifier le dép...
Jabes 2021 - Poster "CorHAL, une voie pour les chercheurs : simplifier le dép...
 

Dernier

Bibliothèque de L'Union - Bilan de l'année 2023
Bibliothèque de L'Union - Bilan de l'année 2023Bibliothèque de L'Union - Bilan de l'année 2023
Bibliothèque de L'Union - Bilan de l'année 2023
Bibliothèque de L'Union
 
BATIMENT 5.pptx. Fil français tourné en France
BATIMENT 5.pptx. Fil français tourné en FranceBATIMENT 5.pptx. Fil français tourné en France
BATIMENT 5.pptx. Fil français tourné en France
Txaruka
 
Proyecto Erasmus Jardineros y jardineras de paz
Proyecto Erasmus Jardineros y jardineras de pazProyecto Erasmus Jardineros y jardineras de paz
Proyecto Erasmus Jardineros y jardineras de paz
Morzadec Cécile
 
Textes de famille concernant les guerres V2.pdf
Textes de famille concernant les guerres V2.pdfTextes de famille concernant les guerres V2.pdf
Textes de famille concernant les guerres V2.pdf
Michel Bruley
 
Iris van Herpen. pptx
Iris         van        Herpen.      pptxIris         van        Herpen.      pptx
Iris van Herpen. pptx
Txaruka
 
Veille Audocdi 90 - mois de juin 2024.pdf
Veille Audocdi 90 - mois de juin 2024.pdfVeille Audocdi 90 - mois de juin 2024.pdf
Veille Audocdi 90 - mois de juin 2024.pdf
frizzole
 
cours-LasergrammetrieLe « LiDAR», de l’anglais « Light.pptx
cours-LasergrammetrieLe « LiDAR», de l’anglais « Light.pptxcours-LasergrammetrieLe « LiDAR», de l’anglais « Light.pptx
cours-LasergrammetrieLe « LiDAR», de l’anglais « Light.pptx
AbdessamadAmimi1
 

Dernier (7)

Bibliothèque de L'Union - Bilan de l'année 2023
Bibliothèque de L'Union - Bilan de l'année 2023Bibliothèque de L'Union - Bilan de l'année 2023
Bibliothèque de L'Union - Bilan de l'année 2023
 
BATIMENT 5.pptx. Fil français tourné en France
BATIMENT 5.pptx. Fil français tourné en FranceBATIMENT 5.pptx. Fil français tourné en France
BATIMENT 5.pptx. Fil français tourné en France
 
Proyecto Erasmus Jardineros y jardineras de paz
Proyecto Erasmus Jardineros y jardineras de pazProyecto Erasmus Jardineros y jardineras de paz
Proyecto Erasmus Jardineros y jardineras de paz
 
Textes de famille concernant les guerres V2.pdf
Textes de famille concernant les guerres V2.pdfTextes de famille concernant les guerres V2.pdf
Textes de famille concernant les guerres V2.pdf
 
Iris van Herpen. pptx
Iris         van        Herpen.      pptxIris         van        Herpen.      pptx
Iris van Herpen. pptx
 
Veille Audocdi 90 - mois de juin 2024.pdf
Veille Audocdi 90 - mois de juin 2024.pdfVeille Audocdi 90 - mois de juin 2024.pdf
Veille Audocdi 90 - mois de juin 2024.pdf
 
cours-LasergrammetrieLe « LiDAR», de l’anglais « Light.pptx
cours-LasergrammetrieLe « LiDAR», de l’anglais « Light.pptxcours-LasergrammetrieLe « LiDAR», de l’anglais « Light.pptx
cours-LasergrammetrieLe « LiDAR», de l’anglais « Light.pptx
 

Journées ABES 2014 - Pourquoi fouiller les publications scientifiques ? Retours d'expériences d'un chercheur

  • 1. Pourquoi fouiller les publications scientifiques ? Mathieu Roche ABES - 21 mai 2014 1 / 32
  • 2. Introduction Les algorithmes pour fouiller les documents La fouille des publications scientifiques au Cirad Prospectives Plan 1 Introduction 2 Les algorithmes pour fouiller les documents Les descripteurs linguistiques La Recherche d’Information L’évaluation 3 La fouille des publications scientifiques au Cirad La recherche d’acronymes L’extraction d’entités spatiales L’extraction de la terminologie 4 Prospectives 2 / 32
  • 3. Introduction Les algorithmes pour fouiller les documents La fouille des publications scientifiques au Cirad Prospectives Les 3V du "Big Data" Volume : Données massives Variété : Données hétérogènes "syntaxiquement" et "sémantiquement" Vélocité : Données disponibles par flux Et encore plein d’autres V : Versatilité, Véracité, Visualisation, Valorisation, etc. 3 / 32
  • 4. Introduction Les algorithmes pour fouiller les documents La fouille des publications scientifiques au Cirad Prospectives Fouille de données 4 / 32
  • 5. Introduction Les algorithmes pour fouiller les documents La fouille des publications scientifiques au Cirad Prospectives Les descripteurs linguistiques La Recherche d’Information L’évaluation 1 Introduction 2 Les algorithmes pour fouiller les documents Les descripteurs linguistiques La Recherche d’Information L’évaluation 3 La fouille des publications scientifiques au Cirad La recherche d’acronymes L’extraction d’entités spatiales L’extraction de la terminologie 4 Prospectives 5 / 32
  • 6. Introduction Les algorithmes pour fouiller les documents La fouille des publications scientifiques au Cirad Prospectives Les descripteurs linguistiques La Recherche d’Information L’évaluation Extraction/Acquisition Exploitation/Filtrage Processus de Fouille de Textes - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - Données Textuelles Connaissances 6 / 32
  • 7. Introduction Les algorithmes pour fouiller les documents La fouille des publications scientifiques au Cirad Prospectives Les descripteurs linguistiques La Recherche d’Information L’évaluation Les descripteurs linguistiques Exemple Il vend son bien de Montpellier 7 / 32
  • 8. Introduction Les algorithmes pour fouiller les documents La fouille des publications scientifiques au Cirad Prospectives Les descripteurs linguistiques La Recherche d’Information L’évaluation Traitement linguistique du mot Sélection des mots ayant une fonction grammaticale définie (par exemple, noms, verbes, adjectifs) → sélection des mots vend, bien et Montpellier Remarque : distinction du mot bien entre nom, adverbe et adjectif Exemple - Etiquetage Il/Pronom vend/Verbe son/AdjPoss bien/Nom de/Prep Montpellier/NomPropre Principe de l’étiquetage grammatical (Brill’s tagger) : lexiques règles lexicales règles contextuelles 8 / 32
  • 9. Introduction Les algorithmes pour fouiller les documents La fouille des publications scientifiques au Cirad Prospectives Les descripteurs linguistiques La Recherche d’Information L’évaluation Traitement linguistique du mot Rassemblement des mots d’une même famille présents sous forme fléchie : lemmatisation ou radicalisation → vend : vendre Ajout de connaissances sémantiques → vendre est lié au concept du Commerce Résolution anaphorique → remplacement du pronom 9 / 32
  • 10. Introduction Les algorithmes pour fouiller les documents La fouille des publications scientifiques au Cirad Prospectives Les descripteurs linguistiques La Recherche d’Information L’évaluation Traitement linguistique du syntagme Des collocations aux syntagmes/termes Sens global déductible des unités composant le groupe (chapeau en paille) Connaissances sémantiques Connaissances syntaxiques (patrons ADJ-NOM, NOM-PREP-NOM, etc) Méthodes de TAL pour l’extraction de syntagmes/termes : linguistiques, statistiques, mixtes 10 / 32
  • 11. Introduction Les algorithmes pour fouiller les documents La fouille des publications scientifiques au Cirad Prospectives Les descripteurs linguistiques La Recherche d’Information L’évaluation Résumé : du Corpus... aux descripteurs linguistiques Mais pour des personnes très spontanées ... Mais/COO pour/PREP des/DTN:pl personnes/SBC:pl très/ADV spontanées/ADJ ... Etiquetage Extraction des descripteurs (par exemple, syntagmes) fichier clients conseiller clientèle front page assurance qualité logiciel ciel ... - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - Corpus Nettoyage Normalisation Processus de Fouille de textes 11 / 32
  • 12. Introduction Les algorithmes pour fouiller les documents La fouille des publications scientifiques au Cirad Prospectives Les descripteurs linguistiques La Recherche d’Information L’évaluation 1 Introduction 2 Les algorithmes pour fouiller les documents Les descripteurs linguistiques La Recherche d’Information L’évaluation 3 La fouille des publications scientifiques au Cirad La recherche d’acronymes L’extraction d’entités spatiales L’extraction de la terminologie 4 Prospectives 12 / 32
  • 13. Introduction Les algorithmes pour fouiller les documents La fouille des publications scientifiques au Cirad Prospectives Les descripteurs linguistiques La Recherche d’Information L’évaluation Recherche d’Information Première étape : représentation des textes... l’approche "sac de mots" Pondération statistique des descripteurs : TF, IDF, TF-IDF, 13 / 32
  • 14. Introduction Les algorithmes pour fouiller les documents La fouille des publications scientifiques au Cirad Prospectives Les descripteurs linguistiques La Recherche d’Information L’évaluation Deuxième étape : Application d’un algorithme d’apprentissage K plus proches voisins (KPPV) : But : déterminer les K plus proches voisins de textes à prédire Principe : La classe majoritaire propre à ces K plus proches voisins est choisie pour les textes à prédire (ou la classe majoritaire après pondération avec la mesure de similarité) Paramètres : La valeur K et la mesure de similarité (par exemple, la mesure cosinus) 14 / 32
  • 15. Introduction Les algorithmes pour fouiller les documents La fouille des publications scientifiques au Cirad Prospectives Les descripteurs linguistiques La Recherche d’Information L’évaluation Deuxième étape : Application d’un algorithme d’apprentissage K plus proches voisins (KPPV) - Exemple : 15 / 32
  • 16. Introduction Les algorithmes pour fouiller les documents La fouille des publications scientifiques au Cirad Prospectives Les descripteurs linguistiques La Recherche d’Information L’évaluation 1 Introduction 2 Les algorithmes pour fouiller les documents Les descripteurs linguistiques La Recherche d’Information L’évaluation 3 La fouille des publications scientifiques au Cirad La recherche d’acronymes L’extraction d’entités spatiales L’extraction de la terminologie 4 Prospectives 16 / 32
  • 17. Introduction Les algorithmes pour fouiller les documents La fouille des publications scientifiques au Cirad Prospectives Les descripteurs linguistiques La Recherche d’Information L’évaluation Précision = 9 10 = 90% 17 / 32
  • 18. Introduction Les algorithmes pour fouiller les documents La fouille des publications scientifiques au Cirad Prospectives Les descripteurs linguistiques La Recherche d’Information L’évaluation Précision = 9 10 = 90% 18 / 32
  • 19. Introduction Les algorithmes pour fouiller les documents La fouille des publications scientifiques au Cirad Prospectives Les descripteurs linguistiques La Recherche d’Information L’évaluation Précision = 9 10 = 90% / Rappel = 9 50 = 18% 19 / 32
  • 20. Introduction Les algorithmes pour fouiller les documents La fouille des publications scientifiques au Cirad Prospectives La recherche d’acronymes L’extraction d’entités spatiales L’extraction de la terminologie 1 Introduction 2 Les algorithmes pour fouiller les documents Les descripteurs linguistiques La Recherche d’Information L’évaluation 3 La fouille des publications scientifiques au Cirad La recherche d’acronymes L’extraction d’entités spatiales L’extraction de la terminologie 4 Prospectives 20 / 32
  • 21. Introduction Les algorithmes pour fouiller les documents La fouille des publications scientifiques au Cirad Prospectives La recherche d’acronymes L’extraction d’entités spatiales L’extraction de la terminologie corpus Cirad (∼15 Mo) corpus TETIS (∼500 Ko) Merci à la Délégation à l’Information Scientifique Technique du Cirad 21 / 32
  • 22. Introduction Les algorithmes pour fouiller les documents La fouille des publications scientifiques au Cirad Prospectives La recherche d’acronymes L’extraction d’entités spatiales L’extraction de la terminologie • Identification automatique d’acronymes dans les textes (1) Méthode Étape 1 : Extraction des candidats (méthode par patron) Étape 2 : Filtrage des candidats (méthode statistique) Mesure Web (fouille du Web) : WebDice(acro, def ) = 2×hits(acro,def ) hits(acro)+hits(def ) Exemple : WebDice(BSV , Banana streak virus) = 2×hits(”BSV ” AND ”Banana streak virus”) hits(”BSV ”)+hits(”Banana streak virus”) 22 / 32
  • 23. Introduction Les algorithmes pour fouiller les documents La fouille des publications scientifiques au Cirad Prospectives La recherche d’acronymes L’extraction d’entités spatiales L’extraction de la terminologie • Identification automatique d’acronymes dans les textes (2) Résultats (données Cirad) : Acronym Possible definition WebDice ATPSM Agricultural Trade Policy Simulation Model 1.3014 TYLCV Tomato yellow leaf curl virus 0.7167 NRPS NonRibosomal Peptide Synthetase 0.4423 CIAT Centro international de agricultura tropical 0.1408 ACMV African cassava mosaic virus 0.0970 CSSV Cacao swollen shoot virus 0.0245 VLE Virtual Laboratory Environment 0.0222 CLF Corynespora Leaf Fall 0.0208 BSV Banana streak virus 0.0053 BMR Bois Massif Reconstitué 0.0046 ER Ehrlichia ruminantium 0.0004 BASIC Brésil, Afrique du Sud, Inde, Chine 0.0001 ASA Articulation du Semi-aride 0 MAE Mesures agrienvironnementales 0 [Roche, ISA workshop’2014] 23 / 32
  • 24. Introduction Les algorithmes pour fouiller les documents La fouille des publications scientifiques au Cirad Prospectives La recherche d’acronymes L’extraction d’entités spatiales L’extraction de la terminologie • Identification automatique d’Entités Spatiales (ES) dans les textes Utilisation de patrons d’extraction pour identifier des indicateurs spatiaux (orientation, distance, adjacence, inclusion, figure géométrique) des Entités Spatiales Absolues et Relatives [Kergosien et al., IJGIS’2014] 24 / 32
  • 25. Introduction Les algorithmes pour fouiller les documents La fouille des publications scientifiques au Cirad Prospectives La recherche d’acronymes L’extraction d’entités spatiales L’extraction de la terminologie • Identification automatique des termes dans les textes (1) Travaux menés avec Sophie Fortuno, (Cirad, TETIS) Méthode Étape 1 : Extraction des candidats termes (méthodes linguistiques + statistiques) Exemple : "soft contact" vs. "soft contact lens" Étape 2 : Filtrage des candidats (combinaison avec d’autres méthodes + des ressources comme Agrovoc) 25 / 32
  • 26. Introduction Les algorithmes pour fouiller les documents La fouille des publications scientifiques au Cirad Prospectives La recherche d’acronymes L’extraction d’entités spatiales L’extraction de la terminologie • Identification automatique des termes dans les textes (2) – Étape 1 [Lossio et al., IJKDB’2014] 26 / 32
  • 27. Introduction Les algorithmes pour fouiller les documents La fouille des publications scientifiques au Cirad Prospectives La recherche d’acronymes L’extraction d’entités spatiales L’extraction de la terminologie • Identification automatique des termes dans les textes (3) – Étape 2 + prise en compte d’Agrovoc (vocabulaire contrôlé issu de la FAO – Food and Agriculture Organization) 27 / 32
  • 28. Introduction Les algorithmes pour fouiller les documents La fouille des publications scientifiques au Cirad Prospectives La recherche d’acronymes L’extraction d’entités spatiales L’extraction de la terminologie • Identification automatique des termes dans les textes (3) – Résultats Résultats quantitatifs [stage étudiants en informatique (Master IPS)] Corpus Cirad : 28% des termes simples / 12% des termes composés de BioTex sont présents dans Agrovoc Corpus TETIS : 25% des termes simples / 1% des termes composés de BioTex sont présents dans Agrovoc Résultats qualitatifs [stage étudiante "Ressources documentaires et bases de données"] Définition de critères de pertinence liés à l’indexation : sélectivité, objectivité, cohérence, indépendance contextuelle 28 / 32
  • 29. Introduction Les algorithmes pour fouiller les documents La fouille des publications scientifiques au Cirad Prospectives La recherche d’acronymes L’extraction d’entités spatiales L’extraction de la terminologie • Identification automatique des termes dans les textes (3) – Résultats Exemples de termes (en français) : développement durable, sécurité alimentaire, croissance démographique, développement rural, aménagement du territoire, gouvernance territoriale, etc. Publication en Open Data (CKAN – Comprehensive Knowledge Archive Network) : Mise en correspondance des (1) termes extraits, (2) entités spatiales, (3) publications Cirad associées (numéros) 29 / 32
  • 30. Introduction Les algorithmes pour fouiller les documents La fouille des publications scientifiques au Cirad Prospectives 1 Introduction 2 Les algorithmes pour fouiller les documents Les descripteurs linguistiques La Recherche d’Information L’évaluation 3 La fouille des publications scientifiques au Cirad La recherche d’acronymes L’extraction d’entités spatiales L’extraction de la terminologie 4 Prospectives 30 / 32
  • 31. Introduction Les algorithmes pour fouiller les documents La fouille des publications scientifiques au Cirad Prospectives Veille d’épidémiologie animale : Comment détecter des signaux faibles dans la masse de données ? Croisement des publications avec d’autres types de données (dépêches, presse, tweets, etc.) 31 / 32
  • 32. Introduction Les algorithmes pour fouiller les documents La fouille des publications scientifiques au Cirad Prospectives Remerciements Les chercheurs : Sophie Fortuno (Cirad, TETIS), Maguelonne Teisseire (Irstea, TETIS), Eric Kergosien (LIRMM), Juan Antonio Lossio (LIRMM) Les documentalistes : Marie-Claude Deboin (Cirad), Marie-Christine Duchamp (Cirad), Marie-Francoise Fily (Cirad), Josée Lessard (Cirad), Sylvie Blin-Sarah (Irstea) Les étudiants : L3 - UM3 : Marie-Odile Aptel-Barral, M1 IPS - UM2 : Amira Akli, Thinhinan Lounis, Serigne Toure, Salim Belkebir 32 / 32