SlideShare une entreprise Scribd logo
Open Mining Infrastructure
for TExt and Data
Patricia Geretto, INRA-Versailles
Forum du GFII, Paris, 8 Décembre 2015
Une infrastructure text-mining au service des scientifiques
L’INRA
OPENMINTED : LES OBJECTIFS
OPENMINTED : LE PROJET
Forum du GFII, Paris, 8 Décembre 2015
SOMMAIRE
CAS D’USAGE ‘BIOLOGIE VEGETALE’ : ENJEUX - GAINS
Institut National de la Recherche Agronomique
Forum du GFII - Paris, 8 décembre 2015
Alimentation - Agriculture - Environnement
8290 agents titulaires dont
13 départements scientifiques et 8 métaprogrammes
186 unités de recherche et 49 unités expérimentales
881,71 M€ : Budget exécuté
2552 stagiaires accueillis et 510 doctorants rémunérés
Rapport d’activité INRA, 2014
17 centres de recherche
360 brevets en stock dont 67 nouveaux
1840 chercheurs titulaires
MaIAGE
Unité de recherche
"Mathématiques et Informatique Appliquées
du Génome à l'Environnement"
L’équipe Bibliome développe des méthodes de
linguistique computationnelle et d’apprentissage
automatique appliquées au domaine des
Sciences de la Vie.
Suite Alvis développée par MaIAGE
http://bibliome.jouy.inra.fr
Participation de l’INRA au projet OpenMinTeD
Forum du GFII - Paris, 8 décembre 2015
Cas d’Usage en Agronomie
DIST
Délégation à l’Information Scientifique et
Technique
La DIST est chargée de construire et mener la
politique de l'Information Scientifique et
technique (IST) pour l'INRA.
Appel à projet
H2020-EINFRA-2014-2
(Research and Innovation Actions,
Framework Partnership Agreement
with Multiple Beneficiaries)
3 ans (2015-2018)
5,4 millions d’euros
16 partenaires
Le Projet OpenMinTeD
Utilisateurs finaux
Forum du GFII - Paris, 8 décembre 2015
Chercheurs, curateurs de
bases de données…
Editeurs de littérature et d’outils
de text-mining, bibliothèques,
PME …
Fournisseurs de contenus et services
Réaliser une plateforme et une infrastructure de Text
et Data Mining (TDM), ouverte et pérenne, qui permette
aux chercheurs de découvrir, créer, partager et ré-utiliser
la connaissance extraite d’un vaste éventail de sources
de la littérature scientifique.
Text-mining
Communautés scientifiques
Infrastructure
Fournisseurs de contenu OA
OpenAIRE
Open Access
Infrastructure
for Research in
Europe
SSOAR,
Social
Science
Open
Access
Repository
Clarin,
European
research
infrastructure
for the
humanities
and social
sciences
AGRIS,
Agricultural
Science and
Technology
Information
Spécialistes
du
droit
Partenaires d’OpenMinTeD
Forum du GFII - Paris, 8 décembre 2015
Forum du GFII - Paris, 8 décembre 2015
Biologie Végétale & Biodiversité
2 cas d’usage à l’INRA
Approche “chercheur centrée”
Les spécifications de la plateforme reposent sur des Cas d’Usage
Constat – Difficultés pour les Chercheurs
• Dispersion des sources d’information
• Manque d’uniformité des modes de recherche et de récupération des
contenus
• Accès restreint, payant ; règles de copyright et licences
OpenMinTeD
• Explicite les règles d’accès au contenu/aux sources
• Favorise l’utilisation des ressources en open access (littérature
scientifique, données et vocabulaires partagés)
• Offre un accès fédéré aux ressources (métadonnées et protocoles
d’échange standards)
Les Sources – Le Contenu
Forum du GFII - Paris, 8 décembre 2015
OpenMinted focuses on interoperability across text
mining services and content providers
Constat – Difficultés pour les Chercheurs
• Manque de moyens informatiques (stockage, calcul, compétences…)
• Difficultés à identifier des services de text-mining appropriés aux
problématiques
• Manque de connaissances des capacités/limites des services de text-mining
OpenMinTeD
• Met à disposition un environnement accessible à distance pour construire,
utiliser et partager des chaînes de traitement de text-mining à façon
• Permet le traitement de gros volumes de données
• Documente et rend les services de text-mining plus faciles à appréhender
OpenMinted does not build new services, but adopts and adapts
existing services for new communities
Le Traitement de Text-Mining
Forum du GFII - Paris, 8 décembre 2015
Constat – Difficultés pour les Chercheurs
• Manque d’uniformité dans les formats de production
• Peu de ré-utilisation des ressources produites et des chaînes de
traitement construites
• Peu de traçabilité du lien entre les ressources utilisées et les
résultats produits
OpenMinTeD
• Garde la trace des versions et des licences des ressources
utilisées
• Met à disposition des espaces de partage de corpus annotés, de
vocabulaires, des chaînes de traitement…
• Permet la reproductibilité des résultats
• Favorise des sorties en format standard
L’Exploitation des Résultats
Forum du GFII - Paris, 8 décembre 2015
Questionnaire
82 participants
66 questionnaires complets
17 sujets abordés
15 questions sur le sujet
des difficultés
(difficultés à trouver
l’information pertinente, à la
collecter et l’exploiter, à la
relier à des données…)
17 questions sur le sujet
des solutions
(annotations, visualisations,
extractions, liens
sémantiques entre données
et textes…)
Cas d’Usage ‘Biologie végétale’
Forum du GFII - Paris, 8 décembre 2015
Personas
Cas d’Usage ‘Biologie végétale’
Forum du GFII - Paris, 8 décembre 2015
Le Text-Mining permet de
• Remobiliser les connaissances
existantes et dispersées
• Sélectionner des paramètres
biologiques d’intérêt
• Réduire le champ des
expérimentations possibles
• Diminuer le coût des expériences
Enjeux - Gains
© Christophe MAITRE, INRA
© William BEAUCARDET,INRA
Contact us
www.openminted.eu
Project Coordinator: Natalia Manola
natalia@di.uoa.gr
twitter.com/openminted_eu
facebook.com/openminted
bit.do/openmintedlinkedin
vimeo.com/openminted
bit.do/openmintedplus
http://fr.slideshare.net/openminted_eu
Two OPEN CALLS and two
HACKATONS will be organized to
develop applications with special focus on
innovative ideas improving the uptake of
the OpenMinTeD infrastructure, promoting
the openness and reuse principle
(2017, March & July)
Patricia Geretto, Sophie Aubin (DIST)
patricia.geretto@versailles.inra.fr
sophie.aubin@versailles.inra.fr
Claire Nédellec (MaIAGE)
claire.nedellec@jouy.inra.fr

Contenu connexe

Tendances

L'ouverture des données de la recherche en 2015 : définitions, enjeux, dynami...
L'ouverture des données de la recherche en 2015 : définitions, enjeux, dynami...L'ouverture des données de la recherche en 2015 : définitions, enjeux, dynami...
L'ouverture des données de la recherche en 2015 : définitions, enjeux, dynami...
Lesticetlart Invisu
 
Projet PIST.TN
Projet PIST.TN Projet PIST.TN
Projet PIST.TN
Bessem Aamira
 
Le cnudst :votre partenaire en Information Scientifique et Technique
Le cnudst :votre partenaire en Information Scientifique et Technique Le cnudst :votre partenaire en Information Scientifique et Technique
Le cnudst :votre partenaire en Information Scientifique et Technique
Bessem Aamira
 
Du dépôt au partage de données
Du dépôt au partage de donnéesDu dépôt au partage de données
Du dépôt au partage de donnéesAntoine Blanchard
 
Quelle collaboration autour des archives ouvertes à toulouse
Quelle collaboration autour des archives ouvertes à toulouseQuelle collaboration autour des archives ouvertes à toulouse
Quelle collaboration autour des archives ouvertes à toulousebviry
 
M allanic piv2017_c
M allanic piv2017_cM allanic piv2017_c
M allanic piv2017_c
Bertrand Tavitian
 
Achives ouvertes ISAE-SUPAERO
Achives ouvertes ISAE-SUPAEROAchives ouvertes ISAE-SUPAERO
Achives ouvertes ISAE-SUPAERO
Naacira
 
Le libre accès à l’IST et les archives ouvertes
Le libre accès à l’IST et les archives ouvertesLe libre accès à l’IST et les archives ouvertes
Le libre accès à l’IST et les archives ouvertesMohamed Ben Romdhane
 
Documentation IRD Occitanie : Outils et Services
Documentation IRD Occitanie : Outils et ServicesDocumentation IRD Occitanie : Outils et Services
Documentation IRD Occitanie : Outils et Services
IST IRD - Service IST de l'Institut de Recherche pour le Développement
 
Tutoriel : "Gestion d’ontologies"
Tutoriel : "Gestion d’ontologies"Tutoriel : "Gestion d’ontologies"
Tutoriel : "Gestion d’ontologies"
INRAE (MISTEA) and University of Montpellier (LIRMM)
 
Oaw2014Presentation
Oaw2014PresentationOaw2014Presentation
Oaw2014Presentation
Françoise Gouzi
 
Mc jacquemot piv2017_c
Mc jacquemot piv2017_cMc jacquemot piv2017_c
Mc jacquemot piv2017_c
Bertrand Tavitian
 
Archives ouvertes - Perspectives Europeennes
Archives ouvertes - Perspectives EuropeennesArchives ouvertes - Perspectives Europeennes
Archives ouvertes - Perspectives Europeennes
chessmu
 
JE_FGouzi-ABarrio_SCDPau
JE_FGouzi-ABarrio_SCDPauJE_FGouzi-ABarrio_SCDPau
JE_FGouzi-ABarrio_SCDPau
Françoise Gouzi
 
Jabes 2011 - Sessions parallèles : Retours d'expériences innovantes - " ISIDO...
Jabes 2011 - Sessions parallèles : Retours d'expériences innovantes - " ISIDO...Jabes 2011 - Sessions parallèles : Retours d'expériences innovantes - " ISIDO...
Jabes 2011 - Sessions parallèles : Retours d'expériences innovantes - " ISIDO...
ABES
 
Construire des outils pour la gestion des données de la recherche dans une co...
Construire des outils pour la gestion des données de la recherche dans une co...Construire des outils pour la gestion des données de la recherche dans une co...
Construire des outils pour la gestion des données de la recherche dans une co...
Lesticetlart Invisu
 
Presentation jeudistv2
Presentation jeudistv2Presentation jeudistv2
Presentation jeudistv2
Desconnets Jean-Christophe
 
Étude critique sur les nouveaux modes d'éditorialisation scientifique en accè...
Étude critique sur les nouveaux modes d'éditorialisation scientifique en accè...Étude critique sur les nouveaux modes d'éditorialisation scientifique en accè...
Étude critique sur les nouveaux modes d'éditorialisation scientifique en accè...
Pierre-Carl Langlais
 
Laurent COSTA : Plateformes géo-collaboratives et programmes de recherches hi...
Laurent COSTA : Plateformes géo-collaboratives et programmes de recherches hi...Laurent COSTA : Plateformes géo-collaboratives et programmes de recherches hi...
Laurent COSTA : Plateformes géo-collaboratives et programmes de recherches hi...
kmichel69
 
Données de la recherche : quel positionnement et quels rôles pour les bibliot...
Données de la recherche : quel positionnement et quels rôles pour les bibliot...Données de la recherche : quel positionnement et quels rôles pour les bibliot...
Données de la recherche : quel positionnement et quels rôles pour les bibliot...
Pierre Naegelen
 

Tendances (20)

L'ouverture des données de la recherche en 2015 : définitions, enjeux, dynami...
L'ouverture des données de la recherche en 2015 : définitions, enjeux, dynami...L'ouverture des données de la recherche en 2015 : définitions, enjeux, dynami...
L'ouverture des données de la recherche en 2015 : définitions, enjeux, dynami...
 
Projet PIST.TN
Projet PIST.TN Projet PIST.TN
Projet PIST.TN
 
Le cnudst :votre partenaire en Information Scientifique et Technique
Le cnudst :votre partenaire en Information Scientifique et Technique Le cnudst :votre partenaire en Information Scientifique et Technique
Le cnudst :votre partenaire en Information Scientifique et Technique
 
Du dépôt au partage de données
Du dépôt au partage de donnéesDu dépôt au partage de données
Du dépôt au partage de données
 
Quelle collaboration autour des archives ouvertes à toulouse
Quelle collaboration autour des archives ouvertes à toulouseQuelle collaboration autour des archives ouvertes à toulouse
Quelle collaboration autour des archives ouvertes à toulouse
 
M allanic piv2017_c
M allanic piv2017_cM allanic piv2017_c
M allanic piv2017_c
 
Achives ouvertes ISAE-SUPAERO
Achives ouvertes ISAE-SUPAEROAchives ouvertes ISAE-SUPAERO
Achives ouvertes ISAE-SUPAERO
 
Le libre accès à l’IST et les archives ouvertes
Le libre accès à l’IST et les archives ouvertesLe libre accès à l’IST et les archives ouvertes
Le libre accès à l’IST et les archives ouvertes
 
Documentation IRD Occitanie : Outils et Services
Documentation IRD Occitanie : Outils et ServicesDocumentation IRD Occitanie : Outils et Services
Documentation IRD Occitanie : Outils et Services
 
Tutoriel : "Gestion d’ontologies"
Tutoriel : "Gestion d’ontologies"Tutoriel : "Gestion d’ontologies"
Tutoriel : "Gestion d’ontologies"
 
Oaw2014Presentation
Oaw2014PresentationOaw2014Presentation
Oaw2014Presentation
 
Mc jacquemot piv2017_c
Mc jacquemot piv2017_cMc jacquemot piv2017_c
Mc jacquemot piv2017_c
 
Archives ouvertes - Perspectives Europeennes
Archives ouvertes - Perspectives EuropeennesArchives ouvertes - Perspectives Europeennes
Archives ouvertes - Perspectives Europeennes
 
JE_FGouzi-ABarrio_SCDPau
JE_FGouzi-ABarrio_SCDPauJE_FGouzi-ABarrio_SCDPau
JE_FGouzi-ABarrio_SCDPau
 
Jabes 2011 - Sessions parallèles : Retours d'expériences innovantes - " ISIDO...
Jabes 2011 - Sessions parallèles : Retours d'expériences innovantes - " ISIDO...Jabes 2011 - Sessions parallèles : Retours d'expériences innovantes - " ISIDO...
Jabes 2011 - Sessions parallèles : Retours d'expériences innovantes - " ISIDO...
 
Construire des outils pour la gestion des données de la recherche dans une co...
Construire des outils pour la gestion des données de la recherche dans une co...Construire des outils pour la gestion des données de la recherche dans une co...
Construire des outils pour la gestion des données de la recherche dans une co...
 
Presentation jeudistv2
Presentation jeudistv2Presentation jeudistv2
Presentation jeudistv2
 
Étude critique sur les nouveaux modes d'éditorialisation scientifique en accè...
Étude critique sur les nouveaux modes d'éditorialisation scientifique en accè...Étude critique sur les nouveaux modes d'éditorialisation scientifique en accè...
Étude critique sur les nouveaux modes d'éditorialisation scientifique en accè...
 
Laurent COSTA : Plateformes géo-collaboratives et programmes de recherches hi...
Laurent COSTA : Plateformes géo-collaboratives et programmes de recherches hi...Laurent COSTA : Plateformes géo-collaboratives et programmes de recherches hi...
Laurent COSTA : Plateformes géo-collaboratives et programmes de recherches hi...
 
Données de la recherche : quel positionnement et quels rôles pour les bibliot...
Données de la recherche : quel positionnement et quels rôles pour les bibliot...Données de la recherche : quel positionnement et quels rôles pour les bibliot...
Données de la recherche : quel positionnement et quels rôles pour les bibliot...
 

En vedette

Lecture 1 intro to tissue culture
Lecture 1 intro to tissue cultureLecture 1 intro to tissue culture
Lecture 1 intro to tissue culture
ralotha
 
Caractéristiques du secteur des dattes Mehjouldans la zone de Tafilalet: (fre...
Caractéristiques du secteur des dattes Mehjouldans la zone de Tafilalet: (fre...Caractéristiques du secteur des dattes Mehjouldans la zone de Tafilalet: (fre...
Caractéristiques du secteur des dattes Mehjouldans la zone de Tafilalet: (fre...
ExternalEvents
 
A few contributions of the SIFR (Semantic Indexing of French biomedical Resou...
A few contributions of the SIFR (Semantic Indexing of French biomedical Resou...A few contributions of the SIFR (Semantic Indexing of French biomedical Resou...
A few contributions of the SIFR (Semantic Indexing of French biomedical Resou...
INRAE (MISTEA) and University of Montpellier (LIRMM)
 
AgroPortal : a proposition for ontology- based services in the agronomic domain
AgroPortal : a proposition for ontology- based services in the agronomic domainAgroPortal : a proposition for ontology- based services in the agronomic domain
AgroPortal : a proposition for ontology- based services in the agronomic domain
INRAE (MISTEA) and University of Montpellier (LIRMM)
 
La quantité
La quantitéLa quantité
La quantité
Francisca50
 
2743557 dossier-ppe-robot-suiveur-de-ligne
2743557 dossier-ppe-robot-suiveur-de-ligne2743557 dossier-ppe-robot-suiveur-de-ligne
2743557 dossier-ppe-robot-suiveur-de-ligneAziz ShadowStokes
 
An overview of encapsulation technologies for food
An overview of encapsulation technologies for foodAn overview of encapsulation technologies for food
An overview of encapsulation technologies for food
nooshin noshirvani
 
L’Expression De La Quantité
L’Expression De La QuantitéL’Expression De La Quantité
L’Expression De La Quantitéguest84f476
 
L'article partitif
L'article partitifL'article partitif
L'article partitifjude louis
 
ROBOT à base d'Android - Présentation PFE
ROBOT à base d'Android - Présentation PFEROBOT à base d'Android - Présentation PFE
ROBOT à base d'Android - Présentation PFE
Houssem Eddine LASSOUED
 

En vedette (10)

Lecture 1 intro to tissue culture
Lecture 1 intro to tissue cultureLecture 1 intro to tissue culture
Lecture 1 intro to tissue culture
 
Caractéristiques du secteur des dattes Mehjouldans la zone de Tafilalet: (fre...
Caractéristiques du secteur des dattes Mehjouldans la zone de Tafilalet: (fre...Caractéristiques du secteur des dattes Mehjouldans la zone de Tafilalet: (fre...
Caractéristiques du secteur des dattes Mehjouldans la zone de Tafilalet: (fre...
 
A few contributions of the SIFR (Semantic Indexing of French biomedical Resou...
A few contributions of the SIFR (Semantic Indexing of French biomedical Resou...A few contributions of the SIFR (Semantic Indexing of French biomedical Resou...
A few contributions of the SIFR (Semantic Indexing of French biomedical Resou...
 
AgroPortal : a proposition for ontology- based services in the agronomic domain
AgroPortal : a proposition for ontology- based services in the agronomic domainAgroPortal : a proposition for ontology- based services in the agronomic domain
AgroPortal : a proposition for ontology- based services in the agronomic domain
 
La quantité
La quantitéLa quantité
La quantité
 
2743557 dossier-ppe-robot-suiveur-de-ligne
2743557 dossier-ppe-robot-suiveur-de-ligne2743557 dossier-ppe-robot-suiveur-de-ligne
2743557 dossier-ppe-robot-suiveur-de-ligne
 
An overview of encapsulation technologies for food
An overview of encapsulation technologies for foodAn overview of encapsulation technologies for food
An overview of encapsulation technologies for food
 
L’Expression De La Quantité
L’Expression De La QuantitéL’Expression De La Quantité
L’Expression De La Quantité
 
L'article partitif
L'article partitifL'article partitif
L'article partitif
 
ROBOT à base d'Android - Présentation PFE
ROBOT à base d'Android - Présentation PFEROBOT à base d'Android - Présentation PFE
ROBOT à base d'Android - Présentation PFE
 

Similaire à Open Mining Infratsructure for TExt & Data : une infrastructure text-mining au service des scientifiques

Kristell MICHEL : Une IDG au service des Observatoires sur l’eau: retour d'ex...
Kristell MICHEL : Une IDG au service des Observatoires sur l’eau: retour d'ex...Kristell MICHEL : Une IDG au service des Observatoires sur l’eau: retour d'ex...
Kristell MICHEL : Une IDG au service des Observatoires sur l’eau: retour d'ex...
kmichel69
 
Mettre en pratique les recommandations sur les archives ouvertes de nouvelle ...
Mettre en pratique les recommandations sur les archives ouvertes de nouvelle ...Mettre en pratique les recommandations sur les archives ouvertes de nouvelle ...
Mettre en pratique les recommandations sur les archives ouvertes de nouvelle ...
pascal aventurier
 
Atelier documentaire du chercheur à l'INRIA
Atelier documentaire du chercheur à l'INRIAAtelier documentaire du chercheur à l'INRIA
Atelier documentaire du chercheur à l'INRIAADBSAquidoc
 
Ontology Repository and Ontology-based Services
Ontology Repository and Ontology-based ServicesOntology Repository and Ontology-based Services
Ontology Repository and Ontology-based Services
INRAE (MISTEA) and University of Montpellier (LIRMM)
 
IODS : Retour d’expériences au sein du Center for Data Science
IODS : Retour d’expériences au sein du Center for Data ScienceIODS : Retour d’expériences au sein du Center for Data Science
IODS : Retour d’expériences au sein du Center for Data Science
BorderCloud
 
infrastructure de données et de service THEIA et calcul à distance
infrastructure de données et de service THEIA et calcul à distance infrastructure de données et de service THEIA et calcul à distance
infrastructure de données et de service THEIA et calcul à distance
Desconnets Jean-Christophe
 
Stéphane Pouyllau (CNRS) - ISIDORE : plateforme d’accès unifié aux données de...
Stéphane Pouyllau (CNRS) - ISIDORE : plateforme d’accès unifié aux données de...Stéphane Pouyllau (CNRS) - ISIDORE : plateforme d’accès unifié aux données de...
Stéphane Pouyllau (CNRS) - ISIDORE : plateforme d’accès unifié aux données de...
infoclio.ch
 
Retour sur 5 années d'évolution des problématiques IST : rapport d'étonnement
Retour sur 5 années d'évolution des problématiques IST : rapport d'étonnementRetour sur 5 années d'évolution des problématiques IST : rapport d'étonnement
Retour sur 5 années d'évolution des problématiques IST : rapport d'étonnement
Antoine Blanchard
 
Comité de Ressources Biologiques à l’Institut Pasteur de Tunis
Comité de Ressources Biologiques à l’Institut Pasteur de TunisComité de Ressources Biologiques à l’Institut Pasteur de Tunis
Comité de Ressources Biologiques à l’Institut Pasteur de Tunis
Pasteur_Tunis
 
Implanter une politique d'open access dans une universite? L'exemple de l'INP...
Implanter une politique d'open access dans une universite? L'exemple de l'INP...Implanter une politique d'open access dans une universite? L'exemple de l'INP...
Implanter une politique d'open access dans une universite? L'exemple de l'INP...
Institut National Polytechnique de Toulouse
 
Jabes 2013 - Poster du Consortium Couperin
Jabes 2013 - Poster du Consortium CouperinJabes 2013 - Poster du Consortium Couperin
Jabes 2013 - Poster du Consortium Couperin
ABES
 
Catalogage de données : notions enjeux et initiatives
Catalogage de données : notions enjeux et initiativesCatalogage de données : notions enjeux et initiatives
Catalogage de données : notions enjeux et initiatives
Desconnets Jean-Christophe
 
L'offre de services numériques du SCD de l'Institut National Polytechnique de...
L'offre de services numériques du SCD de l'Institut National Polytechnique de...L'offre de services numériques du SCD de l'Institut National Polytechnique de...
L'offre de services numériques du SCD de l'Institut National Polytechnique de...
Institut National Polytechnique de Toulouse
 
Les bibliothèques numériques et la recherche, Fabrice PAPY, 5 décembre 2011
Les bibliothèques numériques et la recherche, Fabrice PAPY, 5 décembre 2011Les bibliothèques numériques et la recherche, Fabrice PAPY, 5 décembre 2011
Les bibliothèques numériques et la recherche, Fabrice PAPY, 5 décembre 2011
Atelier de sémiotique audiovisuelle en sciences humaines et sociales (ASA-SHS)
 
Le cahier de laboratoire électronique à l’Inserm : changement de pratiques, c...
Le cahier de laboratoire électronique à l’Inserm : changement de pratiques, c...Le cahier de laboratoire électronique à l’Inserm : changement de pratiques, c...
Le cahier de laboratoire électronique à l’Inserm : changement de pratiques, c...
AssociationAF
 
Une introduction aux données de la recherche. Journée d'Etude Agropolis Montp...
Une introduction aux données de la recherche. Journée d'Etude Agropolis Montp...Une introduction aux données de la recherche. Journée d'Etude Agropolis Montp...
Une introduction aux données de la recherche. Journée d'Etude Agropolis Montp...pascal aventurier
 
Publication de données d'observation dans le Web de données - Retour d'expéri...
Publication de données d'observation dans le Web de données - Retour d'expéri...Publication de données d'observation dans le Web de données - Retour d'expéri...
Publication de données d'observation dans le Web de données - Retour d'expéri...Esther Kaboré Dzalé
 
Gestion le la Propriete Intellectuelle et l’acces libre aux resultats de rec...
Gestion le la Propriete Intellectuelle  et l’acces libre aux resultats de rec...Gestion le la Propriete Intellectuelle  et l’acces libre aux resultats de rec...
Gestion le la Propriete Intellectuelle et l’acces libre aux resultats de rec...
iaaldafrika
 
Standards et critères internationaux pour la qualité éditoriale
Standards et critères internationaux pour la qualité éditorialeStandards et critères internationaux pour la qualité éditoriale
Standards et critères internationaux pour la qualité éditoriale
Françoise Gouzi
 

Similaire à Open Mining Infratsructure for TExt & Data : une infrastructure text-mining au service des scientifiques (20)

Kristell MICHEL : Une IDG au service des Observatoires sur l’eau: retour d'ex...
Kristell MICHEL : Une IDG au service des Observatoires sur l’eau: retour d'ex...Kristell MICHEL : Une IDG au service des Observatoires sur l’eau: retour d'ex...
Kristell MICHEL : Une IDG au service des Observatoires sur l’eau: retour d'ex...
 
Mettre en pratique les recommandations sur les archives ouvertes de nouvelle ...
Mettre en pratique les recommandations sur les archives ouvertes de nouvelle ...Mettre en pratique les recommandations sur les archives ouvertes de nouvelle ...
Mettre en pratique les recommandations sur les archives ouvertes de nouvelle ...
 
Atelier documentaire du chercheur à l'INRIA
Atelier documentaire du chercheur à l'INRIAAtelier documentaire du chercheur à l'INRIA
Atelier documentaire du chercheur à l'INRIA
 
Ontology Repository and Ontology-based Services
Ontology Repository and Ontology-based ServicesOntology Repository and Ontology-based Services
Ontology Repository and Ontology-based Services
 
IODS : Retour d’expériences au sein du Center for Data Science
IODS : Retour d’expériences au sein du Center for Data ScienceIODS : Retour d’expériences au sein du Center for Data Science
IODS : Retour d’expériences au sein du Center for Data Science
 
infrastructure de données et de service THEIA et calcul à distance
infrastructure de données et de service THEIA et calcul à distance infrastructure de données et de service THEIA et calcul à distance
infrastructure de données et de service THEIA et calcul à distance
 
Stéphane Pouyllau (CNRS) - ISIDORE : plateforme d’accès unifié aux données de...
Stéphane Pouyllau (CNRS) - ISIDORE : plateforme d’accès unifié aux données de...Stéphane Pouyllau (CNRS) - ISIDORE : plateforme d’accès unifié aux données de...
Stéphane Pouyllau (CNRS) - ISIDORE : plateforme d’accès unifié aux données de...
 
Retour sur 5 années d'évolution des problématiques IST : rapport d'étonnement
Retour sur 5 années d'évolution des problématiques IST : rapport d'étonnementRetour sur 5 années d'évolution des problématiques IST : rapport d'étonnement
Retour sur 5 années d'évolution des problématiques IST : rapport d'étonnement
 
Comité de Ressources Biologiques à l’Institut Pasteur de Tunis
Comité de Ressources Biologiques à l’Institut Pasteur de TunisComité de Ressources Biologiques à l’Institut Pasteur de Tunis
Comité de Ressources Biologiques à l’Institut Pasteur de Tunis
 
Implanter une politique d'open access dans une universite? L'exemple de l'INP...
Implanter une politique d'open access dans une universite? L'exemple de l'INP...Implanter une politique d'open access dans une universite? L'exemple de l'INP...
Implanter une politique d'open access dans une universite? L'exemple de l'INP...
 
Jabes 2013 - Poster du Consortium Couperin
Jabes 2013 - Poster du Consortium CouperinJabes 2013 - Poster du Consortium Couperin
Jabes 2013 - Poster du Consortium Couperin
 
Catalogage de données : notions enjeux et initiatives
Catalogage de données : notions enjeux et initiativesCatalogage de données : notions enjeux et initiatives
Catalogage de données : notions enjeux et initiatives
 
L'offre de services numériques du SCD de l'Institut National Polytechnique de...
L'offre de services numériques du SCD de l'Institut National Polytechnique de...L'offre de services numériques du SCD de l'Institut National Polytechnique de...
L'offre de services numériques du SCD de l'Institut National Polytechnique de...
 
Le projet NEEO
Le projet NEEOLe projet NEEO
Le projet NEEO
 
Les bibliothèques numériques et la recherche, Fabrice PAPY, 5 décembre 2011
Les bibliothèques numériques et la recherche, Fabrice PAPY, 5 décembre 2011Les bibliothèques numériques et la recherche, Fabrice PAPY, 5 décembre 2011
Les bibliothèques numériques et la recherche, Fabrice PAPY, 5 décembre 2011
 
Le cahier de laboratoire électronique à l’Inserm : changement de pratiques, c...
Le cahier de laboratoire électronique à l’Inserm : changement de pratiques, c...Le cahier de laboratoire électronique à l’Inserm : changement de pratiques, c...
Le cahier de laboratoire électronique à l’Inserm : changement de pratiques, c...
 
Une introduction aux données de la recherche. Journée d'Etude Agropolis Montp...
Une introduction aux données de la recherche. Journée d'Etude Agropolis Montp...Une introduction aux données de la recherche. Journée d'Etude Agropolis Montp...
Une introduction aux données de la recherche. Journée d'Etude Agropolis Montp...
 
Publication de données d'observation dans le Web de données - Retour d'expéri...
Publication de données d'observation dans le Web de données - Retour d'expéri...Publication de données d'observation dans le Web de données - Retour d'expéri...
Publication de données d'observation dans le Web de données - Retour d'expéri...
 
Gestion le la Propriete Intellectuelle et l’acces libre aux resultats de rec...
Gestion le la Propriete Intellectuelle  et l’acces libre aux resultats de rec...Gestion le la Propriete Intellectuelle  et l’acces libre aux resultats de rec...
Gestion le la Propriete Intellectuelle et l’acces libre aux resultats de rec...
 
Standards et critères internationaux pour la qualité éditoriale
Standards et critères internationaux pour la qualité éditorialeStandards et critères internationaux pour la qualité éditoriale
Standards et critères internationaux pour la qualité éditoriale
 

Plus de Le_GFII

KB Crawl SAS : Transformer l'information en Smart Data
KB Crawl SAS : Transformer l'information en Smart DataKB Crawl SAS : Transformer l'information en Smart Data
KB Crawl SAS : Transformer l'information en Smart Data
Le_GFII
 
La Centrale des Marchés : des services B2B pour accompagner la croissance des...
La Centrale des Marchés : des services B2B pour accompagner la croissance des...La Centrale des Marchés : des services B2B pour accompagner la croissance des...
La Centrale des Marchés : des services B2B pour accompagner la croissance des...
Le_GFII
 
Accessible.net : l'accessibilité pour tous, partout et en un clic
Accessible.net : l'accessibilité pour tous, partout et en un clicAccessible.net : l'accessibilité pour tous, partout et en un clic
Accessible.net : l'accessibilité pour tous, partout et en un clic
Le_GFII
 
Algorithmes et data-sciences : approches et limites pour le traitement du lan...
Algorithmes et data-sciences : approches et limites pour le traitement du lan...Algorithmes et data-sciences : approches et limites pour le traitement du lan...
Algorithmes et data-sciences : approches et limites pour le traitement du lan...
Le_GFII
 
CommoPrices : le portail des prix des matières premières
CommoPrices : le portail des prix des matières premièresCommoPrices : le portail des prix des matières premières
CommoPrices : le portail des prix des matières premières
Le_GFII
 
Data citation metrics : best practice to enable new metrics for research data
Data citation metrics : best practice to enable new metrics for research dataData citation metrics : best practice to enable new metrics for research data
Data citation metrics : best practice to enable new metrics for research data
Le_GFII
 
Open Data, Plateformes et Territoires
Open Data, Plateformes et TerritoiresOpen Data, Plateformes et Territoires
Open Data, Plateformes et Territoires
Le_GFII
 
How to measure the impact of Research ?
How to measure the impact of Research ?How to measure the impact of Research ?
How to measure the impact of Research ?
Le_GFII
 
Le new deal de la sémantique
Le new deal de la sémantiqueLe new deal de la sémantique
Le new deal de la sémantique
Le_GFII
 
Text Mining et enrichissement sémantique de contenus : retour d'expérience du...
Text Mining et enrichissement sémantique de contenus : retour d'expérience du...Text Mining et enrichissement sémantique de contenus : retour d'expérience du...
Text Mining et enrichissement sémantique de contenus : retour d'expérience du...
Le_GFII
 
Scopus & SciVal au service du pilotage de la recherche scientifique - Elsevie...
Scopus & SciVal au service du pilotage de la recherche scientifique - Elsevie...Scopus & SciVal au service du pilotage de la recherche scientifique - Elsevie...
Scopus & SciVal au service du pilotage de la recherche scientifique - Elsevie...
Le_GFII
 
Veille stratégique : du portail thématique à la gestion de flux - La démarch...
Veille stratégique : du portail thématique à la gestion de flux -  La démarch...Veille stratégique : du portail thématique à la gestion de flux -  La démarch...
Veille stratégique : du portail thématique à la gestion de flux - La démarch...
Le_GFII
 
L'Intelligence Technologique comme composante du pilotage scientifique de l'U...
L'Intelligence Technologique comme composante du pilotage scientifique de l'U...L'Intelligence Technologique comme composante du pilotage scientifique de l'U...
L'Intelligence Technologique comme composante du pilotage scientifique de l'U...
Le_GFII
 
La veille au service de la stratégie de l'Inra
La veille au service de la stratégie de l'InraLa veille au service de la stratégie de l'Inra
La veille au service de la stratégie de l'Inra
Le_GFII
 
La maîtrise des risques et l'intelligence économique au CEA - Frédéric Mariotte
La maîtrise des risques et l'intelligence économique au CEA - Frédéric MariotteLa maîtrise des risques et l'intelligence économique au CEA - Frédéric Mariotte
La maîtrise des risques et l'intelligence économique au CEA - Frédéric Mariotte
Le_GFII
 
Comment Coyote Systems utilse le Data Science Studio de Dataiku pour optimise...
Comment Coyote Systems utilse le Data Science Studio de Dataiku pour optimise...Comment Coyote Systems utilse le Data Science Studio de Dataiku pour optimise...
Comment Coyote Systems utilse le Data Science Studio de Dataiku pour optimise...
Le_GFII
 
L'analytics dans le sport - Mieux vivre les matchs de tennis grâce à l'analyt...
L'analytics dans le sport - Mieux vivre les matchs de tennis grâce à l'analyt...L'analytics dans le sport - Mieux vivre les matchs de tennis grâce à l'analyt...
L'analytics dans le sport - Mieux vivre les matchs de tennis grâce à l'analyt...
Le_GFII
 
Retour d'expérience de Sendinblue sur Logmatic.io, solutions d'analyse de log...
Retour d'expérience de Sendinblue sur Logmatic.io, solutions d'analyse de log...Retour d'expérience de Sendinblue sur Logmatic.io, solutions d'analyse de log...
Retour d'expérience de Sendinblue sur Logmatic.io, solutions d'analyse de log...
Le_GFII
 
Une veille intelligente dans un monde global - Proxem - Séminaire DIXIT du GF...
Une veille intelligente dans un monde global - Proxem - Séminaire DIXIT du GF...Une veille intelligente dans un monde global - Proxem - Séminaire DIXIT du GF...
Une veille intelligente dans un monde global - Proxem - Séminaire DIXIT du GF...
Le_GFII
 
Retour d'expérience du groupe Les Echos sur la mise en place d'un workflow mu...
Retour d'expérience du groupe Les Echos sur la mise en place d'un workflow mu...Retour d'expérience du groupe Les Echos sur la mise en place d'un workflow mu...
Retour d'expérience du groupe Les Echos sur la mise en place d'un workflow mu...
Le_GFII
 

Plus de Le_GFII (20)

KB Crawl SAS : Transformer l'information en Smart Data
KB Crawl SAS : Transformer l'information en Smart DataKB Crawl SAS : Transformer l'information en Smart Data
KB Crawl SAS : Transformer l'information en Smart Data
 
La Centrale des Marchés : des services B2B pour accompagner la croissance des...
La Centrale des Marchés : des services B2B pour accompagner la croissance des...La Centrale des Marchés : des services B2B pour accompagner la croissance des...
La Centrale des Marchés : des services B2B pour accompagner la croissance des...
 
Accessible.net : l'accessibilité pour tous, partout et en un clic
Accessible.net : l'accessibilité pour tous, partout et en un clicAccessible.net : l'accessibilité pour tous, partout et en un clic
Accessible.net : l'accessibilité pour tous, partout et en un clic
 
Algorithmes et data-sciences : approches et limites pour le traitement du lan...
Algorithmes et data-sciences : approches et limites pour le traitement du lan...Algorithmes et data-sciences : approches et limites pour le traitement du lan...
Algorithmes et data-sciences : approches et limites pour le traitement du lan...
 
CommoPrices : le portail des prix des matières premières
CommoPrices : le portail des prix des matières premièresCommoPrices : le portail des prix des matières premières
CommoPrices : le portail des prix des matières premières
 
Data citation metrics : best practice to enable new metrics for research data
Data citation metrics : best practice to enable new metrics for research dataData citation metrics : best practice to enable new metrics for research data
Data citation metrics : best practice to enable new metrics for research data
 
Open Data, Plateformes et Territoires
Open Data, Plateformes et TerritoiresOpen Data, Plateformes et Territoires
Open Data, Plateformes et Territoires
 
How to measure the impact of Research ?
How to measure the impact of Research ?How to measure the impact of Research ?
How to measure the impact of Research ?
 
Le new deal de la sémantique
Le new deal de la sémantiqueLe new deal de la sémantique
Le new deal de la sémantique
 
Text Mining et enrichissement sémantique de contenus : retour d'expérience du...
Text Mining et enrichissement sémantique de contenus : retour d'expérience du...Text Mining et enrichissement sémantique de contenus : retour d'expérience du...
Text Mining et enrichissement sémantique de contenus : retour d'expérience du...
 
Scopus & SciVal au service du pilotage de la recherche scientifique - Elsevie...
Scopus & SciVal au service du pilotage de la recherche scientifique - Elsevie...Scopus & SciVal au service du pilotage de la recherche scientifique - Elsevie...
Scopus & SciVal au service du pilotage de la recherche scientifique - Elsevie...
 
Veille stratégique : du portail thématique à la gestion de flux - La démarch...
Veille stratégique : du portail thématique à la gestion de flux -  La démarch...Veille stratégique : du portail thématique à la gestion de flux -  La démarch...
Veille stratégique : du portail thématique à la gestion de flux - La démarch...
 
L'Intelligence Technologique comme composante du pilotage scientifique de l'U...
L'Intelligence Technologique comme composante du pilotage scientifique de l'U...L'Intelligence Technologique comme composante du pilotage scientifique de l'U...
L'Intelligence Technologique comme composante du pilotage scientifique de l'U...
 
La veille au service de la stratégie de l'Inra
La veille au service de la stratégie de l'InraLa veille au service de la stratégie de l'Inra
La veille au service de la stratégie de l'Inra
 
La maîtrise des risques et l'intelligence économique au CEA - Frédéric Mariotte
La maîtrise des risques et l'intelligence économique au CEA - Frédéric MariotteLa maîtrise des risques et l'intelligence économique au CEA - Frédéric Mariotte
La maîtrise des risques et l'intelligence économique au CEA - Frédéric Mariotte
 
Comment Coyote Systems utilse le Data Science Studio de Dataiku pour optimise...
Comment Coyote Systems utilse le Data Science Studio de Dataiku pour optimise...Comment Coyote Systems utilse le Data Science Studio de Dataiku pour optimise...
Comment Coyote Systems utilse le Data Science Studio de Dataiku pour optimise...
 
L'analytics dans le sport - Mieux vivre les matchs de tennis grâce à l'analyt...
L'analytics dans le sport - Mieux vivre les matchs de tennis grâce à l'analyt...L'analytics dans le sport - Mieux vivre les matchs de tennis grâce à l'analyt...
L'analytics dans le sport - Mieux vivre les matchs de tennis grâce à l'analyt...
 
Retour d'expérience de Sendinblue sur Logmatic.io, solutions d'analyse de log...
Retour d'expérience de Sendinblue sur Logmatic.io, solutions d'analyse de log...Retour d'expérience de Sendinblue sur Logmatic.io, solutions d'analyse de log...
Retour d'expérience de Sendinblue sur Logmatic.io, solutions d'analyse de log...
 
Une veille intelligente dans un monde global - Proxem - Séminaire DIXIT du GF...
Une veille intelligente dans un monde global - Proxem - Séminaire DIXIT du GF...Une veille intelligente dans un monde global - Proxem - Séminaire DIXIT du GF...
Une veille intelligente dans un monde global - Proxem - Séminaire DIXIT du GF...
 
Retour d'expérience du groupe Les Echos sur la mise en place d'un workflow mu...
Retour d'expérience du groupe Les Echos sur la mise en place d'un workflow mu...Retour d'expérience du groupe Les Echos sur la mise en place d'un workflow mu...
Retour d'expérience du groupe Les Echos sur la mise en place d'un workflow mu...
 

Open Mining Infratsructure for TExt & Data : une infrastructure text-mining au service des scientifiques

  • 1. Open Mining Infrastructure for TExt and Data Patricia Geretto, INRA-Versailles Forum du GFII, Paris, 8 Décembre 2015 Une infrastructure text-mining au service des scientifiques
  • 2. L’INRA OPENMINTED : LES OBJECTIFS OPENMINTED : LE PROJET Forum du GFII, Paris, 8 Décembre 2015 SOMMAIRE CAS D’USAGE ‘BIOLOGIE VEGETALE’ : ENJEUX - GAINS
  • 3. Institut National de la Recherche Agronomique Forum du GFII - Paris, 8 décembre 2015 Alimentation - Agriculture - Environnement 8290 agents titulaires dont 13 départements scientifiques et 8 métaprogrammes 186 unités de recherche et 49 unités expérimentales 881,71 M€ : Budget exécuté 2552 stagiaires accueillis et 510 doctorants rémunérés Rapport d’activité INRA, 2014 17 centres de recherche 360 brevets en stock dont 67 nouveaux 1840 chercheurs titulaires
  • 4. MaIAGE Unité de recherche "Mathématiques et Informatique Appliquées du Génome à l'Environnement" L’équipe Bibliome développe des méthodes de linguistique computationnelle et d’apprentissage automatique appliquées au domaine des Sciences de la Vie. Suite Alvis développée par MaIAGE http://bibliome.jouy.inra.fr Participation de l’INRA au projet OpenMinTeD Forum du GFII - Paris, 8 décembre 2015 Cas d’Usage en Agronomie DIST Délégation à l’Information Scientifique et Technique La DIST est chargée de construire et mener la politique de l'Information Scientifique et technique (IST) pour l'INRA.
  • 5. Appel à projet H2020-EINFRA-2014-2 (Research and Innovation Actions, Framework Partnership Agreement with Multiple Beneficiaries) 3 ans (2015-2018) 5,4 millions d’euros 16 partenaires Le Projet OpenMinTeD Utilisateurs finaux Forum du GFII - Paris, 8 décembre 2015 Chercheurs, curateurs de bases de données… Editeurs de littérature et d’outils de text-mining, bibliothèques, PME … Fournisseurs de contenus et services Réaliser une plateforme et une infrastructure de Text et Data Mining (TDM), ouverte et pérenne, qui permette aux chercheurs de découvrir, créer, partager et ré-utiliser la connaissance extraite d’un vaste éventail de sources de la littérature scientifique.
  • 6. Text-mining Communautés scientifiques Infrastructure Fournisseurs de contenu OA OpenAIRE Open Access Infrastructure for Research in Europe SSOAR, Social Science Open Access Repository Clarin, European research infrastructure for the humanities and social sciences AGRIS, Agricultural Science and Technology Information Spécialistes du droit Partenaires d’OpenMinTeD Forum du GFII - Paris, 8 décembre 2015
  • 7. Forum du GFII - Paris, 8 décembre 2015 Biologie Végétale & Biodiversité 2 cas d’usage à l’INRA Approche “chercheur centrée” Les spécifications de la plateforme reposent sur des Cas d’Usage
  • 8. Constat – Difficultés pour les Chercheurs • Dispersion des sources d’information • Manque d’uniformité des modes de recherche et de récupération des contenus • Accès restreint, payant ; règles de copyright et licences OpenMinTeD • Explicite les règles d’accès au contenu/aux sources • Favorise l’utilisation des ressources en open access (littérature scientifique, données et vocabulaires partagés) • Offre un accès fédéré aux ressources (métadonnées et protocoles d’échange standards) Les Sources – Le Contenu Forum du GFII - Paris, 8 décembre 2015 OpenMinted focuses on interoperability across text mining services and content providers
  • 9. Constat – Difficultés pour les Chercheurs • Manque de moyens informatiques (stockage, calcul, compétences…) • Difficultés à identifier des services de text-mining appropriés aux problématiques • Manque de connaissances des capacités/limites des services de text-mining OpenMinTeD • Met à disposition un environnement accessible à distance pour construire, utiliser et partager des chaînes de traitement de text-mining à façon • Permet le traitement de gros volumes de données • Documente et rend les services de text-mining plus faciles à appréhender OpenMinted does not build new services, but adopts and adapts existing services for new communities Le Traitement de Text-Mining Forum du GFII - Paris, 8 décembre 2015
  • 10. Constat – Difficultés pour les Chercheurs • Manque d’uniformité dans les formats de production • Peu de ré-utilisation des ressources produites et des chaînes de traitement construites • Peu de traçabilité du lien entre les ressources utilisées et les résultats produits OpenMinTeD • Garde la trace des versions et des licences des ressources utilisées • Met à disposition des espaces de partage de corpus annotés, de vocabulaires, des chaînes de traitement… • Permet la reproductibilité des résultats • Favorise des sorties en format standard L’Exploitation des Résultats Forum du GFII - Paris, 8 décembre 2015
  • 11. Questionnaire 82 participants 66 questionnaires complets 17 sujets abordés 15 questions sur le sujet des difficultés (difficultés à trouver l’information pertinente, à la collecter et l’exploiter, à la relier à des données…) 17 questions sur le sujet des solutions (annotations, visualisations, extractions, liens sémantiques entre données et textes…) Cas d’Usage ‘Biologie végétale’ Forum du GFII - Paris, 8 décembre 2015 Personas
  • 12. Cas d’Usage ‘Biologie végétale’ Forum du GFII - Paris, 8 décembre 2015 Le Text-Mining permet de • Remobiliser les connaissances existantes et dispersées • Sélectionner des paramètres biologiques d’intérêt • Réduire le champ des expérimentations possibles • Diminuer le coût des expériences Enjeux - Gains © Christophe MAITRE, INRA © William BEAUCARDET,INRA
  • 13. Contact us www.openminted.eu Project Coordinator: Natalia Manola natalia@di.uoa.gr twitter.com/openminted_eu facebook.com/openminted bit.do/openmintedlinkedin vimeo.com/openminted bit.do/openmintedplus http://fr.slideshare.net/openminted_eu Two OPEN CALLS and two HACKATONS will be organized to develop applications with special focus on innovative ideas improving the uptake of the OpenMinTeD infrastructure, promoting the openness and reuse principle (2017, March & July) Patricia Geretto, Sophie Aubin (DIST) patricia.geretto@versailles.inra.fr sophie.aubin@versailles.inra.fr Claire Nédellec (MaIAGE) claire.nedellec@jouy.inra.fr