SlideShare une entreprise Scribd logo
1  sur  23
Télécharger pour lire hors ligne
1
	
  	
  
	
  
	
  
	
  
	
   	
  
25 janvier 2018, assises AlimHClaire Nédellec, équipe Bibliome (MaIAGE)
copyright Inra 2017
Ontologies et fouille de données
textuelles pour l'analyse et la
découverte de connaissances
2
Cycle	
  de	
  découverte	
  scientifique	
  
	
  
	
  
	
  
	
  
	
  
	
  
	
  
	
  
	
  
	
  
	
  
	
  
	
  
Enjeux	
  de	
  réutilisation/mutualisation	
  des	
  traitements	
  et	
  des	
  données	
  
	
  
A	
  toute	
  étape,	
  des	
  données,	
  des	
  informations	
  et	
  des	
  connaissances	
  utiles	
  à	
  réutiliser	
  
Les	
  textes,	
  des	
  sources	
  sous-­‐exploitées.	
  
Expérimentation	
  
Analyse,	
  
interprétation	
  
Modélisation	
  
Prédiction,	
  
hypothèses	
  
3
	
  	
  
	
  
	
  
	
  	
  
	
  
	
  coding gene
additional
annotation
tagged
mutant
GST
probes
repeat
element
protein motifAffymetrix probesMPSS tag
RNA gene
curated
annotation
gene
family/GO
FLAGdb++
WEB LINKS TO…
GENBANK, PDB, PFAM, MIPS, TAIR, ARAMEMNON, SWISSPROT, GENEVESTIGATOR, RAP-DB,
eFP-BROWSER, CATdb, GENEFARM, KOG, ARABIDOPSIS-TF, JGI, INTERPRO, GENOSCOPE, ATOMEdb…
Arabidopsis
thaliana
Oryza
sativa
Vitis
viniferaPopulus
trichocarpa
Exemple	
  d'analyse	
  fonctionnelle	
  de	
  gène	
  	
  
http://tools.ips2.u-­‐psud.fr/projects/FLAGdb++/HTML/NewCPG/index.shtml	
  
Semantic	
  search	
  
genome	
  browser	
  
http://bibliome.jouy.inra.fr/demo/seedev/alvisir/webapi/search	
  
FlagDB++,	
  biologie	
  de	
  
l'arabette	
  
4
Sources	
  d'information	
  multiples	
  
	
  Partiellement	
  redondantes	
  et	
  complémentaires,	
  à	
  différentes	
  échelles	
  et	
  niveaux	
  d'abstraction	
  
DSMZ	
  BacDive	
  
catalogue	
   international	
   de	
  
ressources	
  bactériennes	
  
Pubmed	
  	
  
Exemple	
   en	
   biodiversité	
   bactérienne	
   :	
   où	
   la	
   souche	
   Ornithunimicrobium	
   kibberense	
  
DSM	
  17687	
  a-­‐t'elle	
  été	
  trouvée	
  ?	
  
soil	
   	
   BacDive	
  
	
  
cold	
  desert	
   	
   littérature	
  
Non	
  comparables	
  sans	
  une	
  classification	
  de	
  référence	
  et	
  du	
  "text-­‐mining"	
  
	
  
5
	
  
	
  
Modèle de connaissances
du texte
Modèle de données
Modèle
pivot
Texte Données
Image
Caractériser	
  les	
  sources	
  de	
  connaissance	
  	
  
Définir	
  les	
  correspondances	
  avec	
  le	
  modèle	
  pivot	
  
Identifier	
  les	
  redondances	
  et	
  les	
  complémentarités	
  	
  
Clef	
  de	
  la	
  réutilisation	
  :	
  partager	
  une	
  même	
  
représentation	
  sémantique	
  formelle	
  
SUCC
FUM
Glutamate synthesis
Arginine catabolism
MAL
AKG
CIT
OAA
ACCOA
ICIT
SUCCOA
ACP AC
PTS
AND
AckA
+
AND
Pta
AND
AND
AND
CitC
CitZ
Mdh
AND
AND
CitB
+
+
+
CcpC on
-
-
AND
SucCD OdhAB
AND ++
AND
SdhABC
AND
+
+
AND
CitG
+
MalS AND
AND
YtsJ
+
+
+
+
+
NADH
ATP NADPH
NADH
ATP
+
NADH
+
PYR
CodY on
AbrB on
TnrA on
-
+
NADPH
-
OR
AND +
PdhD
PdhABC
PycA
ATP
+-
+
+
+
+
AND
PykA
NADH
ATP
PYR
OAA
MAL
YwkA
MAL
MalK on
+
NOT
MalK off
+
+
AND
NADH
+
OR
PYR
MaeN
NOT
+
SUCC/FUM
DctS off DctS on
AND
SUCC
FUM
AND
+
+
NOT
+AND
CitT offCitT on
CIT
CIT
ATP
DctP
CitM
AcsA
AND
AC
ATP
ACCOA
CodY on
-
Modèle dynamique
aannaaeerroobbiicc nniittrraattee rreessppiirraattiioonn
anaerobic respiration
aerobic culture condition
absence of anaerobic induction
anaerobic growth conditionabsence of induction
aerobic conditionanaerobic conditioninduction
growth condition
6
Le	
  texte	
  comme	
  une	
  donnée	
  ?	
  
	
  
	
  
Les	
  sources	
  textuelles	
  sont	
  multiples,	
  nombreuses	
  et	
  très	
  sous-­‐exploitées	
  
Elles	
  posent	
  des	
  problèmes	
  spécifiques	
  d'accès,	
  d'analyse	
  et	
  d'interprétation,	
  	
  
	
  
traités	
   par	
   les	
   méthodes	
   automatiques	
   d'extraction	
   et	
   de	
   formalisation	
  
d'information,	
  text-­‐mining	
  
	
  
	
  
	
  
	
  
Un	
  exemple	
  concret	
  
• biodiversité	
  microbienne	
  
	
  
7
Microorganismes,	
  alimentation	
  et	
  littérature	
  scientifique	
  
Des	
  milliards	
  de	
  microorganismes	
  partout,	
  largement	
  inconnus.	
  	
  
Jouent	
  un	
  rôle	
  critique	
  dans	
  la	
  transformation	
  et	
  la	
  qualité	
  des	
  aliments	
  et	
  leur	
  effet	
  sur	
  la	
  santé.	
  
Etudier	
  leurs	
  écosystèmes	
  et	
  leur	
  génétique	
  pour	
  mieux	
  les	
  comprendre,	
  les	
  contrôler,	
  et	
  les	
  utiliser.	
  
	
  
	
   	
  
Croissance	
  exponentielle	
  
de	
  l'information	
  
génétique	
  
source	
  :	
  JGI	
  
Nombre	
  d'articles	
  traitant	
  de	
  
"bacteria"	
  dans	
  PubMed	
  
http://cm1douzant.blogspot.fr/2014/11/conte-­‐des-­‐droits-­‐des-­‐enfants-­‐2.html	
  
Pixabay	
  
C	
  Inra	
  
...	
  et	
  de	
  publications	
  
Nombre	
  de	
  séquences	
  de	
  
génomes	
  complets	
  au	
  JGI	
  
Ecosystèmes,	
  habitats,	
  
propriétés	
  décrits	
  dans	
  des	
  
millions	
  de	
  documents	
  
8
Quels	
  microbes	
  dans	
  mon	
  fromage	
  ?	
  	
  
10/02/2017 15:42
Microorganismes	
  
ajoutés	
  
Microorganismes	
  
de	
  l'environnement	
  
Sélection	
  par	
  les	
  
conditions	
  
Sélection	
  par	
  le	
  
procédé	
  
pH	
  
eau	
  "disponible"	
  
pression	
  osmotique	
  
température	
  
pasteurisation	
  
salage	
  
cuisson	
  
lavage	
  
levains	
  	
  
	
  
Microbiote	
  du	
  
fromage	
  
bactéries	
  lactiques	
  
	
  
bactéries	
  résistantes	
  au	
  sel	
  	
  
Gammaproteobacteria	
  	
  
Actinobacteria	
  	
  
moisissures	
  
Staphylococci	
  
Actinobacteria	
  	
  
moisissures	
  
Humain	
  
Animal	
  
Lait	
  
Eau	
  
Air	
  
Saumure	
  
Etagère	
  
Instruments	
  
Cave	
  
Caillé	
  
C InraDes	
  approches	
  	
  
à	
  haut	
  débit	
  :	
  	
  
métagénomique	
  et	
  
"fouille	
  de	
  texte"	
  	
  
	
   Irlinger	
  et	
  al.,	
  FEMS	
  Microbiol	
  Lett	
  (2015)	
  362	
  (2).	
  
	
  
9
Identification	
  des	
  microorganisms	
  par	
  leur	
  ADN	
  
	
  
Fragments	
  d'ADN	
  
fragments	
  d'ADN	
  
Copyright Teach the Microbiome
	
  
	
  
Génétique	
  
Confirme	
  
Interprète	
  
Explique	
  
Fouille	
  de	
  
textes	
  
souches	
  identifiées	
  
?
Alignement	
  avec	
  des	
  génomes	
  de	
  références	
  connus	
  
	
  
Pixabay
	
  
séquences	
  d'ADN	
  de	
  
microorganismes	
  du	
  
fromage	
  
	
  
	
  
	
  
10
	
  
	
  
	
  
	
  
	
  	
  
	
  
	
  	
  	
  
	
  
projet	
  Inra	
  -­‐	
  Cniel	
  	
  
FoodMicrobiome	
  	
  
300	
  très	
  fréquentes	
  
et	
  bien	
  connues	
  	
  
	
  
100	
  peu	
  connues	
  et	
  
de	
  présence	
  
variable	
  	
  
	
  
Copyright	
  ©	
  INRA	
  
Analyse	
  métagenomique	
  de	
  centaines	
  de	
  
d'échantillons	
  de	
  fromages	
  français	
  et	
  italiens	
  	
  
	
  
Identifier	
  les	
  microorganismes	
  pour	
  comprendre	
  et	
  
contrôler	
  leur	
  présence,	
  
Améliorer	
  la	
  qualité	
  des	
  aliments	
  et	
  en	
  concevoir	
  de	
  
nouveaux	
  	
  
ER15_174_BHI7	
   	
   	
   	
   	
   	
   	
   	
   	
   	
   	
   	
   	
   	
   	
   	
   	
   	
   	
   	
   	
   	
   	
   	
   	
   	
   	
   	
   	
   	
   	
   	
   	
   	
   	
   	
   	
   	
   	
   	
   	
   	
   	
   	
   	
   	
   	
   	
   	
   	
   	
   	
   	
   	
   	
  
gorgonzola,	
  roquefort,	
  époisse,	
  toscanello,	
  st	
  nectaire	
  (très	
  fréquent),	
  tomme,	
  bleu	
  
échantillons	
  de	
  fromage	
  
souches	
  
Parmi	
  400	
  souches	
  
11
L'explication	
  de	
  la	
  présence	
  de	
  Psychrobacter	
  par	
  la	
  "fouille	
  de	
  textes"	
  
	
   	
  
Psychrobacter	
  
aquimaris	
  
Marine	
  
environment	
  
L'application	
   OntoBiotope	
   a	
   analysé	
   toute	
   la	
   base	
  
bibliographique	
  PubMed	
  	
  
- 2,3	
  millions	
  de	
  documents	
  
- 8,3	
  microorganismes	
  
- 18,5	
  millions	
  d'habitats	
  assignés	
  à	
  2000	
  classes	
  
- 7,4	
  millions	
  relations	
  
Psychrobacter	
  aquimaris	
  vient	
  de	
  
l'environnement	
  marin	
  
	
  
	
  Le	
  chercheur	
  comprend	
  :	
  	
  
le	
  sel	
  ajouté	
  apporte	
  la	
  bactérie	
  
dans	
  le	
  fromage	
  	
  
12
	
  
	
  
Florilège	
  
Base	
  de	
  
données	
  de	
  
Centre	
  de	
  
Ressources	
  
biologiques	
  
Base	
  de	
  
données	
  
Génétiques	
  
Base	
  de	
  
données	
  de	
  
Biodiversité	
  
Littérature	
  
données	
  
numériques	
  
données	
  
normalisées	
  
données	
  
textuelles	
  
Genbank	
  
SRA	
  
GBIF	
  
PubMed	
  
Central	
  
OpenAire	
  
Editeurs	
  
CIRM	
  
DSMZ	
  
Florilège,	
  un	
  système	
  
d'information	
  intégré	
  
sur	
  la	
  flore	
  positive	
  des	
  
aliments	
  
Metaprogramme	
  MEM	
  
H2020	
  OpenMinTeD	
  
13
Interface	
  utilisateur	
  de	
  Florilège,	
  	
  
informations	
  sur	
  les	
  taxa,	
  habitats,	
  phénotypes,	
  usages	
  	
  
	
   	
  
URL : http://genome.jouy.inra.fr/FlorilegeDemo
FLORILEGE
Service	
  sur	
  MIGale,	
  
plateforme	
  de	
  
l'Institut	
  français	
  
de	
  bioinformatique	
  
14
Copyright Inra
Alvis pipeline - Florilège database
Point	
  clef	
  :	
  identifier	
  et	
  associer	
  automatiquement	
  	
  
des	
  termes	
  variés	
  des	
  textes	
  à	
  une	
  classification	
  
	
  
	
  
	
  
PubMed DOCUMENT TAXON HABITAT HABITAT TERM
PMID: 21549046, 21247298, 16204502,
15992268, 2116711, 2116712,
15992260, 1348242, 11530195,
23042180, 23208291, 10458115,
11456331, 21669068, 17954748,
8867607, 23433372, 26325149,
8977904, 23880504, 8227616,
16156701, 15553633, 20494189,
24715203, 21441322, 19114514,
2125110, 19254151, 22980010
Listeria
monocytogenes
,
dairy
farm
Dairy farm, dairy farm environments, dairy
farms, dairy farm environmental samples,
environment of dairy farms, potential dairy
farm, Dairy farm environmental samples, single
dairy farm, Irish dairy farms, high-prevalence
dairy farm, dairy farm environment, dairy farms
of different size, local dairy farm, second
Northwest dairy farm, dairy cattle farms,
selected dairy farms, dairy farm, Dairy farms
	
  
	
  
Term	
  variation	
  
10,000	
  habitats	
  of	
  Listeria	
  monocytogenes	
  in	
  PubMed	
  
Classe de
référence
15
Une	
  classification	
  avec	
  une	
  structure	
  hiérarchique	
  
	
  
	
  
	
  
	
  
	
  
	
  
	
  
	
  
	
   	
  
Des	
  catégories	
  d'habitat	
  	
  de	
  
différents	
  niveaux	
  nécessaires	
  
pour	
  rechercher	
  des	
  
corrélations	
  et	
  synthétiser	
  	
  
10,000	
  habitats	
  de	
  Listeria	
  monocytogenes	
  dans	
  PubMed	
  
Alvis IR semantic search engine
Extraits d'articles
scientifiques
scienScientific
Classes
d'habitat
classes
Listeria	
  monocytogenes	
  contamination	
  in	
  Chinese	
  beef	
  processing	
  plants.
Listeria	
  monocytogenes	
  isolated	
  from	
  artisanal	
  Portuguese	
  cheses-­‐making	
  	
  dairy.
the	
  presence	
  of L.	
  monocytogenes	
  in	
  samples	
  collected	
  from	
  crab	
  processing	
  plant	
  
Portuguese	
  cheses-­‐making	
  	
  dairy.
L.	
  monocytogenes	
  persisting	
  in	
  a	
  	
  cold-­‐smoked	
  fish	
  processing	
  plant.
two L.	
  monocytogenes	
  	
  cheese	
  dairy	
  isolates
16
Extrait	
  de	
  l'ontologie	
  
OntoBiotope.	
  
	
  Le	
  concept	
  "milk	
  product"	
  	
  
	
  
De	
  la	
  classification	
  à	
  
l'ontologie	
  :	
  
• conceptualisée	
  
• formalisée	
  
• partagée	
  	
  
17
	
  
http://bibliome.jouy.inra.fr/demo/ontobiotope/alvisir2/webapi/search	
  
	
  
Une	
  requête	
  sur	
  la	
  
catégorie	
  "milk	
  product"	
  
18
Comment	
  ça	
  marche	
  ...	
  
	
  
	
  
Bases	
  bibliographiques	
  	
  
Ressources	
  sémantiques	
  
Ontologies	
  
Information	
  
extraction	
  
Données	
   et	
  
métadonnées	
  
des	
  textes	
  
Services	
  
Préparation	
  /	
  
mise	
  à	
  jour	
  du	
  
corpus	
  
Reconnaissance	
  
des	
  entités	
  
Normalisation	
  
des	
  entités	
  
Extraction	
  des	
  
relations	
  
Extraction	
  d'information	
  
Bases	
  de	
  données	
  
19
	
  
Extraction	
  d'information	
  (EI)	
  
Entité	
  
Unité	
  sémantique	
  du	
  texte	
  
Normalisée	
  :	
  associée	
  à	
  une	
  catégorie	
  d'une	
  classification	
  (plus	
  généralement	
  d'une	
  ontologie)	
  
	
  
Relation	
  ou	
  événement	
  
Associe	
  des	
  unités	
  sémantiques,	
  est	
  en	
  général	
  orientée,	
  à	
  deux	
  arguments	
  ou	
  plus	
  	
  
	
  
	
  
	
  
Clostridium perfringens …has been isolated from child intestine
	
  
L'extraction	
  d'information	
  utilise	
  des	
  méthodes	
  de	
  traitement	
  automatique	
  de	
  la	
  langue	
  naturelle	
  et	
  
d'apprentissage	
  automatique.	
  
	
  
Clostridium	
   Organ	
  Human	
  	
  
Lives	
  in	
  
20
Comment	
  associer	
  le	
  texte	
  à	
  une	
  catégorie,	
  la	
  méthode	
  ToMap	
  
Basé	
  sur	
  la	
  similarité	
  entre	
  les	
  termes	
  du	
  texte	
  et	
  noms	
  des	
  catégories	
  
Prise	
  compte	
  de	
  la	
  structure	
  et	
  de	
  la	
  variation	
  morpho-­‐syntaxique	
  
	
  
	
  
	
  
Methylobacterium	
   dichloromethanicum	
   DM4	
   whose	
   genome	
   has	
   now	
   been	
   sequenced	
   was	
   isolated	
  
from	
  soil	
  from	
  a	
  treatment	
  plant	
  for	
  halogenated	
  hydrocarbon	
  waste	
  	
  
	
  
	
  
	
  
	
  [[treatment	
  [plant]]	
  [for	
  [halogenated	
  [hydrocarbon]]	
  waste]]	
   ≈	
   [waste	
  [treatment	
  [plant]]	
  	
  
	
  
	
   power	
  [plant],	
  chemical	
  [plant]	
  ou	
   [[thermal	
  [power]]	
  [plant]	
  
	
  
La	
  catégorie	
  retenue	
  est	
  celle	
  qui	
  partage	
  le	
  prédicat	
  (plant)	
  et	
  le	
  plus	
  de	
  sous-­‐termes	
  (treatment	
  plant	
  
et	
  waste).	
  En	
  cas	
  d'emboitement,	
  prendre	
  la	
  plus	
  spécifique.	
  
Une	
  méthode	
  indépendante	
  du	
  domaine.	
  
Texte	
  
Terme	
  du	
  texte	
   Catégorie	
  correcte	
  
Catégories	
  incorrectes	
  
21
Du	
  labo	
  de	
  recherche	
  à	
  l'infrastructure,	
  	
  
l'exemple	
  de	
  OpenMinTeD	
  
	
  
	
  
	
  
	
  
	
  
	
  
	
  
	
  
OpenMinTed,	
  un	
  projet	
  
pour	
  une	
  infrastructure	
  
européenne	
  de	
  text-­‐
mining	
  infrastructure	
  	
  
Offre	
  aux	
  communautés	
  
scientifiques	
  
• Un	
  accès	
  ouvert	
  dans	
  
un	
  cadre	
  unifié	
  	
  
• Reproductibilité	
  et	
  
flexibilité.	
  	
  
• Collecte	
  des	
  articles	
  et	
  
ressources,	
  agrégation	
  
et	
  standardisation	
  
Les	
  3	
  applications	
  
présentées	
  y	
  sont	
  
déployées	
  
22
Rationalisation	
  des	
  développements	
  d'applications	
  
	
  
Constat	
  
• Paysage	
  fragmenté	
  
• De	
  très	
  nombreuses	
  applications	
  très	
  spécialisées,	
  mais	
  inutilisable	
  "hors	
  sol"	
  
• Des	
  quantités	
  de	
  composants	
  disponibles	
  
• Passer	
  des	
  composants	
  à	
  l'application	
  a	
  souvent	
  un	
  coût	
  prohibitif	
  par	
  rapport	
  à	
  la	
  valeur	
  
ajoutée	
  
	
  
	
  
Pour	
  plus	
  de	
  services	
  en	
  TDM,	
  plus	
  d'ingénierie	
  avancée,	
  plus	
  de	
  R	
  &	
  D	
  
• Industrialiser	
  les	
  composants	
  de	
  TDM	
  pour	
  les	
  réutiliser	
  hors	
  des	
  labos	
  
• Développer	
   les	
   infrastructures	
   et	
   les	
   connecter	
   (TDM,	
   bibliographie,	
   ontologies,	
  
infrastructures	
  métiers)	
  	
  
• Rendre	
  les	
  développeurs	
  d'application	
  autonome	
  
• Nouveaux	
   métiers,	
   nouvelles	
   compétences	
   :	
   développeurs	
   informatiques	
   spécialisés,	
  
concepteurs	
  d'applications,	
  ingénieurs	
  de	
  la	
  connaissance,	
  ...	
  
• OpenMinTed,	
  un	
  exemple	
  à	
  suivre	
  et	
  à	
  étendre.	
  
	
  
	
  
23
	
  
Conclusion	
  
	
  
	
  
	
  
• La	
  réutilisation	
  des	
  données	
  requiert	
  une	
  représentation	
  informatique	
  commune,	
  avec	
  une	
  
sémantique	
  unique	
  (ontologie)	
  
	
  
• De	
  nombreuses	
  informations	
  ne	
  sont	
  disponibles	
  que	
  sous	
  forme	
  textuelle.	
  Leur	
  extraction	
  
et	
  leur	
  	
  modélisation	
  est	
  réalisable	
  par	
  un	
  outillage	
  spécifique	
  de	
  "text-­‐mining".	
  
	
  
• Les	
   méthodes	
   de	
   text-­‐mining	
   sont	
   intégrables	
   avec	
   d'autres	
   outils	
   d'analyse	
   et	
   de	
  
modélisation	
  	
  
	
  
• Permettant	
  la	
  réutilisation	
  à	
  grande	
  échelle	
  des	
  connaissances	
  déjà	
  publiées	
  	
  
	
  
	
  

Contenu connexe

Tendances

Séquence complète du génome de Plasmodium falciparum: intérêts pour les cherc...
Séquence complète du génome de Plasmodium falciparum: intérêts pour les cherc...Séquence complète du génome de Plasmodium falciparum: intérêts pour les cherc...
Séquence complète du génome de Plasmodium falciparum: intérêts pour les cherc...Institut Pasteur de Madagascar
 
Caractéristiques biologiques de Mycoplasma meleagridiset Mycoplasma gallinaru...
Caractéristiques biologiques de Mycoplasma meleagridiset Mycoplasma gallinaru...Caractéristiques biologiques de Mycoplasma meleagridiset Mycoplasma gallinaru...
Caractéristiques biologiques de Mycoplasma meleagridiset Mycoplasma gallinaru...Pasteur_Tunis
 
Le séquençage de l'ADN et ses applications
Le séquençage de l'ADN et ses applicationsLe séquençage de l'ADN et ses applications
Le séquençage de l'ADN et ses applicationsOlivier Ezratty
 
Outil moléculaire global pour déterminer l’origine géographique des aliments ...
Outil moléculaire global pour déterminer l’origine géographique des aliments ...Outil moléculaire global pour déterminer l’origine géographique des aliments ...
Outil moléculaire global pour déterminer l’origine géographique des aliments ...Pôle Qualiméditerranée
 
Chevaliez du hépatites 2015
Chevaliez  du hépatites 2015Chevaliez  du hépatites 2015
Chevaliez du hépatites 2015odeckmyn
 
Hépatite C Virus et marqueurs.pdf
Hépatite C  Virus et marqueurs.pdfHépatite C  Virus et marqueurs.pdf
Hépatite C Virus et marqueurs.pdfodeckmyn
 
Pawlotsky cycle
Pawlotsky  cyclePawlotsky  cycle
Pawlotsky cycleodeckmyn
 
Prévalence des infections à Plasmodium : apport des nouvelles méthodes de dét...
Prévalence des infections à Plasmodium : apport des nouvelles méthodes de dét...Prévalence des infections à Plasmodium : apport des nouvelles méthodes de dét...
Prévalence des infections à Plasmodium : apport des nouvelles méthodes de dét...Institut Pasteur de Madagascar
 
Dégager les faits marquants de la bio-écologie des anophèles pour la transmis...
Dégager les faits marquants de la bio-écologie des anophèles pour la transmis...Dégager les faits marquants de la bio-écologie des anophèles pour la transmis...
Dégager les faits marquants de la bio-écologie des anophèles pour la transmis...Institut Pasteur de Madagascar
 
phage for detection of viable Salmonella typhimurium
 phage for detection of viable Salmonella typhimurium phage for detection of viable Salmonella typhimurium
phage for detection of viable Salmonella typhimuriumLiliane Majed
 
Esposé de Elisée le Jeune Informaticien sur La Transgénèse.pdf
Esposé de Elisée le Jeune Informaticien sur La Transgénèse.pdfEsposé de Elisée le Jeune Informaticien sur La Transgénèse.pdf
Esposé de Elisée le Jeune Informaticien sur La Transgénèse.pdfElisée Samuel SOHOUNGBLE
 
Chevaliez Hcv Virus Et Marqueurs
Chevaliez Hcv  Virus Et MarqueursChevaliez Hcv  Virus Et Marqueurs
Chevaliez Hcv Virus Et Marqueursodeckmyn
 
Bio16S :Une Interface Web d’analyse du géne ARNr 16S Breakthrough Session (Hi...
Bio16S :Une Interface Web d’analyse du géne ARNr 16S Breakthrough Session (Hi...Bio16S :Une Interface Web d’analyse du géne ARNr 16S Breakthrough Session (Hi...
Bio16S :Une Interface Web d’analyse du géne ARNr 16S Breakthrough Session (Hi...Pasteur_Tunis
 
Détection des allèles polymorphiques ou des allèles d'antigène variant par PCR
Détection des allèles polymorphiques ou des allèles d'antigène variant par PCRDétection des allèles polymorphiques ou des allèles d'antigène variant par PCR
Détection des allèles polymorphiques ou des allèles d'antigène variant par PCRInstitut Pasteur de Madagascar
 
Amélioration des Plantes par les Biotechnologies.pdf
Amélioration des Plantes par les Biotechnologies.pdfAmélioration des Plantes par les Biotechnologies.pdf
Amélioration des Plantes par les Biotechnologies.pdfMOHAMED SLIM
 

Tendances (20)

Séquence complète du génome de Plasmodium falciparum: intérêts pour les cherc...
Séquence complète du génome de Plasmodium falciparum: intérêts pour les cherc...Séquence complète du génome de Plasmodium falciparum: intérêts pour les cherc...
Séquence complète du génome de Plasmodium falciparum: intérêts pour les cherc...
 
Caractéristiques biologiques de Mycoplasma meleagridiset Mycoplasma gallinaru...
Caractéristiques biologiques de Mycoplasma meleagridiset Mycoplasma gallinaru...Caractéristiques biologiques de Mycoplasma meleagridiset Mycoplasma gallinaru...
Caractéristiques biologiques de Mycoplasma meleagridiset Mycoplasma gallinaru...
 
Le séquençage de l'ADN et ses applications
Le séquençage de l'ADN et ses applicationsLe séquençage de l'ADN et ses applications
Le séquençage de l'ADN et ses applications
 
Outil moléculaire global pour déterminer l’origine géographique des aliments ...
Outil moléculaire global pour déterminer l’origine géographique des aliments ...Outil moléculaire global pour déterminer l’origine géographique des aliments ...
Outil moléculaire global pour déterminer l’origine géographique des aliments ...
 
tous sur les anticorps monoclonaux
tous sur les anticorps monoclonauxtous sur les anticorps monoclonaux
tous sur les anticorps monoclonaux
 
Chevaliez du hépatites 2015
Chevaliez  du hépatites 2015Chevaliez  du hépatites 2015
Chevaliez du hépatites 2015
 
Hépatite C Virus et marqueurs.pdf
Hépatite C  Virus et marqueurs.pdfHépatite C  Virus et marqueurs.pdf
Hépatite C Virus et marqueurs.pdf
 
Pawlotsky cycle
Pawlotsky  cyclePawlotsky  cycle
Pawlotsky cycle
 
Acs polyclonaux et monoclonaux master 2014
Acs polyclonaux et monoclonaux master 2014Acs polyclonaux et monoclonaux master 2014
Acs polyclonaux et monoclonaux master 2014
 
Prévalence des infections à Plasmodium : apport des nouvelles méthodes de dét...
Prévalence des infections à Plasmodium : apport des nouvelles méthodes de dét...Prévalence des infections à Plasmodium : apport des nouvelles méthodes de dét...
Prévalence des infections à Plasmodium : apport des nouvelles méthodes de dét...
 
Quorom sensing
Quorom sensingQuorom sensing
Quorom sensing
 
Dégager les faits marquants de la bio-écologie des anophèles pour la transmis...
Dégager les faits marquants de la bio-écologie des anophèles pour la transmis...Dégager les faits marquants de la bio-écologie des anophèles pour la transmis...
Dégager les faits marquants de la bio-écologie des anophèles pour la transmis...
 
phage for detection of viable Salmonella typhimurium
 phage for detection of viable Salmonella typhimurium phage for detection of viable Salmonella typhimurium
phage for detection of viable Salmonella typhimurium
 
Esposé samuel sur la transgénèse.pdf
Esposé samuel sur la transgénèse.pdfEsposé samuel sur la transgénèse.pdf
Esposé samuel sur la transgénèse.pdf
 
Esposé de Elisée le Jeune Informaticien sur La Transgénèse.pdf
Esposé de Elisée le Jeune Informaticien sur La Transgénèse.pdfEsposé de Elisée le Jeune Informaticien sur La Transgénèse.pdf
Esposé de Elisée le Jeune Informaticien sur La Transgénèse.pdf
 
Chevaliez Hcv Virus Et Marqueurs
Chevaliez Hcv  Virus Et MarqueursChevaliez Hcv  Virus Et Marqueurs
Chevaliez Hcv Virus Et Marqueurs
 
Bio16S :Une Interface Web d’analyse du géne ARNr 16S Breakthrough Session (Hi...
Bio16S :Une Interface Web d’analyse du géne ARNr 16S Breakthrough Session (Hi...Bio16S :Une Interface Web d’analyse du géne ARNr 16S Breakthrough Session (Hi...
Bio16S :Une Interface Web d’analyse du géne ARNr 16S Breakthrough Session (Hi...
 
Détection des allèles polymorphiques ou des allèles d'antigène variant par PCR
Détection des allèles polymorphiques ou des allèles d'antigène variant par PCRDétection des allèles polymorphiques ou des allèles d'antigène variant par PCR
Détection des allèles polymorphiques ou des allèles d'antigène variant par PCR
 
Amélioration des Plantes par les Biotechnologies.pdf
Amélioration des Plantes par les Biotechnologies.pdfAmélioration des Plantes par les Biotechnologies.pdf
Amélioration des Plantes par les Biotechnologies.pdf
 
Pourquoi s’intéresser à la salive des insectes?
Pourquoi s’intéresser à la salive des insectes?Pourquoi s’intéresser à la salive des insectes?
Pourquoi s’intéresser à la salive des insectes?
 

Similaire à Ontologies et fouille de données textuelles pour l'analyse et la découverte de connaissances

Génomique généralités jd
Génomique généralités jdGénomique généralités jd
Génomique généralités jdjudec12
 
Des bio-puces pour la mesure des contaminations microbiennes. Outils de mesur...
Des bio-puces pour la mesure des contaminations microbiennes. Outils de mesur...Des bio-puces pour la mesure des contaminations microbiennes. Outils de mesur...
Des bio-puces pour la mesure des contaminations microbiennes. Outils de mesur...Pôle Qualiméditerranée
 
Présentation du projet de l'irstea sur l'annotation des bulletins d'alerte ag...
Présentation du projet de l'irstea sur l'annotation des bulletins d'alerte ag...Présentation du projet de l'irstea sur l'annotation des bulletins d'alerte ag...
Présentation du projet de l'irstea sur l'annotation des bulletins d'alerte ag...catherine roussey
 
Cours1-Totipotence_chez_le_vegetal2011-2012.ppt
Cours1-Totipotence_chez_le_vegetal2011-2012.pptCours1-Totipotence_chez_le_vegetal2011-2012.ppt
Cours1-Totipotence_chez_le_vegetal2011-2012.pptMounirSaggai1
 
Cours1-Totipotence_chez_le_vegetal2011-2012.ppt
Cours1-Totipotence_chez_le_vegetal2011-2012.pptCours1-Totipotence_chez_le_vegetal2011-2012.ppt
Cours1-Totipotence_chez_le_vegetal2011-2012.pptMounirSaggai1
 
La biologie à l'ère du big data
La biologie à l'ère du big dataLa biologie à l'ère du big data
La biologie à l'ère du big datatuxette
 
Enrichissement automatique d’une base de connaissances biologiques à l’aide d...
Enrichissement automatique d’une base de connaissances biologiques à l’aide d...Enrichissement automatique d’une base de connaissances biologiques à l’aide d...
Enrichissement automatique d’une base de connaissances biologiques à l’aide d...Conférence IC 2009
 
Introduction to the cours of bioinformatics
Introduction to the cours of bioinformaticsIntroduction to the cours of bioinformatics
Introduction to the cours of bioinformaticsKarim Mezhoud
 
Incidental findings throughout multigene panel testing in cancer genetics
Incidental findings throughout multigene panel testing in cancer geneticsIncidental findings throughout multigene panel testing in cancer genetics
Incidental findings throughout multigene panel testing in cancer geneticsPasteur_Tunis
 
Avis des éleveurs et conseillers sur de nouveaux outils pour la gestion de la...
Avis des éleveurs et conseillers sur de nouveaux outils pour la gestion de la...Avis des éleveurs et conseillers sur de nouveaux outils pour la gestion de la...
Avis des éleveurs et conseillers sur de nouveaux outils pour la gestion de la...Institut de l'Elevage - Idele
 
Conference OGM Mounier
Conference OGM MounierConference OGM Mounier
Conference OGM Mouniervguili
 
Conférence sur l'ADNe : présentation de l'expérience d'ARGALY
Conférence sur l'ADNe : présentation de l'expérience d'ARGALYConférence sur l'ADNe : présentation de l'expérience d'ARGALY
Conférence sur l'ADNe : présentation de l'expérience d'ARGALYBruno Rakedjian
 
Le séquençage haut débit: NGS, une révolution de la biologie moléculaire au s...
Le séquençage haut débit: NGS, une révolution de la biologie moléculaire au s...Le séquençage haut débit: NGS, une révolution de la biologie moléculaire au s...
Le séquençage haut débit: NGS, une révolution de la biologie moléculaire au s...Pasteur_Tunis
 
Entomologie moléculaire et étude de la structuration génétique des anophèles
Entomologie moléculaire et étude de la structuration génétique des anophèlesEntomologie moléculaire et étude de la structuration génétique des anophèles
Entomologie moléculaire et étude de la structuration génétique des anophèlesInstitut Pasteur de Madagascar
 
Veille stratégique : Le référentiel terminologique "Maladies animales"
Veille stratégique : Le référentiel  terminologique "Maladies animales"Veille stratégique : Le référentiel  terminologique "Maladies animales"
Veille stratégique : Le référentiel terminologique "Maladies animales"M-Colette Fauré
 
Séance 06, Introduction à la publication des données d'échantillonnage dans l...
Séance 06, Introduction à la publication des données d'échantillonnage dans l...Séance 06, Introduction à la publication des données d'échantillonnage dans l...
Séance 06, Introduction à la publication des données d'échantillonnage dans l...Alberto González-Talaván
 

Similaire à Ontologies et fouille de données textuelles pour l'analyse et la découverte de connaissances (20)

Génomique généralités jd
Génomique généralités jdGénomique généralités jd
Génomique généralités jd
 
Des bio-puces pour la mesure des contaminations microbiennes. Outils de mesur...
Des bio-puces pour la mesure des contaminations microbiennes. Outils de mesur...Des bio-puces pour la mesure des contaminations microbiennes. Outils de mesur...
Des bio-puces pour la mesure des contaminations microbiennes. Outils de mesur...
 
Présentation du projet de l'irstea sur l'annotation des bulletins d'alerte ag...
Présentation du projet de l'irstea sur l'annotation des bulletins d'alerte ag...Présentation du projet de l'irstea sur l'annotation des bulletins d'alerte ag...
Présentation du projet de l'irstea sur l'annotation des bulletins d'alerte ag...
 
Cours1-Totipotence_chez_le_vegetal2011-2012.ppt
Cours1-Totipotence_chez_le_vegetal2011-2012.pptCours1-Totipotence_chez_le_vegetal2011-2012.ppt
Cours1-Totipotence_chez_le_vegetal2011-2012.ppt
 
Cours1-Totipotence_chez_le_vegetal2011-2012.ppt
Cours1-Totipotence_chez_le_vegetal2011-2012.pptCours1-Totipotence_chez_le_vegetal2011-2012.ppt
Cours1-Totipotence_chez_le_vegetal2011-2012.ppt
 
La biologie à l'ère du big data
La biologie à l'ère du big dataLa biologie à l'ère du big data
La biologie à l'ère du big data
 
Enrichissement automatique d’une base de connaissances biologiques à l’aide d...
Enrichissement automatique d’une base de connaissances biologiques à l’aide d...Enrichissement automatique d’une base de connaissances biologiques à l’aide d...
Enrichissement automatique d’une base de connaissances biologiques à l’aide d...
 
2963 duval phenotypage
2963 duval phenotypage2963 duval phenotypage
2963 duval phenotypage
 
Introduction to the cours of bioinformatics
Introduction to the cours of bioinformaticsIntroduction to the cours of bioinformatics
Introduction to the cours of bioinformatics
 
Incidental findings throughout multigene panel testing in cancer genetics
Incidental findings throughout multigene panel testing in cancer geneticsIncidental findings throughout multigene panel testing in cancer genetics
Incidental findings throughout multigene panel testing in cancer genetics
 
Avis des éleveurs et conseillers sur de nouveaux outils pour la gestion de la...
Avis des éleveurs et conseillers sur de nouveaux outils pour la gestion de la...Avis des éleveurs et conseillers sur de nouveaux outils pour la gestion de la...
Avis des éleveurs et conseillers sur de nouveaux outils pour la gestion de la...
 
Conference OGM Mounier
Conference OGM MounierConference OGM Mounier
Conference OGM Mounier
 
Conférence sur l'ADNe : présentation de l'expérience d'ARGALY
Conférence sur l'ADNe : présentation de l'expérience d'ARGALYConférence sur l'ADNe : présentation de l'expérience d'ARGALY
Conférence sur l'ADNe : présentation de l'expérience d'ARGALY
 
Le séquençage haut débit: NGS, une révolution de la biologie moléculaire au s...
Le séquençage haut débit: NGS, une révolution de la biologie moléculaire au s...Le séquençage haut débit: NGS, une révolution de la biologie moléculaire au s...
Le séquençage haut débit: NGS, une révolution de la biologie moléculaire au s...
 
Cahier PAI 2003 : special biotechnologie
Cahier PAI 2003 : special biotechnologieCahier PAI 2003 : special biotechnologie
Cahier PAI 2003 : special biotechnologie
 
Entomologie moléculaire et étude de la structuration génétique des anophèles
Entomologie moléculaire et étude de la structuration génétique des anophèlesEntomologie moléculaire et étude de la structuration génétique des anophèles
Entomologie moléculaire et étude de la structuration génétique des anophèles
 
Veille stratégique : Le référentiel terminologique "Maladies animales"
Veille stratégique : Le référentiel  terminologique "Maladies animales"Veille stratégique : Le référentiel  terminologique "Maladies animales"
Veille stratégique : Le référentiel terminologique "Maladies animales"
 
Séance 06, Introduction à la publication des données d'échantillonnage dans l...
Séance 06, Introduction à la publication des données d'échantillonnage dans l...Séance 06, Introduction à la publication des données d'échantillonnage dans l...
Séance 06, Introduction à la publication des données d'échantillonnage dans l...
 
UMTeBIS_conf - 20221013 - 2_Genomes.pptx
UMTeBIS_conf - 20221013 - 2_Genomes.pptxUMTeBIS_conf - 20221013 - 2_Genomes.pptx
UMTeBIS_conf - 20221013 - 2_Genomes.pptx
 
3 pathogenie bacterienne
3  pathogenie  bacterienne3  pathogenie  bacterienne
3 pathogenie bacterienne
 

Ontologies et fouille de données textuelles pour l'analyse et la découverte de connaissances

  • 1. 1               25 janvier 2018, assises AlimHClaire Nédellec, équipe Bibliome (MaIAGE) copyright Inra 2017 Ontologies et fouille de données textuelles pour l'analyse et la découverte de connaissances
  • 2. 2 Cycle  de  découverte  scientifique                             Enjeux  de  réutilisation/mutualisation  des  traitements  et  des  données     A  toute  étape,  des  données,  des  informations  et  des  connaissances  utiles  à  réutiliser   Les  textes,  des  sources  sous-­‐exploitées.   Expérimentation   Analyse,   interprétation   Modélisation   Prédiction,   hypothèses  
  • 3. 3                coding gene additional annotation tagged mutant GST probes repeat element protein motifAffymetrix probesMPSS tag RNA gene curated annotation gene family/GO FLAGdb++ WEB LINKS TO… GENBANK, PDB, PFAM, MIPS, TAIR, ARAMEMNON, SWISSPROT, GENEVESTIGATOR, RAP-DB, eFP-BROWSER, CATdb, GENEFARM, KOG, ARABIDOPSIS-TF, JGI, INTERPRO, GENOSCOPE, ATOMEdb… Arabidopsis thaliana Oryza sativa Vitis viniferaPopulus trichocarpa Exemple  d'analyse  fonctionnelle  de  gène     http://tools.ips2.u-­‐psud.fr/projects/FLAGdb++/HTML/NewCPG/index.shtml   Semantic  search   genome  browser   http://bibliome.jouy.inra.fr/demo/seedev/alvisir/webapi/search   FlagDB++,  biologie  de   l'arabette  
  • 4. 4 Sources  d'information  multiples    Partiellement  redondantes  et  complémentaires,  à  différentes  échelles  et  niveaux  d'abstraction   DSMZ  BacDive   catalogue   international   de   ressources  bactériennes   Pubmed     Exemple   en   biodiversité   bactérienne   :   où   la   souche   Ornithunimicrobium   kibberense   DSM  17687  a-­‐t'elle  été  trouvée  ?   soil     BacDive     cold  desert     littérature   Non  comparables  sans  une  classification  de  référence  et  du  "text-­‐mining"    
  • 5. 5     Modèle de connaissances du texte Modèle de données Modèle pivot Texte Données Image Caractériser  les  sources  de  connaissance     Définir  les  correspondances  avec  le  modèle  pivot   Identifier  les  redondances  et  les  complémentarités     Clef  de  la  réutilisation  :  partager  une  même   représentation  sémantique  formelle   SUCC FUM Glutamate synthesis Arginine catabolism MAL AKG CIT OAA ACCOA ICIT SUCCOA ACP AC PTS AND AckA + AND Pta AND AND AND CitC CitZ Mdh AND AND CitB + + + CcpC on - - AND SucCD OdhAB AND ++ AND SdhABC AND + + AND CitG + MalS AND AND YtsJ + + + + + NADH ATP NADPH NADH ATP + NADH + PYR CodY on AbrB on TnrA on - + NADPH - OR AND + PdhD PdhABC PycA ATP +- + + + + AND PykA NADH ATP PYR OAA MAL YwkA MAL MalK on + NOT MalK off + + AND NADH + OR PYR MaeN NOT + SUCC/FUM DctS off DctS on AND SUCC FUM AND + + NOT +AND CitT offCitT on CIT CIT ATP DctP CitM AcsA AND AC ATP ACCOA CodY on - Modèle dynamique aannaaeerroobbiicc nniittrraattee rreessppiirraattiioonn anaerobic respiration aerobic culture condition absence of anaerobic induction anaerobic growth conditionabsence of induction aerobic conditionanaerobic conditioninduction growth condition
  • 6. 6 Le  texte  comme  une  donnée  ?       Les  sources  textuelles  sont  multiples,  nombreuses  et  très  sous-­‐exploitées   Elles  posent  des  problèmes  spécifiques  d'accès,  d'analyse  et  d'interprétation,       traités   par   les   méthodes   automatiques   d'extraction   et   de   formalisation   d'information,  text-­‐mining           Un  exemple  concret   • biodiversité  microbienne    
  • 7. 7 Microorganismes,  alimentation  et  littérature  scientifique   Des  milliards  de  microorganismes  partout,  largement  inconnus.     Jouent  un  rôle  critique  dans  la  transformation  et  la  qualité  des  aliments  et  leur  effet  sur  la  santé.   Etudier  leurs  écosystèmes  et  leur  génétique  pour  mieux  les  comprendre,  les  contrôler,  et  les  utiliser.         Croissance  exponentielle   de  l'information   génétique   source  :  JGI   Nombre  d'articles  traitant  de   "bacteria"  dans  PubMed   http://cm1douzant.blogspot.fr/2014/11/conte-­‐des-­‐droits-­‐des-­‐enfants-­‐2.html   Pixabay   C  Inra   ...  et  de  publications   Nombre  de  séquences  de   génomes  complets  au  JGI   Ecosystèmes,  habitats,   propriétés  décrits  dans  des   millions  de  documents  
  • 8. 8 Quels  microbes  dans  mon  fromage  ?     10/02/2017 15:42 Microorganismes   ajoutés   Microorganismes   de  l'environnement   Sélection  par  les   conditions   Sélection  par  le   procédé   pH   eau  "disponible"   pression  osmotique   température   pasteurisation   salage   cuisson   lavage   levains       Microbiote  du   fromage   bactéries  lactiques     bactéries  résistantes  au  sel     Gammaproteobacteria     Actinobacteria     moisissures   Staphylococci   Actinobacteria     moisissures   Humain   Animal   Lait   Eau   Air   Saumure   Etagère   Instruments   Cave   Caillé   C InraDes  approches     à  haut  débit  :     métagénomique  et   "fouille  de  texte"       Irlinger  et  al.,  FEMS  Microbiol  Lett  (2015)  362  (2).    
  • 9. 9 Identification  des  microorganisms  par  leur  ADN     Fragments  d'ADN   fragments  d'ADN   Copyright Teach the Microbiome     Génétique   Confirme   Interprète   Explique   Fouille  de   textes   souches  identifiées   ? Alignement  avec  des  génomes  de  références  connus     Pixabay   séquences  d'ADN  de   microorganismes  du   fromage        
  • 10. 10                       projet  Inra  -­‐  Cniel     FoodMicrobiome     300  très  fréquentes   et  bien  connues       100  peu  connues  et   de  présence   variable       Copyright  ©  INRA   Analyse  métagenomique  de  centaines  de   d'échantillons  de  fromages  français  et  italiens       Identifier  les  microorganismes  pour  comprendre  et   contrôler  leur  présence,   Améliorer  la  qualité  des  aliments  et  en  concevoir  de   nouveaux     ER15_174_BHI7                                                                                                               gorgonzola,  roquefort,  époisse,  toscanello,  st  nectaire  (très  fréquent),  tomme,  bleu   échantillons  de  fromage   souches   Parmi  400  souches  
  • 11. 11 L'explication  de  la  présence  de  Psychrobacter  par  la  "fouille  de  textes"       Psychrobacter   aquimaris   Marine   environment   L'application   OntoBiotope   a   analysé   toute   la   base   bibliographique  PubMed     - 2,3  millions  de  documents   - 8,3  microorganismes   - 18,5  millions  d'habitats  assignés  à  2000  classes   - 7,4  millions  relations   Psychrobacter  aquimaris  vient  de   l'environnement  marin      Le  chercheur  comprend  :     le  sel  ajouté  apporte  la  bactérie   dans  le  fromage    
  • 12. 12     Florilège   Base  de   données  de   Centre  de   Ressources   biologiques   Base  de   données   Génétiques   Base  de   données  de   Biodiversité   Littérature   données   numériques   données   normalisées   données   textuelles   Genbank   SRA   GBIF   PubMed   Central   OpenAire   Editeurs   CIRM   DSMZ   Florilège,  un  système   d'information  intégré   sur  la  flore  positive  des   aliments   Metaprogramme  MEM   H2020  OpenMinTeD  
  • 13. 13 Interface  utilisateur  de  Florilège,     informations  sur  les  taxa,  habitats,  phénotypes,  usages         URL : http://genome.jouy.inra.fr/FlorilegeDemo FLORILEGE Service  sur  MIGale,   plateforme  de   l'Institut  français   de  bioinformatique  
  • 14. 14 Copyright Inra Alvis pipeline - Florilège database Point  clef  :  identifier  et  associer  automatiquement     des  termes  variés  des  textes  à  une  classification         PubMed DOCUMENT TAXON HABITAT HABITAT TERM PMID: 21549046, 21247298, 16204502, 15992268, 2116711, 2116712, 15992260, 1348242, 11530195, 23042180, 23208291, 10458115, 11456331, 21669068, 17954748, 8867607, 23433372, 26325149, 8977904, 23880504, 8227616, 16156701, 15553633, 20494189, 24715203, 21441322, 19114514, 2125110, 19254151, 22980010 Listeria monocytogenes , dairy farm Dairy farm, dairy farm environments, dairy farms, dairy farm environmental samples, environment of dairy farms, potential dairy farm, Dairy farm environmental samples, single dairy farm, Irish dairy farms, high-prevalence dairy farm, dairy farm environment, dairy farms of different size, local dairy farm, second Northwest dairy farm, dairy cattle farms, selected dairy farms, dairy farm, Dairy farms     Term  variation   10,000  habitats  of  Listeria  monocytogenes  in  PubMed   Classe de référence
  • 15. 15 Une  classification  avec  une  structure  hiérarchique                       Des  catégories  d'habitat    de   différents  niveaux  nécessaires   pour  rechercher  des   corrélations  et  synthétiser     10,000  habitats  de  Listeria  monocytogenes  dans  PubMed   Alvis IR semantic search engine Extraits d'articles scientifiques scienScientific Classes d'habitat classes Listeria  monocytogenes  contamination  in  Chinese  beef  processing  plants. Listeria  monocytogenes  isolated  from  artisanal  Portuguese  cheses-­‐making    dairy. the  presence  of L.  monocytogenes  in  samples  collected  from  crab  processing  plant   Portuguese  cheses-­‐making    dairy. L.  monocytogenes  persisting  in  a    cold-­‐smoked  fish  processing  plant. two L.  monocytogenes    cheese  dairy  isolates
  • 16. 16 Extrait  de  l'ontologie   OntoBiotope.    Le  concept  "milk  product"       De  la  classification  à   l'ontologie  :   • conceptualisée   • formalisée   • partagée    
  • 17. 17   http://bibliome.jouy.inra.fr/demo/ontobiotope/alvisir2/webapi/search     Une  requête  sur  la   catégorie  "milk  product"  
  • 18. 18 Comment  ça  marche  ...       Bases  bibliographiques     Ressources  sémantiques   Ontologies   Information   extraction   Données   et   métadonnées   des  textes   Services   Préparation  /   mise  à  jour  du   corpus   Reconnaissance   des  entités   Normalisation   des  entités   Extraction  des   relations   Extraction  d'information   Bases  de  données  
  • 19. 19   Extraction  d'information  (EI)   Entité   Unité  sémantique  du  texte   Normalisée  :  associée  à  une  catégorie  d'une  classification  (plus  généralement  d'une  ontologie)     Relation  ou  événement   Associe  des  unités  sémantiques,  est  en  général  orientée,  à  deux  arguments  ou  plus           Clostridium perfringens …has been isolated from child intestine   L'extraction  d'information  utilise  des  méthodes  de  traitement  automatique  de  la  langue  naturelle  et   d'apprentissage  automatique.     Clostridium   Organ  Human     Lives  in  
  • 20. 20 Comment  associer  le  texte  à  une  catégorie,  la  méthode  ToMap   Basé  sur  la  similarité  entre  les  termes  du  texte  et  noms  des  catégories   Prise  compte  de  la  structure  et  de  la  variation  morpho-­‐syntaxique         Methylobacterium   dichloromethanicum   DM4   whose   genome   has   now   been   sequenced   was   isolated   from  soil  from  a  treatment  plant  for  halogenated  hydrocarbon  waste            [[treatment  [plant]]  [for  [halogenated  [hydrocarbon]]  waste]]   ≈   [waste  [treatment  [plant]]         power  [plant],  chemical  [plant]  ou   [[thermal  [power]]  [plant]     La  catégorie  retenue  est  celle  qui  partage  le  prédicat  (plant)  et  le  plus  de  sous-­‐termes  (treatment  plant   et  waste).  En  cas  d'emboitement,  prendre  la  plus  spécifique.   Une  méthode  indépendante  du  domaine.   Texte   Terme  du  texte   Catégorie  correcte   Catégories  incorrectes  
  • 21. 21 Du  labo  de  recherche  à  l'infrastructure,     l'exemple  de  OpenMinTeD                   OpenMinTed,  un  projet   pour  une  infrastructure   européenne  de  text-­‐ mining  infrastructure     Offre  aux  communautés   scientifiques   • Un  accès  ouvert  dans   un  cadre  unifié     • Reproductibilité  et   flexibilité.     • Collecte  des  articles  et   ressources,  agrégation   et  standardisation   Les  3  applications   présentées  y  sont   déployées  
  • 22. 22 Rationalisation  des  développements  d'applications     Constat   • Paysage  fragmenté   • De  très  nombreuses  applications  très  spécialisées,  mais  inutilisable  "hors  sol"   • Des  quantités  de  composants  disponibles   • Passer  des  composants  à  l'application  a  souvent  un  coût  prohibitif  par  rapport  à  la  valeur   ajoutée       Pour  plus  de  services  en  TDM,  plus  d'ingénierie  avancée,  plus  de  R  &  D   • Industrialiser  les  composants  de  TDM  pour  les  réutiliser  hors  des  labos   • Développer   les   infrastructures   et   les   connecter   (TDM,   bibliographie,   ontologies,   infrastructures  métiers)     • Rendre  les  développeurs  d'application  autonome   • Nouveaux   métiers,   nouvelles   compétences   :   développeurs   informatiques   spécialisés,   concepteurs  d'applications,  ingénieurs  de  la  connaissance,  ...   • OpenMinTed,  un  exemple  à  suivre  et  à  étendre.      
  • 23. 23   Conclusion         • La  réutilisation  des  données  requiert  une  représentation  informatique  commune,  avec  une   sémantique  unique  (ontologie)     • De  nombreuses  informations  ne  sont  disponibles  que  sous  forme  textuelle.  Leur  extraction   et  leur    modélisation  est  réalisable  par  un  outillage  spécifique  de  "text-­‐mining".     • Les   méthodes   de   text-­‐mining   sont   intégrables   avec   d'autres   outils   d'analyse   et   de   modélisation       • Permettant  la  réutilisation  à  grande  échelle  des  connaissances  déjà  publiées