Enrichissement automatique d’une
         base de connaissances biologiques à
         l’aide des outils du Web sémantique...
Contexte 1

 Maîtrise des techniques de
séquençage du génome

 Explosion des données et des
connaissances
La littérature...
Projet Microbio

   Programme STIC-AMSUD

   Collaboration avec l’Institut Pasteur de Montevideo
    (Uruguay)

   Rech...
Problématique Microbio
    Phases du projet Microbio :

    1.   Construire une ontologie de domaine sur les
         miA...
Construction manuelle d’une
           ontologie de domaine
   A partir de :
     la littérature scientifique bio-médica...
Ontologie Microbio

                       Extension de la
                         « Sequence
                       Onto...
Validation de l’ontologie miARN

    En cours par les biologistes de l’IP

    Travail également en cours :
       créa...
Matériel pour l’extraction de
                      connaissances
       Pubmed: portail de Medline1
      Règles

     ...
Matériel pour l’extraction de
             connaissances
   Terminologies utilisées pour construire les
    dictionnaires
Corpus collecté
   Requête:
SNPs [MH] AND miRNAs [MH] AND human [MH]


   Résultat: 35 articles dont 21 disponibles en
 ...
Méthode d’extraction
   Patrons de tri/quadri-occurrence:
Evaluation de la tâche de
           Peuplement de l’ontologie
   Résultats de l’extraction de connaissances sur
    les ...
Discussion sur l’évaluation
   Rappel relativement bas: pas de prise en
    compte des variantes morphologiques des
    m...
Mise en place du processus de
       peuplement de l’ontologie
   Utilisation de l’infrastructure offerte par le CA Manag...
Conclusion et travaux futurs
   Améliorer la performance de l’outil d’extraction et continuer
    le développement de sa ...
Prochain SlideShare
Chargement dans…5
×

Enrichissement automatique d’une base de connaissances biologiques à l’aide des outils du Web sémantique

1 530 vues

Publié le

Présentation d'Ines Jilani et Florence Amardeilh à IC 2009.

Publié dans : Technologie
0 commentaire
0 j’aime
Statistiques
Remarques
  • Soyez le premier à commenter

  • Soyez le premier à aimer ceci

Aucun téléchargement
Vues
Nombre de vues
1 530
Sur SlideShare
0
Issues des intégrations
0
Intégrations
13
Actions
Partages
0
Téléchargements
27
Commentaires
0
J’aime
0
Intégrations 0
Aucune incorporation

Aucune remarque pour cette diapositive

Enrichissement automatique d’une base de connaissances biologiques à l’aide des outils du Web sémantique

  1. 1. Enrichissement automatique d’une base de connaissances biologiques à l’aide des outils du Web sémantique IC Inès Jilani (SPIM) 2009 Florence Amardeilh(MoDyCo) Projet STIC-AMSUD Microbio
  2. 2. Contexte 1  Maîtrise des techniques de séquençage du génome  Explosion des données et des connaissances La littérature est la source de données et de connaissances la plus importante. Le travail des annotateurs est assuré manuellement.  Besoin d’outils automatiques
  3. 3. Projet Microbio  Programme STIC-AMSUD  Collaboration avec l’Institut Pasteur de Montevideo (Uruguay)  Recherche de connaissances sur les miARN: ARN simple-brin (21 à 24 nucléotides) qui s'apparient à des ARN messagers, ils guident leur dégradation, ou la répression de leur traduction en protéine, entraînant l’apparition ou au contraire l'inhibition de maladies
  4. 4. Problématique Microbio  Phases du projet Microbio : 1. Construire une ontologie de domaine sur les miARNs 1. Identifier et extraire les mutations et les régulations impliquant des miARNs  Identifier l’information modale pour enrichir la connaissance extraite des textes bio-médicaux  Fournir aux biologistes des interfaces pour explotier la basede connaissance ainsi générée
  5. 5. Construction manuelle d’une ontologie de domaine  A partir de :  la littérature scientifique bio-médicale  Les bases de données existantes sur les gènes, les maladies, les miARN, les mutations, etc.  Les modélisation de terminologies ou d’ontologies existantes se rapprochant du sujet de notre étude (Gene Ontology, Sequence Ontologgy, …)  Entretiens avec les biologistes de l’IP¨Uruguay  Modélisation d’une ontologie au sujet des régulations et des mutations entre miARN et mARN
  6. 6. Ontologie Microbio Extension de la « Sequence Ontology » pour prendre en compte les spécificités des miARN
  7. 7. Validation de l’ontologie miARN  En cours par les biologistes de l’IP  Travail également en cours :  création semi-automatique d’une ontologie des miARNs à partir des corpus issus de MedLine  Comparaison des deux ontologies pour leur validation et enrichissement potentiel
  8. 8. Matériel pour l’extraction de connaissances  Pubmed: portail de Medline1  Règles surlignées par l’expert biologiste 1 www.ncbi.nlm.nih.gov/entrez/
  9. 9. Matériel pour l’extraction de connaissances  Terminologies utilisées pour construire les dictionnaires
  10. 10. Corpus collecté  Requête: SNPs [MH] AND miRNAs [MH] AND human [MH]  Résultat: 35 articles dont 21 disponibles en entier (533 853 tokens pour une taille de 2,2 Mo)
  11. 11. Méthode d’extraction  Patrons de tri/quadri-occurrence:
  12. 12. Evaluation de la tâche de Peuplement de l’ontologie  Résultats de l’extraction de connaissances sur les miARN:  35 annotations différentes extraites automatiquement  Evaluation: 30 annotations étaient à retrouver (annotations réalisées manuellement par l’expert biologiste)  Précision = 25/35 = 0,72  Rappel = 15/30 = 0,50
  13. 13. Discussion sur l’évaluation  Rappel relativement bas: pas de prise en compte des variantes morphologiques des maladies par exemple.  L’outil ne détecte pas une phrase qui contient « lung cancers » car notre dictionnaire n’inclut que les formes au singulier « lung cancer ».  Le chiffre de la précision souffre de la synonymie des noms de gènes avec les noms propres, ou des acronymes utilisés pour référencer des techniques en biologie.
  14. 14. Mise en place du processus de peuplement de l’ontologie  Utilisation de l’infrastructure offerte par le CA Manager  Outil d’extraction d’information « miR Discovery » exploitant les patrons présentés  Référentiel sémantique : Sesame  Définition des règles d’acquisition de connaissance pour exprimer le passage des informations extraites en instances de connaissances  Définition des algorithmes de consolidation pour fsiltrer et améliorer les résultats obtenus par l’extraction
  15. 15. Conclusion et travaux futurs  Améliorer la performance de l’outil d’extraction et continuer le développement de sa couverture  Achever les connecteurs au serveur de connaissance Sesame (via le CA Manager) et ajouter l’enrichissement automatique à partir d’autres sources de données accessibbles par web services  Fournir des informations de confiance aux biologistes concernant les nouvelles instances créées dans la base de connaissance (information sur les relations identifiées entre les entités, preuves de l’expérimentation, etc.) grâce à l’information modale pouvant être identifiée dans les textes analysés

×