Du texte à la connaissance :
     annotation sémantique
   et peuplement d'ontologie
appliqués à des artefacts logiciels

...
Contexte
     Projet européen IST-TAO (2006-2009)

       Transitioning Applications to Ontologies
       www.tao-proje...
Bridging the gap

       Contenu
    hétérogène non
       structuré




       Contenu structuré
              +
    Conn...
Processus
                                              Structured
                                             informatio...
Content Augmentation Manager (CA Manager)

      Definition du processus en trois étapes principales :
        Extractio...
Architecture choisie
     Choix de UIMA comme épine dorsale du CA-Manager.
       framework open-source IBM
       Avan...
Quels types de données voulons-nous?




                         Title : « brave new world »
                         Dat...
CA Manager pipeline


      1. Extraction                2. Consolidation                    3. Stockage
      d’Informati...
Cas d’usage : annoter les artefacts logiciels

    Key Concept Identification Tool (KCIT) for
      automatic content augm...
Challenges raised by software artefacts


     Customisation of generic Tokeniser for
      processing software artefacts...
Extract : Onto Root Gazetteer




11
Validation des résultats




12
KCIT évaluation: corpus

 Sélection de 20 documents servant de corpus
   représentatif concernant les artefacts logiciels ...
KCIT évaluation: resultats




14
CA Manager évaluation : résultats
      Evaluation de la flexibilité et du passage à l’échelle de
       l’infrastructure...
Conclusion
      Avantages de cette infrastructure :
         Spécialisation d’un workflow UIMA dédié à l’annotation et ...
Travaux futurs
      project       ontology         corpus        CA tool       repository
     Terradata     Architectura...
Prochain SlideShare
Chargement dans…5
×

Du texte à la connaissance : annotation sémantique et peuplement d'ontologie appliqués à des artefacts logiciels

2 294 vues

Publié le

Présentation de Florence Amardeilh et Danica Damljanovic à IC 2009

Publié dans : Technologie
0 commentaire
1 j’aime
Statistiques
Remarques
  • Soyez le premier à commenter

Aucun téléchargement
Vues
Nombre de vues
2 294
Sur SlideShare
0
Issues des intégrations
0
Intégrations
18
Actions
Partages
0
Téléchargements
67
Commentaires
0
J’aime
1
Intégrations 0
Aucune incorporation

Aucune remarque pour cette diapositive

Du texte à la connaissance : annotation sémantique et peuplement d'ontologie appliqués à des artefacts logiciels

  1. 1. Du texte à la connaissance : annotation sémantique et peuplement d'ontologie appliqués à des artefacts logiciels Florence Amardeilh & Danica Damljanovic IC’2009, 27 mai 2009, Hammamet Funded by: European Commission – 6th Framework Project Reference: IST-2004-026460
  2. 2. Contexte  Projet européen IST-TAO (2006-2009)  Transitioning Applications to Ontologies  www.tao-project.eu  Use-case scenario: Annotation d’artefacts logiciels (documentation technique, code source, web services, WSDL files…) 2
  3. 3. Bridging the gap Contenu hétérogène non structuré Contenu structuré + Connaissance structurée 3
  4. 4. Processus Structured information Text Mining Ontology and Audio Mining vocabulary control Reasoning Input engines documents Metadata generation Format transformation Knowledge population User (knowledge store validation integration) 4
  5. 5. Content Augmentation Manager (CA Manager)  Definition du processus en trois étapes principales : Extraction d’information Consolidation d’information Stockage d’information  Avoir un unique format d’échange entre chaque étape  Avoir un ensemble de services de consolidation répondant aux objectifs de l’application cible  Etre open-source et chaque composant doit être indépendant d’une plateforme ou d’un outil existant  Reposer sur une “Service Oriented Architecture” (SOA) 5
  6. 6. Architecture choisie  Choix de UIMA comme épine dorsale du CA-Manager. framework open-source IBM Avantages : Capacité à définir un workflow flexible Composants distribués et pluggables Une structure de données commune aux composants Partage et réutilisabilité de composants open-source  Choix des langages et techniques du Web Sémantique Interopérabilité Facilité d’échanger/partager/exploiter les formats et leur sémantique Facilité de créer/appeler de nouveaux services 6
  7. 7. Quels types de données voulons-nous? Title : « brave new world » Date : 1954-09-23 Person : Place :  3 choses : Connaissance: entités, relations, attributs Occurrences : offsets/positions des entités dans le texte analysé Annotations : ensemble de métadonnées sur le document soumis (se référant aux entités de connaissance) 7
  8. 8. CA Manager pipeline 1. Extraction 2. Consolidation 3. Stockage d’Information d’Information d’Information Découpe Nettoyer + Sérialise Extraire Contrôler Inférer Stocker r Fusionner r RegEx KCIT ITM Pellet RDF OWL ITM Sesame p 8
  9. 9. Cas d’usage : annoter les artefacts logiciels Key Concept Identification Tool (KCIT) for automatic content augmentation: produces ontology-aware annotations automatically deals with term and morphological variations (list of documents, document list) deals with wide range of file formats and differently sized documents domain independent: easily used with different ontologies 9
  10. 10. Challenges raised by software artefacts Customisation of generic Tokeniser for processing software artefacts: e.g. getDocumentName should be separated into get, Document, and Name tokens Customisation of generic Sentence Splitter JavaDoc: usually no punctuation marks 10
  11. 11. Extract : Onto Root Gazetteer 11
  12. 12. Validation des résultats 12
  13. 13. KCIT évaluation: corpus Sélection de 20 documents servant de corpus représentatif concernant les artefacts logiciels de la plateforme GATE : 4 forum posts de la mailing liste GATE 3 java classes du source code de GATE 7 chapitres du guide utilisateur de GATE 3 publications sur la plateforme GATE 2 pages Web accessibles depuis le site Web http://gate.ac.uk 1 guide du développeur d’applications GATE 13
  14. 14. KCIT évaluation: resultats 14
  15. 15. CA Manager évaluation : résultats  Evaluation de la flexibilité et du passage à l’échelle de l’infrastructure offerte par le CA Manager  Evaluation de la performance des algorithmes de consolidation  Même corpus que pour l’évaluation de KCIT  Exemple : “movies.xml” 129 annotations générées par KCIT 46 instances de connaissances créées par le CA Manager 27 annotations sémantiques crées pour ce document au final Element type Number of Number of Number of Recall Precision F1-measure in the correct missing spurious (A/A+B) (A/A+C) (R*P)/0.5(R+ ontology elements (A) elements (B) elements (C) P) Kb instances 208 0 64 1 0,765 0,867 Annotations 168 0 12 1 0,933 0,965  Difficultés à évaluer la performances en utilisant des 15 mesures plus adéquates comme la Learning accuracy ou la Balanced Distance Measure
  16. 16. Conclusion  Avantages de cette infrastructure :  Spécialisation d’un workflow UIMA dédié à l’annotation et au peuplement d’ontologies en bénéficiant de ses apports  Cache la complexité d’UIMA si ce n’est pas nécessaire  Focalise sur la transmission et l’interprétation des résultats des outils d’extraction d’information aux référentiels sémantiques  Définit un Schéma d’annotation générique  Fournit un service (simple, à distance, architecture SOA)  Plug&play : possibilité d’écrire facilement un nouveau connecteur vers un outil externe (IE ou référentiel sémantique)  Démo en libre accès, comme un web service ou une interface de test, accessible à :  http://62.210.155.132/ca-test 16
  17. 17. Travaux futurs project ontology corpus CA tool repository Terradata Architectural 3D objects DBPedia and ITM ontology (3D Geonames objects) web services VigiTermes Adverse Drug PubMed Luxid (Temis) ITM Effect ontology abstracts Eiffel Tourism Touristic TimeFrame ITM ontology web sites (Modyco, Univ Paris X) Microbio MiRNA ontology PubMed FunGen Sesame articles Discovery (INSERM) 17

×