SlideShare une entreprise Scribd logo
Du texte à la connaissance :
     annotation sémantique
   et peuplement d'ontologie
appliqués à des artefacts logiciels

  Florence Amardeilh & Danica Damljanovic
      IC’2009, 27 mai 2009, Hammamet

          Funded by: European Commission – 6th Framework
                Project Reference: IST-2004-026460
Contexte
     Projet européen IST-TAO (2006-2009)

       Transitioning Applications to Ontologies
       www.tao-project.eu




       Use-case scenario:
         Annotation d’artefacts logiciels (documentation technique, code
           source, web services, WSDL files…)



2
Bridging the gap

       Contenu
    hétérogène non
       structuré




       Contenu structuré
              +
    Connaissance structurée




3
Processus
                                              Structured
                                             information


                       Text Mining
                                                              Ontology and
                       Audio Mining                         vocabulary control




                                                                                 Reasoning
             Input                                                                engines
           documents




                                                    Metadata
                                                   generation

                                Format
                            transformation

                                                Knowledge
                                                 population
      User
                                             (knowledge store
    validation
                                                integration)
4
Content Augmentation Manager (CA Manager)

      Definition du processus en trois étapes principales :
        Extraction d’information
        Consolidation d’information
        Stockage d’information
      Avoir un unique format d’échange entre chaque étape

      Avoir un ensemble de services de consolidation répondant
       aux objectifs de l’application cible

      Etre open-source et chaque composant doit être
       indépendant d’une plateforme ou d’un outil existant

      Reposer sur une “Service Oriented Architecture” (SOA)


 5
Architecture choisie
     Choix de UIMA comme épine dorsale du CA-Manager.
       framework open-source IBM
       Avantages :
          Capacité à définir un workflow flexible
          Composants distribués et pluggables
          Une structure de données commune aux
            composants
          Partage et réutilisabilité de composants open-source

     Choix des langages et techniques du Web Sémantique
       Interopérabilité
       Facilité d’échanger/partager/exploiter les formats et leur
        sémantique
       Facilité de créer/appeler de nouveaux services
6
Quels types de données voulons-nous?




                         Title : « brave new world »
                         Date : 1954-09-23
                         Person :
                         Place :



     3 choses :
       Connaissance: entités, relations,
         attributs
       Occurrences : offsets/positions des
         entités dans le texte analysé
       Annotations : ensemble de
         métadonnées sur le document soumis
         (se référant aux entités de
         connaissance)
7
CA Manager pipeline


      1. Extraction                2. Consolidation                    3. Stockage
      d’Information                 d’Information                     d’Information




    Découpe               Nettoyer +                             Sérialise
               Extraire                Contrôler      Inférer                  Stocker
       r                  Fusionner                                  r


       RegEx
               KCIT                       ITM         Pellet    RDF     OWL    ITM    Sesame
         p




8
Cas d’usage : annoter les artefacts logiciels

    Key Concept Identification Tool (KCIT) for
      automatic content augmentation:
         produces ontology-aware annotations
          automatically
         deals with term and morphological variations
          (list of documents, document list)
         deals with wide range of file formats and
          differently sized documents
         domain independent: easily used with
          different ontologies

9
Challenges raised by software artefacts


     Customisation of generic Tokeniser for
      processing software artefacts:
       e.g. getDocumentName should be
        separated into get, Document, and
        Name tokens
     Customisation of generic Sentence Splitter
       JavaDoc: usually no punctuation marks


10
Extract : Onto Root Gazetteer




11
Validation des résultats




12
KCIT évaluation: corpus

 Sélection de 20 documents servant de corpus
   représentatif concernant les artefacts logiciels de la
   plateforme GATE :
    4 forum posts de la mailing liste GATE
    3 java classes du source code de GATE
    7 chapitres du guide utilisateur de GATE
    3 publications sur la plateforme GATE
    2 pages Web accessibles depuis le site Web
    http://gate.ac.uk
    1 guide du développeur d’applications GATE

13
KCIT évaluation: resultats




14
CA Manager évaluation : résultats
      Evaluation de la flexibilité et du passage à l’échelle de
       l’infrastructure offerte par le CA Manager

      Evaluation de la performance des algorithmes de
       consolidation
         Même corpus que pour l’évaluation de KCIT
         Exemple : “movies.xml”
           129 annotations générées par KCIT
           46 instances de connaissances créées par le CA
             Manager
           27 annotations sémantiques crées pour ce
             document au final
       Element type Number of      Number of      Number of      Recall    Precision F1-measure
       in the       correct        missing        spurious       (A/A+B)   (A/A+C)   (R*P)/0.5(R+
       ontology     elements (A)   elements (B)   elements (C)                       P)
       Kb instances          208              0             64         1      0,765        0,867
       Annotations           168              0             12         1      0,933        0,965


         Difficultés à évaluer la performances en utilisant des
15
          mesures plus adéquates comme la Learning accuracy
          ou la Balanced Distance Measure
Conclusion
      Avantages de cette infrastructure :
         Spécialisation d’un workflow UIMA dédié à l’annotation et au
          peuplement d’ontologies en bénéficiant de ses apports
         Cache la complexité d’UIMA si ce n’est pas nécessaire
         Focalise sur la transmission et l’interprétation des résultats
          des outils d’extraction d’information aux référentiels
          sémantiques
         Définit un Schéma d’annotation générique
         Fournit un service (simple, à distance, architecture SOA)
         Plug&play : possibilité d’écrire facilement un nouveau
          connecteur vers un outil externe (IE ou référentiel
          sémantique)

      Démo en libre accès, comme un web service ou une interface de
       test, accessible à :
         http://62.210.155.132/ca-test



16
Travaux futurs
      project       ontology         corpus        CA tool       repository
     Terradata     Architectural    3D objects   DBPedia and        ITM
                   ontology (3D                   Geonames
                     objects)                    web services

     VigiTermes   Adverse Drug       PubMed      Luxid (Temis)      ITM
                  Effect ontology   abstracts
       Eiffel        Tourism        Touristic     TimeFrame         ITM
                     ontology       web sites    (Modyco, Univ
                                                    Paris X)


      Microbio    MiRNA ontology     PubMed        FunGen         Sesame
                                     articles       Discovery
                                                   (INSERM)



17

Contenu connexe

Tendances

Comment construire les ontologies?
Comment construire les ontologies?Comment construire les ontologies?
Comment construire les ontologies?
Leila Zemmouchi-Ghomari
 
Les Ontologies dans les Systèmes d’Information
Les Ontologies dans les Systèmes d’InformationLes Ontologies dans les Systèmes d’Information
Les Ontologies dans les Systèmes d’Information
catherine roussey
 
OntoCASE à la 5e conférence GeCSO: Gestion des Connaissances dans la Société ...
OntoCASE à la 5e conférence GeCSO: Gestion des Connaissances dans la Société ...OntoCASE à la 5e conférence GeCSO: Gestion des Connaissances dans la Société ...
OntoCASE à la 5e conférence GeCSO: Gestion des Connaissances dans la Société ...
Michel Héon PhD
 
Cycle de vie et méthodes de construction des ontologies
Cycle de vie et méthodes de construction des ontologiesCycle de vie et méthodes de construction des ontologies
Cycle de vie et méthodes de construction des ontologies
Fatima Zahra Fagroud
 
Skos transformation
Skos transformationSkos transformation
Skos transformation
catherine roussey
 
Introduction à la fouille de textes et positionnement de l'offre logicielle
Introduction à la fouille de textes et positionnement de l'offre logicielleIntroduction à la fouille de textes et positionnement de l'offre logicielle
Introduction à la fouille de textes et positionnement de l'offre logicielle
Patrice Bellot - Aix-Marseille Université / CNRS (LIS, INS2I)
 

Tendances (6)

Comment construire les ontologies?
Comment construire les ontologies?Comment construire les ontologies?
Comment construire les ontologies?
 
Les Ontologies dans les Systèmes d’Information
Les Ontologies dans les Systèmes d’InformationLes Ontologies dans les Systèmes d’Information
Les Ontologies dans les Systèmes d’Information
 
OntoCASE à la 5e conférence GeCSO: Gestion des Connaissances dans la Société ...
OntoCASE à la 5e conférence GeCSO: Gestion des Connaissances dans la Société ...OntoCASE à la 5e conférence GeCSO: Gestion des Connaissances dans la Société ...
OntoCASE à la 5e conférence GeCSO: Gestion des Connaissances dans la Société ...
 
Cycle de vie et méthodes de construction des ontologies
Cycle de vie et méthodes de construction des ontologiesCycle de vie et méthodes de construction des ontologies
Cycle de vie et méthodes de construction des ontologies
 
Skos transformation
Skos transformationSkos transformation
Skos transformation
 
Introduction à la fouille de textes et positionnement de l'offre logicielle
Introduction à la fouille de textes et positionnement de l'offre logicielleIntroduction à la fouille de textes et positionnement de l'offre logicielle
Introduction à la fouille de textes et positionnement de l'offre logicielle
 

En vedette

Méta-modèle général de description de ressources terminologiques et ontologiques
Méta-modèle général de description de ressources terminologiques et ontologiquesMéta-modèle général de description de ressources terminologiques et ontologiques
Méta-modèle général de description de ressources terminologiques et ontologiques
Conférence IC 2009
 
Construction automatique d’ontologies à partir d’une base de données relation...
Construction automatique d’ontologies à partir d’une base de données relation...Construction automatique d’ontologies à partir d’une base de données relation...
Construction automatique d’ontologies à partir d’une base de données relation...
Conférence IC 2009
 
Sémantique des folksonomies: structuration collaborative et assistée
Sémantique des folksonomies: structuration collaborative et assistéeSémantique des folksonomies: structuration collaborative et assistée
Sémantique des folksonomies: structuration collaborative et assistée
Conférence IC 2009
 
Conception assistée d’une ontologie à partir d’une conceptualisation consensu...
Conception assistée d’une ontologie à partir d’une conceptualisation consensu...Conception assistée d’une ontologie à partir d’une conceptualisation consensu...
Conception assistée d’une ontologie à partir d’une conceptualisation consensu...
Conférence IC 2009
 
Ontologies étendues pour l'annotation sémantique
Ontologies étendues pour l'annotation sémantiqueOntologies étendues pour l'annotation sémantique
Ontologies étendues pour l'annotation sémantique
Conférence IC 2009
 
Ingénierie ontologique
Ingénierie ontologiqueIngénierie ontologique
Ingénierie ontologique
Leila Zemmouchi-Ghomari
 
Collectivités locales en chiffres 2011 dgcl / http://manage.dgcl.interieur.go...
Collectivités locales en chiffres 2011 dgcl / http://manage.dgcl.interieur.go...Collectivités locales en chiffres 2011 dgcl / http://manage.dgcl.interieur.go...
Collectivités locales en chiffres 2011 dgcl / http://manage.dgcl.interieur.go...
Ministère de l'Économie et des Finances
 
Odilon Redon Dossier de presse de la Fondation Beyeler
Odilon Redon Dossier de presse de la Fondation BeyelerOdilon Redon Dossier de presse de la Fondation Beyeler
Odilon Redon Dossier de presse de la Fondation Beyeler
Bâle Région Mag
 
Concepto Campo
Concepto CampoConcepto Campo
Concepto Campo
Universidad de Panamá
 
SfPot Lille 07/2015 - Utiliser Symfony sur des environnements Heroku-like
SfPot Lille 07/2015 - Utiliser Symfony sur des environnements Heroku-likeSfPot Lille 07/2015 - Utiliser Symfony sur des environnements Heroku-like
SfPot Lille 07/2015 - Utiliser Symfony sur des environnements Heroku-like
Tristan Maindron
 
2011 04 06_rapport_eco_industries_pdc http://www.cgiet.org/documents/2011_04_...
2011 04 06_rapport_eco_industries_pdc http://www.cgiet.org/documents/2011_04_...2011 04 06_rapport_eco_industries_pdc http://www.cgiet.org/documents/2011_04_...
2011 04 06_rapport_eco_industries_pdc http://www.cgiet.org/documents/2011_04_...
Ministère de l'Économie et des Finances
 
Mensaje xlviii jornada mundial de oración por las
Mensaje xlviii jornada mundial de oración por lasMensaje xlviii jornada mundial de oración por las
Mensaje xlviii jornada mundial de oración por las
Chinca FMA
 
Phénomènes naturels
Phénomènes naturelsPhénomènes naturels
Phénomènes naturels
Saqqarah 31
 
Boletín ordinario nro 11
Boletín ordinario nro 11Boletín ordinario nro 11
Boletín ordinario nro 11
Yasmin Cortes
 
Manifestaciones Públicas 2010. ep
Manifestaciones Públicas 2010. epManifestaciones Públicas 2010. ep
Manifestaciones Públicas 2010. ep
Espacio Público
 
Barrio de la villa de priego.doc
Barrio de la villa de priego.docBarrio de la villa de priego.doc
Barrio de la villa de priego.doc
cosasdeandalucia
 
Webinar: Por qué el email es Madonna y Facebook es Lady Gaga
Webinar: Por qué el email es Madonna y Facebook es Lady GagaWebinar: Por qué el email es Madonna y Facebook es Lady Gaga
Webinar: Por qué el email es Madonna y Facebook es Lady Gaga
MasterBase®
 
Eee 2011 - 05 - louis armand - villefranche
Eee   2011 - 05 - louis armand - villefrancheEee   2011 - 05 - louis armand - villefranche
Eee 2011 - 05 - louis armand - villefrancheCédric Frayssinet
 
Discusión no. 2 curso web impm táchira carlos gómez valderrama
Discusión no. 2 curso web impm táchira  carlos gómez valderramaDiscusión no. 2 curso web impm táchira  carlos gómez valderrama
Discusión no. 2 curso web impm táchira carlos gómez valderrama
Carlos Luis Gomez Valderrama
 
La grue flottante
La grue flottante La grue flottante
La grue flottante AliSou0154
 

En vedette (20)

Méta-modèle général de description de ressources terminologiques et ontologiques
Méta-modèle général de description de ressources terminologiques et ontologiquesMéta-modèle général de description de ressources terminologiques et ontologiques
Méta-modèle général de description de ressources terminologiques et ontologiques
 
Construction automatique d’ontologies à partir d’une base de données relation...
Construction automatique d’ontologies à partir d’une base de données relation...Construction automatique d’ontologies à partir d’une base de données relation...
Construction automatique d’ontologies à partir d’une base de données relation...
 
Sémantique des folksonomies: structuration collaborative et assistée
Sémantique des folksonomies: structuration collaborative et assistéeSémantique des folksonomies: structuration collaborative et assistée
Sémantique des folksonomies: structuration collaborative et assistée
 
Conception assistée d’une ontologie à partir d’une conceptualisation consensu...
Conception assistée d’une ontologie à partir d’une conceptualisation consensu...Conception assistée d’une ontologie à partir d’une conceptualisation consensu...
Conception assistée d’une ontologie à partir d’une conceptualisation consensu...
 
Ontologies étendues pour l'annotation sémantique
Ontologies étendues pour l'annotation sémantiqueOntologies étendues pour l'annotation sémantique
Ontologies étendues pour l'annotation sémantique
 
Ingénierie ontologique
Ingénierie ontologiqueIngénierie ontologique
Ingénierie ontologique
 
Collectivités locales en chiffres 2011 dgcl / http://manage.dgcl.interieur.go...
Collectivités locales en chiffres 2011 dgcl / http://manage.dgcl.interieur.go...Collectivités locales en chiffres 2011 dgcl / http://manage.dgcl.interieur.go...
Collectivités locales en chiffres 2011 dgcl / http://manage.dgcl.interieur.go...
 
Odilon Redon Dossier de presse de la Fondation Beyeler
Odilon Redon Dossier de presse de la Fondation BeyelerOdilon Redon Dossier de presse de la Fondation Beyeler
Odilon Redon Dossier de presse de la Fondation Beyeler
 
Concepto Campo
Concepto CampoConcepto Campo
Concepto Campo
 
SfPot Lille 07/2015 - Utiliser Symfony sur des environnements Heroku-like
SfPot Lille 07/2015 - Utiliser Symfony sur des environnements Heroku-likeSfPot Lille 07/2015 - Utiliser Symfony sur des environnements Heroku-like
SfPot Lille 07/2015 - Utiliser Symfony sur des environnements Heroku-like
 
2011 04 06_rapport_eco_industries_pdc http://www.cgiet.org/documents/2011_04_...
2011 04 06_rapport_eco_industries_pdc http://www.cgiet.org/documents/2011_04_...2011 04 06_rapport_eco_industries_pdc http://www.cgiet.org/documents/2011_04_...
2011 04 06_rapport_eco_industries_pdc http://www.cgiet.org/documents/2011_04_...
 
Mensaje xlviii jornada mundial de oración por las
Mensaje xlviii jornada mundial de oración por lasMensaje xlviii jornada mundial de oración por las
Mensaje xlviii jornada mundial de oración por las
 
Phénomènes naturels
Phénomènes naturelsPhénomènes naturels
Phénomènes naturels
 
Boletín ordinario nro 11
Boletín ordinario nro 11Boletín ordinario nro 11
Boletín ordinario nro 11
 
Manifestaciones Públicas 2010. ep
Manifestaciones Públicas 2010. epManifestaciones Públicas 2010. ep
Manifestaciones Públicas 2010. ep
 
Barrio de la villa de priego.doc
Barrio de la villa de priego.docBarrio de la villa de priego.doc
Barrio de la villa de priego.doc
 
Webinar: Por qué el email es Madonna y Facebook es Lady Gaga
Webinar: Por qué el email es Madonna y Facebook es Lady GagaWebinar: Por qué el email es Madonna y Facebook es Lady Gaga
Webinar: Por qué el email es Madonna y Facebook es Lady Gaga
 
Eee 2011 - 05 - louis armand - villefranche
Eee   2011 - 05 - louis armand - villefrancheEee   2011 - 05 - louis armand - villefranche
Eee 2011 - 05 - louis armand - villefranche
 
Discusión no. 2 curso web impm táchira carlos gómez valderrama
Discusión no. 2 curso web impm táchira  carlos gómez valderramaDiscusión no. 2 curso web impm táchira  carlos gómez valderrama
Discusión no. 2 curso web impm táchira carlos gómez valderrama
 
La grue flottante
La grue flottante La grue flottante
La grue flottante
 

Similaire à Du texte à la connaissance : annotation sémantique et peuplement d'ontologie appliqués à des artefacts logiciels

20160216 - From BigData to BigProcessing
20160216 - From BigData to BigProcessing20160216 - From BigData to BigProcessing
20160216 - From BigData to BigProcessing
Pierre-Marie Brunet
 
Presentation mug-data mapper
Presentation mug-data mapperPresentation mug-data mapper
Presentation mug-data mapper
FastConnect
 
Valtech - Big Data : Détails d’une mise en œuvre
Valtech - Big Data : Détails d’une mise en œuvreValtech - Big Data : Détails d’une mise en œuvre
Valtech - Big Data : Détails d’une mise en œuvre
Valtech
 
JENKINS_OWF11_OSDC_PARIS20110924
JENKINS_OWF11_OSDC_PARIS20110924JENKINS_OWF11_OSDC_PARIS20110924
JENKINS_OWF11_OSDC_PARIS20110924Gregory Boissinot
 
Réutilisation de code entre Windows 8 et Windows Phone 8.
Réutilisation de code entre Windows 8 et Windows Phone 8.Réutilisation de code entre Windows 8 et Windows Phone 8.
Réutilisation de code entre Windows 8 et Windows Phone 8.
Microsoft
 
NoSQL User Group Paris - 21 Juin 2011 - GigaSpaces
NoSQL User Group Paris - 21 Juin 2011 - GigaSpacesNoSQL User Group Paris - 21 Juin 2011 - GigaSpaces
NoSQL User Group Paris - 21 Juin 2011 - GigaSpaces
FastConnect
 
Introduction au Domain Driven Design
Introduction au Domain Driven DesignIntroduction au Domain Driven Design
Introduction au Domain Driven Design
DNG Consulting
 
Dossier de competences MA
Dossier de competences MADossier de competences MA
Dossier de competences MA
Clementine D.
 
Projet R&D Terrarush Capital Vision
Projet R&D Terrarush Capital VisionProjet R&D Terrarush Capital Vision
Projet R&D Terrarush Capital VisionMarc Bourhis
 
Conférence no2: L'I.D.S Midi-Pyrénées en avant première
Conférence no2: L'I.D.S Midi-Pyrénées en avant premièreConférence no2: L'I.D.S Midi-Pyrénées en avant première
Conférence no2: L'I.D.S Midi-Pyrénées en avant première
teleparc
 
Alfresco Meetup - ETL Connector & Talend
Alfresco Meetup - ETL Connector & TalendAlfresco Meetup - ETL Connector & Talend
Alfresco Meetup - ETL Connector & Talend
Marc Dutoo
 
De la multiplicité des sources d’informations à la consolidation : avantages ...
De la multiplicité des sources d’informations à la consolidation : avantages ...De la multiplicité des sources d’informations à la consolidation : avantages ...
De la multiplicité des sources d’informations à la consolidation : avantages ...
Nuxeo
 
Développez votre application Facebook avec Windows Azure
Développez votre application Facebook avec Windows AzureDéveloppez votre application Facebook avec Windows Azure
Développez votre application Facebook avec Windows Azure
Microsoft
 
Présentation OCSInventory SolutionsLinux 2009
Présentation OCSInventory SolutionsLinux 2009Présentation OCSInventory SolutionsLinux 2009
Présentation OCSInventory SolutionsLinux 2009Gonéri Le Bouder
 
Panorama des logiciels de gestion de références bibliographiques
Panorama des logiciels de gestion de références bibliographiquesPanorama des logiciels de gestion de références bibliographiques
Panorama des logiciels de gestion de références bibliographiques
URFIST de Paris
 
Presentation BMIA
Presentation BMIAPresentation BMIA
Presentation BMIA
PMarsaud
 
Du hard et des réseaux: Les outils pour construire l'internet des objets chez...
Du hard et des réseaux: Les outils pour construire l'internet des objets chez...Du hard et des réseaux: Les outils pour construire l'internet des objets chez...
Du hard et des réseaux: Les outils pour construire l'internet des objets chez...
Microsoft
 
Projet Domurpic
Projet DomurpicProjet Domurpic
Projet Domurpic
Sébastien Letélié
 
Génération automatique de texte
Génération automatique de texteGénération automatique de texte
Génération automatique de texte
Estelle Delpech
 
280219 Webinar Reprenez le Contrôle de Vos Disques Réseaux
280219 Webinar Reprenez le Contrôle de Vos Disques Réseaux280219 Webinar Reprenez le Contrôle de Vos Disques Réseaux
280219 Webinar Reprenez le Contrôle de Vos Disques Réseaux
Everteam
 

Similaire à Du texte à la connaissance : annotation sémantique et peuplement d'ontologie appliqués à des artefacts logiciels (20)

20160216 - From BigData to BigProcessing
20160216 - From BigData to BigProcessing20160216 - From BigData to BigProcessing
20160216 - From BigData to BigProcessing
 
Presentation mug-data mapper
Presentation mug-data mapperPresentation mug-data mapper
Presentation mug-data mapper
 
Valtech - Big Data : Détails d’une mise en œuvre
Valtech - Big Data : Détails d’une mise en œuvreValtech - Big Data : Détails d’une mise en œuvre
Valtech - Big Data : Détails d’une mise en œuvre
 
JENKINS_OWF11_OSDC_PARIS20110924
JENKINS_OWF11_OSDC_PARIS20110924JENKINS_OWF11_OSDC_PARIS20110924
JENKINS_OWF11_OSDC_PARIS20110924
 
Réutilisation de code entre Windows 8 et Windows Phone 8.
Réutilisation de code entre Windows 8 et Windows Phone 8.Réutilisation de code entre Windows 8 et Windows Phone 8.
Réutilisation de code entre Windows 8 et Windows Phone 8.
 
NoSQL User Group Paris - 21 Juin 2011 - GigaSpaces
NoSQL User Group Paris - 21 Juin 2011 - GigaSpacesNoSQL User Group Paris - 21 Juin 2011 - GigaSpaces
NoSQL User Group Paris - 21 Juin 2011 - GigaSpaces
 
Introduction au Domain Driven Design
Introduction au Domain Driven DesignIntroduction au Domain Driven Design
Introduction au Domain Driven Design
 
Dossier de competences MA
Dossier de competences MADossier de competences MA
Dossier de competences MA
 
Projet R&D Terrarush Capital Vision
Projet R&D Terrarush Capital VisionProjet R&D Terrarush Capital Vision
Projet R&D Terrarush Capital Vision
 
Conférence no2: L'I.D.S Midi-Pyrénées en avant première
Conférence no2: L'I.D.S Midi-Pyrénées en avant premièreConférence no2: L'I.D.S Midi-Pyrénées en avant première
Conférence no2: L'I.D.S Midi-Pyrénées en avant première
 
Alfresco Meetup - ETL Connector & Talend
Alfresco Meetup - ETL Connector & TalendAlfresco Meetup - ETL Connector & Talend
Alfresco Meetup - ETL Connector & Talend
 
De la multiplicité des sources d’informations à la consolidation : avantages ...
De la multiplicité des sources d’informations à la consolidation : avantages ...De la multiplicité des sources d’informations à la consolidation : avantages ...
De la multiplicité des sources d’informations à la consolidation : avantages ...
 
Développez votre application Facebook avec Windows Azure
Développez votre application Facebook avec Windows AzureDéveloppez votre application Facebook avec Windows Azure
Développez votre application Facebook avec Windows Azure
 
Présentation OCSInventory SolutionsLinux 2009
Présentation OCSInventory SolutionsLinux 2009Présentation OCSInventory SolutionsLinux 2009
Présentation OCSInventory SolutionsLinux 2009
 
Panorama des logiciels de gestion de références bibliographiques
Panorama des logiciels de gestion de références bibliographiquesPanorama des logiciels de gestion de références bibliographiques
Panorama des logiciels de gestion de références bibliographiques
 
Presentation BMIA
Presentation BMIAPresentation BMIA
Presentation BMIA
 
Du hard et des réseaux: Les outils pour construire l'internet des objets chez...
Du hard et des réseaux: Les outils pour construire l'internet des objets chez...Du hard et des réseaux: Les outils pour construire l'internet des objets chez...
Du hard et des réseaux: Les outils pour construire l'internet des objets chez...
 
Projet Domurpic
Projet DomurpicProjet Domurpic
Projet Domurpic
 
Génération automatique de texte
Génération automatique de texteGénération automatique de texte
Génération automatique de texte
 
280219 Webinar Reprenez le Contrôle de Vos Disques Réseaux
280219 Webinar Reprenez le Contrôle de Vos Disques Réseaux280219 Webinar Reprenez le Contrôle de Vos Disques Réseaux
280219 Webinar Reprenez le Contrôle de Vos Disques Réseaux
 

Plus de Conférence IC 2009

Outil de gestion des connaissances d’une Interconnexion de Communautés de Pra...
Outil de gestion des connaissances d’une Interconnexion de Communautés de Pra...Outil de gestion des connaissances d’une Interconnexion de Communautés de Pra...
Outil de gestion des connaissances d’une Interconnexion de Communautés de Pra...
Conférence IC 2009
 
Tentative de cartographie des besoins, solutions et sujets de recherche ouver...
Tentative de cartographie des besoins, solutions et sujets de recherche ouver...Tentative de cartographie des besoins, solutions et sujets de recherche ouver...
Tentative de cartographie des besoins, solutions et sujets de recherche ouver...
Conférence IC 2009
 
Enrichissement automatique d’une base de connaissances biologiques à l’aide d...
Enrichissement automatique d’une base de connaissances biologiques à l’aide d...Enrichissement automatique d’une base de connaissances biologiques à l’aide d...
Enrichissement automatique d’une base de connaissances biologiques à l’aide d...
Conférence IC 2009
 
Evaluation d'associations sémantiques dans une ontologie de domaine
Evaluation d'associations sémantiques dans une ontologie de domaineEvaluation d'associations sémantiques dans une ontologie de domaine
Evaluation d'associations sémantiques dans une ontologie de domaine
Conférence IC 2009
 
Modélisation systématique de recommandations de pratique clinique: une étude ...
Modélisation systématique de recommandations de pratique clinique: une étude ...Modélisation systématique de recommandations de pratique clinique: une étude ...
Modélisation systématique de recommandations de pratique clinique: une étude ...
Conférence IC 2009
 
Connaissances opérationnelles pour la conception automatique de légendes de c...
Connaissances opérationnelles pour la conception automatique de légendes de c...Connaissances opérationnelles pour la conception automatique de légendes de c...
Connaissances opérationnelles pour la conception automatique de légendes de c...
Conférence IC 2009
 
Patrons de gestion des changements OWL
Patrons de gestion des changements OWLPatrons de gestion des changements OWL
Patrons de gestion des changements OWL
Conférence IC 2009
 
Indexation de photos sociales par propagation sur une hiérarchie de concepts
Indexation de photos sociales par propagation sur une hiérarchie de conceptsIndexation de photos sociales par propagation sur une hiérarchie de concepts
Indexation de photos sociales par propagation sur une hiérarchie de concepts
Conférence IC 2009
 
Gradients de prototypicalité appliqués à la personnalisation d'ontologies
Gradients de prototypicalité appliqués à la personnalisation d'ontologiesGradients de prototypicalité appliqués à la personnalisation d'ontologies
Gradients de prototypicalité appliqués à la personnalisation d'ontologies
Conférence IC 2009
 
Démarches sémantiques de recherche d'information sur le Web
Démarches sémantiques de recherche d'information sur le WebDémarches sémantiques de recherche d'information sur le Web
Démarches sémantiques de recherche d'information sur le Web
Conférence IC 2009
 
SEMIOSEM : une mesure de similarité conceptuelle fondée sur une approche sémi...
SEMIOSEM : une mesure de similarité conceptuelle fondée sur une approche sémi...SEMIOSEM : une mesure de similarité conceptuelle fondée sur une approche sémi...
SEMIOSEM : une mesure de similarité conceptuelle fondée sur une approche sémi...
Conférence IC 2009
 
COBRA : Une plate-forme de RàPC basée sur des ontologies
COBRA : Une plate-forme de RàPC basée sur des ontologiesCOBRA : Une plate-forme de RàPC basée sur des ontologies
COBRA : Une plate-forme de RàPC basée sur des ontologies
Conférence IC 2009
 
Alignement entre ontologie de domaine et la Snomed: trois études de cas
Alignement entre ontologie de domaine et la Snomed: trois études de casAlignement entre ontologie de domaine et la Snomed: trois études de cas
Alignement entre ontologie de domaine et la Snomed: trois études de cas
Conférence IC 2009
 
Explorer des actualités multimédia dans le Web de données
Explorer des actualités multimédia dans le Web de donnéesExplorer des actualités multimédia dans le Web de données
Explorer des actualités multimédia dans le Web de données
Conférence IC 2009
 
Une démarche de conception de services d’information et de communication dédi...
Une démarche de conception de services d’information et de communication dédi...Une démarche de conception de services d’information et de communication dédi...
Une démarche de conception de services d’information et de communication dédi...
Conférence IC 2009
 
Ontologies pour l'aide à la décision publique et prise en compte des doxas
Ontologies pour l'aide à la décision publique et prise en compte des doxasOntologies pour l'aide à la décision publique et prise en compte des doxas
Ontologies pour l'aide à la décision publique et prise en compte des doxas
Conférence IC 2009
 
Ouverture IC 2009
Ouverture IC 2009Ouverture IC 2009
Ouverture IC 2009
Conférence IC 2009
 
Catégories populaires, catégories cachées et prototypes : approches des taxin...
Catégories populaires, catégories cachées et prototypes : approches des taxin...Catégories populaires, catégories cachées et prototypes : approches des taxin...
Catégories populaires, catégories cachées et prototypes : approches des taxin...
Conférence IC 2009
 

Plus de Conférence IC 2009 (18)

Outil de gestion des connaissances d’une Interconnexion de Communautés de Pra...
Outil de gestion des connaissances d’une Interconnexion de Communautés de Pra...Outil de gestion des connaissances d’une Interconnexion de Communautés de Pra...
Outil de gestion des connaissances d’une Interconnexion de Communautés de Pra...
 
Tentative de cartographie des besoins, solutions et sujets de recherche ouver...
Tentative de cartographie des besoins, solutions et sujets de recherche ouver...Tentative de cartographie des besoins, solutions et sujets de recherche ouver...
Tentative de cartographie des besoins, solutions et sujets de recherche ouver...
 
Enrichissement automatique d’une base de connaissances biologiques à l’aide d...
Enrichissement automatique d’une base de connaissances biologiques à l’aide d...Enrichissement automatique d’une base de connaissances biologiques à l’aide d...
Enrichissement automatique d’une base de connaissances biologiques à l’aide d...
 
Evaluation d'associations sémantiques dans une ontologie de domaine
Evaluation d'associations sémantiques dans une ontologie de domaineEvaluation d'associations sémantiques dans une ontologie de domaine
Evaluation d'associations sémantiques dans une ontologie de domaine
 
Modélisation systématique de recommandations de pratique clinique: une étude ...
Modélisation systématique de recommandations de pratique clinique: une étude ...Modélisation systématique de recommandations de pratique clinique: une étude ...
Modélisation systématique de recommandations de pratique clinique: une étude ...
 
Connaissances opérationnelles pour la conception automatique de légendes de c...
Connaissances opérationnelles pour la conception automatique de légendes de c...Connaissances opérationnelles pour la conception automatique de légendes de c...
Connaissances opérationnelles pour la conception automatique de légendes de c...
 
Patrons de gestion des changements OWL
Patrons de gestion des changements OWLPatrons de gestion des changements OWL
Patrons de gestion des changements OWL
 
Indexation de photos sociales par propagation sur une hiérarchie de concepts
Indexation de photos sociales par propagation sur une hiérarchie de conceptsIndexation de photos sociales par propagation sur une hiérarchie de concepts
Indexation de photos sociales par propagation sur une hiérarchie de concepts
 
Gradients de prototypicalité appliqués à la personnalisation d'ontologies
Gradients de prototypicalité appliqués à la personnalisation d'ontologiesGradients de prototypicalité appliqués à la personnalisation d'ontologies
Gradients de prototypicalité appliqués à la personnalisation d'ontologies
 
Démarches sémantiques de recherche d'information sur le Web
Démarches sémantiques de recherche d'information sur le WebDémarches sémantiques de recherche d'information sur le Web
Démarches sémantiques de recherche d'information sur le Web
 
SEMIOSEM : une mesure de similarité conceptuelle fondée sur une approche sémi...
SEMIOSEM : une mesure de similarité conceptuelle fondée sur une approche sémi...SEMIOSEM : une mesure de similarité conceptuelle fondée sur une approche sémi...
SEMIOSEM : une mesure de similarité conceptuelle fondée sur une approche sémi...
 
COBRA : Une plate-forme de RàPC basée sur des ontologies
COBRA : Une plate-forme de RàPC basée sur des ontologiesCOBRA : Une plate-forme de RàPC basée sur des ontologies
COBRA : Une plate-forme de RàPC basée sur des ontologies
 
Alignement entre ontologie de domaine et la Snomed: trois études de cas
Alignement entre ontologie de domaine et la Snomed: trois études de casAlignement entre ontologie de domaine et la Snomed: trois études de cas
Alignement entre ontologie de domaine et la Snomed: trois études de cas
 
Explorer des actualités multimédia dans le Web de données
Explorer des actualités multimédia dans le Web de donnéesExplorer des actualités multimédia dans le Web de données
Explorer des actualités multimédia dans le Web de données
 
Une démarche de conception de services d’information et de communication dédi...
Une démarche de conception de services d’information et de communication dédi...Une démarche de conception de services d’information et de communication dédi...
Une démarche de conception de services d’information et de communication dédi...
 
Ontologies pour l'aide à la décision publique et prise en compte des doxas
Ontologies pour l'aide à la décision publique et prise en compte des doxasOntologies pour l'aide à la décision publique et prise en compte des doxas
Ontologies pour l'aide à la décision publique et prise en compte des doxas
 
Ouverture IC 2009
Ouverture IC 2009Ouverture IC 2009
Ouverture IC 2009
 
Catégories populaires, catégories cachées et prototypes : approches des taxin...
Catégories populaires, catégories cachées et prototypes : approches des taxin...Catégories populaires, catégories cachées et prototypes : approches des taxin...
Catégories populaires, catégories cachées et prototypes : approches des taxin...
 

Du texte à la connaissance : annotation sémantique et peuplement d'ontologie appliqués à des artefacts logiciels

  • 1. Du texte à la connaissance : annotation sémantique et peuplement d'ontologie appliqués à des artefacts logiciels Florence Amardeilh & Danica Damljanovic IC’2009, 27 mai 2009, Hammamet Funded by: European Commission – 6th Framework Project Reference: IST-2004-026460
  • 2. Contexte  Projet européen IST-TAO (2006-2009)  Transitioning Applications to Ontologies  www.tao-project.eu  Use-case scenario: Annotation d’artefacts logiciels (documentation technique, code source, web services, WSDL files…) 2
  • 3. Bridging the gap Contenu hétérogène non structuré Contenu structuré + Connaissance structurée 3
  • 4. Processus Structured information Text Mining Ontology and Audio Mining vocabulary control Reasoning Input engines documents Metadata generation Format transformation Knowledge population User (knowledge store validation integration) 4
  • 5. Content Augmentation Manager (CA Manager)  Definition du processus en trois étapes principales : Extraction d’information Consolidation d’information Stockage d’information  Avoir un unique format d’échange entre chaque étape  Avoir un ensemble de services de consolidation répondant aux objectifs de l’application cible  Etre open-source et chaque composant doit être indépendant d’une plateforme ou d’un outil existant  Reposer sur une “Service Oriented Architecture” (SOA) 5
  • 6. Architecture choisie  Choix de UIMA comme épine dorsale du CA-Manager. framework open-source IBM Avantages : Capacité à définir un workflow flexible Composants distribués et pluggables Une structure de données commune aux composants Partage et réutilisabilité de composants open-source  Choix des langages et techniques du Web Sémantique Interopérabilité Facilité d’échanger/partager/exploiter les formats et leur sémantique Facilité de créer/appeler de nouveaux services 6
  • 7. Quels types de données voulons-nous? Title : « brave new world » Date : 1954-09-23 Person : Place :  3 choses : Connaissance: entités, relations, attributs Occurrences : offsets/positions des entités dans le texte analysé Annotations : ensemble de métadonnées sur le document soumis (se référant aux entités de connaissance) 7
  • 8. CA Manager pipeline 1. Extraction 2. Consolidation 3. Stockage d’Information d’Information d’Information Découpe Nettoyer + Sérialise Extraire Contrôler Inférer Stocker r Fusionner r RegEx KCIT ITM Pellet RDF OWL ITM Sesame p 8
  • 9. Cas d’usage : annoter les artefacts logiciels Key Concept Identification Tool (KCIT) for automatic content augmentation: produces ontology-aware annotations automatically deals with term and morphological variations (list of documents, document list) deals with wide range of file formats and differently sized documents domain independent: easily used with different ontologies 9
  • 10. Challenges raised by software artefacts Customisation of generic Tokeniser for processing software artefacts: e.g. getDocumentName should be separated into get, Document, and Name tokens Customisation of generic Sentence Splitter JavaDoc: usually no punctuation marks 10
  • 11. Extract : Onto Root Gazetteer 11
  • 13. KCIT évaluation: corpus Sélection de 20 documents servant de corpus représentatif concernant les artefacts logiciels de la plateforme GATE : 4 forum posts de la mailing liste GATE 3 java classes du source code de GATE 7 chapitres du guide utilisateur de GATE 3 publications sur la plateforme GATE 2 pages Web accessibles depuis le site Web http://gate.ac.uk 1 guide du développeur d’applications GATE 13
  • 15. CA Manager évaluation : résultats  Evaluation de la flexibilité et du passage à l’échelle de l’infrastructure offerte par le CA Manager  Evaluation de la performance des algorithmes de consolidation  Même corpus que pour l’évaluation de KCIT  Exemple : “movies.xml” 129 annotations générées par KCIT 46 instances de connaissances créées par le CA Manager 27 annotations sémantiques crées pour ce document au final Element type Number of Number of Number of Recall Precision F1-measure in the correct missing spurious (A/A+B) (A/A+C) (R*P)/0.5(R+ ontology elements (A) elements (B) elements (C) P) Kb instances 208 0 64 1 0,765 0,867 Annotations 168 0 12 1 0,933 0,965  Difficultés à évaluer la performances en utilisant des 15 mesures plus adéquates comme la Learning accuracy ou la Balanced Distance Measure
  • 16. Conclusion  Avantages de cette infrastructure :  Spécialisation d’un workflow UIMA dédié à l’annotation et au peuplement d’ontologies en bénéficiant de ses apports  Cache la complexité d’UIMA si ce n’est pas nécessaire  Focalise sur la transmission et l’interprétation des résultats des outils d’extraction d’information aux référentiels sémantiques  Définit un Schéma d’annotation générique  Fournit un service (simple, à distance, architecture SOA)  Plug&play : possibilité d’écrire facilement un nouveau connecteur vers un outil externe (IE ou référentiel sémantique)  Démo en libre accès, comme un web service ou une interface de test, accessible à :  http://62.210.155.132/ca-test 16
  • 17. Travaux futurs project ontology corpus CA tool repository Terradata Architectural 3D objects DBPedia and ITM ontology (3D Geonames objects) web services VigiTermes Adverse Drug PubMed Luxid (Temis) ITM Effect ontology abstracts Eiffel Tourism Touristic TimeFrame ITM ontology web sites (Modyco, Univ Paris X) Microbio MiRNA ontology PubMed FunGen Sesame articles Discovery (INSERM) 17