SlideShare une entreprise Scribd logo
1  sur  24
Télécharger pour lire hors ligne
Elektrotehnički fakultet
    Univerzitet u Beogradu

Predmet: Pronalaženje skrivenog znanja




            Master rad



  Autor: Emil Varga 07/3041
 Profesor: Veljko Milutinović

  Interaktivni sistem za obradu teksta na
 prirodnom jeziku, pronalaţenje i vizuelno
   predstavljanje konteksta i koncepata
                                     Beograd, maj 2009.
Šta je to?
    Interaktivni sistem





    Obrada teksta na prirodnom jeziku





                                        ELIZA
                                         ‘66
                                            2/19
Šta je to?
    Pronalaţenje konteksta i koncepata





    Vizuelno predstavljanje





                                         3/19
Primena
    U QA sistemima

        Modul aLive! sistema (Demo)
    

  Filter sadrţaja dokumenata

 Social networking




                                      4/19
Tehnologije
    .NET 3.5 okruţenje

      WCF, WPF, XAML
    
     IronPython – Python i C#

  NLP alati ConceptNet i Antelope

 TagCloud vizuelizacija
 Fuzzy logika




                                    5/19
Osnove
  Računarska lingvistika

 Izvlačenje informacija
 Kontekst i koncept
 NLP alati




                           6/19
Računarska lingvistika
    Model prirodnog jezika

    Počeci 50-ih

                                               psihologija

    NLP
                                lingvistika
        Automatsko generisanje                   računarstvo
    
        i razumevanje
                                         AI
        Problemi - dvosmislene
    
        konstrukcije




                                                             7/19
Izvlačenje informacija
  Pronalaţenje informacija (IR)

 Statistika i lingvistika


  Named Entity Recognition

 Koreference                               NLP

 Termini                              IE
                                  IR
 Kontekst


                                                  8/19
Kontekst i koncept
    Kontekst

      Verbalni i sociološki
    
     Razumevanje izraza
     Ţargon



    Koncept

         Apstraktni simbol
         Jedinica znanja
         Značenje

                              9/19
Kontekst i koncept
    Concept Mining

      Uz pomoć tezaurusa (WordNet)
    
     Baza opštih znanja (Open Mind)
     Potreban kontekst

                  Znanje
    Ciljevi:

                                   A.I.                Čovek


                                      ...
        Automatsko prevoĎenje Q&A sistemi IR Semantički pretraživači
                                                                 10/19
NLP alati
    ANTELOPE

      .NET okruţenje
    
     eXtended WordNet
     NER, WSD, koreference
     Kontekst, vreme i lokacija
     www.proxem.com




                                   11/19
NLP alati
    ConceptNet





                 Znanje, Koncepti, Kontekst

      Semantička mreţa osnovnog znanja
    
     OdreĎivanje koncepata, analogija,
      teme dokumenata, emocija u tekstu
                                              12/19
Sistem
    Korisnički interfejs

        Oblak koncepata
    

    Modul za obradu teksta na prirodnom jeziku

      ConceptNet server
    
     Antelope alat
     Filter reči




                                  Antelope


                                             13/19
ConceptNet server
    ConceptNet

      Veliko vreme učitavanja
    
     Aplikacija na serveru




                   NLP modul
                     WCF
                     klijent


      Python aplikacija
    
     Integracija uz IronPython
                                  14/19
Arhitektura


         WPF komponenta                                      NLP Engine

                                               Radna nit                  Antelope
                         Filter za
  Sortirana lista                            (za Antelope)                 resurs
                          prikaz
  ContextWord
    objekata
                                                                           Filter za reči
                    Konvertori
                                               Nit za
                     za prikaz                                            ConceptNet
                                             ConceptNet
                                                                            resurs
                                     Event




                                                                                   15/19
Testiranje
    Kako smanjiti greške?

      Granična vrednost za grešku
    
     Koncepti sa više od 2 reči
     Spisak zabranjenih reči

                               25


    Granična vrednost:
                                                       maksimalna
                              20                      vrednost
                                                       pogrešnog
                                                       koncepta

      Kontekst 3%
                               15
    
                               10                      formula linearne

     Koncept, linearna f-ja
                                                       zavisnosti
                                                       granične
                                5
                                                       vrednost za
                                                       grešku od broja
                                0                      reči u tekstu
                                    0   20   40   60


                                                              16/19
Zaključak
  Vizuelan, jednostavan i interaktivan sistem

 Kratki tekstovi, pitanja (aLive!)
 Sinergija: ConceptNet + Antelope
 Saradnja: Čovek + A.I.
 Fuzzy skup = fingerprint konteksta




                                           17/19
Budući radovi
    Funkcionalni dodaci

      Označeni nepoznati koncepti
    
     Veze meĎu konceptima, dodatna provera
     Oblak koncepata, kvadrat    krug
     Padajuća lista oblasti




                                              18/19
HVALA!!
Emil Varga <emil.varga@gmail.com>
WPF i XAML
    WPF: novi grafički podsistem od .NET 3.0

      Model-View-Controler (MVC)
    
     Korisničke aplikacije i web aplikacije
     Veća kontrola, fleksibilnost
     Vektorska grafika, GUI na GPU
     2D, 3D, animacije



    XAML: deklarativni jezik na bazi XML-a

        Odvaja dizajn od koda
    

                                               20
WCF servisi
  Okruţenje za komunikaciju od .NET 3.0

 Klijent-server, pandan Java RMI
 Transparentno da li je u lokalu ili u mreţi
 Service-oriented, usluge i ugovori
 Brzo i lako se pravi web servis




                                                21
IronPython
  Python, open source

 C#, .NET, Microsoft




  IronPython = Python u .NET

 Integracija Python + C#

                               22
TagCloud
  Liste tagova, ključne reči

 Folkonomije – socijalno tagovanje
 Vizuelna predstava
      1. Flickr TagCloud
    
     Blogovi, del.ic.io.us




    Oblak pojmova, Concept Cloud

                                      23
Fuzzy logika
    Klasična logika:

        0 ili 1, tačno ili netačno
    



    Fuzzy logika:

        0, 0.2, 0.33 .., tačno, nije u potpunosti tačno..
    

    Fuzzy skupovi

        pripada, više pripada, moţda pripada..
    

  Logičko I – T norme

 Logičko ILI – T konorme
                                                        24

Contenu connexe

En vedette

Meaning and the Semantic Web
Meaning and the Semantic WebMeaning and the Semantic Web
Meaning and the Semantic WebPhiloWeb
 
Panorama Top250 EY SYNTEC Software 2014
Panorama Top250 EY SYNTEC Software 2014Panorama Top250 EY SYNTEC Software 2014
Panorama Top250 EY SYNTEC Software 2014Franck Sebag
 
Analyse de l’opinion et développement des marques - Présentation Bernard Normier
Analyse de l’opinion et développement des marques - Présentation Bernard NormierAnalyse de l’opinion et développement des marques - Présentation Bernard Normier
Analyse de l’opinion et développement des marques - Présentation Bernard NormierAproged
 
Groupe Total
Groupe TotalGroupe Total
Groupe Totalstartine
 
Enquête RegionsJob : emploi et réseaux sociaux, deuxième édition
Enquête RegionsJob : emploi et réseaux sociaux, deuxième éditionEnquête RegionsJob : emploi et réseaux sociaux, deuxième édition
Enquête RegionsJob : emploi et réseaux sociaux, deuxième éditionHelloWork
 
Maîtriser les outils web gratuits pour faire votre veille
Maîtriser les outils web gratuits pour faire votre veilleMaîtriser les outils web gratuits pour faire votre veille
Maîtriser les outils web gratuits pour faire votre veilleBilly Jannequin
 
Les grandes marques de champagne
Les grandes marques de champagneLes grandes marques de champagne
Les grandes marques de champagneAmo' Bedos
 
1Collecte, analyse et valorisation de Bigdata textuelles multilingues
1Collecte, analyse et valorisation de Bigdata textuelles multilingues1Collecte, analyse et valorisation de Bigdata textuelles multilingues
1Collecte, analyse et valorisation de Bigdata textuelles multilinguesAproged
 
La recherche d\'information sur internet
La recherche d\'information sur internetLa recherche d\'information sur internet
La recherche d\'information sur internetalexartiste
 
Les communautés virtuelles sur internet
Les communautés virtuelles sur internetLes communautés virtuelles sur internet
Les communautés virtuelles sur internetCyrille Dagorn
 
Les Françaises et la mode
Les Françaises et la modeLes Françaises et la mode
Les Françaises et la modeProxem
 
Présentation imprimante 3d FDM par le Fablab Labsud Montpellier / Jean Philip...
Présentation imprimante 3d FDM par le Fablab Labsud Montpellier / Jean Philip...Présentation imprimante 3d FDM par le Fablab Labsud Montpellier / Jean Philip...
Présentation imprimante 3d FDM par le Fablab Labsud Montpellier / Jean Philip...labsud
 
Le cheveu et la coiffure sur le web social français
Le cheveu et la coiffure sur le web social françaisLe cheveu et la coiffure sur le web social français
Le cheveu et la coiffure sur le web social françaisProxem
 
L’E-Réputation à l’heure de la surcharge informationnelle (par Eglantine Schm...
L’E-Réputation à l’heure de la surcharge informationnelle (par Eglantine Schm...L’E-Réputation à l’heure de la surcharge informationnelle (par Eglantine Schm...
L’E-Réputation à l’heure de la surcharge informationnelle (par Eglantine Schm...Arnaud Robin
 

En vedette (18)

5 extensions-cheveux
5 extensions-cheveux5 extensions-cheveux
5 extensions-cheveux
 
Meaning and the Semantic Web
Meaning and the Semantic WebMeaning and the Semantic Web
Meaning and the Semantic Web
 
Panorama Top250 EY SYNTEC Software 2014
Panorama Top250 EY SYNTEC Software 2014Panorama Top250 EY SYNTEC Software 2014
Panorama Top250 EY SYNTEC Software 2014
 
Analyse de l’opinion et développement des marques - Présentation Bernard Normier
Analyse de l’opinion et développement des marques - Présentation Bernard NormierAnalyse de l’opinion et développement des marques - Présentation Bernard Normier
Analyse de l’opinion et développement des marques - Présentation Bernard Normier
 
Nuskin cheveux presentation
Nuskin cheveux presentationNuskin cheveux presentation
Nuskin cheveux presentation
 
Groupe Total
Groupe TotalGroupe Total
Groupe Total
 
Enquête RegionsJob : emploi et réseaux sociaux, deuxième édition
Enquête RegionsJob : emploi et réseaux sociaux, deuxième éditionEnquête RegionsJob : emploi et réseaux sociaux, deuxième édition
Enquête RegionsJob : emploi et réseaux sociaux, deuxième édition
 
Maîtriser les outils web gratuits pour faire votre veille
Maîtriser les outils web gratuits pour faire votre veilleMaîtriser les outils web gratuits pour faire votre veille
Maîtriser les outils web gratuits pour faire votre veille
 
Les grandes marques de champagne
Les grandes marques de champagneLes grandes marques de champagne
Les grandes marques de champagne
 
1Collecte, analyse et valorisation de Bigdata textuelles multilingues
1Collecte, analyse et valorisation de Bigdata textuelles multilingues1Collecte, analyse et valorisation de Bigdata textuelles multilingues
1Collecte, analyse et valorisation de Bigdata textuelles multilingues
 
La recherche d\'information sur internet
La recherche d\'information sur internetLa recherche d\'information sur internet
La recherche d\'information sur internet
 
Les communautés virtuelles sur internet
Les communautés virtuelles sur internetLes communautés virtuelles sur internet
Les communautés virtuelles sur internet
 
Les Françaises et la mode
Les Françaises et la modeLes Françaises et la mode
Les Françaises et la mode
 
Présentation imprimante 3d FDM par le Fablab Labsud Montpellier / Jean Philip...
Présentation imprimante 3d FDM par le Fablab Labsud Montpellier / Jean Philip...Présentation imprimante 3d FDM par le Fablab Labsud Montpellier / Jean Philip...
Présentation imprimante 3d FDM par le Fablab Labsud Montpellier / Jean Philip...
 
Le cheveu et la coiffure sur le web social français
Le cheveu et la coiffure sur le web social françaisLe cheveu et la coiffure sur le web social français
Le cheveu et la coiffure sur le web social français
 
Les français, le développement durable et la coiffure
Les français, le développement durable et la coiffureLes français, le développement durable et la coiffure
Les français, le développement durable et la coiffure
 
L’E-Réputation à l’heure de la surcharge informationnelle (par Eglantine Schm...
L’E-Réputation à l’heure de la surcharge informationnelle (par Eglantine Schm...L’E-Réputation à l’heure de la surcharge informationnelle (par Eglantine Schm...
L’E-Réputation à l’heure de la surcharge informationnelle (par Eglantine Schm...
 
Guide Google
Guide GoogleGuide Google
Guide Google
 

Interaktivni sistem za obradu teksta na prirodnom jeziku, pronalaženje i vizuelno predstavljanje konteksta i koncepata

  • 1. Elektrotehnički fakultet Univerzitet u Beogradu Predmet: Pronalaženje skrivenog znanja Master rad Autor: Emil Varga 07/3041 Profesor: Veljko Milutinović Interaktivni sistem za obradu teksta na prirodnom jeziku, pronalaţenje i vizuelno predstavljanje konteksta i koncepata Beograd, maj 2009.
  • 2. Šta je to? Interaktivni sistem  Obrada teksta na prirodnom jeziku  ELIZA ‘66 2/19
  • 3. Šta je to? Pronalaţenje konteksta i koncepata  Vizuelno predstavljanje  3/19
  • 4. Primena U QA sistemima  Modul aLive! sistema (Demo)  Filter sadrţaja dokumenata   Social networking 4/19
  • 5. Tehnologije .NET 3.5 okruţenje  WCF, WPF, XAML   IronPython – Python i C# NLP alati ConceptNet i Antelope   TagCloud vizuelizacija  Fuzzy logika 5/19
  • 6. Osnove Računarska lingvistika   Izvlačenje informacija  Kontekst i koncept  NLP alati 6/19
  • 7. Računarska lingvistika Model prirodnog jezika  Počeci 50-ih  psihologija NLP  lingvistika Automatsko generisanje računarstvo  i razumevanje AI Problemi - dvosmislene  konstrukcije 7/19
  • 8. Izvlačenje informacija Pronalaţenje informacija (IR)   Statistika i lingvistika Named Entity Recognition   Koreference NLP  Termini IE IR  Kontekst 8/19
  • 9. Kontekst i koncept Kontekst  Verbalni i sociološki   Razumevanje izraza  Ţargon Koncept   Apstraktni simbol  Jedinica znanja  Značenje 9/19
  • 10. Kontekst i koncept Concept Mining  Uz pomoć tezaurusa (WordNet)   Baza opštih znanja (Open Mind)  Potreban kontekst Znanje Ciljevi:  A.I. Čovek ... Automatsko prevoĎenje Q&A sistemi IR Semantički pretraživači 10/19
  • 11. NLP alati ANTELOPE  .NET okruţenje   eXtended WordNet  NER, WSD, koreference  Kontekst, vreme i lokacija  www.proxem.com 11/19
  • 12. NLP alati ConceptNet  Znanje, Koncepti, Kontekst Semantička mreţa osnovnog znanja   OdreĎivanje koncepata, analogija, teme dokumenata, emocija u tekstu 12/19
  • 13. Sistem Korisnički interfejs  Oblak koncepata  Modul za obradu teksta na prirodnom jeziku  ConceptNet server   Antelope alat  Filter reči Antelope 13/19
  • 14. ConceptNet server ConceptNet  Veliko vreme učitavanja   Aplikacija na serveru NLP modul WCF klijent Python aplikacija   Integracija uz IronPython 14/19
  • 15. Arhitektura WPF komponenta NLP Engine Radna nit Antelope Filter za Sortirana lista (za Antelope) resurs prikaz ContextWord objekata Filter za reči Konvertori Nit za za prikaz ConceptNet ConceptNet resurs Event 15/19
  • 16. Testiranje Kako smanjiti greške?  Granična vrednost za grešku   Koncepti sa više od 2 reči  Spisak zabranjenih reči 25 Granična vrednost: maksimalna  20 vrednost pogrešnog koncepta Kontekst 3% 15  10 formula linearne  Koncept, linearna f-ja zavisnosti granične 5 vrednost za grešku od broja 0 reči u tekstu 0 20 40 60 16/19
  • 17. Zaključak Vizuelan, jednostavan i interaktivan sistem   Kratki tekstovi, pitanja (aLive!)  Sinergija: ConceptNet + Antelope  Saradnja: Čovek + A.I.  Fuzzy skup = fingerprint konteksta 17/19
  • 18. Budući radovi Funkcionalni dodaci  Označeni nepoznati koncepti   Veze meĎu konceptima, dodatna provera  Oblak koncepata, kvadrat krug  Padajuća lista oblasti 18/19
  • 20. WPF i XAML WPF: novi grafički podsistem od .NET 3.0  Model-View-Controler (MVC)   Korisničke aplikacije i web aplikacije  Veća kontrola, fleksibilnost  Vektorska grafika, GUI na GPU  2D, 3D, animacije XAML: deklarativni jezik na bazi XML-a  Odvaja dizajn od koda  20
  • 21. WCF servisi Okruţenje za komunikaciju od .NET 3.0   Klijent-server, pandan Java RMI  Transparentno da li je u lokalu ili u mreţi  Service-oriented, usluge i ugovori  Brzo i lako se pravi web servis 21
  • 22. IronPython Python, open source   C#, .NET, Microsoft IronPython = Python u .NET   Integracija Python + C# 22
  • 23. TagCloud Liste tagova, ključne reči   Folkonomije – socijalno tagovanje  Vizuelna predstava 1. Flickr TagCloud   Blogovi, del.ic.io.us Oblak pojmova, Concept Cloud  23
  • 24. Fuzzy logika Klasična logika:  0 ili 1, tačno ili netačno  Fuzzy logika:  0, 0.2, 0.33 .., tačno, nije u potpunosti tačno..  Fuzzy skupovi  pripada, više pripada, moţda pripada..  Logičko I – T norme   Logičko ILI – T konorme 24