Interaktivni sistem za obradu teksta na prirodnom jeziku, pronalaženje i vizuelno predstavljanje konteksta i koncepata je Natural Language Processing (NLP) sistem za pronalaženje konteksta, odnosno tematike teksta i bitnih pojmova u tekstu, koji spaja ConceptNet i Antelope NLP alate da bi izvukao najbolje rezultate iz oba. Kreiran je kao modul za obradu pitanja aLive! sistema za inteligentno prosleđivanje pitanja i odgovora, razvijanog na Elektrotehničkom fakultetu u Beogradu. Interaktivni sistem za obradu teksta na prirodnom jeziku, pronalaženje i vizuelno predstavljanje konteksta i koncepata ima ulogu da obradi i izvuče bitne informacije iz korisnikovog pitanja, i to u obliku oblaka, odnosno fuzzy skupa koncepata i konteksta. Korisnicima je na jednostavan i intuitivan način omogućena interakcija sa vizuelnom predstavom oblaka koncepata da bi dodatnim korigovanjem i dopunjavanjem NLP alata postigli veću preciznost. Na osnovu dobijenog fuzzy skupa aLive! sistem odlučuje o prosleđivanju pitanja.
-----------------------------------------------------------
The interactive system for Natural Language Processing, concept and context extraction and visualization is a Natural Language Processing (NLP) system that integrates ConceptNet and Antelope NLP tools to get the best results from their synergy through extracting the topic and important conceptions from texts. It is designed as a question processing modul of the aLive! - an intelligent and efficient question and answer forwarding system, in development at the Faculty of Electrical Engineering in Belgrade. The interactive system for Natural Language Processing, concept and context extraction and visualization process and extracts important information from users’ questions, and repsresents them in a form of a cloud (a fuzzy set) of concepts and context. Users can interact with the visual representation of the concept and context cloud in an easy and intuitive way. They can adjust and modify the results form the NLP tools for getting better results. The aLive! system uses the fuzzy set of concepts and context to decide on question forwarding.
Interaktivni sistem za obradu teksta na prirodnom jeziku, pronalaženje i vizuelno predstavljanje konteksta i koncepata
1. Elektrotehnički fakultet
Univerzitet u Beogradu
Predmet: Pronalaženje skrivenog znanja
Master rad
Autor: Emil Varga 07/3041
Profesor: Veljko Milutinović
Interaktivni sistem za obradu teksta na
prirodnom jeziku, pronalaţenje i vizuelno
predstavljanje konteksta i koncepata
Beograd, maj 2009.
2. Šta je to?
Interaktivni sistem
Obrada teksta na prirodnom jeziku
ELIZA
‘66
2/19
3. Šta je to?
Pronalaţenje konteksta i koncepata
Vizuelno predstavljanje
3/19
4. Primena
U QA sistemima
Modul aLive! sistema (Demo)
Filter sadrţaja dokumenata
Social networking
4/19
5. Tehnologije
.NET 3.5 okruţenje
WCF, WPF, XAML
IronPython – Python i C#
NLP alati ConceptNet i Antelope
TagCloud vizuelizacija
Fuzzy logika
5/19
6. Osnove
Računarska lingvistika
Izvlačenje informacija
Kontekst i koncept
NLP alati
6/19
7. Računarska lingvistika
Model prirodnog jezika
Počeci 50-ih
psihologija
NLP
lingvistika
Automatsko generisanje računarstvo
i razumevanje
AI
Problemi - dvosmislene
konstrukcije
7/19
8. Izvlačenje informacija
Pronalaţenje informacija (IR)
Statistika i lingvistika
Named Entity Recognition
Koreference NLP
Termini IE
IR
Kontekst
8/19
9. Kontekst i koncept
Kontekst
Verbalni i sociološki
Razumevanje izraza
Ţargon
Koncept
Apstraktni simbol
Jedinica znanja
Značenje
9/19
10. Kontekst i koncept
Concept Mining
Uz pomoć tezaurusa (WordNet)
Baza opštih znanja (Open Mind)
Potreban kontekst
Znanje
Ciljevi:
A.I. Čovek
...
Automatsko prevoĎenje Q&A sistemi IR Semantički pretraživači
10/19
11. NLP alati
ANTELOPE
.NET okruţenje
eXtended WordNet
NER, WSD, koreference
Kontekst, vreme i lokacija
www.proxem.com
11/19
12. NLP alati
ConceptNet
Znanje, Koncepti, Kontekst
Semantička mreţa osnovnog znanja
OdreĎivanje koncepata, analogija,
teme dokumenata, emocija u tekstu
12/19
13. Sistem
Korisnički interfejs
Oblak koncepata
Modul za obradu teksta na prirodnom jeziku
ConceptNet server
Antelope alat
Filter reči
Antelope
13/19
14. ConceptNet server
ConceptNet
Veliko vreme učitavanja
Aplikacija na serveru
NLP modul
WCF
klijent
Python aplikacija
Integracija uz IronPython
14/19
15. Arhitektura
WPF komponenta NLP Engine
Radna nit Antelope
Filter za
Sortirana lista (za Antelope) resurs
prikaz
ContextWord
objekata
Filter za reči
Konvertori
Nit za
za prikaz ConceptNet
ConceptNet
resurs
Event
15/19
16. Testiranje
Kako smanjiti greške?
Granična vrednost za grešku
Koncepti sa više od 2 reči
Spisak zabranjenih reči
25
Granična vrednost:
maksimalna
20 vrednost
pogrešnog
koncepta
Kontekst 3%
15
10 formula linearne
Koncept, linearna f-ja
zavisnosti
granične
5
vrednost za
grešku od broja
0 reči u tekstu
0 20 40 60
16/19
17. Zaključak
Vizuelan, jednostavan i interaktivan sistem
Kratki tekstovi, pitanja (aLive!)
Sinergija: ConceptNet + Antelope
Saradnja: Čovek + A.I.
Fuzzy skup = fingerprint konteksta
17/19
18. Budući radovi
Funkcionalni dodaci
Označeni nepoznati koncepti
Veze meĎu konceptima, dodatna provera
Oblak koncepata, kvadrat krug
Padajuća lista oblasti
18/19
20. WPF i XAML
WPF: novi grafički podsistem od .NET 3.0
Model-View-Controler (MVC)
Korisničke aplikacije i web aplikacije
Veća kontrola, fleksibilnost
Vektorska grafika, GUI na GPU
2D, 3D, animacije
XAML: deklarativni jezik na bazi XML-a
Odvaja dizajn od koda
20
21. WCF servisi
Okruţenje za komunikaciju od .NET 3.0
Klijent-server, pandan Java RMI
Transparentno da li je u lokalu ili u mreţi
Service-oriented, usluge i ugovori
Brzo i lako se pravi web servis
21
22. IronPython
Python, open source
C#, .NET, Microsoft
IronPython = Python u .NET
Integracija Python + C#
22
24. Fuzzy logika
Klasična logika:
0 ili 1, tačno ili netačno
Fuzzy logika:
0, 0.2, 0.33 .., tačno, nije u potpunosti tačno..
Fuzzy skupovi
pripada, više pripada, moţda pripada..
Logičko I – T norme
Logičko ILI – T konorme
24