A szövegekben található információk hatékony kinyeréséhez számos nyelvi jelenséget tudnunk kell kezelni, mint például tulajdonnevek és névelemek, többszavas kifejezések, nyelvi bizonytalanság és szubjektivitás. Az előadásban bemutatjuk azokat a Szegeden készült korpuszokat, amelyek különböző doménekből és nyelvekből származó szövegeket tartalmaznak, és bennük nyelvész szakértők kézzel megjelölték az előbb említett jelenségeket, így tanító és tesztadatbázisként szolgálhatnak az információkinyerő rendszerek különböző moduljaihoz.
2. NyelvtechnológiaiCsoport
Bevezető
• IE: strukturálatlan szövegből strukturált
információ
A Nagy Hal Zrt. felvásárolta a Kis Hal Bt.-t.
Esemény: felvásárlás Vevő: Nagy Hal Zrt. Áru: Kis Hal Bt.
• Részproblémák:
– Névelem-felismerés
– Bizonytalan/tagadott kifejezések azonosítása
– Nem szó szerinti jelentéses egységek felismerése
– Szubjektivitás, vélemények azonosítása
– …
• Gépi tanuláson alapuló módszerek – korpuszok
kellenek!
4. NyelvtechnológiaiCsoport
Bizonytalanság és tagadás
• Tényszerű vs. tagadott vs. bizonytalan
információ
– Esik. Nem esik. Lehet, hogy esik.
• Korpuszok:
– BioScope: angol biológiai szövegek
(UC+NEG)
– WikiWeasel: angol WP-szövegek (UC)
– hUnCertainty: magyar WP-szövegek,
bűnügyi hírek, Facebook- és blogszövegek
(UC)
• UC-azonosító rendszerek angolra és magyarra
5. NyelvtechnológiaiCsoport
Nem szó szerinti jelentés
• Nem teljesen kompozicionális kifejezések
– alulról szagolja az ibolyát
– farkasétvágy != farkas + étvágy
• Korpuszok:
– SZK: félig kompozicionális szerkezetek (FX)
(magyar)
– Wiki50: több MWE-osztály (angol)
– 4FX: jogi szövegek, FX (magyar, angol,
német, spanyol)
– SzegedParalellFX: FX (magyar, angol)
• MWE-felismerő megoldások angolra, magyarra,
németre és spanyolra
7. NyelvtechnológiaiCsoport
Feladatorientált korpuszok
• CV-k automatikus feldolgozása
– Angol, magyar, német
– Sokrétű annotáció: személyi adatok, iskolai
végzettség, előző munkahely, hobbi stb.
• Bűnügyi IE-rendszer
– Magyar
– Különösen sokféle névelem (vezeték-,
keresztnév, álnév, gúnynév stb.)
• Szabadalmak feldolgozása
– Angol
– Sokrétű annotáció: kémiai névelemek,
tagmondat-határolók, eseményt jelölő
szavak…
8. NyelvtechnológiaiCsoport Felhasználhatóság
• Információkinyerésben hasznos modulok
fejleszthetők a korpuszok alapján
• Magyar, angol, német, spanyol, (olasz,
francia)… nyelvek
• Korpuszok több doménre is
• Általában oktatási és kutatási célra
szabadon felhasználhatók
• Ipari projektekben fejlesztett anyagok
http://rgai.inf.u-szeged.hu/nlp/download