SlideShare a Scribd company logo
1 of 8
NyelvtechnológiaiCsoport
Korpuszok az
információkinyerésben
Vincze Veronika
NyelvtechnológiaiCsoport
Bevezető
• IE: strukturálatlan szövegből strukturált
információ
A Nagy Hal Zrt. felvásárolta a Kis Hal Bt.-t.
Esemény: felvásárlás Vevő: Nagy Hal Zrt. Áru: Kis Hal Bt.
• Részproblémák:
– Névelem-felismerés
– Bizonytalan/tagadott kifejezések azonosítása
– Nem szó szerinti jelentéses egységek felismerése
– Szubjektivitás, vélemények azonosítása
– …
• Gépi tanuláson alapuló módszerek – korpuszok
kellenek!
NyelvtechnológiaiCsoport
Névelem-felismerés
• Tulajdonnevek, azonosítók…
• Az OTPORG új fiókot nyitott EgerbenLOC.
• Domének és nyelvek:
– SZK üzleti rövidhírek + web
– Bűnügyi szövegek
– Wikipedia-szövegek (Wiki50, angol)
• NER rendszerek angolra és
magyarra
NyelvtechnológiaiCsoport
Bizonytalanság és tagadás
• Tényszerű vs. tagadott vs. bizonytalan
információ
– Esik. Nem esik. Lehet, hogy esik.
• Korpuszok:
– BioScope: angol biológiai szövegek
(UC+NEG)
– WikiWeasel: angol WP-szövegek (UC)
– hUnCertainty: magyar WP-szövegek,
bűnügyi hírek, Facebook- és blogszövegek
(UC)
• UC-azonosító rendszerek angolra és magyarra
NyelvtechnológiaiCsoport
Nem szó szerinti jelentés
• Nem teljesen kompozicionális kifejezések
– alulról szagolja az ibolyát
– farkasétvágy != farkas + étvágy
• Korpuszok:
– SZK: félig kompozicionális szerkezetek (FX)
(magyar)
– Wiki50: több MWE-osztály (angol)
– 4FX: jogi szövegek, FX (magyar, angol,
német, spanyol)
– SzegedParalellFX: FX (magyar, angol)
• MWE-felismerő megoldások angolra, magyarra,
németre és spanyolra
NyelvtechnológiaiCsoport
Szubjektivitás
• Vélemények megállapítása adott
témáról
– az iPhone egy xar
• Korpuszok:
– fórum-hozzászólások (magyar)
– termékismertetők (magyar, angol)
– utazási élmények (angol)
• Gépi tanuló megoldások több
doménre
NyelvtechnológiaiCsoport
Feladatorientált korpuszok
• CV-k automatikus feldolgozása
– Angol, magyar, német
– Sokrétű annotáció: személyi adatok, iskolai
végzettség, előző munkahely, hobbi stb.
• Bűnügyi IE-rendszer
– Magyar
– Különösen sokféle névelem (vezeték-,
keresztnév, álnév, gúnynév stb.)
• Szabadalmak feldolgozása
– Angol
– Sokrétű annotáció: kémiai névelemek,
tagmondat-határolók, eseményt jelölő
szavak…
NyelvtechnológiaiCsoport Felhasználhatóság
• Információkinyerésben hasznos modulok
fejleszthetők a korpuszok alapján
• Magyar, angol, német, spanyol, (olasz,
francia)… nyelvek
• Korpuszok több doménre is
• Általában oktatási és kutatási célra
szabadon felhasználhatók
• Ipari projektekben fejlesztett anyagok
http://rgai.inf.u-szeged.hu/nlp/download

More Related Content

More from Zoltan Varju

Balogh Kitti: Szövegbányászat
Balogh Kitti: SzövegbányászatBalogh Kitti: Szövegbányászat
Balogh Kitti: SzövegbányászatZoltan Varju
 
Balogh Kitti - Szűcs Krisztina - Varjú Zoltán: TechTea: Szövegvizualizációk a...
Balogh Kitti - Szűcs Krisztina - Varjú Zoltán: TechTea: Szövegvizualizációk a...Balogh Kitti - Szűcs Krisztina - Varjú Zoltán: TechTea: Szövegvizualizációk a...
Balogh Kitti - Szűcs Krisztina - Varjú Zoltán: TechTea: Szövegvizualizációk a...Zoltan Varju
 
Kisvilágunk, a nyelv
Kisvilágunk, a nyelvKisvilágunk, a nyelv
Kisvilágunk, a nyelvZoltan Varju
 
Balogh Kitti - Szűcs Krisztina: Képes beszéd
Balogh Kitti - Szűcs Krisztina: Képes beszédBalogh Kitti - Szűcs Krisztina: Képes beszéd
Balogh Kitti - Szűcs Krisztina: Képes beszédZoltan Varju
 
Balogh Kitti: Politika a sorok között - Politikai témájú szövegelemzések
Balogh Kitti: Politika a sorok között - Politikai témájú szövegelemzésekBalogh Kitti: Politika a sorok között - Politikai témájú szövegelemzések
Balogh Kitti: Politika a sorok között - Politikai témájú szövegelemzésekZoltan Varju
 
Érzelmek hálójában – hálózat- és tartalomelemzés
Érzelmek hálójában – hálózat- és tartalomelemzésÉrzelmek hálójában – hálózat- és tartalomelemzés
Érzelmek hálójában – hálózat- és tartalomelemzésZoltan Varju
 
Szabó - Varjú: Automatikus értékelés- és érzelemelemzés magyar nyelvű szöveg...
Szabó - Varjú: Automatikus  értékelés- és érzelemelemzés magyar nyelvű szöveg...Szabó - Varjú: Automatikus  értékelés- és érzelemelemzés magyar nyelvű szöveg...
Szabó - Varjú: Automatikus értékelés- és érzelemelemzés magyar nyelvű szöveg...Zoltan Varju
 
Mókus (Koncsik Anita, Varjú Zoltán)
Mókus (Koncsik Anita, Varjú Zoltán)Mókus (Koncsik Anita, Varjú Zoltán)
Mókus (Koncsik Anita, Varjú Zoltán)Zoltan Varju
 
Születésház - Adatozz okosan hackathon (Schmidt Erika, Balogh Kitti, Hudy Rób...
Születésház - Adatozz okosan hackathon (Schmidt Erika, Balogh Kitti, Hudy Rób...Születésház - Adatozz okosan hackathon (Schmidt Erika, Balogh Kitti, Hudy Rób...
Születésház - Adatozz okosan hackathon (Schmidt Erika, Balogh Kitti, Hudy Rób...Zoltan Varju
 
Sorok között olvasni
Sorok között olvasniSorok között olvasni
Sorok között olvasniZoltan Varju
 
Danics Szabina Lívia: A magyar és az orosz melléknévi igenevek a megfelelteté...
Danics Szabina Lívia: A magyar és az orosz melléknévi igenevek a megfelelteté...Danics Szabina Lívia: A magyar és az orosz melléknévi igenevek a megfelelteté...
Danics Szabina Lívia: A magyar és az orosz melléknévi igenevek a megfelelteté...Zoltan Varju
 
Rasztik Zita: A стартовать jövevényszó fejlődési útja
Rasztik Zita: A стартовать jövevényszó fejlődési útjaRasztik Zita: A стартовать jövevényszó fejlődési útja
Rasztik Zita: A стартовать jövevényszó fejlődési útjaZoltan Varju
 
Kontextus és a hivatkozások ereje
Kontextus és a hivatkozások erejeKontextus és a hivatkozások ereje
Kontextus és a hivatkozások erejeZoltan Varju
 
Simon Eszter: Silver standard korpuszok tulajdonnév-felismeréshez
Simon Eszter: Silver standard korpuszok tulajdonnév-felismeréshezSimon Eszter: Silver standard korpuszok tulajdonnév-felismeréshez
Simon Eszter: Silver standard korpuszok tulajdonnév-felismeréshezZoltan Varju
 
Miháltz Márton: Magyar wordnet
Miháltz Márton: Magyar wordnetMiháltz Márton: Magyar wordnet
Miháltz Márton: Magyar wordnetZoltan Varju
 
Ács Judit: Online soknyelvű szótárak
Ács Judit: Online soknyelvű szótárakÁcs Judit: Online soknyelvű szótárak
Ács Judit: Online soknyelvű szótárakZoltan Varju
 
Sass Bálint: 28 millió szintaktikailag elemzett mondat és 500000 igei szerkezet
Sass Bálint: 28 millió szintaktikailag elemzett mondat és 500000 igei szerkezetSass Bálint: 28 millió szintaktikailag elemzett mondat és 500000 igei szerkezet
Sass Bálint: 28 millió szintaktikailag elemzett mondat és 500000 igei szerkezetZoltan Varju
 
Vincze Veronika: Korpuszok az információkinyerésben
Vincze Veronika: Korpuszok az információkinyerésben Vincze Veronika: Korpuszok az információkinyerésben
Vincze Veronika: Korpuszok az információkinyerésben Zoltan Varju
 
Textus; szövegek hálójában
Textus; szövegek hálójábanTextus; szövegek hálójában
Textus; szövegek hálójábanZoltan Varju
 

More from Zoltan Varju (20)

Balogh Kitti: Szövegbányászat
Balogh Kitti: SzövegbányászatBalogh Kitti: Szövegbányászat
Balogh Kitti: Szövegbányászat
 
Balogh Kitti - Szűcs Krisztina - Varjú Zoltán: TechTea: Szövegvizualizációk a...
Balogh Kitti - Szűcs Krisztina - Varjú Zoltán: TechTea: Szövegvizualizációk a...Balogh Kitti - Szűcs Krisztina - Varjú Zoltán: TechTea: Szövegvizualizációk a...
Balogh Kitti - Szűcs Krisztina - Varjú Zoltán: TechTea: Szövegvizualizációk a...
 
Kisvilágunk, a nyelv
Kisvilágunk, a nyelvKisvilágunk, a nyelv
Kisvilágunk, a nyelv
 
Balogh Kitti - Szűcs Krisztina: Képes beszéd
Balogh Kitti - Szűcs Krisztina: Képes beszédBalogh Kitti - Szűcs Krisztina: Képes beszéd
Balogh Kitti - Szűcs Krisztina: Képes beszéd
 
Balogh Kitti: Politika a sorok között - Politikai témájú szövegelemzések
Balogh Kitti: Politika a sorok között - Politikai témájú szövegelemzésekBalogh Kitti: Politika a sorok között - Politikai témájú szövegelemzések
Balogh Kitti: Politika a sorok között - Politikai témájú szövegelemzések
 
Érzelmek hálójában – hálózat- és tartalomelemzés
Érzelmek hálójában – hálózat- és tartalomelemzésÉrzelmek hálójában – hálózat- és tartalomelemzés
Érzelmek hálójában – hálózat- és tartalomelemzés
 
Szabó - Varjú: Automatikus értékelés- és érzelemelemzés magyar nyelvű szöveg...
Szabó - Varjú: Automatikus  értékelés- és érzelemelemzés magyar nyelvű szöveg...Szabó - Varjú: Automatikus  értékelés- és érzelemelemzés magyar nyelvű szöveg...
Szabó - Varjú: Automatikus értékelés- és érzelemelemzés magyar nyelvű szöveg...
 
Mókus (Koncsik Anita, Varjú Zoltán)
Mókus (Koncsik Anita, Varjú Zoltán)Mókus (Koncsik Anita, Varjú Zoltán)
Mókus (Koncsik Anita, Varjú Zoltán)
 
Születésház - Adatozz okosan hackathon (Schmidt Erika, Balogh Kitti, Hudy Rób...
Születésház - Adatozz okosan hackathon (Schmidt Erika, Balogh Kitti, Hudy Rób...Születésház - Adatozz okosan hackathon (Schmidt Erika, Balogh Kitti, Hudy Rób...
Születésház - Adatozz okosan hackathon (Schmidt Erika, Balogh Kitti, Hudy Rób...
 
Sorok között olvasni
Sorok között olvasniSorok között olvasni
Sorok között olvasni
 
Danics Szabina Lívia: A magyar és az orosz melléknévi igenevek a megfelelteté...
Danics Szabina Lívia: A magyar és az orosz melléknévi igenevek a megfelelteté...Danics Szabina Lívia: A magyar és az orosz melléknévi igenevek a megfelelteté...
Danics Szabina Lívia: A magyar és az orosz melléknévi igenevek a megfelelteté...
 
Rasztik Zita: A стартовать jövevényszó fejlődési útja
Rasztik Zita: A стартовать jövevényszó fejlődési útjaRasztik Zita: A стартовать jövevényszó fejlődési útja
Rasztik Zita: A стартовать jövevényszó fejlődési útja
 
Kontextus és a hivatkozások ereje
Kontextus és a hivatkozások erejeKontextus és a hivatkozások ereje
Kontextus és a hivatkozások ereje
 
Simon Eszter: Silver standard korpuszok tulajdonnév-felismeréshez
Simon Eszter: Silver standard korpuszok tulajdonnév-felismeréshezSimon Eszter: Silver standard korpuszok tulajdonnév-felismeréshez
Simon Eszter: Silver standard korpuszok tulajdonnév-felismeréshez
 
Felhívás
FelhívásFelhívás
Felhívás
 
Miháltz Márton: Magyar wordnet
Miháltz Márton: Magyar wordnetMiháltz Márton: Magyar wordnet
Miháltz Márton: Magyar wordnet
 
Ács Judit: Online soknyelvű szótárak
Ács Judit: Online soknyelvű szótárakÁcs Judit: Online soknyelvű szótárak
Ács Judit: Online soknyelvű szótárak
 
Sass Bálint: 28 millió szintaktikailag elemzett mondat és 500000 igei szerkezet
Sass Bálint: 28 millió szintaktikailag elemzett mondat és 500000 igei szerkezetSass Bálint: 28 millió szintaktikailag elemzett mondat és 500000 igei szerkezet
Sass Bálint: 28 millió szintaktikailag elemzett mondat és 500000 igei szerkezet
 
Vincze Veronika: Korpuszok az információkinyerésben
Vincze Veronika: Korpuszok az információkinyerésben Vincze Veronika: Korpuszok az információkinyerésben
Vincze Veronika: Korpuszok az információkinyerésben
 
Textus; szövegek hálójában
Textus; szövegek hálójábanTextus; szövegek hálójában
Textus; szövegek hálójában
 

Vincze Veronika: Korpuszok az információkinyerésben

  • 2. NyelvtechnológiaiCsoport Bevezető • IE: strukturálatlan szövegből strukturált információ A Nagy Hal Zrt. felvásárolta a Kis Hal Bt.-t. Esemény: felvásárlás Vevő: Nagy Hal Zrt. Áru: Kis Hal Bt. • Részproblémák: – Névelem-felismerés – Bizonytalan/tagadott kifejezések azonosítása – Nem szó szerinti jelentéses egységek felismerése – Szubjektivitás, vélemények azonosítása – … • Gépi tanuláson alapuló módszerek – korpuszok kellenek!
  • 3. NyelvtechnológiaiCsoport Névelem-felismerés • Tulajdonnevek, azonosítók… • Az OTPORG új fiókot nyitott EgerbenLOC. • Domének és nyelvek: – SZK üzleti rövidhírek + web – Bűnügyi szövegek – Wikipedia-szövegek (Wiki50, angol) • NER rendszerek angolra és magyarra
  • 4. NyelvtechnológiaiCsoport Bizonytalanság és tagadás • Tényszerű vs. tagadott vs. bizonytalan információ – Esik. Nem esik. Lehet, hogy esik. • Korpuszok: – BioScope: angol biológiai szövegek (UC+NEG) – WikiWeasel: angol WP-szövegek (UC) – hUnCertainty: magyar WP-szövegek, bűnügyi hírek, Facebook- és blogszövegek (UC) • UC-azonosító rendszerek angolra és magyarra
  • 5. NyelvtechnológiaiCsoport Nem szó szerinti jelentés • Nem teljesen kompozicionális kifejezések – alulról szagolja az ibolyát – farkasétvágy != farkas + étvágy • Korpuszok: – SZK: félig kompozicionális szerkezetek (FX) (magyar) – Wiki50: több MWE-osztály (angol) – 4FX: jogi szövegek, FX (magyar, angol, német, spanyol) – SzegedParalellFX: FX (magyar, angol) • MWE-felismerő megoldások angolra, magyarra, németre és spanyolra
  • 6. NyelvtechnológiaiCsoport Szubjektivitás • Vélemények megállapítása adott témáról – az iPhone egy xar • Korpuszok: – fórum-hozzászólások (magyar) – termékismertetők (magyar, angol) – utazási élmények (angol) • Gépi tanuló megoldások több doménre
  • 7. NyelvtechnológiaiCsoport Feladatorientált korpuszok • CV-k automatikus feldolgozása – Angol, magyar, német – Sokrétű annotáció: személyi adatok, iskolai végzettség, előző munkahely, hobbi stb. • Bűnügyi IE-rendszer – Magyar – Különösen sokféle névelem (vezeték-, keresztnév, álnév, gúnynév stb.) • Szabadalmak feldolgozása – Angol – Sokrétű annotáció: kémiai névelemek, tagmondat-határolók, eseményt jelölő szavak…
  • 8. NyelvtechnológiaiCsoport Felhasználhatóság • Információkinyerésben hasznos modulok fejleszthetők a korpuszok alapján • Magyar, angol, német, spanyol, (olasz, francia)… nyelvek • Korpuszok több doménre is • Általában oktatási és kutatási célra szabadon felhasználhatók • Ipari projektekben fejlesztett anyagok http://rgai.inf.u-szeged.hu/nlp/download