SlideShare une entreprise Scribd logo
1  sur  8
PPKE ITK Nyelvtechnológiai Labor
http://nlpg.itk.ppke.hu/
Miháltz Márton <mihaltz.marton@itk.ppke.hu>
Bemutatkozás
• Pázmány Péter Katolikus Egyetem Információs
Technológiai és Bionikai Kar
• Nyelvtechnológiai Labor:
– PPKE ITK Nyelvtechnológiai Csoport
– MTA-PPKE Magyar
Nyelvtechnológiai Kutatócsoport
• Vezető: Prószéky Gábor
• 9 doktorandusz (Endrédy István, Indig Balázs, Laki László, Ligeti-
Nagy Noémi, Novák Attila, Orosz György, Siklósi Borbála, Simonyi
András, Yang Zijian Győző), 2 posztdok (Sass Bálint, Miháltz
Márton)
• Oktatás: nyelvtechnológia szakirány, mérnökinformatikus
BSc és MSc; PhD képzés
Kutatási területek
• Morfológiai elemzés és egyértelműsítés
• Szintaktikai és szemantikai elemzés
• Orvosi szövegek feldolgozása
• Helyesírási hibák automatikus javítása
• Statisztikai gépi fordítás és alkalmazásai
Projektek
• Információkinyerés klinikai szövegekből
• Magyar nyelvi elemző
• PurePos: nyílt forrású morfológiai elemző
és egyértelműsítő
• (…)
Információkinyerés klinikai
szövegekből
• Kezelőlapok, zárójelentések stb.
– strukturálatlanság, rövidítések, helyesírási hibák,
elírások, latin-magyar keveredés, szaknyelv stb.
• Feldolgozás: domain-adaptáció
– Szegmentálás, tokenizálás: szabályok, gépi tanulás
– Helyesírási hibák automatikus javítása: javaslat-
generálás + SMT rendszer
– Rövidítésfelismerés és –feloldás: szabályok, lexikon
• Információkinyerés
– Ontológiaépítés, adatbányászat, döntéstámogatás stb.
Magyar nyelvi elemző (2012-2016)
• Mély nyelvi elemzés, teljes szintaxis, szemantika
– Pszicholingvisztikai indíttatás: emberi feldolgozás!
– Performancia alapú, “rosszulformáltság” is OK
– Szigorúan balról jobbra elemzés
– Párhuzamos szintek (vs. kaszkád modell)
– Mondathatárokon átívelő diskurzusegységek
– Gráfreprezentáció: szintaktikai és szemantikai szerepek
• Erőforrások
– Korpuszépítés: 1G szó, magyar web, folyamatos update
– Igeivonzatkeret-adatbázis (MetaMorpho): 18K ige, 33K keret
– Magyar WordNet: 42K synset, összekapcsolás vonzatkeretekkel
• Példaalkalmazás: üzleti rövidhírek elemzése
– Automatikus “szövegértés”: ki, mit, hol, mikor?
Morfológiai elemzés, egyértelműsítés
• PurePos
– Statisztikai egyértelműsítő (PoS-tagger)
• TnT implementáció (HMM)
• Tanítás: Szeged Korpusz
– Humor morfológiai elemző, szótövesítő
– Guesser
• Java, Python API
• Nyílt forrású (LGPL)
https://github.com/ppke-nlpg
Köszönjük a figyelmet!
http://nlpg.itk.ppke.hu/
Kód: http://github.com/ppke-nlpg

Contenu connexe

En vedette

Putting Together the Pieces of a Successful Student Orientation
Putting Together the Pieces of a Successful Student OrientationPutting Together the Pieces of a Successful Student Orientation
Putting Together the Pieces of a Successful Student OrientationSmarterServices Owen
 
Romeo and juliet
Romeo and julietRomeo and juliet
Romeo and julietMike Smith
 
Hatada_Sebastian _softwarelibre
Hatada_Sebastian _softwarelibreHatada_Sebastian _softwarelibre
Hatada_Sebastian _softwarelibreSebastianHatada
 
Gender in the NBDC
Gender in the NBDCGender in the NBDC
Gender in the NBDCILRI
 

En vedette (6)

Tuomas_Jokimaki
Tuomas_JokimakiTuomas_Jokimaki
Tuomas_Jokimaki
 
Putting Together the Pieces of a Successful Student Orientation
Putting Together the Pieces of a Successful Student OrientationPutting Together the Pieces of a Successful Student Orientation
Putting Together the Pieces of a Successful Student Orientation
 
Romeo and juliet
Romeo and julietRomeo and juliet
Romeo and juliet
 
Três porquinhos
Três porquinhosTrês porquinhos
Três porquinhos
 
Hatada_Sebastian _softwarelibre
Hatada_Sebastian _softwarelibreHatada_Sebastian _softwarelibre
Hatada_Sebastian _softwarelibre
 
Gender in the NBDC
Gender in the NBDCGender in the NBDC
Gender in the NBDC
 

Plus de Zoltan Varju

NLP meetup 2016.10.05 - Bódogh Attila: xdroid
NLP meetup 2016.10.05 - Bódogh Attila: xdroidNLP meetup 2016.10.05 - Bódogh Attila: xdroid
NLP meetup 2016.10.05 - Bódogh Attila: xdroidZoltan Varju
 
NLP meetup 2016.10.05 - Szabó Martina Katalin: Precognox
NLP meetup 2016.10.05 - Szabó Martina Katalin: PrecognoxNLP meetup 2016.10.05 - Szabó Martina Katalin: Precognox
NLP meetup 2016.10.05 - Szabó Martina Katalin: PrecognoxZoltan Varju
 
NLP meetup 2016.10.05 - Szekeres Péter: Neticle
NLP meetup 2016.10.05 - Szekeres Péter: NeticleNLP meetup 2016.10.05 - Szekeres Péter: Neticle
NLP meetup 2016.10.05 - Szekeres Péter: NeticleZoltan Varju
 
Balogh Kitti - Varjú Zoltán: Magyar nyelvű tartalmak elemzése
Balogh Kitti - Varjú Zoltán: Magyar nyelvű tartalmak elemzéseBalogh Kitti - Varjú Zoltán: Magyar nyelvű tartalmak elemzése
Balogh Kitti - Varjú Zoltán: Magyar nyelvű tartalmak elemzéseZoltan Varju
 
Babak Rasolzadeh: The importance of entities
Babak Rasolzadeh: The importance of entitiesBabak Rasolzadeh: The importance of entities
Babak Rasolzadeh: The importance of entitiesZoltan Varju
 
Szövegbányászat a gyakorlatban
Szövegbányászat a gyakorlatbanSzövegbányászat a gyakorlatban
Szövegbányászat a gyakorlatbanZoltan Varju
 
Szövegbányászat
SzövegbányászatSzövegbányászat
SzövegbányászatZoltan Varju
 
Balogh Kitti: Szövegbányászat
Balogh Kitti: SzövegbányászatBalogh Kitti: Szövegbányászat
Balogh Kitti: SzövegbányászatZoltan Varju
 
Balogh Kitti - Szűcs Krisztina - Varjú Zoltán: TechTea: Szövegvizualizációk a...
Balogh Kitti - Szűcs Krisztina - Varjú Zoltán: TechTea: Szövegvizualizációk a...Balogh Kitti - Szűcs Krisztina - Varjú Zoltán: TechTea: Szövegvizualizációk a...
Balogh Kitti - Szűcs Krisztina - Varjú Zoltán: TechTea: Szövegvizualizációk a...Zoltan Varju
 
Kisvilágunk, a nyelv
Kisvilágunk, a nyelvKisvilágunk, a nyelv
Kisvilágunk, a nyelvZoltan Varju
 
Balogh Kitti - Szűcs Krisztina: Képes beszéd
Balogh Kitti - Szűcs Krisztina: Képes beszédBalogh Kitti - Szűcs Krisztina: Képes beszéd
Balogh Kitti - Szűcs Krisztina: Képes beszédZoltan Varju
 
Balogh Kitti: Politika a sorok között - Politikai témájú szövegelemzések
Balogh Kitti: Politika a sorok között - Politikai témájú szövegelemzésekBalogh Kitti: Politika a sorok között - Politikai témájú szövegelemzések
Balogh Kitti: Politika a sorok között - Politikai témájú szövegelemzésekZoltan Varju
 
Érzelmek hálójában – hálózat- és tartalomelemzés
Érzelmek hálójában – hálózat- és tartalomelemzésÉrzelmek hálójában – hálózat- és tartalomelemzés
Érzelmek hálójában – hálózat- és tartalomelemzésZoltan Varju
 
Szabó - Varjú: Automatikus értékelés- és érzelemelemzés magyar nyelvű szöveg...
Szabó - Varjú: Automatikus  értékelés- és érzelemelemzés magyar nyelvű szöveg...Szabó - Varjú: Automatikus  értékelés- és érzelemelemzés magyar nyelvű szöveg...
Szabó - Varjú: Automatikus értékelés- és érzelemelemzés magyar nyelvű szöveg...Zoltan Varju
 
Mókus (Koncsik Anita, Varjú Zoltán)
Mókus (Koncsik Anita, Varjú Zoltán)Mókus (Koncsik Anita, Varjú Zoltán)
Mókus (Koncsik Anita, Varjú Zoltán)Zoltan Varju
 
Születésház - Adatozz okosan hackathon (Schmidt Erika, Balogh Kitti, Hudy Rób...
Születésház - Adatozz okosan hackathon (Schmidt Erika, Balogh Kitti, Hudy Rób...Születésház - Adatozz okosan hackathon (Schmidt Erika, Balogh Kitti, Hudy Rób...
Születésház - Adatozz okosan hackathon (Schmidt Erika, Balogh Kitti, Hudy Rób...Zoltan Varju
 
Sorok között olvasni
Sorok között olvasniSorok között olvasni
Sorok között olvasniZoltan Varju
 
Danics Szabina Lívia: A magyar és az orosz melléknévi igenevek a megfelelteté...
Danics Szabina Lívia: A magyar és az orosz melléknévi igenevek a megfelelteté...Danics Szabina Lívia: A magyar és az orosz melléknévi igenevek a megfelelteté...
Danics Szabina Lívia: A magyar és az orosz melléknévi igenevek a megfelelteté...Zoltan Varju
 
Rasztik Zita: A стартовать jövevényszó fejlődési útja
Rasztik Zita: A стартовать jövevényszó fejlődési útjaRasztik Zita: A стартовать jövevényszó fejlődési útja
Rasztik Zita: A стартовать jövevényszó fejlődési útjaZoltan Varju
 
Kontextus és a hivatkozások ereje
Kontextus és a hivatkozások erejeKontextus és a hivatkozások ereje
Kontextus és a hivatkozások erejeZoltan Varju
 

Plus de Zoltan Varju (20)

NLP meetup 2016.10.05 - Bódogh Attila: xdroid
NLP meetup 2016.10.05 - Bódogh Attila: xdroidNLP meetup 2016.10.05 - Bódogh Attila: xdroid
NLP meetup 2016.10.05 - Bódogh Attila: xdroid
 
NLP meetup 2016.10.05 - Szabó Martina Katalin: Precognox
NLP meetup 2016.10.05 - Szabó Martina Katalin: PrecognoxNLP meetup 2016.10.05 - Szabó Martina Katalin: Precognox
NLP meetup 2016.10.05 - Szabó Martina Katalin: Precognox
 
NLP meetup 2016.10.05 - Szekeres Péter: Neticle
NLP meetup 2016.10.05 - Szekeres Péter: NeticleNLP meetup 2016.10.05 - Szekeres Péter: Neticle
NLP meetup 2016.10.05 - Szekeres Péter: Neticle
 
Balogh Kitti - Varjú Zoltán: Magyar nyelvű tartalmak elemzése
Balogh Kitti - Varjú Zoltán: Magyar nyelvű tartalmak elemzéseBalogh Kitti - Varjú Zoltán: Magyar nyelvű tartalmak elemzése
Balogh Kitti - Varjú Zoltán: Magyar nyelvű tartalmak elemzése
 
Babak Rasolzadeh: The importance of entities
Babak Rasolzadeh: The importance of entitiesBabak Rasolzadeh: The importance of entities
Babak Rasolzadeh: The importance of entities
 
Szövegbányászat a gyakorlatban
Szövegbányászat a gyakorlatbanSzövegbányászat a gyakorlatban
Szövegbányászat a gyakorlatban
 
Szövegbányászat
SzövegbányászatSzövegbányászat
Szövegbányászat
 
Balogh Kitti: Szövegbányászat
Balogh Kitti: SzövegbányászatBalogh Kitti: Szövegbányászat
Balogh Kitti: Szövegbányászat
 
Balogh Kitti - Szűcs Krisztina - Varjú Zoltán: TechTea: Szövegvizualizációk a...
Balogh Kitti - Szűcs Krisztina - Varjú Zoltán: TechTea: Szövegvizualizációk a...Balogh Kitti - Szűcs Krisztina - Varjú Zoltán: TechTea: Szövegvizualizációk a...
Balogh Kitti - Szűcs Krisztina - Varjú Zoltán: TechTea: Szövegvizualizációk a...
 
Kisvilágunk, a nyelv
Kisvilágunk, a nyelvKisvilágunk, a nyelv
Kisvilágunk, a nyelv
 
Balogh Kitti - Szűcs Krisztina: Képes beszéd
Balogh Kitti - Szűcs Krisztina: Képes beszédBalogh Kitti - Szűcs Krisztina: Képes beszéd
Balogh Kitti - Szűcs Krisztina: Képes beszéd
 
Balogh Kitti: Politika a sorok között - Politikai témájú szövegelemzések
Balogh Kitti: Politika a sorok között - Politikai témájú szövegelemzésekBalogh Kitti: Politika a sorok között - Politikai témájú szövegelemzések
Balogh Kitti: Politika a sorok között - Politikai témájú szövegelemzések
 
Érzelmek hálójában – hálózat- és tartalomelemzés
Érzelmek hálójában – hálózat- és tartalomelemzésÉrzelmek hálójában – hálózat- és tartalomelemzés
Érzelmek hálójában – hálózat- és tartalomelemzés
 
Szabó - Varjú: Automatikus értékelés- és érzelemelemzés magyar nyelvű szöveg...
Szabó - Varjú: Automatikus  értékelés- és érzelemelemzés magyar nyelvű szöveg...Szabó - Varjú: Automatikus  értékelés- és érzelemelemzés magyar nyelvű szöveg...
Szabó - Varjú: Automatikus értékelés- és érzelemelemzés magyar nyelvű szöveg...
 
Mókus (Koncsik Anita, Varjú Zoltán)
Mókus (Koncsik Anita, Varjú Zoltán)Mókus (Koncsik Anita, Varjú Zoltán)
Mókus (Koncsik Anita, Varjú Zoltán)
 
Születésház - Adatozz okosan hackathon (Schmidt Erika, Balogh Kitti, Hudy Rób...
Születésház - Adatozz okosan hackathon (Schmidt Erika, Balogh Kitti, Hudy Rób...Születésház - Adatozz okosan hackathon (Schmidt Erika, Balogh Kitti, Hudy Rób...
Születésház - Adatozz okosan hackathon (Schmidt Erika, Balogh Kitti, Hudy Rób...
 
Sorok között olvasni
Sorok között olvasniSorok között olvasni
Sorok között olvasni
 
Danics Szabina Lívia: A magyar és az orosz melléknévi igenevek a megfelelteté...
Danics Szabina Lívia: A magyar és az orosz melléknévi igenevek a megfelelteté...Danics Szabina Lívia: A magyar és az orosz melléknévi igenevek a megfelelteté...
Danics Szabina Lívia: A magyar és az orosz melléknévi igenevek a megfelelteté...
 
Rasztik Zita: A стартовать jövevényszó fejlődési útja
Rasztik Zita: A стартовать jövevényszó fejlődési útjaRasztik Zita: A стартовать jövevényszó fejlődési útja
Rasztik Zita: A стартовать jövevényszó fejlődési útja
 
Kontextus és a hivatkozások ereje
Kontextus és a hivatkozások erejeKontextus és a hivatkozások ereje
Kontextus és a hivatkozások ereje
 

MTA-PPKE Magyar Nyelvtechnológiai Kutatócsoport

  • 1. PPKE ITK Nyelvtechnológiai Labor http://nlpg.itk.ppke.hu/ Miháltz Márton <mihaltz.marton@itk.ppke.hu>
  • 2. Bemutatkozás • Pázmány Péter Katolikus Egyetem Információs Technológiai és Bionikai Kar • Nyelvtechnológiai Labor: – PPKE ITK Nyelvtechnológiai Csoport – MTA-PPKE Magyar Nyelvtechnológiai Kutatócsoport • Vezető: Prószéky Gábor • 9 doktorandusz (Endrédy István, Indig Balázs, Laki László, Ligeti- Nagy Noémi, Novák Attila, Orosz György, Siklósi Borbála, Simonyi András, Yang Zijian Győző), 2 posztdok (Sass Bálint, Miháltz Márton) • Oktatás: nyelvtechnológia szakirány, mérnökinformatikus BSc és MSc; PhD képzés
  • 3. Kutatási területek • Morfológiai elemzés és egyértelműsítés • Szintaktikai és szemantikai elemzés • Orvosi szövegek feldolgozása • Helyesírási hibák automatikus javítása • Statisztikai gépi fordítás és alkalmazásai
  • 4. Projektek • Információkinyerés klinikai szövegekből • Magyar nyelvi elemző • PurePos: nyílt forrású morfológiai elemző és egyértelműsítő • (…)
  • 5. Információkinyerés klinikai szövegekből • Kezelőlapok, zárójelentések stb. – strukturálatlanság, rövidítések, helyesírási hibák, elírások, latin-magyar keveredés, szaknyelv stb. • Feldolgozás: domain-adaptáció – Szegmentálás, tokenizálás: szabályok, gépi tanulás – Helyesírási hibák automatikus javítása: javaslat- generálás + SMT rendszer – Rövidítésfelismerés és –feloldás: szabályok, lexikon • Információkinyerés – Ontológiaépítés, adatbányászat, döntéstámogatás stb.
  • 6. Magyar nyelvi elemző (2012-2016) • Mély nyelvi elemzés, teljes szintaxis, szemantika – Pszicholingvisztikai indíttatás: emberi feldolgozás! – Performancia alapú, “rosszulformáltság” is OK – Szigorúan balról jobbra elemzés – Párhuzamos szintek (vs. kaszkád modell) – Mondathatárokon átívelő diskurzusegységek – Gráfreprezentáció: szintaktikai és szemantikai szerepek • Erőforrások – Korpuszépítés: 1G szó, magyar web, folyamatos update – Igeivonzatkeret-adatbázis (MetaMorpho): 18K ige, 33K keret – Magyar WordNet: 42K synset, összekapcsolás vonzatkeretekkel • Példaalkalmazás: üzleti rövidhírek elemzése – Automatikus “szövegértés”: ki, mit, hol, mikor?
  • 7. Morfológiai elemzés, egyértelműsítés • PurePos – Statisztikai egyértelműsítő (PoS-tagger) • TnT implementáció (HMM) • Tanítás: Szeged Korpusz – Humor morfológiai elemző, szótövesítő – Guesser • Java, Python API • Nyílt forrású (LGPL) https://github.com/ppke-nlpg