SlideShare une entreprise Scribd logo
1  sur  20
Télécharger pour lire hors ligne
Szövegbányászat
Balogh Kitti - Varjú Zoltán
kbalogh@precognox.com - zvarju@precognox.com
Mi is ez?
Minek nevezzelek?
Szövegbányászat
Számítógépes nyelvészet
Természetes nyelvfeldolgozás
Nyelvtechnológia
Text Mining
Computational Linguistics
Natural Language Processing
Language Technology
És még hol találkozhatunk vele?
Mesterséges intelligencia
Gépi tanulás
Nyelvészet
Kognitív tudomány
Statisztika
Keresés
Információkinyerés
Hogyan művelik?
Szabály-alapú Statisztikai Gráf-alapú
Mi ma a statisztikai megközelítéssel ismerkedünk!
- viszonylag egyszerűek az alapok
- az iparban is elterjedt
- megértéséhez nem kell nyelvésznek lenni, vagy mélyebben belemenni a
statisztikába
A továbbiakban a szövegbányászat megnevezést erre a megközelítésre
alkalmazzuk!
A szövegbányászat forrásai
Tartalomelemzés
Korpusznyelvészet
Információelmélet
Bővebben
Jurafsky-Martin: Speech and Language Processing
Manning-Schütze: Foundations of Statistical Natural Language Processing
NLTK book: http://www.nltk.org/book/
A bányában
Adatgyűjtés Szövegek
előkészítése
Szövegbányászati
módszerek
bevetése
Kiértékelés
Alkalmazás
Adatok (beszerzés, előkészítés)
Ha nincs adatunk
Web crawling == adott lista szisztematikus bejárása a linkek mentén n
mélységben
Scraping == szövegek esetében ez valamilyen extra formázást tartalmazó
formátumból való kiszabadítást jelent (pl. word vagy pdf dokumentumokból a
szöveges információ kinyerése)
...és felügyelt módszert szeretnénk használni
Annotálás == adatok felcímkézése különböző szempontok szerint
Annotált korpuszok
Felügyelt módszerekhez betanításra sokszor elérhetőek annotált korpuszok
Tisztítás
A bag-of-words módszerekhez általában plain text-re van szükségünk, azaz
- minden formázástól mentes
- utf-8 (vagy más szabványú) karakterkódolású szövegekre
Előfeldolgozás
Plain text => csak karakterek (betűk, esetleg számok, emojik)
Nyelvi feldolgozás
- tokenizálás (tokenekre bontás)
- kisbetűsre alakítás, írásjelek törlése
- stemmelés (tövezés), lemmatizálás (szótári tő)
- POS tagging (szófaj meghatározása)
Szűrés
- stopszavak kiszűrése (lista alapján)
- szófajok szerinti szűrés
- egyedi szempontok alapján további szűrés
Bővebben
Pustejovski - Stubbs: Natural Language Annotation for Machine Learning
Mitchell: Web Scraping with Python
Mielőtt kódolni kezdünk
A korpusz
600 magyar Twitter-felhasználó több mint 30 ezer csiripjét gyűjtöttük le a Twitter
API-n keresztül
4000 tweetet véletlenszerűen kiválasztottuk és polaritásra annotáltuk
A szövegeket magyarlánc használatával dolgoztuk fel (lemmatálás, szófaji szűrés)
Eszközök
Szentimentszótár: pozitív és negatív szavak listája. Saját gyűjtés, kutatási célra
szabadon használható
Emojiszótár: a magyar tweetekben előforduló emojikat kezelő szótár, a könnyebb
kezelhetőség érdekében mindegyiket átváltja egy karaktersorra pl. :)) és :)))))))
“sokMosoly” lesz
Ha érdekel a dolog
Kereső Világ
http://kereses.blog.hu/
NLP meetup
http://www.meetup.com/Hungarian-nlp/
Happy hacking!

Contenu connexe

Plus de Zoltan Varju

Balogh Kitti - Szűcs Krisztina: Képes beszéd
Balogh Kitti - Szűcs Krisztina: Képes beszédBalogh Kitti - Szűcs Krisztina: Képes beszéd
Balogh Kitti - Szűcs Krisztina: Képes beszéd
Zoltan Varju
 
Érzelmek hálójában – hálózat- és tartalomelemzés
Érzelmek hálójában – hálózat- és tartalomelemzésÉrzelmek hálójában – hálózat- és tartalomelemzés
Érzelmek hálójában – hálózat- és tartalomelemzés
Zoltan Varju
 
Szabó - Varjú: Automatikus értékelés- és érzelemelemzés magyar nyelvű szöveg...
Szabó - Varjú: Automatikus  értékelés- és érzelemelemzés magyar nyelvű szöveg...Szabó - Varjú: Automatikus  értékelés- és érzelemelemzés magyar nyelvű szöveg...
Szabó - Varjú: Automatikus értékelés- és érzelemelemzés magyar nyelvű szöveg...
Zoltan Varju
 
Danics Szabina Lívia: A magyar és az orosz melléknévi igenevek a megfelelteté...
Danics Szabina Lívia: A magyar és az orosz melléknévi igenevek a megfelelteté...Danics Szabina Lívia: A magyar és az orosz melléknévi igenevek a megfelelteté...
Danics Szabina Lívia: A magyar és az orosz melléknévi igenevek a megfelelteté...
Zoltan Varju
 
Rasztik Zita: A стартовать jövevényszó fejlődési útja
Rasztik Zita: A стартовать jövevényszó fejlődési útjaRasztik Zita: A стартовать jövevényszó fejlődési útja
Rasztik Zita: A стартовать jövevényszó fejlődési útja
Zoltan Varju
 

Plus de Zoltan Varju (20)

Balogh Kitti - Szűcs Krisztina - Varjú Zoltán: TechTea: Szövegvizualizációk a...
Balogh Kitti - Szűcs Krisztina - Varjú Zoltán: TechTea: Szövegvizualizációk a...Balogh Kitti - Szűcs Krisztina - Varjú Zoltán: TechTea: Szövegvizualizációk a...
Balogh Kitti - Szűcs Krisztina - Varjú Zoltán: TechTea: Szövegvizualizációk a...
 
Kisvilágunk, a nyelv
Kisvilágunk, a nyelvKisvilágunk, a nyelv
Kisvilágunk, a nyelv
 
Balogh Kitti - Szűcs Krisztina: Képes beszéd
Balogh Kitti - Szűcs Krisztina: Képes beszédBalogh Kitti - Szűcs Krisztina: Képes beszéd
Balogh Kitti - Szűcs Krisztina: Képes beszéd
 
Balogh Kitti: Politika a sorok között - Politikai témájú szövegelemzések
Balogh Kitti: Politika a sorok között - Politikai témájú szövegelemzésekBalogh Kitti: Politika a sorok között - Politikai témájú szövegelemzések
Balogh Kitti: Politika a sorok között - Politikai témájú szövegelemzések
 
Érzelmek hálójában – hálózat- és tartalomelemzés
Érzelmek hálójában – hálózat- és tartalomelemzésÉrzelmek hálójában – hálózat- és tartalomelemzés
Érzelmek hálójában – hálózat- és tartalomelemzés
 
Szabó - Varjú: Automatikus értékelés- és érzelemelemzés magyar nyelvű szöveg...
Szabó - Varjú: Automatikus  értékelés- és érzelemelemzés magyar nyelvű szöveg...Szabó - Varjú: Automatikus  értékelés- és érzelemelemzés magyar nyelvű szöveg...
Szabó - Varjú: Automatikus értékelés- és érzelemelemzés magyar nyelvű szöveg...
 
Mókus (Koncsik Anita, Varjú Zoltán)
Mókus (Koncsik Anita, Varjú Zoltán)Mókus (Koncsik Anita, Varjú Zoltán)
Mókus (Koncsik Anita, Varjú Zoltán)
 
Születésház - Adatozz okosan hackathon (Schmidt Erika, Balogh Kitti, Hudy Rób...
Születésház - Adatozz okosan hackathon (Schmidt Erika, Balogh Kitti, Hudy Rób...Születésház - Adatozz okosan hackathon (Schmidt Erika, Balogh Kitti, Hudy Rób...
Születésház - Adatozz okosan hackathon (Schmidt Erika, Balogh Kitti, Hudy Rób...
 
Sorok között olvasni
Sorok között olvasniSorok között olvasni
Sorok között olvasni
 
Danics Szabina Lívia: A magyar és az orosz melléknévi igenevek a megfelelteté...
Danics Szabina Lívia: A magyar és az orosz melléknévi igenevek a megfelelteté...Danics Szabina Lívia: A magyar és az orosz melléknévi igenevek a megfelelteté...
Danics Szabina Lívia: A magyar és az orosz melléknévi igenevek a megfelelteté...
 
Rasztik Zita: A стартовать jövevényszó fejlődési útja
Rasztik Zita: A стартовать jövevényszó fejlődési útjaRasztik Zita: A стартовать jövevényszó fejlődési útja
Rasztik Zita: A стартовать jövevényszó fejlődési útja
 
Kontextus és a hivatkozások ereje
Kontextus és a hivatkozások erejeKontextus és a hivatkozások ereje
Kontextus és a hivatkozások ereje
 
Simon Eszter: Silver standard korpuszok tulajdonnév-felismeréshez
Simon Eszter: Silver standard korpuszok tulajdonnév-felismeréshezSimon Eszter: Silver standard korpuszok tulajdonnév-felismeréshez
Simon Eszter: Silver standard korpuszok tulajdonnév-felismeréshez
 
Vincze Veronika: Korpuszok az információkinyerésben
Vincze Veronika: Korpuszok az információkinyerésben Vincze Veronika: Korpuszok az információkinyerésben
Vincze Veronika: Korpuszok az információkinyerésben
 
Felhívás
FelhívásFelhívás
Felhívás
 
Miháltz Márton: Magyar wordnet
Miháltz Márton: Magyar wordnetMiháltz Márton: Magyar wordnet
Miháltz Márton: Magyar wordnet
 
Ács Judit: Online soknyelvű szótárak
Ács Judit: Online soknyelvű szótárakÁcs Judit: Online soknyelvű szótárak
Ács Judit: Online soknyelvű szótárak
 
Sass Bálint: 28 millió szintaktikailag elemzett mondat és 500000 igei szerkezet
Sass Bálint: 28 millió szintaktikailag elemzett mondat és 500000 igei szerkezetSass Bálint: 28 millió szintaktikailag elemzett mondat és 500000 igei szerkezet
Sass Bálint: 28 millió szintaktikailag elemzett mondat és 500000 igei szerkezet
 
Vincze Veronika: Korpuszok az információkinyerésben
Vincze Veronika: Korpuszok az információkinyerésben Vincze Veronika: Korpuszok az információkinyerésben
Vincze Veronika: Korpuszok az információkinyerésben
 
Vincze Veronika: A Szeged Korpusz és Treebank
Vincze Veronika: A Szeged Korpusz és Treebank Vincze Veronika: A Szeged Korpusz és Treebank
Vincze Veronika: A Szeged Korpusz és Treebank
 

Szövegbányászat