SlideShare une entreprise Scribd logo
1  sur  33
Magyar politikai 
blogszféra 
VARJÚ ZOLTÁN, PRECOGNOX, 
2014.11.08.
Miért? 
 A rendszerváltás hozta el a szabad 
véleménynyilvánítás jogát 
 Mancs, INteRNeTTo, Index nyelvileg is újított 
 Webkettes technológiák megjelenése ráerősített a 
véleményújságírásra 
 Webkettes tartalmak integrálása a „hagyományos” 
felületekbe általános trend (pl. Index2, 444 blogok) 
 Milyen a viszonya a két szférának?
Miért fontos? 
 Filter bubble 
 Politikai párbeszéd 
 Közélet 
 Fuzzy borders: az 
online és offline 
világ határai 
elmosódnak
Hipotézisek 
A magyar politikai blogok 
széttagoltak, egymással nem 
igazán foglalkoznak 
A politikai blogok nem 
tematizálják a diskurzust, csak 
követik a híroldalakat
Technikai háttér 1. 
 Seed lista: 80 magyar 
politikai blog 
 Python crawler 
 Segaran: Programming 
Collvetive Intelligence 
nyomán 
 Tartalmi linkelemzés, 
nem klasszikus crawling
Technikai háttér 2. – felhasznált 
eszközök 
 Python szkriptek az adatbázis 
átalakításához 
 Python igraph a gráfok generálásához 
 Python NLTK, langid a nyelvi elemzéshez 
 R igraph a gráfelemzéshez 
Gephi vizualizáció 
MALLET topic modeling
Technikai háttér 3. – Article 
Extractor
Hogy néz ki az internet?
A teljes gráf 1. 
30,841 csomópont 
505,468 él 
Utak átlagos hossza: 6.83 
Átmérő: 24
A teljes gráf 2.
A teljes gráf 3.
A teljes gráf 4.
Top-level domain – Pay-level 
domain 
http://kereses.blog.hu/2014/10/30 
/valoszinuleg_valoszinu_vagy_val 
oszinutlen_a_nyelv 
Top-level: blog.hu 
Pay-level: kereses.blog.hu
Pay-level gráf 1. 
1058 csomópont 
4028 él 
Utak átlagos hossza: 3.48 
Átmérő: 9
Pay-level gráf 3.
Pay-level gráf – fontosabb 
szereplők 
 tenytar.hu (369) 
 youtube (1048) 
 Wikipedia (533) 
 Atlatszo (876) 
 Index (788) 
 HVG (838)
Magyar embernek magyar gráfot! 
 Webkettes tartalmak (Wikipedia, wikik, stb.) 
torzítanak 
 Video oldalak (YouTube, Vimeo stb) 
 Külföldi oldalak központi szerepe (Guardian, NY 
Times, Le Monde) 
 Nagyon gyorsan kikerülünk a körből (linktemetőbe 
vagy teljesen más témára vetődünk) 
 Külön kell vizsgálnunk a magyar nyelvű tartalmakat!!
A gráf szűrése 
 Közösségi média (Twitter, Facebook, G+) 
kiszűrése 
 Nem szöveges tartalmak szűrése 
 Nyelvfelismerés langid segítségével 
 Csak validálható dátum esetén kerülhet a 
korpuszba oldal (url, vagy a tartalom 
alapján)
Egyszerűsített gráf 1. 
2435 csomópont 
3328 él 
Utak átlagos hossza: 4.24 
Átmérő 10 
63% híroldal – 37% blog és egyéb 
tartalom
Egyszerűsített gráf 2. 
 Központban a híroldalak, 
és a hozzájuk kapcsolódó 
blogok 
 TASZ, Átlátszó, K-Monitor, 
Mandiner a 
középpontban 
 A periférián szinte csak 
saját oldalaikat linkelő 
blogok találhatóak
Egyszerűsített pay-level gráf 1. 
270 csomópont 
828 él 
Utak átlagos hossza 2.67 
Átmérő 5 
127 blog (nem feltétlenül politikai!) 
Átlagosan 2.94 oldal / csomópont
Szentiment
Emóciók - öröm
Emóciók - bánat
Emóciók - düh
Emóciók - félelem
Emóciók - meglepődés
Emóciók - undor
Hogyan terjednek? 
 Az óriás összefüggő 
komponens 
irányítja az 
érzelmeket 
A negatív érzelmek 
kifelé erősödnek 
 A pozitív érzelmek 
szintje megmarad
Kérdés? 
zoltan.varju@precognox.com 
@zoltanvarju 
http://kereses.blog.hu/

Contenu connexe

En vedette

conTEXT - a szavak titkos élete
conTEXT - a szavak titkos életeconTEXT - a szavak titkos élete
conTEXT - a szavak titkos életeZoltan Varju
 
Varjú Zoltán - Túlélőkészlet adatáradat esetére
Varjú Zoltán - Túlélőkészlet adatáradat esetéreVarjú Zoltán - Túlélőkészlet adatáradat esetére
Varjú Zoltán - Túlélőkészlet adatáradat esetéreÁgnes W. Kovács
 
Hadoop based etl and solr based semantic search
Hadoop based etl and solr based semantic searchHadoop based etl and solr based semantic search
Hadoop based etl and solr based semantic searchZoltan Varju
 
Vincze Veronika: Korpuszok az információkinyerésben
Vincze Veronika: Korpuszok az információkinyerésben Vincze Veronika: Korpuszok az információkinyerésben
Vincze Veronika: Korpuszok az információkinyerésben Zoltan Varju
 
De tartalomelemzés 2014_10_14
De tartalomelemzés 2014_10_14De tartalomelemzés 2014_10_14
De tartalomelemzés 2014_10_14Zoltan Varju
 
Szabó - Varjú: Automatikus értékelés- és érzelemelemzés magyar nyelvű szöveg...
Szabó - Varjú: Automatikus  értékelés- és érzelemelemzés magyar nyelvű szöveg...Szabó - Varjú: Automatikus  értékelés- és érzelemelemzés magyar nyelvű szöveg...
Szabó - Varjú: Automatikus értékelés- és érzelemelemzés magyar nyelvű szöveg...Zoltan Varju
 
Születésház - Adatozz okosan hackathon (Schmidt Erika, Balogh Kitti, Hudy Rób...
Születésház - Adatozz okosan hackathon (Schmidt Erika, Balogh Kitti, Hudy Rób...Születésház - Adatozz okosan hackathon (Schmidt Erika, Balogh Kitti, Hudy Rób...
Születésház - Adatozz okosan hackathon (Schmidt Erika, Balogh Kitti, Hudy Rób...Zoltan Varju
 

En vedette (7)

conTEXT - a szavak titkos élete
conTEXT - a szavak titkos életeconTEXT - a szavak titkos élete
conTEXT - a szavak titkos élete
 
Varjú Zoltán - Túlélőkészlet adatáradat esetére
Varjú Zoltán - Túlélőkészlet adatáradat esetéreVarjú Zoltán - Túlélőkészlet adatáradat esetére
Varjú Zoltán - Túlélőkészlet adatáradat esetére
 
Hadoop based etl and solr based semantic search
Hadoop based etl and solr based semantic searchHadoop based etl and solr based semantic search
Hadoop based etl and solr based semantic search
 
Vincze Veronika: Korpuszok az információkinyerésben
Vincze Veronika: Korpuszok az információkinyerésben Vincze Veronika: Korpuszok az információkinyerésben
Vincze Veronika: Korpuszok az információkinyerésben
 
De tartalomelemzés 2014_10_14
De tartalomelemzés 2014_10_14De tartalomelemzés 2014_10_14
De tartalomelemzés 2014_10_14
 
Szabó - Varjú: Automatikus értékelés- és érzelemelemzés magyar nyelvű szöveg...
Szabó - Varjú: Automatikus  értékelés- és érzelemelemzés magyar nyelvű szöveg...Szabó - Varjú: Automatikus  értékelés- és érzelemelemzés magyar nyelvű szöveg...
Szabó - Varjú: Automatikus értékelés- és érzelemelemzés magyar nyelvű szöveg...
 
Születésház - Adatozz okosan hackathon (Schmidt Erika, Balogh Kitti, Hudy Rób...
Születésház - Adatozz okosan hackathon (Schmidt Erika, Balogh Kitti, Hudy Rób...Születésház - Adatozz okosan hackathon (Schmidt Erika, Balogh Kitti, Hudy Rób...
Születésház - Adatozz okosan hackathon (Schmidt Erika, Balogh Kitti, Hudy Rób...
 

Plus de Zoltan Varju

NLP meetup 2016.10.05 - Bódogh Attila: xdroid
NLP meetup 2016.10.05 - Bódogh Attila: xdroidNLP meetup 2016.10.05 - Bódogh Attila: xdroid
NLP meetup 2016.10.05 - Bódogh Attila: xdroidZoltan Varju
 
NLP meetup 2016.10.05 - Szabó Martina Katalin: Precognox
NLP meetup 2016.10.05 - Szabó Martina Katalin: PrecognoxNLP meetup 2016.10.05 - Szabó Martina Katalin: Precognox
NLP meetup 2016.10.05 - Szabó Martina Katalin: PrecognoxZoltan Varju
 
NLP meetup 2016.10.05 - Szekeres Péter: Neticle
NLP meetup 2016.10.05 - Szekeres Péter: NeticleNLP meetup 2016.10.05 - Szekeres Péter: Neticle
NLP meetup 2016.10.05 - Szekeres Péter: NeticleZoltan Varju
 
Balogh Kitti - Varjú Zoltán: Magyar nyelvű tartalmak elemzése
Balogh Kitti - Varjú Zoltán: Magyar nyelvű tartalmak elemzéseBalogh Kitti - Varjú Zoltán: Magyar nyelvű tartalmak elemzése
Balogh Kitti - Varjú Zoltán: Magyar nyelvű tartalmak elemzéseZoltan Varju
 
Babak Rasolzadeh: The importance of entities
Babak Rasolzadeh: The importance of entitiesBabak Rasolzadeh: The importance of entities
Babak Rasolzadeh: The importance of entitiesZoltan Varju
 
Szövegbányászat a gyakorlatban
Szövegbányászat a gyakorlatbanSzövegbányászat a gyakorlatban
Szövegbányászat a gyakorlatbanZoltan Varju
 
Szövegbányászat
SzövegbányászatSzövegbányászat
SzövegbányászatZoltan Varju
 
Balogh Kitti: Szövegbányászat
Balogh Kitti: SzövegbányászatBalogh Kitti: Szövegbányászat
Balogh Kitti: SzövegbányászatZoltan Varju
 
Balogh Kitti - Szűcs Krisztina - Varjú Zoltán: TechTea: Szövegvizualizációk a...
Balogh Kitti - Szűcs Krisztina - Varjú Zoltán: TechTea: Szövegvizualizációk a...Balogh Kitti - Szűcs Krisztina - Varjú Zoltán: TechTea: Szövegvizualizációk a...
Balogh Kitti - Szűcs Krisztina - Varjú Zoltán: TechTea: Szövegvizualizációk a...Zoltan Varju
 
Kisvilágunk, a nyelv
Kisvilágunk, a nyelvKisvilágunk, a nyelv
Kisvilágunk, a nyelvZoltan Varju
 
Balogh Kitti - Szűcs Krisztina: Képes beszéd
Balogh Kitti - Szűcs Krisztina: Képes beszédBalogh Kitti - Szűcs Krisztina: Képes beszéd
Balogh Kitti - Szűcs Krisztina: Képes beszédZoltan Varju
 
Balogh Kitti: Politika a sorok között - Politikai témájú szövegelemzések
Balogh Kitti: Politika a sorok között - Politikai témájú szövegelemzésekBalogh Kitti: Politika a sorok között - Politikai témájú szövegelemzések
Balogh Kitti: Politika a sorok között - Politikai témájú szövegelemzésekZoltan Varju
 
Érzelmek hálójában – hálózat- és tartalomelemzés
Érzelmek hálójában – hálózat- és tartalomelemzésÉrzelmek hálójában – hálózat- és tartalomelemzés
Érzelmek hálójában – hálózat- és tartalomelemzésZoltan Varju
 
Mókus (Koncsik Anita, Varjú Zoltán)
Mókus (Koncsik Anita, Varjú Zoltán)Mókus (Koncsik Anita, Varjú Zoltán)
Mókus (Koncsik Anita, Varjú Zoltán)Zoltan Varju
 
Sorok között olvasni
Sorok között olvasniSorok között olvasni
Sorok között olvasniZoltan Varju
 
Danics Szabina Lívia: A magyar és az orosz melléknévi igenevek a megfelelteté...
Danics Szabina Lívia: A magyar és az orosz melléknévi igenevek a megfelelteté...Danics Szabina Lívia: A magyar és az orosz melléknévi igenevek a megfelelteté...
Danics Szabina Lívia: A magyar és az orosz melléknévi igenevek a megfelelteté...Zoltan Varju
 
Rasztik Zita: A стартовать jövevényszó fejlődési útja
Rasztik Zita: A стартовать jövevényszó fejlődési útjaRasztik Zita: A стартовать jövevényszó fejlődési útja
Rasztik Zita: A стартовать jövevényszó fejlődési útjaZoltan Varju
 
Kontextus és a hivatkozások ereje
Kontextus és a hivatkozások erejeKontextus és a hivatkozások ereje
Kontextus és a hivatkozások erejeZoltan Varju
 
Simon Eszter: Silver standard korpuszok tulajdonnév-felismeréshez
Simon Eszter: Silver standard korpuszok tulajdonnév-felismeréshezSimon Eszter: Silver standard korpuszok tulajdonnév-felismeréshez
Simon Eszter: Silver standard korpuszok tulajdonnév-felismeréshezZoltan Varju
 

Plus de Zoltan Varju (20)

NLP meetup 2016.10.05 - Bódogh Attila: xdroid
NLP meetup 2016.10.05 - Bódogh Attila: xdroidNLP meetup 2016.10.05 - Bódogh Attila: xdroid
NLP meetup 2016.10.05 - Bódogh Attila: xdroid
 
NLP meetup 2016.10.05 - Szabó Martina Katalin: Precognox
NLP meetup 2016.10.05 - Szabó Martina Katalin: PrecognoxNLP meetup 2016.10.05 - Szabó Martina Katalin: Precognox
NLP meetup 2016.10.05 - Szabó Martina Katalin: Precognox
 
NLP meetup 2016.10.05 - Szekeres Péter: Neticle
NLP meetup 2016.10.05 - Szekeres Péter: NeticleNLP meetup 2016.10.05 - Szekeres Péter: Neticle
NLP meetup 2016.10.05 - Szekeres Péter: Neticle
 
Balogh Kitti - Varjú Zoltán: Magyar nyelvű tartalmak elemzése
Balogh Kitti - Varjú Zoltán: Magyar nyelvű tartalmak elemzéseBalogh Kitti - Varjú Zoltán: Magyar nyelvű tartalmak elemzése
Balogh Kitti - Varjú Zoltán: Magyar nyelvű tartalmak elemzése
 
Babak Rasolzadeh: The importance of entities
Babak Rasolzadeh: The importance of entitiesBabak Rasolzadeh: The importance of entities
Babak Rasolzadeh: The importance of entities
 
Szövegbányászat a gyakorlatban
Szövegbányászat a gyakorlatbanSzövegbányászat a gyakorlatban
Szövegbányászat a gyakorlatban
 
Szövegbányászat
SzövegbányászatSzövegbányászat
Szövegbányászat
 
Balogh Kitti: Szövegbányászat
Balogh Kitti: SzövegbányászatBalogh Kitti: Szövegbányászat
Balogh Kitti: Szövegbányászat
 
Balogh Kitti - Szűcs Krisztina - Varjú Zoltán: TechTea: Szövegvizualizációk a...
Balogh Kitti - Szűcs Krisztina - Varjú Zoltán: TechTea: Szövegvizualizációk a...Balogh Kitti - Szűcs Krisztina - Varjú Zoltán: TechTea: Szövegvizualizációk a...
Balogh Kitti - Szűcs Krisztina - Varjú Zoltán: TechTea: Szövegvizualizációk a...
 
Kisvilágunk, a nyelv
Kisvilágunk, a nyelvKisvilágunk, a nyelv
Kisvilágunk, a nyelv
 
Balogh Kitti - Szűcs Krisztina: Képes beszéd
Balogh Kitti - Szűcs Krisztina: Képes beszédBalogh Kitti - Szűcs Krisztina: Képes beszéd
Balogh Kitti - Szűcs Krisztina: Képes beszéd
 
Balogh Kitti: Politika a sorok között - Politikai témájú szövegelemzések
Balogh Kitti: Politika a sorok között - Politikai témájú szövegelemzésekBalogh Kitti: Politika a sorok között - Politikai témájú szövegelemzések
Balogh Kitti: Politika a sorok között - Politikai témájú szövegelemzések
 
Érzelmek hálójában – hálózat- és tartalomelemzés
Érzelmek hálójában – hálózat- és tartalomelemzésÉrzelmek hálójában – hálózat- és tartalomelemzés
Érzelmek hálójában – hálózat- és tartalomelemzés
 
Mókus (Koncsik Anita, Varjú Zoltán)
Mókus (Koncsik Anita, Varjú Zoltán)Mókus (Koncsik Anita, Varjú Zoltán)
Mókus (Koncsik Anita, Varjú Zoltán)
 
Sorok között olvasni
Sorok között olvasniSorok között olvasni
Sorok között olvasni
 
Danics Szabina Lívia: A magyar és az orosz melléknévi igenevek a megfelelteté...
Danics Szabina Lívia: A magyar és az orosz melléknévi igenevek a megfelelteté...Danics Szabina Lívia: A magyar és az orosz melléknévi igenevek a megfelelteté...
Danics Szabina Lívia: A magyar és az orosz melléknévi igenevek a megfelelteté...
 
Rasztik Zita: A стартовать jövevényszó fejlődési útja
Rasztik Zita: A стартовать jövevényszó fejlődési útjaRasztik Zita: A стартовать jövevényszó fejlődési útja
Rasztik Zita: A стартовать jövevényszó fejlődési útja
 
Kontextus és a hivatkozások ereje
Kontextus és a hivatkozások erejeKontextus és a hivatkozások ereje
Kontextus és a hivatkozások ereje
 
Simon Eszter: Silver standard korpuszok tulajdonnév-felismeréshez
Simon Eszter: Silver standard korpuszok tulajdonnév-felismeréshezSimon Eszter: Silver standard korpuszok tulajdonnév-felismeréshez
Simon Eszter: Silver standard korpuszok tulajdonnév-felismeréshez
 
Felhívás
FelhívásFelhívás
Felhívás
 

Magyar politikai blogszféra

  • 1. Magyar politikai blogszféra VARJÚ ZOLTÁN, PRECOGNOX, 2014.11.08.
  • 2. Miért?  A rendszerváltás hozta el a szabad véleménynyilvánítás jogát  Mancs, INteRNeTTo, Index nyelvileg is újított  Webkettes technológiák megjelenése ráerősített a véleményújságírásra  Webkettes tartalmak integrálása a „hagyományos” felületekbe általános trend (pl. Index2, 444 blogok)  Milyen a viszonya a két szférának?
  • 3. Miért fontos?  Filter bubble  Politikai párbeszéd  Közélet  Fuzzy borders: az online és offline világ határai elmosódnak
  • 4. Hipotézisek A magyar politikai blogok széttagoltak, egymással nem igazán foglalkoznak A politikai blogok nem tematizálják a diskurzust, csak követik a híroldalakat
  • 5. Technikai háttér 1.  Seed lista: 80 magyar politikai blog  Python crawler  Segaran: Programming Collvetive Intelligence nyomán  Tartalmi linkelemzés, nem klasszikus crawling
  • 6. Technikai háttér 2. – felhasznált eszközök  Python szkriptek az adatbázis átalakításához  Python igraph a gráfok generálásához  Python NLTK, langid a nyelvi elemzéshez  R igraph a gráfelemzéshez Gephi vizualizáció MALLET topic modeling
  • 7. Technikai háttér 3. – Article Extractor
  • 8. Hogy néz ki az internet?
  • 9. A teljes gráf 1. 30,841 csomópont 505,468 él Utak átlagos hossza: 6.83 Átmérő: 24
  • 13. Top-level domain – Pay-level domain http://kereses.blog.hu/2014/10/30 /valoszinuleg_valoszinu_vagy_val oszinutlen_a_nyelv Top-level: blog.hu Pay-level: kereses.blog.hu
  • 14. Pay-level gráf 1. 1058 csomópont 4028 él Utak átlagos hossza: 3.48 Átmérő: 9
  • 16.
  • 17.
  • 18. Pay-level gráf – fontosabb szereplők  tenytar.hu (369)  youtube (1048)  Wikipedia (533)  Atlatszo (876)  Index (788)  HVG (838)
  • 19. Magyar embernek magyar gráfot!  Webkettes tartalmak (Wikipedia, wikik, stb.) torzítanak  Video oldalak (YouTube, Vimeo stb)  Külföldi oldalak központi szerepe (Guardian, NY Times, Le Monde)  Nagyon gyorsan kikerülünk a körből (linktemetőbe vagy teljesen más témára vetődünk)  Külön kell vizsgálnunk a magyar nyelvű tartalmakat!!
  • 20. A gráf szűrése  Közösségi média (Twitter, Facebook, G+) kiszűrése  Nem szöveges tartalmak szűrése  Nyelvfelismerés langid segítségével  Csak validálható dátum esetén kerülhet a korpuszba oldal (url, vagy a tartalom alapján)
  • 21. Egyszerűsített gráf 1. 2435 csomópont 3328 él Utak átlagos hossza: 4.24 Átmérő 10 63% híroldal – 37% blog és egyéb tartalom
  • 22. Egyszerűsített gráf 2.  Központban a híroldalak, és a hozzájuk kapcsolódó blogok  TASZ, Átlátszó, K-Monitor, Mandiner a középpontban  A periférián szinte csak saját oldalaikat linkelő blogok találhatóak
  • 23. Egyszerűsített pay-level gráf 1. 270 csomópont 828 él Utak átlagos hossza 2.67 Átmérő 5 127 blog (nem feltétlenül politikai!) Átlagosan 2.94 oldal / csomópont
  • 24.
  • 32. Hogyan terjednek?  Az óriás összefüggő komponens irányítja az érzelmeket A negatív érzelmek kifelé erősödnek  A pozitív érzelmek szintje megmarad