7. IEB2011 | eu.umap.eu
eu.umap.eu. tresna
● Tuitak jasotzea, denbora errealean
● Erabiltzaile euskaldun berriak harrapatzen
● Hizkuntza detekzioa
● Albisteak, gakohitzak
8. IEB2011 | eu.umap.eu
Tuitak jasotzea, denbora errealean
● Twitter. Streaming API
– http://dev.twitter.com/pages/streaming_api
● Aukerak:
– Location
– Track (keywords)
– Language and Country > users
– Limit: eskaera berezia (50000)
● X (10) minutuz behin, eskaera berritu
9. IEB2011 | eu.umap.eu
class Client:
def __init__(self):
self.buffer = u''
self.conn = pycurl.Curl()
self.conn.setopt(pycurl.USERPWD, "%s:%s" % (USER, PASS))
self.conn.setopt(pycurl.URL, STREAM_URL)
self.conn.setopt(pycurl.POSTFIELDS, urllib.urlencode(get_post_values()))
self.conn.setopt(pycurl.WRITEFUNCTION, self.on_receive)
try:
self.conn.perform()
except pycurl.error, e:
print "Error code: ", e[0]
print "Error message: ", e[1]
def on_error(self, data):
import pdb;pdb.set_trace()
print data
def on_receive(self, data):
print data
self.buffer += data
if data.endswith("rn") and self.buffer.strip():
content = json.loads(self.buffer)
a = create_status_from_dic(content)
self.buffer = ""
10. IEB2011 | eu.umap.eu
Erabiltzaile euskaldun berriak
harrapatzen
● Ehhhh.... algoritmo...
● Hasteko erabiltzaile multzo batekin, nahikoa
● Garbiketa ere egiten da
● Norbanakoak bai; robotak?
●
Eu... ondo; ca... ejem.
11. IEB2011 | eu.umap.eu
Hizkuntza detekzioa
● Aukera diferenteak
● Errazena? Google API !!!
● Onena? Google API!!!
– http://code.google.com/apis/language/
● Lizentziak ez du baimentzen. Orduan?
12. IEB2011 | eu.umap.eu
Hizkuntza detekzioa
LangID Textcat LID GuessLanguage
●
Test 1. eu OK % 75 % 74 % 85 % 93
Test 2. eu OK % 76 % 88 % 96 % 95
GuessLanguage erabiltzen dugu
● LangID http://langid.net/
● Text cat http://odur.let.rug.nl/~vannoord/TextCat/
● LID http://web.me.com/dcavar/LID/
● Guess Language https://code.google.com/p/guesslanguage/
13. IEB2011 | eu.umap.eu
Albisteak, gakohitzak
● Gakohitzak
– Hitz guztiak zenbatu eta batu
– Logika
● Hitz normala: 1 point
● Hasha: 10 point
● Tuit horrek link bat du: x1.1
● Tuit hori retuit bat da: x1.1
● ...
● Aldatu liteke!
14. IEB2011 | eu.umap.eu
Albisteak, gakohitzak
● Albisteak
– Link guztiak batu (ojo laburtzaileekin!)
– x minutuz behin, aipatuenak kalkulatu
– Aipatuen hoiek bisitatu eta informazio
relebantea ekarri
● OEmbed!!!!!!!!!!
● HTML parserra ;)
15. IEB2011 | eu.umap.eu
oEmbed vs HTML parser
http://www.youtube.com/oembed?url=http%3A//www.youtube.com/watch%3Fv%3DbDOYN
6gdRE&format=json
{"provider_url": "http://www.youtube.com/",
"title": "BRIARD ON SCOOTER - scooting dog",
vs
<h1 id="watch-headline-title">
<span id="eow-title" class="" dir="ltr" title="BRIARD ON SCOOTER - scooting dog">
BRIARD ON SCOOTER - scooting dog
</span>
</h1>
<div id="watch-headline-user-info">
<a id="watch-username" class="inline-block" rel="author" href="/user/courteous1
"><strong>courteous1</strong></a>
17. IEB2011 | eu.umap.eu
Emaitzak: datu batzuk
● 2010eko urritik martxan (aurreko datuak...)
● Datu orokorrak:
– Tuitak: 1.177.666 (aurrekoak beste 400.000)
– eu tuitak: 151.969 (%13)
– Erabiltzaileak: 2000tik gora jarraitzen. Eu
aktiboak? 1200 inguru... gutxiago seguraski.