Ce diaporama a bien été signalé.
Nous utilisons votre profil LinkedIn et vos données d’activité pour vous proposer des publicités personnalisées et pertinentes. Vous pouvez changer vos préférences de publicités à tout moment.
Text minning sederhana di python
Oleh : www.softscients.web.id
Cerita ini dimulai ketika penulis sedang mengerjakan sebuah...
Coba anda buat Application di twitter.com seperti berikut
https://spring.io/guides/gs/register-twitter-app/
untuk mendapat...
Penulis membuat script sesuai dengan contoh di blog tersebut:
kasus1.py
#Import the necessary methods from tweepy library
...
Nah anda tinggal baca2 saja cara mengolah data diatas menggunakan Pandas atau Regex.
Biasanya untuk mendapatkan data yang ...
Prochain SlideShare
Chargement dans…5
×

Text minning sederhana di python

420 vues

Publié le

Text minning sederhana di python

Publié dans : Ingénierie
  • Soyez le premier à commenter

  • Soyez le premier à aimer ceci

Text minning sederhana di python

  1. 1. Text minning sederhana di python Oleh : www.softscients.web.id Cerita ini dimulai ketika penulis sedang mengerjakan sebuah riset mengenai keterkaitan content disebuah ‘percakapan´ di sosmed. Maka penulis menggunakan https://github.com/tweepy/tweepy Setelah di extract, maka bukan command prompt dan tujukan pada folder install tersebut. Untuk install tweepy cukup ketikan : python setup.py install Seperti pada contoh berikut: Setelah install maka tampil berikut
  2. 2. Coba anda buat Application di twitter.com seperti berikut https://spring.io/guides/gs/register-twitter-app/ untuk mendapatkan akses token, akses token screet, consumer key, consumer screet API nya cara akses ke API di python silahkan kunjungi berikut: http://adilmoujahid.com/posts/2014/07/twitter-analytics/ Information API in tweet Consumer Key (API Key) lkweJdSd29e5WV4ZGkJlzmhxE Consumer Secret (API Secret) LwZzXBIpVDQhwAlfEbwcfbJXNS9OLbwnSuoMDs7k2GNBpIPTFb Access Level Read and write (modify app permissions) Owner softscients Owner ID 2743869871 Token Access Token 2743869871-8XtlcjvIR8aN4Pvklu2w5VO4tg89S8BPIfdDC8A Access Token Secret j46R09fUtRianuCAIeSV2L8Hg8skw57z6afplTIQ2hJKK Access Level Read and write Owner softscients Owner ID 2743869871 Penulis sudah mencoba sesuai dengan tutorial diatas dan cukup efektif dalam mendapatkan content, tentunya kita harus memahami betul cara kerja regex di python.
  3. 3. Penulis membuat script sesuai dengan contoh di blog tersebut: kasus1.py #Import the necessary methods from tweepy library from tweepy.streaming import StreamListener from tweepy import OAuthHandler from tweepy import Stream #Variables that contains the user credentials to access Twitter API access_token = "xxxxxx" access_token_secret = "xxxxxxx" consumer_key = "xxxxxxxxxxxx" consumer_secret = "xxxxxxxxxxxx" #This is a basic listener that just prints received tweets to stdout. class StdOutListener(StreamListener): def on_data(self, data): print data return True def on_error(self, status): print status if __name__ == '__main__': #This handles Twitter authetification and the connection to Twitter Streaming API l = StdOutListener() auth = OAuthHandler(consumer_key, consumer_secret) auth.set_access_token(access_token, access_token_secret) stream = Stream(auth, l) #This line filter Twitter Streams to capture data by the keywords: 'python', 'javascript', 'ruby' stream.filter(track=['python', 'javascript', 'ruby']) Kemudian penulis panggil melalui comand prompt Biarkan saja running, misalkan saja 5 menit, untuk menghentikannya, cukup tekan ctr+c Maka akan tercipta file data.txt pada direktori diatas, bila dibuka, gunakan saja notepad++
  4. 4. Nah anda tinggal baca2 saja cara mengolah data diatas menggunakan Pandas atau Regex. Biasanya untuk mendapatkan data yang banyak, biarkan saja aplikasi berjalan selama berjam-jam dan jangan lupa untuk menghentikannya cukup tekan ctr+c Cukup sederhana dan sangat bermanfaat untuk mendapatkan sebuah insight dalam jutaan tweet, sehingga kamu pun bisa merancang sebuah algoritma untuk menentukan sebuah keterkaitan content!

×