SlideShare une entreprise Scribd logo
1  sur  20
Επιστήμη των Δεδομένων και Μαθηματικά:
Εφαρμογή σε δεδομένα μέσων κοινωνικής
δικτύωσης
Εισηγητές: Φαρμάκης Νικόλαος
Τσολακίδου Ελισάβετ
Χανιά Νοέμβριος 2016
Ανάλυση των δεδομένων του Twitter, όπου μελετήθηκαν τα
συναισθήματα και οι προτιμήσεις των χρηστών του μια
δεδομένη χρονική στιγμή σύμφωνα και με την γεωγραφική
τους θέση
Αντικείμενο της εργασίας
2
Το μέσο κοινωνικής δικτύωσης Twitter
Η γλώσσα προγραμματισμού Python
Περιγραφή των όρων:
• Μεγάλα Δεδομένα (Big Data)
• Επιστήμη των Δεδομένων (Data Science)
• Αγωγός των Μεγάλων Δεδομένων (Big Data pipeline)
Ανάλυση δεδομένων από το Twitter με χρήση της γλώσσας
Python
• Πολιτεία της Αμερικής όπου οι άνθρωποι είναι πιο χαρούμενοι
• 10 πιο συχνά hashtags
Μαθηματική προσέγγιση των μηνυμάτων του Twitter
Συμπεράσματα-Προεκτάσεις
Θεματικές ενότητες
3
#happy
#photoshoot
Διαδίκτυο, αναπόσπαστο κομμάτι
της καθημερινότητας του ανθρώπου
• Ραγδαία αύξηση των χρηστών των μέσων κοινωνικής
δικτύωσης
• Εμφανίζονται νέες τεχνολογίες απόκτησης,
αποθήκευσης και ανάλυσης των δεδομένων
4
Διαδίκτυο, αναπόσπαστο κομμάτι της
καθημερινότητας του ανθρώπου
5
Έτος Αριθμός χρηστών
1994 25.437.639
1995 44.866.595
1996 77.583.866
1997 120.992.212
1998 188.507.628
1999 281.537.652
2000 414.794.957
2001 502.292.245
2002 665.065.014
2003 781.435.983
2004 913.327.771
2005 1.030.101.289
2006 1.162.916.818
2007 1.373.226.988
2008 1.575.067.520
2009 1.766.403.814
2010 2.023.202.974
2011 2.231.957.359
2012 2.494.736.248
2013 2.728.428.107
2014 2.956.385.569
2015 3.185.996.155
2016 3.424.971.237
Σύνολο 29.969.235.640
Μέση αύξηση ανά έτος:
R=1,128
• Κοινωνικό δίκτυο με πάνω από 300 εκατομμύρια
μηνιαία ενεργούς χρήστες
• Δωρεάν εγγραφή/πρόσβαση
• Δημόσιες ενημερώσεις κατάστασης από τους χρήστες
του (Tweets)
• Προωθεί τον δημόσιο διάλογο
• Αποτελεί μέσο ενημέρωσης για τους χρήστες του
Twitter
6
• Δημιουργήθηκε από τον Ολλανδό Guido van Rossum το
1990
• Αναγνωσιμότητα στον κώδικα
• Εύκολη στην χρήση
• Ανήκει στο Ελεύθερο Λογισμικό και Λογισμικό Ανοιχτού
Κώδικα (ΕΛΛΑΚ)
• Συμβατή με όλες τις κύριες πλατφόρμες υπολογιστών
Η γλώσσα προγραμματισμού
Python
7
• Ο όρος Μεγάλα Δεδομένα περιγράφει τον μεγάλο όγκο
των δεδομένων που κατακλύζουν μια επιχείρηση
καθημερινά. Αναλύοντας τα οι επιχειρήσεις
οδηγούνται σε καλύτερες αποφάσεις και στρατηγικές
κινήσεις.
• Τα 4Vs: Volume, Variety, Velocity, Veracity
Μεγάλα Δεδομένα (Big Data)
8
• Δεν είναι απλή επεξεργασία δεδομένων αλλά και η
συλλογή, διαχείριση, αποθήκευση και σωστή ανάλυση
των δεδομένων
• Επιστήμονας των Δεδομένων
• Google: Επιδημία της γρίπης των πτηνών 2009
• Στο Πόρτλαντ (ΗΠΑ) σε διάστημα 6 ετών μειώθηκαν οι
ρύποι του CO2 κατά 157.000 μετρικούς τόνους
• 30.000 λιγότερα αυτοκίνητα στους δρόμους ανά έτος
Επιστήμη Δεδομένων (Data Science)
9
Αγωγός των Μεγάλων Δεδομένων
(Big Data Pipeline)
• Ο Αγωγός των Μεγάλων
Δεδομένων αποσυνθέτει
πολύπλοκες αναλύσεις
μεγάλου όγκου
δεδομένων και θέτει μια
σειρά από απλές
δραστηριότητες
10
Ερμηνεία
Συλλογή/Καταγραφή
Ενσωμάτωση/
Παρουσίαση
Διαλογή/
Φιλτράρισμα
Ανάλυση
Περιεχομένου
Δημιουργήθηκε ένα σύστημα, το οποίο συλλέγει δεδομένα από το
Twitter (big data), τα αναλύει και εξάγει συμπεράσματα
αναφορικά με τα συναισθήματα και τις προτιμήσεις των χρηστών
του τη δεδομένη χρονική στιγμή σύμφωνα και με την γεωγραφική
τους θέση.
•Πολιτεία της Αμερικής όπου οι άνθρωποι είναι πιο χαρούμενοι
•10 πιο συχνά hashtags
Ανάλυση δεδομένων από το Twitter
με χρήση της γλώσσας Python
11
• Συλλογή των δεδομένων μέσω του API του Twitter και
αποθήκευση σε αρχείο txt
• Διαλογή των tweets που είναι γραμμένα στην αγγλική γλώσσα
• Εύρεση της γεωγραφικής θέσης όπου κοινοποιήθηκαν τα tweet
• Πεδίο του χρήστη (user)
• Πεδίο της τοποθεσίας (place)
Μεθοδολογία (1)
12
• Δημιουργήθηκαν τα εξής αρχεία με δεδομένα από το Twitter :
• Output2.txt (5.990 MB)
• Output1.txt (56.410 MB)
• Output.txt (600.433 MB)
Μεθοδολογία (2)
13
• Συναισθηματική ανάλυση των tweets μέσω του λεξικού
AFINN-111.txt
• Περιέχει λέξεις που εκφράζουν συναισθήματα
• Κλίμακα από το -5 έως το 5
• Σύγκριση δεδομένων από το Twitter με το αρχείο AFINN-
111.txt και εξαγωγή συμπερασμάτων για το γενικό
συναίσθημα κάθε tweet
• Μέτρηση και ταξινόμηση των hashtags ανάλογα με την
συχνότητα εμφάνισής τους
Μεθοδολογία (3)
14
Παράδειγμα: Yeees, I won!
+2 0 +3 +5=
• Πιο χαρούμενη πολιτεία:
• Δέκα πιο συχνά hashtags:
1. NhI17pavelski
2. Nhl17tarasenko
3. Teenchoice
4. Job
5. Eurovision
6. Prom2k16
7. Hiring
8. Ufc198
9. Nvdmconvention
10. Nowplaying
Αποτελέσματα (1)
(παίκτες του χόκεϊ επί πάγου)
(απονομή βραβείων)
(αναζήτηση εργασίας)
(ευρωπαϊκός διαγωνισμός τραγουδιού)
(εκδήλωση για αποφοίτους Λυκείου)
(προσφορά εργασίας)
(πρωτάθλημα πολεμικών τεχνών)
(επιλογή πολιτικού υποψηφίου)
(αναπαραγωγή πολυμέσων)
15
Ρόουντ Άιλαντ
Αποτελέσματα (2)
16
Μια μαθηματική προσέγγιση
των μηνυμάτων του Twitter
17
• Τα hashtags που χρησιμοποιούνται αφορούν θέματα επίκαιρου
χαρακτήρα
• Δίνεται η δυνατότητα σε εταιρείες να αποκτούν καλύτερη εικόνα
της επιχείρησης τους και να προσαρμόζονται καλύτερα στις
ανάγκες των πελατών τους
• Καλύτερη λειτουργία της επιχείρησης σε διάφορους τομείς π.χ.
πωλήσεις, βελτίωση παραγόμενου προϊόντος
• Chain reaction
• Βελτίωση της εμπειρίας πλοήγησης των χρηστών και δημιουργία
ισχυρότερης σχέσης με τους χρήστες στα μέσα κοινωνικής
δικτύωσης.
Συμπεράσματα-Προεκτάσεις
18
Ελληνική
•Κολυβά-Μαχαίρα, Φ., Μπόρα-Σέντα, E. (2013). «ΣΤΑΤΙΣΤΙΚΗ, Θεωρία-Εφαρμογές». 7η
Έκδοση. Θεσσαλονίκη:
Εκδόσεις ΖΗΤΗ.
•Τσάντας, Ν., Μωυσιάδης, Χ., Μπαγιάτης, Ν. και Χατζηπαντελής, Θ. (1999) Ανάλυση Δεδομένων με την βοήθεια
Στατιστικών Πακέτων. Θεσσαλονίκη: Εκδόσεις ΖΗΤΗ.
•Τσολακίδου, Ε. (2016). Ανάλυση των συναισθημάτων και των προτιμήσεων των χρηστών του Twitter σύμφωνα με
τη γεωγραφική τους θέση. Θεσσαλονίκη: Τμήμα Μαθηματικών Α.Π.Θ.
•Φαρμάκης, Ν. (2001). «ΣΤΑΤΙΣΤΙΚΗ, Περιληπτική Θεωρία-Ασκήσεις». 2η
Έκδοση. Θεσσαλονίκη: Εκδόσεις Α & Π
Χριστοδουλίδη.
Ξενόγλωσση
•Chen, H., Chiang, R.H.L. and Storey, V.C. (2012). Business Intelligence and Analytics: From Big Data to Big Impact.
MIS Quarterly, 36 (4), pp. 1165-1188.
•Data Science Series (2012). Ten Practical Big Data Benefits. Available at: http://datascienceseries.com/stories/ten-
practical-big-data-benefits [Accessed 28/08/16].
•De Mauro, A., Greco, M. and Grimaldi, M. (2014). What is Big Data? A Consensual Definition and a Review of Key
Research Topics. Research Gate: 4th International Conference on Integrated Information.
•Loukides, M. (2010). What is Data Science?. O’Reilly Radar Report.
•Rabl, T., Poess, M., Baru, C. and Jacobsen, H. A. (2012) Specifying Big Data Benchmark. Berlin: Springer.
•Raman, K., Swaminathan, A., Gehrke, J. and Joachims, T. (2013) Beyond Myopic Inference in Big Data Pipelines. ACM
Conference on Knowledge Discovery and Data Mining.
•Shroeck, M., Shockley R., Smart, J., Romero-Morales, D. and Tufano, P. (2012). Analytics: The real-world use of big
data. IBM.
Αναφορές
19
Σας ευχαριστούμε για
την προσοχή σας.
20

Contenu connexe

Similaire à Επιστήμη των Δεδομένων και Μαθηματικά: Εφαρμογή σε δεδομένα μέσων κοινωνικής δικτύωσης

Internet marketing-presentation
Internet marketing-presentationInternet marketing-presentation
Internet marketing-presentationimarketinggr
 
Big data and social media: A practical approach
Big data and social media: A practical approachBig data and social media: A practical approach
Big data and social media: A practical approachTakis Karalivanos
 
Εισαγωγή στην Πληροφορική - 1. Τι είναι η Πληροφορική
Εισαγωγή στην Πληροφορική - 1. Τι είναι η ΠληροφορικήΕισαγωγή στην Πληροφορική - 1. Τι είναι η Πληροφορική
Εισαγωγή στην Πληροφορική - 1. Τι είναι η ΠληροφορικήMarina Gavrilaki
 
1 - 3rd OD WS - Open Data Latest Developments
1 - 3rd OD WS -  Open Data Latest Developments1 - 3rd OD WS -  Open Data Latest Developments
1 - 3rd OD WS - Open Data Latest DevelopmentsOpenDataCy
 
Market Survey
Market SurveyMarket Survey
Market Surveyathgouras
 
4 crowdpolicy open data ap-is cyprus
4   crowdpolicy open data ap-is cyprus4   crowdpolicy open data ap-is cyprus
4 crowdpolicy open data ap-is cyprusOpenDataCy
 
Social media marketing
Social media marketingSocial media marketing
Social media marketingAkis Kioupakis
 
Biz miz o1 m5_u5.1_r1_cy
Biz miz o1 m5_u5.1_r1_cyBiz miz o1 m5_u5.1_r1_cy
Biz miz o1 m5_u5.1_r1_cyKATHLEENBULTEEL
 
Biz miz o1 m5_u5.1_r1_cy
Biz miz o1 m5_u5.1_r1_cyBiz miz o1 m5_u5.1_r1_cy
Biz miz o1 m5_u5.1_r1_cyKATHLEENBULTEEL
 
Χαρτογράφηση ροής δεδομένων Data Flow Mapping
Χαρτογράφηση ροής δεδομένων Data Flow MappingΧαρτογράφηση ροής δεδομένων Data Flow Mapping
Χαρτογράφηση ροής δεδομένων Data Flow MappingNikos Mpalatsoukas
 
1 od - open data - the new oil
1   od - open data - the new oil1   od - open data - the new oil
1 od - open data - the new oilOpenDataCy
 
Biz miz o1 m5_u5.2_r7_cy
Biz miz o1 m5_u5.2_r7_cyBiz miz o1 m5_u5.2_r7_cy
Biz miz o1 m5_u5.2_r7_cyKATHLEENBULTEEL
 
Biz miz o1 m5_u5.2_r7_cy
Biz miz o1 m5_u5.2_r7_cyBiz miz o1 m5_u5.2_r7_cy
Biz miz o1 m5_u5.2_r7_cyKATHLEENBULTEEL
 
Ασφάλεια ΤΠΕ - 03. GDPR
Ασφάλεια ΤΠΕ - 03. GDPRΑσφάλεια ΤΠΕ - 03. GDPR
Ασφάλεια ΤΠΕ - 03. GDPRMarina Gavrilaki
 
Open Data for Scientific Research
Open Data for Scientific ResearchOpen Data for Scientific Research
Open Data for Scientific ResearchKaterina Lenaki
 
Ψηφιακός Μετασχηματισμός και Διακυβέρνηση: Διεθνείς Πολιτικές και Νέες Τεχνολ...
Ψηφιακός Μετασχηματισμός και Διακυβέρνηση: Διεθνείς Πολιτικές και Νέες Τεχνολ...Ψηφιακός Μετασχηματισμός και Διακυβέρνηση: Διεθνείς Πολιτικές και Νέες Τεχνολ...
Ψηφιακός Μετασχηματισμός και Διακυβέρνηση: Διεθνείς Πολιτικές και Νέες Τεχνολ...Yannis Charalabidis
 
ASOCEU Greece - Lesson 1- In-Class Exercise 1: Data Expedition
ASOCEU Greece - Lesson 1- In-Class Exercise 1: Data ExpeditionASOCEU Greece - Lesson 1- In-Class Exercise 1: Data Expedition
ASOCEU Greece - Lesson 1- In-Class Exercise 1: Data ExpeditionA Scuola di OpenCoesione
 

Similaire à Επιστήμη των Δεδομένων και Μαθηματικά: Εφαρμογή σε δεδομένα μέσων κοινωνικής δικτύωσης (20)

Internet marketing-presentation
Internet marketing-presentationInternet marketing-presentation
Internet marketing-presentation
 
Big data and social media: A practical approach
Big data and social media: A practical approachBig data and social media: A practical approach
Big data and social media: A practical approach
 
Εισαγωγή στην Πληροφορική - 1. Τι είναι η Πληροφορική
Εισαγωγή στην Πληροφορική - 1. Τι είναι η ΠληροφορικήΕισαγωγή στην Πληροφορική - 1. Τι είναι η Πληροφορική
Εισαγωγή στην Πληροφορική - 1. Τι είναι η Πληροφορική
 
1 - 3rd OD WS - Open Data Latest Developments
1 - 3rd OD WS -  Open Data Latest Developments1 - 3rd OD WS -  Open Data Latest Developments
1 - 3rd OD WS - Open Data Latest Developments
 
Market Survey
Market SurveyMarket Survey
Market Survey
 
4 crowdpolicy open data ap-is cyprus
4   crowdpolicy open data ap-is cyprus4   crowdpolicy open data ap-is cyprus
4 crowdpolicy open data ap-is cyprus
 
Social media marketing
Social media marketingSocial media marketing
Social media marketing
 
Biz miz o1 m5_u5.1_r1_cy
Biz miz o1 m5_u5.1_r1_cyBiz miz o1 m5_u5.1_r1_cy
Biz miz o1 m5_u5.1_r1_cy
 
Biz miz o1 m5_u5.1_r1_cy
Biz miz o1 m5_u5.1_r1_cyBiz miz o1 m5_u5.1_r1_cy
Biz miz o1 m5_u5.1_r1_cy
 
Χαρτογράφηση ροής δεδομένων Data Flow Mapping
Χαρτογράφηση ροής δεδομένων Data Flow MappingΧαρτογράφηση ροής δεδομένων Data Flow Mapping
Χαρτογράφηση ροής δεδομένων Data Flow Mapping
 
1 od - open data - the new oil
1   od - open data - the new oil1   od - open data - the new oil
1 od - open data - the new oil
 
SOCIAL MEDIA Analysis
SOCIAL MEDIA AnalysisSOCIAL MEDIA Analysis
SOCIAL MEDIA Analysis
 
Biz miz o1 m5_u5.2_r7_cy
Biz miz o1 m5_u5.2_r7_cyBiz miz o1 m5_u5.2_r7_cy
Biz miz o1 m5_u5.2_r7_cy
 
Biz miz o1 m5_u5.2_r7_cy
Biz miz o1 m5_u5.2_r7_cyBiz miz o1 m5_u5.2_r7_cy
Biz miz o1 m5_u5.2_r7_cy
 
Ασφάλεια ΤΠΕ - 03. GDPR
Ασφάλεια ΤΠΕ - 03. GDPRΑσφάλεια ΤΠΕ - 03. GDPR
Ασφάλεια ΤΠΕ - 03. GDPR
 
Open Data for Scientific Research
Open Data for Scientific ResearchOpen Data for Scientific Research
Open Data for Scientific Research
 
Ψηφιακός Μετασχηματισμός και Διακυβέρνηση: Διεθνείς Πολιτικές και Νέες Τεχνολ...
Ψηφιακός Μετασχηματισμός και Διακυβέρνηση: Διεθνείς Πολιτικές και Νέες Τεχνολ...Ψηφιακός Μετασχηματισμός και Διακυβέρνηση: Διεθνείς Πολιτικές και Νέες Τεχνολ...
Ψηφιακός Μετασχηματισμός και Διακυβέρνηση: Διεθνείς Πολιτικές και Νέες Τεχνολ...
 
Περί Βουλής
Περί ΒουλήςΠερί Βουλής
Περί Βουλής
 
Social Media & Επιχειρήσεις
Social Media & ΕπιχειρήσειςSocial Media & Επιχειρήσεις
Social Media & Επιχειρήσεις
 
ASOCEU Greece - Lesson 1- In-Class Exercise 1: Data Expedition
ASOCEU Greece - Lesson 1- In-Class Exercise 1: Data ExpeditionASOCEU Greece - Lesson 1- In-Class Exercise 1: Data Expedition
ASOCEU Greece - Lesson 1- In-Class Exercise 1: Data Expedition
 

Επιστήμη των Δεδομένων και Μαθηματικά: Εφαρμογή σε δεδομένα μέσων κοινωνικής δικτύωσης

  • 1. Επιστήμη των Δεδομένων και Μαθηματικά: Εφαρμογή σε δεδομένα μέσων κοινωνικής δικτύωσης Εισηγητές: Φαρμάκης Νικόλαος Τσολακίδου Ελισάβετ Χανιά Νοέμβριος 2016
  • 2. Ανάλυση των δεδομένων του Twitter, όπου μελετήθηκαν τα συναισθήματα και οι προτιμήσεις των χρηστών του μια δεδομένη χρονική στιγμή σύμφωνα και με την γεωγραφική τους θέση Αντικείμενο της εργασίας 2
  • 3. Το μέσο κοινωνικής δικτύωσης Twitter Η γλώσσα προγραμματισμού Python Περιγραφή των όρων: • Μεγάλα Δεδομένα (Big Data) • Επιστήμη των Δεδομένων (Data Science) • Αγωγός των Μεγάλων Δεδομένων (Big Data pipeline) Ανάλυση δεδομένων από το Twitter με χρήση της γλώσσας Python • Πολιτεία της Αμερικής όπου οι άνθρωποι είναι πιο χαρούμενοι • 10 πιο συχνά hashtags Μαθηματική προσέγγιση των μηνυμάτων του Twitter Συμπεράσματα-Προεκτάσεις Θεματικές ενότητες 3 #happy #photoshoot
  • 4. Διαδίκτυο, αναπόσπαστο κομμάτι της καθημερινότητας του ανθρώπου • Ραγδαία αύξηση των χρηστών των μέσων κοινωνικής δικτύωσης • Εμφανίζονται νέες τεχνολογίες απόκτησης, αποθήκευσης και ανάλυσης των δεδομένων 4
  • 5. Διαδίκτυο, αναπόσπαστο κομμάτι της καθημερινότητας του ανθρώπου 5 Έτος Αριθμός χρηστών 1994 25.437.639 1995 44.866.595 1996 77.583.866 1997 120.992.212 1998 188.507.628 1999 281.537.652 2000 414.794.957 2001 502.292.245 2002 665.065.014 2003 781.435.983 2004 913.327.771 2005 1.030.101.289 2006 1.162.916.818 2007 1.373.226.988 2008 1.575.067.520 2009 1.766.403.814 2010 2.023.202.974 2011 2.231.957.359 2012 2.494.736.248 2013 2.728.428.107 2014 2.956.385.569 2015 3.185.996.155 2016 3.424.971.237 Σύνολο 29.969.235.640 Μέση αύξηση ανά έτος: R=1,128
  • 6. • Κοινωνικό δίκτυο με πάνω από 300 εκατομμύρια μηνιαία ενεργούς χρήστες • Δωρεάν εγγραφή/πρόσβαση • Δημόσιες ενημερώσεις κατάστασης από τους χρήστες του (Tweets) • Προωθεί τον δημόσιο διάλογο • Αποτελεί μέσο ενημέρωσης για τους χρήστες του Twitter 6
  • 7. • Δημιουργήθηκε από τον Ολλανδό Guido van Rossum το 1990 • Αναγνωσιμότητα στον κώδικα • Εύκολη στην χρήση • Ανήκει στο Ελεύθερο Λογισμικό και Λογισμικό Ανοιχτού Κώδικα (ΕΛΛΑΚ) • Συμβατή με όλες τις κύριες πλατφόρμες υπολογιστών Η γλώσσα προγραμματισμού Python 7
  • 8. • Ο όρος Μεγάλα Δεδομένα περιγράφει τον μεγάλο όγκο των δεδομένων που κατακλύζουν μια επιχείρηση καθημερινά. Αναλύοντας τα οι επιχειρήσεις οδηγούνται σε καλύτερες αποφάσεις και στρατηγικές κινήσεις. • Τα 4Vs: Volume, Variety, Velocity, Veracity Μεγάλα Δεδομένα (Big Data) 8
  • 9. • Δεν είναι απλή επεξεργασία δεδομένων αλλά και η συλλογή, διαχείριση, αποθήκευση και σωστή ανάλυση των δεδομένων • Επιστήμονας των Δεδομένων • Google: Επιδημία της γρίπης των πτηνών 2009 • Στο Πόρτλαντ (ΗΠΑ) σε διάστημα 6 ετών μειώθηκαν οι ρύποι του CO2 κατά 157.000 μετρικούς τόνους • 30.000 λιγότερα αυτοκίνητα στους δρόμους ανά έτος Επιστήμη Δεδομένων (Data Science) 9
  • 10. Αγωγός των Μεγάλων Δεδομένων (Big Data Pipeline) • Ο Αγωγός των Μεγάλων Δεδομένων αποσυνθέτει πολύπλοκες αναλύσεις μεγάλου όγκου δεδομένων και θέτει μια σειρά από απλές δραστηριότητες 10 Ερμηνεία Συλλογή/Καταγραφή Ενσωμάτωση/ Παρουσίαση Διαλογή/ Φιλτράρισμα Ανάλυση Περιεχομένου
  • 11. Δημιουργήθηκε ένα σύστημα, το οποίο συλλέγει δεδομένα από το Twitter (big data), τα αναλύει και εξάγει συμπεράσματα αναφορικά με τα συναισθήματα και τις προτιμήσεις των χρηστών του τη δεδομένη χρονική στιγμή σύμφωνα και με την γεωγραφική τους θέση. •Πολιτεία της Αμερικής όπου οι άνθρωποι είναι πιο χαρούμενοι •10 πιο συχνά hashtags Ανάλυση δεδομένων από το Twitter με χρήση της γλώσσας Python 11
  • 12. • Συλλογή των δεδομένων μέσω του API του Twitter και αποθήκευση σε αρχείο txt • Διαλογή των tweets που είναι γραμμένα στην αγγλική γλώσσα • Εύρεση της γεωγραφικής θέσης όπου κοινοποιήθηκαν τα tweet • Πεδίο του χρήστη (user) • Πεδίο της τοποθεσίας (place) Μεθοδολογία (1) 12
  • 13. • Δημιουργήθηκαν τα εξής αρχεία με δεδομένα από το Twitter : • Output2.txt (5.990 MB) • Output1.txt (56.410 MB) • Output.txt (600.433 MB) Μεθοδολογία (2) 13
  • 14. • Συναισθηματική ανάλυση των tweets μέσω του λεξικού AFINN-111.txt • Περιέχει λέξεις που εκφράζουν συναισθήματα • Κλίμακα από το -5 έως το 5 • Σύγκριση δεδομένων από το Twitter με το αρχείο AFINN- 111.txt και εξαγωγή συμπερασμάτων για το γενικό συναίσθημα κάθε tweet • Μέτρηση και ταξινόμηση των hashtags ανάλογα με την συχνότητα εμφάνισής τους Μεθοδολογία (3) 14 Παράδειγμα: Yeees, I won! +2 0 +3 +5=
  • 15. • Πιο χαρούμενη πολιτεία: • Δέκα πιο συχνά hashtags: 1. NhI17pavelski 2. Nhl17tarasenko 3. Teenchoice 4. Job 5. Eurovision 6. Prom2k16 7. Hiring 8. Ufc198 9. Nvdmconvention 10. Nowplaying Αποτελέσματα (1) (παίκτες του χόκεϊ επί πάγου) (απονομή βραβείων) (αναζήτηση εργασίας) (ευρωπαϊκός διαγωνισμός τραγουδιού) (εκδήλωση για αποφοίτους Λυκείου) (προσφορά εργασίας) (πρωτάθλημα πολεμικών τεχνών) (επιλογή πολιτικού υποψηφίου) (αναπαραγωγή πολυμέσων) 15 Ρόουντ Άιλαντ
  • 17. Μια μαθηματική προσέγγιση των μηνυμάτων του Twitter 17
  • 18. • Τα hashtags που χρησιμοποιούνται αφορούν θέματα επίκαιρου χαρακτήρα • Δίνεται η δυνατότητα σε εταιρείες να αποκτούν καλύτερη εικόνα της επιχείρησης τους και να προσαρμόζονται καλύτερα στις ανάγκες των πελατών τους • Καλύτερη λειτουργία της επιχείρησης σε διάφορους τομείς π.χ. πωλήσεις, βελτίωση παραγόμενου προϊόντος • Chain reaction • Βελτίωση της εμπειρίας πλοήγησης των χρηστών και δημιουργία ισχυρότερης σχέσης με τους χρήστες στα μέσα κοινωνικής δικτύωσης. Συμπεράσματα-Προεκτάσεις 18
  • 19. Ελληνική •Κολυβά-Μαχαίρα, Φ., Μπόρα-Σέντα, E. (2013). «ΣΤΑΤΙΣΤΙΚΗ, Θεωρία-Εφαρμογές». 7η Έκδοση. Θεσσαλονίκη: Εκδόσεις ΖΗΤΗ. •Τσάντας, Ν., Μωυσιάδης, Χ., Μπαγιάτης, Ν. και Χατζηπαντελής, Θ. (1999) Ανάλυση Δεδομένων με την βοήθεια Στατιστικών Πακέτων. Θεσσαλονίκη: Εκδόσεις ΖΗΤΗ. •Τσολακίδου, Ε. (2016). Ανάλυση των συναισθημάτων και των προτιμήσεων των χρηστών του Twitter σύμφωνα με τη γεωγραφική τους θέση. Θεσσαλονίκη: Τμήμα Μαθηματικών Α.Π.Θ. •Φαρμάκης, Ν. (2001). «ΣΤΑΤΙΣΤΙΚΗ, Περιληπτική Θεωρία-Ασκήσεις». 2η Έκδοση. Θεσσαλονίκη: Εκδόσεις Α & Π Χριστοδουλίδη. Ξενόγλωσση •Chen, H., Chiang, R.H.L. and Storey, V.C. (2012). Business Intelligence and Analytics: From Big Data to Big Impact. MIS Quarterly, 36 (4), pp. 1165-1188. •Data Science Series (2012). Ten Practical Big Data Benefits. Available at: http://datascienceseries.com/stories/ten- practical-big-data-benefits [Accessed 28/08/16]. •De Mauro, A., Greco, M. and Grimaldi, M. (2014). What is Big Data? A Consensual Definition and a Review of Key Research Topics. Research Gate: 4th International Conference on Integrated Information. •Loukides, M. (2010). What is Data Science?. O’Reilly Radar Report. •Rabl, T., Poess, M., Baru, C. and Jacobsen, H. A. (2012) Specifying Big Data Benchmark. Berlin: Springer. •Raman, K., Swaminathan, A., Gehrke, J. and Joachims, T. (2013) Beyond Myopic Inference in Big Data Pipelines. ACM Conference on Knowledge Discovery and Data Mining. •Shroeck, M., Shockley R., Smart, J., Romero-Morales, D. and Tufano, P. (2012). Analytics: The real-world use of big data. IBM. Αναφορές 19