SlideShare une entreprise Scribd logo
1  sur  52
Αναζήτηση μηνυμάτων κοινωνικών μέσων
σχετικών με γεγονότα με χρήση τεχνικών
ανάκτησης πληροφορίας
Εκπόνηση Εργασίας : Γεώργιος Ζησόπουλος 6647
Επιβλέπων Καθηγητής : Περικλής Α. Μήτκας
ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ
ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ
Τμήμα Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών
Τομέας Ηλεκτρονικής και Υπολογιστών
Εργαστήριο Επεξεργασίας Πληροφορίας και Υπολογισμών
 Social media – Ενημέρωση
 Twitter
• Μηνύματα 140 χαρακτήρων
• 310 εκατομμύρια χρήστες καθημερινά
• 500 εκατομμύρια tweets την μέρα
• Μέσα στα Top10 sites παγκοσμίως
 Στόχος : Συγκέντρωση σχετικής και μη επαναλαμβανόμενης
πληροφορίας για μια λίστα ειδήσεων
Εισαγωγή – Στόχος της εργασίας
2
Μεθοδολογία
3
4
Web Scraping
5
Web Scraping
6
Δενδροειδής αναπαράσταση HTML κώδικα
Web Scraping
7
Παράδειγμα HTML κώδικα μιας είδησης
Web Scraping
8
Παράδειγμα Document μιας είδησης στην ΒΔ
9
Named Entities
Stanford NER
Εξαγωγή χρήσιμων όρων
10
Proper Nouns
arktweetnlp
Εξαγωγή χρήσιμων όρων
11
Adjective - Noun
Stanford POS Tagger
Εξαγωγή χρήσιμων όρων
12
Noun Sequences
Stanford POS Tagger
13
Εξαγωγή χρήσιμων όρων
Nouns
Stanford POS Tagger
14
Εξαγωγή χρήσιμων όρων
Noun Phrases
OenNLPTagger
15
Εξαγωγή χρήσιμων όρων
Keywords
Jsoup
16
Εξαγωγή χρήσιμων όρων
17
Παράδειγμα Document είδησης με τους εξαχθέντες όρους
Εξαγωγή χρήσιμων όρων
18
Σχηματισμός queries
Three Spanish journalists were released after being abducted around Aleppo, Syria, and
held hostage by the Al-Nusra Front since 13 July 2015.
……………
"july" AND "abducted" "spanish journalists" AND "aleppo"
"july" AND "al-nusra" "spanish journalists" AND "abducted"
"july" AND "front" "spanish journalists" AND "al-nusra"
"journalists" AND "aleppo" "aleppo" AND "13 july"
"journalists" AND "13 july" "aleppo" AND "abducted"
"journalists" AND "al-nusra" "abducted" AND "al-nusra"
"aleppo syria" AND "spanish journalists" "abducted" AND "front"
"aleppo syria" AND "abducted" "abducted" AND "13 july"
……………
19
Ενδεικτικά Queries μιας είδησης
 “term1” AND “term1”  “term1 term2 term3” AND “term1”
20
• Twitter REST API – Java Library Twitter4j
• Tweets έως 7 ημερών
• Όριο 450 requests / 15min
• Paging
• No Retweets
• Language : English
Συλλογή Tweets
21
News Date # News Average
Queries/News
Average
Tweets/News
DB Size
06/05/2016 12 464,7 60328 444.98 MB
08/05/2016 11 101,5 7368 55.92 MB
22
• Apache Lucene 5.5.0
• Inverted index
Indexing
23
24
25
Information Retrieval
• Αναπαράσταση κειμένου ως διάνυσμα
• Κάθε διάσταση είναι το tf-idf μιας λέξης
• Tf – Term Frequency
• Idf – Inverse Document Frequency
• Έστω 2 έγγραφα d1 = “w1 w2 w3” και d2 = “w2 w5 w6”
• 𝑉 𝑑1 και 𝑉 𝑑2 τα διανύσματά τους
• Cosine Similarity
𝑐𝑜𝑠𝑖𝑛𝑒 𝑠𝑖𝑚 𝑑1, 𝑑2 =
𝑉 𝑑1 ∙ 𝑉 𝑑2
𝑉 𝑑1 ∙ 𝑉 𝑑2
Vector Space Model
26
• Default Scoring Formula
𝑠𝑐𝑜𝑟𝑒 𝑞, 𝑑 = 𝑐𝑜𝑜𝑟𝑑 𝑞, 𝑑 ∗ 𝑞𝑢𝑒𝑟𝑦𝑁𝑜𝑟𝑚 𝑞 ∗ 𝑡 𝑖𝑛 𝑞(𝑡𝑓 𝑡 𝑖𝑛 𝑑 ∗ 𝑖𝑑𝑓 𝑡 2
∗ 𝑡. 𝑔𝑒𝑡𝑏𝑜𝑜𝑠𝑡 ∗ 𝑛𝑜𝑟𝑚(𝑡, 𝑑))
• Κλάσεις βαθμολόγησης
TFIDFSimiliarity
tf(t in d) = frequency½
idf(t) = 1 + log(
𝑛𝑢𝑚𝐷𝑜𝑐𝑠
𝑑𝑜𝑐𝐹𝑟𝑒𝑞+1
)
BM25Similarity
𝑠𝑐𝑜𝑟𝑒 𝑞, 𝑑 = 𝑖=1
𝑛
𝑖𝑑𝑓 𝑞𝑖 ∗
𝑡𝑓 𝑞 𝑖 ∗(𝑘1+1)
𝑡𝑓 𝑞 𝑖 +𝑘1(1−𝑏+𝑏
|𝐷|
𝑎𝑣𝑔𝑑𝑙
)
𝑡𝑓 𝑞𝑖 = frequency½
𝑖𝑑𝑓 𝑞𝑖 = log
𝑛𝑢𝑚𝐷𝑜𝑐𝑠−𝑛 𝑞 𝑖 +0.5
𝑛 𝑞 𝑖 +0.5
27
Lucene Scoring
Λογική Γλωσσικών μοντέλων
• Έστω ένα έγγραφο D και ένα Λεξικό Σ
• Υπολογισμός πιθανότητας εμφάνισης κάθε λέξης του Λεξικού Σ με
βάση το έγγραφο D
• Πρέπει να ισχύει η σχέση 𝑠∈Σ 𝑃(𝑠) = 1
• Δεν υπάρχουν όλες οι λέξεις στο έγγραφο D => Smoothing
Μοντέλα
• Query likelihood model 𝑠𝑐𝑜𝑟𝑒 𝑞, 𝑑 = 𝑃(𝑞|𝛩 𝑑)
• Document likelihood model 𝑠𝑐𝑜𝑟𝑒 𝑞, 𝑑 = 𝑃(𝑑|𝛩𝑞)
28
Language models
Ποιος είναι ο σκοπός του PRF;
• Επέκταση ερωτήματος με νέους όρους
Διαδικασία:
• 1ο Στάδιο IR – συλλογής εγγράφων
• Επιλέγονται τα Ν πρώτα
• Αυτά αποτελούν το (Pseudo) Relevance Set
• Αξιοποίηση του (Pseudo) Relevance Set και εξαγωγή νέων όρων
• Η διαδικασία αυτή ονομάζεται (Pseudo) Relevance Feedback
29
Pseudo-Relevance Feedback
Λογική Σχεσιακών μοντέλων
• Πιθανότητα εμφάνισης της λέξης w βάσει του συνόλου σχετικότητας R
𝑃(𝑤|𝑅) ∝
𝑑∈𝐶
𝑃 𝑑 ∙ 𝑃 𝑤 𝑑 ∙
𝑖=1
𝑛
𝑃 𝑞𝑖 𝑑
• Η P(d) θεωρείται ομοιόμορφη
• Το γινόμενο 𝑖=1
𝑛
𝑃 𝑞𝑖 𝑑 υπολογίζει την πιθανότητα ερωτήματος
• Αρκεί η εκτίμηση της πιθανότητας 𝑃 𝑤 𝑑 να εμφανιστεί η λέξη w με
βάση τους όρους του εγγράφου d
RM3:
Για την επιλογή των νέων όρων του expanded query, γίνεται γραμμική
παρεμβολή με τους όρους του original query
• 𝑃 𝑤 𝑞′
= 1 − 𝜆 ∙ 𝑃 𝑤 𝑞 + 𝜆 ∙ 𝑃 𝑤 𝑅
30
Relevance Models
• Αναζήτηση στο index με τα ίδια queries
• Το ίδιο tweet επιστρέφει με πολλά queries
• Ταξινόμηση tweets με βάση 3 μεθόδους
- Average 𝑠𝑐𝑜𝑟𝑒 = 𝑖=1
𝑁
𝑠𝑐𝑜𝑟𝑒(𝑖)
𝑁
- Maxscore 𝑠𝑐𝑜𝑟𝑒 = max 𝑠𝑐𝑜𝑟𝑒 1 … 𝑠𝑐𝑜𝑟𝑒 𝑁
- Sum 𝑠𝑐𝑜𝑟𝑒 = 𝑖=1
𝑁
𝑠𝑐𝑜𝑟𝑒(𝑖)
Επιλογή σχετικότερων tweets
31
******* TFIDF BM25
Είδηση Averag
e
Maxscore Sum Average Maxscore Sum
1 0.95 0.95 1 1 1 1
2 0.75 0.90 1 0.90 0.95 1
3 1 1 1 1 1 1
4 0.95 0.90 1 1 1 1
5 0.85 1 1 0.90 1 1
6 1 1 1 1 1 1
7 0.60 1 1 0.95 1 1
8 0.20 0.20 0.45 0.25 0.30 0.60
9 1 1 1 1 1 1
10 1 1 1 1 1 1
11 0.10 0.10 0.10 0.10 0.10 0.10
Average
Precision
0.764 0.824 0.868 0.827 0.850 0.882
Επιλογή σχετικότερων tweets
32
# Tweet Relevant
1 travelling to Taif, Saudi Arabia No
2 Trophee Hassan Policeman Killed in Shootout With Militants Yes
3 Saudi policeman killed in shootout with militants: Saudi Arabia says a policeman
was killed in a shootout with… https://t.co/p2cY4KWocm
Yes
4 Saudi Policeman Killed in Shootout With Militants: Saudi Arabia says a policeman
was killed in a shootout wit... https://t.co/BxP885EDBQ
Yes
5 Saudi Policeman Killed in Shootout With Militants: Saudi Arabia says a policeman
was killed in a shootout with… https://t.co/lB1ePd2lcv
Yes
6 Saudi policeman killed in shootout with militants - Saudi Arabia says a policeman
was killed in a shootout with... https://t.co/iORDNawewq
Yes
7 Saudi Policeman Killed in Shootout With Militants - Saudi Arabia says a policeman
was killed in a shootout with... https://t.co/iM6gzcyTGS
Yes
8 Saudi Policeman Killed in Shootout With Militants: Saudi Arabia says a policeman
was killed in a shootout with militants in the weste...
Yes
9 #Rainbow over #Taif, #Saudi, the weather! No
10 Saudi Arabia says a policeman was killed in a shootout with militants in the
western city of Taif
Yes
Επιλογή σχετικότερων tweets
Είδηση A policeman is killed in a shootout with militants in Taif, Saudi Arabia.
TFIDF,MAXSCORE
33
Επιλογή σχετικότερων tweets
Δεδομένα :
- AllTweets: Πίνακας όλων των tweets σε φθίνουσα κατάταξη
- Ν: Πλήθος Φιλτραρισμένων tweets
- K: Δείκτης θέσης στον πίνακα AllTweets
- Similar: Ομοιότητα με φιλτραρισμένα tweets
Έξοδος :
- FilTweets: Top 100 tweets χωρίς duplicates
Αρχή:
Ν = 1
Κ = 1
FilTweets[N] = AllTweets[K]
Κάνε
Κ = Κ+1
Similar = Ψευδές
Για i από 1 μέχρι Ν
Αν CosSim( AllTweets[K] , FilTweets[i] ) > 0,5 τότε
Similar = Αληθές
Έξοδος
Τέλος_Αν
Τέλος_Επανάληψης
Αν Similar == Ψευδές τότε
FilTweets[N]=AllTweets[K]
Τέλος_Αν
Όσο{Ν<100}
Τέλος
MMR
Filtering
34
# Tweet Relevant
1 travelling to Taif, Saudi Arabia No
2 Trophee Hassan Policeman Killed in Shootout With Militants Yes
3 Saudi policeman killed in shootout with militants - Saudi Arabia says a policeman
was killed in a shootout with... https://t.co/iORDNawewq Yes
4 #Rainbow over #Taif, #Saudi, the weather! No
5 RealTimeHack: Saudi policeman killed in shootout with militants
https://t.co/14Oxnj0iOL #NLU
Yes
6 Saudi policeman dies in shootout as ‘terror’ plot foiled: https://t.co/mNxJl68AG0 Yes
7 Saudi Policeman Killed in Shootout With Militants - New York Times: Saudi
GazetteSaudi Policeman Killed in Sh... https://t.co/gJ9bfLJAod Yes
8 Just posted a photo @ Taif, Saudi Arabia https://t.co/rgIf4LpzSS No
9 Just posted a video @ Taif, Saudi Arabia https://t.co/MzHwHw997Q No
10 More of downtown Taif, Saudi Arabia. #globaledambassador #diversity… No
Επιλογή σχετικότερων tweets
Είδηση A policeman is killed in a shootout with militants in Taif, Saudi Arabia.
TFIDF,MAXSCORE,MMR
35
******** TFIDF BM25
Είδηση Average Maxscore Sum Average Maxscore Sum
1 0.95 0.95 1 1 1 0.95
2 0.65 0.70 0.95 0.65 0.70 1
3 1 0.85 0.95 1 1 0.95
4 1 0.90 0.95 0.90 0.95 0.90
5 0.55 0.95 0.95 0.85 1 0.95
6 1 1 1 1 1 1
7 1 1 1 1 0.95 1
8 0.15 0.25 0.40 0.20 0.25 0.50
9 1 1 1 1 1 1
10 0.95 1 1 1 1 1
11 0.10 0.10 0.10 0.10 0.10 0.10
Average
Precision
0.759 0.791 0.845 0.791 0.814 0.850
Επιλογή σχετικότερων tweets
36
Επιλογή σχετικότερων tweets
Είδηση A policeman is killed in a shootout with militants in Taif, Saudi Arabia.
TFIDF, MAXSCORE, MMR, new index (απαλοιφή URL)
# Tweet Relevant
1 travelling to Taif, Saudi Arabia No
2 Saudi Policeman Killed in Shootout With Militants Yes
3 Saudi policeman dies in shootout as ‘terror’ plot foiled Yes
4 Just posted a photo @ Taif, Saudi Arabia No
5 My design The beautiful ?? @ Taif, Saudi Arabia No
6 More of downtown Taif, Saudi Arabia. #globaledambassador #diversity… No
7 #Rainbow over #Taif, #Saudi, the weather! No
8 Militants clash with Suadi police in Taif #SuadiArabia Yes
9 Saudi soldier killed in gun battle with militants in Taif Yes
10 Militants kill eight Egyptian policeman in Cairo suburb No
37
Επιλογή σχετικότερων tweets
******* TFIDF BM25
Είδηση Average Maxscore Sum Average Maxscore Sum
1 0.85 1 1 0.80 1 1
2 0.35 0.40 0.65 0.55 0.45 0.65
3 0.25 0.90 0.95 0.35 0.85 0.95
4 0.55 0.85 0.85 0.70 0.80 0.85
5 0.40 0.90 1 0.45 0.90 1
6 0.75 1 1 0.90 1 1
7 0.70 0.90 1 0.75 0.90 1
8 0.10 0.15 0.55 0.10 0.30 0.55
9 0.90 1 1 0.95 1 1
10 0.65 1 1 1 1 1
11 0.05 0.05 0.05 0.05 0.05 0.05
Average
Precision
0.505 0.741 0.823 0.600 0.750 0.823
38
• Original query : concatenated query
• 1ο Στάδιο IR
• 20 πιο σχετικά tweets για το original query (Default LMD, Sum)
• Pseudo Relevance set – P(w|R)
• RM3 παρεμβολή
• 2ο Στάδιο IR με το expanded query (Πρώτα 20 , MMR)
39
Εφαρμογή LMD + PRF
40
Concatenated Query Expanded Query
Term Weight Term Weight
saudi 0.9 says 0.009090912
arabia 0.9 shootout 0.14675325
shootout 0.9 saudi 0.14675325
militants 0.9 taif 0.12857144
taif 0.9 militants 0.13766235
policeman 0.9 policeman 0.14675325
in 0.9 in 0.12857144
********* ********* arabia 0.13766235
********* ********* killed 0.018181823
Επιλογή σχετικότερων tweets (LMD & PRF)
41
Επιλογή σχετικότερων tweets (LMD & PRF)
Tag cloud των όρων του expanded query
42
# Tweet Relevant
1 Saudi Policeman Killed in Shootout With Militants: Saudi Arabia says a
policeman was killed in a shootout with militants in the weste... Yes
2 Saudi policeman killed in shootout with militants: They surrendered to
the police after a combing operation w...
Yes
3 Saudi policeman dies in shootout as ‘terror’ plot foiled: Yes
4 BACKGROUND At least 6 people died, including policeman, consequence
of shootout between police and alleged drug traffickers in #Provid?ncia
No
5 KSA : 1 Saudi policeman was killed near police station in Taif, 2 suspect are
wanted.
Yes
6 A Saudi corporal policeman has been killed in Taif. 2 suspects are currently
searched.
Yes
7 Saudi Arabia - Travel News - Soldier killed in gun battle with militants
following foiled attack in Taif #SaudiArabia #Taif #travelawarenes
Yes
8 #Saudi soldier killed in #shootout with militants - state news agency SPA
#IslamicState #oil #OPEC #Yemen #Iran
Yes
9 #KSA security forces involved in another shootout with suspected #IS
militants inside kingdom.
Yes
10 Saudi Arabia shootout leaves militant, officer dead, @Reuters said May 9. Yes
Επιλογή σχετικότερων tweets (LMD & PRF)
43
******** 06/05/2016 08/05/2016
Είδηση LMD LMD + PRF LMD LMD + PRF
1 0.8 0.6 0.85 1
2 0.1 0.1 0.4 0.7
3 0.45 0.8 0.35 0.05
4 0.5 0.6 0.6 0.05
5 0.3 0.35 0.8 1
6 0.60 0.25 0.85 0.85
7 0.65 0.85 0.8 0.95
8 0.6 0.70 0.3 0.6
9 0.15 0.45 1 1
10 0.8 1 0.95 0.95
11 0.85 1 0.05 0.05
12 0.8 1 ************ ************
Average
Precision
0.559 0.645 0.635 0.655
Επιλογή σχετικότερων tweets (LMD & PRF)
44
45
Query quality metrics
 Υπολογισμός μιας σειράς μετρικών πρόβλεψης ποιότητας
ερωτημάτων
 Κίνητρο:
Εκτίμηση ποιότητας των αποτελεσμάτων και επιλογή των
καλύτερων ερωτημάτων για την αναζήτηση πληροφορίας
Query quality metrics
• Query Length
• IDF – based features
𝐼𝐷𝐹𝑤 =
𝑙𝑜𝑔2
𝑁+0,5
𝑁 𝑤
𝑙𝑜𝑔2(𝑁+1)
• Άθροισμα, τυπική απόκλιση, μέγιστο/ελάχιστο , το μέγιστο,
αριθμητικός μέσος, γεωμετρικός μέσος, αρμονικός μέσος και
συντελεστής διακύμανσης (coefficient of variation) για όλες τις λέξεις
που το αποτελούν.
46
Query quality metrics
• Query Scope (QS)
𝑄𝑆 = −𝑙𝑜𝑔
𝑛 𝑄
𝑁
• Similarity Collection/Query-based features (SCQ)
𝑆𝐶𝑄 𝑤 = 1 + 𝑙𝑛 𝑛 𝑤 × 𝑙𝑛 1 +
𝑁
𝑁 𝑤
• Inverse Collection Term Frequency-based features (ICTF)
𝐼𝐶𝑇𝐹𝑤 = −𝑙𝑜𝑔2
𝑛 𝑤
𝑇
47
Query Precision (p@10)
«cairo» AND «state» 0.8
«attack» AND «state» 0.2
«gunmen» AND «attack» 0.4
«arabia» AND «saudi» 0
«aleppo» AND «front» 0
«july» AND «front» 0
«syria» AND «front» 0
«officials» AND «taliban» 0.3
«afghan» AND «taliban» 0.3
«afghan» AND «officials» 0.2
«kilis» AND «turkish» 0.7
«town» AND «turkish border» 1
«55 islamic state» AND «turkish» 1
«collision» AND «buses» 1
«at least 73 people» AND «tanker» 1
«people» AND «buses» 0
Query quality metrics
Επιλογή τυχαίων queries
48
• Συντελεστής συσχέτισης Kendall τ
• Έστω (x1,y1), (x2,y2),…, (xn,yn) ένα σύνολο παρατηρήσεων των τυχαίων
μεταβλητών X και Y αντίστοιχα
• Ένα ζεύγος παρατηρήσεων (xi,yi) και (xj,yj), όπου i ≠ j, θεωρείται σύμφωνο αν
η κατάταξη και των 2 στοιχείων είναι όμοια: δηλαδή, όταν xi > xj και yi > yj ή xi
< xj και yi < yj
• Ασύμφωνο ονομάζεται όταν xi > xj και yi < yj ή xi < xj και yi > yj
𝜏 =
𝜋𝜆𝜂𝜃𝜊𝜍 𝜎ύ𝜇𝜑𝜔𝜈𝜔𝜈 𝜁𝜀𝜐𝛾ώ𝜈 − 𝜋𝜆𝜂𝜃𝜊𝜍 𝛼𝜎ύ𝜇𝜑𝜔𝜈𝜔𝜈 𝜁𝜀𝜐𝛾ώ𝜈
𝑛 𝑛−1 /2
• Ο Kendall τB που χρησιμοποιείται στην εργασία, λαμβάνει μέριμνα και για τα
ζεύγη που δεν είναι ούτε σύμφωνα ούτε ασύμφωνα
𝜏 𝐵 =
𝑛 𝑐 − 𝑛 𝑑
𝑛0 − 𝑛1 𝑛0 − 𝑛2
Query quality metrics
49
SCQarmean - Precision 0.17457525051569356
SCQgeomean - Precision 0.14595635698853068
SCQharmean - Precision 0.15168013569396327
SCQcovar - Precision 0.26615570980261477
ICTFsum - Precision 0.4035263987329966
ICTFstd - Precision 0.25470815239174965
ICTFmaxmin - Precision 0.30049838203521023
ICTFmax - Precision 0.36637935170417507
ICTFarmean - Precision 0.18602280792655873
ICTFgeomean - Precision 0.15740391439939583
ICTFharmean - Precision 0.16312769310482841
ICTFcovar - Precision 0.22608925886458675
QS - Precision 0.008585668058148864
Query quality metrics
Μεταβλητές Kendall τΒ
Size - Precision 0.37429560943820916
IDFsum - Precision 0.39780262002756406
IDFstd - Precision 0.24898437368631707
IDFmaxmin - Precision 0.28905082462434506
IDFmax - Precision 0.38945836598475303
IDFarmean - Precision 0.20891792274828902
IDFgeomean - Precision 0.17457525051569356
IDFharmean - Precision 0.15168013569396327
IDFcovar - Precision 0.23181303757001934
SCQsum - Precision 0.3806312839112663
SCQstd - Precision 0.28905082462434506
SCQmaxmin - Precision 0.28905082462434506
SCQmax - Precision 0.3860549463918908
Συσχετίσεις query quality metrics με Precision
50
Query quality metrics
6.00
6.50
7.00
7.50
8.00
8.50
9.00
9.50
10.00
10.50
11.00
0.0 0.2 0.4 0.6 0.8 1.0 1.2
ICTFmax
Precision@10
Διασπορά Precision - ICTFmax
0.20
0.25
0.30
0.35
0.40
0.45
0.0 0.2 0.4 0.6 0.8 1.0 1.2
IDFmax
Precision@10
Διασπορά Precision - IDFmax
51
Ευχαριστώ για την προσοχή σας!
52

Contenu connexe

Plus de ISSEL

Ανάπτυξη Ελληνικών Μοντέλων Εντοπισμού Ρητορικής Μίσους.pptx
Ανάπτυξη Ελληνικών Μοντέλων Εντοπισμού Ρητορικής Μίσους.pptxΑνάπτυξη Ελληνικών Μοντέλων Εντοπισμού Ρητορικής Μίσους.pptx
Ανάπτυξη Ελληνικών Μοντέλων Εντοπισμού Ρητορικής Μίσους.pptxISSEL
 
Σχεδιασμός και υλοποίηση πλήρους και αυτοματοποιημένου εργαλείου ελέγχων ασφά...
Σχεδιασμός και υλοποίηση πλήρους και αυτοματοποιημένου εργαλείου ελέγχων ασφά...Σχεδιασμός και υλοποίηση πλήρους και αυτοματοποιημένου εργαλείου ελέγχων ασφά...
Σχεδιασμός και υλοποίηση πλήρους και αυτοματοποιημένου εργαλείου ελέγχων ασφά...ISSEL
 
Εφαρµογή Τεχνικών Μηχανικής Μάθησης για την Ανάλυση Αλλαγών Κώδικα µε στόχο τ...
Εφαρµογή Τεχνικών Μηχανικής Μάθησης για την Ανάλυση Αλλαγών Κώδικα µε στόχο τ...Εφαρµογή Τεχνικών Μηχανικής Μάθησης για την Ανάλυση Αλλαγών Κώδικα µε στόχο τ...
Εφαρµογή Τεχνικών Μηχανικής Μάθησης για την Ανάλυση Αλλαγών Κώδικα µε στόχο τ...ISSEL
 
Ανάπτυξη συστήματος ιεραρχικής ομαδοποίησης και διαχείρισης κειμένων για αποκ...
Ανάπτυξη συστήματος ιεραρχικής ομαδοποίησης και διαχείρισης κειμένων για αποκ...Ανάπτυξη συστήματος ιεραρχικής ομαδοποίησης και διαχείρισης κειμένων για αποκ...
Ανάπτυξη συστήματος ιεραρχικής ομαδοποίησης και διαχείρισης κειμένων για αποκ...ISSEL
 
Ανάπτυξη γραφικής διεπαφής σε σύστημα προσομοίωσης ηλεκτρονικών αγορών με στό...
Ανάπτυξη γραφικής διεπαφής σε σύστημα προσομοίωσης ηλεκτρονικών αγορών με στό...Ανάπτυξη γραφικής διεπαφής σε σύστημα προσομοίωσης ηλεκτρονικών αγορών με στό...
Ανάπτυξη γραφικής διεπαφής σε σύστημα προσομοίωσης ηλεκτρονικών αγορών με στό...ISSEL
 
Δημιουργία Ολοκληρωμένου Συστήματος Επαλήθευσης Ορθότητας Ισχυρισμών
Δημιουργία Ολοκληρωμένου Συστήματος Επαλήθευσης Ορθότητας ΙσχυρισμώνΔημιουργία Ολοκληρωμένου Συστήματος Επαλήθευσης Ορθότητας Ισχυρισμών
Δημιουργία Ολοκληρωμένου Συστήματος Επαλήθευσης Ορθότητας ΙσχυρισμώνISSEL
 
Εξόρυξη δεδοµένων για τη δυναµική ενσωµάτωση γνώσης σε πολυπρακτορικά συστήµατα
Εξόρυξη δεδοµένων για τη δυναµική ενσωµάτωση γνώσης σε πολυπρακτορικά συστήµαταΕξόρυξη δεδοµένων για τη δυναµική ενσωµάτωση γνώσης σε πολυπρακτορικά συστήµατα
Εξόρυξη δεδοµένων για τη δυναµική ενσωµάτωση γνώσης σε πολυπρακτορικά συστήµαταISSEL
 
Ανάπτυξη Μηχανισμών Αυτοματοποίησης των διαδικασιών κατασκευής συστημάτων λο...
Ανάπτυξη Μηχανισμών Αυτοματοποίησης των  διαδικασιών κατασκευής συστημάτων λο...Ανάπτυξη Μηχανισμών Αυτοματοποίησης των  διαδικασιών κατασκευής συστημάτων λο...
Ανάπτυξη Μηχανισμών Αυτοματοποίησης των διαδικασιών κατασκευής συστημάτων λο...ISSEL
 
ΕΥΦΥΗΣ ΜΕΘΟΔΟΛΟΓΙΑ ΑΠΟΤΙΜΗΣΗΣ ΤΟΥ ΒΑΘΜΟΥ ΔΙΑΤΗΡΗΣΙΜΟΤΗΤΑΣ ΕΡΓΩΝ ΛΟΓΙΣΜΙΚΟΥ ΜΕ...
ΕΥΦΥΗΣ ΜΕΘΟΔΟΛΟΓΙΑ ΑΠΟΤΙΜΗΣΗΣ ΤΟΥ ΒΑΘΜΟΥ ΔΙΑΤΗΡΗΣΙΜΟΤΗΤΑΣ ΕΡΓΩΝ ΛΟΓΙΣΜΙΚΟΥ ΜΕ...ΕΥΦΥΗΣ ΜΕΘΟΔΟΛΟΓΙΑ ΑΠΟΤΙΜΗΣΗΣ ΤΟΥ ΒΑΘΜΟΥ ΔΙΑΤΗΡΗΣΙΜΟΤΗΤΑΣ ΕΡΓΩΝ ΛΟΓΙΣΜΙΚΟΥ ΜΕ...
ΕΥΦΥΗΣ ΜΕΘΟΔΟΛΟΓΙΑ ΑΠΟΤΙΜΗΣΗΣ ΤΟΥ ΒΑΘΜΟΥ ΔΙΑΤΗΡΗΣΙΜΟΤΗΤΑΣ ΕΡΓΩΝ ΛΟΓΙΣΜΙΚΟΥ ΜΕ...ISSEL
 
Μηχανισμοί αυτοματοποίησης διαδικασιών σχεδίασης, υλοποίησης και ανάπτυξης λο...
Μηχανισμοί αυτοματοποίησης διαδικασιών σχεδίασης, υλοποίησης και ανάπτυξης λο...Μηχανισμοί αυτοματοποίησης διαδικασιών σχεδίασης, υλοποίησης και ανάπτυξης λο...
Μηχανισμοί αυτοματοποίησης διαδικασιών σχεδίασης, υλοποίησης και ανάπτυξης λο...ISSEL
 
Εξόρυξη δεδομένων τεχνολογίας λογισμικού για επαναχρησιμοποίηση λογισμικού
Εξόρυξη δεδομένων τεχνολογίας λογισμικού για επαναχρησιμοποίηση λογισμικούΕξόρυξη δεδομένων τεχνολογίας λογισμικού για επαναχρησιμοποίηση λογισμικού
Εξόρυξη δεδομένων τεχνολογίας λογισμικού για επαναχρησιμοποίηση λογισμικούISSEL
 
Ανάλυση ∆εδοµένων ΄Εργων Λογισµικού για Ανάπτυξη σε Νέα Πεδία Εφαρµογής
Ανάλυση ∆εδοµένων ΄Εργων Λογισµικού για Ανάπτυξη σε Νέα Πεδία ΕφαρµογήςΑνάλυση ∆εδοµένων ΄Εργων Λογισµικού για Ανάπτυξη σε Νέα Πεδία Εφαρµογής
Ανάλυση ∆εδοµένων ΄Εργων Λογισµικού για Ανάπτυξη σε Νέα Πεδία ΕφαρµογήςISSEL
 
Camera-based localization of annotated objects in indoor environments
Camera-based localization of annotated objects in indoor environmentsCamera-based localization of annotated objects in indoor environments
Camera-based localization of annotated objects in indoor environmentsISSEL
 
Εντοπισμός θέσης επισημασμένου αντικειμένου σε εσωτερικό χώρο με χρήση πολλαπ...
Εντοπισμός θέσης επισημασμένου αντικειμένου σε εσωτερικό χώρο με χρήση πολλαπ...Εντοπισμός θέσης επισημασμένου αντικειμένου σε εσωτερικό χώρο με χρήση πολλαπ...
Εντοπισμός θέσης επισημασμένου αντικειμένου σε εσωτερικό χώρο με χρήση πολλαπ...ISSEL
 
Design and implementation of an automation mechanism to automatically develop...
Design and implementation of an automation mechanism to automatically develop...Design and implementation of an automation mechanism to automatically develop...
Design and implementation of an automation mechanism to automatically develop...ISSEL
 
ΣΧΕΔΙΑΣΗ ΚΑΙ ΑΝΑΠΤΥΞΗ ΜΗΧΑΝΙΣΜΟΥ ΑΥΤΟΜΑΤΟΠΟΙΗΣΗΣ ΤΗΣ ΑΝΑΠΤΥΞΗΣ ΓΡΑΦΙΚΩΝ ΕΝΤΟΛ...
ΣΧΕΔΙΑΣΗ ΚΑΙ ΑΝΑΠΤΥΞΗ ΜΗΧΑΝΙΣΜΟΥ ΑΥΤΟΜΑΤΟΠΟΙΗΣΗΣ ΤΗΣ ΑΝΑΠΤΥΞΗΣ ΓΡΑΦΙΚΩΝ ΕΝΤΟΛ...ΣΧΕΔΙΑΣΗ ΚΑΙ ΑΝΑΠΤΥΞΗ ΜΗΧΑΝΙΣΜΟΥ ΑΥΤΟΜΑΤΟΠΟΙΗΣΗΣ ΤΗΣ ΑΝΑΠΤΥΞΗΣ ΓΡΑΦΙΚΩΝ ΕΝΤΟΛ...
ΣΧΕΔΙΑΣΗ ΚΑΙ ΑΝΑΠΤΥΞΗ ΜΗΧΑΝΙΣΜΟΥ ΑΥΤΟΜΑΤΟΠΟΙΗΣΗΣ ΤΗΣ ΑΝΑΠΤΥΞΗΣ ΓΡΑΦΙΚΩΝ ΕΝΤΟΛ...ISSEL
 
Static Analysis of Python code and Identification of Potential Security Vulne...
Static Analysis of Python code and Identification of Potential Security Vulne...Static Analysis of Python code and Identification of Potential Security Vulne...
Static Analysis of Python code and Identification of Potential Security Vulne...ISSEL
 
Στατική Ανάλυση Κώδικα Python και Αναγνώριση Πιθανών Ευπαθειών Ασφαλείας για ...
Στατική Ανάλυση Κώδικα Python και Αναγνώριση Πιθανών Ευπαθειών Ασφαλείας για ...Στατική Ανάλυση Κώδικα Python και Αναγνώριση Πιθανών Ευπαθειών Ασφαλείας για ...
Στατική Ανάλυση Κώδικα Python και Αναγνώριση Πιθανών Ευπαθειών Ασφαλείας για ...ISSEL
 
Design and Development of an Authorization and Access Control Mechanism for C...
Design and Development of an Authorization and Access Control Mechanism for C...Design and Development of an Authorization and Access Control Mechanism for C...
Design and Development of an Authorization and Access Control Mechanism for C...ISSEL
 
Σχεδίαση και Ανάπτυξη Μηχανισμού Εξουσιοδότησης και Ελέγχου Πρόσβασης σε Συνο...
Σχεδίαση και Ανάπτυξη Μηχανισμού Εξουσιοδότησης και Ελέγχου Πρόσβασης σε Συνο...Σχεδίαση και Ανάπτυξη Μηχανισμού Εξουσιοδότησης και Ελέγχου Πρόσβασης σε Συνο...
Σχεδίαση και Ανάπτυξη Μηχανισμού Εξουσιοδότησης και Ελέγχου Πρόσβασης σε Συνο...ISSEL
 

Plus de ISSEL (20)

Ανάπτυξη Ελληνικών Μοντέλων Εντοπισμού Ρητορικής Μίσους.pptx
Ανάπτυξη Ελληνικών Μοντέλων Εντοπισμού Ρητορικής Μίσους.pptxΑνάπτυξη Ελληνικών Μοντέλων Εντοπισμού Ρητορικής Μίσους.pptx
Ανάπτυξη Ελληνικών Μοντέλων Εντοπισμού Ρητορικής Μίσους.pptx
 
Σχεδιασμός και υλοποίηση πλήρους και αυτοματοποιημένου εργαλείου ελέγχων ασφά...
Σχεδιασμός και υλοποίηση πλήρους και αυτοματοποιημένου εργαλείου ελέγχων ασφά...Σχεδιασμός και υλοποίηση πλήρους και αυτοματοποιημένου εργαλείου ελέγχων ασφά...
Σχεδιασμός και υλοποίηση πλήρους και αυτοματοποιημένου εργαλείου ελέγχων ασφά...
 
Εφαρµογή Τεχνικών Μηχανικής Μάθησης για την Ανάλυση Αλλαγών Κώδικα µε στόχο τ...
Εφαρµογή Τεχνικών Μηχανικής Μάθησης για την Ανάλυση Αλλαγών Κώδικα µε στόχο τ...Εφαρµογή Τεχνικών Μηχανικής Μάθησης για την Ανάλυση Αλλαγών Κώδικα µε στόχο τ...
Εφαρµογή Τεχνικών Μηχανικής Μάθησης για την Ανάλυση Αλλαγών Κώδικα µε στόχο τ...
 
Ανάπτυξη συστήματος ιεραρχικής ομαδοποίησης και διαχείρισης κειμένων για αποκ...
Ανάπτυξη συστήματος ιεραρχικής ομαδοποίησης και διαχείρισης κειμένων για αποκ...Ανάπτυξη συστήματος ιεραρχικής ομαδοποίησης και διαχείρισης κειμένων για αποκ...
Ανάπτυξη συστήματος ιεραρχικής ομαδοποίησης και διαχείρισης κειμένων για αποκ...
 
Ανάπτυξη γραφικής διεπαφής σε σύστημα προσομοίωσης ηλεκτρονικών αγορών με στό...
Ανάπτυξη γραφικής διεπαφής σε σύστημα προσομοίωσης ηλεκτρονικών αγορών με στό...Ανάπτυξη γραφικής διεπαφής σε σύστημα προσομοίωσης ηλεκτρονικών αγορών με στό...
Ανάπτυξη γραφικής διεπαφής σε σύστημα προσομοίωσης ηλεκτρονικών αγορών με στό...
 
Δημιουργία Ολοκληρωμένου Συστήματος Επαλήθευσης Ορθότητας Ισχυρισμών
Δημιουργία Ολοκληρωμένου Συστήματος Επαλήθευσης Ορθότητας ΙσχυρισμώνΔημιουργία Ολοκληρωμένου Συστήματος Επαλήθευσης Ορθότητας Ισχυρισμών
Δημιουργία Ολοκληρωμένου Συστήματος Επαλήθευσης Ορθότητας Ισχυρισμών
 
Εξόρυξη δεδοµένων για τη δυναµική ενσωµάτωση γνώσης σε πολυπρακτορικά συστήµατα
Εξόρυξη δεδοµένων για τη δυναµική ενσωµάτωση γνώσης σε πολυπρακτορικά συστήµαταΕξόρυξη δεδοµένων για τη δυναµική ενσωµάτωση γνώσης σε πολυπρακτορικά συστήµατα
Εξόρυξη δεδοµένων για τη δυναµική ενσωµάτωση γνώσης σε πολυπρακτορικά συστήµατα
 
Ανάπτυξη Μηχανισμών Αυτοματοποίησης των διαδικασιών κατασκευής συστημάτων λο...
Ανάπτυξη Μηχανισμών Αυτοματοποίησης των  διαδικασιών κατασκευής συστημάτων λο...Ανάπτυξη Μηχανισμών Αυτοματοποίησης των  διαδικασιών κατασκευής συστημάτων λο...
Ανάπτυξη Μηχανισμών Αυτοματοποίησης των διαδικασιών κατασκευής συστημάτων λο...
 
ΕΥΦΥΗΣ ΜΕΘΟΔΟΛΟΓΙΑ ΑΠΟΤΙΜΗΣΗΣ ΤΟΥ ΒΑΘΜΟΥ ΔΙΑΤΗΡΗΣΙΜΟΤΗΤΑΣ ΕΡΓΩΝ ΛΟΓΙΣΜΙΚΟΥ ΜΕ...
ΕΥΦΥΗΣ ΜΕΘΟΔΟΛΟΓΙΑ ΑΠΟΤΙΜΗΣΗΣ ΤΟΥ ΒΑΘΜΟΥ ΔΙΑΤΗΡΗΣΙΜΟΤΗΤΑΣ ΕΡΓΩΝ ΛΟΓΙΣΜΙΚΟΥ ΜΕ...ΕΥΦΥΗΣ ΜΕΘΟΔΟΛΟΓΙΑ ΑΠΟΤΙΜΗΣΗΣ ΤΟΥ ΒΑΘΜΟΥ ΔΙΑΤΗΡΗΣΙΜΟΤΗΤΑΣ ΕΡΓΩΝ ΛΟΓΙΣΜΙΚΟΥ ΜΕ...
ΕΥΦΥΗΣ ΜΕΘΟΔΟΛΟΓΙΑ ΑΠΟΤΙΜΗΣΗΣ ΤΟΥ ΒΑΘΜΟΥ ΔΙΑΤΗΡΗΣΙΜΟΤΗΤΑΣ ΕΡΓΩΝ ΛΟΓΙΣΜΙΚΟΥ ΜΕ...
 
Μηχανισμοί αυτοματοποίησης διαδικασιών σχεδίασης, υλοποίησης και ανάπτυξης λο...
Μηχανισμοί αυτοματοποίησης διαδικασιών σχεδίασης, υλοποίησης και ανάπτυξης λο...Μηχανισμοί αυτοματοποίησης διαδικασιών σχεδίασης, υλοποίησης και ανάπτυξης λο...
Μηχανισμοί αυτοματοποίησης διαδικασιών σχεδίασης, υλοποίησης και ανάπτυξης λο...
 
Εξόρυξη δεδομένων τεχνολογίας λογισμικού για επαναχρησιμοποίηση λογισμικού
Εξόρυξη δεδομένων τεχνολογίας λογισμικού για επαναχρησιμοποίηση λογισμικούΕξόρυξη δεδομένων τεχνολογίας λογισμικού για επαναχρησιμοποίηση λογισμικού
Εξόρυξη δεδομένων τεχνολογίας λογισμικού για επαναχρησιμοποίηση λογισμικού
 
Ανάλυση ∆εδοµένων ΄Εργων Λογισµικού για Ανάπτυξη σε Νέα Πεδία Εφαρµογής
Ανάλυση ∆εδοµένων ΄Εργων Λογισµικού για Ανάπτυξη σε Νέα Πεδία ΕφαρµογήςΑνάλυση ∆εδοµένων ΄Εργων Λογισµικού για Ανάπτυξη σε Νέα Πεδία Εφαρµογής
Ανάλυση ∆εδοµένων ΄Εργων Λογισµικού για Ανάπτυξη σε Νέα Πεδία Εφαρµογής
 
Camera-based localization of annotated objects in indoor environments
Camera-based localization of annotated objects in indoor environmentsCamera-based localization of annotated objects in indoor environments
Camera-based localization of annotated objects in indoor environments
 
Εντοπισμός θέσης επισημασμένου αντικειμένου σε εσωτερικό χώρο με χρήση πολλαπ...
Εντοπισμός θέσης επισημασμένου αντικειμένου σε εσωτερικό χώρο με χρήση πολλαπ...Εντοπισμός θέσης επισημασμένου αντικειμένου σε εσωτερικό χώρο με χρήση πολλαπ...
Εντοπισμός θέσης επισημασμένου αντικειμένου σε εσωτερικό χώρο με χρήση πολλαπ...
 
Design and implementation of an automation mechanism to automatically develop...
Design and implementation of an automation mechanism to automatically develop...Design and implementation of an automation mechanism to automatically develop...
Design and implementation of an automation mechanism to automatically develop...
 
ΣΧΕΔΙΑΣΗ ΚΑΙ ΑΝΑΠΤΥΞΗ ΜΗΧΑΝΙΣΜΟΥ ΑΥΤΟΜΑΤΟΠΟΙΗΣΗΣ ΤΗΣ ΑΝΑΠΤΥΞΗΣ ΓΡΑΦΙΚΩΝ ΕΝΤΟΛ...
ΣΧΕΔΙΑΣΗ ΚΑΙ ΑΝΑΠΤΥΞΗ ΜΗΧΑΝΙΣΜΟΥ ΑΥΤΟΜΑΤΟΠΟΙΗΣΗΣ ΤΗΣ ΑΝΑΠΤΥΞΗΣ ΓΡΑΦΙΚΩΝ ΕΝΤΟΛ...ΣΧΕΔΙΑΣΗ ΚΑΙ ΑΝΑΠΤΥΞΗ ΜΗΧΑΝΙΣΜΟΥ ΑΥΤΟΜΑΤΟΠΟΙΗΣΗΣ ΤΗΣ ΑΝΑΠΤΥΞΗΣ ΓΡΑΦΙΚΩΝ ΕΝΤΟΛ...
ΣΧΕΔΙΑΣΗ ΚΑΙ ΑΝΑΠΤΥΞΗ ΜΗΧΑΝΙΣΜΟΥ ΑΥΤΟΜΑΤΟΠΟΙΗΣΗΣ ΤΗΣ ΑΝΑΠΤΥΞΗΣ ΓΡΑΦΙΚΩΝ ΕΝΤΟΛ...
 
Static Analysis of Python code and Identification of Potential Security Vulne...
Static Analysis of Python code and Identification of Potential Security Vulne...Static Analysis of Python code and Identification of Potential Security Vulne...
Static Analysis of Python code and Identification of Potential Security Vulne...
 
Στατική Ανάλυση Κώδικα Python και Αναγνώριση Πιθανών Ευπαθειών Ασφαλείας για ...
Στατική Ανάλυση Κώδικα Python και Αναγνώριση Πιθανών Ευπαθειών Ασφαλείας για ...Στατική Ανάλυση Κώδικα Python και Αναγνώριση Πιθανών Ευπαθειών Ασφαλείας για ...
Στατική Ανάλυση Κώδικα Python και Αναγνώριση Πιθανών Ευπαθειών Ασφαλείας για ...
 
Design and Development of an Authorization and Access Control Mechanism for C...
Design and Development of an Authorization and Access Control Mechanism for C...Design and Development of an Authorization and Access Control Mechanism for C...
Design and Development of an Authorization and Access Control Mechanism for C...
 
Σχεδίαση και Ανάπτυξη Μηχανισμού Εξουσιοδότησης και Ελέγχου Πρόσβασης σε Συνο...
Σχεδίαση και Ανάπτυξη Μηχανισμού Εξουσιοδότησης και Ελέγχου Πρόσβασης σε Συνο...Σχεδίαση και Ανάπτυξη Μηχανισμού Εξουσιοδότησης και Ελέγχου Πρόσβασης σε Συνο...
Σχεδίαση και Ανάπτυξη Μηχανισμού Εξουσιοδότησης και Ελέγχου Πρόσβασης σε Συνο...
 

Ζησόπουλος Γεώργιος 6647

  • 1. Αναζήτηση μηνυμάτων κοινωνικών μέσων σχετικών με γεγονότα με χρήση τεχνικών ανάκτησης πληροφορίας Εκπόνηση Εργασίας : Γεώργιος Ζησόπουλος 6647 Επιβλέπων Καθηγητής : Περικλής Α. Μήτκας ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ Τμήμα Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών Τομέας Ηλεκτρονικής και Υπολογιστών Εργαστήριο Επεξεργασίας Πληροφορίας και Υπολογισμών
  • 2.  Social media – Ενημέρωση  Twitter • Μηνύματα 140 χαρακτήρων • 310 εκατομμύρια χρήστες καθημερινά • 500 εκατομμύρια tweets την μέρα • Μέσα στα Top10 sites παγκοσμίως  Στόχος : Συγκέντρωση σχετικής και μη επαναλαμβανόμενης πληροφορίας για μια λίστα ειδήσεων Εισαγωγή – Στόχος της εργασίας 2
  • 4. 4
  • 7. Web Scraping 7 Παράδειγμα HTML κώδικα μιας είδησης
  • 8. Web Scraping 8 Παράδειγμα Document μιας είδησης στην ΒΔ
  • 9. 9
  • 10. Named Entities Stanford NER Εξαγωγή χρήσιμων όρων 10
  • 12. Adjective - Noun Stanford POS Tagger Εξαγωγή χρήσιμων όρων 12
  • 13. Noun Sequences Stanford POS Tagger 13 Εξαγωγή χρήσιμων όρων
  • 14. Nouns Stanford POS Tagger 14 Εξαγωγή χρήσιμων όρων
  • 17. 17 Παράδειγμα Document είδησης με τους εξαχθέντες όρους Εξαγωγή χρήσιμων όρων
  • 18. 18
  • 19. Σχηματισμός queries Three Spanish journalists were released after being abducted around Aleppo, Syria, and held hostage by the Al-Nusra Front since 13 July 2015. …………… "july" AND "abducted" "spanish journalists" AND "aleppo" "july" AND "al-nusra" "spanish journalists" AND "abducted" "july" AND "front" "spanish journalists" AND "al-nusra" "journalists" AND "aleppo" "aleppo" AND "13 july" "journalists" AND "13 july" "aleppo" AND "abducted" "journalists" AND "al-nusra" "abducted" AND "al-nusra" "aleppo syria" AND "spanish journalists" "abducted" AND "front" "aleppo syria" AND "abducted" "abducted" AND "13 july" …………… 19 Ενδεικτικά Queries μιας είδησης  “term1” AND “term1”  “term1 term2 term3” AND “term1”
  • 20. 20
  • 21. • Twitter REST API – Java Library Twitter4j • Tweets έως 7 ημερών • Όριο 450 requests / 15min • Paging • No Retweets • Language : English Συλλογή Tweets 21 News Date # News Average Queries/News Average Tweets/News DB Size 06/05/2016 12 464,7 60328 444.98 MB 08/05/2016 11 101,5 7368 55.92 MB
  • 22. 22
  • 23. • Apache Lucene 5.5.0 • Inverted index Indexing 23
  • 24. 24
  • 26. • Αναπαράσταση κειμένου ως διάνυσμα • Κάθε διάσταση είναι το tf-idf μιας λέξης • Tf – Term Frequency • Idf – Inverse Document Frequency • Έστω 2 έγγραφα d1 = “w1 w2 w3” και d2 = “w2 w5 w6” • 𝑉 𝑑1 και 𝑉 𝑑2 τα διανύσματά τους • Cosine Similarity 𝑐𝑜𝑠𝑖𝑛𝑒 𝑠𝑖𝑚 𝑑1, 𝑑2 = 𝑉 𝑑1 ∙ 𝑉 𝑑2 𝑉 𝑑1 ∙ 𝑉 𝑑2 Vector Space Model 26
  • 27. • Default Scoring Formula 𝑠𝑐𝑜𝑟𝑒 𝑞, 𝑑 = 𝑐𝑜𝑜𝑟𝑑 𝑞, 𝑑 ∗ 𝑞𝑢𝑒𝑟𝑦𝑁𝑜𝑟𝑚 𝑞 ∗ 𝑡 𝑖𝑛 𝑞(𝑡𝑓 𝑡 𝑖𝑛 𝑑 ∗ 𝑖𝑑𝑓 𝑡 2 ∗ 𝑡. 𝑔𝑒𝑡𝑏𝑜𝑜𝑠𝑡 ∗ 𝑛𝑜𝑟𝑚(𝑡, 𝑑)) • Κλάσεις βαθμολόγησης TFIDFSimiliarity tf(t in d) = frequency½ idf(t) = 1 + log( 𝑛𝑢𝑚𝐷𝑜𝑐𝑠 𝑑𝑜𝑐𝐹𝑟𝑒𝑞+1 ) BM25Similarity 𝑠𝑐𝑜𝑟𝑒 𝑞, 𝑑 = 𝑖=1 𝑛 𝑖𝑑𝑓 𝑞𝑖 ∗ 𝑡𝑓 𝑞 𝑖 ∗(𝑘1+1) 𝑡𝑓 𝑞 𝑖 +𝑘1(1−𝑏+𝑏 |𝐷| 𝑎𝑣𝑔𝑑𝑙 ) 𝑡𝑓 𝑞𝑖 = frequency½ 𝑖𝑑𝑓 𝑞𝑖 = log 𝑛𝑢𝑚𝐷𝑜𝑐𝑠−𝑛 𝑞 𝑖 +0.5 𝑛 𝑞 𝑖 +0.5 27 Lucene Scoring
  • 28. Λογική Γλωσσικών μοντέλων • Έστω ένα έγγραφο D και ένα Λεξικό Σ • Υπολογισμός πιθανότητας εμφάνισης κάθε λέξης του Λεξικού Σ με βάση το έγγραφο D • Πρέπει να ισχύει η σχέση 𝑠∈Σ 𝑃(𝑠) = 1 • Δεν υπάρχουν όλες οι λέξεις στο έγγραφο D => Smoothing Μοντέλα • Query likelihood model 𝑠𝑐𝑜𝑟𝑒 𝑞, 𝑑 = 𝑃(𝑞|𝛩 𝑑) • Document likelihood model 𝑠𝑐𝑜𝑟𝑒 𝑞, 𝑑 = 𝑃(𝑑|𝛩𝑞) 28 Language models
  • 29. Ποιος είναι ο σκοπός του PRF; • Επέκταση ερωτήματος με νέους όρους Διαδικασία: • 1ο Στάδιο IR – συλλογής εγγράφων • Επιλέγονται τα Ν πρώτα • Αυτά αποτελούν το (Pseudo) Relevance Set • Αξιοποίηση του (Pseudo) Relevance Set και εξαγωγή νέων όρων • Η διαδικασία αυτή ονομάζεται (Pseudo) Relevance Feedback 29 Pseudo-Relevance Feedback
  • 30. Λογική Σχεσιακών μοντέλων • Πιθανότητα εμφάνισης της λέξης w βάσει του συνόλου σχετικότητας R 𝑃(𝑤|𝑅) ∝ 𝑑∈𝐶 𝑃 𝑑 ∙ 𝑃 𝑤 𝑑 ∙ 𝑖=1 𝑛 𝑃 𝑞𝑖 𝑑 • Η P(d) θεωρείται ομοιόμορφη • Το γινόμενο 𝑖=1 𝑛 𝑃 𝑞𝑖 𝑑 υπολογίζει την πιθανότητα ερωτήματος • Αρκεί η εκτίμηση της πιθανότητας 𝑃 𝑤 𝑑 να εμφανιστεί η λέξη w με βάση τους όρους του εγγράφου d RM3: Για την επιλογή των νέων όρων του expanded query, γίνεται γραμμική παρεμβολή με τους όρους του original query • 𝑃 𝑤 𝑞′ = 1 − 𝜆 ∙ 𝑃 𝑤 𝑞 + 𝜆 ∙ 𝑃 𝑤 𝑅 30 Relevance Models
  • 31. • Αναζήτηση στο index με τα ίδια queries • Το ίδιο tweet επιστρέφει με πολλά queries • Ταξινόμηση tweets με βάση 3 μεθόδους - Average 𝑠𝑐𝑜𝑟𝑒 = 𝑖=1 𝑁 𝑠𝑐𝑜𝑟𝑒(𝑖) 𝑁 - Maxscore 𝑠𝑐𝑜𝑟𝑒 = max 𝑠𝑐𝑜𝑟𝑒 1 … 𝑠𝑐𝑜𝑟𝑒 𝑁 - Sum 𝑠𝑐𝑜𝑟𝑒 = 𝑖=1 𝑁 𝑠𝑐𝑜𝑟𝑒(𝑖) Επιλογή σχετικότερων tweets 31
  • 32. ******* TFIDF BM25 Είδηση Averag e Maxscore Sum Average Maxscore Sum 1 0.95 0.95 1 1 1 1 2 0.75 0.90 1 0.90 0.95 1 3 1 1 1 1 1 1 4 0.95 0.90 1 1 1 1 5 0.85 1 1 0.90 1 1 6 1 1 1 1 1 1 7 0.60 1 1 0.95 1 1 8 0.20 0.20 0.45 0.25 0.30 0.60 9 1 1 1 1 1 1 10 1 1 1 1 1 1 11 0.10 0.10 0.10 0.10 0.10 0.10 Average Precision 0.764 0.824 0.868 0.827 0.850 0.882 Επιλογή σχετικότερων tweets 32
  • 33. # Tweet Relevant 1 travelling to Taif, Saudi Arabia No 2 Trophee Hassan Policeman Killed in Shootout With Militants Yes 3 Saudi policeman killed in shootout with militants: Saudi Arabia says a policeman was killed in a shootout with… https://t.co/p2cY4KWocm Yes 4 Saudi Policeman Killed in Shootout With Militants: Saudi Arabia says a policeman was killed in a shootout wit... https://t.co/BxP885EDBQ Yes 5 Saudi Policeman Killed in Shootout With Militants: Saudi Arabia says a policeman was killed in a shootout with… https://t.co/lB1ePd2lcv Yes 6 Saudi policeman killed in shootout with militants - Saudi Arabia says a policeman was killed in a shootout with... https://t.co/iORDNawewq Yes 7 Saudi Policeman Killed in Shootout With Militants - Saudi Arabia says a policeman was killed in a shootout with... https://t.co/iM6gzcyTGS Yes 8 Saudi Policeman Killed in Shootout With Militants: Saudi Arabia says a policeman was killed in a shootout with militants in the weste... Yes 9 #Rainbow over #Taif, #Saudi, the weather! No 10 Saudi Arabia says a policeman was killed in a shootout with militants in the western city of Taif Yes Επιλογή σχετικότερων tweets Είδηση A policeman is killed in a shootout with militants in Taif, Saudi Arabia. TFIDF,MAXSCORE 33
  • 34. Επιλογή σχετικότερων tweets Δεδομένα : - AllTweets: Πίνακας όλων των tweets σε φθίνουσα κατάταξη - Ν: Πλήθος Φιλτραρισμένων tweets - K: Δείκτης θέσης στον πίνακα AllTweets - Similar: Ομοιότητα με φιλτραρισμένα tweets Έξοδος : - FilTweets: Top 100 tweets χωρίς duplicates Αρχή: Ν = 1 Κ = 1 FilTweets[N] = AllTweets[K] Κάνε Κ = Κ+1 Similar = Ψευδές Για i από 1 μέχρι Ν Αν CosSim( AllTweets[K] , FilTweets[i] ) > 0,5 τότε Similar = Αληθές Έξοδος Τέλος_Αν Τέλος_Επανάληψης Αν Similar == Ψευδές τότε FilTweets[N]=AllTweets[K] Τέλος_Αν Όσο{Ν<100} Τέλος MMR Filtering 34
  • 35. # Tweet Relevant 1 travelling to Taif, Saudi Arabia No 2 Trophee Hassan Policeman Killed in Shootout With Militants Yes 3 Saudi policeman killed in shootout with militants - Saudi Arabia says a policeman was killed in a shootout with... https://t.co/iORDNawewq Yes 4 #Rainbow over #Taif, #Saudi, the weather! No 5 RealTimeHack: Saudi policeman killed in shootout with militants https://t.co/14Oxnj0iOL #NLU Yes 6 Saudi policeman dies in shootout as ‘terror’ plot foiled: https://t.co/mNxJl68AG0 Yes 7 Saudi Policeman Killed in Shootout With Militants - New York Times: Saudi GazetteSaudi Policeman Killed in Sh... https://t.co/gJ9bfLJAod Yes 8 Just posted a photo @ Taif, Saudi Arabia https://t.co/rgIf4LpzSS No 9 Just posted a video @ Taif, Saudi Arabia https://t.co/MzHwHw997Q No 10 More of downtown Taif, Saudi Arabia. #globaledambassador #diversity… No Επιλογή σχετικότερων tweets Είδηση A policeman is killed in a shootout with militants in Taif, Saudi Arabia. TFIDF,MAXSCORE,MMR 35
  • 36. ******** TFIDF BM25 Είδηση Average Maxscore Sum Average Maxscore Sum 1 0.95 0.95 1 1 1 0.95 2 0.65 0.70 0.95 0.65 0.70 1 3 1 0.85 0.95 1 1 0.95 4 1 0.90 0.95 0.90 0.95 0.90 5 0.55 0.95 0.95 0.85 1 0.95 6 1 1 1 1 1 1 7 1 1 1 1 0.95 1 8 0.15 0.25 0.40 0.20 0.25 0.50 9 1 1 1 1 1 1 10 0.95 1 1 1 1 1 11 0.10 0.10 0.10 0.10 0.10 0.10 Average Precision 0.759 0.791 0.845 0.791 0.814 0.850 Επιλογή σχετικότερων tweets 36
  • 37. Επιλογή σχετικότερων tweets Είδηση A policeman is killed in a shootout with militants in Taif, Saudi Arabia. TFIDF, MAXSCORE, MMR, new index (απαλοιφή URL) # Tweet Relevant 1 travelling to Taif, Saudi Arabia No 2 Saudi Policeman Killed in Shootout With Militants Yes 3 Saudi policeman dies in shootout as ‘terror’ plot foiled Yes 4 Just posted a photo @ Taif, Saudi Arabia No 5 My design The beautiful ?? @ Taif, Saudi Arabia No 6 More of downtown Taif, Saudi Arabia. #globaledambassador #diversity… No 7 #Rainbow over #Taif, #Saudi, the weather! No 8 Militants clash with Suadi police in Taif #SuadiArabia Yes 9 Saudi soldier killed in gun battle with militants in Taif Yes 10 Militants kill eight Egyptian policeman in Cairo suburb No 37
  • 38. Επιλογή σχετικότερων tweets ******* TFIDF BM25 Είδηση Average Maxscore Sum Average Maxscore Sum 1 0.85 1 1 0.80 1 1 2 0.35 0.40 0.65 0.55 0.45 0.65 3 0.25 0.90 0.95 0.35 0.85 0.95 4 0.55 0.85 0.85 0.70 0.80 0.85 5 0.40 0.90 1 0.45 0.90 1 6 0.75 1 1 0.90 1 1 7 0.70 0.90 1 0.75 0.90 1 8 0.10 0.15 0.55 0.10 0.30 0.55 9 0.90 1 1 0.95 1 1 10 0.65 1 1 1 1 1 11 0.05 0.05 0.05 0.05 0.05 0.05 Average Precision 0.505 0.741 0.823 0.600 0.750 0.823 38
  • 39. • Original query : concatenated query • 1ο Στάδιο IR • 20 πιο σχετικά tweets για το original query (Default LMD, Sum) • Pseudo Relevance set – P(w|R) • RM3 παρεμβολή • 2ο Στάδιο IR με το expanded query (Πρώτα 20 , MMR) 39 Εφαρμογή LMD + PRF
  • 40. 40 Concatenated Query Expanded Query Term Weight Term Weight saudi 0.9 says 0.009090912 arabia 0.9 shootout 0.14675325 shootout 0.9 saudi 0.14675325 militants 0.9 taif 0.12857144 taif 0.9 militants 0.13766235 policeman 0.9 policeman 0.14675325 in 0.9 in 0.12857144 ********* ********* arabia 0.13766235 ********* ********* killed 0.018181823 Επιλογή σχετικότερων tweets (LMD & PRF)
  • 41. 41 Επιλογή σχετικότερων tweets (LMD & PRF) Tag cloud των όρων του expanded query
  • 42. 42 # Tweet Relevant 1 Saudi Policeman Killed in Shootout With Militants: Saudi Arabia says a policeman was killed in a shootout with militants in the weste... Yes 2 Saudi policeman killed in shootout with militants: They surrendered to the police after a combing operation w... Yes 3 Saudi policeman dies in shootout as ‘terror’ plot foiled: Yes 4 BACKGROUND At least 6 people died, including policeman, consequence of shootout between police and alleged drug traffickers in #Provid?ncia No 5 KSA : 1 Saudi policeman was killed near police station in Taif, 2 suspect are wanted. Yes 6 A Saudi corporal policeman has been killed in Taif. 2 suspects are currently searched. Yes 7 Saudi Arabia - Travel News - Soldier killed in gun battle with militants following foiled attack in Taif #SaudiArabia #Taif #travelawarenes Yes 8 #Saudi soldier killed in #shootout with militants - state news agency SPA #IslamicState #oil #OPEC #Yemen #Iran Yes 9 #KSA security forces involved in another shootout with suspected #IS militants inside kingdom. Yes 10 Saudi Arabia shootout leaves militant, officer dead, @Reuters said May 9. Yes Επιλογή σχετικότερων tweets (LMD & PRF)
  • 43. 43 ******** 06/05/2016 08/05/2016 Είδηση LMD LMD + PRF LMD LMD + PRF 1 0.8 0.6 0.85 1 2 0.1 0.1 0.4 0.7 3 0.45 0.8 0.35 0.05 4 0.5 0.6 0.6 0.05 5 0.3 0.35 0.8 1 6 0.60 0.25 0.85 0.85 7 0.65 0.85 0.8 0.95 8 0.6 0.70 0.3 0.6 9 0.15 0.45 1 1 10 0.8 1 0.95 0.95 11 0.85 1 0.05 0.05 12 0.8 1 ************ ************ Average Precision 0.559 0.645 0.635 0.655 Επιλογή σχετικότερων tweets (LMD & PRF)
  • 44. 44
  • 45. 45 Query quality metrics  Υπολογισμός μιας σειράς μετρικών πρόβλεψης ποιότητας ερωτημάτων  Κίνητρο: Εκτίμηση ποιότητας των αποτελεσμάτων και επιλογή των καλύτερων ερωτημάτων για την αναζήτηση πληροφορίας
  • 46. Query quality metrics • Query Length • IDF – based features 𝐼𝐷𝐹𝑤 = 𝑙𝑜𝑔2 𝑁+0,5 𝑁 𝑤 𝑙𝑜𝑔2(𝑁+1) • Άθροισμα, τυπική απόκλιση, μέγιστο/ελάχιστο , το μέγιστο, αριθμητικός μέσος, γεωμετρικός μέσος, αρμονικός μέσος και συντελεστής διακύμανσης (coefficient of variation) για όλες τις λέξεις που το αποτελούν. 46
  • 47. Query quality metrics • Query Scope (QS) 𝑄𝑆 = −𝑙𝑜𝑔 𝑛 𝑄 𝑁 • Similarity Collection/Query-based features (SCQ) 𝑆𝐶𝑄 𝑤 = 1 + 𝑙𝑛 𝑛 𝑤 × 𝑙𝑛 1 + 𝑁 𝑁 𝑤 • Inverse Collection Term Frequency-based features (ICTF) 𝐼𝐶𝑇𝐹𝑤 = −𝑙𝑜𝑔2 𝑛 𝑤 𝑇 47
  • 48. Query Precision (p@10) «cairo» AND «state» 0.8 «attack» AND «state» 0.2 «gunmen» AND «attack» 0.4 «arabia» AND «saudi» 0 «aleppo» AND «front» 0 «july» AND «front» 0 «syria» AND «front» 0 «officials» AND «taliban» 0.3 «afghan» AND «taliban» 0.3 «afghan» AND «officials» 0.2 «kilis» AND «turkish» 0.7 «town» AND «turkish border» 1 «55 islamic state» AND «turkish» 1 «collision» AND «buses» 1 «at least 73 people» AND «tanker» 1 «people» AND «buses» 0 Query quality metrics Επιλογή τυχαίων queries 48
  • 49. • Συντελεστής συσχέτισης Kendall τ • Έστω (x1,y1), (x2,y2),…, (xn,yn) ένα σύνολο παρατηρήσεων των τυχαίων μεταβλητών X και Y αντίστοιχα • Ένα ζεύγος παρατηρήσεων (xi,yi) και (xj,yj), όπου i ≠ j, θεωρείται σύμφωνο αν η κατάταξη και των 2 στοιχείων είναι όμοια: δηλαδή, όταν xi > xj και yi > yj ή xi < xj και yi < yj • Ασύμφωνο ονομάζεται όταν xi > xj και yi < yj ή xi < xj και yi > yj 𝜏 = 𝜋𝜆𝜂𝜃𝜊𝜍 𝜎ύ𝜇𝜑𝜔𝜈𝜔𝜈 𝜁𝜀𝜐𝛾ώ𝜈 − 𝜋𝜆𝜂𝜃𝜊𝜍 𝛼𝜎ύ𝜇𝜑𝜔𝜈𝜔𝜈 𝜁𝜀𝜐𝛾ώ𝜈 𝑛 𝑛−1 /2 • Ο Kendall τB που χρησιμοποιείται στην εργασία, λαμβάνει μέριμνα και για τα ζεύγη που δεν είναι ούτε σύμφωνα ούτε ασύμφωνα 𝜏 𝐵 = 𝑛 𝑐 − 𝑛 𝑑 𝑛0 − 𝑛1 𝑛0 − 𝑛2 Query quality metrics 49
  • 50. SCQarmean - Precision 0.17457525051569356 SCQgeomean - Precision 0.14595635698853068 SCQharmean - Precision 0.15168013569396327 SCQcovar - Precision 0.26615570980261477 ICTFsum - Precision 0.4035263987329966 ICTFstd - Precision 0.25470815239174965 ICTFmaxmin - Precision 0.30049838203521023 ICTFmax - Precision 0.36637935170417507 ICTFarmean - Precision 0.18602280792655873 ICTFgeomean - Precision 0.15740391439939583 ICTFharmean - Precision 0.16312769310482841 ICTFcovar - Precision 0.22608925886458675 QS - Precision 0.008585668058148864 Query quality metrics Μεταβλητές Kendall τΒ Size - Precision 0.37429560943820916 IDFsum - Precision 0.39780262002756406 IDFstd - Precision 0.24898437368631707 IDFmaxmin - Precision 0.28905082462434506 IDFmax - Precision 0.38945836598475303 IDFarmean - Precision 0.20891792274828902 IDFgeomean - Precision 0.17457525051569356 IDFharmean - Precision 0.15168013569396327 IDFcovar - Precision 0.23181303757001934 SCQsum - Precision 0.3806312839112663 SCQstd - Precision 0.28905082462434506 SCQmaxmin - Precision 0.28905082462434506 SCQmax - Precision 0.3860549463918908 Συσχετίσεις query quality metrics με Precision 50
  • 51. Query quality metrics 6.00 6.50 7.00 7.50 8.00 8.50 9.00 9.50 10.00 10.50 11.00 0.0 0.2 0.4 0.6 0.8 1.0 1.2 ICTFmax Precision@10 Διασπορά Precision - ICTFmax 0.20 0.25 0.30 0.35 0.40 0.45 0.0 0.2 0.4 0.6 0.8 1.0 1.2 IDFmax Precision@10 Διασπορά Precision - IDFmax 51
  • 52. Ευχαριστώ για την προσοχή σας! 52

Notes de l'éditeur

  1. +1 διαφανεια στατιστικα + κάποια μπουλετς
  2. Να επανεμφανιζεται σ κάθε ενοτητα με μαρκαρισμενο το αναλογο κομματι
  3. Να προσθεσω την εξισωση του BM25 και πιο αναλυτικα για κάθε μοντελο. Πως υπολογιζονται τα tf idf
  4. Να πανε όλα τα θεωρητικα πριν τα αποτελεσματα
  5. Average precision αντι για total average
  6. Αυτή η διαφανεια να μπει στα αποτελεσματα
  7. Άλλη μια διαφανεια που να εξηγει γιατι τα υπολογισαμε