1. INTERNET TECHNOLOGIES
The Syntactic Web, Web
Information Retrieval algorithms &
Search Engine Technologies
Part II
Αναγνωστόπουλος Ι.
INTERNET TECHNOLOGIES
Χώρο-∆ιανυσµατικό Μοντέλο
d1
v Λεξιλόγιο
d3
V = [t1, t2, ..., tm]
d2
Ερώτηση χρήστη
v
q = [ q1, q 2, ..., q m]
v Έγγραφο
q
d = [ w 1, w 2 , ..., w m ]
d4
Βασικές έννοιες: ∆ιάνυσµα, Συχνότητα Όρου, Αντίστροφη
Συχνότητα Εγγράφου
1
2. INTERNET TECHNOLOGIES
d1
d3
d2
q
d4
Για πιο απλούς υπολογισµούς να υποτεθεί ότι ο υπολογισµός του wi,q πραγµατοποιείται µε
παρόµοιο τρόπο όπως του wi,j
INTERNET TECHNOLOGIES
Ra
Συλλογή Ανάκληση =
Σχετικά
R
έγγραφα (R)
Ra
Ακρίβεια =
Α
Συνολικά
ανακτόµενα
έγγραφα (A)
Σχετικά
ανακτόµενα
έγγραφα (Ra) ∆ιάγραµµα ανταλλαγής
Ακρίβειας - Ανάκλησης
Test reference collections:
• TREC
• Reuters
Ακρίβεια
• CACM
Ανάκληση
2
3. INTERNET TECHNOLOGIES
Rank Doc Rel Recall Precision
0 0% 0%
d 3 , d 5 , d 9 , d 25 , d 39 ,
Rq = 1 d 123 10% 100%
d 44 , d 56 , d 71 , d 89 , d123 2 d 84 10% 50%
3 d 56 20% 67%
4 d6 20% 50%
100 5 d 84 20% 40%
6 d9 30% 50%
80
7 d 511 30% 43%
Precision
60 8 d 129 30% 38%
40 9 d 187 30% 33%
10 d 25 40% 40%
20 11 40% 36%
d 38
0 12 d 48 40% 33%
10 20 30 40 50 13 d 250 40% 31%
14 d 113 40% 29%
Recall
15 d3 50% 33%
Μετρήσεις µε µεθόδους παρεµβολής (interpolation)
σε 11 επίπεδα recall: 0%, 10%, 20%, …, 100%
a + bx
Γραµµική
a + bx a = Y − bX , b =
n ∑ xy − ( ∑ x )(∑ y )
n∑ x − ( ∑ x )
παρεµβολή 2 2
INTERNET TECHNOLOGIES
Μέση τιµή ακρίβειας στο r επίπεδο Αρµονικός µέσος όρος Μετρική Ε
ανάκλησης µε Nq ερωτήσεις
Nq 2 1+ b2
P (r ) F( j ) = E( j ) = 1 −
P (r ) = ∑ i 1 1 b2
+
1
i =1 N q + R( j ) P( j )
R( j ) P( j )
1
0,9
0,8
0,7
0,6
Μέτρηση σηµείου ισορροπίας
Ακρίβεια 0,5
(σ.ε.) breakeven-point
0,4
0,3
0,2
0,1
0
0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1
Ανάκληση
3
4. INTERNET TECHNOLOGIES
Μηχανές Μετα-Αναζήτησης
Meta-Search Engines
INTERNET TECHNOLOGIES
Λύση...
Χρήση πολλών ΜΑ από το χρήστη
Αύξηση της κίνησης στο ∆ιαδίκτυο
Γνώση της σύνταξης ερωτήσεων
∆ιαγραφή διπλότυπων αποτελεσµάτων Χρονοβόρα και δύσκολη διαδικασία
Επεξεργασία ξεχωριστών αποτελεσµάτων
Μηχανές Μετα-Αναζήτησης (ΜΜΑ) – Meta-Search Engines
Οι Μηχανές Μετα-Αναζήτησης (ΜΜΑ) δεν διατηρούν τη δική τους βάση δεδοµένων /
ευρετήρια. Αποστέλλουν τους όρους αναζήτησης στις βάσεις δεδοµένων των ΜΑ που
χρησιµοποιούν, επεξεργάζονται τα ξεχωριστά αποτελέσµατα και τα επιστρέφουν σε µια ενιαία
µορφή (µετα-αποτελέσµατα).
Παραδείγµατα: Copernic, Dogpile, Metacrawler, Ixquick, Profusion
4
5. INTERNET TECHNOLOGIES
Χρήση ΜΜΑ
Πλεονεκτήµατα Μειονεκτήµατα
• Αναζήτηση σε ενιαίο • Συνήθως δεν καθορίζονται από το χρήστη οι
περιβάλλον χρησιµοποιούµενες υπηρεσίες αναζήτησης
• Υποβολή ερώτησης µια φορά • Χάνεται η προσωπικότητα των υπηρεσιών
• Γνώση µιας σύνταξης αναζήτησης που χρησιµοποιούνται
ερωτήσεων • Τα επιστρεφόµενα αποτελέσµατα είναι µια
• Μεγαλύτερη κάλυψη της “συλλογή” µε τα πιο top ranked από κάθε Μ.Α.
πληροφορίας
INTERNET TECHNOLOGIES
Προβλήµατα που πρέπει να λυθούν... Υπό-συστήµατα ΜΜΑ
Μετάφραση των ερωτήσεων (queries) ∆ιεπαφή χρήστη
Επεξεργασία των µετα-αποτελεσµάτων ∆ιεκπεραιωτής ή Αποστολέας της
ερώτησης
Συλλέκτης Αποτελεσµάτων
Τοπική Βάση ∆εδοµένων
5
7. INTERNET TECHNOLOGIES
Συλλογή και
επεξεργασία
αποτελεσµάτων
INTERNET TECHNOLOGIES
Παρουσίαση µετα-
αποτελεσµάτων
7
8. INTERNET TECHNOLOGIES
Απεικόνιση προβλήµατος...
Rm = Dm , om
R1 = D1,o1 R 2 = D 2 , o2 Ri = Di ,oi om Dm
o1 D1 o2 D2 om Dm 1 δ1
1 α1 1 β1 1 γ1 2 δ2
2 α2 2 β2 2 γ2 … …
… … … … … … … …
… … k βk … … ... ...
p αp ... ... ... ...
i γi ... ...
j δj
D m = D1 U K U D N
Λύση...
Αλγόριθµοι κατάταξης αποτελεσµάτων από διαφορετικές πηγές
Κάποια πρόταση ?
INTERNET TECHNOLOGIES
Μέθοδοι κατάταξης αποτελεσµάτων από διαφορετικές πηγές
Μέθοδοι ενσωµάτωσης (rank aggregation methods)
Απαιτούν την συγκέντρωση στατιστικών χαρακτηριστικών και τις συχνότητες εµφάνισης όρων
και εγγράφων στην εξεταζόµενη συλλογή. Χρησιµοποιούν ειδικές µεθόδους για να
αντιπαραβάλουν τις στατιστικές των συλλογών, επιτρέποντας την παραγωγή συγκρίσιµων
βαθµών οµοιότητας στα επιστρεφόµενα αποτελέσµατα.
Fagin [2001], Quick-combine [Guntzer,2000], Proximity search [Goldman,1998], WSQ
[Widom,2000], COMBSUM, COMBMNZ [Fox & Shaw, 1998]
Μέθοδοι αποµόνωσης (isolated ranking methods)
Βάσει ανατιθέµενου βαθµού στάθµισης [Selberg,1995]
Βάσει δείκτη βαρύτητας εξυπηρετητή [Hawking,1998]
Βάσει ακολουθίας κατάταξης [Yuwono,1997]
Βάσει του περιεχοµένου [Lawrence,1998]
8
9. INTERNET TECHNOLOGIES
p1 r1
p2 r1
…
pp r1
δείκτης βαρύτητας εξυπηρετητή (χρήστης) …
pN r1
Τάξη προτεραιότητας µηχανής αναζήτησης (x) p1 r2
1 2 … p … N p2 r2
…
Τάξη αποτελέσµατος
1 p1 r1 p2 r1 … pp r1 … pN r1
pp r2
Ακολουθία 2 p1 r2 p2 r2 … pp r2 … pN r2
…
κατάταξης … … … … … … …
(y)
pN r2
r p1 rr p2 rr … pp rr … pN rr …
… … … … … … … …
…
K p1 rk p2 rk … pp rk … pN rk
p1 rκ
p2 rκ
…
pp rκ
…
pN rκ
INTERNET TECHNOLOGIES
Αναζήτηση Εικόνων στο ∆ιαδίκτυο
∆ύσκολη γιατί ...
• οι περισσότερες Μ.Α. δεν υποστηρίζουν αναζήτηση εικόνων
• συντάσσουν τα ευρετήριά τους βάσει του περιεχοµένου των ιστοσελίδων και όχι βάσει της
οπτικής πληροφορίας που παρουσιάζουν
• η αναζήτηση δεν περιλαµβάνει boolean τελεστές
για άλλη µια φορά ...
• έλλειψη συνοχής
• διαφορετικά επιστρεφόµενα αποτελέσµατα στον τελικό χρήστη
• χαµένη πληροφορία
• Τεράστιο ποσό µη επιθυµητής πληροφορίας
Πρόταση: Υβριδική Μ.Μ.Α. (ΜetaΗunter)
Η υβριδική φύση του προτεινόµενου συστήµατος έγκειται στο γεγονός ότι η ανάλυση κειµένου
και η επεξεργασία εικόνας, δρουν συµπληρωµατικά προκειµένου να παρασχεθεί ένας πιο
αποτελεσµατικός και ακριβής τρόπος αναζήτησης εικόνων στο ∆ιαδίκτυο.
(εφαρµογή: Φωτογραφίες ανθρώπων)
Άλλες λύσεις: MPEG-21…
9
10. INTERNET TECHNOLOGIES
Παράδειγµα αναζήτησης URL
Πρόβληµα:
Αναζητούµε ιστοσελίδες που αφορούν τον µπασκετµπολίστα Michael Jordan
• Jordan 43/100
• Michael AND Jordan 78/100
• (Michael Jordan) AND (Chicago Bulls) 89/100
Boolean operators increase precision
INTERNET TECHNOLOGIES
Παράδειγµα αναζήτησης εικόνων στο ∆ιαδίκτυο
Πρόβληµα:
Αναζητούµε εικόνες που αφορούν τον µπασκετµπολίστα Michael Jordan
• Jordan 29/100
• Michael AND Jordan 58/100
• (Michael Jordan) AND (Chicago Bulls) 71/100
Αν όµως… (Michael Jordan) AND (Chicago Bulls) [AND “human appearance”]
Textual information + Visual information
10
11. INTERNET TECHNOLOGIES
PhotoSearch button
MetaHunter interface
INTERNET TECHNOLOGIES
Αναζήτηση εικόνων στο ∆ιαδίκτυο / Λειτουργία PhotoSearch
Στηρίζεται ...
Στην προτεινόµενη µέθοδο κατάταξης αποτελεσµάτων από διαφορετικές πηγές
Αρχές επεξεργασίας εικόνας
Εντοπισµός περιοχής ενδιαφέροντος
Γεωµετρικός µετασχηµατισµός εικόνων
Κβαντοποίηση και δειγµατοληψία εικόνων
Εφαρµογή Κανόνων Ασαφούς Λογικής (ΚΑΛ)
Αλγόριθµος skin masking [Umbaugh]
Τεχνητά Νευρωνικά ∆ίκτυα (ΤΝ∆)
Πιθανοτικό Νευρωνικό ∆ίκτυο (ΠΝ∆) Αναγνώριση προσώπου
Στόχος: Μείωση του “θορύβου” της πληροφορίας σε αναζήτηση φωτογραφιών µε πρόσωπα
Τρόπος: µετα-αναζήτηση σε υπηρεσίες που υποστηρίζουν εύρεση εικόνων
επεξεργασία όλων των αποτελεσµάτων Ανάκτηση Φωτογραφιών
11
13. INTERNET TECHNOLOGIES
Training Set
Total color Number of Skin areas - Other objects
images faces
103 129 296
Other skin area
Face
– object Testing Set
99.22% 0.88% Total images Number of faces
Face
(128/129) (1/129) 317 482
Other skin FL rules
1.01% 98.99%
area -
(3/296) (293/296) 452 faces +
Object Segmented areas 841
389 possible skin areas
Training confusion matrix
FL Rules
452/482 93.77%
performance
Training time: 122 sec
Artificial Neural Network (ANN)
Faces 397
No faces 444
ANN
397/452 87.83%
Performance
Total System
397/482 82.36%
Performance
System Performance
INTERNET TECHNOLOGIES
ΑΠΟ∆ΟΣΗ MetaHunter
Submitted image queries 324
Total returned meta-results Photos Other
14875 8932 5925
FL rules /image processing
Human Skin Identification 8562 2271
Probabilistic Neural Network (PNN)
Face Recognition 8059 176
"PhotoSearch“ returned meta-results
8235
Excluded meta-results
6622
Excluded relevant Excluded irrelevant
FL rules / im. procc. 370 3654
PNN 503 2095
Total 873 5749
Reduction of irrelevant information
5749/5925 97.03%
Information loss
873/8932 9.77%
13