SlideShare une entreprise Scribd logo
1  sur  14
Télécharger pour lire hors ligne
INTERNET TECHNOLOGIES




            The Syntactic Web, Web
       Information Retrieval algorithms &
           Search Engine Technologies
                       Part II


                   Αναγνωστόπουλος Ι.




              INTERNET TECHNOLOGIES

             Χώρο-∆ιανυσµατικό Μοντέλο


                              d1

                                           v Λεξιλόγιο
d3
                                           V = [t1, t2, ..., tm]
                        d2

                                                   Ερώτηση χρήστη
                                        v
                                        q = [ q1, q 2, ..., q m]

                                        v        Έγγραφο
                   q
                                        d = [ w 1, w 2 , ..., w m ]
                         d4




 Βασικές έννοιες: ∆ιάνυσµα, Συχνότητα Όρου, Αντίστροφη
 Συχνότητα Εγγράφου




                                                                      1
INTERNET TECHNOLOGIES


                                           d1


   d3
                                     d2




                                q

                                      d4




Για πιο απλούς υπολογισµούς να υποτεθεί ότι ο υπολογισµός του wi,q πραγµατοποιείται µε
παρόµοιο τρόπο όπως του wi,j




                                    INTERNET TECHNOLOGIES

                                                                                 Ra
  Συλλογή                                                       Ανάκληση =
                                  Σχετικά
                                                                                 R
                                έγγραφα (R)
                                                                                 Ra
                                                                    Ακρίβεια =
                                                                                 Α
          Συνολικά
         ανακτόµενα
         έγγραφα (A)


                                                   Σχετικά
                                                 ανακτόµενα
                                                έγγραφα (Ra)            ∆ιάγραµµα ανταλλαγής
                                                                        Ακρίβειας - Ανάκλησης


  Test reference collections:
    • TREC
    • Reuters
                                                         Ακρίβεια
    • CACM


                                                                             Ανάκληση




                                                                                                2
INTERNET TECHNOLOGIES
                                                                               Rank    Doc       Rel    Recall      Precision
                                                                                0                        0%           0%
                  d 3 , d 5 , d 9 , d 25 , d 39 , 
             Rq =                                                              1      d 123           10%          100%
                  d 44 , d 56 , d 71 , d 89 , d123                            2       d 84            10%          50%
                                                                                3       d 56            20%          67%
                                                                                4       d6              20%          50%
            100                                                                 5       d 84            20%          40%
                                                                                6       d9              30%          50%
             80
                                                                                7       d 511           30%          43%
Precision




             60                                                                 8       d 129           30%          38%
             40                                                                 9       d 187           30%          33%
                                                                                10      d 25            40%          40%
             20                                                                 11                      40%          36%
                                                                                        d 38
              0                                                                 12      d 48            40%          33%
                    10      20          30    40     50                         13      d 250           40%           31%
                                                                                14      d 113           40%          29%
                                   Recall
                                                                                15      d3              50%          33%

                                 Μετρήσεις µε µεθόδους παρεµβολής (interpolation)
                                    σε 11 επίπεδα recall: 0%, 10%, 20%, …, 100%
                                                     a + bx
            Γραµµική
                                a + bx                  a = Y − bX , b =
                                                                                 n   ∑ xy − ( ∑ x )(∑ y )
                                                                                     n∑ x − ( ∑ x )
            παρεµβολή                                                                        2             2




                                             INTERNET TECHNOLOGIES


Μέση τιµή ακρίβειας στο r επίπεδο                         Αρµονικός µέσος όρος                          Μετρική Ε
  ανάκλησης µε Nq ερωτήσεις
                           Nq                                             2                                        1+ b2
                               P (r )                     F( j ) =                               E( j ) = 1 −
                  P (r ) = ∑ i                                        1      1                                   b2
                                                                                                                      +
                                                                                                                        1
                           i =1 N q                                        +                                    R( j ) P( j )
                                                                     R( j ) P( j )

                                                            1
                                                          0,9
                                                          0,8
                                                          0,7
                                                          0,6
 Μέτρηση σηµείου ισορροπίας
                                               Ακρίβεια   0,5
    (σ.ε.) breakeven-point
                                                          0,4
                                                          0,3
                                                          0,2
                                                          0,1
                                                            0
                                                                0    0,1 0,2    0,3 0,4   0,5    0,6 0,7    0,8 0,9        1
                                                                                          Ανάκληση




                                                                                                                                3
INTERNET TECHNOLOGIES




                       Μηχανές Μετα-Αναζήτησης
                         Meta-Search Engines




                             INTERNET TECHNOLOGIES

Λύση...


  Χρήση πολλών ΜΑ από το χρήστη

          Αύξηση της κίνησης στο ∆ιαδίκτυο
          Γνώση της σύνταξης ερωτήσεων
          ∆ιαγραφή διπλότυπων αποτελεσµάτων        Χρονοβόρα και δύσκολη διαδικασία
          Επεξεργασία ξεχωριστών αποτελεσµάτων


  Μηχανές Μετα-Αναζήτησης (ΜΜΑ) – Meta-Search Engines

Οι Μηχανές Μετα-Αναζήτησης (ΜΜΑ) δεν διατηρούν τη δική τους βάση δεδοµένων /
ευρετήρια. Αποστέλλουν τους όρους αναζήτησης στις βάσεις δεδοµένων των ΜΑ που
χρησιµοποιούν, επεξεργάζονται τα ξεχωριστά αποτελέσµατα και τα επιστρέφουν σε µια ενιαία
µορφή (µετα-αποτελέσµατα).

Παραδείγµατα: Copernic, Dogpile, Metacrawler, Ixquick, Profusion




                                                                                           4
INTERNET TECHNOLOGIES


                                              Χρήση ΜΜΑ




Πλεονεκτήµατα                          Μειονεκτήµατα
• Αναζήτηση σε ενιαίο                  • Συνήθως δεν καθορίζονται από το χρήστη οι
  περιβάλλον                           χρησιµοποιούµενες υπηρεσίες αναζήτησης
• Υποβολή ερώτησης µια φορά            • Χάνεται η προσωπικότητα των υπηρεσιών
• Γνώση µιας σύνταξης                  αναζήτησης που χρησιµοποιούνται
  ερωτήσεων                            • Τα επιστρεφόµενα αποτελέσµατα είναι µια
• Μεγαλύτερη κάλυψη της                “συλλογή” µε τα πιο top ranked από κάθε Μ.Α.
  πληροφορίας




                          INTERNET TECHNOLOGIES


  Προβλήµατα που πρέπει να λυθούν...                   Υπό-συστήµατα ΜΜΑ
  Μετάφραση των ερωτήσεων (queries)            ∆ιεπαφή χρήστη
  Επεξεργασία των µετα-αποτελεσµάτων           ∆ιεκπεραιωτής ή Αποστολέας της
                                               ερώτησης
                                               Συλλέκτης Αποτελεσµάτων
                                               Τοπική Βάση ∆εδοµένων




                                                                                      5
INTERNET TECHNOLOGIES




Εισαγωγή
ερώτησης




                   INTERNET TECHNOLOGIES


     Επεξεργασία και
    υποβολή ερώτησης




                                           6
INTERNET TECHNOLOGIES




                          Συλλογή και
                          επεξεργασία
                         αποτελεσµάτων




 INTERNET TECHNOLOGIES




Παρουσίαση µετα-
 αποτελεσµάτων




                                         7
INTERNET TECHNOLOGIES

Απεικόνιση προβλήµατος...
                                                                     Rm = Dm , om

   R1 = D1,o1    R 2 = D 2 , o2            Ri = Di ,oi                om Dm
    o1   D1        o2     D2                om Dm                      1     δ1
    1    α1         1     β1                1     γ1                   2     δ2
    2    α2         2     β2                2     γ2                   … …
    …    …         …      …                 …     …                    … …
    …    …          k     βk                …     …                    ...   ...
    p    αp                                 ...   ...                  ...   ...
                                             i    γi                   ...   ...
                                                                       j     δj

                                                                  D m = D1 U K U D N

Λύση...
Αλγόριθµοι κατάταξης αποτελεσµάτων από διαφορετικές πηγές
Κάποια πρόταση ?




                                  INTERNET TECHNOLOGIES
Μέθοδοι κατάταξης αποτελεσµάτων από διαφορετικές πηγές
  Μέθοδοι ενσωµάτωσης (rank aggregation methods)
Απαιτούν την συγκέντρωση στατιστικών χαρακτηριστικών και τις συχνότητες εµφάνισης όρων
και εγγράφων στην εξεταζόµενη συλλογή. Χρησιµοποιούν ειδικές µεθόδους για να
αντιπαραβάλουν τις στατιστικές των συλλογών, επιτρέποντας την παραγωγή συγκρίσιµων
βαθµών οµοιότητας στα επιστρεφόµενα αποτελέσµατα.
Fagin [2001], Quick-combine [Guntzer,2000], Proximity search [Goldman,1998], WSQ
[Widom,2000], COMBSUM, COMBMNZ [Fox & Shaw, 1998]


  Μέθοδοι αποµόνωσης (isolated ranking methods)
Βάσει ανατιθέµενου βαθµού στάθµισης [Selberg,1995]
Βάσει δείκτη βαρύτητας εξυπηρετητή [Hawking,1998]
Βάσει ακολουθίας κατάταξης [Yuwono,1997]
Βάσει του περιεχοµένου [Lawrence,1998]




                                                                                         8
INTERNET TECHNOLOGIES


                                                                                       p1 r1
                                                                                       p2 r1
                                                                                        …
                                                                                       pp r1

                                        δείκτης βαρύτητας εξυπηρετητή (χρήστης)         …
                                                                                       pN r1
                                         Τάξη προτεραιότητας µηχανής αναζήτησης (x)    p1 r2
                                          1       2      …        p     …       N      p2 r2
                                                                                        …
               Τάξη αποτελέσµατος




                                    1   p1 r1   p2 r1    …      pp r1   …      pN r1
                                                                                       pp r2
 Ακολουθία                          2   p1 r2   p2 r2    …      pp r2   …      pN r2
                                                                                        …
 κατάταξης                          …    …       …       …       …      …       …
                       (y)




                                                                                       pN r2
                                    r   p1 rr   p2 rr    …      pp rr   …      pN rr    …
                                    …    …       …       …       …      …       …       …
                                                                                        …
                                    K   p1 rk   p2 rk    …      pp rk   …      pN rk
                                                                                       p1 rκ
                                                                                       p2 rκ
                                                                                        …
                                                                                       pp rκ
                                                                                        …
                                                                                       pN rκ




                                              INTERNET TECHNOLOGIES
Αναζήτηση Εικόνων στο ∆ιαδίκτυο

∆ύσκολη γιατί ...
• οι περισσότερες Μ.Α. δεν υποστηρίζουν αναζήτηση εικόνων
• συντάσσουν τα ευρετήριά τους βάσει του περιεχοµένου των ιστοσελίδων και όχι βάσει της
οπτικής πληροφορίας που παρουσιάζουν
• η αναζήτηση δεν περιλαµβάνει boolean τελεστές

για άλλη µια φορά ...
• έλλειψη συνοχής
• διαφορετικά επιστρεφόµενα αποτελέσµατα στον τελικό χρήστη
• χαµένη πληροφορία
• Τεράστιο ποσό µη επιθυµητής πληροφορίας


Πρόταση: Υβριδική Μ.Μ.Α. (ΜetaΗunter)
Η υβριδική φύση του προτεινόµενου συστήµατος έγκειται στο γεγονός ότι η ανάλυση κειµένου
και η επεξεργασία εικόνας, δρουν συµπληρωµατικά προκειµένου να παρασχεθεί ένας πιο
αποτελεσµατικός και ακριβής τρόπος αναζήτησης εικόνων στο ∆ιαδίκτυο.
(εφαρµογή: Φωτογραφίες ανθρώπων)

Άλλες λύσεις: MPEG-21…




                                                                                               9
INTERNET TECHNOLOGIES
                           Παράδειγµα αναζήτησης URL


Πρόβληµα:
Αναζητούµε ιστοσελίδες που αφορούν τον µπασκετµπολίστα Michael Jordan

• Jordan 43/100
• Michael AND Jordan 78/100
• (Michael Jordan) AND (Chicago Bulls) 89/100

Boolean operators     increase precision




                            INTERNET TECHNOLOGIES
                Παράδειγµα αναζήτησης εικόνων στο ∆ιαδίκτυο


Πρόβληµα:
Αναζητούµε εικόνες που αφορούν τον µπασκετµπολίστα Michael Jordan

• Jordan         29/100
• Michael AND Jordan 58/100
• (Michael Jordan) AND (Chicago Bulls) 71/100




Αν όµως…            (Michael Jordan) AND (Chicago Bulls) [AND “human appearance”]
                                    Textual information + Visual information




                                                                                    10
INTERNET TECHNOLOGIES




                                                           PhotoSearch button




                                                            MetaHunter interface




                           INTERNET TECHNOLOGIES
             Αναζήτηση εικόνων στο ∆ιαδίκτυο / Λειτουργία PhotoSearch
Στηρίζεται ...

  Στην προτεινόµενη µέθοδο κατάταξης αποτελεσµάτων από διαφορετικές πηγές
  Αρχές επεξεργασίας εικόνας
         Εντοπισµός περιοχής ενδιαφέροντος
         Γεωµετρικός µετασχηµατισµός εικόνων
         Κβαντοποίηση και δειγµατοληψία εικόνων

  Εφαρµογή Κανόνων Ασαφούς Λογικής (ΚΑΛ)
       Αλγόριθµος skin masking [Umbaugh]

  Τεχνητά Νευρωνικά ∆ίκτυα (ΤΝ∆)
        Πιθανοτικό Νευρωνικό ∆ίκτυο (ΠΝ∆)    Αναγνώριση προσώπου


Στόχος: Μείωση του “θορύβου” της πληροφορίας σε αναζήτηση φωτογραφιών µε πρόσωπα
Τρόπος: µετα-αναζήτηση σε υπηρεσίες που υποστηρίζουν εύρεση εικόνων
        επεξεργασία όλων των αποτελεσµάτων Ανάκτηση Φωτογραφιών




                                                                                   11
INTERNET TECHNOLOGIES

              ΥΒΡΙ∆ΙΚΗ ΜΜΑ “Meta-Hunter” – ΛΕΙΤΟΥΡΓΙΑ PhotoSearch




                               INTERNET TECHNOLOGIES




                                                                                                   0,3-0,5
                                                                                                     sec
                                Fuzzification of Umbaugh’s skin
                                       masking algorithm
                                                                                                              ≈0,1 sec
    2 nodes        425 nodes                225 nodes

                                                                            ≈0,1 sec
                                                                                                    0,1-0,2
“face”                          195 209 211 210 205 194 171 161 142 121 113    94

                                203 209 209 210 209 202 186 174 162 143 130 121 109
                                                                                    61   28

                                                                                         84

                                138 139 169 199 199 184 146 114 102 108 114 110 109 117 109
                                                                                              11

                                                                                              56      sec
                                142 123 146 186 191 164 128 119 121 108 120 132 136 150 147

                                133   84 126 162 207 152 124 121 147   69 108 135 164 175 171

                                176 151 145 166 210 163 158 142 169 148 170 184 196 190 176

                                200 192 189 199 214 174 191 178 170 177 193 207 202 190 168

                                228 215 209 233 219 179 192 209 206 210 216 208 197 183 157

                                225 210 216 239 218 182 177 196 206 210 207 198 190 174 150

                                215 200 216 216 194 177 176 186 200 201 197 189 182 162 154

                                208 203 212 202 178 163 177 200 197 199 194 185 176 162 154

                                211 201 219 207 176 190 195 192 186 193 193 180 173 157 149

                                220 193 182 169 146 154 149 148 154 191 193 176 173 152 142

                                226 212 213 199 178 176 170 176 190 196 185 178 164 139 131

                                190 225 224 210 199 193 193 191 194 195 180 169 144 133 132




“no face”




                                                                                                                         12
INTERNET TECHNOLOGIES


                                                                                Training Set
                                                      Total color          Number of           Skin areas - Other objects
                                                       images                faces
                                                          103                   129                        296
                              Other skin area
                  Face
                                 – object                                        Testing Set
                 99.22%              0.88%                      Total images                          Number of faces
  Face
                (128/129)            (1/129)                        317                                    482
Other skin                                                                        FL rules
                  1.01%              98.99%
  area -
                  (3/296)           (293/296)                                                         452 faces +
 Object                                            Segmented areas              841
                                                                                                 389 possible skin areas
     Training confusion matrix
                                                       FL Rules
                                                                               452/482                    93.77%
                                                     performance
     Training time: 122 sec
                                                                    Artificial Neural Network (ANN)
                                                         Faces                  397
                                                       No faces                 444
                                                         ANN
                                                                               397/452                    87.83%
                                                     Performance
                                                     Total System
                                                                               397/482                    82.36%
                                                     Performance
                                                                          System Performance




                                      INTERNET TECHNOLOGIES
                                        ΑΠΟ∆ΟΣΗ MetaHunter

                      Submitted image queries                                    324
                   Total returned meta-results                       Photos                   Other
                                 14875                           8932                         5925
                                             FL rules /image processing
                         Human Skin Identification               8562                         2271
                                       Probabilistic Neural Network (PNN)
                         Face Recognition                         8059                        176
                                      "PhotoSearch“ returned meta-results
                                                      8235
                                              Excluded meta-results
                                                      6622
                                           Excluded relevant               Excluded irrelevant

             FL rules / im. procc.                370                                  3654
                     PNN                          503                                  2095
                     Total                        873                                  5749
                                        Reduction of irrelevant information
                          5749/5925                                   97.03%
                                                Information loss
                         873/8932                                     9.77%




                                                                                                                            13
INTERNET TECHNOLOGIES

                  1                                           Precision-Recall diagrams
                0,9

                0,8                                                                                            break-even
                                                                                                                  point
                0,7

                0,6

                0,5
  Precision                                                     break-even
                0,4                                                point


                0,3

                0,2

                0,1                    PhotoSearch_on
                                       PhotoSearch_off
                  0
                      0        0,1             0,2            0,3    0,4        0,5         0,6          0,7      0,8           0,9           1
                                                                             Recall




                                           INTERNET TECHNOLOGIES
                                                     Υποβαλλόµενες ερωτήσεις                            120 URLs / 90 εικόνες
                                                                                                                        Υβριδική
                                                                             Copernic        Ixquick        Profusion
                                                                                                                         Μ.Μ.Α.
                                                 µ.ο. µετα-
                                               αποτελεσµάτων                  238,4           119,9              166,3                364,5
                                                   URLs
ΣΥΓΚΡΙΣΗ µε Copernic,                      µ.ο. απόκρισης (sec)                5,2                5,4             6,1                 12,7
 Ixquick και Profusion                          µ.ο. αύξησης
                                                                               52%            204%               119%                   -
                                               κάλυψης URLs
                                                 µ.ο. µετα-
                                               αποτελεσµάτων                   63,6               18,4             -                  44,8
                                                  εικόνων
                                           µ.ο. απόκρισης (sec)                6,3                5,8              -                  15,2

                                           7


                                           6
              AllTheWeb
              AltaVista                    5
              Direct Hit
              DMOZ                         4
                                     sec




              Excite
              Hotbot                       3
              Lycos
              Northern Light               2
              Yahoo!
                                           1


                                           0
                                                     Ιαν-02         Μαϊ-02        Σεπ -02           Ιαν-03             Μαϊ-03           Σεπ -03




                                                                                                                                                  14

Contenu connexe

En vedette

2011 05-01 linked data
2011 05-01 linked data2011 05-01 linked data
2011 05-01 linked datavafopoulos
 
Vafopoulos final paper
Vafopoulos final paperVafopoulos final paper
Vafopoulos final papervafopoulos
 
Wiki technologies nov_2008_ye
Wiki technologies nov_2008_yeWiki technologies nov_2008_ye
Wiki technologies nov_2008_yevafopoulos
 
Ws13 1(2010-11)
Ws13 1(2010-11)Ws13 1(2010-11)
Ws13 1(2010-11)vafopoulos
 
2011 05-02 linked data intro
2011 05-02 linked data intro2011 05-02 linked data intro
2011 05-02 linked data introvafopoulos
 
Το πλαίσιο της επιστήμης του Web
Το πλαίσιο της επιστήμης του WebΤο πλαίσιο της επιστήμης του Web
Το πλαίσιο της επιστήμης του Webvafopoulos
 
Ws13 2(2010-11)
Ws13 2(2010-11)Ws13 2(2010-11)
Ws13 2(2010-11)vafopoulos
 
κοινωνια της πληροφοριας ευκαιριες και απειλες
κοινωνια της πληροφοριας ευκαιριες και απειλεςκοινωνια της πληροφοριας ευκαιριες και απειλες
κοινωνια της πληροφοριας ευκαιριες και απειλεςvafopoulos
 
Riseptis report 1
Riseptis report 1Riseptis report 1
Riseptis report 1vafopoulos
 

En vedette (9)

2011 05-01 linked data
2011 05-01 linked data2011 05-01 linked data
2011 05-01 linked data
 
Vafopoulos final paper
Vafopoulos final paperVafopoulos final paper
Vafopoulos final paper
 
Wiki technologies nov_2008_ye
Wiki technologies nov_2008_yeWiki technologies nov_2008_ye
Wiki technologies nov_2008_ye
 
Ws13 1(2010-11)
Ws13 1(2010-11)Ws13 1(2010-11)
Ws13 1(2010-11)
 
2011 05-02 linked data intro
2011 05-02 linked data intro2011 05-02 linked data intro
2011 05-02 linked data intro
 
Το πλαίσιο της επιστήμης του Web
Το πλαίσιο της επιστήμης του WebΤο πλαίσιο της επιστήμης του Web
Το πλαίσιο της επιστήμης του Web
 
Ws13 2(2010-11)
Ws13 2(2010-11)Ws13 2(2010-11)
Ws13 2(2010-11)
 
κοινωνια της πληροφοριας ευκαιριες και απειλες
κοινωνια της πληροφοριας ευκαιριες και απειλεςκοινωνια της πληροφοριας ευκαιριες και απειλες
κοινωνια της πληροφοριας ευκαιριες και απειλες
 
Riseptis report 1
Riseptis report 1Riseptis report 1
Riseptis report 1
 

Plus de vafopoulos

Presentation gr
Presentation grPresentation gr
Presentation grvafopoulos
 
Vafopoulos is the 2faces of janus
Vafopoulos is the 2faces of janusVafopoulos is the 2faces of janus
Vafopoulos is the 2faces of janusvafopoulos
 
2010 3-24 cryptography stamatiou
2010 3-24 cryptography stamatiou2010 3-24 cryptography stamatiou
2010 3-24 cryptography stamatiouvafopoulos
 
2010 02-24 ws gm logic
2010 02-24 ws gm logic2010 02-24 ws gm logic
2010 02-24 ws gm logicvafopoulos
 
Issue 11834$pdf
Issue 11834$pdfIssue 11834$pdf
Issue 11834$pdfvafopoulos
 
Gget 30 webscience
Gget 30 webscienceGget 30 webscience
Gget 30 websciencevafopoulos
 
Mit csail-tr-2007-034
Mit csail-tr-2007-034Mit csail-tr-2007-034
Mit csail-tr-2007-034vafopoulos
 
A framework of Web Science
A framework of Web Science A framework of Web Science
A framework of Web Science vafopoulos
 

Plus de vafopoulos (8)

Presentation gr
Presentation grPresentation gr
Presentation gr
 
Vafopoulos is the 2faces of janus
Vafopoulos is the 2faces of janusVafopoulos is the 2faces of janus
Vafopoulos is the 2faces of janus
 
2010 3-24 cryptography stamatiou
2010 3-24 cryptography stamatiou2010 3-24 cryptography stamatiou
2010 3-24 cryptography stamatiou
 
2010 02-24 ws gm logic
2010 02-24 ws gm logic2010 02-24 ws gm logic
2010 02-24 ws gm logic
 
Issue 11834$pdf
Issue 11834$pdfIssue 11834$pdf
Issue 11834$pdf
 
Gget 30 webscience
Gget 30 webscienceGget 30 webscience
Gget 30 webscience
 
Mit csail-tr-2007-034
Mit csail-tr-2007-034Mit csail-tr-2007-034
Mit csail-tr-2007-034
 
A framework of Web Science
A framework of Web Science A framework of Web Science
A framework of Web Science
 

Ws 13-4(2010-11)

  • 1. INTERNET TECHNOLOGIES The Syntactic Web, Web Information Retrieval algorithms & Search Engine Technologies Part II Αναγνωστόπουλος Ι. INTERNET TECHNOLOGIES Χώρο-∆ιανυσµατικό Μοντέλο d1 v Λεξιλόγιο d3 V = [t1, t2, ..., tm] d2 Ερώτηση χρήστη v q = [ q1, q 2, ..., q m] v Έγγραφο q d = [ w 1, w 2 , ..., w m ] d4 Βασικές έννοιες: ∆ιάνυσµα, Συχνότητα Όρου, Αντίστροφη Συχνότητα Εγγράφου 1
  • 2. INTERNET TECHNOLOGIES d1 d3 d2 q d4 Για πιο απλούς υπολογισµούς να υποτεθεί ότι ο υπολογισµός του wi,q πραγµατοποιείται µε παρόµοιο τρόπο όπως του wi,j INTERNET TECHNOLOGIES Ra Συλλογή Ανάκληση = Σχετικά R έγγραφα (R) Ra Ακρίβεια = Α Συνολικά ανακτόµενα έγγραφα (A) Σχετικά ανακτόµενα έγγραφα (Ra) ∆ιάγραµµα ανταλλαγής Ακρίβειας - Ανάκλησης Test reference collections: • TREC • Reuters Ακρίβεια • CACM Ανάκληση 2
  • 3. INTERNET TECHNOLOGIES Rank Doc Rel Recall Precision 0 0% 0% d 3 , d 5 , d 9 , d 25 , d 39 ,  Rq =   1 d 123 10% 100% d 44 , d 56 , d 71 , d 89 , d123  2 d 84 10% 50% 3 d 56 20% 67% 4 d6 20% 50% 100 5 d 84 20% 40% 6 d9 30% 50% 80 7 d 511 30% 43% Precision 60 8 d 129 30% 38% 40 9 d 187 30% 33% 10 d 25 40% 40% 20 11 40% 36% d 38 0 12 d 48 40% 33% 10 20 30 40 50 13 d 250 40% 31% 14 d 113 40% 29% Recall 15 d3 50% 33% Μετρήσεις µε µεθόδους παρεµβολής (interpolation) σε 11 επίπεδα recall: 0%, 10%, 20%, …, 100% a + bx Γραµµική a + bx a = Y − bX , b = n ∑ xy − ( ∑ x )(∑ y ) n∑ x − ( ∑ x ) παρεµβολή 2 2 INTERNET TECHNOLOGIES Μέση τιµή ακρίβειας στο r επίπεδο Αρµονικός µέσος όρος Μετρική Ε ανάκλησης µε Nq ερωτήσεις Nq 2 1+ b2 P (r ) F( j ) = E( j ) = 1 − P (r ) = ∑ i 1 1 b2 + 1 i =1 N q + R( j ) P( j ) R( j ) P( j ) 1 0,9 0,8 0,7 0,6 Μέτρηση σηµείου ισορροπίας Ακρίβεια 0,5 (σ.ε.) breakeven-point 0,4 0,3 0,2 0,1 0 0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1 Ανάκληση 3
  • 4. INTERNET TECHNOLOGIES Μηχανές Μετα-Αναζήτησης Meta-Search Engines INTERNET TECHNOLOGIES Λύση... Χρήση πολλών ΜΑ από το χρήστη Αύξηση της κίνησης στο ∆ιαδίκτυο Γνώση της σύνταξης ερωτήσεων ∆ιαγραφή διπλότυπων αποτελεσµάτων Χρονοβόρα και δύσκολη διαδικασία Επεξεργασία ξεχωριστών αποτελεσµάτων Μηχανές Μετα-Αναζήτησης (ΜΜΑ) – Meta-Search Engines Οι Μηχανές Μετα-Αναζήτησης (ΜΜΑ) δεν διατηρούν τη δική τους βάση δεδοµένων / ευρετήρια. Αποστέλλουν τους όρους αναζήτησης στις βάσεις δεδοµένων των ΜΑ που χρησιµοποιούν, επεξεργάζονται τα ξεχωριστά αποτελέσµατα και τα επιστρέφουν σε µια ενιαία µορφή (µετα-αποτελέσµατα). Παραδείγµατα: Copernic, Dogpile, Metacrawler, Ixquick, Profusion 4
  • 5. INTERNET TECHNOLOGIES Χρήση ΜΜΑ Πλεονεκτήµατα Μειονεκτήµατα • Αναζήτηση σε ενιαίο • Συνήθως δεν καθορίζονται από το χρήστη οι περιβάλλον χρησιµοποιούµενες υπηρεσίες αναζήτησης • Υποβολή ερώτησης µια φορά • Χάνεται η προσωπικότητα των υπηρεσιών • Γνώση µιας σύνταξης αναζήτησης που χρησιµοποιούνται ερωτήσεων • Τα επιστρεφόµενα αποτελέσµατα είναι µια • Μεγαλύτερη κάλυψη της “συλλογή” µε τα πιο top ranked από κάθε Μ.Α. πληροφορίας INTERNET TECHNOLOGIES Προβλήµατα που πρέπει να λυθούν... Υπό-συστήµατα ΜΜΑ Μετάφραση των ερωτήσεων (queries) ∆ιεπαφή χρήστη Επεξεργασία των µετα-αποτελεσµάτων ∆ιεκπεραιωτής ή Αποστολέας της ερώτησης Συλλέκτης Αποτελεσµάτων Τοπική Βάση ∆εδοµένων 5
  • 6. INTERNET TECHNOLOGIES Εισαγωγή ερώτησης INTERNET TECHNOLOGIES Επεξεργασία και υποβολή ερώτησης 6
  • 7. INTERNET TECHNOLOGIES Συλλογή και επεξεργασία αποτελεσµάτων INTERNET TECHNOLOGIES Παρουσίαση µετα- αποτελεσµάτων 7
  • 8. INTERNET TECHNOLOGIES Απεικόνιση προβλήµατος... Rm = Dm , om R1 = D1,o1 R 2 = D 2 , o2 Ri = Di ,oi om Dm o1 D1 o2 D2 om Dm 1 δ1 1 α1 1 β1 1 γ1 2 δ2 2 α2 2 β2 2 γ2 … … … … … … … … … … … … k βk … … ... ... p αp ... ... ... ... i γi ... ... j δj D m = D1 U K U D N Λύση... Αλγόριθµοι κατάταξης αποτελεσµάτων από διαφορετικές πηγές Κάποια πρόταση ? INTERNET TECHNOLOGIES Μέθοδοι κατάταξης αποτελεσµάτων από διαφορετικές πηγές Μέθοδοι ενσωµάτωσης (rank aggregation methods) Απαιτούν την συγκέντρωση στατιστικών χαρακτηριστικών και τις συχνότητες εµφάνισης όρων και εγγράφων στην εξεταζόµενη συλλογή. Χρησιµοποιούν ειδικές µεθόδους για να αντιπαραβάλουν τις στατιστικές των συλλογών, επιτρέποντας την παραγωγή συγκρίσιµων βαθµών οµοιότητας στα επιστρεφόµενα αποτελέσµατα. Fagin [2001], Quick-combine [Guntzer,2000], Proximity search [Goldman,1998], WSQ [Widom,2000], COMBSUM, COMBMNZ [Fox & Shaw, 1998] Μέθοδοι αποµόνωσης (isolated ranking methods) Βάσει ανατιθέµενου βαθµού στάθµισης [Selberg,1995] Βάσει δείκτη βαρύτητας εξυπηρετητή [Hawking,1998] Βάσει ακολουθίας κατάταξης [Yuwono,1997] Βάσει του περιεχοµένου [Lawrence,1998] 8
  • 9. INTERNET TECHNOLOGIES p1 r1 p2 r1 … pp r1 δείκτης βαρύτητας εξυπηρετητή (χρήστης) … pN r1 Τάξη προτεραιότητας µηχανής αναζήτησης (x) p1 r2 1 2 … p … N p2 r2 … Τάξη αποτελέσµατος 1 p1 r1 p2 r1 … pp r1 … pN r1 pp r2 Ακολουθία 2 p1 r2 p2 r2 … pp r2 … pN r2 … κατάταξης … … … … … … … (y) pN r2 r p1 rr p2 rr … pp rr … pN rr … … … … … … … … … … K p1 rk p2 rk … pp rk … pN rk p1 rκ p2 rκ … pp rκ … pN rκ INTERNET TECHNOLOGIES Αναζήτηση Εικόνων στο ∆ιαδίκτυο ∆ύσκολη γιατί ... • οι περισσότερες Μ.Α. δεν υποστηρίζουν αναζήτηση εικόνων • συντάσσουν τα ευρετήριά τους βάσει του περιεχοµένου των ιστοσελίδων και όχι βάσει της οπτικής πληροφορίας που παρουσιάζουν • η αναζήτηση δεν περιλαµβάνει boolean τελεστές για άλλη µια φορά ... • έλλειψη συνοχής • διαφορετικά επιστρεφόµενα αποτελέσµατα στον τελικό χρήστη • χαµένη πληροφορία • Τεράστιο ποσό µη επιθυµητής πληροφορίας Πρόταση: Υβριδική Μ.Μ.Α. (ΜetaΗunter) Η υβριδική φύση του προτεινόµενου συστήµατος έγκειται στο γεγονός ότι η ανάλυση κειµένου και η επεξεργασία εικόνας, δρουν συµπληρωµατικά προκειµένου να παρασχεθεί ένας πιο αποτελεσµατικός και ακριβής τρόπος αναζήτησης εικόνων στο ∆ιαδίκτυο. (εφαρµογή: Φωτογραφίες ανθρώπων) Άλλες λύσεις: MPEG-21… 9
  • 10. INTERNET TECHNOLOGIES Παράδειγµα αναζήτησης URL Πρόβληµα: Αναζητούµε ιστοσελίδες που αφορούν τον µπασκετµπολίστα Michael Jordan • Jordan 43/100 • Michael AND Jordan 78/100 • (Michael Jordan) AND (Chicago Bulls) 89/100 Boolean operators increase precision INTERNET TECHNOLOGIES Παράδειγµα αναζήτησης εικόνων στο ∆ιαδίκτυο Πρόβληµα: Αναζητούµε εικόνες που αφορούν τον µπασκετµπολίστα Michael Jordan • Jordan 29/100 • Michael AND Jordan 58/100 • (Michael Jordan) AND (Chicago Bulls) 71/100 Αν όµως… (Michael Jordan) AND (Chicago Bulls) [AND “human appearance”] Textual information + Visual information 10
  • 11. INTERNET TECHNOLOGIES PhotoSearch button MetaHunter interface INTERNET TECHNOLOGIES Αναζήτηση εικόνων στο ∆ιαδίκτυο / Λειτουργία PhotoSearch Στηρίζεται ... Στην προτεινόµενη µέθοδο κατάταξης αποτελεσµάτων από διαφορετικές πηγές Αρχές επεξεργασίας εικόνας Εντοπισµός περιοχής ενδιαφέροντος Γεωµετρικός µετασχηµατισµός εικόνων Κβαντοποίηση και δειγµατοληψία εικόνων Εφαρµογή Κανόνων Ασαφούς Λογικής (ΚΑΛ) Αλγόριθµος skin masking [Umbaugh] Τεχνητά Νευρωνικά ∆ίκτυα (ΤΝ∆) Πιθανοτικό Νευρωνικό ∆ίκτυο (ΠΝ∆) Αναγνώριση προσώπου Στόχος: Μείωση του “θορύβου” της πληροφορίας σε αναζήτηση φωτογραφιών µε πρόσωπα Τρόπος: µετα-αναζήτηση σε υπηρεσίες που υποστηρίζουν εύρεση εικόνων επεξεργασία όλων των αποτελεσµάτων Ανάκτηση Φωτογραφιών 11
  • 12. INTERNET TECHNOLOGIES ΥΒΡΙ∆ΙΚΗ ΜΜΑ “Meta-Hunter” – ΛΕΙΤΟΥΡΓΙΑ PhotoSearch INTERNET TECHNOLOGIES 0,3-0,5 sec Fuzzification of Umbaugh’s skin masking algorithm ≈0,1 sec 2 nodes 425 nodes 225 nodes ≈0,1 sec 0,1-0,2 “face” 195 209 211 210 205 194 171 161 142 121 113 94 203 209 209 210 209 202 186 174 162 143 130 121 109 61 28 84 138 139 169 199 199 184 146 114 102 108 114 110 109 117 109 11 56 sec 142 123 146 186 191 164 128 119 121 108 120 132 136 150 147 133 84 126 162 207 152 124 121 147 69 108 135 164 175 171 176 151 145 166 210 163 158 142 169 148 170 184 196 190 176 200 192 189 199 214 174 191 178 170 177 193 207 202 190 168 228 215 209 233 219 179 192 209 206 210 216 208 197 183 157 225 210 216 239 218 182 177 196 206 210 207 198 190 174 150 215 200 216 216 194 177 176 186 200 201 197 189 182 162 154 208 203 212 202 178 163 177 200 197 199 194 185 176 162 154 211 201 219 207 176 190 195 192 186 193 193 180 173 157 149 220 193 182 169 146 154 149 148 154 191 193 176 173 152 142 226 212 213 199 178 176 170 176 190 196 185 178 164 139 131 190 225 224 210 199 193 193 191 194 195 180 169 144 133 132 “no face” 12
  • 13. INTERNET TECHNOLOGIES Training Set Total color Number of Skin areas - Other objects images faces 103 129 296 Other skin area Face – object Testing Set 99.22% 0.88% Total images Number of faces Face (128/129) (1/129) 317 482 Other skin FL rules 1.01% 98.99% area - (3/296) (293/296) 452 faces + Object Segmented areas 841 389 possible skin areas Training confusion matrix FL Rules 452/482 93.77% performance Training time: 122 sec Artificial Neural Network (ANN) Faces 397 No faces 444 ANN 397/452 87.83% Performance Total System 397/482 82.36% Performance System Performance INTERNET TECHNOLOGIES ΑΠΟ∆ΟΣΗ MetaHunter Submitted image queries 324 Total returned meta-results Photos Other 14875 8932 5925 FL rules /image processing Human Skin Identification 8562 2271 Probabilistic Neural Network (PNN) Face Recognition 8059 176 "PhotoSearch“ returned meta-results 8235 Excluded meta-results 6622 Excluded relevant Excluded irrelevant FL rules / im. procc. 370 3654 PNN 503 2095 Total 873 5749 Reduction of irrelevant information 5749/5925 97.03% Information loss 873/8932 9.77% 13
  • 14. INTERNET TECHNOLOGIES 1 Precision-Recall diagrams 0,9 0,8 break-even point 0,7 0,6 0,5 Precision break-even 0,4 point 0,3 0,2 0,1 PhotoSearch_on PhotoSearch_off 0 0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1 Recall INTERNET TECHNOLOGIES Υποβαλλόµενες ερωτήσεις 120 URLs / 90 εικόνες Υβριδική Copernic Ixquick Profusion Μ.Μ.Α. µ.ο. µετα- αποτελεσµάτων 238,4 119,9 166,3 364,5 URLs ΣΥΓΚΡΙΣΗ µε Copernic, µ.ο. απόκρισης (sec) 5,2 5,4 6,1 12,7 Ixquick και Profusion µ.ο. αύξησης 52% 204% 119% - κάλυψης URLs µ.ο. µετα- αποτελεσµάτων 63,6 18,4 - 44,8 εικόνων µ.ο. απόκρισης (sec) 6,3 5,8 - 15,2 7 6 AllTheWeb AltaVista 5 Direct Hit DMOZ 4 sec Excite Hotbot 3 Lycos Northern Light 2 Yahoo! 1 0 Ιαν-02 Μαϊ-02 Σεπ -02 Ιαν-03 Μαϊ-03 Σεπ -03 14