SlideShare une entreprise Scribd logo
1  sur  37
Efficiency Issues for Web Search
                Engines:

How to Make a Search Engine Return Results
    in a Hundred Milliseconds or Less?

         Ismail Sengor Altingovde
           L3S Research Center
Research interests
•   Efficiency and scalability issues for Web-IR
•   Social Web: Sentiment analysis, Social ranking
•   Domain-specific search engines & focused crawling
•   Web information extraction
•   XML querying & searching
•   Recommendation systems
•   OCR & IR
•   Web databases
Research interests: Today
• Efficiency and scalability issues for WebIR
  – Caching
     • Cost-aware result caching techniques [TWEB
      2011, IPM2012]
     • Alternative result cache organizations [ECIR 2011]
     • Cache freshness [SIGIR 2011, ECIR 2012]
     • Regionalization & caching [SPIRE 2012]
  – Static Index Pruning
     • Query views in pruning algorithms [TOIS 2012]
     • Correctness guarantees for pruning [in progress]
Search: what really happens is...
                                                           Indexer-1       Inverted
                                                                           Index
                                      Broker
                       Query                                           3
                      1                            2
                                                       4
                      8
                  Query Result                     2       Indexer-2
      User                                                             3
                       5                           4

                           7         5   7

        Doc server-1           Doc server-2                   …
                                                           Indexer-N
                                                              …
                                               …
            6                   6
Documents
Data items related to search
• Data items
  – Posting lists (fetched)
  – Intersections of posting lists (computed)
  – Query results as doc-ids (computed)
  – Documents (fetched)
  – Query results as pages (computed)!
                                all
                         ‘ em
                        e
                     ach
                    C
Search: where caches come in?
                                                           Indexer-1       Inverted
                                                                           Index
                                      Broker
                       Query                                           3
                     1                             2
                                                       4
                     8                                             List
                 Query Result                                      Cache
                                                   2
      User
                       5                 Result 4          Indexer-2
                                    57   Cache
                           7
        Doc server-1           Doc server-2

                                                              …
                 Document                      …
                 Cache
            6           6
Documents
Caching for Web search
• Cache content is according to
  – Frequency
  – Recency
• Cache types
  – Static (for longer term access patterns)
  – Dynamic (for shorter term access patterns)
  – Hybrid
How about costs?
• Miss-costs are not “uniform”!
     • Costs are inter-related!


• Both the caching strategies and the
  evaluation should consider costs!
Search: caches and costs
                                                                       Indexer-1           Inverted
                                                                                           Index
                                                  Broker                           Clist
                             Query                                                    3
                               1                               2
                                                                   4           Crank
                               8
                           Query Result                        2       Indexer-2
      User                                             Result 4                    Clist
                              5
                                                       Cache
                                  7           5    7
                                                                               Crank
          Doc server-1                Doc server-2                        …
                                                                       Indexer-n
                                                                          …
     C   snip
                                  Csnip                    …
                6   Cdoc                      Cdoc
                                          6
Documents                                                      Cost(q) = Clist + Crank + Cdoc + Csnip
Our contribution
• Cost-aware caching for Web search
  – Single-level (result) caches
  – Multi-level caches


• Costs are computed on-the-fly or
  simulated
• Gain of caching an item
  – Time cost to produce or fetch (Citem)
  – Storage space (Sitem)
Motivating scenario: Single-level
• Result cache R
   – Capacity(R) = 1 page


• Result pages for queries A and B
   – Freq(A) = 10, Freq(B) = 20
   – Cache result “B” for higher hit rate


• What if:
   – Cost(A) = 100 ms, Cost(B) = 10 ms?
   – Cache “A” for higher processing efficiency

       Take costs into account while caching
                 (and evaluating)!
Motivating scenario: Multi-level
• Assume
  – Freq(A) = 10, Freq(B) = 20,
  – Cost(A) = 100ms, Cost(B) = 10 ms
  – an additonal list cache L
  – all terms in query A is cached in L
  – new Cost(A) = 10 ms (dropped from 100ms!)
  – now it is better to cache result B

  Take cost interdependencies into account
             in multi-level caches.
Cost update dependencies
Cost-aware result caching (RC)
• Key idea: Embed query processing cost into the result
  caching strategies
• Static caching
   – Knapsack problem
      • Query results have values and sizes
      • Greedy solution: order in Value/Size


   – MostFreq Strategy (baseline)
      • Value(q) = Freq(q)
      • Unit space per result
Cost-aware static RC
Static cost-aware caching strategies:
• FreqThenCost
   – Sort first by Freq(q) and then Cost(q)
• StabilityThenCost
   – Stabilityof the frequency in succeeding time intervals
• Freq&Cost
   – Value(q) = Cost(q) x Freq(q)K , K>1
   – Why Freq(q)K ?
       • Queries with very low frequencies may disappear in the future
Cost-aware dynamic RC
• Baselines: LRU, LFU
• LCU: Least costly cached item is evicted
• LFCU_K: Least Frequently and Costly Used
  – Cost(q) x Freq(q)K , K>1
• GDS: Greedy Dual Size [Cao&Irani, 1997]
  – H = Cost(q) + L, L is age and set to the H value
    of evicted item
• GDSF_K: Greedy Dual Size Frequency
  – Cost(q) x Freq(q)K + L [Arlitt et al., 2000]
Performance: Static RC




    Gains up to 3%!
Performance: Dynamic RC




    Gains up to 6%!
Today’s talk

• Cost-aware caching strategies

• Cache invalidation
Motivation
• Higher cache capacity improves hit rate
• But results become stale [Cambazoglu et al. WWW2010]
Solutions from the literature

• Decoupled: Time-to-live (TTL)
  – refresh stale results when backend is idle
    [Cambazoglu et al., WWW’10]

                        q1 R1 TTL(q1)

                        q2 R2 TTL(q2)
              qi
                             …

                        qk Rk TTL(qk)

                       Result Cache
Solutions from the literature

• Coupled: Cache invalidation policy (CIP)
  [Blanco et al., SIGIR’10]
   – Incremental index update
   – Content changes sent to CIP module to invalidate
     queries (offline)

                           CIP module
 all queries in cache(s)                all changes in the backend index
Our contribution

• Devise a new invalidation mechanism
  – better than TTL and close to CIP in detecting
    stale results
  – better than CIP and close to TTL in efficiency
    and practicality
Timestamp-based Invalidation

• The value of the TS on an item shows the
  last time the item was updated
• TIF has two components:
  – Offline (indexing time) : Decide on term and
    document timestamps
  – Online (query time): Decide on the staleness of the
    query result
TIF Architecture
     qi
                     SEARCH                  Document timestamps
                      NODE
                                       TS(d1)    TS(d2)    …       TS(dD)

q1 R1 TS(q1)            Invalidation
               0/1
                           logic
                                                               document TS
q2 R2 TS(q2)                            TS(t1)
                                         t1                      updates
                     qi, Ri, TS(qi)
                                        TS(t2)
                                         t2
     …
                        miss/stale                                             Doc.
                                         …
                                         …           …
                                                                 index        parser
qk Rk TS(qk)
                           results     TS(tT)
                                        tT                      updates

Result cache

                                                 term TS updates


                                                                   documents assigned
                                                                       to the node
TS Update Policies: Documents

• For a newly added document d
  – TS(d) = now()
• For a deleted document d
  – TS(d) = infinite
• For an updated document d
  – if diff(dnew, dold) > L
      TS(d) = now()
  – diff(di, dj): |length(di) – length(dj)|
TS Update Policies: Terms

• Frequency based update
  t                            TS(t) = T0, PLLTS= 5


  t



         Number of added postings > F x PLLTS         TS(t) = now()
                                                      PLLTS= 6
TS Update Policies: Terms
• Score based update

     t   p1   p2   p3   p4   p5

                   sort w.r.t. scoring function

         p4   p3   p2   p5   p1     TS(t) = T0, STS = Score(p3)


 t       p1   p2   p3   p4   p5    p6



                    Score of added posting > STS        TS(t) = now()
                                                        STS = re-sort & compute
Result Invalidation Policy

• A search node decides a result stale if:
  – C1: ∃d ϵ R, s.t. TS(d) > TS(q)
    (d is deleted or revised after the generation of query
    result)
  or,
  – C2: ∀t ϵ q, s.t. TS(t) > TS(q)
    (all query terms appeared in new documents
    after the generation of query result)
• Also apply TTL to avoid stale accumulation
Simulation setup
• Data: English wikipedia dump
  – snapshot at Jan 1, 2006 ≈ 1 million pages
  – All add/deletes/updates for following 30 days
• Queries: 10,000 from AOL log
Simulation setup

• Evaluation metrics [Blanco 2010]
   – The query result is updated if two top-10 lists
     are not exactly the same

                           Redundant query executions
  False Positive Ratio =
                            Number of unique queries


                             Stale results returned
  Stale Traffic Ratio =
                           Number of query occurrences
Performance: all queries




Frequency-based term TS update   Score-based term TS update
Discussion

                     TIF                       CIP
Data           Send <q, R, TS(q)> to   Send all <q, R> to CIP
transfer       the search nodes        Send all docs to CIP


Invalidation                           Traverse the query index
operations     Compare TS values
                                       for every document
Conclusion & Future work

• Data on the Web is growing continuosly
  – Search efficiency is crucial!
  – We present strategies for improving the performance
    of Web search engines
     • Cost aware strategies improve efficiency
     • Practical invalidation methods with good accuracy
• Upcoming work on efficiency:
  – New strategies for cache freshness & index
    pruning!
Thank you!


Questions???
References: Our work
•   [SIGIR 2011] Sadiye Alici, Ismail Sengör Altingövde, Rifat Ozcan, Berkant Barla
    Cambazoglu, Özgür Ulusoy: Timestamp-based result cache invalidation for web
    search engines. SIGIR 2011: 973-982
•   [ECIR 2012] Sadiye Alici, Ismail Sengör Altingövde, Rifat Ozcan, Berkant Barla
    Cambazoglu, Özgür Ulusoy: Adaptive Time-to-Live Strategies for Query Result
    Caching in Web Search Engines. ECIR 2012: 401-412
•   [TOIS 2102] Ismail Sengör Altingövde, Rifat Ozcan, Özgür Ulusoy: Static index
    pruning in web search engines: Combining term and document popularities with
    query views. ACM Trans. Inf. Syst. 30(1): 2 (2012)
•   [TWEB 2012] Rifat Ozcan, Ismail Sengör Altingövde, Özgür Ulusoy: Cost-Aware
    Strategies for Query Result Caching in Web Search Engines. TWEB 5(2): 9 (2011)
•   [SPIRE 2012] B. Barla Cambazoglu , Ismail Sengör Altingövde: Impact of
    Regionalization on Performance of Web Search Engine Result Caches. (to appear)
•   [IPM 2012] Ozcan, I. S. Altingovde, B. B. Cambazoglu, F. P. Junqueira, Ö. Ulusoy:
    Five-level Static Cache Architecture for Web Search Engines, IPM, to appear.
•   [ECIR 2011] Ismail Sengör Altingövde, Rifat Ozcan, Berkant Barla Cambazoglu,
    Özgür Ulusoy: Second Chance: A Hybrid Approach for Dynamic Result Caching in
    Search Engines. ECIR 2011: 510-516arch engine caching. WWW 2010: 181-190
Other References
• [Blanco et al., SIGIR 2010] Roi Blanco, Edward Bortnikov, Flavio
  Junqueira, Ronny Lempel, Luca Telloli, Hugo Zaragoza: Caching
  search engine results over incremental indices. SIGIR 2010: 82-89
• [Cambazoglu et al., WWW 2010] Berkant Barla Cambazoglu,
  Flavio Paiva Junqueira, Vassilis Plachouras, Scott A. Banachowski,
  Baoqiu Cui, Swee Lim, Bill Bridge: A refreshing perspective of
  search engine caching. WWW 2010: 181-190

Contenu connexe

En vedette

Тарас Иващенко — «Безопасность веб-приложений»
Тарас Иващенко — «Безопасность веб-приложений»Тарас Иващенко — «Безопасность веб-приложений»
Тарас Иващенко — «Безопасность веб-приложений»Yandex
 
Михаил Трошев "Школа разработки интерфейсов"
Михаил Трошев "Школа разработки интерфейсов"Михаил Трошев "Школа разработки интерфейсов"
Михаил Трошев "Школа разработки интерфейсов"Yandex
 
Алексей Ефимов "Основные грабли при разработке видеохостинга"
Алексей Ефимов "Основные грабли при разработке видеохостинга"Алексей Ефимов "Основные грабли при разработке видеохостинга"
Алексей Ефимов "Основные грабли при разработке видеохостинга"Yandex
 
Максим Хохлов "Как мы делаем понорамы улиц"
Максим Хохлов "Как мы делаем понорамы улиц"Максим Хохлов "Как мы делаем понорамы улиц"
Максим Хохлов "Как мы делаем понорамы улиц"Yandex
 
Евгений Селезнев "Мобильные тренды (на основе приложений iOS)"
Евгений Селезнев "Мобильные тренды (на основе приложений iOS)"Евгений Селезнев "Мобильные тренды (на основе приложений iOS)"
Евгений Селезнев "Мобильные тренды (на основе приложений iOS)"Yandex
 
Николай Бьернер «Program Analysis and Testing using Efficient Satisfiability ...
Николай Бьернер «Program Analysis and Testing using Efficient Satisfiability ...Николай Бьернер «Program Analysis and Testing using Efficient Satisfiability ...
Николай Бьернер «Program Analysis and Testing using Efficient Satisfiability ...Yandex
 
Леонид Шныр "XXI век - эпоха великих географических открытий! Для чего нужно ...
Леонид Шныр "XXI век - эпоха великих географических открытий! Для чего нужно ...Леонид Шныр "XXI век - эпоха великих географических открытий! Для чего нужно ...
Леонид Шныр "XXI век - эпоха великих географических открытий! Для чего нужно ...Yandex
 
Руслан Гроховецкий "Как Python стал делать погоду в Яндексе"
Руслан Гроховецкий "Как Python стал делать погоду в Яндексе"Руслан Гроховецкий "Как Python стал делать погоду в Яндексе"
Руслан Гроховецкий "Как Python стал делать погоду в Яндексе"Yandex
 

En vedette (8)

Тарас Иващенко — «Безопасность веб-приложений»
Тарас Иващенко — «Безопасность веб-приложений»Тарас Иващенко — «Безопасность веб-приложений»
Тарас Иващенко — «Безопасность веб-приложений»
 
Михаил Трошев "Школа разработки интерфейсов"
Михаил Трошев "Школа разработки интерфейсов"Михаил Трошев "Школа разработки интерфейсов"
Михаил Трошев "Школа разработки интерфейсов"
 
Алексей Ефимов "Основные грабли при разработке видеохостинга"
Алексей Ефимов "Основные грабли при разработке видеохостинга"Алексей Ефимов "Основные грабли при разработке видеохостинга"
Алексей Ефимов "Основные грабли при разработке видеохостинга"
 
Максим Хохлов "Как мы делаем понорамы улиц"
Максим Хохлов "Как мы делаем понорамы улиц"Максим Хохлов "Как мы делаем понорамы улиц"
Максим Хохлов "Как мы делаем понорамы улиц"
 
Евгений Селезнев "Мобильные тренды (на основе приложений iOS)"
Евгений Селезнев "Мобильные тренды (на основе приложений iOS)"Евгений Селезнев "Мобильные тренды (на основе приложений iOS)"
Евгений Селезнев "Мобильные тренды (на основе приложений iOS)"
 
Николай Бьернер «Program Analysis and Testing using Efficient Satisfiability ...
Николай Бьернер «Program Analysis and Testing using Efficient Satisfiability ...Николай Бьернер «Program Analysis and Testing using Efficient Satisfiability ...
Николай Бьернер «Program Analysis and Testing using Efficient Satisfiability ...
 
Леонид Шныр "XXI век - эпоха великих географических открытий! Для чего нужно ...
Леонид Шныр "XXI век - эпоха великих географических открытий! Для чего нужно ...Леонид Шныр "XXI век - эпоха великих географических открытий! Для чего нужно ...
Леонид Шныр "XXI век - эпоха великих географических открытий! Для чего нужно ...
 
Руслан Гроховецкий "Как Python стал делать погоду в Яндексе"
Руслан Гроховецкий "Как Python стал делать погоду в Яндексе"Руслан Гроховецкий "Как Python стал делать погоду в Яндексе"
Руслан Гроховецкий "Как Python стал делать погоду в Яндексе"
 

Similaire à Исмаил Сенгор Алтинговде «Проблемы эффективности поисковых систем»

Couchbase Server 2.0 - Indexing and Querying - Deep dive
Couchbase Server 2.0 - Indexing and Querying - Deep diveCouchbase Server 2.0 - Indexing and Querying - Deep dive
Couchbase Server 2.0 - Indexing and Querying - Deep diveDipti Borkar
 
(ATS4-PLAT05) Accelrys Catalog: A Search Index for AEP
(ATS4-PLAT05) Accelrys Catalog: A Search Index for AEP(ATS4-PLAT05) Accelrys Catalog: A Search Index for AEP
(ATS4-PLAT05) Accelrys Catalog: A Search Index for AEPBIOVIA
 
Slash n: Tech Talk Track 2 – Website Architecture-Mistakes & Learnings - Sidd...
Slash n: Tech Talk Track 2 – Website Architecture-Mistakes & Learnings - Sidd...Slash n: Tech Talk Track 2 – Website Architecture-Mistakes & Learnings - Sidd...
Slash n: Tech Talk Track 2 – Website Architecture-Mistakes & Learnings - Sidd...slashn
 
What’s Evolving in the Elastic Stack
What’s Evolving in the Elastic StackWhat’s Evolving in the Elastic Stack
What’s Evolving in the Elastic StackElasticsearch
 
Solr Lucene Revolution 2014 - Solr Compute Cloud - Nitin
Solr Lucene Revolution 2014 - Solr Compute Cloud - NitinSolr Lucene Revolution 2014 - Solr Compute Cloud - Nitin
Solr Lucene Revolution 2014 - Solr Compute Cloud - Nitinbloomreacheng
 
Solr Compute Cloud – An Elastic Solr Infrastructure: Presented by Nitin Sharm...
Solr Compute Cloud – An Elastic Solr Infrastructure: Presented by Nitin Sharm...Solr Compute Cloud – An Elastic Solr Infrastructure: Presented by Nitin Sharm...
Solr Compute Cloud – An Elastic Solr Infrastructure: Presented by Nitin Sharm...Lucidworks
 
BigDataSpain 2016: Introduction to Apache Apex
BigDataSpain 2016: Introduction to Apache ApexBigDataSpain 2016: Introduction to Apache Apex
BigDataSpain 2016: Introduction to Apache ApexThomas Weise
 
James Corcoran, Head of Engineering EMEA, First Derivatives, "Simplifying Bi...
James Corcoran, Head of Engineering EMEA, First Derivatives,  "Simplifying Bi...James Corcoran, Head of Engineering EMEA, First Derivatives,  "Simplifying Bi...
James Corcoran, Head of Engineering EMEA, First Derivatives, "Simplifying Bi...Dataconomy Media
 
ELK stack introduction
ELK stack introduction ELK stack introduction
ELK stack introduction abenyeung1
 
Solr Compute Cloud - An Elastic SolrCloud Infrastructure
Solr Compute Cloud - An Elastic SolrCloud Infrastructure Solr Compute Cloud - An Elastic SolrCloud Infrastructure
Solr Compute Cloud - An Elastic SolrCloud Infrastructure Nitin S
 
Solr Lucene Conference 2014 - Nitin Presentation
Solr Lucene Conference 2014 - Nitin PresentationSolr Lucene Conference 2014 - Nitin Presentation
Solr Lucene Conference 2014 - Nitin PresentationNitin Sharma
 
HPTS talk on micro-sharding with Katta
HPTS talk on micro-sharding with KattaHPTS talk on micro-sharding with Katta
HPTS talk on micro-sharding with KattaTed Dunning
 
Ingestion and Dimensions Compute and Enrich using Apache Apex
Ingestion and Dimensions Compute and Enrich using Apache ApexIngestion and Dimensions Compute and Enrich using Apache Apex
Ingestion and Dimensions Compute and Enrich using Apache ApexApache Apex
 
Scaling ingest pipelines with high performance computing principles - Rajiv K...
Scaling ingest pipelines with high performance computing principles - Rajiv K...Scaling ingest pipelines with high performance computing principles - Rajiv K...
Scaling ingest pipelines with high performance computing principles - Rajiv K...SignalFx
 
Apache ManifoldCF @ Linux Day 2012
Apache ManifoldCF @ Linux Day 2012Apache ManifoldCF @ Linux Day 2012
Apache ManifoldCF @ Linux Day 2012Piergiorgio Lucidi
 
Introduction to SolrCloud
Introduction to SolrCloudIntroduction to SolrCloud
Introduction to SolrCloudVarun Thacker
 
AWS re:Invent 2016: How to Scale and Operate Elasticsearch on AWS (DEV307)
AWS re:Invent 2016: How to Scale and Operate Elasticsearch on AWS (DEV307)AWS re:Invent 2016: How to Scale and Operate Elasticsearch on AWS (DEV307)
AWS re:Invent 2016: How to Scale and Operate Elasticsearch on AWS (DEV307)Amazon Web Services
 

Similaire à Исмаил Сенгор Алтинговде «Проблемы эффективности поисковых систем» (20)

Couchbase Server 2.0 - Indexing and Querying - Deep dive
Couchbase Server 2.0 - Indexing and Querying - Deep diveCouchbase Server 2.0 - Indexing and Querying - Deep dive
Couchbase Server 2.0 - Indexing and Querying - Deep dive
 
(ATS4-PLAT05) Accelrys Catalog: A Search Index for AEP
(ATS4-PLAT05) Accelrys Catalog: A Search Index for AEP(ATS4-PLAT05) Accelrys Catalog: A Search Index for AEP
(ATS4-PLAT05) Accelrys Catalog: A Search Index for AEP
 
Slash n: Tech Talk Track 2 – Website Architecture-Mistakes & Learnings - Sidd...
Slash n: Tech Talk Track 2 – Website Architecture-Mistakes & Learnings - Sidd...Slash n: Tech Talk Track 2 – Website Architecture-Mistakes & Learnings - Sidd...
Slash n: Tech Talk Track 2 – Website Architecture-Mistakes & Learnings - Sidd...
 
What’s Evolving in the Elastic Stack
What’s Evolving in the Elastic StackWhat’s Evolving in the Elastic Stack
What’s Evolving in the Elastic Stack
 
Solr Lucene Revolution 2014 - Solr Compute Cloud - Nitin
Solr Lucene Revolution 2014 - Solr Compute Cloud - NitinSolr Lucene Revolution 2014 - Solr Compute Cloud - Nitin
Solr Lucene Revolution 2014 - Solr Compute Cloud - Nitin
 
Solr Compute Cloud – An Elastic Solr Infrastructure: Presented by Nitin Sharm...
Solr Compute Cloud – An Elastic Solr Infrastructure: Presented by Nitin Sharm...Solr Compute Cloud – An Elastic Solr Infrastructure: Presented by Nitin Sharm...
Solr Compute Cloud – An Elastic Solr Infrastructure: Presented by Nitin Sharm...
 
BigDataSpain 2016: Introduction to Apache Apex
BigDataSpain 2016: Introduction to Apache ApexBigDataSpain 2016: Introduction to Apache Apex
BigDataSpain 2016: Introduction to Apache Apex
 
James Corcoran, Head of Engineering EMEA, First Derivatives, "Simplifying Bi...
James Corcoran, Head of Engineering EMEA, First Derivatives,  "Simplifying Bi...James Corcoran, Head of Engineering EMEA, First Derivatives,  "Simplifying Bi...
James Corcoran, Head of Engineering EMEA, First Derivatives, "Simplifying Bi...
 
ELK stack introduction
ELK stack introduction ELK stack introduction
ELK stack introduction
 
Solr Compute Cloud - An Elastic SolrCloud Infrastructure
Solr Compute Cloud - An Elastic SolrCloud Infrastructure Solr Compute Cloud - An Elastic SolrCloud Infrastructure
Solr Compute Cloud - An Elastic SolrCloud Infrastructure
 
Solr Lucene Conference 2014 - Nitin Presentation
Solr Lucene Conference 2014 - Nitin PresentationSolr Lucene Conference 2014 - Nitin Presentation
Solr Lucene Conference 2014 - Nitin Presentation
 
HPTS talk on micro-sharding with Katta
HPTS talk on micro-sharding with KattaHPTS talk on micro-sharding with Katta
HPTS talk on micro-sharding with Katta
 
Ingestion and Dimensions Compute and Enrich using Apache Apex
Ingestion and Dimensions Compute and Enrich using Apache ApexIngestion and Dimensions Compute and Enrich using Apache Apex
Ingestion and Dimensions Compute and Enrich using Apache Apex
 
Scaling ingest pipelines with high performance computing principles - Rajiv K...
Scaling ingest pipelines with high performance computing principles - Rajiv K...Scaling ingest pipelines with high performance computing principles - Rajiv K...
Scaling ingest pipelines with high performance computing principles - Rajiv K...
 
Introduction to Apache Drill
Introduction to Apache DrillIntroduction to Apache Drill
Introduction to Apache Drill
 
Internals of Presto Service
Internals of Presto ServiceInternals of Presto Service
Internals of Presto Service
 
Apache ManifoldCF @ Linux Day 2012
Apache ManifoldCF @ Linux Day 2012Apache ManifoldCF @ Linux Day 2012
Apache ManifoldCF @ Linux Day 2012
 
Introduction to SolrCloud
Introduction to SolrCloudIntroduction to SolrCloud
Introduction to SolrCloud
 
Find me a roof!
Find me a roof!Find me a roof!
Find me a roof!
 
AWS re:Invent 2016: How to Scale and Operate Elasticsearch on AWS (DEV307)
AWS re:Invent 2016: How to Scale and Operate Elasticsearch on AWS (DEV307)AWS re:Invent 2016: How to Scale and Operate Elasticsearch on AWS (DEV307)
AWS re:Invent 2016: How to Scale and Operate Elasticsearch on AWS (DEV307)
 

Plus de Yandex

Предсказание оттока игроков из World of Tanks
Предсказание оттока игроков из World of TanksПредсказание оттока игроков из World of Tanks
Предсказание оттока игроков из World of TanksYandex
 
Как принять/организовать работу по поисковой оптимизации сайта, Сергей Царик,...
Как принять/организовать работу по поисковой оптимизации сайта, Сергей Царик,...Как принять/организовать работу по поисковой оптимизации сайта, Сергей Царик,...
Как принять/организовать работу по поисковой оптимизации сайта, Сергей Царик,...Yandex
 
Структурированные данные, Юлия Тихоход, лекция в Школе вебмастеров Яндекса
Структурированные данные, Юлия Тихоход, лекция в Школе вебмастеров ЯндексаСтруктурированные данные, Юлия Тихоход, лекция в Школе вебмастеров Яндекса
Структурированные данные, Юлия Тихоход, лекция в Школе вебмастеров ЯндексаYandex
 
Представление сайта в поиске, Сергей Лысенко, лекция в Школе вебмастеров Яндекса
Представление сайта в поиске, Сергей Лысенко, лекция в Школе вебмастеров ЯндексаПредставление сайта в поиске, Сергей Лысенко, лекция в Школе вебмастеров Яндекса
Представление сайта в поиске, Сергей Лысенко, лекция в Школе вебмастеров ЯндексаYandex
 
Плохие методы продвижения сайта, Екатерины Гладких, лекция в Школе вебмастеро...
Плохие методы продвижения сайта, Екатерины Гладких, лекция в Школе вебмастеро...Плохие методы продвижения сайта, Екатерины Гладких, лекция в Школе вебмастеро...
Плохие методы продвижения сайта, Екатерины Гладких, лекция в Школе вебмастеро...Yandex
 
Основные принципы ранжирования, Сергей Царик и Антон Роменский, лекция в Школ...
Основные принципы ранжирования, Сергей Царик и Антон Роменский, лекция в Школ...Основные принципы ранжирования, Сергей Царик и Антон Роменский, лекция в Школ...
Основные принципы ранжирования, Сергей Царик и Антон Роменский, лекция в Школ...Yandex
 
Основные принципы индексирования сайта, Александр Смирнов, лекция в Школе веб...
Основные принципы индексирования сайта, Александр Смирнов, лекция в Школе веб...Основные принципы индексирования сайта, Александр Смирнов, лекция в Школе веб...
Основные принципы индексирования сайта, Александр Смирнов, лекция в Школе веб...Yandex
 
Мобильное приложение: как и зачем, Александр Лукин, лекция в Школе вебмастеро...
Мобильное приложение: как и зачем, Александр Лукин, лекция в Школе вебмастеро...Мобильное приложение: как и зачем, Александр Лукин, лекция в Школе вебмастеро...
Мобильное приложение: как и зачем, Александр Лукин, лекция в Школе вебмастеро...Yandex
 
Сайты на мобильных устройствах, Олег Ножичкин, лекция в Школе вебмастеров Янд...
Сайты на мобильных устройствах, Олег Ножичкин, лекция в Школе вебмастеров Янд...Сайты на мобильных устройствах, Олег Ножичкин, лекция в Школе вебмастеров Янд...
Сайты на мобильных устройствах, Олег Ножичкин, лекция в Школе вебмастеров Янд...Yandex
 
Качественная аналитика сайта, Юрий Батиевский, лекция в Школе вебмастеров Янд...
Качественная аналитика сайта, Юрий Батиевский, лекция в Школе вебмастеров Янд...Качественная аналитика сайта, Юрий Батиевский, лекция в Школе вебмастеров Янд...
Качественная аналитика сайта, Юрий Батиевский, лекция в Школе вебмастеров Янд...Yandex
 
Что можно и что нужно измерять на сайте, Петр Аброськин, лекция в Школе вебма...
Что можно и что нужно измерять на сайте, Петр Аброськин, лекция в Школе вебма...Что можно и что нужно измерять на сайте, Петр Аброськин, лекция в Школе вебма...
Что можно и что нужно измерять на сайте, Петр Аброськин, лекция в Школе вебма...Yandex
 
Как правильно поставить ТЗ на создание сайта, Алексей Бородкин, лекция в Школ...
Как правильно поставить ТЗ на создание сайта, Алексей Бородкин, лекция в Школ...Как правильно поставить ТЗ на создание сайта, Алексей Бородкин, лекция в Школ...
Как правильно поставить ТЗ на создание сайта, Алексей Бородкин, лекция в Школ...Yandex
 
Как защитить свой сайт, Пётр Волков, лекция в Школе вебмастеров
Как защитить свой сайт, Пётр Волков, лекция в Школе вебмастеровКак защитить свой сайт, Пётр Волков, лекция в Школе вебмастеров
Как защитить свой сайт, Пётр Волков, лекция в Школе вебмастеровYandex
 
Как правильно составить структуру сайта, Дмитрий Сатин, лекция в Школе вебмас...
Как правильно составить структуру сайта, Дмитрий Сатин, лекция в Школе вебмас...Как правильно составить структуру сайта, Дмитрий Сатин, лекция в Школе вебмас...
Как правильно составить структуру сайта, Дмитрий Сатин, лекция в Школе вебмас...Yandex
 
Технические особенности создания сайта, Дмитрий Васильева, лекция в Школе веб...
Технические особенности создания сайта, Дмитрий Васильева, лекция в Школе веб...Технические особенности создания сайта, Дмитрий Васильева, лекция в Школе веб...
Технические особенности создания сайта, Дмитрий Васильева, лекция в Школе веб...Yandex
 
Конструкторы для отдельных элементов сайта, Елена Першина, лекция в Школе веб...
Конструкторы для отдельных элементов сайта, Елена Першина, лекция в Школе веб...Конструкторы для отдельных элементов сайта, Елена Першина, лекция в Школе веб...
Конструкторы для отдельных элементов сайта, Елена Першина, лекция в Школе веб...Yandex
 
Контент для интернет-магазинов, Катерина Ерошина, лекция в Школе вебмастеров ...
Контент для интернет-магазинов, Катерина Ерошина, лекция в Школе вебмастеров ...Контент для интернет-магазинов, Катерина Ерошина, лекция в Школе вебмастеров ...
Контент для интернет-магазинов, Катерина Ерошина, лекция в Школе вебмастеров ...Yandex
 
Как написать хороший текст для сайта, Катерина Ерошина, лекция в Школе вебмас...
Как написать хороший текст для сайта, Катерина Ерошина, лекция в Школе вебмас...Как написать хороший текст для сайта, Катерина Ерошина, лекция в Школе вебмас...
Как написать хороший текст для сайта, Катерина Ерошина, лекция в Школе вебмас...Yandex
 
Usability и дизайн - как не помешать пользователю, Алексей Иванов, лекция в Ш...
Usability и дизайн - как не помешать пользователю, Алексей Иванов, лекция в Ш...Usability и дизайн - как не помешать пользователю, Алексей Иванов, лекция в Ш...
Usability и дизайн - как не помешать пользователю, Алексей Иванов, лекция в Ш...Yandex
 
Cайт. Зачем он и каким должен быть, Алексей Иванов, лекция в Школе вебмастеро...
Cайт. Зачем он и каким должен быть, Алексей Иванов, лекция в Школе вебмастеро...Cайт. Зачем он и каким должен быть, Алексей Иванов, лекция в Школе вебмастеро...
Cайт. Зачем он и каким должен быть, Алексей Иванов, лекция в Школе вебмастеро...Yandex
 

Plus de Yandex (20)

Предсказание оттока игроков из World of Tanks
Предсказание оттока игроков из World of TanksПредсказание оттока игроков из World of Tanks
Предсказание оттока игроков из World of Tanks
 
Как принять/организовать работу по поисковой оптимизации сайта, Сергей Царик,...
Как принять/организовать работу по поисковой оптимизации сайта, Сергей Царик,...Как принять/организовать работу по поисковой оптимизации сайта, Сергей Царик,...
Как принять/организовать работу по поисковой оптимизации сайта, Сергей Царик,...
 
Структурированные данные, Юлия Тихоход, лекция в Школе вебмастеров Яндекса
Структурированные данные, Юлия Тихоход, лекция в Школе вебмастеров ЯндексаСтруктурированные данные, Юлия Тихоход, лекция в Школе вебмастеров Яндекса
Структурированные данные, Юлия Тихоход, лекция в Школе вебмастеров Яндекса
 
Представление сайта в поиске, Сергей Лысенко, лекция в Школе вебмастеров Яндекса
Представление сайта в поиске, Сергей Лысенко, лекция в Школе вебмастеров ЯндексаПредставление сайта в поиске, Сергей Лысенко, лекция в Школе вебмастеров Яндекса
Представление сайта в поиске, Сергей Лысенко, лекция в Школе вебмастеров Яндекса
 
Плохие методы продвижения сайта, Екатерины Гладких, лекция в Школе вебмастеро...
Плохие методы продвижения сайта, Екатерины Гладких, лекция в Школе вебмастеро...Плохие методы продвижения сайта, Екатерины Гладких, лекция в Школе вебмастеро...
Плохие методы продвижения сайта, Екатерины Гладких, лекция в Школе вебмастеро...
 
Основные принципы ранжирования, Сергей Царик и Антон Роменский, лекция в Школ...
Основные принципы ранжирования, Сергей Царик и Антон Роменский, лекция в Школ...Основные принципы ранжирования, Сергей Царик и Антон Роменский, лекция в Школ...
Основные принципы ранжирования, Сергей Царик и Антон Роменский, лекция в Школ...
 
Основные принципы индексирования сайта, Александр Смирнов, лекция в Школе веб...
Основные принципы индексирования сайта, Александр Смирнов, лекция в Школе веб...Основные принципы индексирования сайта, Александр Смирнов, лекция в Школе веб...
Основные принципы индексирования сайта, Александр Смирнов, лекция в Школе веб...
 
Мобильное приложение: как и зачем, Александр Лукин, лекция в Школе вебмастеро...
Мобильное приложение: как и зачем, Александр Лукин, лекция в Школе вебмастеро...Мобильное приложение: как и зачем, Александр Лукин, лекция в Школе вебмастеро...
Мобильное приложение: как и зачем, Александр Лукин, лекция в Школе вебмастеро...
 
Сайты на мобильных устройствах, Олег Ножичкин, лекция в Школе вебмастеров Янд...
Сайты на мобильных устройствах, Олег Ножичкин, лекция в Школе вебмастеров Янд...Сайты на мобильных устройствах, Олег Ножичкин, лекция в Школе вебмастеров Янд...
Сайты на мобильных устройствах, Олег Ножичкин, лекция в Школе вебмастеров Янд...
 
Качественная аналитика сайта, Юрий Батиевский, лекция в Школе вебмастеров Янд...
Качественная аналитика сайта, Юрий Батиевский, лекция в Школе вебмастеров Янд...Качественная аналитика сайта, Юрий Батиевский, лекция в Школе вебмастеров Янд...
Качественная аналитика сайта, Юрий Батиевский, лекция в Школе вебмастеров Янд...
 
Что можно и что нужно измерять на сайте, Петр Аброськин, лекция в Школе вебма...
Что можно и что нужно измерять на сайте, Петр Аброськин, лекция в Школе вебма...Что можно и что нужно измерять на сайте, Петр Аброськин, лекция в Школе вебма...
Что можно и что нужно измерять на сайте, Петр Аброськин, лекция в Школе вебма...
 
Как правильно поставить ТЗ на создание сайта, Алексей Бородкин, лекция в Школ...
Как правильно поставить ТЗ на создание сайта, Алексей Бородкин, лекция в Школ...Как правильно поставить ТЗ на создание сайта, Алексей Бородкин, лекция в Школ...
Как правильно поставить ТЗ на создание сайта, Алексей Бородкин, лекция в Школ...
 
Как защитить свой сайт, Пётр Волков, лекция в Школе вебмастеров
Как защитить свой сайт, Пётр Волков, лекция в Школе вебмастеровКак защитить свой сайт, Пётр Волков, лекция в Школе вебмастеров
Как защитить свой сайт, Пётр Волков, лекция в Школе вебмастеров
 
Как правильно составить структуру сайта, Дмитрий Сатин, лекция в Школе вебмас...
Как правильно составить структуру сайта, Дмитрий Сатин, лекция в Школе вебмас...Как правильно составить структуру сайта, Дмитрий Сатин, лекция в Школе вебмас...
Как правильно составить структуру сайта, Дмитрий Сатин, лекция в Школе вебмас...
 
Технические особенности создания сайта, Дмитрий Васильева, лекция в Школе веб...
Технические особенности создания сайта, Дмитрий Васильева, лекция в Школе веб...Технические особенности создания сайта, Дмитрий Васильева, лекция в Школе веб...
Технические особенности создания сайта, Дмитрий Васильева, лекция в Школе веб...
 
Конструкторы для отдельных элементов сайта, Елена Першина, лекция в Школе веб...
Конструкторы для отдельных элементов сайта, Елена Першина, лекция в Школе веб...Конструкторы для отдельных элементов сайта, Елена Першина, лекция в Школе веб...
Конструкторы для отдельных элементов сайта, Елена Першина, лекция в Школе веб...
 
Контент для интернет-магазинов, Катерина Ерошина, лекция в Школе вебмастеров ...
Контент для интернет-магазинов, Катерина Ерошина, лекция в Школе вебмастеров ...Контент для интернет-магазинов, Катерина Ерошина, лекция в Школе вебмастеров ...
Контент для интернет-магазинов, Катерина Ерошина, лекция в Школе вебмастеров ...
 
Как написать хороший текст для сайта, Катерина Ерошина, лекция в Школе вебмас...
Как написать хороший текст для сайта, Катерина Ерошина, лекция в Школе вебмас...Как написать хороший текст для сайта, Катерина Ерошина, лекция в Школе вебмас...
Как написать хороший текст для сайта, Катерина Ерошина, лекция в Школе вебмас...
 
Usability и дизайн - как не помешать пользователю, Алексей Иванов, лекция в Ш...
Usability и дизайн - как не помешать пользователю, Алексей Иванов, лекция в Ш...Usability и дизайн - как не помешать пользователю, Алексей Иванов, лекция в Ш...
Usability и дизайн - как не помешать пользователю, Алексей Иванов, лекция в Ш...
 
Cайт. Зачем он и каким должен быть, Алексей Иванов, лекция в Школе вебмастеро...
Cайт. Зачем он и каким должен быть, Алексей Иванов, лекция в Школе вебмастеро...Cайт. Зачем он и каким должен быть, Алексей Иванов, лекция в Школе вебмастеро...
Cайт. Зачем он и каким должен быть, Алексей Иванов, лекция в Школе вебмастеро...
 

Dernier

From Event to Action: Accelerate Your Decision Making with Real-Time Automation
From Event to Action: Accelerate Your Decision Making with Real-Time AutomationFrom Event to Action: Accelerate Your Decision Making with Real-Time Automation
From Event to Action: Accelerate Your Decision Making with Real-Time AutomationSafe Software
 
Automating Google Workspace (GWS) & more with Apps Script
Automating Google Workspace (GWS) & more with Apps ScriptAutomating Google Workspace (GWS) & more with Apps Script
Automating Google Workspace (GWS) & more with Apps Scriptwesley chun
 
The Codex of Business Writing Software for Real-World Solutions 2.pptx
The Codex of Business Writing Software for Real-World Solutions 2.pptxThe Codex of Business Writing Software for Real-World Solutions 2.pptx
The Codex of Business Writing Software for Real-World Solutions 2.pptxMalak Abu Hammad
 
IAC 2024 - IA Fast Track to Search Focused AI Solutions
IAC 2024 - IA Fast Track to Search Focused AI SolutionsIAC 2024 - IA Fast Track to Search Focused AI Solutions
IAC 2024 - IA Fast Track to Search Focused AI SolutionsEnterprise Knowledge
 
GenCyber Cyber Security Day Presentation
GenCyber Cyber Security Day PresentationGenCyber Cyber Security Day Presentation
GenCyber Cyber Security Day PresentationMichael W. Hawkins
 
08448380779 Call Girls In Diplomatic Enclave Women Seeking Men
08448380779 Call Girls In Diplomatic Enclave Women Seeking Men08448380779 Call Girls In Diplomatic Enclave Women Seeking Men
08448380779 Call Girls In Diplomatic Enclave Women Seeking MenDelhi Call girls
 
08448380779 Call Girls In Civil Lines Women Seeking Men
08448380779 Call Girls In Civil Lines Women Seeking Men08448380779 Call Girls In Civil Lines Women Seeking Men
08448380779 Call Girls In Civil Lines Women Seeking MenDelhi Call girls
 
Boost Fertility New Invention Ups Success Rates.pdf
Boost Fertility New Invention Ups Success Rates.pdfBoost Fertility New Invention Ups Success Rates.pdf
Boost Fertility New Invention Ups Success Rates.pdfsudhanshuwaghmare1
 
Axa Assurance Maroc - Insurer Innovation Award 2024
Axa Assurance Maroc - Insurer Innovation Award 2024Axa Assurance Maroc - Insurer Innovation Award 2024
Axa Assurance Maroc - Insurer Innovation Award 2024The Digital Insurer
 
Handwritten Text Recognition for manuscripts and early printed texts
Handwritten Text Recognition for manuscripts and early printed textsHandwritten Text Recognition for manuscripts and early printed texts
Handwritten Text Recognition for manuscripts and early printed textsMaria Levchenko
 
TrustArc Webinar - Stay Ahead of US State Data Privacy Law Developments
TrustArc Webinar - Stay Ahead of US State Data Privacy Law DevelopmentsTrustArc Webinar - Stay Ahead of US State Data Privacy Law Developments
TrustArc Webinar - Stay Ahead of US State Data Privacy Law DevelopmentsTrustArc
 
What Are The Drone Anti-jamming Systems Technology?
What Are The Drone Anti-jamming Systems Technology?What Are The Drone Anti-jamming Systems Technology?
What Are The Drone Anti-jamming Systems Technology?Antenna Manufacturer Coco
 
A Domino Admins Adventures (Engage 2024)
A Domino Admins Adventures (Engage 2024)A Domino Admins Adventures (Engage 2024)
A Domino Admins Adventures (Engage 2024)Gabriella Davis
 
08448380779 Call Girls In Friends Colony Women Seeking Men
08448380779 Call Girls In Friends Colony Women Seeking Men08448380779 Call Girls In Friends Colony Women Seeking Men
08448380779 Call Girls In Friends Colony Women Seeking MenDelhi Call girls
 
08448380779 Call Girls In Greater Kailash - I Women Seeking Men
08448380779 Call Girls In Greater Kailash - I Women Seeking Men08448380779 Call Girls In Greater Kailash - I Women Seeking Men
08448380779 Call Girls In Greater Kailash - I Women Seeking MenDelhi Call girls
 
Breaking the Kubernetes Kill Chain: Host Path Mount
Breaking the Kubernetes Kill Chain: Host Path MountBreaking the Kubernetes Kill Chain: Host Path Mount
Breaking the Kubernetes Kill Chain: Host Path MountPuma Security, LLC
 
Raspberry Pi 5: Challenges and Solutions in Bringing up an OpenGL/Vulkan Driv...
Raspberry Pi 5: Challenges and Solutions in Bringing up an OpenGL/Vulkan Driv...Raspberry Pi 5: Challenges and Solutions in Bringing up an OpenGL/Vulkan Driv...
Raspberry Pi 5: Challenges and Solutions in Bringing up an OpenGL/Vulkan Driv...Igalia
 
EIS-Webinar-Prompt-Knowledge-Eng-2024-04-08.pptx
EIS-Webinar-Prompt-Knowledge-Eng-2024-04-08.pptxEIS-Webinar-Prompt-Knowledge-Eng-2024-04-08.pptx
EIS-Webinar-Prompt-Knowledge-Eng-2024-04-08.pptxEarley Information Science
 
Slack Application Development 101 Slides
Slack Application Development 101 SlidesSlack Application Development 101 Slides
Slack Application Development 101 Slidespraypatel2
 
Driving Behavioral Change for Information Management through Data-Driven Gree...
Driving Behavioral Change for Information Management through Data-Driven Gree...Driving Behavioral Change for Information Management through Data-Driven Gree...
Driving Behavioral Change for Information Management through Data-Driven Gree...Enterprise Knowledge
 

Dernier (20)

From Event to Action: Accelerate Your Decision Making with Real-Time Automation
From Event to Action: Accelerate Your Decision Making with Real-Time AutomationFrom Event to Action: Accelerate Your Decision Making with Real-Time Automation
From Event to Action: Accelerate Your Decision Making with Real-Time Automation
 
Automating Google Workspace (GWS) & more with Apps Script
Automating Google Workspace (GWS) & more with Apps ScriptAutomating Google Workspace (GWS) & more with Apps Script
Automating Google Workspace (GWS) & more with Apps Script
 
The Codex of Business Writing Software for Real-World Solutions 2.pptx
The Codex of Business Writing Software for Real-World Solutions 2.pptxThe Codex of Business Writing Software for Real-World Solutions 2.pptx
The Codex of Business Writing Software for Real-World Solutions 2.pptx
 
IAC 2024 - IA Fast Track to Search Focused AI Solutions
IAC 2024 - IA Fast Track to Search Focused AI SolutionsIAC 2024 - IA Fast Track to Search Focused AI Solutions
IAC 2024 - IA Fast Track to Search Focused AI Solutions
 
GenCyber Cyber Security Day Presentation
GenCyber Cyber Security Day PresentationGenCyber Cyber Security Day Presentation
GenCyber Cyber Security Day Presentation
 
08448380779 Call Girls In Diplomatic Enclave Women Seeking Men
08448380779 Call Girls In Diplomatic Enclave Women Seeking Men08448380779 Call Girls In Diplomatic Enclave Women Seeking Men
08448380779 Call Girls In Diplomatic Enclave Women Seeking Men
 
08448380779 Call Girls In Civil Lines Women Seeking Men
08448380779 Call Girls In Civil Lines Women Seeking Men08448380779 Call Girls In Civil Lines Women Seeking Men
08448380779 Call Girls In Civil Lines Women Seeking Men
 
Boost Fertility New Invention Ups Success Rates.pdf
Boost Fertility New Invention Ups Success Rates.pdfBoost Fertility New Invention Ups Success Rates.pdf
Boost Fertility New Invention Ups Success Rates.pdf
 
Axa Assurance Maroc - Insurer Innovation Award 2024
Axa Assurance Maroc - Insurer Innovation Award 2024Axa Assurance Maroc - Insurer Innovation Award 2024
Axa Assurance Maroc - Insurer Innovation Award 2024
 
Handwritten Text Recognition for manuscripts and early printed texts
Handwritten Text Recognition for manuscripts and early printed textsHandwritten Text Recognition for manuscripts and early printed texts
Handwritten Text Recognition for manuscripts and early printed texts
 
TrustArc Webinar - Stay Ahead of US State Data Privacy Law Developments
TrustArc Webinar - Stay Ahead of US State Data Privacy Law DevelopmentsTrustArc Webinar - Stay Ahead of US State Data Privacy Law Developments
TrustArc Webinar - Stay Ahead of US State Data Privacy Law Developments
 
What Are The Drone Anti-jamming Systems Technology?
What Are The Drone Anti-jamming Systems Technology?What Are The Drone Anti-jamming Systems Technology?
What Are The Drone Anti-jamming Systems Technology?
 
A Domino Admins Adventures (Engage 2024)
A Domino Admins Adventures (Engage 2024)A Domino Admins Adventures (Engage 2024)
A Domino Admins Adventures (Engage 2024)
 
08448380779 Call Girls In Friends Colony Women Seeking Men
08448380779 Call Girls In Friends Colony Women Seeking Men08448380779 Call Girls In Friends Colony Women Seeking Men
08448380779 Call Girls In Friends Colony Women Seeking Men
 
08448380779 Call Girls In Greater Kailash - I Women Seeking Men
08448380779 Call Girls In Greater Kailash - I Women Seeking Men08448380779 Call Girls In Greater Kailash - I Women Seeking Men
08448380779 Call Girls In Greater Kailash - I Women Seeking Men
 
Breaking the Kubernetes Kill Chain: Host Path Mount
Breaking the Kubernetes Kill Chain: Host Path MountBreaking the Kubernetes Kill Chain: Host Path Mount
Breaking the Kubernetes Kill Chain: Host Path Mount
 
Raspberry Pi 5: Challenges and Solutions in Bringing up an OpenGL/Vulkan Driv...
Raspberry Pi 5: Challenges and Solutions in Bringing up an OpenGL/Vulkan Driv...Raspberry Pi 5: Challenges and Solutions in Bringing up an OpenGL/Vulkan Driv...
Raspberry Pi 5: Challenges and Solutions in Bringing up an OpenGL/Vulkan Driv...
 
EIS-Webinar-Prompt-Knowledge-Eng-2024-04-08.pptx
EIS-Webinar-Prompt-Knowledge-Eng-2024-04-08.pptxEIS-Webinar-Prompt-Knowledge-Eng-2024-04-08.pptx
EIS-Webinar-Prompt-Knowledge-Eng-2024-04-08.pptx
 
Slack Application Development 101 Slides
Slack Application Development 101 SlidesSlack Application Development 101 Slides
Slack Application Development 101 Slides
 
Driving Behavioral Change for Information Management through Data-Driven Gree...
Driving Behavioral Change for Information Management through Data-Driven Gree...Driving Behavioral Change for Information Management through Data-Driven Gree...
Driving Behavioral Change for Information Management through Data-Driven Gree...
 

Исмаил Сенгор Алтинговде «Проблемы эффективности поисковых систем»

  • 1. Efficiency Issues for Web Search Engines: How to Make a Search Engine Return Results in a Hundred Milliseconds or Less? Ismail Sengor Altingovde L3S Research Center
  • 2. Research interests • Efficiency and scalability issues for Web-IR • Social Web: Sentiment analysis, Social ranking • Domain-specific search engines & focused crawling • Web information extraction • XML querying & searching • Recommendation systems • OCR & IR • Web databases
  • 3. Research interests: Today • Efficiency and scalability issues for WebIR – Caching • Cost-aware result caching techniques [TWEB 2011, IPM2012] • Alternative result cache organizations [ECIR 2011] • Cache freshness [SIGIR 2011, ECIR 2012] • Regionalization & caching [SPIRE 2012] – Static Index Pruning • Query views in pruning algorithms [TOIS 2012] • Correctness guarantees for pruning [in progress]
  • 4. Search: what really happens is... Indexer-1 Inverted Index Broker Query 3 1 2 4 8 Query Result 2 Indexer-2 User 3 5 4 7 5 7 Doc server-1 Doc server-2 … Indexer-N … … 6 6 Documents
  • 5. Data items related to search • Data items – Posting lists (fetched) – Intersections of posting lists (computed) – Query results as doc-ids (computed) – Documents (fetched) – Query results as pages (computed)! all ‘ em e ach C
  • 6. Search: where caches come in? Indexer-1 Inverted Index Broker Query 3 1 2 4 8 List Query Result Cache 2 User 5 Result 4 Indexer-2 57 Cache 7 Doc server-1 Doc server-2 … Document … Cache 6 6 Documents
  • 7. Caching for Web search • Cache content is according to – Frequency – Recency • Cache types – Static (for longer term access patterns) – Dynamic (for shorter term access patterns) – Hybrid
  • 8. How about costs? • Miss-costs are not “uniform”! • Costs are inter-related! • Both the caching strategies and the evaluation should consider costs!
  • 9. Search: caches and costs Indexer-1 Inverted Index Broker Clist Query 3 1 2 4 Crank 8 Query Result 2 Indexer-2 User Result 4 Clist 5 Cache 7 5 7 Crank Doc server-1 Doc server-2 … Indexer-n … C snip Csnip … 6 Cdoc Cdoc 6 Documents Cost(q) = Clist + Crank + Cdoc + Csnip
  • 10. Our contribution • Cost-aware caching for Web search – Single-level (result) caches – Multi-level caches • Costs are computed on-the-fly or simulated • Gain of caching an item – Time cost to produce or fetch (Citem) – Storage space (Sitem)
  • 11. Motivating scenario: Single-level • Result cache R – Capacity(R) = 1 page • Result pages for queries A and B – Freq(A) = 10, Freq(B) = 20 – Cache result “B” for higher hit rate • What if: – Cost(A) = 100 ms, Cost(B) = 10 ms? – Cache “A” for higher processing efficiency Take costs into account while caching (and evaluating)!
  • 12. Motivating scenario: Multi-level • Assume – Freq(A) = 10, Freq(B) = 20, – Cost(A) = 100ms, Cost(B) = 10 ms – an additonal list cache L – all terms in query A is cached in L – new Cost(A) = 10 ms (dropped from 100ms!) – now it is better to cache result B Take cost interdependencies into account in multi-level caches.
  • 14. Cost-aware result caching (RC) • Key idea: Embed query processing cost into the result caching strategies • Static caching – Knapsack problem • Query results have values and sizes • Greedy solution: order in Value/Size – MostFreq Strategy (baseline) • Value(q) = Freq(q) • Unit space per result
  • 15. Cost-aware static RC Static cost-aware caching strategies: • FreqThenCost – Sort first by Freq(q) and then Cost(q) • StabilityThenCost – Stabilityof the frequency in succeeding time intervals • Freq&Cost – Value(q) = Cost(q) x Freq(q)K , K>1 – Why Freq(q)K ? • Queries with very low frequencies may disappear in the future
  • 16. Cost-aware dynamic RC • Baselines: LRU, LFU • LCU: Least costly cached item is evicted • LFCU_K: Least Frequently and Costly Used – Cost(q) x Freq(q)K , K>1 • GDS: Greedy Dual Size [Cao&Irani, 1997] – H = Cost(q) + L, L is age and set to the H value of evicted item • GDSF_K: Greedy Dual Size Frequency – Cost(q) x Freq(q)K + L [Arlitt et al., 2000]
  • 17. Performance: Static RC Gains up to 3%!
  • 18. Performance: Dynamic RC Gains up to 6%!
  • 19. Today’s talk • Cost-aware caching strategies • Cache invalidation
  • 20. Motivation • Higher cache capacity improves hit rate • But results become stale [Cambazoglu et al. WWW2010]
  • 21. Solutions from the literature • Decoupled: Time-to-live (TTL) – refresh stale results when backend is idle [Cambazoglu et al., WWW’10] q1 R1 TTL(q1) q2 R2 TTL(q2) qi … qk Rk TTL(qk) Result Cache
  • 22. Solutions from the literature • Coupled: Cache invalidation policy (CIP) [Blanco et al., SIGIR’10] – Incremental index update – Content changes sent to CIP module to invalidate queries (offline) CIP module all queries in cache(s) all changes in the backend index
  • 23. Our contribution • Devise a new invalidation mechanism – better than TTL and close to CIP in detecting stale results – better than CIP and close to TTL in efficiency and practicality
  • 24. Timestamp-based Invalidation • The value of the TS on an item shows the last time the item was updated • TIF has two components: – Offline (indexing time) : Decide on term and document timestamps – Online (query time): Decide on the staleness of the query result
  • 25. TIF Architecture qi SEARCH Document timestamps NODE TS(d1) TS(d2) … TS(dD) q1 R1 TS(q1) Invalidation 0/1 logic document TS q2 R2 TS(q2) TS(t1) t1 updates qi, Ri, TS(qi) TS(t2) t2 … miss/stale Doc. … … … index parser qk Rk TS(qk) results TS(tT) tT updates Result cache term TS updates documents assigned to the node
  • 26. TS Update Policies: Documents • For a newly added document d – TS(d) = now() • For a deleted document d – TS(d) = infinite • For an updated document d – if diff(dnew, dold) > L TS(d) = now() – diff(di, dj): |length(di) – length(dj)|
  • 27. TS Update Policies: Terms • Frequency based update t TS(t) = T0, PLLTS= 5 t Number of added postings > F x PLLTS TS(t) = now() PLLTS= 6
  • 28. TS Update Policies: Terms • Score based update t p1 p2 p3 p4 p5 sort w.r.t. scoring function p4 p3 p2 p5 p1 TS(t) = T0, STS = Score(p3) t p1 p2 p3 p4 p5 p6 Score of added posting > STS TS(t) = now() STS = re-sort & compute
  • 29. Result Invalidation Policy • A search node decides a result stale if: – C1: ∃d ϵ R, s.t. TS(d) > TS(q) (d is deleted or revised after the generation of query result) or, – C2: ∀t ϵ q, s.t. TS(t) > TS(q) (all query terms appeared in new documents after the generation of query result) • Also apply TTL to avoid stale accumulation
  • 30. Simulation setup • Data: English wikipedia dump – snapshot at Jan 1, 2006 ≈ 1 million pages – All add/deletes/updates for following 30 days • Queries: 10,000 from AOL log
  • 31. Simulation setup • Evaluation metrics [Blanco 2010] – The query result is updated if two top-10 lists are not exactly the same Redundant query executions False Positive Ratio = Number of unique queries Stale results returned Stale Traffic Ratio = Number of query occurrences
  • 32. Performance: all queries Frequency-based term TS update Score-based term TS update
  • 33. Discussion TIF CIP Data Send <q, R, TS(q)> to Send all <q, R> to CIP transfer the search nodes Send all docs to CIP Invalidation Traverse the query index operations Compare TS values for every document
  • 34. Conclusion & Future work • Data on the Web is growing continuosly – Search efficiency is crucial! – We present strategies for improving the performance of Web search engines • Cost aware strategies improve efficiency • Practical invalidation methods with good accuracy • Upcoming work on efficiency: – New strategies for cache freshness & index pruning!
  • 36. References: Our work • [SIGIR 2011] Sadiye Alici, Ismail Sengör Altingövde, Rifat Ozcan, Berkant Barla Cambazoglu, Özgür Ulusoy: Timestamp-based result cache invalidation for web search engines. SIGIR 2011: 973-982 • [ECIR 2012] Sadiye Alici, Ismail Sengör Altingövde, Rifat Ozcan, Berkant Barla Cambazoglu, Özgür Ulusoy: Adaptive Time-to-Live Strategies for Query Result Caching in Web Search Engines. ECIR 2012: 401-412 • [TOIS 2102] Ismail Sengör Altingövde, Rifat Ozcan, Özgür Ulusoy: Static index pruning in web search engines: Combining term and document popularities with query views. ACM Trans. Inf. Syst. 30(1): 2 (2012) • [TWEB 2012] Rifat Ozcan, Ismail Sengör Altingövde, Özgür Ulusoy: Cost-Aware Strategies for Query Result Caching in Web Search Engines. TWEB 5(2): 9 (2011) • [SPIRE 2012] B. Barla Cambazoglu , Ismail Sengör Altingövde: Impact of Regionalization on Performance of Web Search Engine Result Caches. (to appear) • [IPM 2012] Ozcan, I. S. Altingovde, B. B. Cambazoglu, F. P. Junqueira, Ö. Ulusoy: Five-level Static Cache Architecture for Web Search Engines, IPM, to appear. • [ECIR 2011] Ismail Sengör Altingövde, Rifat Ozcan, Berkant Barla Cambazoglu, Özgür Ulusoy: Second Chance: A Hybrid Approach for Dynamic Result Caching in Search Engines. ECIR 2011: 510-516arch engine caching. WWW 2010: 181-190
  • 37. Other References • [Blanco et al., SIGIR 2010] Roi Blanco, Edward Bortnikov, Flavio Junqueira, Ronny Lempel, Luca Telloli, Hugo Zaragoza: Caching search engine results over incremental indices. SIGIR 2010: 82-89 • [Cambazoglu et al., WWW 2010] Berkant Barla Cambazoglu, Flavio Paiva Junqueira, Vassilis Plachouras, Scott A. Banachowski, Baoqiu Cui, Swee Lim, Bill Bridge: A refreshing perspective of search engine caching. WWW 2010: 181-190