Flipkart's Search Architecture, Challenges and Solutions

•

1 j'aime•1,440 vues

This document discusses Flipkart's search architecture and how it addresses challenges for e-commerce search. It has a diverse catalog of 13 million products across 900 categories. It needs high performance with 99.99% availability and 1000 queries per second. There are also high rates of updates. Solutions discussed include caching, external source fields for sorting/faceting/filtering, and relevance optimizations. Caching improves performance 10-50x by caching results. External fields help with updates and partitioning. Relevance is tuned using boosts, user feedback, and query classification.

Ingénierie

Search @ Flipkart
Umesh Prasad
Thejus VM
Empowering Consumers discover and find products
Solr/ Lucene Meetup 2 @ Bangalore
Date : July 27, 2013

Outline
● Search Architecture @ Flipkart
● Challenges for E-commerce
○ Diverse Catalogue
○ Availability, Uptime and performance
○ High frequency updates
● Solutions
○ Caching and warm up
○ External Source Fields (Sort, Facet, Filter)
○ Relevance optimizations

The E-commerce Search Challenge
● Diverse catalogue
○ ~13 million products, ~900 categories
○ What fields to Search
○ How to rank (within category/across categories). Ranking Facets ?
○ tf-idf and vector space model doesn't help
● Performance
○ 99.99 % availability
○ ~1000 qps
○ ~75 ms for Search, ~5 ms for Autosuggest
○ Prefetching data (Conflicts with liveliness)
● High rate of updates
○ Multiple data sources (aggregate, index, commit, replicate)
○ Temporal fields (Price/Availability/SLAs/Offers)
○ Lucene doesn't support partial updates

Addressing - Performance / Latency
● Make Search Faster
○ Use Filters, score only if needed, lazy field loads,
smaller indexes aka sharding
● Caching
○ Solr caches (Type/Sizing/Tuning/Warming)
○ Custom caches
○ Cache warmup on replication and startup

Solr Search Flow
And High Latency Cache
Cache hit is 10X -
50X faster.

Solr Caches
● QueryCache
○ Key = <Lucene Query, Filters, SortFields>
○ Value = Docset(Bitset) / DocList (bitset with score)
○ Caching only a results Window
○ Use : Pagination/repeat queries
● FilterCache
○ Key = Query
○ Value = Docset (maxDoc)
○ Matching / Faceting
● FieldValueCache
○ Key = FieldName
○ Value = <Term,DocSet>
○ Faceting
● DocumentCache
○ Key = docId
○ Value = Fields

Expensive Features
● Facet on Queries
○ Facet.queries
● Grouping
○ ngroups (counting number of groups )
○ facet counting of groups (makes 2nd query)
○ No Cache for Group
● Solution : High Latency Cache
○ Key = All Request Params
○ Value = Full response object
○ Re-generate

Challenge 3 : High Rate of Updates
● Two Solutions
○ Near real time Indexing / Searching
○ External Fields
● NRT Indexing and searching
○ Softcommits => solr caches invalidated
○ Lot of churn : Document deleted and re-added.
○ No autowarm for document cache
● External Fields
○ Resonates with Horizontal partition (Document level
partitioning)
○ Great for Ephemeral fields (Price/availability/slas)
○ Supports faceting / filter / sorting

Sorting on 500 plus Dynamic Fields
● 10 million products * 4 bytes = 38.1 MB
● 38.1 MB * 500 fields = 17.0 GB of Heap Memory
● On replication : 17 * 2 = 34 GB Heap for just FieldCache
BOOM

Relevance and Scoring
● Search Page(Query based scoring)
○ Handcrafted boosts to capture retail specific signals
○ User feedback based ranking
○ Turn off - query norm, tf, idf on specific fields
● Browse Page(Non Query based Scoring)
○ Challenge - How do we rank in order to maximize
diversity and still show relevant products

Query Classification
● Rank category for a given query
● Signals
○ Text Scoring
○ Retail signals
○ Click stream data
● Rules Specified over classifications for better
customer experience

Recommandé

Slash n near real time indexingUmesh Prasad

Consuming RealTime Signals in Solr Umesh Prasad

Anatomy of an eCommerce Search Engine by Mayur DatarNaresh Jain

Near RealTime search @FlipkartUmesh Prasad

Learn to Rank search resultsGanesh Venkataraman

Find it! Nail it!Boosting e-commerce search conversions with machine learnin...Rakuten Group, Inc.

Applied Machine Learning for Ranking Products in an Ecommerce SettingDatabricks

New Features in Apache PinotSiddharth Teotia

Recommandé

Slash n near real time indexingUmesh Prasad

Consuming RealTime Signals in Solr Umesh Prasad

Anatomy of an eCommerce Search Engine by Mayur DatarNaresh Jain

Near RealTime search @FlipkartUmesh Prasad

Learn to Rank search resultsGanesh Venkataraman

Find it! Nail it!Boosting e-commerce search conversions with machine learnin...Rakuten Group, Inc.

Applied Machine Learning for Ranking Products in an Ecommerce SettingDatabricks

New Features in Apache PinotSiddharth Teotia

Twitter Search Architecture Ramez Al-Fayez

Apache Lucene/Solr Document ClassificationSease

Pinot: Realtime OLAP for 530 Million Users - Sigmod 2018Seunghyun Lee

Real Time search using Spark and ElasticsearchSigmoid

Learning to Rank in Solr: Presented by Michael Nilsson & Diego Ceccarelli, Bl...Lucidworks

Apache Druid 101Data Con LA

Integrating Spark and Solr-(Timothy Potter, Lucidworks)Spark Summit

How Lazada ranks products to improve customer experience and conversionEugene Yan Ziyou

An introduction to Elasticsearch's advanced relevance ranking toolboxElasticsearch

Faceted Search with Lucenelucenerevolution

Scalable crawling with Kafka, scrapy and spark - November 2021Max Lapan

InfluxDB IOx Tech Talks: Query Engine Design and the Rust-Based DataFusion in...InfluxData

Disaster Recovery for Multi-Region Apache Kafka Ecosystems at Uberconfluent

Personalized searchToine Bogers

Learning to Rank - From pairwise approach to listwiseHasan H Topcu

TiDB IntroductionMorgan Tocker

Solr Query ParsingErik Hatcher

Recent Trends in Personalization at NetflixJustin Basilico

Boosting Documents in Solr by Recency, Popularity, and User PreferencesLucidworks (Archived)

Airbnb Search Architecture: Presented by Maxim Charkov, AirbnbLucidworks

Building tiered data stores using aesop to bridge sql and no sql systemsRegunath B

E commerce data migration in moving systems across data centres Regunath B

Contenu connexe

Tendances

Twitter Search Architecture Ramez Al-Fayez

Apache Lucene/Solr Document ClassificationSease

Pinot: Realtime OLAP for 530 Million Users - Sigmod 2018Seunghyun Lee

Real Time search using Spark and ElasticsearchSigmoid

Learning to Rank in Solr: Presented by Michael Nilsson & Diego Ceccarelli, Bl...Lucidworks

Apache Druid 101Data Con LA

Integrating Spark and Solr-(Timothy Potter, Lucidworks)Spark Summit

How Lazada ranks products to improve customer experience and conversionEugene Yan Ziyou

An introduction to Elasticsearch's advanced relevance ranking toolboxElasticsearch

Faceted Search with Lucenelucenerevolution

Scalable crawling with Kafka, scrapy and spark - November 2021Max Lapan

InfluxDB IOx Tech Talks: Query Engine Design and the Rust-Based DataFusion in...InfluxData

Disaster Recovery for Multi-Region Apache Kafka Ecosystems at Uberconfluent

Personalized searchToine Bogers

Learning to Rank - From pairwise approach to listwiseHasan H Topcu

TiDB IntroductionMorgan Tocker

Solr Query ParsingErik Hatcher

Recent Trends in Personalization at NetflixJustin Basilico

Boosting Documents in Solr by Recency, Popularity, and User PreferencesLucidworks (Archived)

Airbnb Search Architecture: Presented by Maxim Charkov, AirbnbLucidworks

Tendances (20)

Twitter Search Architecture

Apache Lucene/Solr Document Classification

Pinot: Realtime OLAP for 530 Million Users - Sigmod 2018

Real Time search using Spark and Elasticsearch

Learning to Rank in Solr: Presented by Michael Nilsson & Diego Ceccarelli, Bl...

Apache Druid 101

Integrating Spark and Solr-(Timothy Potter, Lucidworks)

How Lazada ranks products to improve customer experience and conversion

An introduction to Elasticsearch's advanced relevance ranking toolbox

Faceted Search with Lucene

Scalable crawling with Kafka, scrapy and spark - November 2021

InfluxDB IOx Tech Talks: Query Engine Design and the Rust-Based DataFusion in...

Disaster Recovery for Multi-Region Apache Kafka Ecosystems at Uber

Personalized search

Learning to Rank - From pairwise approach to listwise

TiDB Introduction

Solr Query Parsing

Recent Trends in Personalization at Netflix

Boosting Documents in Solr by Recency, Popularity, and User Preferences

Airbnb Search Architecture: Presented by Maxim Charkov, Airbnb

En vedette

Building tiered data stores using aesop to bridge sql and no sql systemsRegunath B

E commerce data migration in moving systems across data centres Regunath B

The parsers & test uploadAnupam Jain

Recommendations play @flipkarthava101

Strategic recommendations for flipkartPavankumar Wadhonkar

Nice Docs Finish First - Designing Search Ranking for Fairness at Etsy: Prese...Lucidworks

Aesop change data propagationRegunath B

Events, Signals, and RecommendationsLucidworks

Etsy Search: How We Index and Query 26 Million One-of-a-kind ItemsC4Media

Evolving Search Relevancy: Presented by James Strassburg, Direct SupplyLucidworks

Your Big Data Stack is Too Big!: Presented by Timothy Potter, LucidworksLucidworks

Netflix Global Search - Lucene Revolutionivan provalov

It's Just Search: Presented by Erik Hatcher, LucidworksLucidworks

Search At AstraZeneca. An Agile AppStore (search-based apps) Created On A Ric...Nick Brown

Fusion 3 Overview Webinar Lucidworks

Solr & Lucene @ Etsy by Gregg DonovanGregg Donovan

Coffee, Danish & Search: Presented by Alan Woodward & Charlie Hull, FlaxLucidworks

Webinar: Ecommerce, Rules, and RelevanceLucidworks

Autocomplete Multi-Language Search Using Ngram and EDismax Phrase Queries: Pr...Lucidworks

Webinar: Replace Google Search Appliance with Lucidworks FusionLucidworks

En vedette (20)

Building tiered data stores using aesop to bridge sql and no sql systems

E commerce data migration in moving systems across data centres

The parsers & test upload

Recommendations play @flipkart

Strategic recommendations for flipkart

Nice Docs Finish First - Designing Search Ranking for Fairness at Etsy: Prese...

Aesop change data propagation

Events, Signals, and Recommendations

Etsy Search: How We Index and Query 26 Million One-of-a-kind Items

Evolving Search Relevancy: Presented by James Strassburg, Direct Supply

Your Big Data Stack is Too Big!: Presented by Timothy Potter, Lucidworks

Netflix Global Search - Lucene Revolution

It's Just Search: Presented by Erik Hatcher, Lucidworks

Search At AstraZeneca. An Agile AppStore (search-based apps) Created On A Ric...

Fusion 3 Overview Webinar

Solr & Lucene @ Etsy by Gregg Donovan

Coffee, Danish & Search: Presented by Alan Woodward & Charlie Hull, Flax

Webinar: Ecommerce, Rules, and Relevance

Autocomplete Multi-Language Search Using Ngram and EDismax Phrase Queries: Pr...

Webinar: Replace Google Search Appliance with Lucidworks Fusion

Similaire à Flipkart's Search Architecture, Challenges and Solutions

Query optimization in Apache TajoJihoon Son

Procella: A fast versatile SQL query engine powering data at YoutubeDataWorks Summit

Approximate "Now" is Better Than Accurate "Later"NUS-ISS

Embedded based retrieval in modern search ranking systemMarsan Ma

Lessons learned from designing a QA Automation for analytics databases (big d...Omid Vahdaty

The Parquet Format and Performance Optimization OpportunitiesDatabricks

CenternetArithmer Inc.

Ledingkart Meetup #2: Scaling Search @LendingkartMukesh Singh

Data Enginering from Google Data Warehousearungansi

Introduction to Apache Tajo: Future of Data WarehouseGruter

Introduction to Apache Tajo: Future of Data WarehouseJihoon Son

Presto Bangalore Meetup1 Repertoire@MyntraShubham Tagra

DruidDori Waldman

Improve Presto Architectural Decisions with Shadow CacheAlluxio, Inc.

Volodymyr Lyubinets. One startup's journey of building ML pipelines for text ...Lviv Startup Club

Enabling Presto Caching at Uber with AlluxioAlluxio, Inc.

Journey through high performance django applicationbangaloredjangousergroup

Efficient Query Processing InfrastructuresCrai Macdonald

Data Infra Meetup | ByteDance's Native Parquet ReaderAlluxio, Inc.

Faceted Search And Result ReorderingVarun Thacker

Similaire à Flipkart's Search Architecture, Challenges and Solutions (20)

Query optimization in Apache Tajo

Procella: A fast versatile SQL query engine powering data at Youtube

Approximate "Now" is Better Than Accurate "Later"

Embedded based retrieval in modern search ranking system

Lessons learned from designing a QA Automation for analytics databases (big d...

The Parquet Format and Performance Optimization Opportunities

Centernet

Ledingkart Meetup #2: Scaling Search @Lendingkart

Data Enginering from Google Data Warehouse

Introduction to Apache Tajo: Future of Data Warehouse

Presto Bangalore Meetup1 Repertoire@Myntra

Druid

Improve Presto Architectural Decisions with Shadow Cache

Volodymyr Lyubinets. One startup's journey of building ML pipelines for text ...

Enabling Presto Caching at Uber with Alluxio

Journey through high performance django application

Efficient Query Processing Infrastructures

Data Infra Meetup | ByteDance's Native Parquet Reader

Faceted Search And Result Reordering

Dernier

young call girls in Green Park🔝 9953056974 🔝 escort Service9953056974 Low Rate Call Girls In Saket, Delhi NCR

An experimental study in using natural admixture as an alternative for chemic...Chandu841456

welding defects observed during the weldingMuhammadUzairLiaqat

young call girls in Rajiv Chowk🔝 9953056974 🔝 Delhi escort Service9953056974 Low Rate Call Girls In Saket, Delhi NCR

The SRE Report 2024 - Great Findings for the teamsDILIPKUMARMONDAL6

Input Output Management in Operating SystemRashmi Bhat

home automation using Arduino by Aditya Prasadaditya806802

Steel Structures - Building technology.pptxNikhil Raut

CCS355 Neural Networks & Deep Learning Unit 1 PDF notes with Question bank .pdfAsst.prof M.Gokilavani

National Level Hackathon Participation Certificate.pdfRajuKanojiya4

Introduction-To-Agricultural-Surveillance-Rover.pptxk795866

Class 1 | NFPA 72 | Overview Fire Alarm Systemirfanmechengr

Concrete Mix Design - IS 10262-2019 - .pptxKartikeyaDwivedi3

Energy Awareness training ppt for manufacturing process.pptxsiddharthjain2303

POWER SYSTEMS-1 Complete notes examplesDr. Gudipudi Nageswara Rao

Past, Present and Future of Generative AIabhishek36461

Research Methodology for Engineering pdfCaalaaAbdulkerim

NO1 Certified Black Magic Specialist Expert Amil baba in Uae Dubai Abu Dhabi ...Amil Baba Dawood bangali

Correctly Loading Incremental Data at ScaleAlluxio, Inc.

US Department of Education FAFSA Week of ActionMebane Rash

Dernier (20)

young call girls in Green Park🔝 9953056974 🔝 escort Service

An experimental study in using natural admixture as an alternative for chemic...

welding defects observed during the welding

young call girls in Rajiv Chowk🔝 9953056974 🔝 Delhi escort Service

The SRE Report 2024 - Great Findings for the teams

Input Output Management in Operating System

home automation using Arduino by Aditya Prasad

Steel Structures - Building technology.pptx

CCS355 Neural Networks & Deep Learning Unit 1 PDF notes with Question bank .pdf

National Level Hackathon Participation Certificate.pdf

Introduction-To-Agricultural-Surveillance-Rover.pptx

Class 1 | NFPA 72 | Overview Fire Alarm System

Concrete Mix Design - IS 10262-2019 - .pptx

Energy Awareness training ppt for manufacturing process.pptx

POWER SYSTEMS-1 Complete notes examples

Past, Present and Future of Generative AI

Research Methodology for Engineering pdf

NO1 Certified Black Magic Specialist Expert Amil baba in Uae Dubai Abu Dhabi ...

Correctly Loading Incremental Data at Scale

US Department of Education FAFSA Week of Action

Flipkart's Search Architecture, Challenges and Solutions

1. Search @ Flipkart Umesh Prasad Thejus VM Empowering Consumers discover and find products Solr/ Lucene Meetup 2 @ Bangalore Date : July 27, 2013

2. Outline ● Search Architecture @ Flipkart ● Challenges for E-commerce ○ Diverse Catalogue ○ Availability, Uptime and performance ○ High frequency updates ● Solutions ○ Caching and warm up ○ External Source Fields (Sort, Facet, Filter) ○ Relevance optimizations

4. Flipkart Search Architecture

5. Technologies Used

6. The E-commerce Search Challenge ● Diverse catalogue ○ ~13 million products, ~900 categories ○ What fields to Search ○ How to rank (within category/across categories). Ranking Facets ? ○ tf-idf and vector space model doesn't help ● Performance ○ 99.99 % availability ○ ~1000 qps ○ ~75 ms for Search, ~5 ms for Autosuggest ○ Prefetching data (Conflicts with liveliness) ● High rate of updates ○ Multiple data sources (aggregate, index, commit, replicate) ○ Temporal fields (Price/Availability/SLAs/Offers) ○ Lucene doesn't support partial updates

7. Addressing - Performance / Latency ● Make Search Faster ○ Use Filters, score only if needed, lazy field loads, smaller indexes aka sharding ● Caching ○ Solr caches (Type/Sizing/Tuning/Warming) ○ Custom caches ○ Cache warmup on replication and startup

8. Solr Search Flow And High Latency Cache Cache hit is 10X - 50X faster.

9. Solr Caches ● QueryCache ○ Key = <Lucene Query, Filters, SortFields> ○ Value = Docset(Bitset) / DocList (bitset with score) ○ Caching only a results Window ○ Use : Pagination/repeat queries ● FilterCache ○ Key = Query ○ Value = Docset (maxDoc) ○ Matching / Faceting ● FieldValueCache ○ Key = FieldName ○ Value = <Term,DocSet> ○ Faceting ● DocumentCache ○ Key = docId ○ Value = Fields

10. Expensive Features ● Facet on Queries ○ Facet.queries ● Grouping ○ ngroups (counting number of groups ) ○ facet counting of groups (makes 2nd query) ○ No Cache for Group ● Solution : High Latency Cache ○ Key = All Request Params ○ Value = Full response object ○ Re-generate

11. How replication Impacts Caching ?

12. Challenge 3 : High Rate of Updates ● Two Solutions ○ Near real time Indexing / Searching ○ External Fields ● NRT Indexing and searching ○ Softcommits => solr caches invalidated ○ Lot of churn : Document deleted and re-added. ○ No autowarm for document cache ● External Fields ○ Resonates with Horizontal partition (Document level partitioning) ○ Great for Ephemeral fields (Price/availability/slas) ○ Supports faceting / filter / sorting

13. External Fields and Relevance Tuning

14. Sorting on 500 plus Dynamic Fields ● 10 million products * 4 bytes = 38.1 MB ● 38.1 MB * 500 fields = 17.0 GB of Heap Memory ● On replication : 17 * 2 = 34 GB Heap for just FieldCache BOOM

15. External Fields

16. Relevance and Scoring ● Search Page(Query based scoring) ○ Handcrafted boosts to capture retail specific signals ○ User feedback based ranking ○ Turn off - query norm, tf, idf on specific fields ● Browse Page(Non Query based Scoring) ○ Challenge - How do we rank in order to maximize diversity and still show relevant products

17. Query Classification ● Rank category for a given query ● Signals ○ Text Scoring ○ Retail signals ○ Click stream data ● Rules Specified over classifications for better customer experience

18. Q & A