Besoin de	rien envie de	Search
OLIVIER	TAVARD
FRANCE	LABS
TELECOM	VALLEY	TECH	CONF SEARCH
31/05/16
L’importance business	du	search
Exemple	du	eCommerce
• 96%	des	visiteurs	d’un	site	de	e-commerce	considèrent	l’utilisation...
Rappel	((très)	rapide)
Un moteur de recherche estun outil qui permet:
• De créerun index à partir de documents
Index
Index
Rappel	((très)	rapide)
Un moteur de recherche estun outil qui permet:
• De créerun index à partir de documents
• D’effectu...
Rappel	((très)	rapide)
Index
coquilles
saint
Jacques
….
Document Requête
coquilles saint jacques
Coquilles saint-jacques
c...
Fonctionnalités de	Search:	trouver en	– de	2	min
Facettes:
Permet au	
client	d’affiner
sa recherche,	et	
de	trouver son	
p...
Fonctionnalités de	Search:	trouver en	– de	2	min
Facettes:	des	
types	variés et	
configurables:
Catégorie
Fenêtre de	prix
...
Fonctionnalités de	Search:	trouver en	– de	2	min
Autocompletion:
Permet de	guider	le	client	
lors de	sa requête
Fonctionnalités de	Search:	suggérer des	achats
Suggestions:
Propose	des	
alternatives
Fonctionnalités de	Search:	Moteur de	recommandations
Recommandations:
• Ex:	CarrierBuilder
• Génère	des	suggestions	de	pos...
Fonctionnalités de	Search:	Analyse des	logs
Fonctionnalités de	Search:	Géolocalisation
Recoder son	moteur de	recherche ?	Non	!
Pourquoi	ne	pas	le	faire	soi-même	avec	une	bonne	vieille	requête	sql ?
Moteur	de	r...
Les	technos de	recherche open	source	les	plus	connues
Apache	Lucene
Apache	Solr
ElasticSearch
Lucene	?
Créé en 2000	par	Doug	Cutting.	Version	actuelle:	Lucene 6.0.1	(Mai	2016)
Projet de	la	fondationApache	depuis 2001...
Solr ?
Lucene « embarqué »	dans une webapp
Moteur de	recherche full	text	scalable
Créé en	2004	par	YonikSeeley	à CENT	Netw...
ElasticSearch ?
Basé sur Lucene
Moteur de	recherche full	text	orienté analytics	scalable
Elasticsearch a	été créé par	Shay...
Moteur de	recherche et	Big	Data
Scalabilité
Haute disponibilité
Consistance
Simplicité
Elasticité
Moteur de recherche et Big Data – Les shards
Sharding :
• Un shard est un morceau d’index
• Une recherche distribuée se fa...
Moteur de recherche et Big Data :
Leaders/Replicas
Leaders etreplicaspour la réplication:
• Pas de « maître/esclave » mais...
Moteur de recherche et Big Data
Illustration
On veutrépartirl’index sur 2 shards
On veutun réplica par shard
D’où 4 machin...
Différences Solr et ElasticSearch
• 95% des fonctionnalités en commun
• Quelques différences :
• ElasticSearch
• Percolato...
Clusters de serveurs
C’est l’heure du quiz
Quelle est la version actuelle de Lucene/Solr ?
• A) 2.3.3
• B) 42
• C) 6.0.1
Répondez vite en tweet...
Ecosytème - Crawler
Roles:
• Connection au système externe
• Crawl des données
• Gère les autorisations
• Early Binding
• ...
Ecosytème - Crawler
Roles:
• Push or pull mode
• Extraction du contenu (Tika)
• Crawling normal ou delta
• Attention à l’i...
Ecosytème - Crawler
DifferentsCrawlers
• Aperture
• File, Web
• Nutch
• Web
• DIH
• DB, XML
• Beats
• LogStash
Framework
•...
Ecosytème - Crawler
Scénario de moteur de recherche fédéré :
• 1ère source : crawl de fichiers avecautorisation
• Environn...
Ecosytème - Crawler
Scénario de moteur de recherche pour l’indexation de logs:
• Parsing de fichiers de logs avec LogStash...
Use cases
Solr
• BOX:
• Index de 10 To
• 10 Mds docs
• 100 M requêtes / jour
• Documents bureautique
ElasticSearch
• Veriz...
CONTACT
N’hésitez pas à nous contacter pour toute demande
d’information
Notre site web : www.francelabs.com
Email: contact...
Prochain SlideShare
Chargement dans…5
×

Besoin de rien Envie de Search - Presentation Lucene Solr ElasticSearch

147 vues

Publié le

Cette présentation donne un comparatif sur les technologie de recherche open source que sont Apache Solr et ElasticSearch. Après avoir introduit brièvement les notions de moteur de recherche open source pour entreprise, Lucene, Solr et ElasticSearch seront expliqués.

Publié dans : Logiciels
0 commentaire
0 j’aime
Statistiques
Remarques
  • Soyez le premier à commenter

  • Soyez le premier à aimer ceci

Aucun téléchargement
Vues
Nombre de vues
147
Sur SlideShare
0
Issues des intégrations
0
Intégrations
2
Actions
Partages
0
Téléchargements
2
Commentaires
0
J’aime
0
Intégrations 0
Aucune incorporation

Aucune remarque pour cette diapositive

Besoin de rien Envie de Search - Presentation Lucene Solr ElasticSearch

  1. 1. Besoin de rien envie de Search OLIVIER TAVARD FRANCE LABS TELECOM VALLEY TECH CONF SEARCH 31/05/16
  2. 2. L’importance business du search Exemple du eCommerce • 96% des visiteurs d’un site de e-commerce considèrent l’utilisation d’un moteur de recherche interne comme faisant partie de leur processus d’achat. • 73% des visiteurs d’un site d’eCommerce quittent le site au bout de deux minutes s’ils ne trouvent pas ce qu’ils cherchent Exemple enterprise search • Un ingénieur passe 9h par semaine à chercher des documents (source: IDC)
  3. 3. Rappel ((très) rapide) Un moteur de recherche estun outil qui permet: • De créerun index à partir de documents Index
  4. 4. Index
  5. 5. Rappel ((très) rapide) Un moteur de recherche estun outil qui permet: • De créerun index à partir de documents • D’effectuerdes recherches dans cet index Index
  6. 6. Rappel ((très) rapide) Index coquilles saint Jacques …. Document Requête coquilles saint jacques Coquilles saint-jacques coquilles saint jacques Coquilles SaintJacques Analyser Analyser Indexation Requête Match!
  7. 7. Fonctionnalités de Search: trouver en – de 2 min Facettes: Permet au client d’affiner sa recherche, et de trouver son produit en moins de 2 minutes.
  8. 8. Fonctionnalités de Search: trouver en – de 2 min Facettes: des types variés et configurables: Catégorie Fenêtre de prix Couleur Taille…
  9. 9. Fonctionnalités de Search: trouver en – de 2 min Autocompletion: Permet de guider le client lors de sa requête
  10. 10. Fonctionnalités de Search: suggérer des achats Suggestions: Propose des alternatives
  11. 11. Fonctionnalités de Search: Moteur de recommandations Recommandations: • Ex: CarrierBuilder • Génère des suggestions de postes suivant un profil utilisateur
  12. 12. Fonctionnalités de Search: Analyse des logs
  13. 13. Fonctionnalités de Search: Géolocalisation
  14. 14. Recoder son moteur de recherche ? Non ! Pourquoi ne pas le faire soi-même avec une bonne vieille requête sql ? Moteur de recherche : • Résultats scorés • Optimisé pour récupérer un doc à partir de son contenu • Non relationnel, structure non fixe • Possibilités d’utiliser des fonctionnalités spécifiques au search
  15. 15. Les technos de recherche open source les plus connues Apache Lucene Apache Solr ElasticSearch
  16. 16. Lucene ? Créé en 2000 par Doug Cutting. Version actuelle: Lucene 6.0.1 (Mai 2016) Projet de la fondationApache depuis 2001 Librairie de recherche full-text Rapide, fiable, customisable, flexible 100 % java (pas de dépendences)
  17. 17. Solr ? Lucene « embarqué » dans une webapp Moteur de recherche full text scalable Créé en 2004 par YonikSeeley à CENT Networks En 2010, fusion des projets Lucene : tous les deux sous la fondationApache Version Actuelle : Solr 6.0.1 (Mai 2016)
  18. 18. ElasticSearch ? Basé sur Lucene Moteur de recherche full text orienté analytics scalable Elasticsearch a été créé par Shay Banon en 2004 Licence Apache 2.0 Version actuelle : 2.3.3 (Mai 2016)
  19. 19. Moteur de recherche et Big Data Scalabilité Haute disponibilité Consistance Simplicité Elasticité
  20. 20. Moteur de recherche et Big Data – Les shards Sharding : • Un shard est un morceau d’index • Une recherche distribuée se fait sur tous les shards (donc l’index complet) • Utile pour gérerun gros index Shard3 Queries Shard1 Shard2 Aggregated queries Subqueries
  21. 21. Moteur de recherche et Big Data : Leaders/Replicas Leaders etreplicaspour la réplication: • Pas de « maître/esclave » mais des « leaders/replicas » (un replica peut devenir un leader) • Un leaderet ses replicas contiennent le même shard • Utile pour gérerune grosse charge de requêtes et pour la haute disponibilité Leader Shard 1 Replica 2 Shard 2 Replica 1 Shard 1 Load Balancer Queries Queries Queries
  22. 22. Moteur de recherche et Big Data Illustration On veutrépartirl’index sur 2 shards On veutun réplica par shard D’où 4 machines INDEX
  23. 23. Différences Solr et ElasticSearch • 95% des fonctionnalités en commun • Quelques différences : • ElasticSearch • Percolator • Elastic s’oriente vers Analytics • Outils ES puissants mais peuventêtre payants : Kibana, LogStash, Marvel, Shield… • Solr • Historiquement : focus sur fonctionnalités, cloud après • Cross data center replication Solr 6 • Outils Solr : équivalents de ceux d’ES peuventêtre moins complets mais en licence Apache : console admin, LogStash for Solr, Banana…
  24. 24. Clusters de serveurs
  25. 25. C’est l’heure du quiz Quelle est la version actuelle de Lucene/Solr ? • A) 2.3.3 • B) 42 • C) 6.0.1 Répondez vite en tweetant sur @TechConfQuiz
  26. 26. Ecosytème - Crawler Roles: • Connection au système externe • Crawl des données • Gère les autorisations • Early Binding • Late Binding
  27. 27. Ecosytème - Crawler Roles: • Push or pull mode • Extraction du contenu (Tika) • Crawling normal ou delta • Attention à l’impactsur le système crawlé • Throttling • Scheduling
  28. 28. Ecosytème - Crawler DifferentsCrawlers • Aperture • File, Web • Nutch • Web • DIH • DB, XML • Beats • LogStash Framework • Apache Manifold CF
  29. 29. Ecosytème - Crawler Scénario de moteur de recherche fédéré : • 1ère source : crawl de fichiers avecautorisation • Environnement : • File Share Windows • Active Directory • 2e source de données : crawl d’un CMS interne • Phase de recherche fédérée enrespectant les autorisations
  30. 30. Ecosytème - Crawler Scénario de moteur de recherche pour l’indexation de logs: • Parsing de fichiers de logs avec LogStash • Indexation dans ElasticSearch • Visualisation avec Kibana
  31. 31. Use cases Solr • BOX: • Index de 10 To • 10 Mds docs • 100 M requêtes / jour • Documents bureautique ElasticSearch • Verizon • 500 milliards docs • Logs
  32. 32. CONTACT N’hésitez pas à nous contacter pour toute demande d’information Notre site web : www.francelabs.com Email: contact@francelabs.com Tél: 09 72 43 72 85 Fax: 09 72 29 28 14 Adresse: France Labs CEEI – Nice Premium 1 boulevard Maître Maurice Slama 06200 Nice, France Twitter: francelabs

×