Solr in Action
ElasticSearch in Action
@LucianPrecup
@Breizhcamp
2012-06-14
Objectif
• Patterns d’architecture
• Outils pour démarrer et exploiter au mieux les
technologies
• Solr
– Léger accent sur...
Historique - avant
BDidx
Appli
Répertoire
file file file
< >
< >
< >
www
Browse
Filter
Sort
Get
Historique - après
BDidx
Appli
Répertoire
file file file
< >
< >
< >
www
Index
Search
Filter
Sort
Get
Technologies
• Google Search Appliance
• MS FAST Search
• Apache Solr
• Elastic Search
• …
Fonctionnalités
• Indexation
– Données non-structurées (fichiers)
– Données semi-structurées (email)
– Analyse du texte
• ...
Autres utilisations
• Base de données
• BI
Intégration Solr
• Clustering : répartiteur de charge et redondance des SA
• Indexation en masse : dizaine de millions de ...
Démo Solr – alimenter l’index
• Importer une BD
• Join
• Entités et référencement avec ${parent.ID}
• GROUP_CONCAT
• Index...
Types de champs dans l’index
• stored / not_stored
• analyzed / not_analyzed
• Champs de recherche
• Champs de tri
• Champ...
Démo Solr – auto-complétion
Analyzers / Tokenizers / Token filters
Document entrée 
Indexation Recherche
Id Nom
1 Céline
Ascii folding  Celine
Lower...
Solr – zoom sur les outils
• Luke
• Explain
• Solr Admin (stats, query form, analysis)
• Solr browse search UI
ElasticSearch - spécificités
• Clustering
• Schéma auto
• « Rivers » et indexation en temps réel
Intégration – ElasticSearch
• Clustering : p2p
• Indexation au fil de l’eau
ElasticSearch - clustering
ElasticSearch – zoom sur les outils
• curl
• ESHead
• "explain" : 1
Démo – Pertinence
• Comment est calculé le score
• Comment influencer le score
Démo - recherche
• Analyse à la recherche, requêtes composés
• Highlighting
• Fuzzy
• Facettes
• Filtres
Use case métier
• E-commerce
– Beaucoup de critères de pertinence à
implémenter
• Ressources humaines
– Recherche de perso...
Prochain SlideShare
Chargement dans…5
×

Solr and Elasticsearch in Action (at Breizhcamp)

2 489 vues

Publié le

Lucene @ Breizhcamp

Lucene, la fameuse technologie pour l’indexation, la recherche et l’analyse du texte a été présente à l'édition 2012 de Breizhcamp à travers deux sessions « Tools In Action » : ElasticSearch et Solr.

Allant au-delà du tutorial, ces deux sessions ont permis de découvrir des patterns d’architecture pour l'intégration d'un moteur de recherche et navigation dans un SI ainsi que de comprendre l’alternative qu’offrent les moteurs de recherche et les approches NoSQL aux bases de données relationnelles. Des subtilités sur l’analyse du texte ont été abordées afin de montrer les forces mais aussi les limites de la magie Lucene. Les démonstrations de chaque technologie et des outils dans leur écosystème ont rendu la présentation plus interactive.

La vidéo de la présentation se trouve sur Parleys (http://www.parleys.com/#st=5&id=3351).

Publié dans : Technologie
  • Soyez le premier à commenter

Solr and Elasticsearch in Action (at Breizhcamp)

  1. 1. Solr in Action ElasticSearch in Action @LucianPrecup @Breizhcamp 2012-06-14
  2. 2. Objectif • Patterns d’architecture • Outils pour démarrer et exploiter au mieux les technologies • Solr – Léger accent sur l’indexation • ElasticSearch – Léger accent sur la recherche • Démos
  3. 3. Historique - avant BDidx Appli Répertoire file file file < > < > < > www Browse Filter Sort Get
  4. 4. Historique - après BDidx Appli Répertoire file file file < > < > < > www Index Search Filter Sort Get
  5. 5. Technologies • Google Search Appliance • MS FAST Search • Apache Solr • Elastic Search • …
  6. 6. Fonctionnalités • Indexation – Données non-structurées (fichiers) – Données semi-structurées (email) – Analyse du texte • Recherche – Fulltext, multicritère, suggestion – Facettes, filtres, tris
  7. 7. Autres utilisations • Base de données • BI
  8. 8. Intégration Solr • Clustering : répartiteur de charge et redondance des SA • Indexation en masse : dizaine de millions de documents • Fonctions avancées d’analyse du texte
  9. 9. Démo Solr – alimenter l’index • Importer une BD • Join • Entités et référencement avec ${parent.ID} • GROUP_CONCAT • Indexer des fichiers binaires (Word, Excel, PDF)
  10. 10. Types de champs dans l’index • stored / not_stored • analyzed / not_analyzed • Champs de recherche • Champs de tri • Champs pour l’affichage • Champs pour les facettes • Champs mixtes
  11. 11. Démo Solr – auto-complétion
  12. 12. Analyzers / Tokenizers / Token filters Document entrée  Indexation Recherche Id Nom 1 Céline Ascii folding  Celine Lowercase  celine EdgeNGram  ce cel celi celin celine Clé Id document ce 1 cel 1 celi 1 celin 1 celine 1 Index  Terme recherché Nom Céli Celi  Ascii folding celi  Lowercase
  13. 13. Solr – zoom sur les outils • Luke • Explain • Solr Admin (stats, query form, analysis) • Solr browse search UI
  14. 14. ElasticSearch - spécificités • Clustering • Schéma auto • « Rivers » et indexation en temps réel
  15. 15. Intégration – ElasticSearch • Clustering : p2p • Indexation au fil de l’eau
  16. 16. ElasticSearch - clustering
  17. 17. ElasticSearch – zoom sur les outils • curl • ESHead • "explain" : 1
  18. 18. Démo – Pertinence • Comment est calculé le score • Comment influencer le score
  19. 19. Démo - recherche • Analyse à la recherche, requêtes composés • Highlighting • Fuzzy • Facettes • Filtres
  20. 20. Use case métier • E-commerce – Beaucoup de critères de pertinence à implémenter • Ressources humaines – Recherche de personnes – Recherche full-texte (catalogues formation, CVs, compétences) • Assurances – Modèle métier personne-contrat-sinistre

×