Solr in Action
ElasticSearch in Action
@LucianPrecup
@Breizhcamp
2012-06-14
Objectif
• Patterns d’architecture
• Outils pour démarrer et exploiter au mieux les
technologies
• Solr
– Léger accent sur...
Historique - avant
BDidx
Appli
Répertoire
file file file
< >
< >
< >
www
Browse
Filter
Sort
Get
Historique - après
BDidx
Appli
Répertoire
file file file
< >
< >
< >
www
Index
Search
Filter
Sort
Get
Technologies
• Google Search Appliance
• MS FAST Search
• Apache Solr
• Elastic Search
• …
Fonctionnalités
• Indexation
– Données non-structurées (fichiers)
– Données semi-structurées (email)
– Analyse du texte
• ...
Autres utilisations
• Base de données
• BI
Intégration Solr
• Clustering : répartiteur de charge et redondance des SA
• Indexation en masse : dizaine de millions de ...
Démo Solr – alimenter l’index
• Importer une BD
• Join
• Entités et référencement avec ${parent.ID}
• GROUP_CONCAT
• Index...
Types de champs dans l’index
• stored / not_stored
• analyzed / not_analyzed
• Champs de recherche
• Champs de tri
• Champ...
Démo Solr – auto-complétion
Analyzers / Tokenizers / Token filters
Document entrée 
Indexation Recherche
Id Nom
1 Céline
Ascii folding  Celine
Lower...
Solr – zoom sur les outils
• Luke
• Explain
• Solr Admin (stats, query form, analysis)
• Solr browse search UI
ElasticSearch - spécificités
• Clustering
• Schéma auto
• « Rivers » et indexation en temps réel
Intégration – ElasticSearch
• Clustering : p2p
• Indexation au fil de l’eau
ElasticSearch - clustering
ElasticSearch – zoom sur les outils
• curl
• ESHead
• "explain" : 1
Démo – Pertinence
• Comment est calculé le score
• Comment influencer le score
Démo - recherche
• Analyse à la recherche, requêtes composés
• Highlighting
• Fuzzy
• Facettes
• Filtres
Use case métier
• E-commerce
– Beaucoup de critères de pertinence à
implémenter
• Ressources humaines
– Recherche de perso...
Prochain SlideShare
Chargement dans…5
×

Solr and Elasticsearch in Action (at Breizhcamp)

2 403 vues

Publié le

Lucene @ Breizhcamp

Lucene, la fameuse technologie pour l’indexation, la recherche et l’analyse du texte a été présente à l'édition 2012 de Breizhcamp à travers deux sessions « Tools In Action » : ElasticSearch et Solr.

Allant au-delà du tutorial, ces deux sessions ont permis de découvrir des patterns d’architecture pour l'intégration d'un moteur de recherche et navigation dans un SI ainsi que de comprendre l’alternative qu’offrent les moteurs de recherche et les approches NoSQL aux bases de données relationnelles. Des subtilités sur l’analyse du texte ont été abordées afin de montrer les forces mais aussi les limites de la magie Lucene. Les démonstrations de chaque technologie et des outils dans leur écosystème ont rendu la présentation plus interactive.

La vidéo de la présentation se trouve sur Parleys (http://www.parleys.com/#st=5&id=3351).

Publié dans : Technologie
0 commentaire
2 j’aime
Statistiques
Remarques
  • Soyez le premier à commenter

Aucun téléchargement
Vues
Nombre de vues
2 403
Sur SlideShare
0
Issues des intégrations
0
Intégrations
19
Actions
Partages
0
Téléchargements
16
Commentaires
0
J’aime
2
Intégrations 0
Aucune incorporation

Aucune remarque pour cette diapositive
  • Comment sont apparus les moteurs de recherche Fonctions: indexation, recherche, analyse du texte!!! Avant : Information structurées par domaine applicatif ; base de données (table, colonne), FS (fichier, contenu), Site Web (Plan de site et pages) process d’accès a l’information : naviguer / parcourir puis filtrer/trier navigation dans tout l’espace recherché Apres : Information non structurée et héterogènes : Process : Search puis filtrer / trier : navigation dans le résultat
  • Comment sont apparus les moteurs de recherche Fonctions: indexation, recherche, analyse du texte!!! Avant : Information structurées par domaine applicatif ; base de données (table, colonne), FS (fichier, contenu), Site Web (Plan de site et pages) process d’accès a l’information : naviguer / parcourir puis filtrer/trier navigation dans tout l’espace recherché Apres : Information non structurée et héterogènes : Process : Search puis filtrer / trier : navigation dans le résultat
  • Que peut faire un moteur de recherche? BD – en complément ou en remplacement BI + navigation sur les sites web
  • Que peut faire un moteur de recherche? BD – en complément ou en remplacement BI + navigation sur les sites web
  • Autres possibilités : - Envoi des documents en HTTP (XML, JSON) - Importer une BD - Charger un fichier CSV - Indexer des fichiers binaires (Word, Excel, PDF) - Envoi des documents en Java (SolrJ) - Crawling des sites web
  • + highlighting ! Ne pas utiliser prefix query
  • Solr and Elasticsearch in Action (at Breizhcamp)

    1. 1. Solr in Action ElasticSearch in Action @LucianPrecup @Breizhcamp 2012-06-14
    2. 2. Objectif • Patterns d’architecture • Outils pour démarrer et exploiter au mieux les technologies • Solr – Léger accent sur l’indexation • ElasticSearch – Léger accent sur la recherche • Démos
    3. 3. Historique - avant BDidx Appli Répertoire file file file < > < > < > www Browse Filter Sort Get
    4. 4. Historique - après BDidx Appli Répertoire file file file < > < > < > www Index Search Filter Sort Get
    5. 5. Technologies • Google Search Appliance • MS FAST Search • Apache Solr • Elastic Search • …
    6. 6. Fonctionnalités • Indexation – Données non-structurées (fichiers) – Données semi-structurées (email) – Analyse du texte • Recherche – Fulltext, multicritère, suggestion – Facettes, filtres, tris
    7. 7. Autres utilisations • Base de données • BI
    8. 8. Intégration Solr • Clustering : répartiteur de charge et redondance des SA • Indexation en masse : dizaine de millions de documents • Fonctions avancées d’analyse du texte
    9. 9. Démo Solr – alimenter l’index • Importer une BD • Join • Entités et référencement avec ${parent.ID} • GROUP_CONCAT • Indexer des fichiers binaires (Word, Excel, PDF)
    10. 10. Types de champs dans l’index • stored / not_stored • analyzed / not_analyzed • Champs de recherche • Champs de tri • Champs pour l’affichage • Champs pour les facettes • Champs mixtes
    11. 11. Démo Solr – auto-complétion
    12. 12. Analyzers / Tokenizers / Token filters Document entrée  Indexation Recherche Id Nom 1 Céline Ascii folding  Celine Lowercase  celine EdgeNGram  ce cel celi celin celine Clé Id document ce 1 cel 1 celi 1 celin 1 celine 1 Index  Terme recherché Nom Céli Celi  Ascii folding celi  Lowercase
    13. 13. Solr – zoom sur les outils • Luke • Explain • Solr Admin (stats, query form, analysis) • Solr browse search UI
    14. 14. ElasticSearch - spécificités • Clustering • Schéma auto • « Rivers » et indexation en temps réel
    15. 15. Intégration – ElasticSearch • Clustering : p2p • Indexation au fil de l’eau
    16. 16. ElasticSearch - clustering
    17. 17. ElasticSearch – zoom sur les outils • curl • ESHead • "explain" : 1
    18. 18. Démo – Pertinence • Comment est calculé le score • Comment influencer le score
    19. 19. Démo - recherche • Analyse à la recherche, requêtes composés • Highlighting • Fuzzy • Facettes • Filtres
    20. 20. Use case métier • E-commerce – Beaucoup de critères de pertinence à implémenter • Ressources humaines – Recherche de personnes – Recherche full-texte (catalogues formation, CVs, compétences) • Assurances – Modèle métier personne-contrat-sinistre

    ×