Fouillez facilement dans
votre système Big Data
Olivier TAVARD
01/07/14
SophiaConf
A propos de moi :
 Cofondateur de la société France Labs
 Développeur (principalement Java)
 Formateur en technologies ...
Rappels sur Hadoop
Présentation (rapide) de Solr
Intégration d’Hadoop et de Solr
Démo
Hadoop
Créé par Doug Cutting en 2004
A l’origine pour Lucene : Projet Nutch
Framework open source
Inspiré par les papiers ...
Hadoop
Traiter des grands volumes de données en un
minimum de temps
Stocker des immenses volumes de données
Fonctionne sur...
Hadoop
Architecture (très) simplifiée de Hadoop v1
Nœud 1 Nœud 3Nœud 2 Nœud 4
Couche Traitement (MapReduce)
Couche Stockag...
Hadoop
Couche stockage (HDFS)
 Système de fichier distribué
 Utilise les disques « normaux » de chacun
des nœuds…
…pour ...
Hadoop
Couche traitement (MapReduce)
 Hadoop exécute des jobs Map Reduce
 Un algorithme doit donc implémenter:
• Un mapp...
Clé1 : Val1
Clé2 : Val2
Clé3 : Val3
Clé4 : Val4
Hadoop
Mapper
 Prend des données en entrée
 Et les transforme en paire d...
Clé 1 : Val2
Clé 2 : Val2
Clé 1 : Val3
Clé 2 : Val4
Reducer
 Combine les valeurs ayant la même clé
Clé1 : Val5
Clé2 : Val...
Hadoop
Un exemple simple?
 On a en entrée plusieurs textes
 On veut compter le nombre d’occurrences
des mots
 De manièr...
Apache : 4
Solr : 2
Lucene : 3
…
Apache : 1
Apache : 1
Solr : 1
Lucene : 1
…
Apache : 1
Solr : 1
Lucene : 1
…
Apache : 1
L...
Hadoop 2
HDFS 2 :
 Haute disponibilité NameNode
 Support de NFS
Hadoop 2
YARN
 Gestion jobs et ressources
Ecosytème
Rappels sur Hadoop
Présentation (rapide) de Solr
Intégration d’Hadoop et de Solr
Démo
La recherche est un oignon matriciel!
Un outil qui permet:
 De créer un index à partir de documents
INDEX
A quoi ça ressemble ?
Facettes
Spellcheck
Autocomplete
Géolocalisation
Highlighting
More Like This
 Obtenir des documents similaires à un document
 Similarité textuelle
Autres fonctionnalités
Business Intelligence (BI)/Marketing
Analyse de logs (for devops)
Solr Cloud
Solr Cloud permet la mise à l’échelle:
 Architecture flexible en cluster de serveurs
 Volumétrie élevée
 Mon...
Tester Solr
Démo !
https://www.youtube.com/watch?v=asVQ
OkJPZzc
Rappels sur Hadoop
Présentation (rapide) de Solr
Intégration d’Hadoop et de Solr
Démo
Projets liés
1999
2002
2004
2010
2005
Exemples de scénarios Big Data
 Text mining
 Création et analyse de graphes
 Reconnaissance de patterns
 Moteurs de re...
Hadoop pour les recommandations
Hadoop pour les recommandations
Lucene pour la recherche d’utilisateurs
Exemples d’utilisation d’Hadoop
Netflix
• Site de streaming légal de vidéos
• Avant Hadoop :
- Logs étaient traités pendan...
Exemples d’utilisation Big Data
Amazon CloudSearch
• Utilisation de Solr depuis Mars 2014
• Scalable
• Performant
Scénario : analyse de tickets de caisse
 Que faire des données brutes ?
 Comment les analyser, les traiter ?
 Comment r...
Hadoop et Solr indépendants
 Traitements et calculs sur Hadoop (ex : Pig)
• Import d’un CSV avec Pig
• Opérations : analy...
Index Solr
Avantages :
 Si cluster Solr déjà présent, ajout d’un index Solr
dédié
 Mature
Inconvénients:
 Réplication de HDFS vers...
Stockage de l’index de Solr sur HDFS
 Lancement de Solr avec utilisation de HDFS
2e niveau niveau d’intégration
Avantages :
 Tolérance aux pannes
 Gain espace disque (cluster Hadoop déjà existant
avec HDFS)
2e niveau niveau d’intégr...
Création de l’index Solr à l’aide de jobs Map
Reduce
 Travail en cours
(https://issues.apache.org/jira/browse/SOLR-1045)
...
Fonctionnalité de Search basée sur Solr
intégrée par plusieurs distributions
 MapR
 Cloudera Search
 Hortonworks
 Luci...
Rappels sur Hadoop
Présentation (rapide) de Solr
Intégration d’Hadoop et de Solr
Démo
Work in progress
Scénario des tickets de caisse
Etape 1 : import dans Pig des tickets en CSV
Etape 2 : opérations sur les ...
Work in progress
Solr directement couplé avec Hadoop
Démo !
Site web : www.francelabs.com
Email : contact@francelabs.com
Twitter : @Francelabs #Datafari
Prochain SlideShare
Chargement dans…5
×

Solr + Hadoop - Fouillez facilement dans votre système Big Data

1 784 vues

Publié le

Un système Hadoop a pour but de facilement gérer le Big Data, que ce soit en termes de stockage comme en termes de calculs. Il ne se focalise pas sur l’exploration des données qu’il héberge. Le moteur de recherche Apache Solr devient l’outil de recherche de référence dans l’écosystème Hadoop, adopté par Cloudera et HortonWorks. Dans cette intervention, ils présentent d’abord un historique des 2 projets, pour bien comprendre leurs liens. Ils expliquent ensuite les différents niveaux d’intégrations possibles, et ils terminent par une démonstration d’intégration, afin de comprendre les avantages d’utiliser Solr pour explorer le big data d’un Hadoop.

Publié dans : Internet
0 commentaire
0 j’aime
Statistiques
Remarques
  • Soyez le premier à commenter

  • Soyez le premier à aimer ceci

Aucun téléchargement
Vues
Nombre de vues
1 784
Sur SlideShare
0
Issues des intégrations
0
Intégrations
23
Actions
Partages
0
Téléchargements
51
Commentaires
0
J’aime
0
Intégrations 0
Aucune incorporation

Aucune remarque pour cette diapositive

Solr + Hadoop - Fouillez facilement dans votre système Big Data

  1. 1. Fouillez facilement dans votre système Big Data Olivier TAVARD 01/07/14 SophiaConf
  2. 2. A propos de moi :  Cofondateur de la société France Labs  Développeur (principalement Java)  Formateur en technologies de moteurs de recherche (Solr, Elasticsearch) A propos de France Labs :  Startup créée en 2011  Experts en technos de search (consulting)  Partenaire officiel de LucidWorks  Editeur de la solution Datafari
  3. 3. Rappels sur Hadoop Présentation (rapide) de Solr Intégration d’Hadoop et de Solr Démo
  4. 4. Hadoop Créé par Doug Cutting en 2004 A l’origine pour Lucene : Projet Nutch Framework open source Inspiré par les papiers sur Google Map Reduce et Google File System
  5. 5. Hadoop Traiter des grands volumes de données en un minimum de temps Stocker des immenses volumes de données Fonctionne sur machines de configuration faible et peu coûteuses
  6. 6. Hadoop Architecture (très) simplifiée de Hadoop v1 Nœud 1 Nœud 3Nœud 2 Nœud 4 Couche Traitement (MapReduce) Couche Stockage (HDFS)
  7. 7. Hadoop Couche stockage (HDFS)  Système de fichier distribué  Utilise les disques « normaux » de chacun des nœuds… …pour donner l’impression de n’utiliser qu’un seul énorme disque  Fiable (données répliquées 3 fois)
  8. 8. Hadoop Couche traitement (MapReduce)  Hadoop exécute des jobs Map Reduce  Un algorithme doit donc implémenter: • Un mapper • Un reducer  Pour être executé de manière distribuée par Hadoop en tant que job
  9. 9. Clé1 : Val1 Clé2 : Val2 Clé3 : Val3 Clé4 : Val4 Hadoop Mapper  Prend des données en entrée  Et les transforme en paire de clé valeur Mapper
  10. 10. Clé 1 : Val2 Clé 2 : Val2 Clé 1 : Val3 Clé 2 : Val4 Reducer  Combine les valeurs ayant la même clé Clé1 : Val5 Clé2 : Val6 Reducer Hadoop
  11. 11. Hadoop Un exemple simple?  On a en entrée plusieurs textes  On veut compter le nombre d’occurrences des mots  De manière distribuée  En utilisant un job Map Reduce Datafari Datafari est notre solution open source de recherche d'entreprises, basée sur Lucene, Solr, et le framework de connecteurs Apache ManifoldCF. Solr Apache Solr est une couche web open source basée sur la librairie de recherche Apache Lucene. Elle ajoute des fonctionnalités de serveur web, du faceting. Lucene Apache Lucene est un moteur de recherche et d'indexation, en open source.
  12. 12. Apache : 4 Solr : 2 Lucene : 3 … Apache : 1 Apache : 1 Solr : 1 Lucene : 1 … Apache : 1 Solr : 1 Lucene : 1 … Apache : 1 Lucene : 1 … Hadoop Datafari Datafari est notre solution open source de recherche d'entreprises, basée sur Lucene, Solr, et le framework de connecteurs Apache ManifoldCF. Solr Apache Solr est une couche web open source basée sur la librairie de recherche Apache Lucene. Elle ajoute des fonctionnalités de serveur web, du faceting. Lucene Apache Lucene est un moteur de recherche et d'indexation, en open source. Reducer Mapper Mapper Mapper
  13. 13. Hadoop 2 HDFS 2 :  Haute disponibilité NameNode  Support de NFS
  14. 14. Hadoop 2 YARN  Gestion jobs et ressources
  15. 15. Ecosytème
  16. 16. Rappels sur Hadoop Présentation (rapide) de Solr Intégration d’Hadoop et de Solr Démo
  17. 17. La recherche est un oignon matriciel!
  18. 18. Un outil qui permet:  De créer un index à partir de documents INDEX
  19. 19. A quoi ça ressemble ?
  20. 20. Facettes
  21. 21. Spellcheck
  22. 22. Autocomplete
  23. 23. Géolocalisation
  24. 24. Highlighting More Like This  Obtenir des documents similaires à un document  Similarité textuelle Autres fonctionnalités
  25. 25. Business Intelligence (BI)/Marketing
  26. 26. Analyse de logs (for devops)
  27. 27. Solr Cloud Solr Cloud permet la mise à l’échelle:  Architecture flexible en cluster de serveurs  Volumétrie élevée  Montée en charge  Tolérance aux pannes
  28. 28. Tester Solr Démo ! https://www.youtube.com/watch?v=asVQ OkJPZzc
  29. 29. Rappels sur Hadoop Présentation (rapide) de Solr Intégration d’Hadoop et de Solr Démo
  30. 30. Projets liés 1999 2002 2004 2010 2005
  31. 31. Exemples de scénarios Big Data  Text mining  Création et analyse de graphes  Reconnaissance de patterns  Moteurs de recommandations, ciblage publicité  Analyse de menaces, surveillances de marchés
  32. 32. Hadoop pour les recommandations
  33. 33. Hadoop pour les recommandations
  34. 34. Lucene pour la recherche d’utilisateurs
  35. 35. Exemples d’utilisation d’Hadoop Netflix • Site de streaming légal de vidéos • Avant Hadoop : - Logs étaient traités pendant la nuit - Importés dans une BDD - Analyse/BI - => Il fallait plus de 24h pour traiter une journée de logs • Avec Hadoop : - En seulement une heure de jobs Hadoop les données sont traitées - Traite quotidiennement 1 To de données par jour approximativement • Solr - Recherche de contenus par l’utilisateur
  36. 36. Exemples d’utilisation Big Data Amazon CloudSearch • Utilisation de Solr depuis Mars 2014 • Scalable • Performant
  37. 37. Scénario : analyse de tickets de caisse  Que faire des données brutes ?  Comment les analyser, les traiter ?  Comment rechercher dedans ?  => Solution : Hadoop et Solr !
  38. 38. Hadoop et Solr indépendants  Traitements et calculs sur Hadoop (ex : Pig) • Import d’un CSV avec Pig • Opérations : analyse, calculs panier moyen, TVA etc…  Export des données d’Hadoop • Génération d’un fichier XML avec Pig  Indexation dans un Solr standalone (ex : DIH) • Utilisation d’une contribution de Solr : DIH 1er niveau d’intégration
  39. 39. Index Solr
  40. 40. Avantages :  Si cluster Solr déjà présent, ajout d’un index Solr dédié  Mature Inconvénients:  Réplication de HDFS vers système de fichiers du Solr 1er niveau d’intégration
  41. 41. Stockage de l’index de Solr sur HDFS  Lancement de Solr avec utilisation de HDFS 2e niveau niveau d’intégration
  42. 42. Avantages :  Tolérance aux pannes  Gain espace disque (cluster Hadoop déjà existant avec HDFS) 2e niveau niveau d’intégration
  43. 43. Création de l’index Solr à l’aide de jobs Map Reduce  Travail en cours (https://issues.apache.org/jira/browse/SOLR-1045)  Contrib expérimentale fournie avec Solr  Avantages : • Augmentation des performance d’indexation sur de gros volumes de données • Très utile si indexes déjà construits par HDFS Différents niveau d’intégration
  44. 44. Fonctionnalité de Search basée sur Solr intégrée par plusieurs distributions  MapR  Cloudera Search  Hortonworks  Lucidworks Solr
  45. 45. Rappels sur Hadoop Présentation (rapide) de Solr Intégration d’Hadoop et de Solr Démo
  46. 46. Work in progress Scénario des tickets de caisse Etape 1 : import dans Pig des tickets en CSV Etape 2 : opérations sur les données avec Pig Etape 3 : indexation des données en Solr Etape 4 : recherche sur ces données avec Solr
  47. 47. Work in progress
  48. 48. Solr directement couplé avec Hadoop Démo !
  49. 49. Site web : www.francelabs.com Email : contact@francelabs.com Twitter : @Francelabs #Datafari

×