SlideShare une entreprise Scribd logo
1  sur  27
#Hadoop Stories avec Infotel & Ericsson
#Hadoop Summit overview
Twitter : #hugfr
Follow @hugfrance
Sommaire
Historique Infotel en 2mn
Classification dans le monde du brevet
Hadoop + MongoDB + ElasticSearch
pour un portail survitaminé
Q?/R
11 Juin 2014
PART 1 :
CLASSIFICATION
SUPERVISEE
8 Octobre 2013
Comment Hadoop s’est imposé à
Infotel ?
Au départ, en 1979, était le MainFrame
11 Juin 2014
Automobile &
Industrie
Banque &
Finance
Transport
Services
Comment Hadoop s’est imposé à
Infotel ?
Une expertise sur la gestion de grands volumes de
données non démentie dans le temps
11 Juin 2014
Comment Hadoop s’est imposé à
Infotel ?
En 2014, le MainFrame est toujours là!
11 Juin 2014
Banque & Finance
Aéronautique & Services
Mobile / Web
Assurance, retraite
Propriété Intellectuelle
Construction automobile
BI
Office de brevet: les grandes lignes métier
Qualifier les demandes de brevets émises auprès de
l’office.
Confronter les requêtes auprès de l’historique interne
Valider la pertinence au regard des autres offices
Offrir des outils de mise à disposition de l’information:
Aux entreprises et au grand public pour qu’il puisse faire
des recherches d’antécédents ainsi qu’un suivi de leur
demandes,
Aux offices nationaux et internationaux
11 Juin 2014
Les familles d’applications d’un office de
brevet
811 Juin 2014
Notre projet :
Classification de la ‘Non-Patent Litterature’
11 Juin 2014
130 Millions de documents
Acquis par divers flux:
Web (crawling, plugin FF) / ‘Bibliothèques’ / OCR
Labelliser, Identifier & Classer
La classification sert à :
 Améliorer le patrimoine documentaire
o Meilleure organisation,
o Nettoyage (doublons)
 Créer des opportunités de parcours et de recherche
Aperçu de l’algorithme
Première étape : générer la carte d’identité ou l’ADN pour chaque
document
11 Juin 2014
1,4 Milliard de clés composites générées pour marquer chaque
document
Une volumétrie en entrée modeste, mais une volumétrie
temporaire et une puissance de calcul importantes.
Q DocId Key
[99] 000025829793 [99]-10.1016/0015-6264(68)90089-8
[90] 000025829793 [90]-0015-6264-6-1-65-FOCOTO
[85] 000025829793 [85]0015-6264-FOCOTO-1-65
[80] 000025829793 [80]0015-6264-6-FOCOTO-65
[75] 000025829793 [75]0015-6264-6-1-FOCOTO
[68] 000025829793 [68]0015-6264-6-1-65
[65] 000025829793 [65]0015-6264-0-1-65
[60] 000025829793 [60]0015-6264-6-0-65
[55] 000025829793 [55]0015-6264-6-1-0
[50] 000025829793 [50]0015-6264-0FOCOTO-65
[45] 000025829793 [45]0015-6264-FOCOTO-0-65
[45] 000025829793 [45]0015-6264-0-1-FOCOTO
[40] 000025829793 [40]0015-6264-6-0-FOCOTO
[40] 000025829793 [40]0015-6264-FOCOTO-1-0
[35] 000025829793 [35]0015-6264-6-FOCOTO-0
[01] 000025829793 [01]000025829793
Qualité
(pondération)
Valeur
Aperçu de l’algorithme
Deuxième étape : appliquer une stratégie de ‘Community detection algorithm’
11 Juin 2014
Ex : Classification de cellules
Principes simplifié
Notre classification
documentaire:
- Trouver les liens forts,
- Casser les liens faibles,
- Limiter les faux-positifs,
Aperçu de l’algorithme
Concordance et Non-concordance de clés
11 Juin 2014
Calculer la proximité de documents dans le Corpus
Le document qui postule est trop éloigné
de la clé d’identité du groupe
Transposition en MAP / Reduce
17 Itérations
11 juin 2014
Q DocId Key
[99] 000025829793 [99]-10.1016/0015-6264(68)90089-8
[90] 000025829793 [90]-0015-6264-6-1-65-FOCOTO
[85] 000025829793 [85]0015-6264-FOCOTO-1-65
[80] 000025829793 [80]0015-6264-6-FOCOTO-65
[75] 000025829793 [75]0015-6264-6-1-FOCOTO
[68] 000025829793 [68]0015-6264-6-1-65
[65] 000025829793 [65]0015-6264-0-1-65
[60] 000025829793 [60]0015-6264-6-0-65
[55] 000025829793 [55]0015-6264-6-1-0
[50] 000025829793 [50]0015-6264-0FOCOTO-65
[45] 000025829793 [45]0015-6264-FOCOTO-0-65
[45] 000025829793 [45]0015-6264-0-1-FOCOTO
[40] 000025829793 [40]0015-6264-6-0-FOCOTO
[40] 000025829793 [40]0015-6264-FOCOTO-1-0
[35] 000025829793 [35]0015-6264-6-FOCOTO-0
[01] 000025829793 [01]000025829793
Constructiondel’arbre
Mainframe vs Hadoop : le match
11 juin 2014
MainFrame Hadoop
Coûts de développement
Utilisation du
générateur d e
clés Java
Coûts de mise en production
HW + Soft
Commodity
Hardware
Disques (300Go
temp) + MSU
Ouverture à de nouveaux usages
Intégration avec la
classification temps
réel
Complexité de mise en œuvre
Connecteurs
MF 2 Hadoop
Données sous MF
Avantage à Hadoop (léger)
Hors jeu de par son MapReduce non
Robuste, MongoDB est utile sur la
chaine de traitement
Architecture technique globale
11 juin 2014
DB2
Dump
XML + EBCDIC
Clés générées
sur MongoDB
En Java
ETL
MongoDB
2 collections:
biblio + clé
++ schemaless
Hadoop
BSON
BSON
150Gb
Par MongoDB
Connector
200 Gb
Vérification & stats
EBCDIC
Run >= 12h
Focus cluster
Hadoop:
Un cluster modeste de 7
nœuds
32Go RAM / 4 cœur
Facteur de réplication : 3
11 juin 2014
Résultat
La classification
…et les restitutions
graphiques de la phase de
validation
Performance Tips
Enchainement de 33 jobs
Passage de 1h à 25mn pour le plus
coûteux
Optimisation des paramètres pour
exploiter toutes les ressources du
cluster
Nombre de Reducer,
Ajustement de l’allocation mémoire,
Equilibrage entre les deux disques
présents sur chaque nœud
Répartition des opérations de lecture
/écriture
11 juin 2014
Optimisation du map et du reduce
mapreduce.task.io.sort.mb
mapreduce.task.io.sort.factor
etc…
dfs.datanode.data.dir et
yarn.nodemanager.local-dirs
Performance Tips 2/2
Compression
Gain important lors du
shuffle avec la compression
Taille des blocks HDFS
JVM et mémoire
Une batterie de paramètres
finement ajustés
Taille occupée par la tâche en
RAM, taille de la JVM, taille des
mémoires tampons, etc ...
A suivre ….
11 juin 2014
mapreduce.output.fileoutputformat.compress
mapreduce.output.fileoutputformat.compress.codec
mapreduce.map.memory.mb
mapreduce.reduce.memory.mb
Points divers
L’équipe
1 CP
4 Développeurs Hadoop / Java / MongoDB
1 Développeur MainFrame
La suite :
Industrialisation des flux,
Spark !: transposition de l’algorithme pour
accélérer drastiquement les traitements
Utilisation en mode ‘Temps Réel / Incrémental’
11 juin 2014
PART 2
UN PORTAIL
SURVITAMINE
11 juin 2014
DataMining & BigData
Baobab : Explorer une galaxie documentaire
Objectif n° 1:
Acquérir / Stocker / indexer
Objectif n° 2:
…..
Objectif n° 3:
…..
photos vidéos
Données & méta
données 10 To
synchro
MongoDB ElasticSearch
mainframe
DataMining & BigData
Baobab : Explorer une galaxie documentaire
Objectif n° 1:
Acquérir / Stocker / indexer
Objectif n° 2:
Rechercher intelligemment et
Visualiser
Objectif n° 3:
…..
Visualisation
Répartition
dans le temps
Répartition
géographique
Recherche
‘plein texte’ en qqs ms
Recherche par critères
Parcours par
proximité
Lecture
ergonomique
DataMining & BigData
Baobab : Explorer une galaxie documentaire
Objectif n° 1:
Acquérir / Stocker / indexer
Objectif n° 2:
Rechercher intelligemment et
Visualiser
Objectif n° 3:
Comprendre et suggérer
Exploration statistique supervisée et non supervisée pour
‘comprendre’
Hadoop
TF - IDF
Dictionnaire
/ langue
Règles
métier
Extraction des mots
pertinents
Nettoyage
d’informations
parasites et affinage
Alignement sur les
spécificités du domaine
BOOST de SCORE
DataMining & BigData
Baobab : Explorer une galaxie documentaire
Objectif n° 1:
Acquérir / Stocker / indexer
Objectif n° 2:
Rechercher intelligemment et
Visualiser
Objectif n° 3:
Comprendre et suggérer
Nuages de mots
hexafluoride
uranium
fluorine
Recommandations
Tendances Classification supervisée / non
supervisée
VIDEO
Prochainement
11 juin 2014
Machine Learning avec Spark – Classification hiérarchique de documents texte
11 juin 2014
A suivre…
Notre livre blanc
http://infotel.com/services/big-data-360/formulaire-livreblanc/
@hstef
hubert.stefani@infotel.com

Contenu connexe

Tendances

Hadoop and friends : introduction
Hadoop and friends : introductionHadoop and friends : introduction
Hadoop and friends : introduction
fredcons
 

Tendances (16)

Hadopp Vue d'ensemble
Hadopp Vue d'ensembleHadopp Vue d'ensemble
Hadopp Vue d'ensemble
 
Introduction à HDFS
Introduction à HDFSIntroduction à HDFS
Introduction à HDFS
 
Spark une alternative à Hadoop MapReduce pour le Datamining
Spark une alternative à Hadoop MapReduce pour le DataminingSpark une alternative à Hadoop MapReduce pour le Datamining
Spark une alternative à Hadoop MapReduce pour le Datamining
 
Une introduction à MapReduce
Une introduction à MapReduceUne introduction à MapReduce
Une introduction à MapReduce
 
Une introduction à Hive
Une introduction à HiveUne introduction à Hive
Une introduction à Hive
 
HCatalog
HCatalogHCatalog
HCatalog
 
Hug france - Administration Hadoop et retour d’expérience BI avec Impala, lim...
Hug france - Administration Hadoop et retour d’expérience BI avec Impala, lim...Hug france - Administration Hadoop et retour d’expérience BI avec Impala, lim...
Hug france - Administration Hadoop et retour d’expérience BI avec Impala, lim...
 
Journées SQL 2014 - Hive ou la convergence entre datawarehouse et Big Data
Journées SQL 2014 - Hive ou la convergence entre datawarehouse et Big DataJournées SQL 2014 - Hive ou la convergence entre datawarehouse et Big Data
Journées SQL 2014 - Hive ou la convergence entre datawarehouse et Big Data
 
HDFS HA : Stockage à haute disponibilité par Damien Hardy
HDFS HA : Stockage à haute disponibilité par Damien HardyHDFS HA : Stockage à haute disponibilité par Damien Hardy
HDFS HA : Stockage à haute disponibilité par Damien Hardy
 
Une introduction à HBase
Une introduction à HBaseUne introduction à HBase
Une introduction à HBase
 
Talend Open Studio for Big Data (powered by Apache Hadoop)
Talend Open Studio for Big Data (powered by Apache Hadoop)Talend Open Studio for Big Data (powered by Apache Hadoop)
Talend Open Studio for Big Data (powered by Apache Hadoop)
 
Hadoop MapReduce - OSDC FR 2009
Hadoop MapReduce - OSDC FR 2009Hadoop MapReduce - OSDC FR 2009
Hadoop MapReduce - OSDC FR 2009
 
Hadoop Hbase - Introduction
Hadoop Hbase - IntroductionHadoop Hbase - Introduction
Hadoop Hbase - Introduction
 
Hadoop et son écosystème
Hadoop et son écosystèmeHadoop et son écosystème
Hadoop et son écosystème
 
Casablanca Hadoop & Big Data Meetup - Introduction à Hadoop
Casablanca Hadoop & Big Data Meetup - Introduction à HadoopCasablanca Hadoop & Big Data Meetup - Introduction à Hadoop
Casablanca Hadoop & Big Data Meetup - Introduction à Hadoop
 
Hadoop and friends : introduction
Hadoop and friends : introductionHadoop and friends : introduction
Hadoop and friends : introduction
 

En vedette

Manual del huerto_urbano
Manual del huerto_urbanoManual del huerto_urbano
Manual del huerto_urbano
Gabu Chic
 
Plateau d' ennedi fh
Plateau d' ennedi fh Plateau d' ennedi fh
Plateau d' ennedi fh
Sofija J.
 
FORMENTERA, Vivez la Méditerranée
FORMENTERA, Vivez la MéditerranéeFORMENTERA, Vivez la Méditerranée
FORMENTERA, Vivez la Méditerranée
atb20
 
Lina plan clases
Lina plan clasesLina plan clases
Lina plan clases
lina2811
 
2014's Top 10 Antioxidant Supplements
2014's Top 10 Antioxidant Supplements2014's Top 10 Antioxidant Supplements
2014's Top 10 Antioxidant Supplements
Top10Supplements.com
 
Presentación4
Presentación4Presentación4
Presentación4
hayrton95
 

En vedette (20)

Manual del huerto_urbano
Manual del huerto_urbanoManual del huerto_urbano
Manual del huerto_urbano
 
Plateau d' ennedi fh
Plateau d' ennedi fh Plateau d' ennedi fh
Plateau d' ennedi fh
 
IMARK : initiative internationale d’apprentissage numérique sur la gestion de...
IMARK : initiative internationale d’apprentissage numérique sur la gestion de...IMARK : initiative internationale d’apprentissage numérique sur la gestion de...
IMARK : initiative internationale d’apprentissage numérique sur la gestion de...
 
Si leo la vida con las tic’s...
Si leo la vida con las tic’s...Si leo la vida con las tic’s...
Si leo la vida con las tic’s...
 
Recursos humanos
Recursos humanosRecursos humanos
Recursos humanos
 
Degrado Igienico in Lama
 Degrado Igienico in Lama Degrado Igienico in Lama
Degrado Igienico in Lama
 
Ledo rumai
Ledo rumaiLedo rumai
Ledo rumai
 
PE fase estrategica
PE fase estrategicaPE fase estrategica
PE fase estrategica
 
Semana Europea de la Gestión Avanzada 2015 - Claves, Estrategia, Personas
Semana Europea de la Gestión Avanzada 2015 - Claves, Estrategia, PersonasSemana Europea de la Gestión Avanzada 2015 - Claves, Estrategia, Personas
Semana Europea de la Gestión Avanzada 2015 - Claves, Estrategia, Personas
 
Violence
ViolenceViolence
Violence
 
La premiere fois
La premiere foisLa premiere fois
La premiere fois
 
FORMENTERA, Vivez la Méditerranée
FORMENTERA, Vivez la MéditerranéeFORMENTERA, Vivez la Méditerranée
FORMENTERA, Vivez la Méditerranée
 
Présentation MyScienceWork aux journées ISIDORA
Présentation MyScienceWork aux journées ISIDORAPrésentation MyScienceWork aux journées ISIDORA
Présentation MyScienceWork aux journées ISIDORA
 
Et si Internet vous aidez à trouver un emploi ?
Et si Internet vous aidez à trouver un emploi ?Et si Internet vous aidez à trouver un emploi ?
Et si Internet vous aidez à trouver un emploi ?
 
Le mundaneum
Le mundaneumLe mundaneum
Le mundaneum
 
Lina plan clases
Lina plan clasesLina plan clases
Lina plan clases
 
2014's Top 10 Antioxidant Supplements
2014's Top 10 Antioxidant Supplements2014's Top 10 Antioxidant Supplements
2014's Top 10 Antioxidant Supplements
 
Presentación4
Presentación4Presentación4
Presentación4
 
Navegadores, pagina web y buscadores
Navegadores, pagina web y buscadoresNavegadores, pagina web y buscadores
Navegadores, pagina web y buscadores
 
2014 formation documentaire_dan1040
2014 formation documentaire_dan10402014 formation documentaire_dan1040
2014 formation documentaire_dan1040
 

Similaire à Hugfr infotel-11 juin2014

IBM Technology Day 2013 IBM Smarter Computing Y. de Visme Salle Rome
IBM Technology Day 2013 IBM Smarter Computing Y. de Visme Salle RomeIBM Technology Day 2013 IBM Smarter Computing Y. de Visme Salle Rome
IBM Technology Day 2013 IBM Smarter Computing Y. de Visme Salle Rome
IBM Switzerland
 

Similaire à Hugfr infotel-11 juin2014 (20)

Cahier des charges
Cahier des charges Cahier des charges
Cahier des charges
 
Présentation Big Data et REX Hadoop
Présentation Big Data et REX HadoopPrésentation Big Data et REX Hadoop
Présentation Big Data et REX Hadoop
 
cookbook-fr
cookbook-frcookbook-fr
cookbook-fr
 
Future of data center french
Future of data center frenchFuture of data center french
Future of data center french
 
Future of data center french
Future of data center frenchFuture of data center french
Future of data center french
 
Pj hug 07_04_2016
Pj hug 07_04_2016Pj hug 07_04_2016
Pj hug 07_04_2016
 
Atelier Data Center - FWT15 Paris GRT Oracle SNECMA
 Atelier Data Center -  FWT15 Paris GRT Oracle SNECMA Atelier Data Center -  FWT15 Paris GRT Oracle SNECMA
Atelier Data Center - FWT15 Paris GRT Oracle SNECMA
 
Newsletter du User Group Informix France
Newsletter du User Group Informix FranceNewsletter du User Group Informix France
Newsletter du User Group Informix France
 
Core web vitals pour unifier UX et SEO - Stephane Rios - SEO Camp'us paris 2020
Core web vitals pour unifier UX et SEO - Stephane Rios - SEO Camp'us paris 2020Core web vitals pour unifier UX et SEO - Stephane Rios - SEO Camp'us paris 2020
Core web vitals pour unifier UX et SEO - Stephane Rios - SEO Camp'us paris 2020
 
IBM Technology Day 2013 IBM Smarter Computing Y. de Visme Salle Rome
IBM Technology Day 2013 IBM Smarter Computing Y. de Visme Salle RomeIBM Technology Day 2013 IBM Smarter Computing Y. de Visme Salle Rome
IBM Technology Day 2013 IBM Smarter Computing Y. de Visme Salle Rome
 
1 pourquoi le big data aujourdhui
1 pourquoi le big data aujourdhui1 pourquoi le big data aujourdhui
1 pourquoi le big data aujourdhui
 
IBM FlashSystem : Les bonnes raisons de passer au Flash
IBM FlashSystem : Les bonnes raisons de passer au Flash IBM FlashSystem : Les bonnes raisons de passer au Flash
IBM FlashSystem : Les bonnes raisons de passer au Flash
 
Core Web Vitals, les indicateurs de vitesse qui réconcilient UX et SEO
Core Web Vitals, les indicateurs de vitesse qui réconcilient UX et SEOCore Web Vitals, les indicateurs de vitesse qui réconcilient UX et SEO
Core Web Vitals, les indicateurs de vitesse qui réconcilient UX et SEO
 
55174240 rapport-cloud-computing
55174240 rapport-cloud-computing55174240 rapport-cloud-computing
55174240 rapport-cloud-computing
 
Dans les coulisses de Google BigQuery - DevFest Toulouse 2016
Dans les coulisses de Google BigQuery - DevFest Toulouse 2016Dans les coulisses de Google BigQuery - DevFest Toulouse 2016
Dans les coulisses de Google BigQuery - DevFest Toulouse 2016
 
Réalité augmentée et Big Data dans Azure
Réalité augmentée et Big Data dans AzureRéalité augmentée et Big Data dans Azure
Réalité augmentée et Big Data dans Azure
 
Software-Defined Storage
Software-Defined StorageSoftware-Defined Storage
Software-Defined Storage
 
Td2010 Gre204 V1
Td2010 Gre204 V1Td2010 Gre204 V1
Td2010 Gre204 V1
 
Drupal & Mobilité
Drupal & MobilitéDrupal & Mobilité
Drupal & Mobilité
 
Présentation/Atelier comm vault
Présentation/Atelier comm vaultPrésentation/Atelier comm vault
Présentation/Atelier comm vault
 

Plus de Modern Data Stack France

Plus de Modern Data Stack France (20)

Stash - Data FinOPS
Stash - Data FinOPSStash - Data FinOPS
Stash - Data FinOPS
 
Vue d'ensemble Dremio
Vue d'ensemble DremioVue d'ensemble Dremio
Vue d'ensemble Dremio
 
From Data Warehouse to Lakehouse
From Data Warehouse to LakehouseFrom Data Warehouse to Lakehouse
From Data Warehouse to Lakehouse
 
Talend spark meetup 03042017 - Paris Spark Meetup
Talend spark meetup 03042017 - Paris Spark MeetupTalend spark meetup 03042017 - Paris Spark Meetup
Talend spark meetup 03042017 - Paris Spark Meetup
 
Paris Spark Meetup - Trifacta - 03_04_2017
Paris Spark Meetup - Trifacta - 03_04_2017Paris Spark Meetup - Trifacta - 03_04_2017
Paris Spark Meetup - Trifacta - 03_04_2017
 
Hadoop meetup : HUGFR Construire le cluster le plus rapide pour l'analyse des...
Hadoop meetup : HUGFR Construire le cluster le plus rapide pour l'analyse des...Hadoop meetup : HUGFR Construire le cluster le plus rapide pour l'analyse des...
Hadoop meetup : HUGFR Construire le cluster le plus rapide pour l'analyse des...
 
HUG France Feb 2016 - Migration de données structurées entre Hadoop et RDBMS ...
HUG France Feb 2016 - Migration de données structurées entre Hadoop et RDBMS ...HUG France Feb 2016 - Migration de données structurées entre Hadoop et RDBMS ...
HUG France Feb 2016 - Migration de données structurées entre Hadoop et RDBMS ...
 
Hadoop France meetup Feb2016 : recommendations with spark
Hadoop France meetup  Feb2016 : recommendations with sparkHadoop France meetup  Feb2016 : recommendations with spark
Hadoop France meetup Feb2016 : recommendations with spark
 
Hug janvier 2016 -EDF
Hug   janvier 2016 -EDFHug   janvier 2016 -EDF
Hug janvier 2016 -EDF
 
HUG France - 20160114 industrialisation_process_big_data CanalPlus
HUG France -  20160114 industrialisation_process_big_data CanalPlusHUG France -  20160114 industrialisation_process_big_data CanalPlus
HUG France - 20160114 industrialisation_process_big_data CanalPlus
 
Hugfr SPARK & RIAK -20160114_hug_france
Hugfr  SPARK & RIAK -20160114_hug_franceHugfr  SPARK & RIAK -20160114_hug_france
Hugfr SPARK & RIAK -20160114_hug_france
 
HUG France : HBase in Financial Industry par Pierre Bittner (Scaled Risk CTO)
HUG France : HBase in Financial Industry par Pierre Bittner (Scaled Risk CTO)HUG France : HBase in Financial Industry par Pierre Bittner (Scaled Risk CTO)
HUG France : HBase in Financial Industry par Pierre Bittner (Scaled Risk CTO)
 
Apache Flink par Bilal Baltagi Paris Spark Meetup Dec 2015
Apache Flink par Bilal Baltagi Paris Spark Meetup Dec 2015Apache Flink par Bilal Baltagi Paris Spark Meetup Dec 2015
Apache Flink par Bilal Baltagi Paris Spark Meetup Dec 2015
 
Datalab 101 (Hadoop, Spark, ElasticSearch) par Jonathan Winandy - Paris Spark...
Datalab 101 (Hadoop, Spark, ElasticSearch) par Jonathan Winandy - Paris Spark...Datalab 101 (Hadoop, Spark, ElasticSearch) par Jonathan Winandy - Paris Spark...
Datalab 101 (Hadoop, Spark, ElasticSearch) par Jonathan Winandy - Paris Spark...
 
Record linkage, a real use case with spark ml - Paris Spark meetup Dec 2015
Record linkage, a real use case with spark ml  - Paris Spark meetup Dec 2015Record linkage, a real use case with spark ml  - Paris Spark meetup Dec 2015
Record linkage, a real use case with spark ml - Paris Spark meetup Dec 2015
 
Spark dataframe
Spark dataframeSpark dataframe
Spark dataframe
 
June Spark meetup : search as recommandation
June Spark meetup : search as recommandationJune Spark meetup : search as recommandation
June Spark meetup : search as recommandation
 
Spark ML par Xebia (Spark Meetup du 11/06/2015)
Spark ML par Xebia (Spark Meetup du 11/06/2015)Spark ML par Xebia (Spark Meetup du 11/06/2015)
Spark ML par Xebia (Spark Meetup du 11/06/2015)
 
Spark meetup at viadeo
Spark meetup at viadeoSpark meetup at viadeo
Spark meetup at viadeo
 
Paris Spark meetup : Extension de Spark (Tachyon / Spark JobServer) par jlamiel
Paris Spark meetup : Extension de Spark (Tachyon / Spark JobServer) par jlamielParis Spark meetup : Extension de Spark (Tachyon / Spark JobServer) par jlamiel
Paris Spark meetup : Extension de Spark (Tachyon / Spark JobServer) par jlamiel
 

Hugfr infotel-11 juin2014

  • 1. #Hadoop Stories avec Infotel & Ericsson #Hadoop Summit overview Twitter : #hugfr Follow @hugfrance
  • 2. Sommaire Historique Infotel en 2mn Classification dans le monde du brevet Hadoop + MongoDB + ElasticSearch pour un portail survitaminé Q?/R 11 Juin 2014
  • 4. Comment Hadoop s’est imposé à Infotel ? Au départ, en 1979, était le MainFrame 11 Juin 2014 Automobile & Industrie Banque & Finance Transport Services
  • 5. Comment Hadoop s’est imposé à Infotel ? Une expertise sur la gestion de grands volumes de données non démentie dans le temps 11 Juin 2014
  • 6. Comment Hadoop s’est imposé à Infotel ? En 2014, le MainFrame est toujours là! 11 Juin 2014 Banque & Finance Aéronautique & Services Mobile / Web Assurance, retraite Propriété Intellectuelle Construction automobile BI
  • 7. Office de brevet: les grandes lignes métier Qualifier les demandes de brevets émises auprès de l’office. Confronter les requêtes auprès de l’historique interne Valider la pertinence au regard des autres offices Offrir des outils de mise à disposition de l’information: Aux entreprises et au grand public pour qu’il puisse faire des recherches d’antécédents ainsi qu’un suivi de leur demandes, Aux offices nationaux et internationaux 11 Juin 2014
  • 8. Les familles d’applications d’un office de brevet 811 Juin 2014
  • 9. Notre projet : Classification de la ‘Non-Patent Litterature’ 11 Juin 2014 130 Millions de documents Acquis par divers flux: Web (crawling, plugin FF) / ‘Bibliothèques’ / OCR Labelliser, Identifier & Classer La classification sert à :  Améliorer le patrimoine documentaire o Meilleure organisation, o Nettoyage (doublons)  Créer des opportunités de parcours et de recherche
  • 10. Aperçu de l’algorithme Première étape : générer la carte d’identité ou l’ADN pour chaque document 11 Juin 2014 1,4 Milliard de clés composites générées pour marquer chaque document Une volumétrie en entrée modeste, mais une volumétrie temporaire et une puissance de calcul importantes. Q DocId Key [99] 000025829793 [99]-10.1016/0015-6264(68)90089-8 [90] 000025829793 [90]-0015-6264-6-1-65-FOCOTO [85] 000025829793 [85]0015-6264-FOCOTO-1-65 [80] 000025829793 [80]0015-6264-6-FOCOTO-65 [75] 000025829793 [75]0015-6264-6-1-FOCOTO [68] 000025829793 [68]0015-6264-6-1-65 [65] 000025829793 [65]0015-6264-0-1-65 [60] 000025829793 [60]0015-6264-6-0-65 [55] 000025829793 [55]0015-6264-6-1-0 [50] 000025829793 [50]0015-6264-0FOCOTO-65 [45] 000025829793 [45]0015-6264-FOCOTO-0-65 [45] 000025829793 [45]0015-6264-0-1-FOCOTO [40] 000025829793 [40]0015-6264-6-0-FOCOTO [40] 000025829793 [40]0015-6264-FOCOTO-1-0 [35] 000025829793 [35]0015-6264-6-FOCOTO-0 [01] 000025829793 [01]000025829793 Qualité (pondération) Valeur
  • 11. Aperçu de l’algorithme Deuxième étape : appliquer une stratégie de ‘Community detection algorithm’ 11 Juin 2014 Ex : Classification de cellules Principes simplifié Notre classification documentaire: - Trouver les liens forts, - Casser les liens faibles, - Limiter les faux-positifs,
  • 12. Aperçu de l’algorithme Concordance et Non-concordance de clés 11 Juin 2014 Calculer la proximité de documents dans le Corpus Le document qui postule est trop éloigné de la clé d’identité du groupe
  • 13. Transposition en MAP / Reduce 17 Itérations 11 juin 2014 Q DocId Key [99] 000025829793 [99]-10.1016/0015-6264(68)90089-8 [90] 000025829793 [90]-0015-6264-6-1-65-FOCOTO [85] 000025829793 [85]0015-6264-FOCOTO-1-65 [80] 000025829793 [80]0015-6264-6-FOCOTO-65 [75] 000025829793 [75]0015-6264-6-1-FOCOTO [68] 000025829793 [68]0015-6264-6-1-65 [65] 000025829793 [65]0015-6264-0-1-65 [60] 000025829793 [60]0015-6264-6-0-65 [55] 000025829793 [55]0015-6264-6-1-0 [50] 000025829793 [50]0015-6264-0FOCOTO-65 [45] 000025829793 [45]0015-6264-FOCOTO-0-65 [45] 000025829793 [45]0015-6264-0-1-FOCOTO [40] 000025829793 [40]0015-6264-6-0-FOCOTO [40] 000025829793 [40]0015-6264-FOCOTO-1-0 [35] 000025829793 [35]0015-6264-6-FOCOTO-0 [01] 000025829793 [01]000025829793 Constructiondel’arbre
  • 14. Mainframe vs Hadoop : le match 11 juin 2014 MainFrame Hadoop Coûts de développement Utilisation du générateur d e clés Java Coûts de mise en production HW + Soft Commodity Hardware Disques (300Go temp) + MSU Ouverture à de nouveaux usages Intégration avec la classification temps réel Complexité de mise en œuvre Connecteurs MF 2 Hadoop Données sous MF Avantage à Hadoop (léger) Hors jeu de par son MapReduce non Robuste, MongoDB est utile sur la chaine de traitement
  • 15. Architecture technique globale 11 juin 2014 DB2 Dump XML + EBCDIC Clés générées sur MongoDB En Java ETL MongoDB 2 collections: biblio + clé ++ schemaless Hadoop BSON BSON 150Gb Par MongoDB Connector 200 Gb Vérification & stats EBCDIC Run >= 12h
  • 16. Focus cluster Hadoop: Un cluster modeste de 7 nœuds 32Go RAM / 4 cœur Facteur de réplication : 3 11 juin 2014
  • 17. Résultat La classification …et les restitutions graphiques de la phase de validation
  • 18. Performance Tips Enchainement de 33 jobs Passage de 1h à 25mn pour le plus coûteux Optimisation des paramètres pour exploiter toutes les ressources du cluster Nombre de Reducer, Ajustement de l’allocation mémoire, Equilibrage entre les deux disques présents sur chaque nœud Répartition des opérations de lecture /écriture 11 juin 2014 Optimisation du map et du reduce mapreduce.task.io.sort.mb mapreduce.task.io.sort.factor etc… dfs.datanode.data.dir et yarn.nodemanager.local-dirs
  • 19. Performance Tips 2/2 Compression Gain important lors du shuffle avec la compression Taille des blocks HDFS JVM et mémoire Une batterie de paramètres finement ajustés Taille occupée par la tâche en RAM, taille de la JVM, taille des mémoires tampons, etc ... A suivre …. 11 juin 2014 mapreduce.output.fileoutputformat.compress mapreduce.output.fileoutputformat.compress.codec mapreduce.map.memory.mb mapreduce.reduce.memory.mb
  • 20. Points divers L’équipe 1 CP 4 Développeurs Hadoop / Java / MongoDB 1 Développeur MainFrame La suite : Industrialisation des flux, Spark !: transposition de l’algorithme pour accélérer drastiquement les traitements Utilisation en mode ‘Temps Réel / Incrémental’ 11 juin 2014
  • 22. DataMining & BigData Baobab : Explorer une galaxie documentaire Objectif n° 1: Acquérir / Stocker / indexer Objectif n° 2: ….. Objectif n° 3: ….. photos vidéos Données & méta données 10 To synchro MongoDB ElasticSearch mainframe
  • 23. DataMining & BigData Baobab : Explorer une galaxie documentaire Objectif n° 1: Acquérir / Stocker / indexer Objectif n° 2: Rechercher intelligemment et Visualiser Objectif n° 3: ….. Visualisation Répartition dans le temps Répartition géographique Recherche ‘plein texte’ en qqs ms Recherche par critères Parcours par proximité Lecture ergonomique
  • 24. DataMining & BigData Baobab : Explorer une galaxie documentaire Objectif n° 1: Acquérir / Stocker / indexer Objectif n° 2: Rechercher intelligemment et Visualiser Objectif n° 3: Comprendre et suggérer Exploration statistique supervisée et non supervisée pour ‘comprendre’ Hadoop TF - IDF Dictionnaire / langue Règles métier Extraction des mots pertinents Nettoyage d’informations parasites et affinage Alignement sur les spécificités du domaine BOOST de SCORE
  • 25. DataMining & BigData Baobab : Explorer une galaxie documentaire Objectif n° 1: Acquérir / Stocker / indexer Objectif n° 2: Rechercher intelligemment et Visualiser Objectif n° 3: Comprendre et suggérer Nuages de mots hexafluoride uranium fluorine Recommandations Tendances Classification supervisée / non supervisée VIDEO
  • 26. Prochainement 11 juin 2014 Machine Learning avec Spark – Classification hiérarchique de documents texte
  • 27. 11 juin 2014 A suivre… Notre livre blanc http://infotel.com/services/big-data-360/formulaire-livreblanc/ @hstef hubert.stefani@infotel.com