Hubert Stefani de la société Infotel nous parlera de clusterisation dans le domaine de la propriété intellectuelle. Partant d’un existant sous MongoDB, Infotel a mis en place un mécanisme de classification au travers d’un MapReduce très spécifique exploitant les méta-informations des documents, un google-like de la littérature scientifique en quelques sorte. Hubert présentera également des initiatives autour de Hadoop et ElasticSearch.
Présentation Conférence "Bigdata Niort"
Hadoop, prêt pour l’entreprise
Après une introduction à Hadoop, son historique et son écosystème, il s’agira de découvrir de quelle manière cette technologie est prête pour l’entreprise.
Les utilisations d’Hadoop sont déjà très nombreuses et ce dans de nombreux secteurs ; cette technologie, qui pourrait effrayer, sait se fondre au système d’information des organisations de grâce à sa richesse, et aux types de traitements qui peuvent s’y exécuter. De même, la variété de solutions qui composent le monde Hadoop permet à chacun de démarrer à son rythme pour pouvoir progresser et tirer partie de toutes les données qui nous entourent, les transformant en information et enfin en connaissances.
http://www.bigdata-niort.fr/charly-clairmont/
Présentation Conférence "Bigdata Niort"
Hadoop, prêt pour l’entreprise
Après une introduction à Hadoop, son historique et son écosystème, il s’agira de découvrir de quelle manière cette technologie est prête pour l’entreprise.
Les utilisations d’Hadoop sont déjà très nombreuses et ce dans de nombreux secteurs ; cette technologie, qui pourrait effrayer, sait se fondre au système d’information des organisations de grâce à sa richesse, et aux types de traitements qui peuvent s’y exécuter. De même, la variété de solutions qui composent le monde Hadoop permet à chacun de démarrer à son rythme pour pouvoir progresser et tirer partie de toutes les données qui nous entourent, les transformant en information et enfin en connaissances.
http://www.bigdata-niort.fr/charly-clairmont/
Hug france - Administration Hadoop et retour d’expérience BI avec Impala, lim...Modern Data Stack France
Hadoop User Group du lundi 6 oct 2014:
Talk #3: Administration Hadoop et retour d’expérience BI avec Impala, limites et recommandations par Abed Ajraou et Cherif Tifrani de Solocal (Pages Jaunes).
HDFS HA : Stockage à haute disponibilité par Damien HardyOlivier DASINI
Jusqu'alors dans HDFS, NameNode etait un élément critique difficile à fiabiliser. Hadoop 2 et donc CDH4 introduisait HDFS HA. CDH4.1 élimine tous les SPOF. Nous verrons comment mettre en place la haute disponibilité dans HDFS. Quels sont les nouveaux services, comment les articuler.
http://fr.viadeo.com/fr/profile/damien.hardy8
Rapide introduction à Hadoop lors du lancement du Casablanca Hadoop & Big Data Meetup.
En partenariat avec Hortonworks
http://www.meetup.com/Casablanca-Hadoop-et-Big-Data-Meetup
El documento presenta una guía práctica para cultivar hortalizas en recipientes urbanos de forma ecológica y sostenible. Explica conceptos como el uso de sustrato orgánico, la producción para autoconsumo escalonada, y la importancia de la sucesión de cultivos y asociaciones para aprovechar al máximo el espacio. También ofrece consejos sobre plagas comunes y fuentes adicionales de información sobre horticultura.
IMARK : initiative internationale d’apprentissage numérique sur la gestion de...Deboin
IMARK est une initiative internationale d’apprentissage numérique sur la gestion de l’information pour le développement des institutions de recherche et des communautés rurales des pays du Sud.
IMARK est l’acronyme d’Information Management Resource Kit” traduit en français par “Kit de ressources sur la gestion de l’information”.
IMARK (Information Management Resource Kit) est un projet de conception et de diffusion de cours de formation à distance sur la gestion de l’information (initialement dans le domaine agricole) créé à l’initiative de la FAO (Organisation des nations unies pour l’alimentation et l’agriculture).
La présentation rappelle les objectifs d’IMARK, mentionne les partenaires de l’initiative et le mode de gouvernance du projet, ainsi que les principes qui fondent IMARK et la méthode adoptée par IMARK. Elle se termine par un inventaire des cours existants accessibles en ligne et les évolutions en cours ou programmées.
Frank estaba haciendo una pasantía en la empresa donde trabajaban su padre y su hermana. La empresa quería aumentar las horas de trabajo a 35 horas semanales para pagarles menos a los trabajadores y aumentar la producción y ganancias. Los trabajadores se oponían porque sus sueldos se reducirían y podrían ser despedidos. Frank encuestó a los trabajadores sobre los cambios propuestos. La relación de Frank con su padre era tensa debido a sus diferentes visiones sobre el trabajo y la empresa.
Hug france - Administration Hadoop et retour d’expérience BI avec Impala, lim...Modern Data Stack France
Hadoop User Group du lundi 6 oct 2014:
Talk #3: Administration Hadoop et retour d’expérience BI avec Impala, limites et recommandations par Abed Ajraou et Cherif Tifrani de Solocal (Pages Jaunes).
HDFS HA : Stockage à haute disponibilité par Damien HardyOlivier DASINI
Jusqu'alors dans HDFS, NameNode etait un élément critique difficile à fiabiliser. Hadoop 2 et donc CDH4 introduisait HDFS HA. CDH4.1 élimine tous les SPOF. Nous verrons comment mettre en place la haute disponibilité dans HDFS. Quels sont les nouveaux services, comment les articuler.
http://fr.viadeo.com/fr/profile/damien.hardy8
Rapide introduction à Hadoop lors du lancement du Casablanca Hadoop & Big Data Meetup.
En partenariat avec Hortonworks
http://www.meetup.com/Casablanca-Hadoop-et-Big-Data-Meetup
El documento presenta una guía práctica para cultivar hortalizas en recipientes urbanos de forma ecológica y sostenible. Explica conceptos como el uso de sustrato orgánico, la producción para autoconsumo escalonada, y la importancia de la sucesión de cultivos y asociaciones para aprovechar al máximo el espacio. También ofrece consejos sobre plagas comunes y fuentes adicionales de información sobre horticultura.
IMARK : initiative internationale d’apprentissage numérique sur la gestion de...Deboin
IMARK est une initiative internationale d’apprentissage numérique sur la gestion de l’information pour le développement des institutions de recherche et des communautés rurales des pays du Sud.
IMARK est l’acronyme d’Information Management Resource Kit” traduit en français par “Kit de ressources sur la gestion de l’information”.
IMARK (Information Management Resource Kit) est un projet de conception et de diffusion de cours de formation à distance sur la gestion de l’information (initialement dans le domaine agricole) créé à l’initiative de la FAO (Organisation des nations unies pour l’alimentation et l’agriculture).
La présentation rappelle les objectifs d’IMARK, mentionne les partenaires de l’initiative et le mode de gouvernance du projet, ainsi que les principes qui fondent IMARK et la méthode adoptée par IMARK. Elle se termine par un inventaire des cours existants accessibles en ligne et les évolutions en cours ou programmées.
Frank estaba haciendo una pasantía en la empresa donde trabajaban su padre y su hermana. La empresa quería aumentar las horas de trabajo a 35 horas semanales para pagarles menos a los trabajadores y aumentar la producción y ganancias. Los trabajadores se oponían porque sus sueldos se reducirían y podrían ser despedidos. Frank encuestó a los trabajadores sobre los cambios propuestos. La relación de Frank con su padre era tensa debido a sus diferentes visiones sobre el trabajo y la empresa.
Semana Europea de la Gestión Avanzada 2015 - Claves, Estrategia, PersonasASLE
Presentación utilizada por ASLE representada por Josetxo Hernández Duñabeitia en el marco de la Jornada Inaugural de la Semana Europea de la Gestión Avanzada 2015 bajo el título: "Claves, Estrategia, Personas"
Violence remains a serious problem in many parts of the world. While some forms of violence such as warfare seem inevitable, non-violent civil disobedience and open communication between conflicting groups may help reduce other types of violence over time. Addressing the root causes of violence including poverty, lack of opportunity, and societal inequities could also help create a more just and peaceful global community.
Delphine Jenart nous présente le Mundaneum dans le cadre du Café Numérique "partage du savoir" en partenariat avec la Ville de Bruxelles (campagne "enter the city").
Este documento presenta información sobre el contexto de independencia de América del Sur de España. Explica que los criollos, descendientes de españoles nacidos en América, deseaban más autonomía política y control económico sobre sus países. Detalla los roles de los negros, indígenas y mestizos en la sociedad colonial, y cómo un incidente con un florero llevó a los criollos a redactar un acta de independencia en 1810, dando inicio al proceso de independencia.
Antioxidants are important for health as they help fight free radicals and reduce oxidative stress. This article reviews the best antioxidant supplements of 2014, including resveratrol, green tea extract, astaxanthin, and alpha lipoic acid. Each supplement is briefly described along with its main health benefits and recommended dosage.
El documento describe cómo agregar fondo y efectos de imagen a una hoja en Microsoft Word. Explica que para agregar un fondo, los usuarios deben seleccionar "Diseño de página" en la barra de tareas y elegir entre un solo color o dos colores de relleno. Para agregar una imagen, los usuarios deben insertar una imagen y luego aplicar estilos como "transparente" o "en forma de mosaico".
Un navegador web (también conocido como bavegador) es un software que permite acceder a Internet visualizando páginas web y realizando actividades en ellas. Las páginas web son documentos electrónicos que pueden contener texto, sonido, video y otros elementos, y que se pueden acceder a través de un navegador web utilizando una dirección URL que incluye el protocolo http. Las páginas web tienen componentes como un encabezado, lista de contenidos, artículos y enlaces.
This draft paper throws light on data center technology trends of 2016. This paper also suggest ways to enhance the competitiveness of Data Center. We have tried to carve out a strategy that can help decision makers to decide whether a technology adoption will prove beneficial for them or they will end up spending more without any significant ROI.
This draft paper throws light on data center technology trends of 2016. This paper also suggest ways to enhance the competitiveness of Data Center. We have tried to carve out a strategy that can help decision makers to decide whether a technology adoption will prove beneficial for them or they will end up spending more without any significant ROI
Introduction de mon cours sur Spark : pourquoi peut on parler de big data aujourd'hui alors qu'on ne pouvait pas il y a 15 ans ?
On y voit : prix des disques durs, loi d'Amdhal, map reduce, Hadoop, Spark...
Notre entreprise : https://www.memorandum.pro/
Découvrez les avantages du stockage IBM Flash ! Les solutions de stockage IBM Flash fournissent la micro-latence, les performances évolutives et l'efficacité opérationnelle nécessaires pour découvrir des informations à partir de volumes massifs de données. Maintenant, vous pouvez faire plus avec moins pour déjouer la concurrence.
IBM FlashSystem va transformer votre entreprise grâce de meilleures décisions prises en temps réel et basées sur les données.
Pour en savoir plus : http://www-03.ibm.com/systems/fr/storage/flash/ ou contacter :
- Youness RACHACH – Software-Defined Storage Specialist : youness.r@fr.ibm.com
- Erwan AUFFRET – Avant-Vente Technique : erwan.auffret@fr.ibm.com
- Marieke SCHABAILLE – Digital Sales Specialist : Mschabai@ie.ibm.com
Core Web Vitals, les indicateurs de vitesse qui réconcilient UX et SEOWeLoveSEO
Largest Contentful Paint (LCP), First Input Delay (FID) et Cumulative Layout Shift (CLS) : ce sont les 3 nouveaux indicateurs que Google a annoncé vouloir prendre en compte dès 2021 pour le ranking. Vous en avez sans doute pas mal entendu parler ces dernières semaines non ?
L'objectif derrière cette mise à jour : mesurer la performance et l'expérience utilisateur pour en faire des critères #SEO. Ce qui en soit est une bonne chose !
Mais c'est sujet à débat : est-ce une révolution SEO ou au contraire, une modification minime de l’algorithme ? Que signifient réellement ces KPI, comment les mesurer et comment les améliorer ?
Dans les coulisses de Google BigQuery - DevFest Toulouse 2016Aurélie Vache
Google BigQuery est la solution "Analytics As a Service" de Google.
Lorsque l’on pense à des technologies liées à la Big Data, on pense de suite à l’éco-système Hadoop, ou bien à Elasticsearch ou bien ces temps-ci beaucoup à Spark, mais il y a un « petit service » de Google qui ne fait pas beaucoup parler de lui mais qui peut tirer son épingle du jeu dans différents cas de figure.
Présentation donnée lors du DevFest Toulouse 2016 (https://devfesttoulouse.fr/).
Comment mettre en oeuvre du Big Data dans Azure. Comment les données massives impactent et sont à leur tour impactées par les nouvelles technologies d'affichage, et notamment la réalité augmentée
FinOps Data - FR - par Matthieu Rousseau & Ismael Goulani
Matthieu Rousseau, CEO & Data Engineer Modeo.
Ismael Goulani, CTO & Data Engineer Modeo.
Retour sur le premier prix dans la catégorie "Solution Innovante" du challenge #LaNuitdelaData avec leur solution Stach, plateforme qui aide les équipes Data à mieux comprendre l'utilisation des données par les "consumers", son coût, et son impact carbone.
Dremio, une architecture simple et performance pour votre data lakehouse.
Dans le monde de la donnée, Dremio, est inclassable ! C’est à la fois une plateforme de diffusion des données, un moteur SQL puissant basé sur Apache Arrow, Apache Calcite, Apache Parquet, un catalogue de données actif et aussi un Data Lakehouse ouvert ! Après avoir fait connaissance avec cette plateforme, il s’agira de préciser comment Dremio aide les organisations à relever les défis qui sont les leurs en matière de gestion et gouvernance des données facilitant l’exécution de leurs analyses dans le cloud (et/ou sur site) sans le coût, la complexité et le verrouillage des entrepôts de données.
Tomer Shiran est le fondateur et chef de produit (CPO) de Dremio. Tomer était le 4e employé et vice-président produit de MapR, un pionnier de l'analyse du Big Data. Il a également occupé de nombreux postes de gestion de produits et d'ingénierie chez IBM Research et Microsoft, et a fondé plusieurs sites Web qui ont servi des millions d'utilisateurs. Il est titulaire d'un Master en génie informatique de l'Université Carnegie Mellon et d'un Bachelor of Science en informatique du Technion - Israel Institute of Technology.
Le Modern Data Stack meetup est ravi d'accueillir Tomer Shiran. Depuis Apache Drill, Apache Arrow maintenant Apache Iceberg, il ancre avec ses équipes des choix pour Dremio avec une vision de la plateforme de données “ouverte” basée sur des technologies open source. En plus, de ces valeurs qui évitent le verrouillage de clients dans des formats propriétaires, il a aussi le souci des coûts qu’engendrent de telles plateformes. Il sait aussi proposer un certain nombre de fonctionnalités qui transforment la gestion de données grâce à des initiatives telles Nessie qui ouvre la route du Data As Code et du transactionnel multi-processus.
Le Modern Data Stack Meetup laisse “carte blanche” à Tomer Shiran afin qu’il nous partage son expérience et sa vision quant à l’Open Data Lakehouse.
Talend was founded in 2006 and has since grown to over 1000 employees across 10 countries serving over 1500 customers. The document discusses Apache Beam, an open source model for defining and executing data processing pipelines, and how Talend's data preparation and data streams products utilize Apache Beam and can run on Apache Spark. It concludes with a demonstration of Talend's data preparation and data streams capabilities.
1. The document discusses Trifacta, a company focused on data wrangling and preparation. It provides an overview of the company, its key differentiators including being interoperable, interactive and visual, and predictive.
2. Trifacta's workflow in Hadoop is described, utilizing YARN and Spark to execute transformations across clusters in a scalable way.
3. An example is given of Trifacta being selected as an OEM partner for Google Cloud Dataprep, integrating its interface and engine within Google Cloud.
Hadoop meetup : HUGFR Construire le cluster le plus rapide pour l'analyse des...Modern Data Stack France
Construire le cluster le plus rapide pour l'analyse des datas : benchmarks sur un régresseur par Christopher Bourez (Axa Global Direct)
Les toutes dernières technologies de calcul parallèle permettent de calculer des modèles de prédiction sur des big datas en des temps records. Avec le cloud est facilité l'accès à des configurations hardware modernes avec la possibilité d'une scalabilité éphémère durant les calculs. Des benchmarks sont réalisés sur plusieurs configuration hardware, allant de 1 instance à un cluster de 100 instances.
Christopher Bourez, développeur & manager expert en systèmes d'information modernes chez Axa Global Direct. Alien thinker. Blog : http://christopher5106.github.io/
HUG France Feb 2016 - Migration de données structurées entre Hadoop et RDBMS ...Modern Data Stack France
Migration de données structurées entre Hadoop et RDBMS par Louis Rabiet (Squid Solution)
Avec l'extraction de données stockées dans une base de données relationnelle à l'aide d'un outil de BI avancé, et avec l'envoi via Kafka des données vers Tachyon, plusieurs sessions Spark peuvent travailler sur le même dataset en limitant la duplication. On obtient grâce à cela une communication à coût contrôlé entre la base de données d'origine et Spark ce qui permet de réintroduire de manière dynamique les données modifiées avec MLlib tout en travaillant sur des données à jour. Les résultats préliminaires seront partagés durant cette présentation.
Système de recommandations de produits sur un site marchand par Koby KARP, Data Scientist (Equancy) & Hervé MIGNOT, Partner at Equancy
La recommandation reste un outil clé pour la personnalisation des sites marchands et le sujet est loin d’être épuisé. La prise en compte de la particularité d’un marché peut nécessité d’adapter le traitement et les algorithmes utilisés. Après une revue des techniques de recommandations, nous présenterons la démarche spécifique que nous avons adopté. Le système a été développé sous Spark pour la préparation des données et le calcul des modèles de recommandations. Une API simple et son service ont été développé pour délivrer les recommandations aux applications clientes.
L'approche Model as Code par Benoit Grossin (EDF-R&D) et Matthieu Vautrot (Quantmetry)
La mise en production de modèles est une étape charnière du cycle de vie d’un projet Data Science mené au sein d’une entreprise.
On observe que cette partie est encore rarement industrialisée alors qu’elle est indispensable pour l’exploitation continue des résultats des modèles.
Lorsque qu’un modèle finalisé présente un pouvoir prédictif satisfaisant en phase de développement, l'industrialisation de sa mise en production permet de le déployer et de l’exploiter de manière continue et automatique et ce, en minimisant la charge de travail.
Notre intervention présentera notre retour d'expérience dans le contexte EDF sur la mise en place d'une approche capable de raccourcir voire d'annuler le temps de mise en production dans un environnement Hadoop et plus particulièrement Hive.
Benoit Grossin est Ingénieur de Recherche chez EDF-R&D ICAM
Matthieu Vautrot est Consultant Analytics & Big Data chez Quantmetry
Industrialisation des processus Big Data chez CANAL+ par Pascal PERISSEAU et Stephen CLAIRVILLE (CanalPlus)
L'intégration de la brique technique Big Data au sein d'une architecture décisionnelle déjà existante. Retour d’expérience sur les développements réalisés afin de faciliter l’intégration, la supervision, et l’exploitation des flux Hadoop dans notre écosystème décisionnel / présentation de la phase préparatoire de la mise à disposition des données aux data analysts et data scientists.
Pascal PERISSEAU, responsable technique du pôle décisionnel et Big Data chez CANAL+ depuis 10 ans
Stephen CLAIRVILLE, chef de projet tech. lead Big Data depuis 2 ans chez CANAL+
Presentation faite lors du Hadoop User Group France du 14 janvier 2016.
L’analytique temps réel avec Riak et Spark par Michael Carney (Basho) et Olivier Girardot de Lateral Thoughts
Selon un rapport de Salesforce, le nombre de sources de données analysées par les entreprises progressera de 83% au cours des cinq prochaines années, ainsi les organisations veulent désormais fournir des connaissances en temps réel même sur les appareils mobiles. Le traitement temps réel est donc, le futur de l’analyse big data.
Ce talk présentera des nouveautés en matière de l’analyse temps réel autour de la famille SGBD Riak et Spark.
Michael Carney est le Directeur Commercial de Basho pour le Sud d’Europe. Fondateur de MySQL France et de MariaDB, Michael a rejoint Basho en janvier 2015 pour explorer le monde de données sans tables !
Olivier Girardot est le CTO de Lateral Thoughts, il est développeur et formateur au sujet de Spark et également spécialiste de Java/Python dans le domaine de la finance de marché.
HUG France : HBase in Financial Industry par Pierre Bittner (Scaled Risk CTO)Modern Data Stack France
HBase in Financial Industry par Pierre Bittner (Scaled Risk CTO)
Le traitement et l’analyse de grand volume de données sont au cœur des activités des banques. Bon nombre d’acteurs des marchés financiers ont déjà adopté Hadoop sur de nombreux cas d’usage : gestion des risques, identification des opportunités commerciales, détection de fraude, surveillance des marchés…
Une incroyable diversité de format doit être gérée. De ce point de vue, HBase est un choix naturel de base de données distribuée grâce à son modèle de donnée dynamique.
Après une présentation générale des caractéristiques d’HBase, ce talk présente comment modéliser les informations traitées pour s’adapter à différents contextes d’utilisation.
Pierre Bittner est le CTO de Scaled Risk, éditeur d’une plateforme Big Data dédiée aux institutions financières. Scaled Risk est bâtie sur HBase. Pierre intervient depuis 10 ans sur les SI bancaires.
Démarrer rapidement avec Apache Flink par Bilal Baltagi
- Présentation de l'éco Système Apache Flink
- Prise en main rapide
Bilal Baltagi a obtenu un master en analyse des données à l'Université Paris Nord - Paris 13. Il est actuellement consultant décisionnel chez Sarenza à Paris. Il intervient sur toutes les phases d'un projet décisionnel et Big data: recueil des besoins, conceptions, réalisations et accompagnement des utilisateurs. Bilal est de plus en plus intéressé à l'intersection de la Big Data avec la Business Intelligence et aime jouer avec Apache Flink!
Datalab 101 (Hadoop, Spark, ElasticSearch) par Jonathan Winandy - Paris Spark...Modern Data Stack France
Datalab 101 (Hadoop, Spark, ElasticSearch) par Jonathan Winandy
Retour d'expérience sur la mise en place d'un Datalab avec Hadoop, Spark et ElasticSearch dans un environnement contraint. Nous allons exposer les méthodes qui nous ont permis d'améliorer la conception, le développement, les performances et la recette d'une application complexe en Spark.
Jonathan Winandy est MOE, développeur Java/Scala spécialisé dans les pipelines de données.
Record linkage, a real use case with spark ml - Paris Spark meetup Dec 2015Modern Data Stack France
Record Linkage, un cas d’utilisation en Spark ML par Alexis Seigneurin
Le Record Linkage est le process qui consiste à trouver, dans un data set, les enregistrements qui représentent la même entité. Cette opération est particulièrement compliquée quand, comme nous, vous travaillez avec des données anonymisées. C’est là que le Machine Learning vient en renfort ! Nous avons implémenté un algorithme de Record Linkage en Spark SQL (DataFrames) et Spark ML plutôt que d’utiliser des règles statiques. Nous verrons le process de Feature Engineering, pourquoi nous avons dû étendre Spark DataFrames pour préserver des méta-données au travers du pipeline de traitement, et comment nous avons utilisé le Machine Learning pour réconcilier les enregistrements. Nous verrons enfin comment nous avons industrialisé cette application.
Alexis Seigneurin : Développeur depuis 15 ans, j'attache beaucoup d'importance aux problématiques de traitement, d'analyse et de stockage de la donnée.Chez Ippon, j'interviens principalement sur des missions de conseil et d'architecture autour de technologies big data. Par ailleurs, j'anime la formation Spark chez Ippon.
Spark meetup www.meetup.com/Paris-Spark-Meetup/events/222607538/
La dernière version de Spark nous apporte une nouvelle API inspirée des librairies et langage d'analyse statistique. Nous verrons comment Spark Dataframe nous permet de simplement manipuler et explorer les données en conservant la scalabilité de Spark RDD
Recherche full-text et recommandation, deux mondes à part? Nous verrons qu’il est possible de marier Lucene (Elastic Search/Solr) et filtrage collaboratif afin de produire un système de recommandation flexible et scalable. Cela passera par un aperçu des dernières sorties : la plateforme Confluent (Kafka) ainsi que Mahout 0.10 (avec Samsara).
Matthieu Blanc présentera spark.ml. En effet, la version 1.2 de Spark a introduit ce nouveau package qui fournit une API de haut niveau permettant la création de pipeline de machine learning. Nous verrons ensemble les concepts de base de cet API à travers un exemple.
http://hugfrance.fr/spark-meetup-a-la-sg-avec-cloudera-xebia-et-influans-le-jeudi-11-juin/
Paris Spark meetup : Extension de Spark (Tachyon / Spark JobServer) par jlamiel
Hugfr infotel-11 juin2014
1. #Hadoop Stories avec Infotel & Ericsson
#Hadoop Summit overview
Twitter : #hugfr
Follow @hugfrance
2. Sommaire
Historique Infotel en 2mn
Classification dans le monde du brevet
Hadoop + MongoDB + ElasticSearch
pour un portail survitaminé
Q?/R
11 Juin 2014
4. Comment Hadoop s’est imposé à
Infotel ?
Au départ, en 1979, était le MainFrame
11 Juin 2014
Automobile &
Industrie
Banque &
Finance
Transport
Services
5. Comment Hadoop s’est imposé à
Infotel ?
Une expertise sur la gestion de grands volumes de
données non démentie dans le temps
11 Juin 2014
6. Comment Hadoop s’est imposé à
Infotel ?
En 2014, le MainFrame est toujours là!
11 Juin 2014
Banque & Finance
Aéronautique & Services
Mobile / Web
Assurance, retraite
Propriété Intellectuelle
Construction automobile
BI
7. Office de brevet: les grandes lignes métier
Qualifier les demandes de brevets émises auprès de
l’office.
Confronter les requêtes auprès de l’historique interne
Valider la pertinence au regard des autres offices
Offrir des outils de mise à disposition de l’information:
Aux entreprises et au grand public pour qu’il puisse faire
des recherches d’antécédents ainsi qu’un suivi de leur
demandes,
Aux offices nationaux et internationaux
11 Juin 2014
9. Notre projet :
Classification de la ‘Non-Patent Litterature’
11 Juin 2014
130 Millions de documents
Acquis par divers flux:
Web (crawling, plugin FF) / ‘Bibliothèques’ / OCR
Labelliser, Identifier & Classer
La classification sert à :
Améliorer le patrimoine documentaire
o Meilleure organisation,
o Nettoyage (doublons)
Créer des opportunités de parcours et de recherche
10. Aperçu de l’algorithme
Première étape : générer la carte d’identité ou l’ADN pour chaque
document
11 Juin 2014
1,4 Milliard de clés composites générées pour marquer chaque
document
Une volumétrie en entrée modeste, mais une volumétrie
temporaire et une puissance de calcul importantes.
Q DocId Key
[99] 000025829793 [99]-10.1016/0015-6264(68)90089-8
[90] 000025829793 [90]-0015-6264-6-1-65-FOCOTO
[85] 000025829793 [85]0015-6264-FOCOTO-1-65
[80] 000025829793 [80]0015-6264-6-FOCOTO-65
[75] 000025829793 [75]0015-6264-6-1-FOCOTO
[68] 000025829793 [68]0015-6264-6-1-65
[65] 000025829793 [65]0015-6264-0-1-65
[60] 000025829793 [60]0015-6264-6-0-65
[55] 000025829793 [55]0015-6264-6-1-0
[50] 000025829793 [50]0015-6264-0FOCOTO-65
[45] 000025829793 [45]0015-6264-FOCOTO-0-65
[45] 000025829793 [45]0015-6264-0-1-FOCOTO
[40] 000025829793 [40]0015-6264-6-0-FOCOTO
[40] 000025829793 [40]0015-6264-FOCOTO-1-0
[35] 000025829793 [35]0015-6264-6-FOCOTO-0
[01] 000025829793 [01]000025829793
Qualité
(pondération)
Valeur
11. Aperçu de l’algorithme
Deuxième étape : appliquer une stratégie de ‘Community detection algorithm’
11 Juin 2014
Ex : Classification de cellules
Principes simplifié
Notre classification
documentaire:
- Trouver les liens forts,
- Casser les liens faibles,
- Limiter les faux-positifs,
12. Aperçu de l’algorithme
Concordance et Non-concordance de clés
11 Juin 2014
Calculer la proximité de documents dans le Corpus
Le document qui postule est trop éloigné
de la clé d’identité du groupe
14. Mainframe vs Hadoop : le match
11 juin 2014
MainFrame Hadoop
Coûts de développement
Utilisation du
générateur d e
clés Java
Coûts de mise en production
HW + Soft
Commodity
Hardware
Disques (300Go
temp) + MSU
Ouverture à de nouveaux usages
Intégration avec la
classification temps
réel
Complexité de mise en œuvre
Connecteurs
MF 2 Hadoop
Données sous MF
Avantage à Hadoop (léger)
Hors jeu de par son MapReduce non
Robuste, MongoDB est utile sur la
chaine de traitement
15. Architecture technique globale
11 juin 2014
DB2
Dump
XML + EBCDIC
Clés générées
sur MongoDB
En Java
ETL
MongoDB
2 collections:
biblio + clé
++ schemaless
Hadoop
BSON
BSON
150Gb
Par MongoDB
Connector
200 Gb
Vérification & stats
EBCDIC
Run >= 12h
18. Performance Tips
Enchainement de 33 jobs
Passage de 1h à 25mn pour le plus
coûteux
Optimisation des paramètres pour
exploiter toutes les ressources du
cluster
Nombre de Reducer,
Ajustement de l’allocation mémoire,
Equilibrage entre les deux disques
présents sur chaque nœud
Répartition des opérations de lecture
/écriture
11 juin 2014
Optimisation du map et du reduce
mapreduce.task.io.sort.mb
mapreduce.task.io.sort.factor
etc…
dfs.datanode.data.dir et
yarn.nodemanager.local-dirs
19. Performance Tips 2/2
Compression
Gain important lors du
shuffle avec la compression
Taille des blocks HDFS
JVM et mémoire
Une batterie de paramètres
finement ajustés
Taille occupée par la tâche en
RAM, taille de la JVM, taille des
mémoires tampons, etc ...
A suivre ….
11 juin 2014
mapreduce.output.fileoutputformat.compress
mapreduce.output.fileoutputformat.compress.codec
mapreduce.map.memory.mb
mapreduce.reduce.memory.mb
20. Points divers
L’équipe
1 CP
4 Développeurs Hadoop / Java / MongoDB
1 Développeur MainFrame
La suite :
Industrialisation des flux,
Spark !: transposition de l’algorithme pour
accélérer drastiquement les traitements
Utilisation en mode ‘Temps Réel / Incrémental’
11 juin 2014
23. DataMining & BigData
Baobab : Explorer une galaxie documentaire
Objectif n° 1:
Acquérir / Stocker / indexer
Objectif n° 2:
Rechercher intelligemment et
Visualiser
Objectif n° 3:
…..
Visualisation
Répartition
dans le temps
Répartition
géographique
Recherche
‘plein texte’ en qqs ms
Recherche par critères
Parcours par
proximité
Lecture
ergonomique
24. DataMining & BigData
Baobab : Explorer une galaxie documentaire
Objectif n° 1:
Acquérir / Stocker / indexer
Objectif n° 2:
Rechercher intelligemment et
Visualiser
Objectif n° 3:
Comprendre et suggérer
Exploration statistique supervisée et non supervisée pour
‘comprendre’
Hadoop
TF - IDF
Dictionnaire
/ langue
Règles
métier
Extraction des mots
pertinents
Nettoyage
d’informations
parasites et affinage
Alignement sur les
spécificités du domaine
BOOST de SCORE
25. DataMining & BigData
Baobab : Explorer une galaxie documentaire
Objectif n° 1:
Acquérir / Stocker / indexer
Objectif n° 2:
Rechercher intelligemment et
Visualiser
Objectif n° 3:
Comprendre et suggérer
Nuages de mots
hexafluoride
uranium
fluorine
Recommandations
Tendances Classification supervisée / non
supervisée
VIDEO