Hadoop, initialement conçu pour traiter les (très) gros batchs, a été victime de son succès : il s'affirme de plus en plus comme la plateforme à tout faire du Big Data. On lui demande désormais de supporter plusieurs utilisateurs, les traitements interactifs, la ségrégation ou le partage de données entre entité, et, évidemment... la sécurité qui va avec ces nouveaux usages !
D'une solution de geeks, Hadoop est devenu une plateforme business stratégique pour les entreprises.
Pour aller chatouiller des Oracle ou des Teradata sur leur terrain, Hadoop a dû muscler son jeu avec de nouvelles fonctionnalités.
Ce petit déjeuner est l'occasion de faire un point sur les dernières évolutions d'Hadoop, l'état de l'art de sa mise en oeuvre chez nos clients, et sur les éléments clés de la roadmap des principales distributions.
Microsoft TechDays 2012 France - BPOS301 La réversibilité des données dans le...Arnaud A.
Vous réfléchissez à votre migration vers le Cloud mais vous vous posez la question de la réversibilité des données? Au cours de cette session nous lèverons vos inquiétudes et aborderons les bonnes pratiques pour s'assurer un possible retour en arrière le plus fluide possible. Nous répondrons également à la problématique d'un environnement hybride on premise/ online et comment se préparer à cette évolution et à son administration.
Petit-déjeuner OCTO Technology : Calculez vos indicateurs en temps réel ave...OCTO Technology
Le Big Data touche le paroxysme de sa médiatisation. Tout est devenu Big Data, mélangeant nouvelles approches métiers, technologies et business models.
De vraies opportunités se présentent toutefois. Ainsi, la capacité à suivre en temps réel les indicateurs clés du business à partir d’un nombre croissant de sources de données est un challenge que le « Big Data » peut relever.
Découvrez, au travers d'un retour d'expérience commun EDF R&D/OCTO Technology, comment Storm peut vous permettre de relever ce défi.
Compte-rendu du petit-déjeuner : http://bit.ly/1dpbNgF
Big Data: Concepts, techniques et démonstration de Apache Hadoophajlaoui jaleleddine
C'est une initiation au Big Data, qui est présenté dans un workshop organisé en 12 Décembre 2015 par un club TB3C (Tunisian Big Data Cloud Computing Community) au sein de ISSAT de Sousse
[USI] Lambda-Architecture : comment réconcilier BigData et temps-réelMathieu DESPRIEE
Comment intégrer le big-data et le temps-réel au sein d'une même architecture sans qu'elle ne se transforme en un monstre de Frankeinstein, trop complexe et trop coûteuse à maintenir ?
La « Lambda architecture » nous propose une approche simple et élégante : stocker et traiter de larges volumes de données, en intégrant dans la seconde les données les plus récentes, le tout en préservant scalabilité et tolérance aux pannes.
[conférence présentée à l'USI 2014 : https://www.youtube.com/watch?v=tw3X7eMOVEM]
Christophe Aran, spécialiste de la BI nous présente le Big Data :
Du premier jour de l'humanité jusqu'à l'an 2003, les hommes ont produit quelque 5 millions de téraoctets de données. En 2012, deux jours suffisent pour produire la même quantité. Ces données proviennent de partout : de messages sur les médias sociaux, d'images et de vidéos publiées en ligne, d'enregistrements transactionnels d'achats en ligne, de signaux GPS de téléphones mobiles… pour ne citer que quelques sources. Ces données sont appelées Big Data ou volumes massifs de données.
Les sociétés du Web tels que Google, Facebook et Amazon ont investi massivement afin de gérer ces Big Data. En effet, leur survie en dépend. C’est ainsi qu’un ensemble de technologies open source et de concepts est né : MapReduce, Apache Hadoop, bases de données NoSQL,…
Qu’est-ce que le big Data et quels en sont les différents concepts ?
Comment utiliser ces technologies dans des applications opérationnelles ou décisionnelles ?
Pourquoi le Big Data ouvre-t-il de nouvelles perspectives ?
Est-ce une révolution technologique ou un effet de mode ?
Microsoft TechDays 2012 France - BPOS301 La réversibilité des données dans le...Arnaud A.
Vous réfléchissez à votre migration vers le Cloud mais vous vous posez la question de la réversibilité des données? Au cours de cette session nous lèverons vos inquiétudes et aborderons les bonnes pratiques pour s'assurer un possible retour en arrière le plus fluide possible. Nous répondrons également à la problématique d'un environnement hybride on premise/ online et comment se préparer à cette évolution et à son administration.
Petit-déjeuner OCTO Technology : Calculez vos indicateurs en temps réel ave...OCTO Technology
Le Big Data touche le paroxysme de sa médiatisation. Tout est devenu Big Data, mélangeant nouvelles approches métiers, technologies et business models.
De vraies opportunités se présentent toutefois. Ainsi, la capacité à suivre en temps réel les indicateurs clés du business à partir d’un nombre croissant de sources de données est un challenge que le « Big Data » peut relever.
Découvrez, au travers d'un retour d'expérience commun EDF R&D/OCTO Technology, comment Storm peut vous permettre de relever ce défi.
Compte-rendu du petit-déjeuner : http://bit.ly/1dpbNgF
Big Data: Concepts, techniques et démonstration de Apache Hadoophajlaoui jaleleddine
C'est une initiation au Big Data, qui est présenté dans un workshop organisé en 12 Décembre 2015 par un club TB3C (Tunisian Big Data Cloud Computing Community) au sein de ISSAT de Sousse
[USI] Lambda-Architecture : comment réconcilier BigData et temps-réelMathieu DESPRIEE
Comment intégrer le big-data et le temps-réel au sein d'une même architecture sans qu'elle ne se transforme en un monstre de Frankeinstein, trop complexe et trop coûteuse à maintenir ?
La « Lambda architecture » nous propose une approche simple et élégante : stocker et traiter de larges volumes de données, en intégrant dans la seconde les données les plus récentes, le tout en préservant scalabilité et tolérance aux pannes.
[conférence présentée à l'USI 2014 : https://www.youtube.com/watch?v=tw3X7eMOVEM]
Christophe Aran, spécialiste de la BI nous présente le Big Data :
Du premier jour de l'humanité jusqu'à l'an 2003, les hommes ont produit quelque 5 millions de téraoctets de données. En 2012, deux jours suffisent pour produire la même quantité. Ces données proviennent de partout : de messages sur les médias sociaux, d'images et de vidéos publiées en ligne, d'enregistrements transactionnels d'achats en ligne, de signaux GPS de téléphones mobiles… pour ne citer que quelques sources. Ces données sont appelées Big Data ou volumes massifs de données.
Les sociétés du Web tels que Google, Facebook et Amazon ont investi massivement afin de gérer ces Big Data. En effet, leur survie en dépend. C’est ainsi qu’un ensemble de technologies open source et de concepts est né : MapReduce, Apache Hadoop, bases de données NoSQL,…
Qu’est-ce que le big Data et quels en sont les différents concepts ?
Comment utiliser ces technologies dans des applications opérationnelles ou décisionnelles ?
Pourquoi le Big Data ouvre-t-il de nouvelles perspectives ?
Est-ce une révolution technologique ou un effet de mode ?
Valtech - Big Data : Détails d’une mise en œuvreValtech
Big Data : Détails d’une mise en œuvre
Construction d’une solution d’analyse d’e-reputation
Collecter et stocker les données : Quelle infrastructure ?
Corréler et agréger les données : Quelle analyse ?
Restituer et exploiter : Quels résultats ?
Présentation animée par Hervé Desaunois, Responsable Technique, Valtech
herve.desaunois@valtech.fr
Evénement - Big Data : ne dormez pas sur vos données !
Valtech - 29/11
La gouvernance du SI hybride - Principes et mise en oeuvreOCTO Technology
L'arrivée des offres SaaS - dont les métiers sont friands pour leur facilité d'utilisation et d'accessibilité - fait émerger plusieurs interrogations quant au positionnement et à l'avenir de la DSI en entreprise. Dans ce contexte, on remarque plusieurs postures pour la DSI allant de l'absence au Cloud Broker.
Cette présentation montre différents positionnements qu'une DSI peut aborder et apporte plan d'action et solutions dans ce contexte de transformation.
De votre coté, où en est la DSI ?
Du Big Data vers le SMART Data : Scénario d'un processusCHAKER ALLAOUI
Du Big Data vers le SMAR Data : Scénario d'un processus
Scénario d'une implémentation d'un processus de transformations des données Big Data vers des données exploitables et représentatives via des traitements des streaming, systèmes distibués, messages, stockage dans un environnement NoSQL, gestion avec un éco-système Big Data et présentation graphique et quantitative des données avec les technologies:
Apache Storm, Apache Zookeeper, Apache Kafka, Apache Cassandra, Apache Spark et Data-Driven Document.
Data Science : Méthodologie, Outillage et Application - MS Cloud Summit Paris...Jean-Pierre Riehl
-- session présentée dans le cadre du MS Cloud Summit Paris 2017 avec Emmanuel Frenod --
L’approche Data Science des données révolutionne l’analyse traditionnelle. La façon d’appréhender les questions, la méthodologie à suivre ainsi que l’outillage à utiliser sont différents de la BI traditionnelle. Nous aborderons dans cette session ces différences et pointeront les bonnes pratiques de la Data Science avec les outils Microsoft au travers d’un cas d’utilisation concret. Ce « retour d’expérience » expliquera, en illustrant le propos à travers des applications réalisées pour des entreprises de transport, des réparateurs et des grossistes en bâtiment, comment la Data Science aide à la mise au point des prix pendant leur négociation
Big Data effet de mode ou vrai utilité? On entend de plus en plus parler de Big Data, qui devrai bouleverser notre vie de tous les jours. On génere, avec internet, de plus en plus de quantités extraordinaires de données, qu'en fait-on? Forbes le classe parmi les 10 "technologies" qui devront marquer 2014! Mais qu'est-ce que c'est? Comment le mettre en oeuvre?
Spark : 5 moyens simples et rapides pour exploiter vos Big Data avec Spark et...Jean-Michel Franco
L'environnement Spark change la donne pour les projets Big Data: accélération des prises de décisions et des temps de traitement grâce à l'in-memory ; intégration du décisionnel dans le transactionnel grâce aux architectures lambda ; temps réel et streaming ; machine learning. Le tout dans un environnement intégré. Reste à la prendre en main rapidement, mais aussi à s'en abstraire car il n'est sans doute pas la dernière innovation que l'on peut attendre dans le monde du Big Data en général et de Hadoop en particulier.
Une introduction au Big Data, NoSQL et Open Data.
Il présente les avantages de NoSQL.
Une présentation des différents types des bases de données NoSQL.
EXL Group, cabinet de conseil en technologies Analytiques, Numériques et Digitales.
Nos équipes multi-spécialistes réunissent des experts en conseils, technologies ou encore méthodes éprouvées pour vous proposer des prestations optimales pour vos Systèmes d’Information. En favorisant et récompensant la prise d’initiative, l’esprit entrepreneurial, nous plaçons chaque collaborateur au cœur de chaque projet . Nous travaillons donc tout autant sur votre satisfaction que sur celles de nos équipes.
Converteo renouvelle son panorama sur les opportunités liées à une infrastructure Data-Lakes. Cette technologie a démontré ses capacités d’exploitation et de valorisation des datas des entreprises et, dans un contexte de mise en conformité RGPD, révèle encore plus son agilité.
Mieux comprendre le Data-Lake :
Littéralement traduit par lac de données, il s’agit d’un espace de stockage permettant le traitement d’informations de plusieurs sources et ce, de manière quasi illimitée et en un temps record.
Le Data-Lake est donc une réelle opportunité et doit être considéré en amont de toute démarche data-driven, que ce soit dans le domaine :
- Du marketing : pour alimenter des campagnes, choisir un lieu d’implantation d’un nouveau magasin ;
- De l’expérience client : pour personnaliser une offre, recommander les produits adéquats ;
- De la business Intelligence : pour créer une vision 360° de ses clients, piloter la pression publicitaire ;
- De la performance opérationnelle : pour réduire ses coûts informatiques, adapter ses ressources en fonction de l’activité.
Infrastructure flexible, elle permet donc un large champ d’analyse qualitative avec des données activables à tout moment en fonction des besoins business.
Big Data, Data Science, cluster Hadoop, Machine Learning, etc. Aujourd'hui, impossible de passer à côté de ce phénomène vers lequel de plus en plus d'entreprises se tournent.
Au-delà des mots et de la tendance, comment réellement tirer parti de toutes vos données et en tirer un véritable avantage concurrentiel? La réponse se résume en quelques mots: Monter un Data Lab. Au cours de cette présentation, nous vous proposons de définir ce qu'est réellement un Data Lab, de comprendre les grandes étapes essentielles pour le monter de manière intelligence, d'identifier les profils nécessaires à son bon fonctionnement et de savoir comment optimiser son utilisation pour en tirer une vraie valeur ajoutée pour votre entreprise.
La vidéo de la conférence est à retrouver sur : http://www.xebicon.fr/programme.html
Paris Spark Meetup (Feb2015) ccarbone : SPARK Streaming vs Storm / MLLib / Ne...Cedric CARBONE
Présentation de la technologie Spark et exemple de nouveaux cas métiers pouvant être traités par du BigData temps réel par Cédric Carbone
-Spark vs Hadoop MapReduce (& Hadoop v2 vs Hadoop v1)
-Spark Streaming vs Storm
-Le Machine Learning avec Spark
-Use case métier : NextProductToBuy
Valtech - Big Data : Détails d’une mise en œuvreValtech
Big Data : Détails d’une mise en œuvre
Construction d’une solution d’analyse d’e-reputation
Collecter et stocker les données : Quelle infrastructure ?
Corréler et agréger les données : Quelle analyse ?
Restituer et exploiter : Quels résultats ?
Présentation animée par Hervé Desaunois, Responsable Technique, Valtech
herve.desaunois@valtech.fr
Evénement - Big Data : ne dormez pas sur vos données !
Valtech - 29/11
La gouvernance du SI hybride - Principes et mise en oeuvreOCTO Technology
L'arrivée des offres SaaS - dont les métiers sont friands pour leur facilité d'utilisation et d'accessibilité - fait émerger plusieurs interrogations quant au positionnement et à l'avenir de la DSI en entreprise. Dans ce contexte, on remarque plusieurs postures pour la DSI allant de l'absence au Cloud Broker.
Cette présentation montre différents positionnements qu'une DSI peut aborder et apporte plan d'action et solutions dans ce contexte de transformation.
De votre coté, où en est la DSI ?
Du Big Data vers le SMART Data : Scénario d'un processusCHAKER ALLAOUI
Du Big Data vers le SMAR Data : Scénario d'un processus
Scénario d'une implémentation d'un processus de transformations des données Big Data vers des données exploitables et représentatives via des traitements des streaming, systèmes distibués, messages, stockage dans un environnement NoSQL, gestion avec un éco-système Big Data et présentation graphique et quantitative des données avec les technologies:
Apache Storm, Apache Zookeeper, Apache Kafka, Apache Cassandra, Apache Spark et Data-Driven Document.
Data Science : Méthodologie, Outillage et Application - MS Cloud Summit Paris...Jean-Pierre Riehl
-- session présentée dans le cadre du MS Cloud Summit Paris 2017 avec Emmanuel Frenod --
L’approche Data Science des données révolutionne l’analyse traditionnelle. La façon d’appréhender les questions, la méthodologie à suivre ainsi que l’outillage à utiliser sont différents de la BI traditionnelle. Nous aborderons dans cette session ces différences et pointeront les bonnes pratiques de la Data Science avec les outils Microsoft au travers d’un cas d’utilisation concret. Ce « retour d’expérience » expliquera, en illustrant le propos à travers des applications réalisées pour des entreprises de transport, des réparateurs et des grossistes en bâtiment, comment la Data Science aide à la mise au point des prix pendant leur négociation
Big Data effet de mode ou vrai utilité? On entend de plus en plus parler de Big Data, qui devrai bouleverser notre vie de tous les jours. On génere, avec internet, de plus en plus de quantités extraordinaires de données, qu'en fait-on? Forbes le classe parmi les 10 "technologies" qui devront marquer 2014! Mais qu'est-ce que c'est? Comment le mettre en oeuvre?
Spark : 5 moyens simples et rapides pour exploiter vos Big Data avec Spark et...Jean-Michel Franco
L'environnement Spark change la donne pour les projets Big Data: accélération des prises de décisions et des temps de traitement grâce à l'in-memory ; intégration du décisionnel dans le transactionnel grâce aux architectures lambda ; temps réel et streaming ; machine learning. Le tout dans un environnement intégré. Reste à la prendre en main rapidement, mais aussi à s'en abstraire car il n'est sans doute pas la dernière innovation que l'on peut attendre dans le monde du Big Data en général et de Hadoop en particulier.
Une introduction au Big Data, NoSQL et Open Data.
Il présente les avantages de NoSQL.
Une présentation des différents types des bases de données NoSQL.
EXL Group, cabinet de conseil en technologies Analytiques, Numériques et Digitales.
Nos équipes multi-spécialistes réunissent des experts en conseils, technologies ou encore méthodes éprouvées pour vous proposer des prestations optimales pour vos Systèmes d’Information. En favorisant et récompensant la prise d’initiative, l’esprit entrepreneurial, nous plaçons chaque collaborateur au cœur de chaque projet . Nous travaillons donc tout autant sur votre satisfaction que sur celles de nos équipes.
Converteo renouvelle son panorama sur les opportunités liées à une infrastructure Data-Lakes. Cette technologie a démontré ses capacités d’exploitation et de valorisation des datas des entreprises et, dans un contexte de mise en conformité RGPD, révèle encore plus son agilité.
Mieux comprendre le Data-Lake :
Littéralement traduit par lac de données, il s’agit d’un espace de stockage permettant le traitement d’informations de plusieurs sources et ce, de manière quasi illimitée et en un temps record.
Le Data-Lake est donc une réelle opportunité et doit être considéré en amont de toute démarche data-driven, que ce soit dans le domaine :
- Du marketing : pour alimenter des campagnes, choisir un lieu d’implantation d’un nouveau magasin ;
- De l’expérience client : pour personnaliser une offre, recommander les produits adéquats ;
- De la business Intelligence : pour créer une vision 360° de ses clients, piloter la pression publicitaire ;
- De la performance opérationnelle : pour réduire ses coûts informatiques, adapter ses ressources en fonction de l’activité.
Infrastructure flexible, elle permet donc un large champ d’analyse qualitative avec des données activables à tout moment en fonction des besoins business.
Big Data, Data Science, cluster Hadoop, Machine Learning, etc. Aujourd'hui, impossible de passer à côté de ce phénomène vers lequel de plus en plus d'entreprises se tournent.
Au-delà des mots et de la tendance, comment réellement tirer parti de toutes vos données et en tirer un véritable avantage concurrentiel? La réponse se résume en quelques mots: Monter un Data Lab. Au cours de cette présentation, nous vous proposons de définir ce qu'est réellement un Data Lab, de comprendre les grandes étapes essentielles pour le monter de manière intelligence, d'identifier les profils nécessaires à son bon fonctionnement et de savoir comment optimiser son utilisation pour en tirer une vraie valeur ajoutée pour votre entreprise.
La vidéo de la conférence est à retrouver sur : http://www.xebicon.fr/programme.html
Paris Spark Meetup (Feb2015) ccarbone : SPARK Streaming vs Storm / MLLib / Ne...Cedric CARBONE
Présentation de la technologie Spark et exemple de nouveaux cas métiers pouvant être traités par du BigData temps réel par Cédric Carbone
-Spark vs Hadoop MapReduce (& Hadoop v2 vs Hadoop v1)
-Spark Streaming vs Storm
-Le Machine Learning avec Spark
-Use case métier : NextProductToBuy
[livre blanc] "Les Big Data pour les services publics : enjeux, technologies ...yann le gigan
>>[livre blanc] "Les Big Data pour les services publics : enjeux, technologies et usages" CXP / Teradata
[cxp.fr 01.04.15]
Selon une étude de CXP et Teradata, les services publics offrent un débouché privilégié pour le big data. Ils pourraient même constituer le moteur de banalisation de cette technologie dans l’ensemble de l’économie. Et, pour une fois, la France serait en avance dans ce domaine.
http://www.cxp.fr/sites/default/files/images/Divers/livre_blanc_cxp_bigdataservices_publics2015_final.pdf
Recherche full-text et recommandation, deux mondes à part? Nous verrons qu’il est possible de marier Lucene (Elastic Search/Solr) et filtrage collaboratif afin de produire un système de recommandation flexible et scalable. Cela passera par un aperçu des dernières sorties : la plateforme Confluent (Kafka) ainsi que Mahout 0.10 (avec Samsara).
Matthieu Blanc présentera spark.ml. En effet, la version 1.2 de Spark a introduit ce nouveau package qui fournit une API de haut niveau permettant la création de pipeline de machine learning. Nous verrons ensemble les concepts de base de cet API à travers un exemple.
http://hugfrance.fr/spark-meetup-a-la-sg-avec-cloudera-xebia-et-influans-le-jeudi-11-juin/
BEEYOU, La solution écoresponsable de diffusion d’informations
C’est de la diffusion d’informations (Publicité, Plaquettes, affiches, vidéos…) à l’aide de technologies innovantes (B.U Box)
Qui touchent tous les supports multimédias (Ordinateurs, portables et Tablettes…)
Sans aucune impression ni distribution physique de tracts
Support du cours du 31.8.12 à Lausanne. Une petite dizaine de participants pour une approche théorique et stratégique des médias sociaux. Pour plus d'informations : http://www.valeriedemont.ch/les-formations/
Rapide introduction à Hadoop lors du lancement du Casablanca Hadoop & Big Data Meetup.
En partenariat avec Hortonworks
http://www.meetup.com/Casablanca-Hadoop-et-Big-Data-Meetup
Bluestone - Panorama des solutions analytiques existantesBluestoneServices
La Société Française de Statistique (SFdS) nous a fait le plaisir de convier Bluestone, le 16 janvier 2014, à son Rendez-Vous Méthodes et Logiciels consacré au Big Data.
Bluestone y a présenté un “Panorama des solutions analytiques existantes”.
Sahara : Hadoop as Service avec OpenStackALTIC Altic
Un des initiative les plus intéressante du moment c'est Hadoop à la demande. Sahara, en incubation parmi les projets OpenStack facilite la mise en place de votre infrastructure moderne pour rester agile même dans une infrastructure qui réclame un nombre de machine toujours plus important...
présentation Solutions Linux 2014
Hitachi Data Systems décline sa proposition pour le Big Data via une solution Software-Defined Data Center (SDDC), nommée Hyper Scale-out Platform (HSP). Elle assure une orchestration des Services de calcul, réseau et stockage, avec des technologies Open Source de machines virtuelles (KVM) et un système distribué Hadoop (HDFS).
Avec UCP pour SAP HANA, HSP est une autre réponse Hitachi dédiée à l’Analytique. L’acquisition de Pentaho par HDS accompagne cette stratégie de délivrer au-delà du simple matériel. La solution Pentaho est intégrée au HSP, afin de bâtir une solution logicielle et matérielle complète et d'accompagner la transformation digitale des entreprises au plus proche de leur Métier.
Déployer et valider un environnement de traitement orienté Big Data sur des solutions Open Source est une tâche complexe, longue, plus couteuse qu'on ne le croit et peu valorisante au regard du métier. HSP répond à cette problématique à travers des composants logiciels et matériels certifiés et maintenus, assurant une meilleure disponibilité vers la réalisation d’un projet piloté par les décisionnaires des projets et les propriétaires des données.
La finalité de la solution HSP est d’être au service des besoins de l’entreprise en traitements analytiques. Au sein de la solution, Hitachi développe et déploie des technologies pour assurer des services nécessitant de haute performance, en partant de l’ingestion multi flux jusqu'à la restitution visuelle des données. Cette gestion évoluée permet de construire des solutions basées sur la recherche, la corrélation et la mise en perspective de flux important d’information dans un cadre temps réel.
Social Network Analysis Utilizing Big Data TechnologyImad ALILAT
Collecting, collating and carrying out complex data analysis(weblogs & KPI). Also involved in reporting statistical findings to work colleagues and senior managers.
SQLSaturday Paris 2014 - HDInsight : Cas d’usages, Hive, Sqoop, Pig, …GUSS
L’idée de la session est de présenter HDInsight en montrant des exemples concrets d’utilisation. Cette session s’adresse aux consultants BI et aux désireux de connaitre la solution BigData de Microsoft ainsi qu’aux architectes SI. Au programme : présentation de l’offre BigData de Microsoft (HDInsight OnPremise ou dans Windows Azure), les outils du monde Hadoop (Hive, Pig, HBase, Sqoop, …), la place du Framework Hadoop dans nos systèmes d’informations, le tout ponctué de démonstrations. Session présentée lors du SQLSaturday Paris 2014
Polybase est le front-end universel entre le monde relationnel et non relationnel.
Dans cette session nous verrons les capacités de la plateforme Analytics Platform System (APS) contenant une région HDInsight (Distribution Hadoop de Microsoft) et une région PDW (Parallel Data Warehouse, l’offre MPP de SQL Server).
Nous présenterons ensuite l’offre Polybase incluse dans SQL Server 2016 Public Preview. Sans oublier l’intérêt et les bénéfices du MPP, les cas d’usage de la Big Data en entreprise et le gain à utiliser en même temps ces deux technologies.
Nous analyserons ainsi des données non structurées et volumineuses et les exploiterons au sein d’un système décisionnel et relationnel avec un langage que nous connaissons tous : le T-SQL !
Big Data: Hadoop Map / Reduce sur Windows et Windows AzureMicrosoft
L'algorithme Map/Reduce et sa mise en oeuvre avec Apache Hadoop permettent de gérer de très grands volumes de données non structurées. Microsoft adopte Haddop sur Windows et Windows Azure. Venez voir comment.
Le Big Data offre la capacité de traiter des volumes de données conséquents à l’aide d’architectures techniques nouvelles, comment les utilisateurs traditionnels (datamanager, datasteward, dataminers) accèderont et traiteront les données dans ces nouvelles architectures ?
Similaire à Petit-déjeuner OCTO : Hadoop, plateforme multi-tenant, à tout d'une grande ! (20)
Le Comptoir OCTO - Qu'apporte l'analyse de cycle de vie d'un audit d'éco-conc...OCTO Technology
par Nicolas Bordier (Consultant numérique responsable @OCTO Technology) et Alaric Rougnon-Glasson (Sustainable Tech Consultant @OCTO Technology)
Sur un exemple très concret d’audit d’éco-conception de l’outil de bilan carbone C’Bilan développé par ICDC (Filiales de la Caisse des dépôts et consignations) nous allons expliquer en quoi l’ACV (analyse de cycle de vie) a été déterminante pour identifier les pistes d’actions pour réduire jusqu'à 82% de l’empreinte environnementale du service.
Le Comptoir OCTO - Se conformer à la CSRD : un levier d'action insoupçonnéOCTO Technology
Se conformer à la CSRD : un levier d'action insoupçonné
par Bintou Diarra (Manager EPM @OCTO Technology), Chloé Wibaux (Consulting & stratégie @Accenture) et Frédéric Lenci (Partner @OCTO Technology)
À partir de 2024, plus de 50 000 entreprises en Europe rendront compte de leurs impacts environnementaux et sociaux, ainsi que sur les mesures prises pour les améliorer. Pour répondre à cette obligation, elles devront se conformer à la Corporate Sustainability Reporting Directive (CSRD) en exploitant toutes leurs données, ce qui représente un défi majeur. Grâce à notre expertise dans le domaine de la donnée, pilotage opérationnel et solutions technologiques, nous sommes prêts à aider nos clients à relever ces défis liés au reporting CSRD. Lors de ce Comptoir, nous exposerons notre approche de gouvernance des données ESG, nos méthodes pour piloter les actions ainsi que les solutions pour générer le rapport et superviser les initiatives ESG de manière opérationnelle.
Le Comptoir OCTO - MLOps : Les patterns MLOps dans le cloudOCTO Technology
Comment choisir son architecture MLOps dans le cloud ?
par Baptiste Courbe (Senior Data Consultant & MLOps @OCTO Technology)
Choisir une architecture aura de grands impacts en termes de mise en œuvre, de maintenabilité, d'évolutivité, de passage à l’échelle, etc. À travers nos retours d’expérience sur les différents cloud providers, venez découvrir les différents niveaux de complexité de telles architectures et les critères de décision.
Que vous soyez débutant ou expert en MLOps, nous vous donnerons les clés pour faire les bons choix techniques.Vous repartirez avec une vue d’ensemble des bonnes pratiques et des pièges à éviter pour déployer vos applications de Machine Learning XGBoost ou LLM dans le cloud.
Vidéo Youtube : https://www.youtube.com/watch?v=j_5pI6iYRs4&list=PLBD8R108T9T4D3mcLiDpT67f9ERg1Hm2r&index=57
Compte-rendu :
La Grosse Conf 2024 - Philippe Stepniewski -Atelier - Live coding d'une base ...OCTO Technology
Par Philippe Stepniewski - ML Engineer
Et si nous développions ensemble un moteur de recherche multimodal texte-image ? Imaginons un moteur qui, à partir d'une simple description textuelle d'un produit sur un site d'e-commerce, puisse trouver instantanément les images correspondantes, sans nécessiter la saisie préalable de textes descriptifs pour nos produits ! Les bases de données vectorielles seront au centre de cet atelier. Il serait tout à fait possible de prendre une solution clé en main, mais où serait le fun là-dedans ? Rien de tel que de mettre les mains dans le code pour comprendre le fonctionnement de tels concepts, alors implémentons en une nous-mêmes ! Pré-requis : Pour assister à cet atelier et comprendre ce qui sera affiché à l’écran, il est recommandé d’être à l’aise dans la lecture de code Python manipulant des données vectorielles (type Numpy). Même si nous effectuerons des rappels en début d’atelier, des rudiments en data science vous aideront à comprendre les concepts manipulés : CNN, embedding, distance/similarités entre vecteurs.
La Grosse Conf 2024 - Philippe Prados - Atelier - RAG : au-delà de la démonst...OCTO Technology
Par Philippe Prados - Pionnier de l'informatique
Un des usages les plus fréquents des Larges Languages Models (LLM) consiste à répondre à des questions à partir d’une base documentaire : le fameux Retrieval Augmented Generation (RAG). Les démonstrations font leur effet wahou ! Les douleurs arrivent lorsque la solution est vraiment utilisée : le modèle répond à côté, ignore des informations présentes dans les documents… Comment aller plus loin ? Comment rendre la solution plus robuste ? Plus fiable ? Pour répondre à ces questions, nous allons mettre les mains dans le code, dans l’architecture, pour appliquer les concepts classiques de l’informatique aux RAG. Pré-requis : Même si un rappel sera fait au début, pour assister à cet atelier et comprendre ce qui sera affiché à l’écran, il est recommandé d’être à l’aise dans la lecture de code Python et les principes de base des modèles de langage et des bases vectorielles.
Le Comptoir OCTO - Maîtriser le RAG : connecter les modèles d’IA génératives ...OCTO Technology
Maîtriser le RAG : connecter les modèles d’IA génératives aux données de l’entreprise
par Nicolas Cavallo (Head of Natural Language Processing @OCTO Technology)
Les chatbots intelligents qui répondent directement aux clients, des tâches accélérées et simplifiées pour les salariés via des services d’assistance helpdesk automatisés, etc. Après plusieurs mois de développement et d’implémentation de projets de génération augmentée de récupération (Retrieval Augmented Generation - RAG),faisons le bilan sur ce principal cas d’usage à base d’IA génératives.
Nous détaillerons le fonctionnement du RAG qui permet de connecter la puissance de l’IA générative au patrimoine informationnel des entreprises. Nous examinerons plus particulièrement les méthodologies pour les évaluer et les améliorer. Grâce à nos retours d’expérience, nous détaillerons des stratégies d’intégration dans un environnement souverain.
Vidéo Youtube : https://www.youtube.com/watch?v=9tmlseutQM8
Compte-rendu : https://blog.octo.com/maitriser-le-rag-retrieval-augmented-generation
OCTO Talks - Les IA s'invitent au chevet des développeursOCTO Technology
Les IA s'invitent au chevet des développeurs : rêve ou cauchemar ?
par Alain Faure (Architecte @OCTO Technology) et Alexandre Jeambrun (Programmeur, Crafter & Coach tech @OCTO Technology)
L’année 2023 marque le retour en force de l’intelligence artificielle avec la démocratisation des IA génératives qui ont le potentiel de perturber de nombreuses activités et en particulier le développement d'applications. La révolution de l’IA dans le développement de code n’a pas attendu le buzz de chatGPT. La société TabNine est créée en 2017 et dès 2018 Microsoft lance Intellicode, puis copilot en 2022. AWS se joint au mouvement avec CodeWhisperer. Tous ces outils sont opérationnels et leur base d'utilisateurs s'accroît jour après jour.
Effet de mode, évolution ou révolution, est ce que bientôt il y aura moins de développeurs ? Que savent vraiment faire ces IA ? Quels types de gains en attendre et comment les utiliser ? Comment les équipes accueillent elles ces outils ? Faut-il les former ? Quels risques y a-t-il à utiliser ces outils ? Bienvenue à un tour complet de l'IA dans le monde du développement
Lancement du livre Culture Test Vol.2
par Sylvie Ponthus (développeuse, chef de projet et coach agile @ OCTO Technology), Stéphane Bedeau (développeur et formateur @OCTO Technology) et Christophe Breheret-Girardin (Coach Craft, formateur et conférencier @OCTO Technology)
Et si tester, c’était mieux faire, faire plus rapidement ? À l'occasion de la sortie du premier volume de notre trilogie Culture Test, on vous donne rendez-vous le mardi 5 décembre dans les locaux d'OCTO Technology pour rencontrer les auteurs, confronter les points de vue, et vous dévoiler en exclusivité le prochain tome
Le Comptoir OCTO - Green AI, comment éviter que votre votre potion magique d’...OCTO Technology
Green AI, comment éviter que votre votre potion magique d’IA ne se transforme en poison ?
par Eric Biernat (Directeur Big Data Analytics @OCTO Technology) et Reynald Riviere (Manager Sénior Data Science @OCTO Technology)
Après l’électricité et l’Internet, nous sommes maintenant dans l’ère de l’IA avec des modèles qui optimisent l’usage de nos ressources … sans avoir conscience que ces modèles d’IA sont eux aussi énergivores. Venir découvrir comment l’écologie de l'IA est devenu notre quête avec le Green AI selon 3 angles de vue : le software, le hardware et le processus.
Vidéo Youtube : https://www.youtube.com/watch?v=7nWADBWA22c
Compte-rendu : https://blog.octo.com/comptoir-green-ai
OCTO Talks - State of the art Architecture dans les frontend webOCTO Technology
Vous avez dit architecture front 💅 ? Du CSS au CDN, personne ne sera épargné !
par Pierrette Bertrand (Head of Web Front Development @OCTO Technology), David Ostermann (Developpeur Front End @OCTO Technology) et Florian Leroy (Consultant Senior @OCTO Technology)
Qu’est-ce qu’une architecture front ? Selon que vous demandiez à un intégrateur, un développeur frontend, un développeur d’API ou tout simplement, à un architecte, la réponse sera bien différente. Car selon notre expérience, ce dernier, n’a en réalité qu’une partie de la réponse. Dans ce talk, nous regarderons ensemble les avantages et inconvénients de la multitude des choix possibles, à chaque étage, afin de donner une carte utile pour s’y retrouver. N’en déplaise aux développeurs front, le concept d’architecture front dépasse de loin le choix de leur framework préféré !
Cette Refcard est un condensé de bonnes pratiques qui s'adresse autant aux consommateurs qu'aux développeurs d'API GraphQL.
Elle aborde notamment la documentation, le versioning, le code first, le monitoring, la découvrabilité, la sécurité et le design de schéma.
Comment la culture d'entreprise peut faire la différence lors d'une fusion acquisition ?
par Lucie quach, Vanessa Govi et Frédéric Lenci
Comment la Culture s'est retrouvée parmi les sujets d'intégration clés lors d'une fusion ? Venez découvrir les coulisses de 6 mois de la co-construction entre ALD/Leaseplan pour définir la culture commune de l'entreprise de 15 700 personnes couvrant 60 pays et les supports que l'on a co-créés pour l'implémenter aussi bien au COMEX que sur le terrain.
Vidéo Youtube : https://www.youtube.com/watch?v=smnpq7Ey9pk
Compte-rendu : https://blog.octo.com/compte-rendu-du-comptoir-definition-de-la-culture-dentreprise-issue-dune-fusion
Le Comptoir OCTO - Comment optimiser les stocks en linéaire par la Data ? OCTO Technology
Par Antoine Moreau (Head of Data & AI @OCTO Technology), Pierre Sabrié (Directeur Prévision @Groupe Casino) et Nicolas Gery (Retail Strategy & Consulting Senior Manager @Accenture)
Comment sécuriser la disponibilité des produits en rayon, réduire la casse et les stocks, et gagner en efficacité en centrale et en magasins ?
Casino a réussi rapidement ce pari grâce à une solution algorithmique capable de traiter des données à la maille la plus fine (articles x magasins), de manière quotidienne en se basant sur les assets Cloud.
Rejoignez Pierre, Antoine et Nicolas qui vous partageront les réussites, les difficultés rencontrées et la démarche Casino.
Vidéo Youtube : https://www.youtube.com/watch?v=6oX4NvXZkTk&list=PLBD8R108T9T4D3mcLiDpT67f9ERg1Hm2r&index=47
Compte-rendu : https://blog.octo.com/compte-rendu-le-comptoir-x-casino-comment-optimiser-les-stocks-en-lineaire-par-la-data/
Le Comptoir OCTO - Retour sur 5 ans de mise en oeuvre : Comment le RGPD a réi...OCTO Technology
Par Julie François (Consultante et formatrice RGPD @OCTO Technology)
Le RGPD a fêté ses 5 ans de mise en application et vous pensez toujours que votre équipe ne manipule pas “vraiment” de données personnelles ? Alors ce Comptoir OCTO est fait pour vous !
Chez OCTO, nous avons la conviction que le RGPD n'est pas qu'une affaire de juristes. Alors embarquez avec nous pour une sensibilisation rythmée et parlante. Au programme des retours d’expérience sur 5 années de mise en œuvre, qui vous feront découvrir le sujet de la protection des données autrement.
Vidéo Youtube : https://www.youtube.com/watch?v=uum3Qxisuu0&list=PLBD8R108T9T4D3mcLiDpT67f9ERg1Hm2r&index=51
Compte-rendu : https://blog.octo.com/compte-rendu-du-comptoir-retour-sur-5-ans-de-mise-en-oeuvre-comment-le-rgpd-a-reinvente-la-protection-des-donnees-personnelles/
Le Comptoir OCTO - Affinez vos forecasts avec la planification distribuée et...OCTO Technology
par Wilde Diogene (Manager EPM @OCTO Technology), Samir Benyoucef (Consultant @OCTO Technology) et Elghali Guessous (Delivery Manager EPM @OCTO Technology)
Les approches traditionnelles de planification, basées sur un consensus entre différents départements (ventes, marketing, finance), peuvent être consommatrices de temps et aboutir à des prévisions inexactes. Découvrez comment exploiter l'IA et le Machine Learning pour créer une plateforme de prévision du chiffre d'affaires intelligente. En associant le planning distribué de Pigment (EPM) et la puissance prédictive de Dataiku (Auto ML), vous bénéficiez d'un gain de temps significatif dans votre planification, d'une prise de décision éclairée et d'une meilleure gestion de vos ressources (humaines, production, stocks...).
Surmontez les incertitudes et pilotez votre entreprise vers le succès avec confiance.
Vidéo Youtube : https://www.youtube.com/watch?v=tBwlWAksFik&list=PLBD8R108T9T4D3mcLiDpT67f9ERg1Hm2r&index=48
Compte-rendu : https://blog.octo.com/affinez-vos-forecast-avec-le-planning-distribue-et-lautoml/
Le Comptoir OCTO - La formation au cœur de la stratégie d’éco-conceptionOCTO Technology
Par Brice Le Roux (GreenOps @OCTO Technology) et Frédéric Menetreux (Architecte d’entreprise @CA-GIP)
Vous souhaitez acquérir les leviers d’action pour mettre en œuvre la sobriété numérique et mesurer les impacts de votre infrastructure ? Rejoignez Brice et Frédéric qui vous partageront les réussites et améliorations de la formation réalisée au Crédit Agricole par OCTO Academy
Vidéo Youtube : https://www.youtube.com/watch?v=efrJT_ZJ5fk&list=PLBD8R108T9T4D3mcLiDpT67f9ERg1Hm2r&index=50
Compte-rendu : https://blog.octo.com/les-comptoirs-octo-la-formation-au-coeur-de-la-strategie-deco-conception-de-linfra/
Le Comptoir OCTO - Une vision de plateforme sans leadership tech n’est qu’hal...OCTO Technology
Par Wassel Alazhar (Architecte @OCTO Technology), François-Xavier Bouffant (Engineering Manager @Wakam )et Etienne Debost (Head of Architecture @Wakam)
La littérature promeut les plateformes digitales comme un levier de croissance pour les entreprises et un vrai avantage stratégique dans l’économie numérique.
Force est de constater que les entreprises qui se lancent dans cette aventure échouent : elles n’arrivent pas à dépasser le Proof Of Concept ou bien s’enlisent dans la paralysis analysis après des millions d’euros dépensés.
Nous vous partageons un retour sur l'expérience Wakam. Nous avons réussi à amorcer une dynamique pour construire une plateforme (tunnel de distribution en marque blanche, APIs, web apps, blockchain...) qui permet d’innover, de fournir des capacités métiers sous forme de commodité et d’assurer une expérience hyper personnalisable aux partenaires, en moins de 6 mois
Vidéo Youtube : https://www.youtube.com/watch?v=tfioZZTfX1M&list=PLBD8R108T9T4D3mcLiDpT67f9ERg1Hm2r&index=49
Compte-rendu : https://blog.octo.com/compte-rendu-du-comptoir-une-vision-de-plateforme-sans-leadership-tech-nest-quhallucination/
Le Comptoir OCTO - L'avenir de la gestion du bilan carbone : les solutions E...OCTO Technology
Par Wilde Diogene (Manager EPM @OCTO Technology), Samir Benyoucef (Consultant @OCTO Technology) et Matthieu Mlatac (Consultant sénior @OCTO Technology)
Plongez dans les bénéfices des solutions EPM pour améliorer la gestion du bilan carbone de votre entreprise. En simplifiant la collecte et l’analyse, ces solutions offrent une vision claire de votre empreinte environnementale et permettent d’identifier les opportunités de réductions de vos émissions. Les bénéfices pour votre entreprise incluent une meilleure efficacité opérationnelle, des coûts réduits, une réputation renforcée et une contribution significative aux efforts de lutte contre le changement climatique.
Vidéo Youtube : https://www.youtube.com/watch?v=ak--ftSio-I&list=PLBD8R108T9T4D3mcLiDpT67f9ERg1Hm2r&index=46
Compte-rendu : https://blog.octo.com/lavenir-de-la-gestion-du-bilan-carbone-les-solutions-epm-au-service-de-la-performance-environnementale/
Le Comptoir OCTO - Continuous discovery et continuous delivery pour construir...OCTO Technology
Par Mehdi Houacine (Consultant Senior @OCTO Technology), Sofia Calcagno (Machine Learning Engineer @OCTO Technology) et Thomas Dobrzelewski (Lead Product Manager B2C @Wakam)
Wakam a comme ambition de réinventer le métier de l'assurance en y introduisant plus de transparence et de sécurisation via le blockchain. Or, ce type d'innovation structurante pose plusieurs questions : qui seront ses utilisateurs cibles ? Quel sera son impact sur le processus métier ? Nous vous présenterons ici une démarche liant expérimentation et déploiement via les outils du DDD permettant de faire pivoter un produit rapidement.
Vidéo Youtube : https://www.youtube.com/watch?v=Q3ElzHtV40s&list=PLBD8R108T9T4D3mcLiDpT67f9ERg1Hm2r&index=45
Compte-rendu : https://blog.octo.com/compte-rendu-du-comptoir-continuous-delivery-et-continuous-discovery-pour-construire-lassurance-de-demain/
L’état de l’art des tests front-end
Maîtriser et fiabiliser son code sont aujourd’hui devenus incontournables pour tout développeur devant faire face à des architectures Web de plus en plus riches et complexes.
Il existe des outils pour réaliser des tests front-end d’applications Web et répondre aux besoins d’un développement de qualité.
Nous vous invitons ici à parcourir l’écosystème de ces tests front-end d’applications Web. Que vous soyez déjà convaincus par les tests ou tout simplement curieux, ce document vous guidera pour les mettre en place sur vos projets.
JTC_2024_TC Bâtiment et bien-être estival.pdfidelewebmestre
Le changement climatique s’exprime de plus en plus par la manifestation d’épisodes caniculaires et par la diminution de la ressource fourragère en été, ce qui contraint les éleveurs à rentrer leur troupeau plus fréquemment. Les animaux logés en bâtiment pendant la période estivale sont exposés à un stress thermique qui peut altérer leur bien-être et leurs performances à court et moyen terme. La conception du bâtiment ou certains équipements peuvent permettre de réduire ce stress pour assurer un meilleur confort aux animaux pendant les périodes de fortes chaleurs.
Le comité de filière ovin et les équipes de l’Institut de l’Elevage ont présenté lors d'un webinaire, comment la sélection génétique contribue aux enjeux actuels de la production ovine. Quelles sont les travaux en cours et les perspectives d’étude sur la brebis de demain.
Intervention : La génétique s’adapte à la demande de la filière ovine (Gilles Lagriffoul)
Le comité de filière ovin et les équipes de l’Institut de l’Elevage ont présenté lors d'un webinaire, comment la sélection génétique contribue aux enjeux actuels de la production ovine. Quelles sont les travaux en cours et les perspectives d’étude sur la brebis de demain.
Intervention : La génétique, un levier majeur pour les enjeux à venir (Mathieu Foucault)
2024 03 27 JTC actualités C Perrot (idele).pdfidelewebmestre
Quelque que soit les secteurs de production, les pyramides des âges des agriculteurs français (chefs et coexploitants) présentent presque toujours un double déséquilibre : i) en faveur des classes d’âges à partir de 50-55 ans, ii) en défaveur des femmes, surtout de moins de 40 ans. Si le secteur caprin est une exception à cette règle, c’est principalement grâce aux producteurs qui transforment du lait à la ferme. Cette sous population présente le même équilibre, en classe d’âge et en sex ratio, que la population active française en emplois tous secteurs économiques confondus. C’est légèrement moins vrai pour les classes d’âge les plus jeunes (moins de 30 ans) : le métier d’éleveur.se est un métier d’indépendant alors que les jeunes actifs français sont salariés. Cet équilibre parfait du secteur caprin fermier s’explique par une forte attractivité. 40% des éleveur.se.s présents en 2020 s’étaient installés depuis 2010 ! Deux fois plus que dans les autres secteurs de l’élevage. Bien que pour l’instant stable (taux de remplacement des départs, entrées/sorties, proche de 100%), la sous population des éleveurs qui livrent du lait de chèvre est plus fragile. Compte tenu d’un très faible taux de renouvellement (nombre d’entrées/nombre de présents), elle vieillit et pourrait finir par diminuer. Néanmoins comme les besoins de recrutement sont bien moins élevés qu’en bovins lait par exemple, les marges de manoeuvre pour la filière semblent plus accessibles.
Provinlait 2024-Leviers fourrages - Madrid Aurélie Frayssinhes, Sandra (Cha...idelewebmestre
Les éleveurs ovins sont confrontés aux impacts du changement climatique sur leurs fermes et mettent en place des leviers d'adaptation dont certains ont été présentés lors du salon Provinlait : prairies multi-espèces, sursemis, méteils et dérobées estivales.
L’équipe du projet BeBoP a proposé un webinaire le 30 mai 2024 pour découvrir comment la technologie vidéo, combinée à l’intelligence artificielle, se met au service de l’analyse du comportement des taurillons.
5. 5
Multi-tenance ?
“
Un système multi-tenant est un système
hébergeant les données de plusieurs
”
entités et servant plusieurs clients
6. 6
Le multi-tenant comme flexibilité technique et humaine (1/3)
Pour la gestion des environnements
Cluster de
développement
Cluster de
qualification
Cluster de production
vs
Cluster multi-environnements sécurisé et isolé
7. 7
Le multi-tenant comme flexibilité technique et humaine (2/3)
Pour la gestion d’usages multiples
(production, reporting, exploration, …)
vs
Cluster contenant les
Cluster mixte données brutes & bacs à sable, urbanisé et sécurisé
Offre de services et d’outils d’exploration
données brutes
Bacs à sable pour
l’exploitation des données
8. 8
Le multi-tenant comme flexibilité technique et humaine (1/3)
Pour la gestion de la confidentialité par populations
0100
1011
vs
Cluster contenant les
données brutes
Cluster contenant les
données anonymisées
Cluster multi-environnements sécurisé et isolé
9. 9
Comment évaluer les capacités d’un système multi-tenant ?
Stockage élastique distribué
☆☆☆☆☆☆
Support de plusieurs workloads
☆☆☆☆☆☆
Partage des ressources
☆☆☆☆☆☆
Gouvernance des données
☆☆☆☆☆☆
Interopérabilité logicielle
☆☆☆☆☆☆
Exploitabilité
☆☆☆☆☆☆
Accumulation de grandes profondeurs
d’historique, données structurées, semi-structurées
et non structurées
TP, batch, interactif, analytique/machine
learning, temps réel (fast data)
Sécurité des données, gestion des
ressources de stockage et de calcul,
reporting analytique de l’usage
Catalogage des données,
traçabilité de la production des
datasets, gestion du cycle de vie
Support de SQL, connecteurs
xDBC, support natif par les
produits tiers (ETL, …)
Monitoring, outillage de la
configuration et des déploiements,
production de KPI, haute
disponibilité, PRA
10. 10
La maturité d’Hadoop (1/2)
Hadoop début 2013 …
Stockage élastique distribué
★★★★★★
Support de plusieurs workloads
★★★★★★
Partage des ressources
★★★★★★
Gouvernance des données
★★★★★★
Interopérabilité logicielle
★★★★★★
Exploitabilité
★★★★★★
11. 11
La maturité d’Hadoop (2/2)
… et Hadoop fin 2014
Améliorations sur tous les fronts !
Stockage élastique distribué
★★★★★★
Support de plusieurs workloads
★★★★★★
Partage des ressources
★★★★★★
Gouvernance des données
★★★★★★
Interopérabilité logicielle
★★★★★★
Exploitabilité
★★★★★★
12. 12
Point sur les principales d’améliorations d’Hadoop
13. 13
Les grands jalons d’Hadoop
Première version
stable en production
(v0.20)
Apparition de la
sécurité
Apparition de YARN
Haute dispo d’HDFS
Support officiel de
Windows
Requêtage interactif
Enrichissement de
l’écosystème
2011 2012 2013 2014
Machine à batch mono-application
Système multi-tenant
Plateforme d’entreprise
Hadoop 2.5
Multi-workload
14. 14
Dépasser MapReduce (1/4)
MapReduce, le modèle de programmation à l’origine d’Hadoop, s’avère
contraignant et sous-optimisé pour certains types de traitements
Map Reduce
Map Reduce
Map Reduce
Traitement unique
4 phases d’I/O
Traitement itératif
4 x N phases d’I/O
15. 15
Dépasser MapReduce (2/4)
Dans le contexte d’Hadoop 1,
MapReduce joue le rôle de…
A: Algorithme distribué
B: Framework de dév.
C: Plateforme de distribution
D: La réponse D
16. 16
Dépasser MapReduce (2/4)
Dans le contexte d’Hadoop 1,
MapReduce joue le rôle de…
A: Algorithme distribué
B: Framework de dév.
C: Plateforme de distribution
D: La réponse D
17. 17
Dépasser MapReduce (3/4)
AVANT : un algorithme/framework/runtime qui en fait trop
=> MapReduce tous les jours au menu
(lundi des patates, mardi des patates, mercredi des patates…)
Hive Pig …
MapReduce HBase
HDFS
18. 18
Dépasser MapReduce (4/4)
YARN : un middleware de grille pour favoriser l’émergence
d’autres outils et modèles de programmation
YARN
HDFS
Hive & Pig
Map
Reduce
Tez HBase Storm Spark …
19. 19
YARN et la gestion des ressources (1/2)
AVANT : une gestion des ressources de calcul
Slots de mappers
Slots de reducers
grossière par « slots » MapReduce
20. 20
YARN et la gestion des ressources (2/2)
YARN : une gestion des ressources physiques des
Coeurs de CPU
RAM
machines composant le cluster
Les avantages d’une gestion unifiée des ressources :
Configuration simplifiée (pool de ressources tangibles)
Meilleure utilisation des ressources par une gestion plus fine
Définition de SLA forts sur l’attribution des ressources
Comptabilité de l’usage réel, pour refacturation par exemple
23. 23
Toujours plus (trop) de SQL interactif
Le support du SQL-92 interactif est un enjeu majeur d’Hadoop pour :
L’interopérabilité avec le reste du SI (logiciels BI notamment)
L’ouverture des données en exploration à des utilisateurs finaux habilités
On attend des améliorations de performances importantes (latence ~ 1 s) en 2015
Rien d’étonnant donc à ce que la course pour le SQL interactif, commencée en
2013, ne soit pas terminée. De plus en plus d’acteurs sont en lice !
24. 24
Gouvernance : des données mieux maîtrisées
On observe une nette avance de Cloudera sur la gouvernance des données, les
autres éditeurs et la communauté se mettent en marche pour le rattraper.
Traçabilité de la production des datasets à des fins de cartographie ou d’audit
Gestion du cycle de vie des données par la mise en place de politiques de
purge ou l’application de SLAs spécifiques
Réplication de datasets sur site distant, dans les scénarios de PRA / PCA
25. 25
Connectivité et outillage (1/2)
Hadoop et son écosystème proposent de très nombreux points d’intégration
26. 26
Connectivité et outillage (2/2)
Les APIs évoluent pour faciliter l’intégration avec des outils tiers
Le support du langage SQL, déjà évoqué, s’améliore sans cesse même si la
multiplicité des acteurs complique les choix
L’exposition d’API REST/JSON par les outils de management est un autre
facteur important d’intégration dans un SI
Des éditeurs comme SAS ou Actian tirent parti de la flexibilité de YARN pour
proposer des moteurs d’exécution alternatifs sans mettre en péril le patrimoine
applicatif de leurs clients
Les interfaces pour utilisateurs finaux évoluent doucement… et commencent à offrir
un bon niveau de productivité
27. 27
La sécurité est aujourd’hui le principal sujet de préoccupation des entreprises qui
lancent des initiatives Big Data.
L’offre d’Hadoop se complète petit à petit mais reste encore assez technique :
Les éditeurs de distribution sont en avance sur la communauté. Des rachats récents
et les multiples initiatives (Argus, Sentry) empêchent pour l’instant l’émergence de
standards. Les habilitations SQL sont encore instables et mal intégrées avec les
ACL HDFS… Mais rien de bloquant, même pour des exigences fortes de sécurité.
En tout état de cause, la sécurité sur Hadoop reste un sujet complexe et peu
outillé en termes d’administration.
Sécurité
Authentification forte des
utilisateurs et services,
Intégration annuaire d’entreprise
Habilitations étendues
(ACL) sur HDFS, modèle de
sécurité RBAC
Extension partielle
des ACL aux couches
SQL et NoSQL
Chiffrement des
flux
28. 28
L’adoption d’Hadoop par un nombre croissant d’entreprises a suscité de
nombreuses initiatives visant à améliorer l’exploitabilité de la plateforme.
Exploitation
La plupart des services sont aujourd’hui en haute disponibilité, et les rolling
upgrades permettent de migrer des gros clusters sans interruption
La nécessité de reposer sur des standards d’exploitation (API REST, socles
de déploiement) a été bien comprise et la richesse des API va croissant
Les API de récupération de métriques, essentielles pour le reporting d’usage,
la refacturation ou le capacity planning, apparaissent
La stabilité des composants de l’écosystème est inégale en pratique
Maîtriser Hadoop et son écosystème reste difficile. Les évolutions sont fréquentes,
les régressions aussi, le débogage complexe, les paramètres de configuration
toujours plus nombreux… Avec Hadoop, une démarche DevOps est vitale
30. 30
Apache Hadoop est actuellement en version 2.5.1 (septembre 2014)
Les principales distributions d’Hadoop ne l’ont pas encore incluse :
Cloudera CDH 5.1.2 est basé sur Hadoop 2.3.0
Hortonworks HDP 2.1.5 est basé sur Hadoop 2.4.0
MapR 4.0.1 est basé sur Hadoop 2.4.1
Les version 2.5 et 2.6 apportent de nouvelles fonctionnalités et correctifs, en
préservant la compatibilité ascendante (même numéro majeur 2.x.y)
Le contenu approximatif de la version 2.6.0 est connu
http://wiki.apache.org/hadoop/Roadmap
Roadmap Hadoop
31. 31
Ce qui arrive
Infrastructure de sécurité
Externalisation du stockage des mots de passe dans la configuration
Externalisation du stockage des clefs privées
Améliorations de HDFS
Possibilité pour les applications
d’utiliser le stockage hétérogène
(affinité des datasets au medium
de stockage – disque dur ou SSD)
Apparition du stockage en
mémoire pour des accès à très
faible latence
Chiffrement transparent des
données HDFS
Améliorations de YARN
Partage dynamique des
ressources entre processus longs,
ponctuels et pics de demande
Amélioration de la haute
disponibilité
Labels : spécialisation de noeuds
pour des workloads particuliers
Support des conteneurs Docker
32. 32
Zoom : spécialisation des noeuds par les labels YARN
Coeurs de CPU
RAM
YARN Labels : une affinité d’affectation de ressources
plutôt qu’une ségrégation des noeuds du cluster
33. 33
Zoom : la roadmap de Mahout
Mahout est une librairie de machine learning fonctionnant avec MapReduce
Algorithmes de recommandation, de segmentation, d’optimisation, …
Les développements de Mahout se sont fortement ralentis
Les développeurs de Mahout ont annoncés une nouvelle version basée sur
Spark, afin d’améliorer les performances et d’offrir plus d’algorithmes
Certains algorithmes se prêtent en effet mal à une implémentation sur MapReduce
On peut s’interroger sur l’intérêt d’une telle démarche alors que Spark embarque
déjà des algorithmes de machine learning éprouvés. Spark lui-même connaît
actuellement un essor considérable et arrive prochainement sur Hadoop
Cela pose très clairement la question de la pérennité de Mahout
?
34. 34
Zoom : le SQL interactif avec Hive/Stinger et Impala
Impala
Mi 2014 : lancement des travaux de
portage sur Spark
Fin 2014 : améliorations sur les
performances, la scalabilité et support des
statistiques incrémentales
2015 : types de données étendus,
capacités analytiques étendues,
intégrations HBase et S3
Stinger
Fin 2014 : support des transactions ACID
pour insérer, modifier et supprimer des
données
Mi 2015 : temps de réponse inférieurs à la
seconde
Fin 2015 : capacités analytiques étendues,
introduction du machine learning pour
combiner analyses descriptives et
predictives
Malgré cette roadmap claire, le portage
annoncé sur Spark et l’intérêt porté par
Cloudera à Spark SQL posent des questions
sur la pérennité d’Impala
35. 35
La sécurité est encore un enjeu vital d’Hadoop
On a observé récemment des rachats et des partenariats stratégiques dans le
domaine de la sécurité
Cloudera : rachat de Gazzang et partenariat avec Intel (projet Rhino visant à exploiter
des instructions spécifiques du processeur)
Hortonworks : rachat de XA-Secure
Dans le domaine des habilitations unifiées (ACL), Cloudera et Hortonworks
sont en concurrence – projets respectifs Sentry et Argus (ex XA-Secure)
Dans le domaine du chiffrement des données, Cloudera se positionne, et des
éditeurs tiers continuent d’exister – Voltage, Protegrity, …
La situation future est donc encore loin d’être claire !!
Zoom : la sécurité
37. 37
Incontestablement, Hadoop a mûri, et continue de mûrir. Il s’enrichit des
retours d’expérience de ses utilisateurs, qui ne se cantonnent plus aux géants
du web
Monter un cluster Hadoop multi-tenant est aujourd’hui tout à fait possible,
même si on attend des améliorations sur quelques points :
La sécurité, sujet encore trop technique et demandant une grande expertise
La gouvernance des données, peu présente dans les distributions open source
L’écosystème s’enrichit aussi, parfois artificiellement du fait de la concurrence
entre les éditeurs de distributions. La partie n’est pas encore terminée,
notamment dans les domaines de la sécurité et du SQL interactif, sujets à fort
enjeu
Les distributions ne sont pas encore égales en termes de packaging et
d’intégration au reste du SI : les POC restent indispensables
Bilan
Accumulation de grandes profondeurs d’historique, données structurées, semi-structurées et non structurées
TP, batch, interactif, analytique/machine learning, temps réel (fast data)
Sécurité des données, gestion des ressources de stockage et de calcul, reporting analytique de l’usage
Catalogage des données, traçabilité de la production des datasets, gestion du cycle de vie
Support de SQL, connecteurs xDBC, support natif par les produits tiers (ETL, …)
Monitoring, outillage de la configuration et des déploiements, production de KPI, haute disponibilité, PRA
Stockage : force d’Hadoop depuis le début. Faiblesse du NN
Workloads : batch (MR), TP (HBase) et un peu de ML (Mahout usine à gaz)
Multi-tenant : possible mais la sécu reste peu adaptée (POSIX sur HDFS et c’est tout), FS et CS sur les traitements
Gouvernance : rien
Interop : support limité de SQL drivers instables
Exploitabilité : outillage très faible
Stockage : NN en HA
Workloads : enrichissement considérable, tout n’est pas encore YARNisé mais c’est imminent ; explosion de l’écosystème
Multi-tenant : YARN et les ACL viennent aider, encore qqs faiblesses sur la sécu dans les couches hautes (SQL et certains outils). Les outils non-cœur savent cohabiter sous plusieurs versions
Gouvernance : ça vient (Navigator, Falcon)
Interop : support accru de SQL, apparition du SQL sur HBase, drivers plus stables et intégrant la sécu + frontaux REST
Exploitabilité : outillage encore limité mais ça commence à faire le job. Inégal selon les distribs. De plus en plus de services en HA
+ modélisation par (clef, valeur) obligatoire
(vision cible, aujourd’hui tout n’est pas sur YARN)
Les avantages d’une gestion unifiée des ressources :
Configuration simplifiée (pool de ressources tangibles)
Meilleure utilisation des ressources par une gestion plus fine
Définition de SLA forts sur l’attribution des ressources
Comptabilité de l’usage réel, pour refacturation par exemple