Présentation de l'architecture de calcul de statistique web chez Scoop.it, basé sur Hadoop+Hive, présentation faite lors de la session du 13 Décembre 2012 du Jug Toulouse
Rapide introduction à Hadoop lors du lancement du Casablanca Hadoop & Big Data Meetup.
En partenariat avec Hortonworks
http://www.meetup.com/Casablanca-Hadoop-et-Big-Data-Meetup
Petit-déjeuner MapReduce-La révolution dans l’analyse des BigDataMarc Bojoly
Big Data, MapReduce, calculs distribués, sont autant de buzz words et de concepts cantonnés jusqu’à maintenant à quelques acteurs spécifiques. Pourtant, il est un état de fait : nous sommes assis sur une quantité gigantesque de données dont il est difficile d’extraire l’information… D’autre part MapReduce est une solution éprouvée pour analyser d’énormes quantités de données (ou Big Data). Elle a, par exemple, été mise en œuvre par Google pour indexer le web, par LinkedIn pour calculer ses campagnes d’email… Dans ces conditions, ces concepts ont-ils un intérêt dans nos SI ? Quel est le niveau de maturité de ces solutions ? Cet atelier, co-organisé par OCTO Technology (www.octo.com) et Plaform (www.platform.com), démontrera que de telles solutions font sens dans nos projets SI. - See more at: http://blog.octo.com/petit-dejeuner-mapreduce-la-revolution-dans-lanalyse-des-bigdata-le-27-septembre/#sthash.GvRo8gOQ.dpuf
Big Data: Hadoop Map / Reduce sur Windows et Windows AzureMicrosoft
L'algorithme Map/Reduce et sa mise en oeuvre avec Apache Hadoop permettent de gérer de très grands volumes de données non structurées. Microsoft adopte Haddop sur Windows et Windows Azure. Venez voir comment.
Rapide introduction à Hadoop lors du lancement du Casablanca Hadoop & Big Data Meetup.
En partenariat avec Hortonworks
http://www.meetup.com/Casablanca-Hadoop-et-Big-Data-Meetup
Petit-déjeuner MapReduce-La révolution dans l’analyse des BigDataMarc Bojoly
Big Data, MapReduce, calculs distribués, sont autant de buzz words et de concepts cantonnés jusqu’à maintenant à quelques acteurs spécifiques. Pourtant, il est un état de fait : nous sommes assis sur une quantité gigantesque de données dont il est difficile d’extraire l’information… D’autre part MapReduce est une solution éprouvée pour analyser d’énormes quantités de données (ou Big Data). Elle a, par exemple, été mise en œuvre par Google pour indexer le web, par LinkedIn pour calculer ses campagnes d’email… Dans ces conditions, ces concepts ont-ils un intérêt dans nos SI ? Quel est le niveau de maturité de ces solutions ? Cet atelier, co-organisé par OCTO Technology (www.octo.com) et Plaform (www.platform.com), démontrera que de telles solutions font sens dans nos projets SI. - See more at: http://blog.octo.com/petit-dejeuner-mapreduce-la-revolution-dans-lanalyse-des-bigdata-le-27-septembre/#sthash.GvRo8gOQ.dpuf
Big Data: Hadoop Map / Reduce sur Windows et Windows AzureMicrosoft
L'algorithme Map/Reduce et sa mise en oeuvre avec Apache Hadoop permettent de gérer de très grands volumes de données non structurées. Microsoft adopte Haddop sur Windows et Windows Azure. Venez voir comment.
Hortonworks est l'éditeur d'Hortonworks Data Platform (HDP), une plate-forme de données basée sur Hadoop qui comprend entre autres les systèmes Hadoop Distributed File System (HDFS), Hadoop MapReduce, Apache Pig, Apache Hive, Apache HBase et Apache ZooKeeper.
CNES - CCT SIL - Traitement et Manipulation de la donnée à l‘aide des technologies Big Data
Présentation du 30 Juin 2017
Les CCT sont des espaces d'échanges techniques mis en place par le CNES il y a 20 ans, dans le but de réunir différents acteurs industriels et public pour s'enrichir mutuellement.
Hadoop est un framework 100% open source,écrit en Java et géré par la fondation Apache
Hadoop est capable de stocker et traiter de manière efficace un grand nombre de donnés, en reliant plusieurs serveurs banalisés entre eux pour travailler en parallèle
De 20 000 à 4 millions d'utilisateurs : mode d'emploiKhanh Maudoux
Présentation donnée au breizhCamp 2014 concernant un retour d'expérience d'une mission dont l'objectif était de passer de 20 000 utilisateurs à 4 millions.
Pour ce faire, il a été nécessaire de revoir certaines parties du SI afin de pouvoir stocker en masse les données des utilisateurs mais également afin d'être capable de les traiter.
Ce retour d'expérience montrera comment, avec une approche et des technologies simples, il a été possible de revoir la façon de faire et comment il a été proposé de traiter le sujet.
Il montrera également les pistes qui ont été étudiées et les solutions qui ont été retenues.
Les différents points qui seront abordés seront : Cassandra, REST, Netty, Spring Integration, Jolokia, Metrics saupoudré d'un peu de "Big Data".
MapReduce: Traitement de données distribué à grande échelle simplifiéMathieu Dumoulin
Présentation qui reprend les éléments principaux de l'article fondamental sur MapReduce de Dean et Ghemawat de 2004: MapReduce: simplified data processing on large clusters
Au travers d'un scénario de domotique construit pas à pas, venez découvrir comment, en partant de données provenant de capteurs sans fils, vous pouvez mettre en place simplement dans Microsoft Azure une solution de surveillance et de pilotage de votre maison. Ce scénario présente la mise en oeuvre d'une Lambda architecture à l'aide de Azure Event Hub, Storm pour calculer en temps réel et au fil de l'eau des indicateurs approximatifs et Hadoop pour calculer les agrégats précis et pérennes. Des outils de Data Visualisation (site web en asp.net MVC / Web API 2 / SignalR) affichent les résultats en live !
Hortonworks est l'éditeur d'Hortonworks Data Platform (HDP), une plate-forme de données basée sur Hadoop qui comprend entre autres les systèmes Hadoop Distributed File System (HDFS), Hadoop MapReduce, Apache Pig, Apache Hive, Apache HBase et Apache ZooKeeper.
CNES - CCT SIL - Traitement et Manipulation de la donnée à l‘aide des technologies Big Data
Présentation du 30 Juin 2017
Les CCT sont des espaces d'échanges techniques mis en place par le CNES il y a 20 ans, dans le but de réunir différents acteurs industriels et public pour s'enrichir mutuellement.
Hadoop est un framework 100% open source,écrit en Java et géré par la fondation Apache
Hadoop est capable de stocker et traiter de manière efficace un grand nombre de donnés, en reliant plusieurs serveurs banalisés entre eux pour travailler en parallèle
De 20 000 à 4 millions d'utilisateurs : mode d'emploiKhanh Maudoux
Présentation donnée au breizhCamp 2014 concernant un retour d'expérience d'une mission dont l'objectif était de passer de 20 000 utilisateurs à 4 millions.
Pour ce faire, il a été nécessaire de revoir certaines parties du SI afin de pouvoir stocker en masse les données des utilisateurs mais également afin d'être capable de les traiter.
Ce retour d'expérience montrera comment, avec une approche et des technologies simples, il a été possible de revoir la façon de faire et comment il a été proposé de traiter le sujet.
Il montrera également les pistes qui ont été étudiées et les solutions qui ont été retenues.
Les différents points qui seront abordés seront : Cassandra, REST, Netty, Spring Integration, Jolokia, Metrics saupoudré d'un peu de "Big Data".
MapReduce: Traitement de données distribué à grande échelle simplifiéMathieu Dumoulin
Présentation qui reprend les éléments principaux de l'article fondamental sur MapReduce de Dean et Ghemawat de 2004: MapReduce: simplified data processing on large clusters
Au travers d'un scénario de domotique construit pas à pas, venez découvrir comment, en partant de données provenant de capteurs sans fils, vous pouvez mettre en place simplement dans Microsoft Azure une solution de surveillance et de pilotage de votre maison. Ce scénario présente la mise en oeuvre d'une Lambda architecture à l'aide de Azure Event Hub, Storm pour calculer en temps réel et au fil de l'eau des indicateurs approximatifs et Hadoop pour calculer les agrégats précis et pérennes. Des outils de Data Visualisation (site web en asp.net MVC / Web API 2 / SignalR) affichent les résultats en live !
Cours HBase et Base de Données Orientées Colonnes (HBase, Column Oriented Dat...Hatim CHAHDI
Ce cours introduit les bases de données orientées colonnes et leurs spécificités. Il détaille par la suite l'architecture d'HBase et explique les moyens nécessaires à sa mise en place et à son exploitation.
Apache Phoenix: Transforming HBase into a SQL DatabaseDataWorks Summit
The document discusses Apache Phoenix, which transforms HBase into a SQL database. Phoenix turns HBase into a SQL database by providing a query engine, metadata repository, and embedded JDBC driver to access HBase data. It is the fastest way to access HBase data through techniques like push down query optimization and client-side parallelization. Phoenix also helps HBase scale by allowing multiple tables to share the same physical HBase table through updateable views and multi-tenant tables and views.
Speakers: Eli Levine, James Taylor (Salesforce.com) & Maryann Xue (Intel)
HBase is the Turing machine of the Big Data world. It's been scientifically proven that you can do *anything* with it. This is, of course, a blessing and a curse, as there are so many different ways to implement a solution. Apache Phoenix (incubating), the SQL engine over HBase to the rescue. Come learn about the fundamentals of Phoenix and how it hides the complexities of HBase while giving you optimal performance, and hear about new features from our recent release, including updatable views that share the same physical HBase table and n-way equi-joins through a broadcast hash join mechanism. We'll conclude with a discussion about our roadmap and plans to implement a cost-based query optimization to dynamically adapt query execution based on your data sizes.
Lars George and Jon Hsieh presented archetypes for common Apache HBase application patterns. They defined archetypes as common architecture patterns extracted from multiple use cases to be repeatable. The presentation covered "good" archetypes that are well-suited to HBase's capabilities, such as storing simple entities, messaging data, and metrics. "Bad" archetypes that are not optimal fits for HBase included using it as a large blob store, naively porting a relational database schema, and as an analytic archive requiring frequent full scans. A discussion of access patterns and tradeoffs concluded the overview of HBase application archetypes.
Apache Phoenix and Apache HBase: An Enterprise Grade Data WarehouseJosh Elser
An overview of Apache Phoenix and Apache HBase from the angle of a traditional data warehousing solution. This talk focuses on where this open-source architect fits into the market outlines the features and integrations of the product, showing that it is a viable alternative to traditional data warehousing solutions.
HBase can be an intimidating beast for someone considering its adoption. For what kinds of workloads is it well suited? How does it integrate into the rest of my application infrastructure? What are the data semantics upon which applications can be built? What are the deployment and operational concerns? In this talk, I'll address each of these questions in turn. As supporting evidence, both high-level application architecture and internal details will be discussed. This is an interactive talk: bring your questions and your use-cases!
Hw09 Practical HBase Getting The Most From Your H Base InstallCloudera, Inc.
The document summarizes two presentations about using HBase as a database. It discusses the speakers' experiences using HBase at Stumbleupon and Streamy to replace MySQL and other relational databases. Some key points covered include how HBase provides scalability, flexibility, and cost benefits over SQL databases for large datasets.
Chicago Data Summit: Apache HBase: An IntroductionCloudera, Inc.
Apache HBase is an open source distributed data-store capable of managing billions of rows of semi-structured data across large clusters of commodity hardware. HBase provides real-time random read-write access as well as integration with Hadoop MapReduce, Hive, and Pig for batch analysis. In this talk, Todd will provide an introduction to the capabilities and characteristics of HBase, comparing and contrasting it with traditional database systems. He will also introduce its architecture and data model, and present some example use cases.
Analyser sa maison à l’aide de Apache Storm (Big Data en Temps Réel)Microsoft Décideurs IT
Au travers d'un scénario de domotique construit pas à pas, venez découvrir comment, en partant de données provenant de capteurs sans fils, vous pouvez mettre en place simplement dans Microsoft Azure une solution de surveillance et de pilotage de votre maison. Ce scénario présente la mise en œuvre d'une Lambda architecture à l'aide de Azure Event Hub, Storm pour calculer en temps réel et au fil de l'eau des indicateurs approximatifs et Hadoop pour calculer les agrégats précis et pérennes. Des outils de Data Visualisation (site web en asp.net MVC / Web API 2 / SignalR) affichent les résultats en live !
Solr, c'est simple et Big Data ready - prez au Lyon jug Fév 2014francelabs
Découvrez les outils open source de Search qui ont déjà convaincu de nombreuses entreprises, et qui est proposé par la fondation Apache: Lucene / Solr. Dans la première partie, histoire de savoir de quoi on parle, Aurélien vous présentera les projets Lucene et Solr, leurs composants, leur architecture, leurs features, et on saupoudrera tout ça de scalabilité avec SolrCloud.
En deuxième partie, Aurélien vous présentera l'écosystème (ou du moins une partie) qui gravite autour de Lucene /Solr: ManifoldCF qui permet de gérer les connexions aux sources de données (avec démo d'indexation de contenu et recherche en live), Hadoop, car il faut bien parler de Big Data, et parce que Solr devient un des outils de référence pour faire du search sur Hadoop (avec là encore une démo d'interaction Hadoop et Solr). Avec tout ça vous aurez dans vos bagages de quoi gérer des Big projets avec du Big search dedans.
SlideShare now has a player specifically designed for infographics. Upload your infographics now and see them take off! Need advice on creating infographics? This presentation includes tips for producing stand-out infographics. Read more about the new SlideShare infographics player here: http://wp.me/p24NNG-2ay
This infographic was designed by Column Five: http://columnfivemedia.com/
No need to wonder how the best on SlideShare do it. The Masters of SlideShare provides storytelling, design, customization and promotion tips from 13 experts of the form. Learn what it takes to master this type of content marketing yourself.
This document provides tips to avoid common mistakes in PowerPoint presentation design. It identifies the top 5 mistakes as including putting too much information on slides, not using enough visuals, using poor quality or unreadable visuals, having messy slides with poor spacing and alignment, and not properly preparing and practicing the presentation. The document encourages presenters to use fewer words per slide, high quality images and charts, consistent formatting, and to spend significant time crafting an engaging narrative and rehearsing their presentation. It emphasizes that an attractive design is not as important as being an effective storyteller.
10 Ways to Win at SlideShare SEO & Presentation OptimizationOneupweb
Thank you, SlideShare, for teaching us that PowerPoint presentations don't have to be a total bore. But in order to tap SlideShare's 60 million global users, you must optimize. Here are 10 quick tips to make your next presentation highly engaging, shareable and well worth the effort.
For more content marketing tips: http://www.oneupweb.com/blog/
This document provides tips for getting more engagement from content published on SlideShare. It recommends beginning with a clear content marketing strategy that identifies target audiences. Content should be optimized for SlideShare by using compelling visuals, headlines, and calls to action. Analytics and search engine optimization techniques can help increase views and shares. SlideShare features like lead generation and access settings help maximize results.
How to Make Awesome SlideShares: Tips & TricksSlideShare
Turbocharge your online presence with SlideShare. We provide the best tips and tricks for succeeding on SlideShare. Get ideas for what to upload, tips for designing your deck and more.
JSS2014 – Hive ou la convergence entre datawarehouse et Big DataGUSS
Session des Journées SQL Server 2014 - David Joubert
---
Intégré par défaut sur la plateforme Hadoop, Hive est lien manquant entre SQL et Big Data dans l’éco-système.
Langage, stockage, exécution, cet entrepôt de données Big Data s’est toujours inspiré de ses équivalents relationnels dans son évolution.
Cette session sera l’occasion de faire le tour de la technologie et de démontrer cette convergence.
Stockage et analyse temps réel d'événements avec Riak chez Booking.comDamien Krotkine
Chez Booking.com, un flux constant d'événements provient des différents systèmes et applications internes. Ces "events" sont des données critiques, et doivent être stockés pour être analysés en temps réel, ou bien sur du moyen et long terme. Ces données sont très peu structurées et de nature changeante, rendant difficile l'utilisation d'outils standards d'analyse.
Cette présentation montre comment fut construit un système de stockage complet avec analyse temps-réel, basé sur Riak.
Riak est une base de donnée NoSQL distribuée hybride très robuste et rapide.
Les points abordés seront: sérialisation et aggrégation des données, la configuration de Riak, les solutions pour diminuer la consommation de bande passante du cluster, l'implémentation de l'analyse temps-réel grace aux fonctions avancées de Riak: MapReduce, Secondary Indexes, commit-hooks.
REX sur la mise en place d'une plate-forme temps réel chez Generali. La problématique est la suivante : comment réaliser une vision clients 360, et donc une vue agrégée est uniformisée de différents référentiels clients localisés sur divers systèmes, ayant chacun un modèle propre.
Devoxx: Tribulation d'un développeur sur le CloudTugdual Grall
Comme beaucoup de développeurs une grande partie de mon temps libre est utilisé pour découvrir de nouvelles technologies et développer des applications avec celles-ci.
J'ai donc choisi de découvrir le développement d'application Java sur le cloud, avec Google AppEngine, pour créer le site http://www.resultri.com qui permet de gérer les resultats de triathlon (mon autre passion).
Développer cette application est une aventure interessante que je partage avec vous durant ce BOF:
découverte de GAE et des outils de developpement
les "surprises" du NoSQL, surtout pour un cerveau "cablé relationnel comme le mien"
hmmm tout n'est pas gratuit?
les quelques trucs à savoir : l'importance de memcache, utilisation de CloudSQL, les batchs....
Frontend development requires a lot a different tools. This presentation is about these technos like AngularJS, Javascript, Jquery, Sass, Grunt, Zurb foundation, Karma, Protractor, ...
This presentation was shown during a TechnoByte (session of internal formation) on 2014/06/10
Monitoring applicatif : Pourquoi et comment ?Kenny Dits
Vous êtes développeur, chef de projet technique ou même responsable et vous souhaitez avoir de la visibilité sur le fonctionnement de vos applicatifs, ou sur la plateforme sur laquelle ils sont hébergés ?
Nous étudierons comment, grâce à des outils simples (StatD / Graphite / Log BDD) et nos expériences chez M6Web, mettre en place un monitoring applicatif ultra complet.
Ce monitoring vous permettra de retrouver la vue sur vos projets, pour mieux anticiper la charge, detecter la root cause en cas d'incident et connaitre l'état de chacun de vos services ...
Sahara : Hadoop as Service avec OpenStackALTIC Altic
Un des initiative les plus intéressante du moment c'est Hadoop à la demande. Sahara, en incubation parmi les projets OpenStack facilite la mise en place de votre infrastructure moderne pour rester agile même dans une infrastructure qui réclame un nombre de machine toujours plus important...
présentation Solutions Linux 2014
Similaire à Stats web avec Hive chez Scoop.it (20)
MongoDB in a scale-up: how to get away from a monolithic hell — MongoDB Paris...Horgix
This is the slide deck of a talk by Alexis "Horgix" Chotard and Laurentiu Capatina presented at the MongoDB Paris User Group in June 2024 about the feedback on how PayFit move away from a monolithic hell of a self-hosted MongoDB cluster to managed alternatives. Pitch below.
March 15, 2023, 6:59 AM: a MongoDB cluster collapses. Tough luck, this cluster contains 95% of user data and is absolutely vital for even minimal operation of our application. To worsen matters, this cluster is 7 years behind on versions, is not scalable, and barely observable. Furthermore, even the data model would quickly raise eyebrows: applications communicating with each other by reading/writing in the same MongoDB documents, documents reaching the maximum limit of 16MiB with hundreds of levels of nesting, and so forth. The incident will last several days and result in the loss of many users. We've seen better scenarios.
Let's explore how PayFit found itself in this hellish situation and, more importantly, how we managed to overcome it!
On the agenda: technical stabilization, untangling data models, breaking apart a Single Point of Failure (SPOF) into several elements with a more restricted blast radius, transitioning to managed services, improving internal accesses, regaining control over risky operations, and ultimately, approaching a technical migration when it impacts all development teams.
Ouvrez la porte ou prenez un mur (Agile Tour Genève 2024)Laurent Speyser
(Conférence dessinée)
Vous êtes certainement à l’origine, ou impliqué, dans un changement au sein de votre organisation. Et peut être que cela ne se passe pas aussi bien qu’attendu…
Depuis plusieurs années, je fais régulièrement le constat de l’échec de l’adoption de l’Agilité, et plus globalement de grands changements, dans les organisations. Je vais tenter de vous expliquer pourquoi ils suscitent peu d'adhésion, peu d’engagement, et ils ne tiennent pas dans le temps.
Heureusement, il existe un autre chemin. Pour l'emprunter il s'agira de cultiver l'invitation, l'intelligence collective , la mécanique des jeux, les rites de passages, .... afin que l'agilité prenne racine.
Vous repartirez de cette conférence en ayant pris du recul sur le changement tel qu‘il est généralement opéré aujourd’hui, et en ayant découvert (ou redécouvert) le seul guide valable à suivre, à mon sens, pour un changement authentique, durable, et respectueux des individus! Et en bonus, 2 ou 3 trucs pratiques!
Le Comptoir OCTO - Qu’apporte l’analyse de cycle de vie lors d’un audit d’éco...OCTO Technology
Par Nicolas Bordier (Consultant numérique responsable @OCTO Technology) et Alaric Rougnon-Glasson (Sustainable Tech Consultant @OCTO Technology)
Sur un exemple très concret d’audit d’éco-conception de l’outil de bilan carbone C’Bilan développé par ICDC (Caisse des dépôts et consignations) nous allons expliquer en quoi l’ACV (analyse de cycle de vie) a été déterminante pour identifier les pistes d’actions pour réduire jusqu'à 82% de l’empreinte environnementale du service.
Vidéo Youtube : https://www.youtube.com/watch?v=7R8oL2P_DkU
Compte-rendu :
L'IA connaît une croissance rapide et son intégration dans le domaine éducatif soulève de nombreuses questions. Aujourd'hui, nous explorerons comment les étudiants utilisent l'IA, les perceptions des enseignants à ce sujet, et les mesures possibles pour encadrer ces usages.
Constat Actuel
L'IA est de plus en plus présente dans notre quotidien, y compris dans l'éducation. Certaines universités, comme Science Po en janvier 2023, ont interdit l'utilisation de l'IA, tandis que d'autres, comme l'Université de Prague, la considèrent comme du plagiat. Cette diversité de positions souligne la nécessité urgente d'une réponse institutionnelle pour encadrer ces usages et prévenir les risques de triche et de plagiat.
Enquête Nationale
Pour mieux comprendre ces dynamiques, une enquête nationale intitulée "L'IA dans l'enseignement" a été réalisée. Les auteurs de cette enquête sont Le Sphynx (sondage) et Compilatio (fraude académique). Elle a été diffusée dans les universités de Lyon et d'Aix-Marseille entre le 21 juin et le 15 août 2023, touchant 1242 enseignants et 4443 étudiants. Les questionnaires, conçus pour étudier les usages de l'IA et les représentations de ces usages, abordaient des thèmes comme les craintes, les opportunités et l'acceptabilité.
Résultats de l'Enquête
Les résultats montrent que 55 % des étudiants utilisent l'IA de manière occasionnelle ou fréquente, contre 34 % des enseignants. Cependant, 88 % des enseignants pensent que leurs étudiants utilisent l'IA, ce qui pourrait indiquer une surestimation des usages. Les usages identifiés incluent la recherche d'informations et la rédaction de textes, bien que ces réponses ne puissent pas être cumulées dans les choix proposés.
Analyse Critique
Une analyse plus approfondie révèle que les enseignants peinent à percevoir les bénéfices de l'IA pour l'apprentissage, contrairement aux étudiants. La question de savoir si l'IA améliore les notes sans développer les compétences reste débattue. Est-ce un dopage académique ou une opportunité pour un apprentissage plus efficace ?
Acceptabilité et Éthique
L'enquête révèle que beaucoup d'étudiants jugent acceptable d'utiliser l'IA pour rédiger leurs devoirs, et même un quart des enseignants partagent cet avis. Cela pose des questions éthiques cruciales : copier-coller est-il tricher ? Utiliser l'IA sous supervision ou pour des traductions est-il acceptable ? La réponse n'est pas simple et nécessite un débat ouvert.
Propositions et Solutions
Pour encadrer ces usages, plusieurs solutions sont proposées. Plutôt que d'interdire l'IA, il est suggéré de fixer des règles pour une utilisation responsable. Des innovations pédagogiques peuvent également être explorées, comme la création de situations de concurrence professionnelle ou l'utilisation de détecteurs d'IA.
Conclusion
En conclusion, bien que l'étude présente des limites, elle souligne un besoin urgent de régulation. Une charte institutionnelle pourrait fournir un cadre pour une utilisation éthique.
9. Première version
• Compteur de vues : mysql
• Compteur de visiteurs : mysql
• Stockages des évènements : mysql
• Stats par source : Google Analytics
• Stats par pays : Google Analytics
• Analyse des évènements : SQL
10. Rançon du succès
• Taux d’écriture dans mysql
– Quick fix:
• Espace de stockage
• Google Analytics API lente et approximative
11. Les besoins
• Compteur de vues : calcul temps réel
• Compteur de visiteurs : calcul 1 fois par jour
• Stockages des évènements : fichiers « à plat »
• Stats par source : calcul 1 fois par jour
• Stats par pays : calcul 1 fois par jour
• Analyse des évènements : à la demande et
régulièrement
12. Solution
• Compteur de vues : Cassandra
• Compteur de visiteurs : Hive
• Stockages des évènements : ad hoc HDFS
• Stats par source : Hive
• Stats par pays : Hive
• Analyse des évènements : Hive
13. Cassandra vs Hbase
• Hbase:
– « open-source, distributed, versioned, column-
oriented store modeled after Google's Bigtable »
– « Bigtable-like capabilities on top of Hadoop and
HDFS »
• Cassandra:
– « a BigTable data model running on an Amazon
Dynamo-like infrastructure »
14. Cassandra vs Hbase
• Pro Hbase
– Cluster Hadoop déployé
– Hive supporte Hbase
• Pro Cassandra
– Cluster « temps réel » vs cluster « asynchrone »
– Pas de SPOF (cf Hadoop Namenode)
– Opérationnellement simple
15. Hive vs Pig
• Pig
– « high-level language for expressing data analysis
programs »
– « compiler that produces sequences of Map-
Reduce programs »
• Hive
– « data warehouse system for Hadoop »
– « query the data using a SQL-like language »
16. Hive vs Pig
• Pro Pig:
– Plus près de l’algorithme Map-Reduce
• Pro Hive
– SQL-like
17. ad hoc HDFS vs Flume
• Flume
– « distributed, reliable, and available service for
efficiently collecting, aggregating, and moving
large amounts of log data »
18. ad hoc HDFS vs Flume
• Pro Flume
– Fault tolerent
– Streaming
– Scalable
– Agrégation
• Anti Flume
– Encore une techno à déployer
– Encore une techno à apprendre
– Volume de données encore « faible »
19. Architecture de Hive
Source: http://www.javabloger.com/article/apache-hive-jdbc-mapreduce.html
20. • « workflow scheduler system to manage
Apache Hadoop jobs »
• Support de Hive
Mais:
• XML comme si il en pleuvait
• Projet en beta en 2011
• Page d’analytics « privée » ?
24. Hive : CREATE TABLE
CREATE TABLE httpdlogs
(ip STRING, domain STRING, user STRING,
date STRING, method STRING, request STRING,
protocol STRING, status INT, bodySize INT,
referer STRING, useragent STRING);
LOAD DATA INPATH '/var/log/site_access.log' INTO TABLE
httpdlogs;
SELECT status, COUNT(*) FROM httpdlogs
WHERE referer = 'www.google.com' GROUP BY status;
25. Hive : INSERT INTO TABLE
CREATE TABLE google_httpdlogs
(ip STRING, user STRING, date STRING);
INSERT INTO TABLE google_httpdlogs
SELECT ip, date FROM httpdlogs WHERE referer LIKE
'%google%';
SELECT * FROM google_httpdlogs WHERE date > '2012-01-15';
26. Hive : CREATE EXTERNAL TABLE
CREATE EXTERNAL TABLE PageViewEvent
(date STRING, uri STRING, querystring STRING,
useragent STRING, referer STRING, ip STRING, …)
PARTITIONED BY (day STRING)
ROW FORMAT DELIMITED FIELDS TERMINATED BY 't' LINES
TERMINATED BY 'n'
LOCATION '/events/PageViewEvent';
ALTER TABLE PageViewEvent ADD PARTITION (day='20121205')
LOCATION '/events/PageViewEvent/20121205';
SELECT COUNT(*) FROM PageViewEvent
WHERE day = '20121205' AND date > '2012-12-05 12:00:00' AND
date < '2012-12-05 13:00:00'
27. Hive : CREATE ‘Cassandra’ TABLE
CREATE EXTERNAL TABLE CassandraTopicVisitors
(themeid BIGINT, day STRING, visitors INT)
STORED BY 'org...cassandra.hadoop.hive.CassandraStorageHandler'
WITH SERDEPROPERTIES
('cassandra.columns.mapping'=':key,:column,:value',
'cassandra.cf.name'='TopicVistors', 'cassandra.host'='cassandra-1',
'cassandra.port'='9160')
TBLPROPERTIES ('cassandra.ks.name’='topic');
INSERT INTO TABLE CassandraTopicVisitors
SELECT themeid, '2012-12-05', COUNT(DISTINCT userid)
FROM PageViewEvent WHERE day = '20121205' GROUP BY themeid;
28. CassandraStorageHandler
• Patches:
– https://issues.apache.org/jira/browse/CASSANDRA-913
– https://issues.apache.org/jira/browse/HIVE-1434
• En écriture : nickel
• En lecture : à éviter / à tester