Big Data: Concepts, techniques et démonstration de Apache Hadoophajlaoui jaleleddine
C'est une initiation au Big Data, qui est présenté dans un workshop organisé en 12 Décembre 2015 par un club TB3C (Tunisian Big Data Cloud Computing Community) au sein de ISSAT de Sousse
Big Data: Concepts, techniques et démonstration de Apache Hadoophajlaoui jaleleddine
C'est une initiation au Big Data, qui est présenté dans un workshop organisé en 12 Décembre 2015 par un club TB3C (Tunisian Big Data Cloud Computing Community) au sein de ISSAT de Sousse
CNES - CCT SIL - Traitement et Manipulation de la donnée à l‘aide des technologies Big Data
Présentation du 30 Juin 2017
Les CCT sont des espaces d'échanges techniques mis en place par le CNES il y a 20 ans, dans le but de réunir différents acteurs industriels et public pour s'enrichir mutuellement.
Big Data: Hadoop Map / Reduce sur Windows et Windows AzureMicrosoft
L'algorithme Map/Reduce et sa mise en oeuvre avec Apache Hadoop permettent de gérer de très grands volumes de données non structurées. Microsoft adopte Haddop sur Windows et Windows Azure. Venez voir comment.
Pour accéder aux fichiers nécessaires pour faire ce TP, visitez: https://drive.google.com/folderview?id=0Bz7DokLRQvx7M2JWZEt1VHdwSE0&usp=sharing
Pour plus de contenu, Visitez http://liliasfaxi.wix.com/liliasfaxi !
USI 2013 : 7 changements nécessaires pour sauver vos SI décisionnelsJoseph Glorieux
Présentation de ma session à l'USI 2013 : www.usievents.com
Les principes des architectures décisionnelles ont... 20 ans.
Si on peut leur souhaiter de vivre aussi longtemps que le mainframe, il va être nécessaire de s’adapter à un contexte riche en changement :
- L'explosion de la volumétrie, des usages, de la diversité, l'instantanéité, bref Big Data
- La réduction du time to market dans un contexte de baisse du budget
- La volonté d'indépendance des utilisateurs et des métiers
- Le raz de marée apporté par de nouveaux paradigmes et solutions (NoSQL, in memory, dataviz, R....)
Ce que je propose donc dans cette session c'est un petit guide de survie en 7 points touchant aussi bien à l'architecture, qu'aux pratiques de développements ou à l'organisation.
Mon objectif est de redonner de l'espoir, ou au moins de faire persister encore quelques années les systèmes d'information décisionnels afin de fêter les noces de perles !!
BigData_TP2: Design Patterns dans HadoopLilia Sfaxi
Pour accéder aux fichiers nécessaires pour faire ce TP, visitez: https://drive.google.com/folderview?id=0Bz7DokLRQvx7M2JWZEt1VHdwSE0&usp=sharing
Pour plus de contenu, Visitez http://liliasfaxi.wix.com/liliasfaxi !
Petit-déjeuner MapReduce-La révolution dans l’analyse des BigDataMarc Bojoly
Big Data, MapReduce, calculs distribués, sont autant de buzz words et de concepts cantonnés jusqu’à maintenant à quelques acteurs spécifiques. Pourtant, il est un état de fait : nous sommes assis sur une quantité gigantesque de données dont il est difficile d’extraire l’information… D’autre part MapReduce est une solution éprouvée pour analyser d’énormes quantités de données (ou Big Data). Elle a, par exemple, été mise en œuvre par Google pour indexer le web, par LinkedIn pour calculer ses campagnes d’email… Dans ces conditions, ces concepts ont-ils un intérêt dans nos SI ? Quel est le niveau de maturité de ces solutions ? Cet atelier, co-organisé par OCTO Technology (www.octo.com) et Plaform (www.platform.com), démontrera que de telles solutions font sens dans nos projets SI. - See more at: http://blog.octo.com/petit-dejeuner-mapreduce-la-revolution-dans-lanalyse-des-bigdata-le-27-septembre/#sthash.GvRo8gOQ.dpuf
Base de données graphe, Noe4j concepts et mise en oeuvreMICHRAFY MUSTAFA
Cette étude vise à présenter les concepts clés d’une base de données orientée graphe. La modélisation et la mise en œuvre des cas d’utilisation seront réalisées avec la base de données NEO4J, version 3.1.
Architecture web aujourd'hui, besoin de scalabilité des bases de données relationnelles, découverte des bases de données NoSQL et des différents types de celles-ci. La vidéo de présentation peut être consultée à l'adresse suivante : http://youtu.be/oIpjcqHyx2M
CNES - CCT SIL - Traitement et Manipulation de la donnée à l‘aide des technologies Big Data
Présentation du 30 Juin 2017
Les CCT sont des espaces d'échanges techniques mis en place par le CNES il y a 20 ans, dans le but de réunir différents acteurs industriels et public pour s'enrichir mutuellement.
Big Data: Hadoop Map / Reduce sur Windows et Windows AzureMicrosoft
L'algorithme Map/Reduce et sa mise en oeuvre avec Apache Hadoop permettent de gérer de très grands volumes de données non structurées. Microsoft adopte Haddop sur Windows et Windows Azure. Venez voir comment.
Pour accéder aux fichiers nécessaires pour faire ce TP, visitez: https://drive.google.com/folderview?id=0Bz7DokLRQvx7M2JWZEt1VHdwSE0&usp=sharing
Pour plus de contenu, Visitez http://liliasfaxi.wix.com/liliasfaxi !
USI 2013 : 7 changements nécessaires pour sauver vos SI décisionnelsJoseph Glorieux
Présentation de ma session à l'USI 2013 : www.usievents.com
Les principes des architectures décisionnelles ont... 20 ans.
Si on peut leur souhaiter de vivre aussi longtemps que le mainframe, il va être nécessaire de s’adapter à un contexte riche en changement :
- L'explosion de la volumétrie, des usages, de la diversité, l'instantanéité, bref Big Data
- La réduction du time to market dans un contexte de baisse du budget
- La volonté d'indépendance des utilisateurs et des métiers
- Le raz de marée apporté par de nouveaux paradigmes et solutions (NoSQL, in memory, dataviz, R....)
Ce que je propose donc dans cette session c'est un petit guide de survie en 7 points touchant aussi bien à l'architecture, qu'aux pratiques de développements ou à l'organisation.
Mon objectif est de redonner de l'espoir, ou au moins de faire persister encore quelques années les systèmes d'information décisionnels afin de fêter les noces de perles !!
BigData_TP2: Design Patterns dans HadoopLilia Sfaxi
Pour accéder aux fichiers nécessaires pour faire ce TP, visitez: https://drive.google.com/folderview?id=0Bz7DokLRQvx7M2JWZEt1VHdwSE0&usp=sharing
Pour plus de contenu, Visitez http://liliasfaxi.wix.com/liliasfaxi !
Petit-déjeuner MapReduce-La révolution dans l’analyse des BigDataMarc Bojoly
Big Data, MapReduce, calculs distribués, sont autant de buzz words et de concepts cantonnés jusqu’à maintenant à quelques acteurs spécifiques. Pourtant, il est un état de fait : nous sommes assis sur une quantité gigantesque de données dont il est difficile d’extraire l’information… D’autre part MapReduce est une solution éprouvée pour analyser d’énormes quantités de données (ou Big Data). Elle a, par exemple, été mise en œuvre par Google pour indexer le web, par LinkedIn pour calculer ses campagnes d’email… Dans ces conditions, ces concepts ont-ils un intérêt dans nos SI ? Quel est le niveau de maturité de ces solutions ? Cet atelier, co-organisé par OCTO Technology (www.octo.com) et Plaform (www.platform.com), démontrera que de telles solutions font sens dans nos projets SI. - See more at: http://blog.octo.com/petit-dejeuner-mapreduce-la-revolution-dans-lanalyse-des-bigdata-le-27-septembre/#sthash.GvRo8gOQ.dpuf
Base de données graphe, Noe4j concepts et mise en oeuvreMICHRAFY MUSTAFA
Cette étude vise à présenter les concepts clés d’une base de données orientée graphe. La modélisation et la mise en œuvre des cas d’utilisation seront réalisées avec la base de données NEO4J, version 3.1.
Architecture web aujourd'hui, besoin de scalabilité des bases de données relationnelles, découverte des bases de données NoSQL et des différents types de celles-ci. La vidéo de présentation peut être consultée à l'adresse suivante : http://youtu.be/oIpjcqHyx2M
Quel est l'avenir des stratégies de données?Denodo
Voir: https://bit.ly/31BWK5m
À l'ère du big data, de l'intelligence artificielle et du cloud computing, le volume et la diversité des données ne cessent de croître. Le défi consiste à créer les processus, les normes et les protocoles nécessaires pour mettre l'information au service des entreprises.
Dans ce webinar, nous parlerons des cinq tendances technologiques qui guident les stratégies de données des entreprises du monde entier. Nous verrons comment élever les données au rang d'actif stratégique et avoir une vraie stratégie centrée sur la donnée.
Ne manquez pas ce webinar pour approfondir les points suivants :
- Quelle est l'évolution des architectures d'acquisition et de gestion des données dans les grandes organisations ? En quoi le concept de "data fabric" est-il utile ?
- Comment gérer l'intégration de données distribuées sur plusieurs sites résultant des changements imposés par la migration vers le cloud ?
- Comment les entreprises peuvent-elles monétiser l'infrastructure de données en tant que service construite au cours des dernières années ?
- Comment la data science et l’analytique avancée pilotent et contribuent à accélérer l’acquisition des données ?
- Quel rôle les techniques de NLP et de voice computing peuvent-elles jouer à l'avenir pour l'analyse de données ?
Analytics & Machine Learning avec la Data VirtualizationDenodo
Watch full webinar here: [https://buff.ly/2ZaQk8S]
La data science avancée, telle que le machine learning, se révèle être un outil extrêmement utile pour tirer des informations et de la valeur des données existantes. Cependant, une grande partie des ressources (comme les data scientists) se voit affectée à la recherche des bonnes données et à leur préparation.
Dans ce nouveau webinar en français, nous vous montrerons comment utiliser la virtualisation des données pour obtenir les informations souhaitées de manière plus efficace et plus agile.
Rejoignez ce webinar le 6 juin pour découvrir:
*Comment la data virtualisation accélère l’acquisition et le traitement des données
*Comment la plateforme Denodo pour la virtualisation des données s'intègre à des outils tels que Spark, Python, Zeppelin, etc.
*Comment la virtualisation des données permet de gérer plus efficacement de gros volumes de données
*Cas client & démo
Du Big Data vers le SMART Data : Scénario d'un processusCHAKER ALLAOUI
Du Big Data vers le SMAR Data : Scénario d'un processus
Scénario d'une implémentation d'un processus de transformations des données Big Data vers des données exploitables et représentatives via des traitements des streaming, systèmes distibués, messages, stockage dans un environnement NoSQL, gestion avec un éco-système Big Data et présentation graphique et quantitative des données avec les technologies:
Apache Storm, Apache Zookeeper, Apache Kafka, Apache Cassandra, Apache Spark et Data-Driven Document.
Après un panorama du Big Data / Data Science, nos experts font le focus sur Spark, l’un des composants de la stack SMACK.
Spark est un framework de cluster computing qui permet de faire du traitement de larges volumes de données de manière distribuée. Le modèle de programmation proposé par Spark est plus simple que celui d'Hadoop et jusqu'à 100 fois plus rapide en temps d'exécution.
Nous découvrons ensuite Zeppelin, un outil graphique simple et rapide à mettre en oeuvre se plaçant au-dessus de Spark.
Pour terminer, nous nous intéressons au Machine Learning, aujourd’hui en plein essor. Pourquoi cela ? Quels sont ses principaux domaines d'applications et ses apports ? Quelles sont les principales stratégies utilisées dans le domaine de l'analyse prédictive ? Il est temps d'y voir plus clair et de comprendre les enjeux de cette discipline !
Oxalide MorningTech #1 - BigData
1er MorningTech @Oxalide, animé par Ludovic Piot (@lpiot), le 15 décembre 2016.
Pour cette 1ère édition du Morning Tech nous vous proposons une overview sur un des thèmes du moment : le Big Data.
Au delà de ce buzz word nous aborderons :
Les grands concepts
Les étapes clés des projets Big Data et les technologies à utiliser (stockage, ingestion, …)
Les enjeux des architectures Big Data (architecture lambda, …)
L'intelligence artificielle (machine learning, deep learning, …)
Et nous finirons par un cas d'usage du big data sur AWS autour de l'utilisation des données gyroscopiques de vos internautes mobiles
Subject: Oxalide's 1st MorningTech talk about BigData.
Date: 15-dec-2016
Speakers: Ludovic Piot (@lpiot, @oxalide)
Language: french
Lien SpeakerDeck : https://speakerdeck.com/lpiot/oxalide-morningtech-number-1-bigdata
Lien SlideShare : https://www.slideshare.net/LudovicPiot/oxalide-morningtech-1-bigdata
YouTube Video capture: https://youtu.be/7O85lRzvMY0
Main topics:
* Les grands enjeux du BigData
** les 3 V du Gartner : volume, variété, vélocité
* Le stockage des données
** datalake
** les technos
* L'ingestion des données
** ETL
** datastream
** les technos
* Les enjeux du compute
** map-reduce
** spark
** lambda architecture
* Démo d'une plateforme BigData sur AWS
* L'intelligence artificielle
** datascience exploratoire et notebooks,
** machine learning,
** deep learning,
** data pipeline
** les technos
* Pour aller plus loin
** La gouvernance des données
** La dataviz
Le Big Data en temps réel n’est plus seulement réservée projets à gros budget. En s'appuyant sur Apache Spark, Talend 6 permet aux entreprises de toute taille et de tout secteur d’activité de convertir des Big Data et données issues de l’Internet des Objets en connaissances exploitables immédiatement.
Les exemples d’utilisation d’analytique en temps réel tels que les recommandations personnalisées, la détection des fraudes, les soins préventifs et la tarification prédictive représentent seulement un échantillon des possibilités qui s’offrent aux entreprises ayant accès en temps réel aux informations métier. Cette présentation permet de découvrir les nouvelles capacité de Talend 6 dans ce domaine et aussi de manière plus générale, et aussi comment :
- révéler les données utiles concernant vos produits, clients, et opérations ;
- passer sans efforts au traitement Big Data temps réel et aux applications pour données décisionnelles ;
- capturer et traiter des données issues de l’Internet des Objets facilement pour délivrer des insights rapidement ;
- fournir des données plus sécurisées et fiables grâce à la qualité de données.
Session découverte de la Logical Data Fabric soutenue par la Data VirtualizationDenodo
Watch full webinar here: https://bit.ly/3oGxZmz
Reconnu en tant que leader dans le Gartner® Magic Quadrant™ for Data Integration Tools ainsi que Customers’ Choice 3 années consécutives, Denodo Platform, soutenue par la Data Virtualization, permet une approche moderne de l'intégration, de la gestion et de la livraison des données, en offrant des fonctionnalités clés telles que la couche d'abstraction des données, les requêtes optimisées par l'IA pour les charges de travail analytiques complexes, le data catalog basé sur l'IA/ML, et la gestion de l'infrastructure cloud.
Découvrez lors de cette session d'1h30 en quoi la Logical Data Fabric et la Data Virtualization révolutionnent l'approche métier & IT dans l’accès, la livraison, la consommation, la gouvernance et la sécurisation de vos données, quel que soit l'âge de votre technologie, le format de la donnée ou son emplacement. Cette technologie mature comble le fossé entre l’IT et les utilisateurs métier, et permet des économies considérables en termes de coûts et de temps.
EXL Group, cabinet de conseil en technologies Analytiques, Numériques et Digitales.
Nos équipes multi-spécialistes réunissent des experts en conseils, technologies ou encore méthodes éprouvées pour vous proposer des prestations optimales pour vos Systèmes d’Information. En favorisant et récompensant la prise d’initiative, l’esprit entrepreneurial, nous plaçons chaque collaborateur au cœur de chaque projet . Nous travaillons donc tout autant sur votre satisfaction que sur celles de nos équipes.
Session découverte de la Data VirtualizationDenodo
Watch full webinar here: https://bit.ly/38mIuTp
Denodo vous propose une session virtuelle pour découvrir la Data Virtualization. Quel que soit votre rôle, responsable IT, architecte, data scientist, analyste ou CDO, vous découvrirez comment Denodo Platform, la plateforme leader en data intégration, data management et livraison de données en temps réel permet d'accéder à tout type de source de données pour en tirer de la valeur.
Le Comptoir OCTO - Qu’apporte l’analyse de cycle de vie lors d’un audit d’éco...OCTO Technology
Par Nicolas Bordier (Consultant numérique responsable @OCTO Technology) et Alaric Rougnon-Glasson (Sustainable Tech Consultant @OCTO Technology)
Sur un exemple très concret d’audit d’éco-conception de l’outil de bilan carbone C’Bilan développé par ICDC (Caisse des dépôts et consignations) nous allons expliquer en quoi l’ACV (analyse de cycle de vie) a été déterminante pour identifier les pistes d’actions pour réduire jusqu'à 82% de l’empreinte environnementale du service.
Vidéo Youtube : https://www.youtube.com/watch?v=7R8oL2P_DkU
Compte-rendu :
MongoDB in a scale-up: how to get away from a monolithic hell — MongoDB Paris...Horgix
This is the slide deck of a talk by Alexis "Horgix" Chotard and Laurentiu Capatina presented at the MongoDB Paris User Group in June 2024 about the feedback on how PayFit move away from a monolithic hell of a self-hosted MongoDB cluster to managed alternatives. Pitch below.
March 15, 2023, 6:59 AM: a MongoDB cluster collapses. Tough luck, this cluster contains 95% of user data and is absolutely vital for even minimal operation of our application. To worsen matters, this cluster is 7 years behind on versions, is not scalable, and barely observable. Furthermore, even the data model would quickly raise eyebrows: applications communicating with each other by reading/writing in the same MongoDB documents, documents reaching the maximum limit of 16MiB with hundreds of levels of nesting, and so forth. The incident will last several days and result in the loss of many users. We've seen better scenarios.
Let's explore how PayFit found itself in this hellish situation and, more importantly, how we managed to overcome it!
On the agenda: technical stabilization, untangling data models, breaking apart a Single Point of Failure (SPOF) into several elements with a more restricted blast radius, transitioning to managed services, improving internal accesses, regaining control over risky operations, and ultimately, approaching a technical migration when it impacts all development teams.
Ouvrez la porte ou prenez un mur (Agile Tour Genève 2024)Laurent Speyser
(Conférence dessinée)
Vous êtes certainement à l’origine, ou impliqué, dans un changement au sein de votre organisation. Et peut être que cela ne se passe pas aussi bien qu’attendu…
Depuis plusieurs années, je fais régulièrement le constat de l’échec de l’adoption de l’Agilité, et plus globalement de grands changements, dans les organisations. Je vais tenter de vous expliquer pourquoi ils suscitent peu d'adhésion, peu d’engagement, et ils ne tiennent pas dans le temps.
Heureusement, il existe un autre chemin. Pour l'emprunter il s'agira de cultiver l'invitation, l'intelligence collective , la mécanique des jeux, les rites de passages, .... afin que l'agilité prenne racine.
Vous repartirez de cette conférence en ayant pris du recul sur le changement tel qu‘il est généralement opéré aujourd’hui, et en ayant découvert (ou redécouvert) le seul guide valable à suivre, à mon sens, pour un changement authentique, durable, et respectueux des individus! Et en bonus, 2 ou 3 trucs pratiques!
L'IA connaît une croissance rapide et son intégration dans le domaine éducatif soulève de nombreuses questions. Aujourd'hui, nous explorerons comment les étudiants utilisent l'IA, les perceptions des enseignants à ce sujet, et les mesures possibles pour encadrer ces usages.
Constat Actuel
L'IA est de plus en plus présente dans notre quotidien, y compris dans l'éducation. Certaines universités, comme Science Po en janvier 2023, ont interdit l'utilisation de l'IA, tandis que d'autres, comme l'Université de Prague, la considèrent comme du plagiat. Cette diversité de positions souligne la nécessité urgente d'une réponse institutionnelle pour encadrer ces usages et prévenir les risques de triche et de plagiat.
Enquête Nationale
Pour mieux comprendre ces dynamiques, une enquête nationale intitulée "L'IA dans l'enseignement" a été réalisée. Les auteurs de cette enquête sont Le Sphynx (sondage) et Compilatio (fraude académique). Elle a été diffusée dans les universités de Lyon et d'Aix-Marseille entre le 21 juin et le 15 août 2023, touchant 1242 enseignants et 4443 étudiants. Les questionnaires, conçus pour étudier les usages de l'IA et les représentations de ces usages, abordaient des thèmes comme les craintes, les opportunités et l'acceptabilité.
Résultats de l'Enquête
Les résultats montrent que 55 % des étudiants utilisent l'IA de manière occasionnelle ou fréquente, contre 34 % des enseignants. Cependant, 88 % des enseignants pensent que leurs étudiants utilisent l'IA, ce qui pourrait indiquer une surestimation des usages. Les usages identifiés incluent la recherche d'informations et la rédaction de textes, bien que ces réponses ne puissent pas être cumulées dans les choix proposés.
Analyse Critique
Une analyse plus approfondie révèle que les enseignants peinent à percevoir les bénéfices de l'IA pour l'apprentissage, contrairement aux étudiants. La question de savoir si l'IA améliore les notes sans développer les compétences reste débattue. Est-ce un dopage académique ou une opportunité pour un apprentissage plus efficace ?
Acceptabilité et Éthique
L'enquête révèle que beaucoup d'étudiants jugent acceptable d'utiliser l'IA pour rédiger leurs devoirs, et même un quart des enseignants partagent cet avis. Cela pose des questions éthiques cruciales : copier-coller est-il tricher ? Utiliser l'IA sous supervision ou pour des traductions est-il acceptable ? La réponse n'est pas simple et nécessite un débat ouvert.
Propositions et Solutions
Pour encadrer ces usages, plusieurs solutions sont proposées. Plutôt que d'interdire l'IA, il est suggéré de fixer des règles pour une utilisation responsable. Des innovations pédagogiques peuvent également être explorées, comme la création de situations de concurrence professionnelle ou l'utilisation de détecteurs d'IA.
Conclusion
En conclusion, bien que l'étude présente des limites, elle souligne un besoin urgent de régulation. Une charte institutionnelle pourrait fournir un cadre pour une utilisation éthique.
De l'IA comme plagiat à la rédaction d'une « charte IA » à l'université
Les technologies big data avec speech commentaries
1. Université de Kairouan
Institut Supérieur d’Informatique
et de Gestion de Kairouan
LES TECHNOLOGIES
BIG-DATA
Réaliser par:
Jamli Rim
2. PLAN:
En jeux du Big Data
Types De Technologie Big Data
Top Des Technologies Big Data
Apache Spark
1
2
3
4
1
3. 2
1- En jeux du BIG DATA
Without big data analytics,companies are blind and deaf,wandering out onto the web like deer on a freeway.
Geoffrey Moore
4. 4
En jeux du BIG-DATA
1
1
Les méga donné par le biais des
formules mathématiques.
D’identifier et d’analyser nos schémas
comportementaux .
Prédire l’avenir , le future numérique.
Explosion des données modifier
radicalement notre vie.
Que le Big data c’est : l’accroissement
exponentielle des données.
6. 6
Types De Technologie Big Data
2
Qu'est-ce que la technologie Big Data?
Logiciel utilitaire conçu pour analyser , traiter et extraire les informations complexe et volumineux
logiciel de traitement de données traditionnel
Technologies de traitement de Big Data:
analyser énorme quantité de données
temps réel
proposer des conclusions /prévisions
réduire les risques
7. 7
Types De Technologie Big Data
2
Types de technologies Big Data:
Technologies Big Data opérationnelles
Technologies analytiques du Big Data
Les données quotidiennes normales que nous générons
Les transactions en ligne, les médias sociaux ou les
données d'une organisation particulière
Alimenter les technologies analytiques de Big Data.
Réservation de billets en ligne, qui comprend vos billets de train,
billets d'avion, billets de cinéma,Airbnb,tripadvisor
Les achats en ligne qui sont votre offre Amazon,
Walmart, Snap et bien d'autres.
médias sociaux comme Facebook, Instagram,etc
8. 8
Types De Technologie Big Data
2
Types de technologies Big Data:
Technologies Big Data opérationnelles
Technologies analytiques du Big Data
la version avancée des technologies du Big Data
complexe que le Big Data Opérationnel
Le big data analytique est l'endroit où la partie de la performance réelle entre en scène et les
décisions commerciales cruciales en temps réel sont prises en analysant le Big Data opérationnel
9. 9
Types De Technologie Big Data
2
Types de technologies Big Data:
Technologies Big Data opérationnelles
Technologies analytiques du Big Data
Stock marketing
Réaliser les missions spatiales où chaque information est cruciale.
Informations sur les prévisions météorologiques.
Domaines médicaux dans lesquels:
l'état de santé d'un patient particulier peut être surveillé.
11. 11
Top Des Technologies Big Data
3
Les principales technologies Big Data
sont divisées en 4 domaines qui sont classés
comme suit:
Stockage de données
Exploration de données
Analyse des données
Visualisation de données
12. 12
Top Des Technologies Big Data
3
2019
2019
Stockage de données: HADOOP
Hadoop est un Framework logiciel open-source utilisé pour stocker et traiter le Big Data de manière
distribuée sur de grands clusters de matériel de base. Hadoop est sous licence Apache v2.
Hadoop a été développé sur la base de l'article rédigé par Google sur le système MapReduce et
applique des concepts de programmation fonctionnelle.
Développé par : Apache Software Fondation en 2011, le 10 décembre.
Écrit en : JAVA
Entreprises utilisant Hadoop:
Qu'est-ce que Hadoop?
13. 13
Top Des Technologies Big Data
3
Exploration des données
PRESTO est un moteur de requêtes SQL distribué open source permettant d'exécuter des requêtes
analytiques interactives sur des sources de données de toutes tailles allant de gigaoctets à pétaoctets.
Presto permet d'interroger des données dans Hive , Cassandra , les bases de données relationnelles
et les magasins de données propriétaires.
Développé par : Apache Foundation en 2013.
Écrit en : JAVA
Entreprises utilisant Presto :
14. 14
Top Des Technologies Big Data
3
Spark fournit des capacités de calcul en mémoire pour fournir Speed,
un modèle d'exécution généralisé pour prendre en charge une grande
variété d'applications, et des API Java , Scala et Python pour faciliter
le développement.
Développé par : Apache Software Foundation
Écrit en : Java, Scala, Python, R
Entreprises utilisant Spark:
Analyse des données
15. 15
Top Des Technologies Big Data
3
BlockChain:
utilisé dans des fonctions essentielles telles que le paiement, le séquestre et le titre peut également réduire la
fraude, augmenter la confidentialité financière, accélérer les transactions et internationaliser les marchés.
BlockChain peut être utilisé pour réaliser ce qui suit dans un environnement de réseau d'entreprise:
Grand livre partagé: Ici, nous pouvons ajouter le système distribué d'enregistrements sur un réseau
d'entreprise.
Contrat intelligent: les conditions commerciales sont intégrées dans la base de données des transactions et
exécutées avec les transactions.
Confidentialité: en garantissant une visibilité appropriée, les transactions sont sécurisées, authentifiées et
vérifiables
Consensus: toutes les parties d'un réseau d'entreprise acceptent de mettre en réseau les transactions vérifiées.
Développé par : Bitcoin
Rédigé en : JavaScript, C ++, Python
Entreprises utilisant Blockchain:
Analyse des données
16. 16
Top Des Technologies Big Data
3
Tableau est un outil de visualisation de données puissant et à la croissance la plus rapide
utilisé dans le secteur de la Business Intelligence .
L'analyse des données est très rapide avec Tableau et les visualisations créées se présentent
sous la forme de tableaux de bord et de feuilles de calcul.
Développé par : TableAU 2013 May 17
Écrit en : JAVA, C ++, Python, C
Entreprises utilisant :
Visualisation de données
17. 17
Top Des Technologies Big Data
3
Technologies Big Data émergentes
Technologies Big Data émergentes
18. 18
Top Des Technologies Big Data
3
TensorFlow dispose d'un écosystème complet et flexible d'outils, de bibliothèques et de ressources
communautaires qui permet aux chercheurs de pousser les avancées de pointe en matière de machine
learning et les développeurs peuvent facilement créer et déployer des applications basées sur le machine
learning.
Développé par : Google Brain Team en 2019
Écrit en : : Python, C++, CUDA
Entreprises utilisant TensorFlow:
Technologies Big Data émergentes
20. 20
Apache Spark
4
Un projet de recherche à l' UC
Berkeley AMPLab en 2009
Open source au début de 2010
En 2013, transmis à la
fondation Apache, Spark
devient l'un des projets les
plus actifs de cette dernière
En 2014, Spark a
gagné le Daytona
GraySort Contest
dont l'objectif est de
trier 100 To de
données le plus
rapidement possible
Les contributeurs qui participent à son développement sont nombreux et
issus d'environ 200 sociétés différentes,
comme Intel, Facebook, IBM et Netflix. Ainsi depuis 2015 on recense plus de
1 000 contributeurs
Historique
21. 21
Apache Spark
4
Plateforme de traitement sur cluster générique
Assure un traitement parallèle et distribué des données massives
Réalise des traitement par lot (batch) ou a la volée (streaming)
Permet d’intégrer tous les outils et technologies Big data
Offre un traitement itératif et interactif
Offre des API de haut niveau en JAVA, Scala ,PYTHON et R
La notion Spark
24. 24
Apache Spark
4
RDD
RDD
Resilient Distributed Dataset
Collection distribuée d’éléments en mémoire, qui peut être gérée en parallèle
Résilient: capable de récupérer rapidement en cas de panne ou de problèmes
Distribué: partage les données sur les différents nœuds pour une exécution parallèle
Dataset: collection des données en mémoire ;accélère le traitement sur données
27. 23
Apache Spark
4
RDD
En parallélisant des collections existantes
Utiliser la fonction: parallelize()
A partir de fichieres enregistrés dans un support de stockage
tel que disque local, hdfs,Cassandra….
A partir d’autres RDD
Grace aux transformations…
28. 25
Apache Spark
4
Performance De Traitement:
Spark utilise des mécanismes qui
optimisé en terme de temps
d’exécution
La réduction de nombres de lecture-
écriture sur le disque.
Dynamicité:
Il est facilement possible de
développer une application
parallèle, car Spark fournit
80 opérateurs de haut niveau.
Tolérances Aux pannes:
Offre une tolérance aux pannes via Spark abstraction-RDD.
Les RDD Spark sont conçus pour gérer l’échec de tout nœud
de travail du cluster. Ainsi, cela garantit une perte de données
nulle.
Traitement A La Volée
Support De Plusieurs Langages:
Convivialité: Spark prend en charge
plusieurs langues, ce qui facilite le
travail
Avantages
29. Spark et Hadoop :
compagnons ou concurrents ?
Spark n’est pas un concurrent d’Hadoop.
Spark et Hadoop ne sont pas pour le même usage.
Spark :traite les données plus rapidement que Map
Reduce.
D’une part professionnel :utiliser hadoop avec la partie
HDFS et Spark peut remplace map reduce
26
Chacun de nos actes ou presque est capturer et enregistrer des informations qui alimentent ce qu’on appelle le BIG DATA ,les méga donné par le biais de formules mathématiques.
Il permet d’identifier et d’analyser nos schémas comportementaux , mais ce n’est pas tout il peut aussi prédire l’avenir , le future numérique
En 2013 nous avons produit une quantité de données numériques égale a la somme de toutes les données de l’histoire de l’humanité prés de quartes milliards et demi de Téra octets et chaque jour cette explosion de données modifie radicalement notre vie.
D’une autre façon en peut dire que le big data c’est : l’accroissement exponentielle des données.
Qu'est-ce que la technologie Big Data?
La technologie Big Data peut être définie comme un logiciel utilitaire conçu pour analyser , traiter et extraire les informations d'un ensemble de données extrêmement complexe et volumineux que le logiciel de traitement de données traditionnel ne pourrait jamais gérer.
Nous avons besoin de technologies de traitement de Big Data pour analyser cette énorme quantité de données en temps réel et proposer des conclusions et des prévisions pour réduire les risques à l'avenir.
Voyons maintenant les catégories dans lesquelles les technologies Big Data sont classées:
La technologie Big Data est principalement classée en deux types:
Technologies Big Data opérationnelles
Technologies analytiques du Big Data
Premièrement, le Big Data opérationnel concerne les données quotidiennes normales que nous générons. Cela pourrait être les transactions en ligne, les médias sociaux ou les données d'une organisation particulière , etc. Vous pouvez même considérer cela comme une sorte de données brutes qui sont utilisées pour alimenter les technologies analytiques de Big Data.
Voici quelques exemples de technologies opérationnelles Big Data :
Réservation de billets en ligne, qui comprend vos billets de train, billets d'avion, billets de cinéma, etc.
Les achats en ligne qui sont votre offre Amazon, Flipkart, Walmart, Snap et bien d'autres.
Données provenant de sites de médias sociaux comme Facebook, Instagram,
Alors, avec cela, passons aux technologies analytiques du Big Data.
Le Big Data analytique est comme la version avancée des technologies du Big Data. C'est un peu complexe que le Big Data Opérationnel. En bref, le big data analytique est l'endroit où la partie de la performance réelle entre en scène et les décisions commerciales cruciales en temps réel sont prises en analysant le Big Data opérationnel.
Quelques exemples de technologies analytiques Big Data sont les suivants:
Stock marketing
Réaliser les missions spatiales où chaque information est cruciale.
Informations sur les prévisions météorologiques.
Domaines médicaux dans lesquels l'état de santé d'un patient particulier peut être surveillé.
Jetons un coup d'œil aux principales technologies de Big Data utilisées dans les industries informatiques.
Les principales technologies Big Data sont divisées en 4 domaines qui sont classés comme suit:
Stockage de données
Exploration de données
Analyse des données
Visualisation de données
Examinons maintenant les technologies relevant de chacune de ces catégories avec leurs faits et leurs capacités, ainsi que les entreprises qui les utilisent.
Blockchain s'occupe de toutes les transactions de bitcoin
Bitcoin est une monnaie numérique
parlons maintenant des technologies émergentes du Big Data
Apache Spark a commencé comme un projet de recherche à l' UC Berkeley(université de Californie à Berkeley ) AMPLab en 2009, et a été open source au début de 2010.
Plateforme de traitement sur cluster générique c à dire faite pour s’exécuter sur un cluster de machine
(cluster: un ensemble de machines interconnectées c’est un système repartie)
Spark est a la base fait pour s’exécuter en parallèle sur un ensemble de machine elle Assure un traitement parallèle et distribué des données massives l’objectif ici c’est de traiter des données de grande taille c’est pour quoi en fait qu’on appelle Spark technologie Big data car l’un des objectifs de Spark c’est de s’exécuter sur les données massives et de façon qui soit optimal
Donc le problème avec les données massives c’est que ce sont des données de gros volumes qui impacte toujours le temps de traitement plus on a de volumes plus le traitement prend du temps la avec Spark on gagne le maximum de temps et d’avoir une performance élevé
aussi Réalise des traitement par lot (batch=totalité des données) c a d sur totalité des données dans le cluster ou a la volée (streaming) des données qui sont arrivée au fur et en mesure et peut les traité(se sont des traitement de courte durée
Permet d’intégrer tous les outils et technologies Big data :Spark est une technologie de traitement et pas de stockage en tous cas pas encore
Spark peut faire des traitement en utilisant des technique de stockage qui existe déjà par exemple hadoop hdfs en profitant de toute la puissance hdfs répartition réplication gestion des fautes ….
Offre un traitement itératif(batch=totalité des données) et interactif(les traitement en mémoire)
Offre des API de haut niveau en plusieurs longuage JAVA, Scala ,PYTHON et R
Spark est une architecture à assez complexe qui va contenir plusieurs composants donc pour commencer il y a d’abord :
Spark core est le cœur su Spark c’ est l’ensemble des bibliothèque qui contient Spark a partir de laquelle en peut exécutée les traitement qu'on veut faire:
Création du rdd(structure de données en mémoire)
On a la couche Spark SQL pour permettre traiter les données stockées dans un système de fichier(familiers avec le base de données)
Par suite la couche Spark streaming qui va permettre des traitement en temps réel( pas vraiment )mais traitement en micro batch
En 3eme lieu Spark va offrir une bibliothèque de machine Learning qui s’appelle MLIB (ré implémenter des algorithme de ML sur des données distribuées
4ement Graph X qui permet de gérer les traitement sous forme de graphe en mémoire celons type d’application bien sur.
Dernières couche celui qui permet l’interaction avec système de fichier on appelle les gestionnaires des ressources (attribuer les jobs)
Spark a son ordonnanceur qui s’appelle stand alone scheduler
Et peut aussi utilisée autres gestionnaire de ressources comme YARN (hadoop)
Spark utilise une architecture en maitre esclave c’est adire composée d’un ensemble de processus qui communiquent:
Un processus maitre qui va gérer le traitement principale de Spark
Et un ensembles d’esclaves qui vont exécuter ces traitement la:
Spark composé d’un 1er processus qui s’appelle driver program qui contient en fait un objet qui s’appelle Spark Context REPRESENTE le point d4entrer a toutes les applications.
driver program celui qui va gérer l’ensemble des JOBS.
Donc le SparkContext peut connecter au
Gestionnaire du cluster le cluster manager les gestionnaires de ressources
Celui qui gère l’attribution d’une ressources matérielle a un job particulier
Ce sont eux qui vont dire ou vont s’exécuter l’ensemble de job, les allocations mémoire/processeur
stand alone scheduler va permettre de la communication entre Spark et n’importe quelle système de fichier
La par exemple on n nœuds pour chacun nœud il y a un ensemble d’exécuteur ,chaque exécuteur était alloue a une application particulière
Sont des processus parallèles chaque processus lancer également ensemble des taches en parallèle (parallélisme une notion de base)
En fin les exécuteurs renvoyer le code de l’application sous forme d’un fichier jar ou python selon et Spark Context qui va coordonnes l’ensemble d’exécution des taches sur différents machines .
Le rdd est par définition distribué nous avons déjà dire que spark est une architecture maitre esclave
On va avoir le driver qui va synchroniser l’ensemble des opérations qui se fond dans spark
Et puis il va avoir un ensemble des node workers qui vont faire le travail et chaq’un va contenir une partie du RDD et le faite de diviser un rdd sur plusieurs machines ça va aider a paralléliser de façon efficace e beaucoup plus rapide
Quelles sont les opérations qu’on peut faire sur un rdd:
Créer un rdd c’est la première étape donc un rdd peut subir un ensemble de transformation et chaque transformation c’est une opération sur la partie du RDD
Qui peut gérer même un autre RDD et dans certain moment on a besoin de réaliser une action(c’est une opération qui sortir un resultat affiché ou stocké sur le disque
Spark c’est pas un concurrent d’hadoop parce que souvent la tendance certains pensent le contraire.
En générale les deux outils ne sont pas pour le même usage
Spark c’est pour traiter les données plus rapidement que map reduce
Parce que elle est capable de travail sur la totalité des données en une seul fois et c’est pas le cas avec Map Reduce(beaucoup plus rapide)
Donc en conclure que si vous devez réaliser des traitement rapide est bien d’utiliser hadoop avec la partie HDFS mais vous allez choisir Spark pour la partie traitement distribués
Donc Spark remplace map reduce puisque n’étant pas capable de réaliser des stockages distribuer bon il faut s’appuie sur HDFS ce qui est capable de le faire