Big Data : Hadoop
- Généralité
- Architecture HDFS
- Algorithme MapRduce
- Architecture YARN
- Hadoop v3.x vs Hadoopv2.x
Cours Big Data - Chap2 - GI3 - ENIS
Pour accéder aux fichiers nécessaires pour faire ce TP, visitez: https://drive.google.com/folderview?id=0Bz7DokLRQvx7M2JWZEt1VHdwSE0&usp=sharing
Pour plus de contenu, Visitez http://liliasfaxi.wix.com/liliasfaxi !
Big Data : Hadoop
- Généralité
- Architecture HDFS
- Algorithme MapRduce
- Architecture YARN
- Hadoop v3.x vs Hadoopv2.x
Cours Big Data - Chap2 - GI3 - ENIS
Pour accéder aux fichiers nécessaires pour faire ce TP, visitez: https://drive.google.com/folderview?id=0Bz7DokLRQvx7M2JWZEt1VHdwSE0&usp=sharing
Pour plus de contenu, Visitez http://liliasfaxi.wix.com/liliasfaxi !
Une introduction au Big Data, NoSQL et Open Data.
Il présente les avantages de NoSQL.
Une présentation des différents types des bases de données NoSQL.
CNES - CCT SIL - Traitement et Manipulation de la donnée à l‘aide des technologies Big Data
Présentation du 30 Juin 2017
Les CCT sont des espaces d'échanges techniques mis en place par le CNES il y a 20 ans, dans le but de réunir différents acteurs industriels et public pour s'enrichir mutuellement.
1-Problématique
2-Définition du Big Data
3-Big Data et 3V
4-Data wahrehouse VS Big Data
5-Domaines d’utilisations
6-Les techniques de traitement
7-Big Data et Aspect Mobile
8-Conclusion
BigData_TP1: Initiation à Hadoop et Map-ReduceLilia Sfaxi
Pour accéder aux fichiers nécessaires pour faire ce TP, visitez: https://drive.google.com/folderview?id=0Bz7DokLRQvx7M2JWZEt1VHdwSE0&usp=sharing
Pour plus de contenu, Visitez http://liliasfaxi.wix.com/liliasfaxi !
Pour accéder aux fichiers nécessaires pour faire ce TP, visitez: https://drive.google.com/folderview?id=0Bz7DokLRQvx7M2JWZEt1VHdwSE0&usp=sharing
Pour plus de contenu, Visitez http://liliasfaxi.wix.com/liliasfaxi !
Mix it2014 - Machine Learning et Régulation NumériqueDidier Girard
Le machine learning est la science qui permet à un algorithme d’apprendre sans avoir été explicitement programmé pour cela. Elle est utilisée par les acteurs de la nouvelle économie pour le traitement de gros volumes de données, dans la traduction automatique, la reconnaissance de la parole, la classification de consommateur, la construction de réputation, ou la prévision des trafics. C’est la “régulation numérique”.
Nous parlerons des champs d’application du machine learning par les gros acteurs du numérique, de ses fondements mathématiques, des grands familles d’algorithmes et des outils disponibles pour mettre en pratique.
Découvrez les bases pour comprendre cette science et mesurer le potentiel des possibilités de son utilisation.
Une introduction au Big Data, NoSQL et Open Data.
Il présente les avantages de NoSQL.
Une présentation des différents types des bases de données NoSQL.
CNES - CCT SIL - Traitement et Manipulation de la donnée à l‘aide des technologies Big Data
Présentation du 30 Juin 2017
Les CCT sont des espaces d'échanges techniques mis en place par le CNES il y a 20 ans, dans le but de réunir différents acteurs industriels et public pour s'enrichir mutuellement.
1-Problématique
2-Définition du Big Data
3-Big Data et 3V
4-Data wahrehouse VS Big Data
5-Domaines d’utilisations
6-Les techniques de traitement
7-Big Data et Aspect Mobile
8-Conclusion
BigData_TP1: Initiation à Hadoop et Map-ReduceLilia Sfaxi
Pour accéder aux fichiers nécessaires pour faire ce TP, visitez: https://drive.google.com/folderview?id=0Bz7DokLRQvx7M2JWZEt1VHdwSE0&usp=sharing
Pour plus de contenu, Visitez http://liliasfaxi.wix.com/liliasfaxi !
Pour accéder aux fichiers nécessaires pour faire ce TP, visitez: https://drive.google.com/folderview?id=0Bz7DokLRQvx7M2JWZEt1VHdwSE0&usp=sharing
Pour plus de contenu, Visitez http://liliasfaxi.wix.com/liliasfaxi !
Mix it2014 - Machine Learning et Régulation NumériqueDidier Girard
Le machine learning est la science qui permet à un algorithme d’apprendre sans avoir été explicitement programmé pour cela. Elle est utilisée par les acteurs de la nouvelle économie pour le traitement de gros volumes de données, dans la traduction automatique, la reconnaissance de la parole, la classification de consommateur, la construction de réputation, ou la prévision des trafics. C’est la “régulation numérique”.
Nous parlerons des champs d’application du machine learning par les gros acteurs du numérique, de ses fondements mathématiques, des grands familles d’algorithmes et des outils disponibles pour mettre en pratique.
Découvrez les bases pour comprendre cette science et mesurer le potentiel des possibilités de son utilisation.
Machine learning, deep learning et search : à quand ces innovations dans nos ...Antidot
FORCE EST DE CONSTATER QUE DURANT CES 10 DERNIÈRES ANNÉES, IL N'Y A PAS EU D'ÉVOLUTION DANS LE DOMAINE DES MOTEURS DE RECHERCHE POUR LES ENTREPRISES. ET POURTANT LA TOILE BRUISSE DE LA RÉVOLUTION DU MACHINE LEARNING.
Ces nouvelles approches mathématiques révolutionnent le traitement de l'information. Les géants du web s'en sont saisis depuis quelques années déjà et les premiers résultats sont là. Votre recherche Web est plus personnalisée, elle prédit plus qu'elle ne trouve, elle anticipe.
Mais les travailleurs du savoir dans les entreprises classiques n'ont pas encore accès à ces innovations. Ont-ils été oubliés ?
La recherche d'information en entreprise est-elle condamnée à exploiter des technologies du 20ème siècle ?
William Lesguillier, responsable de l'offre Valorisation des Données chez Antidot, revient sur l'intérêt de ces approches de machine learning afin de comprendre à quoi elles servent. A travers divers retours d'expériences, nous illustrerons ce qu'elles apportent dans la recherche d'information.
Nous ouvrirons enfin les portes du laboratoire d'Antidot pour présenter les derniers travaux de recherche sur les algorithmes de pertinence. l
Que faire quand vous avez du mal à trier et prioriser des informations ? La solution s'appelle Machine Learning. Le principe est simple : faire faire les apprentissages à une application pour qu'elle puisse classer, categoriser ou caracteriser différentes informations, sans les connaître initialement. Cela s'applique au spam, aux traductions ou même à la qualité de code. Le Machine Learning est parfois difficile à prendre en main avec de gros projets, alors nous verrons comment en faire sur des données plus modestes, et plus accessibles.
Cette conférence a pour objet de partager avec les participants le processus d'intégration d'un système de Machine Learning (ML) dans une application Java / Scala. Elle s'adresse aux développeurs qui souhaitent inclure des services de recommandation en ligne, d'analyse de risque ou d'intelligence client mais qui n'ont pas de connaissances particulières en ML. Nous aborderons :
Le processus global : Choix des échantillons d'apprentissage et de test, sélection de l'algorithme de machine learning, évaluation et optimisation du modèle
La préparation de l'échantillon de données : Les critères de choix des données à collecter, le volume à injecter, les transformations à réaliser en amont de l'application de l'algorithme de ML
La sélection et la construction du modèle : Cette section parcoure les catégories d'algorithmes disponibles dans MLLib et présente les principales règles de sélection et d'ajustement en fonction de l'objectif.
L'évaluation et l'optimisation du modèle : Cette section présente les métriques d'évaluation de la performance prédictive des modèles ML ainsi que les diagrammes D3.js de visualisation adaptés.
Machine Learning and Apache Mahout : An IntroductionVarad Meru
An Introductory presentation on Machine Learning and Apache Mahout. I presented it at the BigData Meetup - Pune Chapter's first meetup (http://www.meetup.com/Big-Data-Meetup-Pune-Chapter/).
Troubleshooting Kerberos in Hadoop: Taming the BeastDataWorks Summit
Kerberos is the ubiquitous authentication mechanism when it comes to secure any Hadoop Services. With recent updates in Hadoop core and various Apache Hadoop components, inherent Kerberos support has matured and has come a long way.
Understanding & configuring Kerberos is still a challenge but even more painful & frustrating is troubleshooting a Kerberos issue. There are lot of things (small & big) that can go wrong (and will go wrong!). This talk covers the Kerberos debugging part in detail and discusses the tools & tricks that can be used to narrow down any Kerberos issue.
Rather than discussing the issues and their resolution, we will focus on how to approach a Kerberos problem and do's / dont's in Kerberos scene. This talk will provide a step by step guide that will equip the audience for troubleshooting future Kerberos problems.
Agenda is to discuss:
- Systematic approach to Kerberos troubleshooting
- Kerberos Tools available in Hadoop arsenal
- Tips & Tricks to narrow down Kerberos issues quickly
- Some nasty Kerberos issues from Support trenches
Some prior knowledge on Kerberos basics will be appreciated but is not a prerequisite.
Speaker:
Vipin Rathor, Sr. Product Specialist (HDP Security), Hortonworks
As Hadoop becomes a critical part of Enterprise data infrastructure, securing Hadoop has become critically important. Enterprises want assurance that all their data is protected and that only authorized users have access to the relevant bits of information. In this session we will cover all aspects of Hadoop security including authentication, authorization, audit and data protection. We will also provide demonstration and detailed instructions for implementing comprehensive Hadoop security.
Abstract:
As organizations start to roll out or migrate data driven applications to Apache Hadoop, there are times when they have conflicting needs to leverage their full co-mingled data sets in Hadoop
while providing isolation of sections of such co-mingled data to a specific customer. Serving multiple customers in this manner is a typical multi-tenant usecase and one that can be challenging in Apache Hadoop.
This presentation walks through a number of patterns that can be leveraged for providing isolation of tenants based on the composability of Apache Knox for:
* Authentication/Federation Providers
* KnoxSSO
* Identity Assertion
* Tenant specific topologies
With these patterns, Knox can provide an infrastructure for robust tenant isolation and access control for application UIs and REST APIs for your data landscape, when suitably coupled with a cluster that has carefully considered infrastructure including:
* Kerberos
* Tenant specific user accounts, OUs and Groups within LDAP
* Authorization Policy that is aware of the tenant specific groups,
Summary:
We will walk through some of the patterns that have been used to enable such a multi-tenant environment as well as the specific considerations for topology, access control and user accounts involved with creating such an environment.
Securing Hadoop's REST APIs with Apache Knox Gateway Hadoop Summit June 6th, ...Kevin Minder
Securing Hadoop's REST APIs with Apache Knox Gateway
Presented at Hadoop Summit on June 6th, 2014
Describes the overall roles the Apache Knox Gateway plays in Hadoop security and briefly covers its primary features.
Big Data and Security - Where are we now? (2015)Peter Wood
Peter Wood started looking at Big Data as a solution for Advanced Threat Protection in 2013. This presentation examines how Big Data is being used for security in 2015, how this market is developing and how realistic vendor offerings are.
Quel est l'avenir des stratégies de données?Denodo
Voir: https://bit.ly/31BWK5m
À l'ère du big data, de l'intelligence artificielle et du cloud computing, le volume et la diversité des données ne cessent de croître. Le défi consiste à créer les processus, les normes et les protocoles nécessaires pour mettre l'information au service des entreprises.
Dans ce webinar, nous parlerons des cinq tendances technologiques qui guident les stratégies de données des entreprises du monde entier. Nous verrons comment élever les données au rang d'actif stratégique et avoir une vraie stratégie centrée sur la donnée.
Ne manquez pas ce webinar pour approfondir les points suivants :
- Quelle est l'évolution des architectures d'acquisition et de gestion des données dans les grandes organisations ? En quoi le concept de "data fabric" est-il utile ?
- Comment gérer l'intégration de données distribuées sur plusieurs sites résultant des changements imposés par la migration vers le cloud ?
- Comment les entreprises peuvent-elles monétiser l'infrastructure de données en tant que service construite au cours des dernières années ?
- Comment la data science et l’analytique avancée pilotent et contribuent à accélérer l’acquisition des données ?
- Quel rôle les techniques de NLP et de voice computing peuvent-elles jouer à l'avenir pour l'analyse de données ?
Big Data - Un domaine au carrefour de plusieurs disciplines et d'expertises
Vue globale de l'Architecture et des Processus Big Data
Démarche Big Data
Big Data – Paradigm Shift
Big Data – L'univers digital devient de plus en plus large et interconnecté
Big Data – Perception du Volume de l'univers digital
Volume - Big Data « data-intensive » Paradigm shift : Data Locality
Volume - Big Data Paradigm shift : Synchronous batch processing
Variété - Big Data : multitude des formats de données
Varieté - Big Data Paradigme shift : Schema on Run/Read (aka ELT)
Vélocité - Big Data paradigm shift : Real Time Analysis Processing (RTAP)
Prévision des évolution des épidémies
Anticiper les pics de la circulation
Prévision Catastrophes naturelles
Sécurité territoriale
Mesure de la Satisfaction du client
Sécurité du citoyen
Mesure de la Perception du citoyen
Traitement des échanges boursiers
Exemple pratique : Calcul de la carte du bonheur par pays
Big Data & visualisation « Dataviz »
Big Data – un écosystème de
nouveaux concepts et technologies
Big Data – Quels Profils et Compétences ?
Big Data – Eldorado pour la R&D et l'Innovation
Nuage des topics liés à 15 conférences sur le Big Data de 2016
Top 20 des topics liées à 10 études d'opportunités Big Data (282 pages, 115.623 mots)
Big Data Opportunité 1 - Services
Big Data Opportunité 2 - Security
Big Data Opportunité 3 - Smart Governement
Big Data Opportunité 4 - Health
Opportunités Big Data – Améliorer le quotidien du citoyen Marocain
Big Data – Sans oublier bien évidemment de Préparer le Maroc de demain
1/ initiation avec le big Data
2/ Data warehouse VS Big Data
3/ Domaines d’utilisations
4/ Des connaissances importantes sur Hadoop
5/ Big Data et Aspect Mobile
What is Big Data?
C'est quoi les big data? et comment ils ont naquis?
Big dat, manipulés comment? quelles sont leurs applications et leurs inconvénients actuels?
Petit-déjeuner OCTO Technology : Calculez vos indicateurs en temps réel ave...OCTO Technology
Le Big Data touche le paroxysme de sa médiatisation. Tout est devenu Big Data, mélangeant nouvelles approches métiers, technologies et business models.
De vraies opportunités se présentent toutefois. Ainsi, la capacité à suivre en temps réel les indicateurs clés du business à partir d’un nombre croissant de sources de données est un challenge que le « Big Data » peut relever.
Découvrez, au travers d'un retour d'expérience commun EDF R&D/OCTO Technology, comment Storm peut vous permettre de relever ce défi.
Compte-rendu du petit-déjeuner : http://bit.ly/1dpbNgF
une Journée dédié au BigData par Excelerate Systems & Cloudera
1 Congférence "Big Data = Smart Business, un outil de transformation des entreprises"
3 Ateliers : Enterprise Datawarehouse, Securité et Marketing
DataGalaxy et Denodo : le guichet unique de gouvernance et d’accès aux données !Denodo
Watch full webinar here: https://bit.ly/3c6aeuE
Pendant cette session, vous découvrirez comment la virtualisation de données et le Cataloging de la donnée vous permettent de créer un guichet unique de gouvernance et d’accès aux données afin :
- D'intégrer sans réplications toutes les données d’entreprise qu’elles soient en internes ou dans le cloud, ce indifféremment de leur format ou technologies de traitement.
- D’offrir aux utilisateurs métier l’accès à la connaissance de la donnée et à son utilisation.
- D’accélérer l'acculturation de la gouvernance de la donnée au sein de votre entreprise grâce à la virtualisation de données
- De valoriser, les bénéfices d’un guichet unique d’accès à la donnée et à la connaissance.
Analytics & Machine Learning avec la Data VirtualizationDenodo
Watch full webinar here: [https://buff.ly/2ZaQk8S]
La data science avancée, telle que le machine learning, se révèle être un outil extrêmement utile pour tirer des informations et de la valeur des données existantes. Cependant, une grande partie des ressources (comme les data scientists) se voit affectée à la recherche des bonnes données et à leur préparation.
Dans ce nouveau webinar en français, nous vous montrerons comment utiliser la virtualisation des données pour obtenir les informations souhaitées de manière plus efficace et plus agile.
Rejoignez ce webinar le 6 juin pour découvrir:
*Comment la data virtualisation accélère l’acquisition et le traitement des données
*Comment la plateforme Denodo pour la virtualisation des données s'intègre à des outils tels que Spark, Python, Zeppelin, etc.
*Comment la virtualisation des données permet de gérer plus efficacement de gros volumes de données
*Cas client & démo
Session découverte de la Data VirtualizationDenodo
Watch full webinar here: https://bit.ly/38mIuTp
Denodo vous propose une session virtuelle pour découvrir la Data Virtualization. Quel que soit votre rôle, responsable IT, architecte, data scientist, analyste ou CDO, vous découvrirez comment Denodo Platform, la plateforme leader en data intégration, data management et livraison de données en temps réel permet d'accéder à tout type de source de données pour en tirer de la valeur.
Session découverte de la Data VirtualizationDenodo
Watch full webinar here: https://bit.ly/3s2RovD
Denodo vous propose une session virtuelle pour découvrir la Data Virtualization. Quel que soit votre rôle, responsable IT, architecte, data scientist, analyste ou CDO, vous découvrirez comment la Data Virtualization permet de livrer des données en temps réel et accéder à tout type de source de données pour en tirer de la valeur.
EXL Group, cabinet de conseil en technologies Analytiques, Numériques et Digitales.
Nos équipes multi-spécialistes réunissent des experts en conseils, technologies ou encore méthodes éprouvées pour vous proposer des prestations optimales pour vos Systèmes d’Information. En favorisant et récompensant la prise d’initiative, l’esprit entrepreneurial, nous plaçons chaque collaborateur au cœur de chaque projet . Nous travaillons donc tout autant sur votre satisfaction que sur celles de nos équipes.
Big Data Des méandres des outils au potentiel businessMouhsine LAKHDISSI
Une présentation du Big Data faite dans le cadre des Open Source Days à l'ENSA de Khouribga. Elle traite du potentiel business et des opportunités qui peuvent être crées par le Big Data dans différents domaines métier avec un apperçu également sur les outils et les techniques associées
Dans un contexte où la transmission et l'installation d'agriculteurs sont des enjeux cruciaux pour la profession agricole, de nouveaux agriculteurs s'installent chaque année et, parmi eux, certains Bac+5 ou plus. Les cursus des écoles d'ingénieurs n'ont pas vocation à former de futurs agriculteurs. Pourtant, certains apprenants ayant suivi ces cursus BAC + 5, qu'ils soient ou non issus du milieu agricole, tentent l'aventure de l'entrepreneuriat agricole. Qui sont-ils ? Quelles sont leurs motivations et visions ? Comment travaillent-ils ?
Novascope Télécoms et Réseaux Informatiques en BtoB 2023Enov
Depuis 1996, nous mesurons la digitalisation des entreprises françaises grâce à notre observatoire Novascope Télécoms et Réseaux informatiques en B2B. Découvrez quelques résultats exclusifs de la vague 2023.
2. Amal ABID – Cours GI3 ENIS 2
Plan du cours
• Chapitre 1: Introduction à Big Data
• Chapitre 2: Hadoop
– Généralité
– Architecture HDFS
– Algorithme MapRduce
– Installation et configuration Hadoop (TP inclus)
• Chapitre 3: Utilisation de Hadoop
– Manipulation de HDFS
– Développement d’une application MapReduce
– TP inclus
• Chapitre 4: Spark
– TP inclus
• Chapitre 5: NoSQL
• Chapitre 6: HBase, MangoDB
– TP inclus
3. Amal ABID – Cours GI3 ENIS 3
Chapitre 1
Introduction à Big Data
4. • La notion de Big Data est un concept s’étant popularisé en
2012 pour traduire le fait que les entreprises sont confrontées à
des volumes de données à traiter de plus en plus considérables
et présentant un fort enjeux commercial et marketing.
• Ces Grosses Données en deviennent difficiles à travailler avec
des outils classiques de gestion de base de données.
• Il s’agit donc d’un ensemble de technologies, d’architecture,
d’outils et de procédures permettant à une organisation de
très rapidement capter, traiter et analyser de larges
quantités et contenus hétérogènes et changeants, et d’en
extraire les informations pertinentes à un coût accessible.
BIG DATA: Définition
4Amal ABID – Cours GI3 ENIS
5. 5
BIG DATA: Caractéristiques
• COUVERTURE DE CINQ DIMENSIONS - 5Vs (1/2)
Gartner (2001) – 3Vs
IBM (2012) – 4Vs
2015 : encore plus de V
VOLUME VARIETE VELOCITE
VOLUME VARIETE VELOCITE VERACITE
VALEUR
6. 6
BIG DATA: Caractéristiques
• COUVERTURE DE CINQ DIMENSIONS - 5Vs (2/2)
2016 : 7V ?
2017 : 10V ?
VOLUME VARIETE VELOCITE
VOLUME VARIETE VELOCITE VERACITE
VARIABILITÉ VISUALISATION
Amal ABID – Cours GI3 ENIS
7. 7
BIG DATA: Caractéristiques
• COUVERTURE DE CINQ DIMENSIONS - 5Vs (1/7)
– Volume (1/2)
• Croissance sans cesse des données à gérer de tout type, souvent en teraoctets voir
en petaoctets.
• Chaque jour, 2.5 trillions d’octets de données sont générées.
• 90% des données créées dans le monde l’ont été au cours des 2 dernières
années (2014).
• Prévision d’une croissance de 800% des quantités de données à traiter d’ici à 5 ans.
Amal ABID – Cours GI3 ENIS
8. 8
BIG DATA: Caractéristiques
• COUVERTURE DE CINQ DIMENSIONS - 5Vs (2/7)
– Volume (2/2)
• 4,4 zettaoctets de données
= 4,4 trillion de gigaoctets
• En 2013, il y a autant de données que les étoiles connues dans tout l'univers.
• 44 zettaoctets de données
= 44 milliards gigaoctets
• 62 fois le nombre de tous les sables dans
toutes les plages de la terre.
Amal ABID – Cours GI3 ENIS
9. 9
BIG DATA: Caractéristiques
• COUVERTURE DE CINQ DIMENSIONS - 5Vs (3/7)
– Variété
• Traitement des données sous forme structurée (bases de données structurée,
feuilles de calcul venant de tableur, …) et non structurée (textes, sons, images,
vidéos, données de capteurs, fichiers journaux, medias sociaux, signaux,…) qui
doivent faire l’objet d’une analyse collective.
• Diversité des données
Variété
10. BIG DATA: Caractéristiques
• COUVERTURE DE CINQ DIMENSIONS - 5Vs (4/7)
– Vitesse (Velocity)
• Utilisation des données en temps réel (pour la détection de fraudes, analyse des
données, …).
• Fait référence à la vitesse à laquelle de nouvelles données sont générées et la
vitesse à laquelle les données sont traitées par le système pour être bien analysées.
• La technologie nous permet maintenant d'analyser les données pendant qu’elles
sont générées, sans jamais mettre en bases de données.
• Streaming Data
des centaines par seconde
• 100 Capteurs
dans chaque voiture moderne pour la surveillance
10Amal ABID – Cours GI3 ENIS
11. BIG DATA: Caractéristiques
• COUVERTURE DE CINQ DIMENSIONS - 5Vs (5/7)
– Véracité
• Fait référence à la qualité de la fiabilité et la confiance des données.
• Données bruités, imprécises, prédictives, …
• La génération des données par Spambots est un exemple digne de confiance.
L’élection présidentielle de 2012 au Mexique avec de faux comptes Twitter.
• DES MILLIONS DE DOLLARS $ PAR AN
Ce que la pauvre qualité des données coute pour
l’économie des Etats-Unis.
• 1 à 3 CHEFS D'ENTREPRISE
Ne font pas confiance à l'information qu'ils utilisent.
11Amal ABID – Cours GI3 ENIS
12. BIG DATA: Caractéristiques
• COUVERTURE DE CINQ DIMENSIONS - 5Vs (6/7)
– Valeur
• La démarche Big Data n’a de sens que pour atteindre des objectifs stratégiques de
création de valeur pour les clients et pour l’entreprise; dans tous les domaines
d’activité : commerce, industrie, services …
• Le succès d’un projet Big Data n'a d'intérêt aux utilisateurs que s'il apporte de la
valeur ajoutée et de nouvelles connaissances.
12Amal ABID – Cours GI3 ENIS
13. BIG DATA: Caractéristiques
• COUVERTURE DE CINQ DIMENSIONS - 5Vs (7/7)
13Amal ABID – Cours GI3 ENIS
5 Vs du
Big Data
15. 15
BIG DATA: Généralités
• DIVERSITE ET VOLUME DES SOURCES DE DONNEES (2/4)
Amal ABID – Cours GI3 ENIS
2016
2017
16. 16
BIG DATA: Généralités
• DIVERSITE ET VOLUME DES SOURCES DE DONNEES (3/4)
– Outils numériques plus performants et plus connectés:
ordinateurs et smartphones
– Open Data
• Réseaux sociaux: facebook
• Données d’administrations publiques
– Internet des Objets
• RFID (cartes de transport, codes bar, …)
• Ericsson a estimé le nombre d’objets connectés dans le monde à 50 milliards en
2020 (12 milliards en 2013)
Amal ABID – Cours GI3 ENIS
19. 19
BIG DATA: Généralités
• Quel est le problème posé par ces énormes quantités de données?
Auparavant, quand les systèmes d'application de gestion de base de données
ont été réalisés, ils ont été construits avec une échelle à l'esprit (limité). Même
les organisations n'ont pas été préparées à l'échelle que nous produisons
aujourd'hui.
Comme les exigences de ces organisations ont augmenté au fil du temps, ils
doivent repenser et réinvestir dans l'infrastructure. Actuellement, le coût des
ressources impliquées dans l'extension de l'infrastructure, s’augmente avec
un facteur exponentiel.
De plus, il y aurait une limitation sur les différents facteurs tels que la taille de
la machine, CPU, RAM, etc. qui peuvent être mis à l'échelle (scaled up). Ces
systèmes traditionnels ne seraient pas en mesure de soutenir l'échelle requise
par la plupart des entreprises.
Amal ABID – Cours GI3 ENIS
20. 20
BIG DATA: Généralités
• ADAPTABILITE
Dans ce nouveau contexte, les méthodes de traitement de ces données
(capture, stockage, recherche, partage, analyse, visualisation) doivent être
redéfinies car l’ensemble de ces données deviennent difficilement
manipulables par les outils classiques.
Amal ABID – Cours GI3 ENIS
21. • Comment le Big Data gère ces situations complexes? (1/3)
• La plupart des outils et des frameworks de Big Data sont construits en gardant
à l'esprit les caractéristiques suivantes :
- La distribution des données: Le grand ensemble de données est divisé en
morceaux ou en petits blocs et réparti sur un nombre N de nœuds ou de machines.
Ainsi les données sont réparties sur plusieurs noeuds et sont prêtes au traitement
parallèle. Dans le monde du Big Data, ce type de distribution des données est réalisé à
l'aide d'un Système de Fichiers Distribués - DFS (Distributed File System).
21
BIG DATA: Généralités
Amal ABID – Cours GI3 ENIS
22. • Comment le Big Data gère ces situations complexes? (2/3)
- Le traitement en parallèle : Les données distribuées obtiennent la puissance de N
nombre de serveurs et de machines dont les données résident. Ces serveurs
travaillent en parallèle pour le traitement et l'analyse. Après le traitement, les
données sont fusionnées pour le résultat final recherché.
(Actuellement ce processus est réalisé par MapReduce de Google qui sera détaillé
dans une section ultérieure).
- La tolérance aux pannes: En général, nous gardons la réplique d'un seul bloc (ou
chunk) de données plus qu'une fois. Par conséquent, même si l'un des serveurs ou
des machines est complètement en panne, nous pouvons obtenir nos données à
partir d'une autre machine ou d’un autre « data center ». Encore une fois, nous
pouvons penser que la réplication de données pourrait coûter beaucoup d'espace.
Mais voici le quatrième point de la rescousse.
22
BIG DATA: Généralités
Amal ABID – Cours GI3 ENIS
23. • Comment le Big Data gère ces situations complexes? (3/3)
- L'utilisation de matériel standard : La plupart des outils et des frameworks Big
Data ont besoin du matériel standard pour leur travail. Donc nous n'avons pas
besoin de matériel spécialisé avec un conteneur spécial des données « RAID ».
Cela réduit le coût de l'infrastructure totale.
- Flexibilité, évolutivité et scalabilité : Il est assez facile d'ajouter de plus en plus
de nœuds dans le cluster quand la demande pour l'espace augmente. De plus, la
façon dont les architectures de ces frameworks sont faites, convient très bien le
scénario de Big Data.
23
BIG DATA: Généralités
Amal ABID – Cours GI3 ENIS
24. • Exemple Simple (1/4)
- Analyser une data set de 1TB
24
BIG DATA: Généralités
Amal ABID – Cours GI3 ENIS
25. • Exemple Simple (2/4)
- Temps d’accès
25
BIG DATA: Généralités
Amal ABID – Cours GI3 ENIS
26. • Exemple Simple (3/4)
26
BIG DATA: Généralités
Amal ABID – Cours GI3 ENIS
Temps d’accès (lecture) > 2h
Temps de calcul ~ 1h
Bande passante du réseau etc
+
+
> 3h
27. • Exemple Simple (4/4)
27
BIG DATA: Généralités
Amal ABID – Cours GI3 ENIS
- Division d’un fichier de 1TB en 100 bloques égaux
- Lecture Parallèle
Temps de lecture = 150 min / 100 < 2min
Temps de calcul = 60 min / 100 < 1 min
28. • PERSPECTIVES ET DOMAINES D ’APPLICATION
• Les perspectives d’utilisation de ces données sont énormes, notamment pour
l’analyse d’opinions politiques, de tendance industrielles, la génomique, la
lutte contre la criminalité et la fraude, les méthodes de marketing publicitaire
et de vente etc …
28
BIG DATA: Généralités
30. 30
BIG DATA: Généralités
• Cas d’utilisation : Santé (2/2)
• Analyse des données globales des patients et des résultats pour comparer
l'efficacité des différentes interventions.
• Analyse des résultats de santé d’une population pour prévoir les maladies et
les épidémies, savoir les causes environnementales et prendre les prévention
nécessaire dans les stages primaires.
• Déploiement de systèmes d'aide à la décision clinique pour améliorer
l'efficacité et la qualité des opérations.
• Télésurveillance des patients. La collecte de données pour les patients
souffrants de maladies chroniques et l'analyse des données résultant pour
surveiller la conformité et pour améliorer les futures options de médicaments
et de traitement.
Amal ABID – Cours GI3 ENIS
31. 31
BIG DATA: Généralités
• Cas d’utilisation : Marketing (1/2)
• Plus d’intelligence pour plus de ventes.
• Analyse prédictive : En analysant l’historique des achats du client ou les
fichiers Logs qui contiennent les pages visitées, l’entreprise peut prévoir ce
que le client cherche et les mettre dans les zones des offres et publicités afin
d’augmenter les achats.
• Analyse des sentiments : De Nombreuses sociétés utilisent les échanges sur
les réseaux sociaux comme le reflet de l’opinion publique. Celle-ci devient une
nouvelle source d’informations en temps réel directement fournie par le
consommateur. Les questions d’e-réputation « à quoi est associée mon image ?
» ou « comment est accueilli le nouveau produit que je viens de lancer ? »
peuvent être analysées avec ces données. Le Big Data permet de prendre le
pouls quasiment en direct, mesurer l’impact de sa marque, savoir comment est
perçue la société par le public et anticiper les mauvaises critiques.
Amal ABID – Cours GI3 ENIS
32. 32
BIG DATA: Généralités
• Cas d’utilisation : Marketing (2/2)
• Analyse des comportements : L’analyse du comportement des clients en
magasin permet d’améliorer l’aménagement du magasin, le mix produit et la
disposition des produits dans les rayons et sur les étagères. Les dernières
innovations ont également permis de suivre les habitudes d’achat (compter le
nombre de pas effectués et le temps passé dans chaque rayon du magasin),
géolocaliser en temps réel les clients,.... Les données issues des tickets de
caisse, captées depuis longtemps, peuvent maintenant être analysées et
révèlent les habitudes d’achat des clients.
Amal ABID – Cours GI3 ENIS
33. 33
BIG DATA: Généralités
• Cas d’utilisation : Analyse de tweets en temps réel
Amal ABID – Cours GI3 ENIS
34. 34
BIG DATA: Généralités
• Cas d’utilisation : Politique
• L’analyse de Big Data a joué un rôle important dans la campagne de ré-
élection de Barack Obama, notamment pour analyser les opinions politiques de
la population.
• Depuis l'année 2012, le Département de la défense américain investit
annuellement sur les projets de Big Data plus de 250 millions de dollars.
• Le gouvernement américain possède six des dix plus puissants
supercalculateurs de la planète.
• La National Security Agency est actuellement en train de construire le Utah
Data Center. Une fois terminé, ce data center pourra supporter des yottaoctets
d’information collectés par la NSA sur internet.
• En 2014, SIGMA conseil a utilisé le Big Data pour donner l’estimation du
résultat de vote préliminaire en Tunisie.
Amal ABID – Cours GI3 ENIS
35. 35
BIG DATA: Généralités
• Cas d’utilisation : Sport (1/2)
La première source de données recueillie s’appuie sur des capteurs intégrés
aux protège-tibias ou aux chaussures. Ces minuscules composants remontent
des informations biométriques sur les joueurs :
la distance parcourue
les vitesses en sprint
les accélérations
le nombre de ballons touchés
le rythme cardiaque, etc.
A terme et quand l’analyse en temps réel sera réellement possible, on peut très
bien imaginer qu’une alerte remonte lorsqu’un joueur fatigue afin que
l’entraîneur le remplace.
Amal ABID – Cours GI3 ENIS
36. 36
BIG DATA: Généralités
• Cas d’utilisation : Sport (2/2)
Une deuxième source de récolte de données provient de caméras installées en
hauteur autour du terrain. Tous les déplacements des joueurs et leurs positions
les uns par rapport aux autres sont ainsi filmés et enregistrés. Lors de son
débriefing, le tacticien peut ainsi comparer plusieurs fois par match la position
géométrique de son équipe au moment des temps forts, quand l’équipe se
montre offensive, s’ouvre des occasions et marque des buts.
Le tacticien a également la capacité d’analyser le comportement de son équipe
en fonction de la réaction de l’équipe concurrente. Ces données peuvent
ensuite être agrégées avec d’autres sources telles que l’historique des matchs
joués ou les données recueillies pendant les entraînements.
Amal ABID – Cours GI3 ENIS
37. Aujourd’hui, avec le Big Data, la vidéosurveillance va beaucoup plus loin : elle permet
d’analyser automatiquement les images et les situations, de croiser les informations, et
d’envoyer des alertes.
Cette analyse de vidéo avancée est utilisée en particulier pour :
o la sécurité du trafic (routier, ferroviaire, maritime et aérien)
o la protection des espaces et des bâtiments publics
o la sécurité personnelle.
Il est aujourd’hui possible à travers l’analyse des images vidéo de faire de :
o la reconnaissance d’objets et de mouvements
o la lecture de plaques minéralogiques
o la détection de véhicule non autorisé
o la reconnaissance faciale
o l’auto-surveillance avec possibilité de déclenchement d’alertes ou autres actions
automatisées.
37
BIG DATA: Généralités
• Cas d’utilisation : Sécurité publique (1/2)
Amal ABID – Cours GI3 ENIS
38. 38
BIG DATA: Généralités
• Cas d’utilisation : Sécurité publique (2/2)
Amal ABID – Cours GI3 ENIS
A titre d’exemple la ville de Londres avait, quant à elle, mis en place un système de
reconnaissance faciale lors des jeux olympiques de 2012 organisés dans la capitale, afin de
lutter contre le terrorisme pour lequel l’alerte était à son maximum.
39. 39
BIG DATA: Acteurs et Solutions
• Les grands acteurs du web tel que Google, Yahoo, Facebook,
Twitter, LinkedIn … ont été les premiers à être confrontés à des
volumétries de données extrêmement importantes et ont été à
l’origine des premières innovations en la matière portées
principalement sur deux types de technologies :
1. Les plateformes de développement et de traitement
des données (GFS, Hadoop, Spark,…) [chapitre 2-3-4]
2. Les bases de données (NoSql) [chapitre 5-6]
Amal ABID – Cours GI3 ENIS
40. • Historique : Big Data, Google : Le système de fichier GFS
• Pour stocker son index grandissant quelle solution pour Google ?
1. Utilisation d’un SGBDR ?
Problème de distribution des données
Problème du nombre d’utilisateurs
Problème de Vitesse du moteur de recherche
2. Invention d’un nouveau système propriétaire : GFS ( Google File
Système) en 2003
40
BIG DATA: Historique
Amal ABID – Cours GI3 ENIS
41. • Historique : Big Data, Google : Le système de fichier GFS
41
BIG DATA: Historique
Amal ABID – Cours GI3 ENIS
42. • Historique : Big Data, Comment exploiter ce système de fichier ?
• La notion de Big Data est intimement lié à la capacité de traitements de
gros volumes.
- Le premier Article a été publié en 2004 : Jeffrey Dean and Sanjay
Ghemawat
MapReduce : Simplified Data Processing on Large Clusters
- C’est un algorithme inventé par Google, Inc afin de distribuer des
traitements sur un ensemble de machines avec le système GFS.
- Google possède aujourd'hui plus de 1 000 0000 de serveurs
interconnectés dans le monde.
42
BIG DATA: Historique
Amal ABID – Cours GI3 ENIS
43. 43
BIG DATA: Les Acteurs de l’Open Source
• Les contributeurs de l’implémentation Libre et Open Source :
• Ces entreprises ont décidé d’ouvrir leurs développements internes
au monde Open Source.
• Un certains nombre de ces technologies comme « Hadoop » et
« Spark » font partie de la fondation Apache et ont été intégrés
aux offres de « Big Data » des grands acteurs tel que IBM,
Oracle, Microsoft, EMC …
Amal ABID – Cours GI3 ENIS
44. 44
BIG DATA: Plateforme – Technologies - Outils
Société Technologie
développée
Type de technologie
Google Big Table Système de base de données distribuée propriétaire reposant sur
GFS (Google File System). Technologie non Open Source, mais qui a
inspiré Hbase qui est Open Source.
MapReduce Plate-forme de développement pour traitements distribués
Yahoo Hadoop Plateforme Java destinée aux applications distribuées et à la gestion
intensive des données. Issue à l’origine de GFS et MapReduce.
S4 Plateforme de développement dédiée aux applications de
traitement continu de flux de données.
Facebook Cassandra Base de données de type NoSQL et distribuée.
Hive Logiciel d’analyse de données utilisant Hadoop.
Twitter Storm Plateforme de traitement de données massives.
FockDB Base de données distribuée de type graphe.
LinkedIn SenseiDB Base de données temps réel distribuée et semi-structurée.
Voldemort Base de données distribuée destinée aux très grosses volumétries.
Tableau : Quelques technologies Open Source du Big Data
51. 51
BIG DATA: Conclusion
• Nous sommes actuellement dans l'ère de la production massive de données.
D'une part, les applications génèrent des données issues des logs, des réseaux
de capteurs, des rapports de transactions, des traces de GPS, etc. et d'autre part,
les individus produisent des données telles que des photographies, des vidéos,
des musiques ou encore des données sur l'état de santé (rythme cardiaque,
pression ou poids).
• Un problème se pose alors quant au stockage et à l'analyse des données. La
capacité de stockage des disques durs augmente mais le temps de lecture croît
également. Il devient alors nécessaire de paralléliser les traitements en stockant
sur plusieurs machines.
• Plusieurs solutions, inspirées des solutions de Google, ont été proposées.
Hadoop est la solution la plus répondue au monde de BigData. Cette solution
sera détaillée dans le chapitre suivant.
Amal ABID – Cours GI3 ENIS
52. 52
Sources
• Cours
Big Data Analytics – Lesson 1: What is Big Data , IBM, Big Data
University
Intro to Hadoop and MapReduce , Coursera, Udacity
• Articles
“Data scientist : The sexiest Job of the 21th Century” T.H. Davenport, DJ.
Patil, Harvard Business Review.
Bernard Marr, “Big Data: The 5 Vs Everyone Must Know”, LinkedIn
• Livres
Hadoop: The Definitive Guide, Tom White, O'Reilly Media.
Amal ABID – Cours GI3 ENIS