SlideShare une entreprise Scribd logo
1  sur  24
Télécharger pour lire hors ligne
Cours Big Data – Chapitre I II3 - Mastère
Enseignante : R. CHEBIL 1
Module Big Data
ASSURÉ ET PRÉPARÉ PAR RAOUDHA CHEBIL
Plan général
1. Introduction aux Big Data
2. Hadoop et HDFS
3. Approche de Traitement MapReduce
4. Traitement Avancé Big Data
5. NOSQL
6. Architectures Big Data
2
1
2
Cours Big Data – Chapitre I II3 - Mastère
Enseignante : R. CHEBIL 2
Introduction aux Big Data
DR. RAOUDHA CHEBIL ENSI
Plan
 Constats
 Définition
 Les 3V et les V supplémentaires
 Bénéfices et challenges
 Exemples d’applications
 Traitement des données
 Etapes d’un projet Big Data
 Domaines connexes
 Nouveaux métiers
4
3
4
Cours Big Data – Chapitre I II3 - Mastère
Enseignante : R. CHEBIL 3
Constats
Explosion des données issues de plusieurs
sources :
 Réseaux sociaux ;
 Signaux GPS de téléphones mobiles ;
 Radio identification (RFID tags) ;
 Logs ;
 Capteurs utilisés pour collecter des informations
climatiques, de trafic et de consommation ;
 Transactions d’achat en ligne.
5
Constats
6
Chaque jour nous générons 2,5 exaoctets de
données soit 912,5 exaoctets par an.
En 2018, on estime que 90% des données disponibles
dans le monde ont été créées pendant les deux
dernières années.
5
6
Cours Big Data – Chapitre I II3 - Mastère
Enseignante : R. CHEBIL 4
Constats
7
7
4.5 milliards d’utilisateurs
internet en 2019
Source: www.internetworldstats.com
Twitter : 500 millions de
tweets chaque jour
Source : planetscope.com
Chaque jour :
Plus de 500 TO de nouvelles
données
2.7 milliards de « j’aime »
300 millions de photos chargées
70000 requêtes demandées
Source : lemondeinformatique.fr
Constats
• Chefs d’entreprise prennent fréquemment des
décisions basées sur des informations en lesquelles ils
n’ont pas confiance, ou qu’ils n’ont pas.
1/3
• Chefs d’entreprise disent qu’ils n’ont pas accès aux
informations dont ils ont besoin pour faire leur
travail.
1/2
• Des DSI (Directeurs des SI) veulent exploiter «
L’informatique décisionnelle et analytique » pour
améliorer leur compétitivité
83%
• Des PDG ont besoin d’améliorer la capture et la
compréhension des informations pour prendre
des décisions plus rapidement.
60%
8
7
8
Cours Big Data – Chapitre I II3 - Mastère
Enseignante : R. CHEBIL 5
Constats
Intérêt de stocker, d’analyser et d’exploiter
ces données
9
Définition
Big Data = Grosses données = Méga données =
Données massives
Big Data : ensemble de données massives ayant une
structure variée et complexe avec des difficultés
de stockage, d'analyse et de visualisation.
10
9
10
Cours Big Data – Chapitre I II3 - Mastère
Enseignante : R. CHEBIL 6
Définition
11
IOPS(Input/Output Operations Per Second)
Bénéfices
 Créer du sens et des connaissances à partir de données non
enrichies et non structurées ;
 Aider les décideurs à prendre les « bonnes » décisions au bon
moment ;
 Analyser des tendances sur la durée ;
 Permettre la création de modèle sur des données ambiantes ;
 Prédire des phénomènes, des comportements…
12
11
12
Cours Big Data – Chapitre I II3 - Mastère
Enseignante : R. CHEBIL 7
Challenges
 Réunir un grand volume de données variées pour
trouver de nouvelles idées.
 Capturer des données créées rapidement.
 Sauvegarder toutes ces données.
 Traiter ces données et les utiliser.
13
Les 3V du Big data
14
Volume Variété
Vitesse
13
14
Cours Big Data – Chapitre I II3 - Mastère
Enseignante : R. CHEBIL 8
Volume
En une minute, il y a sur internet :
30h de vidéos
204 millions d’e-mails
300 mille tweets
Données numériques créées dans le monde :
1,2 zettaoctets/an en 2010
1,8 zettaoctets/an en 2011
2,8 zettaoctets/an en 2012
40 zettaoctets/an en 2020
15
Volume
Quelles données doivent être stockées ?
Transactions? Logs? Métier? Utilisateur? Capteurs? Médicales?
Sociales?
Aucune donnée n’est inutile.
Certaines n’ont juste pas encore servi.
Problèmes :
Comment stocker les données dans un endroit fiable, qui soit
moins cher ?
Comment parcourir ces données et en extraire des
informations facilement et rapidement?
16
15
16
Cours Big Data – Chapitre I II3 - Mastère
Enseignante : R. CHEBIL 9
Variété
Données structurées
◦ Schéma prédéfini imposé aux données
◦ Très structurées
◦ Stockées dans un système de base de données
relationnel.
17
20% des données
Variété
Données semi-structurées
◦ XML, SGML,. . .
◦ Tweets
◦ BibTeX
◦ Les logs
18
17
18
Cours Big Data – Chapitre I II3 - Mastère
Enseignante : R. CHEBIL 10
Variété
Données non-structurées
Les données ne sont pas organisées
◦ Multimédia : vidéos, photos, audio
◦ Messages emails
◦ Texte libre
◦ Présentations
◦ Rapports
◦ . . .
19
Vitesse (Vélocité)
o Plusieurs données sont générées rapidement et ont
besoin d’être traitées rapidement.
o Le défi consiste à gérer, analyser, visualiser et
découvrir les connaissances à partir des données
recueillies en temps opportun et de manière évolutive.
o Décisions en retard opportunités ratées
20
19
20
Cours Big Data – Chapitre I II3 - Mastère
Enseignante : R. CHEBIL 11
Vitesse
E-Promotions : selon votre localisation actuelle,
votre historique d’achat, ce que vous aimez envoi
de promotions dans les magasins de votre entourage.
Suivi santé : capteurs surveillants vos activités et
votre corps des mesures anormales exigent une
réaction immédiate
21
Les V supplémentaires…
Véracité
o Proposée par IBM
o Avec l’augmentation de la quantité, la qualité et la
précision des données diminuent.
o Les solutions big data doivent remédier à cela.
o Besoin d’une grande rigueur dans la collecte,
l’enrichissement et le croisement des données.
22
21
22
Cours Big Data – Chapitre I II3 - Mastère
Enseignante : R. CHEBIL 12
Les V supplémentaires…
Valeur
o La valeur ajoutée des données ou des informations
extraites
o Il faut transformer les données en valeurs exploitables
o Sans une réelle valeur, ce n’est qu’un gaspillage de
ressources
23
Les V supplémentaires…
Visualisation
Représentation des données sous formes intelligentes,
pratiques et interactives
24
23
24
Cours Big Data – Chapitre I II3 - Mastère
Enseignante : R. CHEBIL 13
Les V supplémentaires…
Variabilité
Les données ont une signification en
perpétuelle évolution : lol, émoticônes,…
25
Technologies Big Data
26
Plusieurs technologies Big Data classées selon leurs objectifs :
25
26
Cours Big Data – Chapitre I II3 - Mastère
Enseignante : R. CHEBIL 14
Exemples d’applications
Ressources humaines et recrutement :
 Méthode utilisée surtout par les cabinets de recrutement et les
grands groupes afin de mieux cibler les candidats au
recrutement.
 Etablir un profil type de candidat pour chaque poste.
 Récolter les données à partir des réseaux sociaux (LinkedIn,
Google +, Facebook et Twitter) et des bases de données en
ligne.
 A l’aide des outils d’analyse, établir des profils permettant
de repérer les candidats potentiels en amont d’un
recrutement.
27
Exemples d’applications
Marketing prédictif
 Nouvelles méthodes permettant de bien cibler les clients.
 Collecter les données à partir des sources disponibles :
• Dans le cas où les données possédées ne sont pas suffisantes, il
est possible d’acheter des BD existantes ou d’utiliser l’open data.
 Effectuer une analyse approfondie des clients et de
l’efficacité des campagnes réalisées.
 Augmenter l’efficacité des campagnes en personnalisant
les offres.
28
27
28
Cours Big Data – Chapitre I II3 - Mastère
Enseignante : R. CHEBIL 15
Exemples d’applications
Maintenance prédictive
 Méthode utilisée dans le milieu industriel pour réduire les
coûts de maintenance des équipements.
 Installation de capteurs sur les machines.
 Utiliser les données récuperées pour planifier l’entretien de
celles-ci.
 Cette méthode sera de plus en plus facile avec l’essor des
objets connectés.
29
Exemples d’applications
Santé
Les solutions Big Data révolutionnent la recherche dans le
domaine de la santé :
Mieux traquer les agents pathogènes :
◦ Surveiller les maladies infectieuses ;
◦ Alerte en cas d’épidémie : grippe, infections alimentaires
(salmonelloses, listérioses…), rage, méningites bactériennes...
La génomique : reine du big data :
◦ Réduction considérable des coûts du séquençage du génome
humain !
Analyse d’images médicales ou de microscopie
30
29
30
Cours Big Data – Chapitre I II3 - Mastère
Enseignante : R. CHEBIL 16
Exemples d’applications
 Détection de fraudes
 Réduction de crimes
 Surveillance
31
Traitement des données
Trois grandes classes :
 Traitement descriptif : que s’est-il passé ?
 Traitement prédictif : que va-t-il se passer ?
 Traitement prescriptif : comment faire pour que ça
se passe ?
32
31
32
Cours Big Data – Chapitre I II3 - Mastère
Enseignante : R. CHEBIL 17
Etapes d’un projet Big Data
Etape 1 : Identifier et collecter les données
En amont de tout projet Big Data, il faut identifier les sources
de données les plus pertinentes et collecter les données
Attention il ne faut pas investir dans des informations dont le coût de
traitement est plus élevé que leur valeur potentielle.
Etape 2 : Nettoyage de données
Convertir les données pour les analyser = générer des vues
structurées
33
Etapes d’un projet Big Data
Etape 3 : Travail ad-hoc
Analyser les données avec des outils divers SQL, R, Python
pour bâtir des modèles
Etape 4 : Evaluation
Etape 5 : Industrialisation
Peaufiner les algorithmes
Automatiser les traitements et les méthodes de visualisation
Les placer sur un gestionnaire de cluster
34
33
34
Cours Big Data – Chapitre I II3 - Mastère
Enseignante : R. CHEBIL 18
Nouveaux métiers
Chief Data Officer
◦ Responsable de l’acquisition des données ;
◦ Identification de fournisseurs possibles de données, sensibilisation,
négociation et acquisition ;
◦ Pilote et contribue à la stratégie Big Data de l’entreprise.
Data Architect
◦ Elabore l’infrastructure technique permettant de gérer d’énormes
volumes de données.
Data Scientist
◦ Construit des algorithmes permettant d’extraire des informations
pertinentes et utiles à partir des masses de données non structurées ;
◦ Doit poser les bonnes questions!
35
Nouveaux métiers
Data Analyst
◦ C’est un spécialiste du métier pour lequel on met en œuvre des initiatives
Big Data
◦ Réceptionne, analyse et consolide les données reçues du Data Scientist
Data Visualizer
◦ Marie l’art à la donnée ;
◦ Présente l’information, sous forme de graphiques ou d’images, de façon
compréhensible et efficace fournissant un outil précieux surtout pour
l’aide à la décision.
36
35
36
Cours Big Data – Chapitre I II3 - Mastère
Enseignante : R. CHEBIL 19
Le revers de la médaille…
 Sécurité des données : risques d’intrusions!
 Exploitations illégales des données!
 Respect de nos vies privées ?!
 Respect du secret médical dans le domaine de la
santé ?
 Pertinence de toutes les décisions prises
automatiquement ?
Nécessité de surveiller l’exploitation des données
massives pour éviter les dérives.
37
Plusieurs domaines connexes…
38
Data mining Data science
Machine
Learning
Business
Intelligence
Big Data
37
38
Cours Big Data – Chapitre I II3 - Mastère
Enseignante : R. CHEBIL 20
Informatique décisionnelle :
Ensemble de méthodes, de moyens et d'outils informatiques
utilisés pour piloter une entreprise et aider à la prise de
décision : tableaux de bord, rapports analytiques et
prospectifs.
Big Data :
Utilisation de statistiques inférentielles sur des données à
faible densité en information dont le grand volume permet
d’inférer des lois donnant lieu à des capacités prédictives,
descriptives ou prespcriptives.
39
BI vs Big Data
BI vs Big Data
40
Responsables
Métier
Responsables
IT
Déterminer quelles questions poser
Structurer les données pour
répondre à ces questions
Responsables
IT
Responsables
Métier
Fournir une plateforme pour
permettre la découverte créative
Explorer la plateforme pour déterminer
quelles questions poser
39
40
Cours Big Data – Chapitre I II3 - Mastère
Enseignante : R. CHEBIL 21
Data Mining
Famille d'outils permettant l'exploration et l'analyse des
données contenues au sein d'une base décisionnelle de type
Data Warehouse ou DataMart.
 Permet de trouver des structures originales et des corrélations
informelles entre les données => Extraire des informations
significatives depuis de grandes quantités de données.
Permet de mieux comprendre les liens entre des phénomènes
en apparence distincts et d'anticiper des tendances
difficilement détectables.
41
Data Science
 Science de la donnée
 Discipline récente en pleine évolution
 Bâtit ses outils et concepts sur le data mining = data mining
massif!
 Analyser les données de façon à détecter des agrégats, des
liens, des informations =>répondre à des questions, bâtir des
modèles…
42
41
42
Cours Big Data – Chapitre I II3 - Mastère
Enseignante : R. CHEBIL 22
Machine Learning
 Va au-delà du data mining et de la data science.
 S’appuie sur des algorithmes afin de traiter les données et
d’apprendre des règles au fur et à mesure.
 La prise de décision se fait de manière automatique.
43
DS-ML
44
https://fr.blog.businessdecision.com/methode-crisp-la-cle-de-la-reussite-en-data-science/
43
44
Cours Big Data – Chapitre I II3 - Mastère
Enseignante : R. CHEBIL 23
DM versus ML
Data mining Machine learning
1960 1980 : grâce au jeu de dames
développé par un des pionniers du
« Computer Gaming » : Arthur
Samuel.
Consiste à extraire d’un grand
volume de données, les
informations les plus utiles pour
détecter des corrélations cachées
entre données ou des tendances.
Il est utilisé par des humains
Une fois triées, les données
peuvent aider le Machine Learning
dans sa tâche de formation des
systèmes informatisés pour la
réalisation de tâches complexes,
sans avoir besoin
d’intervention humaine.
DM versus ML
Data mining Machine learning
Le Data Mining puise ses
informations dans des réserves de
données.
Le Machine Learning fonctionne
avec des algorithmes.
Le Data Mining ne peut ni
apprendre ni s'adapter.
Il suit des règles prédéfinies et est
statique.
L’intérêt de l’apprentissage
automatique c’est d’apprendre. Il
ajuste les algorithmes au fur et à
mesure que les bonnes
circonstances se manifestent.
La DM est aussi intelligente que les
utilisateurs qui entrent les
paramètres.
Le ML signifie que les ordinateurs
deviennent plus intelligents.
45
46
Cours Big Data – Chapitre I II3 - Mastère
Enseignante : R. CHEBIL 24
DM versus ML
En termes simples, le Data Mining est une ressource sur
laquelle le Machine Learning peut compter pour accomplir ses
fonctions.
L’intervention humaine est presque absente lorsqu’il s’agit du
Machine Learning par contre elle est importante dans le Data
Mining.
Plusieurs termes à comprendre
et à différencier…
48
Rack server
Data center
Cluster
47
48

Contenu connexe

Tendances

Cours Big Data Chap2
Cours Big Data Chap2Cours Big Data Chap2
Cours Big Data Chap2Amal Abid
 
Thinking Big - Big data: principes et architecture
Thinking Big - Big data: principes et architecture Thinking Big - Big data: principes et architecture
Thinking Big - Big data: principes et architecture Lilia Sfaxi
 
Cours Big Data Chap4 - Spark
Cours Big Data Chap4 - SparkCours Big Data Chap4 - Spark
Cours Big Data Chap4 - SparkAmal Abid
 
BigData_Chp2: Hadoop & Map-Reduce
BigData_Chp2: Hadoop & Map-ReduceBigData_Chp2: Hadoop & Map-Reduce
BigData_Chp2: Hadoop & Map-ReduceLilia Sfaxi
 
BigData_Chp4: NOSQL
BigData_Chp4: NOSQLBigData_Chp4: NOSQL
BigData_Chp4: NOSQLLilia Sfaxi
 
TP1 Big Data - MapReduce
TP1 Big Data - MapReduceTP1 Big Data - MapReduce
TP1 Big Data - MapReduceAmal Abid
 
BigData_TP1: Initiation à Hadoop et Map-Reduce
BigData_TP1: Initiation à Hadoop et Map-ReduceBigData_TP1: Initiation à Hadoop et Map-Reduce
BigData_TP1: Initiation à Hadoop et Map-ReduceLilia Sfaxi
 
Big Data : concepts, cas d'usage et tendances
Big Data : concepts, cas d'usage et tendancesBig Data : concepts, cas d'usage et tendances
Big Data : concepts, cas d'usage et tendancesJean-Michel Franco
 
BigData_Chp3: Data Processing
BigData_Chp3: Data ProcessingBigData_Chp3: Data Processing
BigData_Chp3: Data ProcessingLilia Sfaxi
 
Cours Big Data Chap5
Cours Big Data Chap5Cours Big Data Chap5
Cours Big Data Chap5Amal Abid
 
Big Data, Hadoop & Spark
Big Data, Hadoop & SparkBig Data, Hadoop & Spark
Big Data, Hadoop & SparkAlexia Audevart
 
Introduction à la big data V2
Introduction à la big data V2Introduction à la big data V2
Introduction à la big data V2Mehdi TAZI
 
Installation hadoopv2.7.4-amal abid
Installation hadoopv2.7.4-amal abidInstallation hadoopv2.7.4-amal abid
Installation hadoopv2.7.4-amal abidAmal Abid
 
Big data - Cours d'introduction l Data-business
Big data - Cours d'introduction l Data-businessBig data - Cours d'introduction l Data-business
Big data - Cours d'introduction l Data-businessVincent de Stoecklin
 

Tendances (20)

Big data
Big dataBig data
Big data
 
Big data
Big dataBig data
Big data
 
Cours Big Data Chap2
Cours Big Data Chap2Cours Big Data Chap2
Cours Big Data Chap2
 
Chapitre 2 hadoop
Chapitre 2 hadoopChapitre 2 hadoop
Chapitre 2 hadoop
 
Thinking Big - Big data: principes et architecture
Thinking Big - Big data: principes et architecture Thinking Big - Big data: principes et architecture
Thinking Big - Big data: principes et architecture
 
Cours Big Data Chap4 - Spark
Cours Big Data Chap4 - SparkCours Big Data Chap4 - Spark
Cours Big Data Chap4 - Spark
 
BigData_Chp2: Hadoop & Map-Reduce
BigData_Chp2: Hadoop & Map-ReduceBigData_Chp2: Hadoop & Map-Reduce
BigData_Chp2: Hadoop & Map-Reduce
 
Introduction au BIG DATA
Introduction au BIG DATAIntroduction au BIG DATA
Introduction au BIG DATA
 
BigData_Chp4: NOSQL
BigData_Chp4: NOSQLBigData_Chp4: NOSQL
BigData_Chp4: NOSQL
 
TP1 Big Data - MapReduce
TP1 Big Data - MapReduceTP1 Big Data - MapReduce
TP1 Big Data - MapReduce
 
BigData_TP1: Initiation à Hadoop et Map-Reduce
BigData_TP1: Initiation à Hadoop et Map-ReduceBigData_TP1: Initiation à Hadoop et Map-Reduce
BigData_TP1: Initiation à Hadoop et Map-Reduce
 
Big Data : concepts, cas d'usage et tendances
Big Data : concepts, cas d'usage et tendancesBig Data : concepts, cas d'usage et tendances
Big Data : concepts, cas d'usage et tendances
 
BigData_Chp3: Data Processing
BigData_Chp3: Data ProcessingBigData_Chp3: Data Processing
BigData_Chp3: Data Processing
 
Etude sur le Big Data
Etude sur le Big DataEtude sur le Big Data
Etude sur le Big Data
 
Cours Big Data Chap5
Cours Big Data Chap5Cours Big Data Chap5
Cours Big Data Chap5
 
Hadoop
HadoopHadoop
Hadoop
 
Big Data, Hadoop & Spark
Big Data, Hadoop & SparkBig Data, Hadoop & Spark
Big Data, Hadoop & Spark
 
Introduction à la big data V2
Introduction à la big data V2Introduction à la big data V2
Introduction à la big data V2
 
Installation hadoopv2.7.4-amal abid
Installation hadoopv2.7.4-amal abidInstallation hadoopv2.7.4-amal abid
Installation hadoopv2.7.4-amal abid
 
Big data - Cours d'introduction l Data-business
Big data - Cours d'introduction l Data-businessBig data - Cours d'introduction l Data-business
Big data - Cours d'introduction l Data-business
 

Similaire à Chapitre i-intro

Introduction au datamining partiel 1.pdf
Introduction au datamining partiel 1.pdfIntroduction au datamining partiel 1.pdf
Introduction au datamining partiel 1.pdfamarasidibeavm
 
Big data et marketing digital
Big data et marketing digital Big data et marketing digital
Big data et marketing digital Hamza Sossey
 
Valorisez votre business grâce au Big Data - Mois du numérique 2017
Valorisez votre business grâce au Big Data - Mois du numérique 2017Valorisez votre business grâce au Big Data - Mois du numérique 2017
Valorisez votre business grâce au Big Data - Mois du numérique 2017Cyril Marsaud
 
Dep 2015 projets big data & dq 20151126 v1.3
Dep 2015 projets big data & dq 20151126 v1.3Dep 2015 projets big data & dq 20151126 v1.3
Dep 2015 projets big data & dq 20151126 v1.3Hervé Husson
 
Doxa inter2019-le big data:outil d'aide à la décision
Doxa inter2019-le big data:outil d'aide à la décisionDoxa inter2019-le big data:outil d'aide à la décision
Doxa inter2019-le big data:outil d'aide à la décisionDOXACONSEILRHetFORMA
 
Big data-2-170220212621
Big data-2-170220212621Big data-2-170220212621
Big data-2-170220212621Haifa Akermi
 
Arrow Group: Techday Big Data - Etat et Enjeu pour l'Assurance
Arrow Group: Techday Big Data - Etat et Enjeu pour l'AssuranceArrow Group: Techday Big Data - Etat et Enjeu pour l'Assurance
Arrow Group: Techday Big Data - Etat et Enjeu pour l'AssuranceArrow Group
 
#NSD14 - La sécurité autour du Big Data
#NSD14 - La sécurité autour du Big Data#NSD14 - La sécurité autour du Big Data
#NSD14 - La sécurité autour du Big DataNetSecure Day
 
Big Data Des méandres des outils au potentiel business
Big Data   Des méandres des outils au potentiel businessBig Data   Des méandres des outils au potentiel business
Big Data Des méandres des outils au potentiel businessMouhsine LAKHDISSI
 
Doxa inter2019-la datascience au service de la décision stratégique
Doxa inter2019-la datascience au service de la décision stratégiqueDoxa inter2019-la datascience au service de la décision stratégique
Doxa inter2019-la datascience au service de la décision stratégiqueDOXACONSEILRHetFORMA
 
Bluemix Paris Meetup : Big data et Analytics - 15 avril 2015
Bluemix Paris Meetup :  Big data et Analytics - 15 avril 2015Bluemix Paris Meetup :  Big data et Analytics - 15 avril 2015
Bluemix Paris Meetup : Big data et Analytics - 15 avril 2015IBM France Lab
 
Big data analytics focus technique et nouvelles perspectives pour les actuaires
Big data analytics focus technique et nouvelles perspectives pour les actuairesBig data analytics focus technique et nouvelles perspectives pour les actuaires
Big data analytics focus technique et nouvelles perspectives pour les actuairesKezhan SHI
 
Ecosystème Big Data
Ecosystème Big DataEcosystème Big Data
Ecosystème Big DataIdriss22
 
quelles sont les tendances de la business intelligence en 2021
quelles sont les tendances de la business intelligence en 2021quelles sont les tendances de la business intelligence en 2021
quelles sont les tendances de la business intelligence en 2021france
 
Introduction au BigData.pdf
Introduction au BigData.pdfIntroduction au BigData.pdf
Introduction au BigData.pdfZkSadrati
 
Introduction au BigData.pdf
Introduction au BigData.pdfIntroduction au BigData.pdf
Introduction au BigData.pdfZkSadrati
 

Similaire à Chapitre i-intro (20)

Introduction au Big data
Introduction au Big data Introduction au Big data
Introduction au Big data
 
Introduction au datamining partiel 1.pdf
Introduction au datamining partiel 1.pdfIntroduction au datamining partiel 1.pdf
Introduction au datamining partiel 1.pdf
 
Big data et marketing digital
Big data et marketing digital Big data et marketing digital
Big data et marketing digital
 
Introduction
IntroductionIntroduction
Introduction
 
Valorisez votre business grâce au Big Data - Mois du numérique 2017
Valorisez votre business grâce au Big Data - Mois du numérique 2017Valorisez votre business grâce au Big Data - Mois du numérique 2017
Valorisez votre business grâce au Big Data - Mois du numérique 2017
 
Dep 2015 projets big data & dq 20151126 v1.3
Dep 2015 projets big data & dq 20151126 v1.3Dep 2015 projets big data & dq 20151126 v1.3
Dep 2015 projets big data & dq 20151126 v1.3
 
Doxa inter2019-le big data:outil d'aide à la décision
Doxa inter2019-le big data:outil d'aide à la décisionDoxa inter2019-le big data:outil d'aide à la décision
Doxa inter2019-le big data:outil d'aide à la décision
 
Big data-2-170220212621
Big data-2-170220212621Big data-2-170220212621
Big data-2-170220212621
 
Arrow Group: Techday Big Data - Etat et Enjeu pour l'Assurance
Arrow Group: Techday Big Data - Etat et Enjeu pour l'AssuranceArrow Group: Techday Big Data - Etat et Enjeu pour l'Assurance
Arrow Group: Techday Big Data - Etat et Enjeu pour l'Assurance
 
#NSD14 - La sécurité autour du Big Data
#NSD14 - La sécurité autour du Big Data#NSD14 - La sécurité autour du Big Data
#NSD14 - La sécurité autour du Big Data
 
Big Data Des méandres des outils au potentiel business
Big Data   Des méandres des outils au potentiel businessBig Data   Des méandres des outils au potentiel business
Big Data Des méandres des outils au potentiel business
 
Doxa inter2019-la datascience au service de la décision stratégique
Doxa inter2019-la datascience au service de la décision stratégiqueDoxa inter2019-la datascience au service de la décision stratégique
Doxa inter2019-la datascience au service de la décision stratégique
 
Bluemix Paris Meetup : Big data et Analytics - 15 avril 2015
Bluemix Paris Meetup :  Big data et Analytics - 15 avril 2015Bluemix Paris Meetup :  Big data et Analytics - 15 avril 2015
Bluemix Paris Meetup : Big data et Analytics - 15 avril 2015
 
big-data-2.pptx
big-data-2.pptxbig-data-2.pptx
big-data-2.pptx
 
big-data3.pptx
big-data3.pptxbig-data3.pptx
big-data3.pptx
 
Big data analytics focus technique et nouvelles perspectives pour les actuaires
Big data analytics focus technique et nouvelles perspectives pour les actuairesBig data analytics focus technique et nouvelles perspectives pour les actuaires
Big data analytics focus technique et nouvelles perspectives pour les actuaires
 
Ecosystème Big Data
Ecosystème Big DataEcosystème Big Data
Ecosystème Big Data
 
quelles sont les tendances de la business intelligence en 2021
quelles sont les tendances de la business intelligence en 2021quelles sont les tendances de la business intelligence en 2021
quelles sont les tendances de la business intelligence en 2021
 
Introduction au BigData.pdf
Introduction au BigData.pdfIntroduction au BigData.pdf
Introduction au BigData.pdf
 
Introduction au BigData.pdf
Introduction au BigData.pdfIntroduction au BigData.pdf
Introduction au BigData.pdf
 

Chapitre i-intro

  • 1. Cours Big Data – Chapitre I II3 - Mastère Enseignante : R. CHEBIL 1 Module Big Data ASSURÉ ET PRÉPARÉ PAR RAOUDHA CHEBIL Plan général 1. Introduction aux Big Data 2. Hadoop et HDFS 3. Approche de Traitement MapReduce 4. Traitement Avancé Big Data 5. NOSQL 6. Architectures Big Data 2 1 2
  • 2. Cours Big Data – Chapitre I II3 - Mastère Enseignante : R. CHEBIL 2 Introduction aux Big Data DR. RAOUDHA CHEBIL ENSI Plan  Constats  Définition  Les 3V et les V supplémentaires  Bénéfices et challenges  Exemples d’applications  Traitement des données  Etapes d’un projet Big Data  Domaines connexes  Nouveaux métiers 4 3 4
  • 3. Cours Big Data – Chapitre I II3 - Mastère Enseignante : R. CHEBIL 3 Constats Explosion des données issues de plusieurs sources :  Réseaux sociaux ;  Signaux GPS de téléphones mobiles ;  Radio identification (RFID tags) ;  Logs ;  Capteurs utilisés pour collecter des informations climatiques, de trafic et de consommation ;  Transactions d’achat en ligne. 5 Constats 6 Chaque jour nous générons 2,5 exaoctets de données soit 912,5 exaoctets par an. En 2018, on estime que 90% des données disponibles dans le monde ont été créées pendant les deux dernières années. 5 6
  • 4. Cours Big Data – Chapitre I II3 - Mastère Enseignante : R. CHEBIL 4 Constats 7 7 4.5 milliards d’utilisateurs internet en 2019 Source: www.internetworldstats.com Twitter : 500 millions de tweets chaque jour Source : planetscope.com Chaque jour : Plus de 500 TO de nouvelles données 2.7 milliards de « j’aime » 300 millions de photos chargées 70000 requêtes demandées Source : lemondeinformatique.fr Constats • Chefs d’entreprise prennent fréquemment des décisions basées sur des informations en lesquelles ils n’ont pas confiance, ou qu’ils n’ont pas. 1/3 • Chefs d’entreprise disent qu’ils n’ont pas accès aux informations dont ils ont besoin pour faire leur travail. 1/2 • Des DSI (Directeurs des SI) veulent exploiter « L’informatique décisionnelle et analytique » pour améliorer leur compétitivité 83% • Des PDG ont besoin d’améliorer la capture et la compréhension des informations pour prendre des décisions plus rapidement. 60% 8 7 8
  • 5. Cours Big Data – Chapitre I II3 - Mastère Enseignante : R. CHEBIL 5 Constats Intérêt de stocker, d’analyser et d’exploiter ces données 9 Définition Big Data = Grosses données = Méga données = Données massives Big Data : ensemble de données massives ayant une structure variée et complexe avec des difficultés de stockage, d'analyse et de visualisation. 10 9 10
  • 6. Cours Big Data – Chapitre I II3 - Mastère Enseignante : R. CHEBIL 6 Définition 11 IOPS(Input/Output Operations Per Second) Bénéfices  Créer du sens et des connaissances à partir de données non enrichies et non structurées ;  Aider les décideurs à prendre les « bonnes » décisions au bon moment ;  Analyser des tendances sur la durée ;  Permettre la création de modèle sur des données ambiantes ;  Prédire des phénomènes, des comportements… 12 11 12
  • 7. Cours Big Data – Chapitre I II3 - Mastère Enseignante : R. CHEBIL 7 Challenges  Réunir un grand volume de données variées pour trouver de nouvelles idées.  Capturer des données créées rapidement.  Sauvegarder toutes ces données.  Traiter ces données et les utiliser. 13 Les 3V du Big data 14 Volume Variété Vitesse 13 14
  • 8. Cours Big Data – Chapitre I II3 - Mastère Enseignante : R. CHEBIL 8 Volume En une minute, il y a sur internet : 30h de vidéos 204 millions d’e-mails 300 mille tweets Données numériques créées dans le monde : 1,2 zettaoctets/an en 2010 1,8 zettaoctets/an en 2011 2,8 zettaoctets/an en 2012 40 zettaoctets/an en 2020 15 Volume Quelles données doivent être stockées ? Transactions? Logs? Métier? Utilisateur? Capteurs? Médicales? Sociales? Aucune donnée n’est inutile. Certaines n’ont juste pas encore servi. Problèmes : Comment stocker les données dans un endroit fiable, qui soit moins cher ? Comment parcourir ces données et en extraire des informations facilement et rapidement? 16 15 16
  • 9. Cours Big Data – Chapitre I II3 - Mastère Enseignante : R. CHEBIL 9 Variété Données structurées ◦ Schéma prédéfini imposé aux données ◦ Très structurées ◦ Stockées dans un système de base de données relationnel. 17 20% des données Variété Données semi-structurées ◦ XML, SGML,. . . ◦ Tweets ◦ BibTeX ◦ Les logs 18 17 18
  • 10. Cours Big Data – Chapitre I II3 - Mastère Enseignante : R. CHEBIL 10 Variété Données non-structurées Les données ne sont pas organisées ◦ Multimédia : vidéos, photos, audio ◦ Messages emails ◦ Texte libre ◦ Présentations ◦ Rapports ◦ . . . 19 Vitesse (Vélocité) o Plusieurs données sont générées rapidement et ont besoin d’être traitées rapidement. o Le défi consiste à gérer, analyser, visualiser et découvrir les connaissances à partir des données recueillies en temps opportun et de manière évolutive. o Décisions en retard opportunités ratées 20 19 20
  • 11. Cours Big Data – Chapitre I II3 - Mastère Enseignante : R. CHEBIL 11 Vitesse E-Promotions : selon votre localisation actuelle, votre historique d’achat, ce que vous aimez envoi de promotions dans les magasins de votre entourage. Suivi santé : capteurs surveillants vos activités et votre corps des mesures anormales exigent une réaction immédiate 21 Les V supplémentaires… Véracité o Proposée par IBM o Avec l’augmentation de la quantité, la qualité et la précision des données diminuent. o Les solutions big data doivent remédier à cela. o Besoin d’une grande rigueur dans la collecte, l’enrichissement et le croisement des données. 22 21 22
  • 12. Cours Big Data – Chapitre I II3 - Mastère Enseignante : R. CHEBIL 12 Les V supplémentaires… Valeur o La valeur ajoutée des données ou des informations extraites o Il faut transformer les données en valeurs exploitables o Sans une réelle valeur, ce n’est qu’un gaspillage de ressources 23 Les V supplémentaires… Visualisation Représentation des données sous formes intelligentes, pratiques et interactives 24 23 24
  • 13. Cours Big Data – Chapitre I II3 - Mastère Enseignante : R. CHEBIL 13 Les V supplémentaires… Variabilité Les données ont une signification en perpétuelle évolution : lol, émoticônes,… 25 Technologies Big Data 26 Plusieurs technologies Big Data classées selon leurs objectifs : 25 26
  • 14. Cours Big Data – Chapitre I II3 - Mastère Enseignante : R. CHEBIL 14 Exemples d’applications Ressources humaines et recrutement :  Méthode utilisée surtout par les cabinets de recrutement et les grands groupes afin de mieux cibler les candidats au recrutement.  Etablir un profil type de candidat pour chaque poste.  Récolter les données à partir des réseaux sociaux (LinkedIn, Google +, Facebook et Twitter) et des bases de données en ligne.  A l’aide des outils d’analyse, établir des profils permettant de repérer les candidats potentiels en amont d’un recrutement. 27 Exemples d’applications Marketing prédictif  Nouvelles méthodes permettant de bien cibler les clients.  Collecter les données à partir des sources disponibles : • Dans le cas où les données possédées ne sont pas suffisantes, il est possible d’acheter des BD existantes ou d’utiliser l’open data.  Effectuer une analyse approfondie des clients et de l’efficacité des campagnes réalisées.  Augmenter l’efficacité des campagnes en personnalisant les offres. 28 27 28
  • 15. Cours Big Data – Chapitre I II3 - Mastère Enseignante : R. CHEBIL 15 Exemples d’applications Maintenance prédictive  Méthode utilisée dans le milieu industriel pour réduire les coûts de maintenance des équipements.  Installation de capteurs sur les machines.  Utiliser les données récuperées pour planifier l’entretien de celles-ci.  Cette méthode sera de plus en plus facile avec l’essor des objets connectés. 29 Exemples d’applications Santé Les solutions Big Data révolutionnent la recherche dans le domaine de la santé : Mieux traquer les agents pathogènes : ◦ Surveiller les maladies infectieuses ; ◦ Alerte en cas d’épidémie : grippe, infections alimentaires (salmonelloses, listérioses…), rage, méningites bactériennes... La génomique : reine du big data : ◦ Réduction considérable des coûts du séquençage du génome humain ! Analyse d’images médicales ou de microscopie 30 29 30
  • 16. Cours Big Data – Chapitre I II3 - Mastère Enseignante : R. CHEBIL 16 Exemples d’applications  Détection de fraudes  Réduction de crimes  Surveillance 31 Traitement des données Trois grandes classes :  Traitement descriptif : que s’est-il passé ?  Traitement prédictif : que va-t-il se passer ?  Traitement prescriptif : comment faire pour que ça se passe ? 32 31 32
  • 17. Cours Big Data – Chapitre I II3 - Mastère Enseignante : R. CHEBIL 17 Etapes d’un projet Big Data Etape 1 : Identifier et collecter les données En amont de tout projet Big Data, il faut identifier les sources de données les plus pertinentes et collecter les données Attention il ne faut pas investir dans des informations dont le coût de traitement est plus élevé que leur valeur potentielle. Etape 2 : Nettoyage de données Convertir les données pour les analyser = générer des vues structurées 33 Etapes d’un projet Big Data Etape 3 : Travail ad-hoc Analyser les données avec des outils divers SQL, R, Python pour bâtir des modèles Etape 4 : Evaluation Etape 5 : Industrialisation Peaufiner les algorithmes Automatiser les traitements et les méthodes de visualisation Les placer sur un gestionnaire de cluster 34 33 34
  • 18. Cours Big Data – Chapitre I II3 - Mastère Enseignante : R. CHEBIL 18 Nouveaux métiers Chief Data Officer ◦ Responsable de l’acquisition des données ; ◦ Identification de fournisseurs possibles de données, sensibilisation, négociation et acquisition ; ◦ Pilote et contribue à la stratégie Big Data de l’entreprise. Data Architect ◦ Elabore l’infrastructure technique permettant de gérer d’énormes volumes de données. Data Scientist ◦ Construit des algorithmes permettant d’extraire des informations pertinentes et utiles à partir des masses de données non structurées ; ◦ Doit poser les bonnes questions! 35 Nouveaux métiers Data Analyst ◦ C’est un spécialiste du métier pour lequel on met en œuvre des initiatives Big Data ◦ Réceptionne, analyse et consolide les données reçues du Data Scientist Data Visualizer ◦ Marie l’art à la donnée ; ◦ Présente l’information, sous forme de graphiques ou d’images, de façon compréhensible et efficace fournissant un outil précieux surtout pour l’aide à la décision. 36 35 36
  • 19. Cours Big Data – Chapitre I II3 - Mastère Enseignante : R. CHEBIL 19 Le revers de la médaille…  Sécurité des données : risques d’intrusions!  Exploitations illégales des données!  Respect de nos vies privées ?!  Respect du secret médical dans le domaine de la santé ?  Pertinence de toutes les décisions prises automatiquement ? Nécessité de surveiller l’exploitation des données massives pour éviter les dérives. 37 Plusieurs domaines connexes… 38 Data mining Data science Machine Learning Business Intelligence Big Data 37 38
  • 20. Cours Big Data – Chapitre I II3 - Mastère Enseignante : R. CHEBIL 20 Informatique décisionnelle : Ensemble de méthodes, de moyens et d'outils informatiques utilisés pour piloter une entreprise et aider à la prise de décision : tableaux de bord, rapports analytiques et prospectifs. Big Data : Utilisation de statistiques inférentielles sur des données à faible densité en information dont le grand volume permet d’inférer des lois donnant lieu à des capacités prédictives, descriptives ou prespcriptives. 39 BI vs Big Data BI vs Big Data 40 Responsables Métier Responsables IT Déterminer quelles questions poser Structurer les données pour répondre à ces questions Responsables IT Responsables Métier Fournir une plateforme pour permettre la découverte créative Explorer la plateforme pour déterminer quelles questions poser 39 40
  • 21. Cours Big Data – Chapitre I II3 - Mastère Enseignante : R. CHEBIL 21 Data Mining Famille d'outils permettant l'exploration et l'analyse des données contenues au sein d'une base décisionnelle de type Data Warehouse ou DataMart.  Permet de trouver des structures originales et des corrélations informelles entre les données => Extraire des informations significatives depuis de grandes quantités de données. Permet de mieux comprendre les liens entre des phénomènes en apparence distincts et d'anticiper des tendances difficilement détectables. 41 Data Science  Science de la donnée  Discipline récente en pleine évolution  Bâtit ses outils et concepts sur le data mining = data mining massif!  Analyser les données de façon à détecter des agrégats, des liens, des informations =>répondre à des questions, bâtir des modèles… 42 41 42
  • 22. Cours Big Data – Chapitre I II3 - Mastère Enseignante : R. CHEBIL 22 Machine Learning  Va au-delà du data mining et de la data science.  S’appuie sur des algorithmes afin de traiter les données et d’apprendre des règles au fur et à mesure.  La prise de décision se fait de manière automatique. 43 DS-ML 44 https://fr.blog.businessdecision.com/methode-crisp-la-cle-de-la-reussite-en-data-science/ 43 44
  • 23. Cours Big Data – Chapitre I II3 - Mastère Enseignante : R. CHEBIL 23 DM versus ML Data mining Machine learning 1960 1980 : grâce au jeu de dames développé par un des pionniers du « Computer Gaming » : Arthur Samuel. Consiste à extraire d’un grand volume de données, les informations les plus utiles pour détecter des corrélations cachées entre données ou des tendances. Il est utilisé par des humains Une fois triées, les données peuvent aider le Machine Learning dans sa tâche de formation des systèmes informatisés pour la réalisation de tâches complexes, sans avoir besoin d’intervention humaine. DM versus ML Data mining Machine learning Le Data Mining puise ses informations dans des réserves de données. Le Machine Learning fonctionne avec des algorithmes. Le Data Mining ne peut ni apprendre ni s'adapter. Il suit des règles prédéfinies et est statique. L’intérêt de l’apprentissage automatique c’est d’apprendre. Il ajuste les algorithmes au fur et à mesure que les bonnes circonstances se manifestent. La DM est aussi intelligente que les utilisateurs qui entrent les paramètres. Le ML signifie que les ordinateurs deviennent plus intelligents. 45 46
  • 24. Cours Big Data – Chapitre I II3 - Mastère Enseignante : R. CHEBIL 24 DM versus ML En termes simples, le Data Mining est une ressource sur laquelle le Machine Learning peut compter pour accomplir ses fonctions. L’intervention humaine est presque absente lorsqu’il s’agit du Machine Learning par contre elle est importante dans le Data Mining. Plusieurs termes à comprendre et à différencier… 48 Rack server Data center Cluster 47 48