SlideShare une entreprise Scribd logo
1  sur  41
Télécharger pour lire hors ligne
Big Data
Données massives
Prof. Karim Baïna
karim.baina@gmail.com
Professeur d'Enseignement Supérieur
ENSIAS,
Université Mohammed V de Rabat, Maroc
Co-responsable du Diplôme Universitaire « Big Data Scientist »
Chef du Département Génie Logiciel
Responsable du Service de Coopération
Semaine Culturelle, 17-20 Mai 2016
Faculté des Sciences de Kénitra, Université
Ibn Tofaïl
© Karim Baïna 2016 2
Big Data – Contexte
Big Data – L'univers digital devient de
plus en plus large et interconnecté
© IBM
(10^12)
© Karim Baïna 2016 4
Big Data – Perception du Volume
de l'univers digital
Lune
Terre
2/3 6,6x
TeraB (10**12 B) → PetaB (10**15 B) → ExaB (10**18 B) → ZetaB (10**21 B)
© Karim Baïna 2016 5
Big Data 4 V
● VOLUME
– 90% des données universelles ont été créées durant les 5 dernières années
– de 2013 à 2020, la taille de l'univers digital sera multipliée par 10 de 4.4 trillion (10**12) GB à 44 trillion
– La taille de l'univers digital plus que double chaque 2 ans
● VELOCITY (Fréquence de production de la donnée)
– 6 Milliard de téléphones portables dans le monde (sur 8 Milliard de population)
– Une voiture moderne embarque plus de 100 capteurs
– 200 Million de compteurs intelligents, 30 Billion (10**12) Tag RFID, 420 Million de capteurs médicaux
– 2,3 Trillion (10**12) GB de données sont générées chaque jours dans le monde
● VARIETY
● 80% des données universelles sont non-structurées (inexploitables par les systèmes traditionnels)
● VERACITY
● Il y a entre 30 % – 80 % followers fictifs sur twitter (selon la popularité du compte)
– La circulation des hoax (canulars), spam, fake post est reprise (retwittée) plus que les démentis.
Doug Laney, « 3D Data Management: Controlling Data Volume, Velocity, and Variety. », 2001 research report, META Group (now Gartner)
Samsung 16TB
(Technologie SSD)
Le plus large HD
© Karim Baïna 2016 6
Réponses aux 4 V
● VELOCITE
– Collecte des données réactive à la fréquence de leur arrivée
– Réponse on time (ponctuelle) pas nécessairement « temps réel »
● VOLUME
– stockage réparti sur un réseau de machines (cloud)
– calculs parallèles sur les données réparties (grid)
● VARIETE
– Prise en charge des données brutes [non|semi| ]-structurées et multi-
format (texte|..|matrice|graphe|image|audio|vidéo)
● VERACITE
– Traçabilité de la provenance, assurance de la vérifiabilité en dédoublant les
sources de données, adoption d'un plan de qualité des données
© Karim Baïna 2016 7
Big Data -
conséquence de la maturité et la
démocratisation de plusieurs disciplines
● Grid Computing : Calcul parallèle & distribué, de haute performance (HPC)
● Cloud Computing : Capacité de stockage infini, réparti et sécurisé,
fragmentation/réplication
● Internet of Things (IoT) : Informatique ambiante (UC), Informatique mobile, Multitudes
de devices connectés, plages d’adressage latge (IPV6)
– Exemples : tout objet pingable (caméra, capteur, etc.) présente des web services façades,
voiture comme ordinateur ambulant, télé-maintenance proactive, traçabilité (RFID), tracking
par GPS, etc.
● Web 3.0 (Social, Sémantique)
● SNA (Social Network Analysis)
● Data Management : SQL, Bases de données réparties, Bases de données XML, Objets,
etc. NoSQL, DWH (data warehousing), BI (Business Intelligence)
● All In Memory : Mémoire à forte capacité, Disque flash SSD, les bases de données se
chargent en mémoire et tous les calculs se font en mémoire sans besoin d'accès HD
● NLP (Natural Language Processing)
© Karim Baïna 2016 8
Big Data - Étude de cas
● Sécurité du citoyen : La ville de Chicago é pu réduire le crime
et améliorer la sécurité des citoyens grâce une plateforme
geospatiale analytique temps réel (WindyGrid utilisant
MongoDB). Elle analyse des données depuis plus de 30
différent départements – localisations des bus, appels 911, et
même des Tweets afin de mieux comprendre et réagir face aux
urgences.
Sécurité routière
Circulation routière
© Karim Baïna 2016 9
Big Data - Étude de cas
● Analyse de Sentiment : Une organisation ne peut pas
rester juste indifférente à l'égard d'une crise de réactions
sur un réseau social (ex. Twitter) plus de 30 min par ex.
L'analyse temps réelle fournit un moyen d'alerter si les
sentiments sur Twitter autour d'un problème la concernant
tournent au vinaigre.
Analyse de satisfaction du client /
perception du citoyen
© Karim Baïna 2016 10
Big Data - Étude de cas
● Analyse temps réel de churn (taux d'attrition) :
L'analyse temps réel fournit une meilleure perception
de l'engagement actuel du client, et améliore la
détection du moement critique ou un client décide de
partir ou de rester.
Recommending system
© Karim Baïna 2016 11
Big Data - Étude de cas
● Traitement des échanges boursiers : des secondes de grandes valeurs peut être
éliminées du temps de réactions des entreprises financières. Il est possible d'agir sur
la base de nouvelles informations en temps réel, comme le rapport national de
l'emploi (Current Employment Statistics – CES by Bureau of Labor Statistics – BLS)
édité le premier vendredi de chaque mois. Le négoce à base de ce rapport
génarelement commence après 10 seconds de sa publication sur le web.
Recommending system
© Karim Baïna 2016 12
Big Data - Étude de cas
● Recommandation de services/produits : Plus que Facebook qui
vous proposent des amis ou des thèmes, Amazon exploite les
données sur les produits pour lesquels vous (ou vos ressemblants)
êtes réellement passer au paiement pour vous les proposer. Les
psychologues parlent du pouvoir de suggestion – mettre quelque
chose que quelqu'un pourrait vouloir l'une devant l'autre pourrait
créer une envie irrésistible d'achat indépendamment de la réelle
nécessité du produit.
systèmes de recommandation
© Karim Baïna 2016 13
Big Data - Étude de cas
Recommending system
Catastrophes naturelles
...
Sécurité territoriale
épidémiologie
© Karim Baïna 2016 14
Big Data – Sources de
données
© Karim Baïna 2016 15
Variété Big Data -
multitude des formats de données
● Données brutes non-structurées
– Texte brute en langage naturel
– Modèle multimédia (images-audio-vidéo)
● Données semi-structurées
– Hybridation d'une structure macro flexible avec un contenu non structuré,
ex. Logs, e-mails, EDI, données de capteurs
● Données structurées
– Modèle relationnel (tables, csv/tsv)
– Modèle orienté colonnes (Matrices creuses avec données manquantes ou
optionnelles)
– Modèle associatif (Clés-Valeurs)
– Modèle arborescent (XML, JSON,... avec respect d'une structure DTD/schema)
– Modèle de graphes (RDF,...)
– ..
Panama Papers 11,5 Million de documents multi-format
© Karim Baïna 2016 16
Big Data – Stockage de
données
© Karim Baïna 2016 17
Variété Big Data -
multitude des formats de données
● Modèle relationnel
– Hive, Impala
● Matrices creuses (via clé-valeur)
– HBase, Redis
● Modèle de Document (en JSON)
– MongoDB, Couchbase
● Modèle de Graphe
– Neo4J, Giraph
● ...
© Karim Baïna 2016 18
Big Data – Traitement des
données
© Karim Baïna 2016 19
Big Data -
3 Stratégies de traitement – 1/3
● Analyse synchrone en lots sur des données réparties (synchronous batch
processing « data-intensive »)
● Les traitements (en lots) sont décomposés, transportés vers les machines
stockant les données distribuées « data locality » et persistance sur disque
des résultats intermédiaires
● Le volume des données (en PétaOctets 10^15 Octets) et la complexité des
calculs sont plus importants que la fréquence des calculs (en milliers). Et
les traitements parallèles ne partagent pas des données seulement des
résultats intermédiaires.
● Toute Optimisation du calcul et donc raccourcissement du temps de
réponse est importante vis à vis du client. La data locality est donc
prioritaire.
● Les temps de réponse varient entre quelques minutes à quelques heures
© Karim Baïna 2016 20
Big Data -
Le principe du synchronous batch
processing
© Karim Baïna 2016 21
Big Data -
3 Stratégies de traitement – 2/3
● Analyse en quasi-temps réel des données en
mémoire (in memory, micro-batching)
● Les traitements (en lots) sont décomposés,
transportés vers les machines stockant les
données distribuées « data locality » et persistance
en mémoire des résultats intermédiaires
● Les temps de réponse varient de quelques
secondes à quelques minutes
Micro-Batch in memory Batch in memory
© Karim Baïna 2016 22
Big Data -
Le principe du synchronous batch in
memory
Batch in memory
© Karim Baïna 2016 23
Big Data -
Le principe du micro-batching in
memory
Micro-Batch in memory
© Karim Baïna 2016 24
Big Data -
3 Stratégies de traitement – 3/3
● Analyse temps Réel des données en mouvement
(Real Time Analysis Processing – RTAP, Complex
Event Processing – CEP)
● Les données (événements) arrivent vers les calculs et
sont traitées à la volée avant même d'être stockées
● Les traitements peuvent accueillir plusieurs millions
d'événements par seconde (Velocity)
● Les temps de réponse ne doivent pas dépasser
quelques secondes
© Karim Baïna 2016 25
Big Data -
Le principe du real time analysis
processing
● Analyse temps Réel des données en mouvement
(Real Time Analysis Processing – RTAP, Complex
Event Processing – CEP)
Pattern recognition/correlation/scoring rules
© Karim Baïna 2016 26
Big Data Map Reduce vs
Grid Computing
● Analyse asynchrone en lots sur des données réparties
(asynchronous batch processing « compute-intensive »)
● Les traitements (en lots) sont distribuées en parallèle sur des
serveurs et les données sont envoyées à ces serveurs pour
traitement, la data locality n'est pas prioritaire !!
● La fréquence des calculs (en millions) prévaut sur le volume
des données. Et les traitements parallèles peuvent partager
des données sur le réseau.
● Le client n'attend pas le résultat, il est notifié quand c'est prêt
● Les temps de réponse varient entre plusieurs heures à
quelques jours
© Karim Baïna 2016 27
Vue globale de l'architecture
Big Data
Real Time Processing
Big Data Zone
ata
ke
© Karim Baïna 2016 28
Big Data – Visualisation de
données « Dataviz »
© Karim Baïna 2016 29
Big Data &
visualisation
http://www.mastersindatascience.org/blog/10-cool-big-data-visualizations/
© Karim Baïna 2016 30
Big Data &
visualisation
http://www.mastersindatascience.org/blog/10-cool-big-data-visualizations/
© Karim Baïna 2016 31
Big Data &
visualisation
http://www.mastersindatascience.org/blog/10-cool-big-data-visualizations/
© Karim Baïna 2016 32
Big Data &
visualisation
http://www.mastersindatascience.org/blog/10-cool-big-data-visualizations/
© Karim Baïna 2016 33
Big Data &
visualisation
http://www.theguardian.com/world/interactive/2011/mar/22/middle-east-protest-interactive-timeline
© Karim Baïna 2016 34
Big Data &
visualisation
Not all Arab tweeters agreed with Mona Eltahawy views of feminism in the Arab world
Visualizing Big Data:
Social Network Analysis
by Michael Lieberman, 2014
© Karim Baïna 2016 35
Big Data – Quels Profils et
Compétences ?
Dev Ops Engineer
Builds the cluster
Data Analyst
SQL & NoSQL guru
Big Data Developer/
Insight Developer
Insight Developer,
Productise insight
Data Scientist
Data Manager,
Machine learning expert
Data Innovator
Business Analyst,
Data Value services
Chandan Rajah @ChandanRajah
© Karim Baïna 2016 36
Big Data – Quels Profils et
Compétences ?
● Pour devenir Spécialiste de Big Data
– Un DBA devra apprendre à manipuler des données
non-structurées
– Un Statisticien devra apprendre à manipuler des
données qui ne tiennent pas en mémoire RAM
– Un ingénieur Génie Logiciel devra apprendre la
modélisation statistique et la communication des
résultats
– Un analyste métier ingénieur BI (ou analyste
d'affaires - Business Analyst) devra apprendre à
exécuter des algorithmes décisonnels à l'échelle
© Bill Howe
37
Big Data – Le Maroc a tout à y gagner
Énergies
Desertec
Développement durable
& Économie verte
Développement humain
& Économie équitable
Environnement
Logistique
Industrie & Services
Big Data
Données massives
Prof. Karim Baïna
karim.baina@gmail.com
Professeur d'Enseignement Supérieur
ENSIAS,
Université Mohammed V de Rabat, Maroc
Co-responsable du Diplôme Universitaire « Big Data Scientist »
Chef du Département Génie Logiciel
Responsable du Service de Coopération
Semaine Culturelle, 17-20 Mai 2016
Faculté des Sciences de Kénitra, Université
Ibn Tofaïl
© Karim Baïna 2016 39
RTAP
Real Time
agregation
Batch
transformating
OLAP Model
Historisation & Analysis
!HBase
Real Time vs Batch vs Long Term
Big Data processing
IoTSensor/Machine
ServerLogs,Text
Clickstream
Geospatiale,Sentiments
© Karim Baïna 2016 40
Big Data Reference Architecture
http://thinkbig.teradata.com/leading_big_data_technologies/big-data-reference-architecture/
© Karim Baïna 2016 41
Big Data - Gartner Hype Curve

Contenu connexe

Tendances

Big Data, Charles Huot, Aproged,février 2013
Big Data, Charles Huot, Aproged,février 2013Big Data, Charles Huot, Aproged,février 2013
Big Data, Charles Huot, Aproged,février 2013
ADBS
 
Baina bigdata le futur eldorado
Baina bigdata le futur eldoradoBaina bigdata le futur eldorado
Baina bigdata le futur eldorado
Karim Baïna
 
La valeur des Big Data sera dans leurs usages
La valeur des Big Data sera dans leurs usagesLa valeur des Big Data sera dans leurs usages
La valeur des Big Data sera dans leurs usages
SAS FRANCE
 

Tendances (20)

Introduction au BIG DATA
Introduction au BIG DATAIntroduction au BIG DATA
Introduction au BIG DATA
 
Big Data, Charles Huot, Aproged,février 2013
Big Data, Charles Huot, Aproged,février 2013Big Data, Charles Huot, Aproged,février 2013
Big Data, Charles Huot, Aproged,février 2013
 
Point de Vue Sopra Consulting sur le Big Data
Point de Vue Sopra Consulting sur le Big DataPoint de Vue Sopra Consulting sur le Big Data
Point de Vue Sopra Consulting sur le Big Data
 
Cours Big Data Chap1
Cours Big Data Chap1Cours Big Data Chap1
Cours Big Data Chap1
 
2014 Présentation pour la soutenance du probatoire "Big Data"de galsungen
2014 Présentation pour la soutenance du probatoire "Big Data"de galsungen2014 Présentation pour la soutenance du probatoire "Big Data"de galsungen
2014 Présentation pour la soutenance du probatoire "Big Data"de galsungen
 
Baina bigdata le futur eldorado
Baina bigdata le futur eldoradoBaina bigdata le futur eldorado
Baina bigdata le futur eldorado
 
Livre blanc "Big Data" de l'EBG
Livre blanc "Big Data" de l'EBGLivre blanc "Big Data" de l'EBG
Livre blanc "Big Data" de l'EBG
 
Chapitre1 introduction
Chapitre1 introductionChapitre1 introduction
Chapitre1 introduction
 
Etude sur le Big Data
Etude sur le Big DataEtude sur le Big Data
Etude sur le Big Data
 
La valeur des Big Data sera dans leurs usages
La valeur des Big Data sera dans leurs usagesLa valeur des Big Data sera dans leurs usages
La valeur des Big Data sera dans leurs usages
 
Analyse spatiale en Big data
Analyse spatiale en Big dataAnalyse spatiale en Big data
Analyse spatiale en Big data
 
Competitic big data et commerce
Competitic   big data et commerceCompetitic   big data et commerce
Competitic big data et commerce
 
Big data - Cours d'introduction l Data-business
Big data - Cours d'introduction l Data-businessBig data - Cours d'introduction l Data-business
Big data - Cours d'introduction l Data-business
 
Du Big Data vers le SMART Data : Scénario d'un processus
Du Big Data vers le SMART Data : Scénario d'un processusDu Big Data vers le SMART Data : Scénario d'un processus
Du Big Data vers le SMART Data : Scénario d'un processus
 
Big data : défis & technologies
Big data : défis & technologiesBig data : défis & technologies
Big data : défis & technologies
 
Conférence big data
Conférence big dataConférence big data
Conférence big data
 
Karim Baina Big Data ENSIAS December 2016
Karim Baina Big Data ENSIAS December 2016Karim Baina Big Data ENSIAS December 2016
Karim Baina Big Data ENSIAS December 2016
 
Valtech - Du BI au Big Data, une révolution dans l’entreprise
Valtech - Du BI au Big Data, une révolution dans l’entrepriseValtech - Du BI au Big Data, une révolution dans l’entreprise
Valtech - Du BI au Big Data, une révolution dans l’entreprise
 
I love BIG DATA
I love BIG DATAI love BIG DATA
I love BIG DATA
 
Big data analytics focus technique et nouvelles perspectives pour les actuaires
Big data analytics focus technique et nouvelles perspectives pour les actuairesBig data analytics focus technique et nouvelles perspectives pour les actuaires
Big data analytics focus technique et nouvelles perspectives pour les actuaires
 

En vedette

Big Data Specialist with IBM BigInsights V2.1_certificate
Big Data Specialist with IBM BigInsights V2.1_certificateBig Data Specialist with IBM BigInsights V2.1_certificate
Big Data Specialist with IBM BigInsights V2.1_certificate
Ahmed Ezz El-din
 
Décors de gateaux tortas ano1 no 10 communion évènements de gala etc.1
Décors de gateaux tortas ano1 no 10 communion évènements de gala etc.1Décors de gateaux tortas ano1 no 10 communion évènements de gala etc.1
Décors de gateaux tortas ano1 no 10 communion évènements de gala etc.1
Autonoma
 
Ley de-autorizacion-para-la-creacion-del-fideicomiso-pescar
Ley de-autorizacion-para-la-creacion-del-fideicomiso-pescarLey de-autorizacion-para-la-creacion-del-fideicomiso-pescar
Ley de-autorizacion-para-la-creacion-del-fideicomiso-pescar
Save Solutions
 
Portafolio de estadistica_vivi_pato_lulis
Portafolio de estadistica_vivi_pato_lulisPortafolio de estadistica_vivi_pato_lulis
Portafolio de estadistica_vivi_pato_lulis
luisapatriciaviviana
 
Comba r 2º c trabajo final
Comba r 2º c trabajo finalComba r 2º c trabajo final
Comba r 2º c trabajo final
PabloPereira
 
Stéfafo echebarne trabajo final
Stéfafo echebarne trabajo finalStéfafo echebarne trabajo final
Stéfafo echebarne trabajo final
PabloPereira
 
Hundewadt miranda díaz gutiérrez 1º 9 trabajo final
Hundewadt miranda díaz gutiérrez 1º 9 trabajo finalHundewadt miranda díaz gutiérrez 1º 9 trabajo final
Hundewadt miranda díaz gutiérrez 1º 9 trabajo final
PabloPereira
 
Ley de-disolución-y-liquidación-del-fondo-de-garantía-para-el-crédito-educativo
Ley de-disolución-y-liquidación-del-fondo-de-garantía-para-el-crédito-educativoLey de-disolución-y-liquidación-del-fondo-de-garantía-para-el-crédito-educativo
Ley de-disolución-y-liquidación-del-fondo-de-garantía-para-el-crédito-educativo
Save Solutions
 

En vedette (20)

(Big) Data, opportunités et défis - Ludovic Levy - Orange - Forum du GFII 2014
(Big) Data, opportunités et défis - Ludovic Levy - Orange - Forum du GFII 2014(Big) Data, opportunités et défis - Ludovic Levy - Orange - Forum du GFII 2014
(Big) Data, opportunités et défis - Ludovic Levy - Orange - Forum du GFII 2014
 
Big Data Specialist with IBM BigInsights V2.1_certificate
Big Data Specialist with IBM BigInsights V2.1_certificateBig Data Specialist with IBM BigInsights V2.1_certificate
Big Data Specialist with IBM BigInsights V2.1_certificate
 
L'impact du Big Data sur les stratégies marketing
L'impact du Big Data sur les stratégies marketingL'impact du Big Data sur les stratégies marketing
L'impact du Big Data sur les stratégies marketing
 
#NSD14 - La sécurité et l'Internet des objets
#NSD14 - La sécurité et l'Internet des objets#NSD14 - La sécurité et l'Internet des objets
#NSD14 - La sécurité et l'Internet des objets
 
#NSD14 - La sécurité autour du Big Data
#NSD14 - La sécurité autour du Big Data#NSD14 - La sécurité autour du Big Data
#NSD14 - La sécurité autour du Big Data
 
Décors de gateaux tortas ano1 no 10 communion évènements de gala etc.1
Décors de gateaux tortas ano1 no 10 communion évènements de gala etc.1Décors de gateaux tortas ano1 no 10 communion évènements de gala etc.1
Décors de gateaux tortas ano1 no 10 communion évènements de gala etc.1
 
Ley de-autorizacion-para-la-creacion-del-fideicomiso-pescar
Ley de-autorizacion-para-la-creacion-del-fideicomiso-pescarLey de-autorizacion-para-la-creacion-del-fideicomiso-pescar
Ley de-autorizacion-para-la-creacion-del-fideicomiso-pescar
 
Portafolio de estadistica_vivi_pato_lulis
Portafolio de estadistica_vivi_pato_lulisPortafolio de estadistica_vivi_pato_lulis
Portafolio de estadistica_vivi_pato_lulis
 
Comba r 2º c trabajo final
Comba r 2º c trabajo finalComba r 2º c trabajo final
Comba r 2º c trabajo final
 
Stéfafo echebarne trabajo final
Stéfafo echebarne trabajo finalStéfafo echebarne trabajo final
Stéfafo echebarne trabajo final
 
Hundewadt miranda díaz gutiérrez 1º 9 trabajo final
Hundewadt miranda díaz gutiérrez 1º 9 trabajo finalHundewadt miranda díaz gutiérrez 1º 9 trabajo final
Hundewadt miranda díaz gutiérrez 1º 9 trabajo final
 
Les 06 4
Les 06 4Les 06 4
Les 06 4
 
Huevos
HuevosHuevos
Huevos
 
Agile c'est quoi ce truc ?
Agile c'est quoi ce truc ?Agile c'est quoi ce truc ?
Agile c'est quoi ce truc ?
 
Posters
PostersPosters
Posters
 
Urban Dictionary by Q: Gönn dir! Willkommen in der Lebenswelt der Generatione...
Urban Dictionary by Q: Gönn dir! Willkommen in der Lebenswelt der Generatione...Urban Dictionary by Q: Gönn dir! Willkommen in der Lebenswelt der Generatione...
Urban Dictionary by Q: Gönn dir! Willkommen in der Lebenswelt der Generatione...
 
SIMULANDO MI TRABAJO EN LA EMPRESA
SIMULANDO MI TRABAJO EN LA EMPRESASIMULANDO MI TRABAJO EN LA EMPRESA
SIMULANDO MI TRABAJO EN LA EMPRESA
 
Expocision liderazgo
Expocision liderazgoExpocision liderazgo
Expocision liderazgo
 
Ley de-disolución-y-liquidación-del-fondo-de-garantía-para-el-crédito-educativo
Ley de-disolución-y-liquidación-del-fondo-de-garantía-para-el-crédito-educativoLey de-disolución-y-liquidación-del-fondo-de-garantía-para-el-crédito-educativo
Ley de-disolución-y-liquidación-del-fondo-de-garantía-para-el-crédito-educativo
 
C:\Documents And Settings\Sistemas\Escritorio\Blogs Yeni
C:\Documents And Settings\Sistemas\Escritorio\Blogs YeniC:\Documents And Settings\Sistemas\Escritorio\Blogs Yeni
C:\Documents And Settings\Sistemas\Escritorio\Blogs Yeni
 

Similaire à Baina bigdata introduction 2016

Big data-2-170220212621
Big data-2-170220212621Big data-2-170220212621
Big data-2-170220212621
Haifa Akermi
 

Similaire à Baina bigdata introduction 2016 (20)

La Banque de demain : Chapitre 4
La Banque de demain : Chapitre 4 La Banque de demain : Chapitre 4
La Banque de demain : Chapitre 4
 
Big data
Big dataBig data
Big data
 
Séminaire BIG DATA, SYNTHÈSE - ORSYS Formation
Séminaire BIG DATA, SYNTHÈSE - ORSYS FormationSéminaire BIG DATA, SYNTHÈSE - ORSYS Formation
Séminaire BIG DATA, SYNTHÈSE - ORSYS Formation
 
Data Breakfast : La transformation digitale à l'heure de la data
Data Breakfast : La transformation digitale à l'heure de la dataData Breakfast : La transformation digitale à l'heure de la data
Data Breakfast : La transformation digitale à l'heure de la data
 
Vers une meilleure connaissance client grâce au big data
Vers une meilleure connaissance client grâce au big dataVers une meilleure connaissance client grâce au big data
Vers une meilleure connaissance client grâce au big data
 
Tracer la voie vers le big data avec Talend et AWS
Tracer la voie vers le big data avec Talend et AWSTracer la voie vers le big data avec Talend et AWS
Tracer la voie vers le big data avec Talend et AWS
 
Neo4j - Cas d'usages pour votre métier
Neo4j - Cas d'usages pour votre métierNeo4j - Cas d'usages pour votre métier
Neo4j - Cas d'usages pour votre métier
 
Big Data: quelle valeur pour l'entreprise
Big Data: quelle valeur pour l'entrepriseBig Data: quelle valeur pour l'entreprise
Big Data: quelle valeur pour l'entreprise
 
3 minutes pour comprendre ... le Big Data
3 minutes pour comprendre ... le Big Data3 minutes pour comprendre ... le Big Data
3 minutes pour comprendre ... le Big Data
 
Big Data Des méandres des outils au potentiel business
Big Data   Des méandres des outils au potentiel businessBig Data   Des méandres des outils au potentiel business
Big Data Des méandres des outils au potentiel business
 
Réflexions sur les missions et les compétences liées à une démarche data terr...
Réflexions sur les missions et les compétences liées à une démarche data terr...Réflexions sur les missions et les compétences liées à une démarche data terr...
Réflexions sur les missions et les compétences liées à une démarche data terr...
 
Livre blanc big data et data lake le duo gagnant extrait_itelligence
Livre blanc big data et data lake le duo gagnant extrait_itelligenceLivre blanc big data et data lake le duo gagnant extrait_itelligence
Livre blanc big data et data lake le duo gagnant extrait_itelligence
 
Big data et marketing digital
Big data et marketing digital Big data et marketing digital
Big data et marketing digital
 
Big data-2-170220212621
Big data-2-170220212621Big data-2-170220212621
Big data-2-170220212621
 
BigData BigBuzz @ Le Node
BigData BigBuzz @ Le Node BigData BigBuzz @ Le Node
BigData BigBuzz @ Le Node
 
Ecosystème Big Data
Ecosystème Big DataEcosystème Big Data
Ecosystème Big Data
 
BigData & Cloud @ Excelerate Systems France
BigData & Cloud @ Excelerate Systems FranceBigData & Cloud @ Excelerate Systems France
BigData & Cloud @ Excelerate Systems France
 
[French] Matinale du Big Data Talend
[French] Matinale du Big Data Talend[French] Matinale du Big Data Talend
[French] Matinale du Big Data Talend
 
OpenDataSoft - Les plateformes ouvertes de données, nouveau levier de l'innov...
OpenDataSoft - Les plateformes ouvertes de données, nouveau levier de l'innov...OpenDataSoft - Les plateformes ouvertes de données, nouveau levier de l'innov...
OpenDataSoft - Les plateformes ouvertes de données, nouveau levier de l'innov...
 
Introduction au Big data
Introduction au Big data Introduction au Big data
Introduction au Big data
 

Plus de Karim Baïna

Seminar Design Thinking Innovation au LIMOS 23 Juin 2022
Seminar Design Thinking Innovation au LIMOS 23 Juin 2022Seminar Design Thinking Innovation au LIMOS 23 Juin 2022
Seminar Design Thinking Innovation au LIMOS 23 Juin 2022
Karim Baïna
 
Karim Baina Seminaire BigData IoT ISIMA Juillet 2016
Karim Baina Seminaire BigData IoT ISIMA Juillet 2016Karim Baina Seminaire BigData IoT ISIMA Juillet 2016
Karim Baina Seminaire BigData IoT ISIMA Juillet 2016
Karim Baïna
 

Plus de Karim Baïna (20)

مرثية الدكتور عباس الجراري Elegy of Abbès Jirari
مرثية الدكتور عباس الجراري  Elegy of Abbès Jirariمرثية الدكتور عباس الجراري  Elegy of Abbès Jirari
مرثية الدكتور عباس الجراري Elegy of Abbès Jirari
 
Seminar Design Thinking Innovation au LIMOS 23 Juin 2022
Seminar Design Thinking Innovation au LIMOS 23 Juin 2022Seminar Design Thinking Innovation au LIMOS 23 Juin 2022
Seminar Design Thinking Innovation au LIMOS 23 Juin 2022
 
Karim Baïna Talk at BPC 2022
Karim Baïna Talk at BPC 2022Karim Baïna Talk at BPC 2022
Karim Baïna Talk at BPC 2022
 
Karim Baina AI For Smart Cities Information Systems ISSM2019
Karim Baina AI For Smart Cities Information Systems ISSM2019Karim Baina AI For Smart Cities Information Systems ISSM2019
Karim Baina AI For Smart Cities Information Systems ISSM2019
 
Karim Baina Society 5.0/Industry5.0 15072021
Karim Baina Society 5.0/Industry5.0 15072021Karim Baina Society 5.0/Industry5.0 15072021
Karim Baina Society 5.0/Industry5.0 15072021
 
Karim Baina Maroc Post Covid-19 Disruption Digitale 14072021
Karim Baina Maroc Post Covid-19 Disruption Digitale 14072021Karim Baina Maroc Post Covid-19 Disruption Digitale 14072021
Karim Baina Maroc Post Covid-19 Disruption Digitale 14072021
 
Fête de la rentrée scolaire 2020 Karim BAINA ENSIAS
Fête de la rentrée scolaire 2020 Karim BAINA ENSIASFête de la rentrée scolaire 2020 Karim BAINA ENSIAS
Fête de la rentrée scolaire 2020 Karim BAINA ENSIAS
 
Sana3oudou
Sana3oudouSana3oudou
Sana3oudou
 
3yd sa3id
3yd sa3id3yd sa3id
3yd sa3id
 
poetry printemps covid19 karim baina 11 avril 2020
poetry printemps covid19 karim baina 11 avril 2020poetry printemps covid19 karim baina 11 avril 2020
poetry printemps covid19 karim baina 11 avril 2020
 
Poetry Covid-19 Karim Baina 23 Mars 2020
Poetry Covid-19 Karim Baina 23 Mars 2020Poetry Covid-19 Karim Baina 23 Mars 2020
Poetry Covid-19 Karim Baina 23 Mars 2020
 
Ici ensias Hymne
Ici ensias HymneIci ensias Hymne
Ici ensias Hymne
 
Digital Smart System Forum Five Edition 5 panel
Digital Smart System Forum Five Edition 5 panelDigital Smart System Forum Five Edition 5 panel
Digital Smart System Forum Five Edition 5 panel
 
conference m amrani ensias 271217
conference m amrani ensias 271217conference m amrani ensias 271217
conference m amrani ensias 271217
 
Karim Baina Big Data Seminar ENSIAS December 2016
Karim Baina Big Data Seminar ENSIAS December 2016Karim Baina Big Data Seminar ENSIAS December 2016
Karim Baina Big Data Seminar ENSIAS December 2016
 
Conference M. Benhaddou ENSIAS 141216
Conference M. Benhaddou ENSIAS 141216Conference M. Benhaddou ENSIAS 141216
Conference M. Benhaddou ENSIAS 141216
 
Conference m.saad-ensias-301116
Conference m.saad-ensias-301116Conference m.saad-ensias-301116
Conference m.saad-ensias-301116
 
Karim Baina Assises AUSIM 2016
Karim Baina Assises AUSIM 2016Karim Baina Assises AUSIM 2016
Karim Baina Assises AUSIM 2016
 
Karim Baina Seminaire BigData IoT ISIMA Juillet 2016
Karim Baina Seminaire BigData IoT ISIMA Juillet 2016Karim Baina Seminaire BigData IoT ISIMA Juillet 2016
Karim Baina Seminaire BigData IoT ISIMA Juillet 2016
 
Karim Baina activities ensias
Karim Baina activities ensiasKarim Baina activities ensias
Karim Baina activities ensias
 

Baina bigdata introduction 2016

  • 1. Big Data Données massives Prof. Karim Baïna karim.baina@gmail.com Professeur d'Enseignement Supérieur ENSIAS, Université Mohammed V de Rabat, Maroc Co-responsable du Diplôme Universitaire « Big Data Scientist » Chef du Département Génie Logiciel Responsable du Service de Coopération Semaine Culturelle, 17-20 Mai 2016 Faculté des Sciences de Kénitra, Université Ibn Tofaïl
  • 2. © Karim Baïna 2016 2 Big Data – Contexte
  • 3. Big Data – L'univers digital devient de plus en plus large et interconnecté © IBM (10^12)
  • 4. © Karim Baïna 2016 4 Big Data – Perception du Volume de l'univers digital Lune Terre 2/3 6,6x TeraB (10**12 B) → PetaB (10**15 B) → ExaB (10**18 B) → ZetaB (10**21 B)
  • 5. © Karim Baïna 2016 5 Big Data 4 V ● VOLUME – 90% des données universelles ont été créées durant les 5 dernières années – de 2013 à 2020, la taille de l'univers digital sera multipliée par 10 de 4.4 trillion (10**12) GB à 44 trillion – La taille de l'univers digital plus que double chaque 2 ans ● VELOCITY (Fréquence de production de la donnée) – 6 Milliard de téléphones portables dans le monde (sur 8 Milliard de population) – Une voiture moderne embarque plus de 100 capteurs – 200 Million de compteurs intelligents, 30 Billion (10**12) Tag RFID, 420 Million de capteurs médicaux – 2,3 Trillion (10**12) GB de données sont générées chaque jours dans le monde ● VARIETY ● 80% des données universelles sont non-structurées (inexploitables par les systèmes traditionnels) ● VERACITY ● Il y a entre 30 % – 80 % followers fictifs sur twitter (selon la popularité du compte) – La circulation des hoax (canulars), spam, fake post est reprise (retwittée) plus que les démentis. Doug Laney, « 3D Data Management: Controlling Data Volume, Velocity, and Variety. », 2001 research report, META Group (now Gartner) Samsung 16TB (Technologie SSD) Le plus large HD
  • 6. © Karim Baïna 2016 6 Réponses aux 4 V ● VELOCITE – Collecte des données réactive à la fréquence de leur arrivée – Réponse on time (ponctuelle) pas nécessairement « temps réel » ● VOLUME – stockage réparti sur un réseau de machines (cloud) – calculs parallèles sur les données réparties (grid) ● VARIETE – Prise en charge des données brutes [non|semi| ]-structurées et multi- format (texte|..|matrice|graphe|image|audio|vidéo) ● VERACITE – Traçabilité de la provenance, assurance de la vérifiabilité en dédoublant les sources de données, adoption d'un plan de qualité des données
  • 7. © Karim Baïna 2016 7 Big Data - conséquence de la maturité et la démocratisation de plusieurs disciplines ● Grid Computing : Calcul parallèle & distribué, de haute performance (HPC) ● Cloud Computing : Capacité de stockage infini, réparti et sécurisé, fragmentation/réplication ● Internet of Things (IoT) : Informatique ambiante (UC), Informatique mobile, Multitudes de devices connectés, plages d’adressage latge (IPV6) – Exemples : tout objet pingable (caméra, capteur, etc.) présente des web services façades, voiture comme ordinateur ambulant, télé-maintenance proactive, traçabilité (RFID), tracking par GPS, etc. ● Web 3.0 (Social, Sémantique) ● SNA (Social Network Analysis) ● Data Management : SQL, Bases de données réparties, Bases de données XML, Objets, etc. NoSQL, DWH (data warehousing), BI (Business Intelligence) ● All In Memory : Mémoire à forte capacité, Disque flash SSD, les bases de données se chargent en mémoire et tous les calculs se font en mémoire sans besoin d'accès HD ● NLP (Natural Language Processing)
  • 8. © Karim Baïna 2016 8 Big Data - Étude de cas ● Sécurité du citoyen : La ville de Chicago é pu réduire le crime et améliorer la sécurité des citoyens grâce une plateforme geospatiale analytique temps réel (WindyGrid utilisant MongoDB). Elle analyse des données depuis plus de 30 différent départements – localisations des bus, appels 911, et même des Tweets afin de mieux comprendre et réagir face aux urgences. Sécurité routière Circulation routière
  • 9. © Karim Baïna 2016 9 Big Data - Étude de cas ● Analyse de Sentiment : Une organisation ne peut pas rester juste indifférente à l'égard d'une crise de réactions sur un réseau social (ex. Twitter) plus de 30 min par ex. L'analyse temps réelle fournit un moyen d'alerter si les sentiments sur Twitter autour d'un problème la concernant tournent au vinaigre. Analyse de satisfaction du client / perception du citoyen
  • 10. © Karim Baïna 2016 10 Big Data - Étude de cas ● Analyse temps réel de churn (taux d'attrition) : L'analyse temps réel fournit une meilleure perception de l'engagement actuel du client, et améliore la détection du moement critique ou un client décide de partir ou de rester. Recommending system
  • 11. © Karim Baïna 2016 11 Big Data - Étude de cas ● Traitement des échanges boursiers : des secondes de grandes valeurs peut être éliminées du temps de réactions des entreprises financières. Il est possible d'agir sur la base de nouvelles informations en temps réel, comme le rapport national de l'emploi (Current Employment Statistics – CES by Bureau of Labor Statistics – BLS) édité le premier vendredi de chaque mois. Le négoce à base de ce rapport génarelement commence après 10 seconds de sa publication sur le web. Recommending system
  • 12. © Karim Baïna 2016 12 Big Data - Étude de cas ● Recommandation de services/produits : Plus que Facebook qui vous proposent des amis ou des thèmes, Amazon exploite les données sur les produits pour lesquels vous (ou vos ressemblants) êtes réellement passer au paiement pour vous les proposer. Les psychologues parlent du pouvoir de suggestion – mettre quelque chose que quelqu'un pourrait vouloir l'une devant l'autre pourrait créer une envie irrésistible d'achat indépendamment de la réelle nécessité du produit. systèmes de recommandation
  • 13. © Karim Baïna 2016 13 Big Data - Étude de cas Recommending system Catastrophes naturelles ... Sécurité territoriale épidémiologie
  • 14. © Karim Baïna 2016 14 Big Data – Sources de données
  • 15. © Karim Baïna 2016 15 Variété Big Data - multitude des formats de données ● Données brutes non-structurées – Texte brute en langage naturel – Modèle multimédia (images-audio-vidéo) ● Données semi-structurées – Hybridation d'une structure macro flexible avec un contenu non structuré, ex. Logs, e-mails, EDI, données de capteurs ● Données structurées – Modèle relationnel (tables, csv/tsv) – Modèle orienté colonnes (Matrices creuses avec données manquantes ou optionnelles) – Modèle associatif (Clés-Valeurs) – Modèle arborescent (XML, JSON,... avec respect d'une structure DTD/schema) – Modèle de graphes (RDF,...) – .. Panama Papers 11,5 Million de documents multi-format
  • 16. © Karim Baïna 2016 16 Big Data – Stockage de données
  • 17. © Karim Baïna 2016 17 Variété Big Data - multitude des formats de données ● Modèle relationnel – Hive, Impala ● Matrices creuses (via clé-valeur) – HBase, Redis ● Modèle de Document (en JSON) – MongoDB, Couchbase ● Modèle de Graphe – Neo4J, Giraph ● ...
  • 18. © Karim Baïna 2016 18 Big Data – Traitement des données
  • 19. © Karim Baïna 2016 19 Big Data - 3 Stratégies de traitement – 1/3 ● Analyse synchrone en lots sur des données réparties (synchronous batch processing « data-intensive ») ● Les traitements (en lots) sont décomposés, transportés vers les machines stockant les données distribuées « data locality » et persistance sur disque des résultats intermédiaires ● Le volume des données (en PétaOctets 10^15 Octets) et la complexité des calculs sont plus importants que la fréquence des calculs (en milliers). Et les traitements parallèles ne partagent pas des données seulement des résultats intermédiaires. ● Toute Optimisation du calcul et donc raccourcissement du temps de réponse est importante vis à vis du client. La data locality est donc prioritaire. ● Les temps de réponse varient entre quelques minutes à quelques heures
  • 20. © Karim Baïna 2016 20 Big Data - Le principe du synchronous batch processing
  • 21. © Karim Baïna 2016 21 Big Data - 3 Stratégies de traitement – 2/3 ● Analyse en quasi-temps réel des données en mémoire (in memory, micro-batching) ● Les traitements (en lots) sont décomposés, transportés vers les machines stockant les données distribuées « data locality » et persistance en mémoire des résultats intermédiaires ● Les temps de réponse varient de quelques secondes à quelques minutes Micro-Batch in memory Batch in memory
  • 22. © Karim Baïna 2016 22 Big Data - Le principe du synchronous batch in memory Batch in memory
  • 23. © Karim Baïna 2016 23 Big Data - Le principe du micro-batching in memory Micro-Batch in memory
  • 24. © Karim Baïna 2016 24 Big Data - 3 Stratégies de traitement – 3/3 ● Analyse temps Réel des données en mouvement (Real Time Analysis Processing – RTAP, Complex Event Processing – CEP) ● Les données (événements) arrivent vers les calculs et sont traitées à la volée avant même d'être stockées ● Les traitements peuvent accueillir plusieurs millions d'événements par seconde (Velocity) ● Les temps de réponse ne doivent pas dépasser quelques secondes
  • 25. © Karim Baïna 2016 25 Big Data - Le principe du real time analysis processing ● Analyse temps Réel des données en mouvement (Real Time Analysis Processing – RTAP, Complex Event Processing – CEP) Pattern recognition/correlation/scoring rules
  • 26. © Karim Baïna 2016 26 Big Data Map Reduce vs Grid Computing ● Analyse asynchrone en lots sur des données réparties (asynchronous batch processing « compute-intensive ») ● Les traitements (en lots) sont distribuées en parallèle sur des serveurs et les données sont envoyées à ces serveurs pour traitement, la data locality n'est pas prioritaire !! ● La fréquence des calculs (en millions) prévaut sur le volume des données. Et les traitements parallèles peuvent partager des données sur le réseau. ● Le client n'attend pas le résultat, il est notifié quand c'est prêt ● Les temps de réponse varient entre plusieurs heures à quelques jours
  • 27. © Karim Baïna 2016 27 Vue globale de l'architecture Big Data Real Time Processing Big Data Zone ata ke
  • 28. © Karim Baïna 2016 28 Big Data – Visualisation de données « Dataviz »
  • 29. © Karim Baïna 2016 29 Big Data & visualisation http://www.mastersindatascience.org/blog/10-cool-big-data-visualizations/
  • 30. © Karim Baïna 2016 30 Big Data & visualisation http://www.mastersindatascience.org/blog/10-cool-big-data-visualizations/
  • 31. © Karim Baïna 2016 31 Big Data & visualisation http://www.mastersindatascience.org/blog/10-cool-big-data-visualizations/
  • 32. © Karim Baïna 2016 32 Big Data & visualisation http://www.mastersindatascience.org/blog/10-cool-big-data-visualizations/
  • 33. © Karim Baïna 2016 33 Big Data & visualisation http://www.theguardian.com/world/interactive/2011/mar/22/middle-east-protest-interactive-timeline
  • 34. © Karim Baïna 2016 34 Big Data & visualisation Not all Arab tweeters agreed with Mona Eltahawy views of feminism in the Arab world Visualizing Big Data: Social Network Analysis by Michael Lieberman, 2014
  • 35. © Karim Baïna 2016 35 Big Data – Quels Profils et Compétences ? Dev Ops Engineer Builds the cluster Data Analyst SQL & NoSQL guru Big Data Developer/ Insight Developer Insight Developer, Productise insight Data Scientist Data Manager, Machine learning expert Data Innovator Business Analyst, Data Value services Chandan Rajah @ChandanRajah
  • 36. © Karim Baïna 2016 36 Big Data – Quels Profils et Compétences ? ● Pour devenir Spécialiste de Big Data – Un DBA devra apprendre à manipuler des données non-structurées – Un Statisticien devra apprendre à manipuler des données qui ne tiennent pas en mémoire RAM – Un ingénieur Génie Logiciel devra apprendre la modélisation statistique et la communication des résultats – Un analyste métier ingénieur BI (ou analyste d'affaires - Business Analyst) devra apprendre à exécuter des algorithmes décisonnels à l'échelle © Bill Howe
  • 37. 37 Big Data – Le Maroc a tout à y gagner Énergies Desertec Développement durable & Économie verte Développement humain & Économie équitable Environnement Logistique Industrie & Services
  • 38. Big Data Données massives Prof. Karim Baïna karim.baina@gmail.com Professeur d'Enseignement Supérieur ENSIAS, Université Mohammed V de Rabat, Maroc Co-responsable du Diplôme Universitaire « Big Data Scientist » Chef du Département Génie Logiciel Responsable du Service de Coopération Semaine Culturelle, 17-20 Mai 2016 Faculté des Sciences de Kénitra, Université Ibn Tofaïl
  • 39. © Karim Baïna 2016 39 RTAP Real Time agregation Batch transformating OLAP Model Historisation & Analysis !HBase Real Time vs Batch vs Long Term Big Data processing IoTSensor/Machine ServerLogs,Text Clickstream Geospatiale,Sentiments
  • 40. © Karim Baïna 2016 40 Big Data Reference Architecture http://thinkbig.teradata.com/leading_big_data_technologies/big-data-reference-architecture/
  • 41. © Karim Baïna 2016 41 Big Data - Gartner Hype Curve