Contenu connexe Similaire à Karim Baina Big Data ENSIAS December 2016 (20) Karim Baina Big Data ENSIAS December 20161. Les Big Data
catalyseur de la Transformation Digitale
des Systèmes d'Information
Rabat, Morocco, December, 19th, 2016
Prof. Karim Baïna
karim.baina@um5.ac.ma, karim.baina@gmail.com
Professeur d'Enseignement Supérieur
ENSIAS, Université Mohammed V de Rabat, Maroc
Co-responsable du Diplôme Universitaire « Big Data Scientist »
Ex-Responsable de l'équipe Alqualsadi sur les Architectures d'Entreprises
du Laboratoire International Associé CNRS (LIA) : DATANET - Big Data et Réseaux à Large échelle
Chef du Département Génie Logiciel et Chef de Service de Coopération
2. © Karim Baïna 2016 2/64
L'Univers digital
Rabat, Morocco, December, 19th, 2016
3. © Karim Baïna 2016 3/64
Dans le monde digital, la collecte des
données se fait sans intervention
humaine, en temps réel & en mode push
● Tout objet du monde réel a
maintenant la possibilité de parler
(émettre de l'information en temps
réel) et communiquer son état sans
intervention humaine vers les SI
– Agriculture : arbre, bassin, puits ...
– Production : machine, matière
première, produit ...
– Transport & Logistique : colis,
chaussure, voiture, avion ...
– Commerce : marchandise, rayon,
caisse ...
– Maison & ville intelligente : objets
domestiques, places de parking,
poubelles, routes, feu rouge,
égouts, compteurs énergies, ...
source intel.com
source Hongkiat.com
4. © Karim Baïna 2016 4/64
Dans l'économie digitale, l'intelligence des
algorithmes est partie intégrante des
processus métiers
« Software is eating the world », 2011
- co-fondateur de Andreessen-Horowitz
ayant investi dans Facebook, Groupon,
Skype, Twitter, Zynga, Foursquare, etc.)
- Investisseur Personnel dans LinkedIn.
- Co-développeur de Mosaic (premier
navigateur web complet sur tout OS)
- co-fondateur de SGI (Silicon Graphics),
Fondateur de Netscape (première
entreprise entièrement orientée vers
Internet)
NATUGAFA Marc Andreessen
Derek Roos
« no matter what the industry,
every company today needs
think and act like a software
company to succeed », 2014
- co-fondateur & CEO de Mendix
ALPHABET ou
APPLE dépassent
la capitalisation
boursière de Exon
Mobil ou de Coca
Cola
5. © Karim Baïna 2016 5/64
l'Univers digital en pleine expansion pilote
la croissance et l'intégration de
l'économie digitale
source intel.com
source Hongkiat.com
● 90% des données mondiales ont été produites
durant les 5 dernières années
● +1,2 T (10¹²) de recherche sur Google
● +4 Md (10⁹) heures de vidéo sur Youtube
● +1 Md d'utilisateurs actifs sur Facebook passant
700 M min par mois
● +500 M d'utilisateurs postant +55 M Tweets / jour
● +30 Md Tag RFID Tag en 2013 (1.3 md in 2005)
● +6 Md de téléphones portables
● +4,6 Md de téléphone caméra
● +420 M de « wearable » moniteurs de santé sans fil
● +200 M de compteurs intelligents en 2014 (76 M en
2009)
● +100 M de GPS activé
6. © Karim Baïna 2016 6/64
Transformation des
Systèmes d'Information
Rabat, Morocco, December, 19th, 2016
7. © Karim Baïna 2016 7/64
Système d'Information
● "Role of information technology within an
Information System is to capture, transmit,
store, retrieve, manipulate, or display
information used in one or more business
processes" Alter'1996
8. © Karim Baïna 2016 8/64
Système d'Information
● Le Modèle intégré de Système d'Information de Schultheis
& Sumner's 1998 fait intervenir l'interaction 4 composants :
1. L'Organisation (structures sociales et objectifs)
2. Architecture Technologique (infrastructure hardware & software)
3. Architecture métier (modèles procédures)
4. Architecture Informationnelle (modèles de données)
9. © Karim Baïna 2016 9/64
Transformation d'un SI
● La transformation d'un SI consiste en un ensemble de
projets (Programme) visant à améliorer un ou
plusieurs aspect d'un SI
– Transformation digitale en est un exemple.
AS-IS
source
TO-BE
cible
Transformation
Organisation Humaine
Architecture Métier
Architecture Informationnelle
Architecture Technologique
Organisation Humaine
Architecture Métier
Architecture Informationnelle
Architecture Technologique
10. © Karim Baïna 2016 10/64
Les Big Data
Rabat, Morocco, December, 19th, 2016
11. © Karim Baïna 2016 11/64
Big Data 5 V
● VOLUME
– de 2013 à 2020, la taille de l'univers digital sera multipliée par 10 de 4.4 à 44 trillion (10^12) GB
– La taille de l'univers digital plus que double chaque 2 ans
● VELOCITY (Fréquence de production de la donnée)
– Une voiture moderne embarque plus de 100 capteurs
– 2,3 Trillion (10^12) GB de données sont générées chaque jours dans le monde
● VARIETY
– 80% des données universelles sont non-structurées (inexploitables par les systèmes traditionnels)
● VERACITY
– Données incertaines, entre 30 % – 80 % followers fictifs sur twitter (selon la popularité du compte)
– La circulation des hoax (canulars), spam, fake post est reprise (retwittée) plus que les démentis.
● VALUE (VA mesurable générée à la société ou à l'entreprise)
– améliorer soins de santé, mieux comprendre & servir clients/citoyens, optimiser processus métiers &
booster performance, améliorer sécurité & mieux maîtriser risques à l'international, obtenir de
nouveaux avantages compétitifs, et créer de nouveaux modèles business radicaux, etc.
Doug Laney, « 3D Data Management: Controlling Data Volume, Velocity, and Variety. », 2001 research report, META Group (now Gartner)
Samsung 16TB
(Technologie SSD)
Le plus large HD
12. © Karim Baïna 2016 12/64
Big Data – étude d'opportunité de
Recherche (index de volume de
recherche google)
https://www.google.com/trends/
Le marché du Big Data s'élèverait à 40 milliards de dollars pour l'année 2015
et il connaîtra, selon les prévisions, une croissance de 14% chaque année jusqu'en 2020
13. © Karim Baïna 2016 13/64
Big Data -
Un domaine au carrefour de plusieurs disciplines :
maturité, démocratisation & économie d'échelle
IoT/IoE
Digital Humanities
Social Networking
Information
Systems
Computational
Linguistics
14. © Karim Baïna 2016 14/64
IoT/IoE
Digital Humanities
Social Networking
Information
Systems
Cloud &
Grid
Computing
Computational
Linguistics
Big Data -
Un domaine au carrefour de plusieurs disciplines :
maturité, démocratisation & économie d'échelle
15. © Karim Baïna 2016 15/64
IoT/IoE
Digital Humanities
Social Networking
Information
Systems
KM
Data
Management
Cloud &
Grid
Computing
Computational
Linguistics
Big Data -
Un domaine au carrefour de plusieurs disciplines :
maturité, démocratisation & économie d'échelle
16. © Karim Baïna 2016 16/64
IoT/IoE
Digital Humanities
Social Networking
Information
Systems
Maths &
Statistics
& OR
Computational
Linguistics
KM
Data
Management
Cloud &
Grid
Computing
Big Data -
Un domaine au carrefour de plusieurs disciplines :
maturité, démocratisation & économie d'échelle
17. © Karim Baïna 2016 17/64
IoT/IoE
Digital Humanities
Social Networking
Software
engineering
Information
Systems
Maths &
Statistics
& OR
Computational
Linguistics
KM
Data
Management
Cloud &
Grid
Computing
Big Data -
Un domaine au carrefour de plusieurs disciplines :
maturité, démocratisation & économie d'échelle
18. © Karim Baïna 2016 18/64
La transformation Big Data
est au cœur de
la transformation digitale
Rabat, Morocco, December, 19th, 2016
19. © Karim Baïna 2016 19/64
Plan
● Introduction
● L'Univers Digital
● Les Systèmes d'Information
● Les Big Data
● Les Systèmes d'Information pour Les Big Data - Transformation
Disruptive
– des Données
– des Technologies
– des Processus
– des Personnes
● Études de Cas et Opportunités de création de la Valeur
Rabat, Morocco, December, 19th, 2016
20. © Karim Baïna 2016 20/64
Les Systèmes d'Information
pour
Les Big Data
« Transformation disruptive des
Données »
Rabat, Morocco, December, 19th, 2016
21. © Karim Baïna 2016 21/64
Big Data – Perception du Volume
de l'univers digital
Lune
Terre
2/3 6,6x
TeraB (10**12 B) → PetaB (10**15 B) → ExaB (10**18 B) → ZetaB (10**21 B)
22. © Karim Baïna 2016 22/64
Variété - Big Data :
multitude des formats de données
OLAP
non-structured
semi-structured
structured
● Contrairement au SI traditionnels, les
données massives sont produites par
Les SI à l'ère du Big Data sont capables
de Croiser
– de multiples sources de données
(internes et externes)
– de formats multiples (ou même
sans format)
– Avec ou sans contrainte de schéma
(ELT ou « schema on read »)
● Le Traitement de la Langue Naturelle fait
partie intégrantes des SI à l'ère du Big
Data
80 % des données
produites sont
non- structurées et
donc non
exploitables par
les SI traditionnels
23. © Karim Baïna 2016 23/64
Variété Big Data -
multitude des formats de données
Panama Papers 11,5 Million de documents multi-format
24. © Karim Baïna 2016 24/64
Les Systèmes d'Information
pour
Les Big Data
« Transformation disruptive des
Technologies »
Rabat, Morocco, December, 19th, 2016
25. © Karim Baïna 2016 25/64
Volume - Big Data « data-intensive »
Paradigm shift : Data Locality
Principle 1 : spread data across a cluster of computers
Principle 2 : keep work physically close to the data
(partition/fragmentation)
● Le volume des données (en PétaOctets 10^15 Octets) et la complexité
des calculs sont plus importants que la fréquence des calculs (en
milliers). Et les traitements parallèles ne partagent pas les données
initiales seulement des résultats intermédiaires.
Data at Rest
26. © Karim Baïna 2016 26/64
Volume - Big Data Paradigm shift :
Synchronous batch processing
Data at Rest
27. © Karim Baïna 2016 27/64
Variété - Big Data Paradigme shift :
Cohabitations de Syntaxe & Sémantique variables de données
● Avant les Big Data : syntaxe et sémantique
statique
– Toutes les informations d'une entité ou relation
obéissent à un schéma unique (modèle
relationnel)
● Avec les Big Data : syntaxe et sémantique ad-
hoc
– Il peut y avoir autant de schémas que de faits
(modèle NoSQL)
28. © Karim Baïna 2016 28/64
Variété - Big Data paradigm shift :
Schema on Run/Read (aka ELT)
● Avant les Big Data : Schema on Load/Write (aka ETL)
– L'Objet & les dimensions d'analyse sont pré-organisées selon l’utilisation envisagée
– Collecte des données de production structurées selon un format initial
– Stockage dans un hyper-cube structuré.
– A chaque fois que les données évoluent, il y a nécessité de mise à niveau du
datawarehouse et remise en question de la stratégie d’organisation de l’information
(Cycle de vie très long et rigide)
● Avec le Big Data - Schema on Run/Read (aka ELT) :
– Collecte des données non ou semi-structurées depuis les sources
– Stockage les données brutes sans structures explicites
– Exploration et Analyse les données « programmatoirement » le programme s'adapte au
format et pas l'inverse !!
– Stockage dans une structure cible pour de futures analyses
– Cycle de vie court, flexible et Compatible avec la démarche inductive (zéro hypothèse)
29. © Karim Baïna 2016 29/64
Vélocité - Big Data paradigm shift :
Real Time Analysis Processing (RTAP)
● Les données (événements) arrivent vers les calculs et sont traitées
à la volée et en mémoire (in memory) avant même d'être stockées
● Les traitements de plusieurs millions d'événements par seconde.
Pattern recognition/correlation/scoring rules
Data in Motion
Une entreprise de
la taille de HP (en
2013) génère 100
Md d'événements
par jour ~ 12 million
d'événements par
seconde
30. © Karim Baïna 2016 30/64
Big Data – un écosystème de
nouveaux concepts et technologies
31. © Karim Baïna 2016 31/64
Big Data – un écosystème de
nouveaux concepts et technologies
Cloudera ©
32. © Karim Baïna 2016 32/64
Les Systèmes d'Information
pour les Big Data
« Transformation disruptive des
Processus »
Rabat, Morocco, December, 19th, 2016
33. © Karim Baïna 2016 33/64
● Avant les Big Data : réactivité hors contexte
– Procédé métier sans état : n'a pas de mémoire
– Procédé métier malvoyant : traitement hors contexte ne prenant que les
informations explicites
– Procédé métier réactif : request/response
● Avec les Big Data : proactivité contextuelle
– Procédé métier avec état : possède une mémoire du dossier permettant
un traitement personnalisé (recommandation personnalisée)
– Procédé métier voyant et pré-voyant : prend en compte tout le contexte
du dossier et des dossiers similaires (recommandation item & sociale)
– Procédé métier proactif : prédictif et préventif (recommandation hybride)
K. Baïna & A. Ismaïli Alaoui 2015
Big Data paradigm shift : Processus
métiers enrichis par les Big Data
34. © Karim Baïna 2016 34/64
Big Data paradigm shift : Démarche
inductive d'ingénierie des données
● SI Avant les Big Data : Démarche DÉDUCTIVE (expérimentale)
– Le chercheur a une vue théorique du monde naturel, basée sur des
concepts et théories acceptés, et cherche à vérifier certaines
hypothèses quant aux causes d'un phénomène. Ces hypothèses
sont ensuite testées au cours de l'analyse, et c'est par le jeu de
leurs acceptations/rejets que se construisent les théories
explicatives. Les scientifiques qui pratiquent cette approche sont
qualifiés de rationalistes.
● SI Avec les Big Data : Démarche INDUCTIVE/INFERENTIELLE
(observationnelle, corrélative, régressive)
– Les données (observations) sont collectées sans formuler
préalablement d'hypothèse et les explications sont dérivées de
ces données par généralisation des faits observés pour produire
un modèle scientifique de la réalité dit prévisionnel.
« patterns »
35. © Karim Baïna 2016 35/64
Big Data paradigm shift : Processus
technique & Architecture d'ingénierie
des données
(Real Time Processing)
Big Data Zone
ata
ke
(Batch Processing)
● Zone Big Data :
● Big Data Lake (Traitement de données
au repos) : Acquisition, Extraction
Nettoyage/Annotation,
Intégration/Aggrégation, Représentation,
et Stockage des données d'une manière
[non, semi] ou structurée.
● Real Time Processing (RTAP des
données au mouvement) :
Management Big Data et Analyses en
temps réel
● Bac à sable Analytique « Analytics Sand
Box » : Modélisation, Analyse, et Interpretation des
données à travers une démarche
inductive/inférentielle sur un échantillon.
● Boucle d'apprentissage continue entre la zone Big
Data et le bac à sable Analytique (processus
déductif/inductif)
● Environnement Business Intelligence :
Navigation de datamarts structurés, Reporting des
indicateurs, Actionnement des Alertes, Intégration
avec des processus métiers.
Inspired from EMC (except RTAP part)
36. © Karim Baïna 2016 36/64
Les Systèmes d'Information
pour
Les Big Data
« Transformation disruptive des
Personnes »
Rabat, Morocco, December, 19th, 2016
37. © Karim Baïna 2016 37/64
SI pour les Big Data – nouveaux
Profils de Personnes
● Le citoyen digital
– News publisher
– Distributor
– E-journalist
– Big Data producer
● L'instant digital (la fierté et la e-réputation
engendrée par la publication d'un tweet, d'une
image ou d'un événement) devient pour lui plus
important que l'instant réel
38. © Karim Baïna 2016 38/64
Dev Ops Engineer
Builds the cluster
Data Analyst
SQL & NoSQL guru
Big Data Developer/
Insight Developer
Insight Developer,
Productise insight
Data Scientist
Data Manager,
Machine learning expert
Data Innovator
Business Analyst,
Data Value services
INFRA DATA ENGINEERING DATA SCIENCE DATA INNOVATION
SI pour les Big Data – nouveaux
Profils de personnes
TECHNOLOGIES ALGORITHMES OPPORTUNITES
39. © Karim Baïna 2016 39/64
● Pour devenir Spécialiste de Big Data
– Un Statisticien devra apprendre à manipuler des données
distribuées et qui ne tiennent pas en mémoire RAM d'une
seule machine
– Un analyste métier ingénieur BI (ou analyste d'affaires -
Business Analyst) devra apprendre à écrire et exécuter
des algorithmes décisionnels à l'échelle et faire du
reporting sur des données stockées en format brute
– Un DBA devra apprendre à manipuler des données non-
structurées
– Un ingénieur Génie Logiciel devra apprendre la
modélisation statistique, l'apprentissage machine et la
communication des résultats
© Prof. Bill Howe
SI pour les Big Data – nouveaux
Profils de Personnes
40. © Karim Baïna 2016 40/64
● D'un point de vue organisationnel, en plus de la Direction
des SI, de nouvelles Direction et de nouveaux métier
stratégiques voient le jour
– Chief Data Officer (CDO)
– Digitalisation Strategist
SI pour les Big Data – nouveaux
Profils de Personnes
41. © Karim Baïna 2016 41/64
Les Systèmes d'Information
Pour
Les Big Data –
études de cas et opportunités de
création de la Valeur
Rabat, Morocco, December, 19th, 2016
42. © Karim Baïna 2016 42/64
Valeur - Big Data paradigm shift : 3 P
● PERSONNALISATION
– Prise en compte personnalisée du comportement, pour proposer, suggérer
et recommander
● PREDICTION / PREVISION
– Explication de phénomènes, Simulation des tendances et Prévision des
conséquences
● PREVENTION
– Proposition de mesures, d’actions anticipatives pour limiter l’impact d’un
phénomène
43. © Karim Baïna 2016 43/64
Valeur - Big Data paradigm shift : 3 P
● PERSONNALISATION
– Analyse de corrélation d'événements complexes pour produire des éléments de
connaissances
– Reconnaissance personnalisée et efficace des comportements anormaux pour
suggérer/recommander des actions adécquates.
– Identification d'informations actionables parmi des larges masses de données et
réduire le taux de faux positifs (Veracité) à des niveaux gérables
(actions/interventions sont coûteuses).
● PREDICTION / PREVISION
– Analyse de Prédiction : déduction & explication qu'un événement risque de se
produire (Prévision), exactement quand (Prédiction), et prévoir les conséquences.
● PREVENTION
– Analyse de Prévention : proposition d'actions correctives/préventives pour limiter
l'impact d'un événement
44. © Karim Baïna 2016 44/64
● e-Gov et e-citoyen
– Analyser les problèmes du quotidien pour mieux servir le citoyen
● Commerce & Marketing
– Analyser la satisfaction Client et prédire le churn (attrition)
– Détecter les nouveaux usages et besoins et Acquérir de nouveaux clients
– Fructifier les clients acquis grâce aux systèmes de recommandation
● Industrie & Production
– Analyser la qualité des procédés de production
– Réduire les pertes et les redondances
● Sécurité & cyber-sécurité
– Détecter les Fraudes
– Détecter les anomalies liées à la cybersécurité
Baïna & Ismaïli Alaoui 2015
Valeur du Big Data résulte de la richesse
des données + la force des algorithmes
45. © Karim Baïna 2016 45/64
Val
Recommandation
de services/produits
Prévision Catastrophes naturelles
...
Prévision des évolution
des épidémies
Traitement des échanges boursiers
Sécurité territoriale
Mesure de la Perception du citoyen
Mesure de la Satisfaction du client
Anticiper les pics
de la circulation
Sécurité du citoyen
Valeur
46. © Karim Baïna 2016 46/64
● Sécurité du citoyen : La ville de Chicago a pu réduire le crime
et améliorer la sécurité des citoyens grâce une plateforme
geospatiale analytique temps réel (WindyGrid utilisant
MongoDB). Elle analyse des données depuis plus de 30
différent départements – localisations des bus, appels 911, et
même des Tweets afin de mieux comprendre et réagir face aux
urgences.
Sécurité routière
Circulation routière
Valeur du Big Data résulte de la richesse
des données + la force des algorithmes
47. © Karim Baïna 2016 47/64
● Analyse de Sentiment : Une organisation ne peut pas
rester juste indifférente à l'égard d'une crise de réactions
sur un réseau social (ex. Twitter) plus de 30 min par ex.
L'analyse temps réelle fournit un moyen d'alerter si les
sentiments sur Twitter autour d'un problème la concernant
tournent au vinaigre.
Analyse de satisfaction du client /
perception du citoyen
Valeur du Big Data résulte de la richesse
des données + la force des algorithmes
48. © Karim Baïna 2016 48/64
● Analyse temps réel de churn (taux d'attrition) :
L'analyse temps réel fournit une meilleure perception
de l'engagement actuel du client, et améliore la
détection du moement critique ou un client décide de
partir ou de rester.
Recommending system
Valeur du Big Data résulte de la richesse
des données + la force des algorithmes
49. © Karim Baïna 2016 49/64
● Traitement des échanges boursiers : des secondes de grandes valeurs peut être
éliminées du temps de réactions des entreprises financières. Il est possible d'agir sur
la base de nouvelles informations en temps réel, comme le rapport national de
l'emploi (Current Employment Statistics – CES by Bureau of Labor Statistics – BLS)
édité le premier vendredi de chaque mois. Le négoce à base de ce rapport
génarelement commence après 10 seconds de sa publication sur le web.
Recommending system
Valeur du Big Data résulte de la richesse
des données + la force des algorithmes
50. © Karim Baïna 2016 50/64
● Recommandation de services/produits : Plus que Facebook qui
vous proposent des amis ou des thèmes, Amazon exploite les
données sur les produits pour lesquels vous (ou vos ressemblants)
êtes réellement passer au paiement pour vous les proposer. Les
psychologues parlent du pouvoir de suggestion – mettre quelque
chose que quelqu'un pourrait vouloir l'une devant l'autre pourrait
créer une envie irrésistible d'achat indépendamment de la réelle
nécessité du produit.
systèmes de recommandation
Valeur du Big Data résulte de la richesse
des données + la force des algorithmes
51. © Karim Baïna 2016 51/64
Baïna & Ismaïli Alaoui 2015
Big Data -
Valeur & Visualisation :
Algorithme du Bonheur
52. © Karim Baïna 2016 52/64
Big Data -
Valeur & Visualisation :
Algorithme du Bonheur
Un échantillon
Json de Tweeter
Un dictionnaire
d'émotion
53. © Karim Baïna 2016 53/64
Big Data -
Valeur & Visualisation : Algorithme du
Bonheur (en 7 mini-requêtes HiveQL)I) Charger Dictionnaire d'émotion
create table dictionary (word string, rating int)
ROW FORMAT DELIMITED FIELDS TERMINATED BY 't';
LOAD DATA LOCAL INPATH '/home/hadoop/AFINN.txt' into TABLE dictionary;
II) Charger Tweets depuis stockage flume
create external table load_tweets(id BIGINT, text STRING, country STRING)
ROW FORMAT SERDE 'com.cloudera.hive.serde.JSONSerDe' LOCATION '/user/flume/tweets'
Tokeniser les tweets
create table split_words as select id as id, split(text,' ') as words, country from load_tweets;
Applatir les mots des tweets
create table tweet_word as
select id as id, word, location from split_words LATERAL VIEW explode(words) w as word;
III) Croiser Tweets & Dictionnaire
create table tweet_word_join as
select tweet_word.id, tweet_word.word, country, dictionary.rating
from tweet_word LEFT OUTER JOIN dictionary ON(tweet_word.word =dictionary.word);
Calculer moyenne score de chaque Tweet
create table tweet_rating_avg as
select id, country, AVG(rating) as rating from tweet_word_join GROUP BY id, country order by rating
DESC;
Calculer moyenne score de chaque Pays
create table location_rating_avg as
select country, AVG(rating) as rating from tweet_rating_avg GROUP BY country order by rating DESC;
-Like
54. © Karim Baïna 2016 54/64
Big Data -
Valeur & Visualisation : Détection
d'Anomalies (AD) – macro ségmentation
anomaly
outlier
Cluster 2
Cluster 1
anomaly
Linear regression
K-Means (clustering)
1) Générer un Modèle de ce qui est
normal pour tous les individus
observés :
regrouper les données en utilisant de
sméthodes supervisées ou non
supervisées ex. Classification/Clustering
2) Détecter les anomalies :
Trouver des données qui ne confirme pas
le schéma/pattern normal
Détecter les observations qui dévient
énormément des comportements
attendus.
Quand cela se produit, lever l'alerte.
Ex : analyse globales de comportements des
utilisateurs/employés/citoyens/clients,
matériels, Interactions inter-application, ..
unsupervised algorithm
supervised algorithm
55. © Karim Baïna 2016 55/64
Big Data -
Valeur & Visualisation : Détection de changement de
comportement (B.A.D) – micro ségmentation
1) Générer un Modèle de ce qui est
normal pour un individu :
Si le scoring de la donnée courante n'est
pas aberrante (assez proches des données
récentes), l'ajouter à un buffer de
référence
2) Détécter le changement de
comportement :
Superviser en continu les changement en
termes de comportement entre les
observations courantes et le buffer de
référence sur la base de distance.
Détecter l'écart dans le scoring de
l'observation courante.
Quand cela se produit, lever l'alerte.
Ex : analyse micro du comportement de chaque
utilisateur/employé/citoyen/client, matériel,
Interaction inter-application, ..
56. © Karim Baïna 2016 56/64
Big Data -
Valeur & Visualisation : Crimes
d'Armes aux états unies
http://www.mastersindatascience.org/blog/10-cool-big-data-visualizations/
<= 30
> 30
Nombre Années perdues
57. © Karim Baïna 2016 57/64
Big Data -
Valeur & Visualisation : intensité
séismiques dans le monde
http://www.mastersindatascience.org/blog/10-cool-big-data-visualizations/
58. © Karim Baïna 2016 58/64
Big Data -
Valeur & Visualisation : importances et
durées des guerres dans le monde
http://www.mastersindatascience.org/blog/10-cool-big-data-visualizations/
59. © Karim Baïna 2016 59/64
Big Data -
Valeur & Visualisation : Analyse des causes
des appel 311 par type et par période du jour
http://www.mastersindatascience.org/blog/10-cool-big-data-visualizations/
60. © Karim Baïna 2016 60/64
Big Data -
Valeur & Visualisation : Faits marquants des printemps
arabes selon la gravité, le pays, dans le temps
http://www.theguardian.com/world/interactive/2011/mar/22/middle-east-protest-interactive-timeline
61. © Karim Baïna 2016 61/64
Big Data -
Valeur & Visualisation : Polarité des opinions sur les
réseaux sociaux par rapport à une féministe Arabe
Not all Arab tweeters agreed with Mona Eltahawy views of feminism in the Arab world
Visualizing Big Data:
Social Network Analysis
by Michael Lieberman, 2014
62. © Karim Baïna 2016 62/64
Valeur & Opportunités du Big
Data – Améliorer le quotidien du
citoyen Marocain
Améliorer la Sécurité
Routière – plus de
campagnes et de
signalisation dans les
régions/véhicules à haut
risque
Améliorer la qualité
du transport – mieux
desservir la demande
en période de pic
Améliorer les services
sociaux – mieux desservir les
régions selon les spécialités
manquantes
Réduire le chômage et
augmenter l'employabilité –
mieux connecter offreurs et
demandeurs d'emploi, anticiper
les besoins du marché d'emploi
Améliorer l'éducation –
mieux servir les régions
marginalisées
63. © Karim Baïna 2016 63/64
Valeur & Opportunités du Big Data –
Sans oublier bien évidemment de
Préparer le Maroc de demain
Énergies
Desertec
Développement durable
& Économie verte
Développement humain
& Économie équitable
Environnement
Logistique
Industrie & Services
64. © Karim Baïna 2016 64/64
Prof. Karim Baïna karim.baina@um5.ac.ma, karim.baina@gmail.com,
@kbaina, www.slideshare.net/kbaina
Professeur d'Enseignement Supérieur
ENSIAS, Université Mohammed V de Rabat, Maroc
Co-responsable du Diplôme Universitaire « Big Data Scientist »
Ex-Responsable de l'équipe Alqualsadi sur les Architectures d'Entreprises
du Laboratoire International Associé CNRS (LIA) : DATANET - Big Data et Réseaux à Large échelle
Chef du Département Génie Logiciel et Chef de Service de Coopération
made with :
Rabat, Morocco, December, 19th, 2016
Les Big Data
catalyseur de la Transformation Digitale
des Systèmes d'Information