2. Sommaire
1. Introduction: “Big” initiatives.
2. Définition du Big Data ( 3Vs versus 7Vs).
3. Exemples d’applications réelles.
4. Le nouveau modèle d’affaire basé sur le Big Data.
5. Les défis du Big Data.
6. Les technologies avancées du Big Data ( NoSQL,
NewSQL, indexation, HDFS, Hadoop, etc.)
1. Comparaison entre SQL et NoSQL
2
3. Introduction :
Big Data, Big initiatives…
Voici un exemple d’initiatives démarrées depuis plusieurs
années en reconnaissance de la valeur de Big Data:
En mars 2012 : L’administration des États-Unis a lancé le
projet: ‘’Big Data Research and Development Initiative’’
avec un budget de 200 million $.
En juillet 2012 : au Japon, le développement du Big Data
est devenu un important axe de la stratégie technologique
nationale.
3
4. Les données Big Data se caractérisent par ces 3Vs :
Vitesse (les données sont générées rapidement et changent rapidement);
Variété (les données arrivent sous différents formats) ;
Volume (un grand volume de données est généré toutes les secondes).
Ces trois caractéristiques doivent coexister pour confirmer qu'une source
est une source Big Data.
Si l'un de ces trois « V » ne s'applique pas, nous ne pouvons pas discuter
du Big Data.
Voir Réf 1 . « An Overview of Big Data: Opportunities, Applications
and Tools”
https://ieeexplore.ieee.org/document/7105553?arnumber=7105553
4
Définition du Big data : 3Vs
5. Contrairement aux données traditionnelles, le terme Big
Data fait référence à un ensemble de données comprenant
des formats hétérogènes, structurés, non structurés et
semi-structurés.
Le Big Data a une complexe nature nécessitant des
technologies puissantes et des algorithmes avancés.
En effet, les outils statiques et traditionnels de
l’informatique décisionnelle « Business Intelligence » ne
sont pas efficaces dans le cas des applications Big Data.
5
Définition du Big data : 3Vs
6. Définition du Big data : 3Vs
6
Vélocité
• Batch ou
périodique.
• Temps réels
Volume
• KB, MB, GB,
• TB, PB, ZB et
plus
Variété
• Table, Rapport, BD
• Audio, Vidéo, Web,
Photo…
• SMS, Social tech,
App. Mobile
Big Data
Fig 1. Les 3Vs de Big Data
7. En plus des 3Vs décrits précédemment, les spécialistes ajoutent
d’autres caractéristiques de Big Data:
La vision : il s’agit d’identifier l’objectif mené par l’exploration
de Big Data ;
La vérification : il s’agit de vérifier que les données traitées sont
conformes à certaines spécifications ;
La validation : il s’agit de valider que l'objectif visé est atteint ;
La valeur : il s’agit de cerner la valeur des informations
pertinentes que l’on peut extraire ;
La complexité : il s’agit de prendre en compte la complexité des
données et l’évolution des relations entre les données traitées.
L’immuabilité : Les Big data collectées et stockées peuvent être
permanentes si elles sont bien gérées.
7
Définition du Big data : 7 Vs
9. L’importance de Big Data
L’extraction de la connaissance à partir du Big Data est
cruciale notamment afin :
De supporter les processus de prise de décision ;
De supporter les stratégies et surveiller le respect des
politiques ;
De maximiser les profits et améliorer la compétitivité des
entreprises ;
D’enrichir les différents secteurs scientifiques par un savoir
plus pointu, une prédiction plus précise et un suivi plus
rigoureux (ex. Évolution ou émérgence des maladies, santé des
patients, catastrophes naturelles) ;
De mieux comprendre les sentiments des citoyens par rapport
à un sujet ou une decision gouvernementale.
9
10. Découvrir les tendances, les corrélations inconnues et surtout de nouvelles
connaissances dans plusieurs secteurs. À titre d’exemple :
Secteur de la santé : Contrôler l’évolution des maladies, améliorer la santé des patients,
personnaliser les services et optimiser les dépenses de santé.
Tourisme : recommander les sites à visiter, comprendre le comportement et suivre l’évolution
des préférences des touristes.
Transport: détecter les points d’embouteillage, analyser le processus de décision des chauffeurs
des taxis, et formuler des recommandations pour améliorer le trafic.
Sécurité nationale : prédire le comportement des citoyens, prévenir le terrorisme, suivre
l’évolution des sentiments et des émotions des citoyens concernant les événements politiques.
IT Systems : améliorer la sécurité des systèmes, détecter les violations aux politiques de sécurité
à l’intérieur de l’organisation.
Science : mieux comprendre les changements climatiques de même que l’évolution de la nature
et des catastrophes naturelles.
Pour plus de détail voir Réf 1 . « An Overview of Big Data: Opportunities, Applications and
Tools”. https://ieeexplore.ieee.org/document/7105553?arnumber=7105553
10
Exemples d’applications réelles du Big Data.
11. 11
Analyses
de Big
Data
Dossier et
historique du
patient
Registres des
interventions
Profiles
des
patients
Détecteurs
intelligents
( Glucomètre ,
Smartphones)
Recommander
la meilleur
intervention ou
traitement
- Ajuster les
prescriptions
- Contrôler en
ligne l’efficacité
du traitement
Fig 3. Exemple d’application du Big Data dans le domaine de la santé
Exemple d’application dans le domaine de la santé
12. L’exploitation du Big Data a introduit un nouveau modèle d’affaire. Ce dernier se
compose de quatre phases selon le niveau de maturité de l’entreprise, à savoir :
1- Surveillance des processus internes:
L’entreprise ou l’entité exploite les analyses avancées du Big Data afin de personnaliser
les services.
2- Optimisation des processus & du model d’affaires:
L’entreprise ou l’entité exploite le Big Data afin de détecter les opportunités d’affaires.
3- Monétisation de la valeur du Big Data.
L’entreprise ou l’entité exploite la valeur du Big Data et sa monétisation pour améliorer
ses services offerts et l’expérience des clients.
4- Métamorphose du model d’affaires
L’entreprise exploite le Big Data afin d’assurer un partage quasi réel des données et une
extrême connectivité entre les différentes parties prenantes de la chaine des valeurs. Les
différentes parties peuvent donc adapter leurs services, créer de nouvelle offre en se
basant sur le savoir généré par l’analyse avancée de Big Data.
12
Big Data: le nouveau model d’affaires
13. Big Data: le nouveau model d’affaires
13
1- Surveillances des
processus internes
Exploiter les analyses
pour personnaliser les
services.
2- Optimisation des processus
& du model d’affaires
Détecter les opportunités
d’affaires.
3- Monétisation de la valeur du Big Data.
Améliorer les services et l’expérience des
clients.
4- Métamorphose du
model d’affaires
Partage des données et
extrême connectivité entre
les parties prenantes.
Fig. 4 Les phases de maturité des entreprises suivant l’exploitation de Big Data
14. Les défis du Big Data (1/3)
Les experts font face à d’énormes défis quand il
s’agit d’extraire de la valeur du Big Data :
Le management du Big Data ( ex. collecte, nettoyage,
agrégation, stockage ) ;
L’analyse avancée du Big Data: cela requière des solutions
performantes et des algorithmes puissants afin d’assurer
des analyses avancées et en temps réel de plusieurs
sources hétérogènes et de données semi ou non
structurées ;
14
15. Les défis du Big Data (2/3)
Les experts font face à d’énormes défis quand il
s’agit d’extraire de la valeur du Big Data :
La sécurité de Big Data et le respect de la vie privée « privacy » :
Nouvelles vulnérabilités ( Technologies immatures, hyper connectivité des
systèmes distribués, nombre croissant des dispositifs finaux) ;
Nouveaux risques de sécurité ( attaques dynamiques vs sécurité statique) ;
Panoplie de lois et règlements à respecter selon la géolocalisation des sites ;
Multiples politiques de sécurité ( plusieurs partenaires et détenteurs de données
ayant des exigences différentes) .
Des solutions de visualisations en temps réels ou quasi-réels.
Pour plus de détail, se référer à cet article et son lien à la fin de la présentation :
Ref 3 "Big Data Security: Challenges, Recommendations and Solutions”
https://www.researchgate.net/publication/278962714_Big_Data_Security_Challenges_R
ecommendations_and_Solutions
15
16. Les défis du Big Data (3/3)
Les experts font face à d’énormes défis quand il
s’agit d’extraire de la valeur du Big Data :
Manque d’experts et d’analystes de Big Data ;
La sélection d’une plateforme et des outils adaptés selon
le cas d’utilisation ( user case) et ce, pour chaque étape
du processus du traitement de Big Data ( de la collecte à
la visualisation).
16
17. Technologies de Big Data : l’écosystème
d’Hadoop
17
Réf: "Big Data Technologies: A Survey". Journal of King Saud University-Computer and
Information Sciences. Rank: 29/204 in General Computer Science Category (Indexed
in Scopus), The second most-cited: 227. Link
Des avancées technologiques importantes ont été réalisées pour mieux exploiter le
Big Data. La palteforme Hadoop en est un exemple, elle se compose de plusieurs
couches comme suit:
18. Les technologies de Big Data : Les bases de données
NoSQL: est un système de gestion de base de données adapté pour les
systèmes distribués et stockage de données non relationnelles et non
structurées ;
e.g. HBase, Cassandra, DynamoDB, MongoDB, Accumulo.
Il existe différents modèles de données : Clé-valeur (key-value pairs),
document, graphes (données extrêmement connectées , large colonnes et
données geospatiales).
NewSQL : Pour stocker les données sur des systèmes relationnels basés
sur une architecture distribuée:
Il combine les avantages de RDBMS et de NoSQL.
Il repecte les propriétés d’ACID et exécute les requêtes SQL avec une bonne
performance.
Indexation et recherche interactive : pour executer des requêttes
complexes en temps réel.
Puissants moteurs de recherche ( Search Engines) basés sur des technologies
18
19. Les technologies de Big Data : Les bases de données
Indexation et recherche interactive : pour
executer des requêttes complexes en temps reel, on
a besoin :
De puissants moteurs de recherche ( Search Engines) basés sur
des technologies avancées telles que (Lucene et Splunk )
Des outils de recherche interactive et d’interrogation des bases
de données : Cloudera search, Sphinx Search Server et Facebook
Unicorn [24] .
Et bien plus.
19
20. Les technologies de Big Data : l’exemple de NoSQL
NoSQL est un système de gestion de base de données adapté pour les systèmes distribués
et stockage de données non relationnel comme HDFS.
En effet, NoSQL ont été développées pour gérer les défis et les problèmes liés au Big
Data, y compris le stockage de différents formats de données, le besoin d’une structure
flexible ainsi que la nécessité de disposer de schémas évolutifs, rapides et des bases de
données distribuées.
Il est à noter que les systèmes NoSQL complètent mais ne remplacent pas les base de
données relationnelles (SGBDR).
Alors que les bases de données relationnelles sont principalement dédiées données
structurées et pour gérer les transactions, les solutions NoSQL ont été créés pour
résoudre les problèmes de stockage des ensembles de données non structurés.
En fait, il y a des avantages et inconvénients aux deux solutions.
Pour plus de détail voir cet article Réf. 5. . "NoSQL Databases for Big Data".
https://www.researchgate.net/search?q=NoSQL%20Databases%20for%20Big%20Data 20
21. Les technologies de Big Data :
Comparaison entre SQL et NoSQL
21
Table 2. . Comparing NoSQL and SQL
Pour plus de détail voir cet article Réf. 5. . "NoSQL Databases for Big Data".
https://www.researchgate.net/search?q=NoSQL%20Databases%20for%20Big%20Data
22. Conclusion :
L’extraction de la connaissance à partir du Big Data est cruciale
pour différents secteurs ( ex. privé, public, santé, commerce,
recherche scientifique).
L’exploitation du Big Data amène de nouveaux modèls d’affaires
basés sur la monétisation de la valeur des données et la
métamorphose des affaires.
L’extraction du savoir à partir du Big Data require des méthodes
et des technologies plus puissantes.
Des techniques puissantes ont été dévelopées afin d’assurer une
meilleure performance, plus de sécurité et d’évolutivité.
22
23. Références:
Pour approfondir vos connaissances sur Big Data et les technologies de Big Data , veuillez se référer à ces articles bien
appréciés par les lecteurs:
Ref 1 Fatima-Zahra Benjelloun, Ayoub Ait Lahcen, Samir Belfkih. « An Overview of Big Data: Opportunities, Applications
and Tools ». The first International Conference on Intelligent Systems and Computer Vision. 2015, Fez, Morocco.
(Indexed in Scopus) , Cited : 32. Link.
Ref 3. Ahmed Oussous, Fatima-Zahra Benjelloun, Ayoub Ait Lahcen, Samir Belfkih. "Big Data Technologies: A Survey".
Journal of King Saud University-Computer and Information Sciences. Volume 30, Issue 4, Pages 431-448, October 2018.
Scopus Journal Rank: 29/204 in General Computer Science Category (Indexed in Scopus), The second most-cited: 227.
Link
Ref 3. Fatima-Zahra Benjelloun, Ayoub Ait Lahcen. "Big Data Security: Challenges, Recommendations and Solutions".
Handbook of Research on Security Considerations in Cloud Computing. IGI Global, May 2015. (Indexed in Scopus). Link
Ref 4. Fatima-Zahra Benjelloun, Ayoub Ait Lahcen, Samir Belfkih. "Outlier Detection Techniques for Big Data Streams:
Focus on Cyber Security". Int. J. of Internet Technology and Secured Transactions. Août 2019, (Indexed in Scopus) Link
Ref 5. Ahmed Oussous, Fatima-Zahra Benjelloun, Ayoub Ait Lahcen, Samir Belfkih. "NoSQL Databases for Big Data". Int.
J. of Big Data Intelligence (IJBDI), vol 4:3, pp 171-185. 2017. ( Indexed in DBLP Computer Science) Link
23