2. Description du cours
Comprendre les
concepts clés du Big
Data et son impact sur
les entreprises et la
société
Examiner les
technologies et les outils
utilisés pour le stockage
et la gestion des
données volumineuses
Apprendre les principes
du Data Warehousing et
son rôle dans la prise de
décisions stratégiques
Acquérir des
compétences pratiques
dans l'analyse et la
manipulation de grands
ensembles de données
Explorer les meilleures
pratiques pour
l'architecture de Data
Warehousing et la
modélisation de données
Introduction au Big Data
Définitions et
caractéristiques du Big
Data
Cas d'utilisation et
impact sur les
entreprises et la société
Les 3 V du Big Data :
Volume, Vitesse et
Variété
Technologies et outils de
Big Data
3. Description du cours
Systèmes de
fichiers distribués
Frameworks de
traitement
distribué
Bases de
données NoSQL
Plateformes de
streaming
Collecte et
ingénierie des
données
Méthodes
d'acquisition des
données
Prétraitement des
données et
nettoyage
Intégration de
données
provenant de
sources multiples
Stockage et
gestion des
données
volumineuses
Systèmes de
gestion de bases
de données
distribuées
4. Description du cours
Stockage en
colonnes et en
lignes
Compression et
partitionnement
des données
Introduction au
Data
Warehousing
Concepts de
base et
architecture du
Data Warehouse
ETL : processus
d'intégration des
données
Modélisation
dimensionnelle
et modélisation
en étoile
Requêtes OLAP
Analyse des
données et
visualisation
5. Outils d'exploration et d'analyse des données
Techniques de data
mining et de fouille
de données
Visualisation des
données et tableaux
de bord
Tendances et défis
du Big Data et du
Data Warehousing
Intelligence artificielle
et apprentissage
automatique
appliqués au Big
Data
Analyse en temps
réel et streaming de
données
Évolutivité et
performances des
systèmes de Big
Data
Examens écrits pour
évaluer la
compréhension des
concepts clés
Projets pratiques
impliquant la collecte,
le stockage et
l'analyse de données
à grande échelle
Participation en
classe et discussions
sur les sujets
abordés
7. I. Définitions et
caractéristiques
du Big Data
LE BIG DATA EST UN CONCEPT QUI ENGLOBE
DES VOLUMES MASSIFS DE DONNÉES, LA
VARIÉTÉ DES SOURCES ET DES FORMATS DE
DONNÉES, AINSI QUE LA VITESSE À LAQUELLE
LES DONNÉES SONT GÉNÉRÉES, TRAITÉES
ET ANALYSÉES
CETTE SECTION EXPLORERA LES
DIFFÉRENTES DÉFINITIONS DU BIG DATA ET
METTRA EN ÉVIDENCE LES ASPECTS
ESSENTIELS QUI LE DÉFINISSENT
8. Définitions du
Big Data
GARTNER: "LE BIG DATA EST UN ENSEMBLE
DE DONNÉES DE GRANDE TAILLE, GÉNÉRÉ À
UNE VITESSE ÉLEVÉE ET PROVENANT DE
DIVERSES SOURCES, QUI NÉCESSITE DE
NOUVELLES TECHNOLOGIES ET MÉTHODES
DE TRAITEMENT POUR ÊTRE EXPLOITÉ."
IBM: "LE BIG DATA EST UN TERME UTILISÉ
POUR DÉCRIRE LES ENSEMBLES DE
DONNÉES VOLUMINEUX ET COMPLEXES QUI
SONT COLLECTÉS À PARTIR DE DIVERSES
SOURCES. CES ENSEMBLES DE DONNÉES
SONT TROP VOLUMINEUX ET COMPLEXES
POUR ÊTRE TRAITÉS À L'AIDE DES MÉTHODES
DE TRAITEMENT DE DONNÉES
TRADITIONNELLES. LE BIG DATA PEUT ÊTRE
UTILISÉ POUR EN SAVOIR PLUS SUR LE
COMPORTEMENT DES CLIENTS, IDENTIFIER
LES TENDANCES ET PRENDRE DE
MEILLEURES DÉCISIONS."
9. Définitions du
Big Data
McKinsey & Company: "Le Big Data est la capacité
à collecter, stocker et analyser des ensembles de
données volumineux et complexes pour en tirer des
informations qui ne seraient pas possibles à l'aide
des méthodes de traitement de données
traditionnelles. Le Big Data peut être utilisé pour
améliorer la prise de décision, identifier de
nouvelles opportunités et résoudre des problèmes
complexes."
IDC: "Le Big Data est un ensemble de données de
grande taille, généré à une vitesse élevée et
provenant de diverses sources, qui nécessitent de
nouvelles formes de traitement pour permettre une
prise de décision améliorée, la découverte
d'informations et l'optimisation des processus."
11. Exemples de sources de données à grande échelle
La compréhension des
définitions et des
caractéristiques du Big Data est
essentielle pour saisir la
complexité et les opportunités
qui en découlent
Le Big Data se caractérise par
son volume massif, sa variété
de sources et de formats de
données, ainsi que par sa
vitesse de génération et de
traitement
Les exemples de sources de
données à grande échelle, tels
que les réseaux sociaux, les
capteurs IoT et les données
transactionnelles, mettent en
évidence la diversité et
l'ampleur des données qui
alimentent le Big Data
12. II. Impact du Big Data sur les entreprises et la société
Le Big Data a un
impact significatif sur
les entreprises et la
société dans son
ensemble
Cette partie examinera
les différentes facettes
de cet impact, mettant
en évidence les
opportunités, les défis
et les risques associés
13. Opportunités
offertes par le
Big Data
LE BIG DATA OUVRE DE
NOUVELLES PERSPECTIVES
POUR LES ENTREPRISES EN
TERMES DE PRISE DE
DÉCISIONS STRATÉGIQUES,
D'INNOVATION, DE
DÉVELOPPEMENT DE
PRODUITS ET DE SERVICES,
AINSI QUE D'AMÉLIORATION
DE L'EXPÉRIENCE CLIENT
LES DONNÉES MASSIVES
COLLECTÉES PERMETTENT
AUX ENTREPRISES DE MIEUX
COMPRENDRE LES
TENDANCES DU MARCHÉ,
LES PRÉFÉRENCES DES
CONSOMMATEURS ET LES
BESOINS ÉMERGENTS
CELA LEUR PERMET DE
PRENDRE DES DÉCISIONS
ÉCLAIRÉES, DE DÉVELOPPER
DE NOUVEAUX PRODUITS ET
SERVICES INNOVANTS ET DE
PERSONNALISER
L'EXPÉRIENCE CLIENT POUR
AMÉLIORER LA
SATISFACTION ET FIDÉLISER
LA CLIENTÈLE
15. Chapitre 2 : Technologies et outils pour le stockage et le traitement
des données à grande échelle
Les systèmes de fichiers distribués,
tels que Hadoop Distributed File
System et Amazon Simple Storage
Service
Les bases de données NoSQL, telles
que MongoDB, Cassandra et CouchDB
Les magasins de données en mémoire,
tels que Redis et Memcached
Les outils d'analyse de données, tels qu’Apache
Spark, Apache Hadoop et MapReduce
Les outils de visualisation des données, tels que
Tableau, QlikView et Power BI
Les outils d'apprentissage automatique, tels que
scikit-learn, TensorFlow et PyTorch
16. HDFS
La couche NameNode :
elle stocke la
métadonnée des
fichiers, telles que leur
emplacement, leur
taille et leur propriétaire
La couche DataNode :
elle stocke les données
des fichiers sur les
machines du cluster
17. S3
S3 EST UN SERVICE DE
STOCKAGE EN NUAGE
PROPOSÉ PAR AMAZON WEB
SERVICES
IL EST CONÇU POUR STOCKER
DE GRANDES QUANTITÉS DE
DONNÉES DE MANIÈRE
ÉVOLUTIVE ET RENTABLE
S3 EST UN SERVICE TRÈS
FIABLE ET SÉCURISÉ
18. Bases de
données
NoSQL
LES BASES DE DONNÉES
NOSQL SONT DES BASES DE
DONNÉES CONÇUES POUR
STOCKER DE GRANDES
QUANTITÉS DE DONNÉES NON
STRUCTURÉES
ELLES SONT TRÈS
DIFFÉRENTES DES BASES DE
DONNÉES RELATIONNELLES
TRADITIONNELLES, QUI SONT
CONÇUES POUR STOCKER DES
DONNÉES STRUCTURÉES
CES BASES DE DONNÉES SONT
TRÈS SCALABLES ET PEUVENT
ÊTRE UTILISÉES POUR
STOCKER DE GRANDES
QUANTITÉS DE DONNÉES DE
DIFFÉRENTS FORMATS
19. Magasins de
données en
mémoire
LES MAGASINS DE DONNÉES EN
MÉMOIRE SONT DES SYSTÈMES
DE STOCKAGE QUI STOCKENT
LES DONNÉES EN MÉMOIRE VIVE
ILS SONT TRÈS RAPIDES ET
PEUVENT ÊTRE UTILISÉS POUR
TRAITER DE GRANDES
QUANTITÉS DE DONNÉES EN
TEMPS RÉEL
LES MAGASINS DE DONNÉES EN
MÉMOIRE SONT SOUVENT
UTILISÉS POUR L'ANALYSE DE
DONNÉES ET LE TRAITEMENT
DES TRANSACTIONS
20. Outils d'analyse
de données
LES OUTILS D'ANALYSE DE
DONNÉES SONT DES
LOGICIELS QUI PERMETTENT
DE TRAITER DES DONNÉES À
GRANDE ÉCHELLE
IL EXISTE DE NOMBREUX
OUTILS D'ANALYSE DE
DONNÉES, TELS QUE APACHE
SPARK, APACHE HADOOP ET
MAPREDUCE
CES OUTILS PEUVENT ÊTRE
UTILISÉS POUR TRAITER DES
DONNÉES DE DIFFÉRENTS
FORMATS, TELS QUE DES
DONNÉES STRUCTURÉES,
DES DONNÉES NON
STRUCTURÉES ET DES
DONNÉES EN TEMPS RÉEL
21. Outils de
visualisation
des données
LES OUTILS DE
VISUALISATION DES
DONNÉES SONT DES
LOGICIELS QUI PERMETTENT
DE REPRÉSENTER DES
DONNÉES SOUS FORME DE
GRAPHIQUES, DE TABLEAUX
ET DE CARTES
ILS SONT UTILISÉS POUR
RENDRE LES DONNÉES PLUS
FACILES À COMPRENDRE ET
À INTERPRÉTER
CES OUTILS PEUVENT ÊTRE
UTILISÉS POUR VISUALISER
DES DONNÉES DE
DIFFÉRENTS FORMATS, TELS
QUE DES DONNÉES
STRUCTURÉES, DES
DONNÉES NON
STRUCTURÉES ET DES
DONNÉES EN TEMPS RÉEL
22. Outils d'apprentissage automatique
Les outils d'apprentissage
automatique sont des
logiciels qui permettent
aux machines d'apprendre
sans être explicitement
programmées
Ils sont utilisés pour
identifier des modèles et
des tendances dans les
données, et pour prendre
des décisions
Ces outils peuvent être
utilisés pour traiter des
données de différents
formats, tels que des
données structurées, des
données non structurées
et