NB: Ce document doit être complété par les notes du cours
Big Data
Elaboré par Dr. Souheyl MALLAT
Souheyl.mallat@gmail.com
2024-2025
Plan
● Chapitre 1 : Introduction au Big Data
● Chapitre 2: BD Nosql: MongoDB-Réplication et Sharding, Redis
● Chapitre 3 : Hadoop, MapReduce et le Big Data
● Chapitre 4 : Traitement de données et requêtage:
Pig,
Hive,
spark,
Kafka,
Elasticsearch,
Kibana,
Nifi,
Zeppelin
Projet Big Data
Architecture d’ingestion de données
airports.csv
carriers.csv
plane-data.csv
Python
script
HDFS
path=/user/<prenom>/projet
Kafka NiFi
NiFi
Elasticsearch
index=<prenom>_pane-data
index=<prenom>_airports
index=<prenom>_carriers
Topic = <prenom>_projet
Apache Spark (pyspark shell)
Développer les jobs spark permettant de répondre à ces questions :
● Quel aéroport a enregistré le plus de départs en 2005
+----+------+--------------------+--------------------+
|year|origin| airport|number_of_departures|
+----+------+--------------------+--------------------+
|2005| ATL|William B Hartsfi...| 419841|
+----+------+--------------------+--------------------+
● Nombre total de vols par transporteur en 2008
● Quel transporteur avait globalement les pires performances de ponctualité en 2007
+-------------+--------------------+-----------+
|UniqueCarrier| Description|total_delay|
+-------------+--------------------+-----------+
| EV|Atlantic Southeas...| 2832238.0|
Apache Spark / Apache Zeppelin
Développer le code spark dans un notebook Zeppelin afin de répondre à ces questions :
● l'état (US state) qui a eu le plus de vols d'arrivée en 2005
● Nombre de vols par jour de la semaine (lundi,mardi,mercredi,jeudi,vendredi,samedi,dimanche) en 2005
Apache Hive
Créer les tables Hive et développer les requêtes HiveQL permettant de répondre à
ces questions :
● Quel aéroport a enregistré le plus de vols d’arrivée en 2003
● Top 5 des transporteurs avec le plus grand nombre d'annulations en 2003
Elasticsearch / Kibana
Créer un dashboard Kibana contenant les visualisations suivantes (en 2007):
● Metric
○ nombre total de vols
● Metric
○ nombre de vols annulés
● map :
○ nombre de vols par Etat (départ)
● vertical bar chart
○ nombre de vols par mois
● pie chart
○ nombre de vols par transporteur
(top5)
● vertical bar chart
○ les causes des annulations par an
● search (tableau)
○ affichant le détail des vols
Elasticsearch / Kibana
HDFS
path=/user/<prenom>/
path=/big_data_project/flights
Spark
(data
processing)
Elasticsearch
index=<prenom>_flights_insights
load write
Kibana
dashboard=<prenom>_flights_insights
Introduction Big Data
3 Problématiques majeures pour les données massives
Volume 
Vélocité 
Variété
BIG DATA: Caractéristiques
Volume stockage
Vélocité -Traitement
Variétécollecte
BIG DATA: Caractéristiques
Le volume
Le volume
17
Les 5 V de Big Data
Question: Comment déterminer les données qui méritent d’être stockées? :
 Les données de Transactions? Logs? Métier? Utilisateur? Capteurs? Médicales? Sociales?
Volume
- Téraoctets
- Enreg. / Archives
- Transactions
- Tables, fichiers
Le volume
 Le prix de stockage des données a beaucoup diminué ces 30 dernières années:
De $100,000 / Go (1980) à $0.10 / Go (2013)
 Les lieux de stockage fiables (comme des SAN: Storage Area Network) ou réseaux
de stockage peuvent être très coûteux !
Choisir de ne stocker que certaines données, jugées sensibles
Perte de données, pouvant être très utiles.
Problèmes:
▪ Comment stocker les données dans un endroit fiable, qui soit moins cher?
▪ Comment parcourir ces données et en extraire des informations facilement et rapidement?
Réponse: Aucune donnée n’est inutile.! Certaines n’ont juste pas encore servi!
18
 Des volumes qui relèvent du Big Data à partir du
moment où ces données ne peuvent plus être traitées
en un temps "raisonnables " ou "utiles« par des
systèmes constitués d’un seul nœud.
Le volume
20
Les 5 V de Big Data
Volume
- Téraoctets
- Enreg. / Archives
- Transactions
- Tables, fichiers
La variété (Variety)
Variété
- Structurées
- Non structurées
- Probabilistes
 Pour un stockage dans des bases de données ou
dans des entrepôts de données, les données
doivent respecter un format prédéfini!
Mais!
 La plupart des données existantes sont non-structurées ou semi structurées,
 Les données sont sous plusieurs formats et types (fichiers xml, json, txt, base de
données relationnelle, etc),
La variété (Variety)
Données structurées versus Données non structurées
La variété (Variety)
Données structurées: Exemple
Semi-structuré
Exemple: fichier XML
Données non structurées: Exemple
30
Pourquoi utiliser le Big
Data? Un exemple pour illustrer tout ça!
06:00 10:00
temps
Tableau de
bord
x
y
z
32
C’est quoi le Big Data ?
Les 5 V de Big Data
 La fréquence d’arrivée des données,
 La vitesse de traitement des données,
Volume
- Téraoctets
- Enreg. / Archives
- Transactions
- Tables, fichiers
La vélocité /vitesse (Velocity)
« Au cœur du Time to Market »
Variété
- Structurées
- Non structurées
- Probabilistes
Vélocité
- Batch
- Temps réel
- Processus
- Flot de données
 Les données doivent être stockées à l’arrivée,
parfois même des Teraoctets par jour!
 Sinon, risque de les perdre!
 Les entreprises se trouvent de plus en plus au milieu d’un flux continuel
de données
Vitesse (Velocity)
Big Data
BIG DATA = V3 = VOLUME, VELOCITE, VARIETE – source Gartner
Volume : Dans les systèmes d’information en place dans les entreprises, les volumes de données traités
se mesurent en téraoctets. Le challenge immédiat de l’IT traditionnel est d’être en capacité de traiter des
Pétaoctets et bientôt des Exaoctets puis des Zettaoctets.
Vélocité : L’importance de l’immédiateté et de l’instantanéité pour recevoir ou émettre des
informations par chacun d’entre nous et pour toutes les activités, professionnelles ou personnelles, du
quotidien contraigne les organisations à améliorer leurs vitesses de réaction et d’anticipation.
L’information n’est plus statique, mais elle devient un facteur de changement dynamique
Variété : Texte, images, vidéos, quel que soit le format de l’information, les données, structurées ou
non structurées, requièrent un nouveau savoir-faire pour être assimilées puis analysées. L’exploitation
et le traitement de l’information aussi variée, tant par la forme que par le contenu, sont difficilement
réalisables en dehors du support initial.
Au-delà du relationnel ...
Le « big bang » data – commencé au début des années 2000 – a nécessité des
solutions différentes, comme des appliances des éditeurs (Oracle/Teradata …)
mais aussi des solutions NoSQL qui privilégient la haute disponibilité et la
simplicité au détriment de la cohérence
Nous allons maintenant parler du NoSQL, puis d’Hadoop qui essaye – grâce à un
écosystème de solutions sans cesse amélioré et grossi – de se positionner sur
toutes les facettes du Big Data et de devenir un « Data OS » open-­
source.
Bases de données NOSQL
● Le terme NOSQL (Not Only SQL) a été popularisé début 2009 par Johan
Oskarsson (commiter Apache, software engineer chez Slack aujourd’hui)
● Les BD NoSQL ne respectent pas forcément les propriétés ACID (Atomicité,
Cohérence, Isolation, Durabilité) des BD relationnelles
● Les BD NoSQL n’ont donc pas vocation à remplacer les BD relationnelles
● Afin d’éviter les jointures, elles poussent la dénormalisation
● Caractéristiques des Bases de Données distribuées
○ Extensibilité (Scalability)
○ Sharding
○ Théorème du CAP
Extensibilité (Scalability)
Définition : L’extensibilité est la propriété d’un système, d’un réseau ou d’un
processus qui témoigne de sa capacité à gérer des charges de travail
importantes en toute souplesse ou à être agrandi sans difficultés.
Deux types:
● Extensibilité vertical (scale up)
● Etensibilité horizontale (scale out)
Sharding (partitionnement de données)
Un shard (partition) est une division logique d'une base de données en plusieurs
parties indépendantes. Cela permet d'obtenir une capacité de stockage
supérieure à la taille des disques durs locaux ou d'effectuer des requêtes en
parallèle sur plusieurs partitions.
2 types :
● Sharding Vertical
● Sharding Horizontal
Sharding (partitionnement de données)
Sharding Horizontal : Chaque serveur stocke un
sous ensemble des données (identifié par un
intervalle de clés) d’une même table
Sharding Vertical : Les serveurs stockent
différentes tables d’une base de données
Le théorème du CAP
Théorème de Eric Brewer (VP Infrastructure @Google) évoqué lorsque l’on parle de données massivement
distribuées :
● La cohérence
● La disponibilité (Availability)
● La tolérance au partitionnement (Partition Tolerance)
⇒ seulement deux de ces postulats peuvent être appliqués en même temps en environnement distribué
Dans le cas du NOSQL : privilégier la haute disponibilité grâce à de puissantes capacités de
partitionnement, au détriment de la cohérence des données
Classification des BD NOSQL
● Clé/valeur
○ Ex: Redis, Memcached
● Orientées colonne:
○ Ex: BigTable, HBase, Cassandra, HyperTable
Classification des BD NOSQL
● Orientées document:
○ Ex: CouchDB, MongoDB, Elasticsearch
● Orientées graphe: fondées sur la théorie des graphes et basées sur des
concepts de noeuds, relations et propriétés.
○ Ex: Neo4J, FlockDB (de Twitter), OrientDB
chap1-big-data.pps pour comprendre le problème de big data

chap1-big-data.pps pour comprendre le problème de big data

  • 1.
    NB: Ce documentdoit être complété par les notes du cours Big Data Elaboré par Dr. Souheyl MALLAT Souheyl.mallat@gmail.com 2024-2025
  • 2.
    Plan ● Chapitre 1: Introduction au Big Data ● Chapitre 2: BD Nosql: MongoDB-Réplication et Sharding, Redis ● Chapitre 3 : Hadoop, MapReduce et le Big Data ● Chapitre 4 : Traitement de données et requêtage: Pig, Hive, spark, Kafka, Elasticsearch, Kibana, Nifi, Zeppelin
  • 3.
  • 4.
    Architecture d’ingestion dedonnées airports.csv carriers.csv plane-data.csv Python script HDFS path=/user/<prenom>/projet Kafka NiFi NiFi Elasticsearch index=<prenom>_pane-data index=<prenom>_airports index=<prenom>_carriers Topic = <prenom>_projet
  • 5.
    Apache Spark (pysparkshell) Développer les jobs spark permettant de répondre à ces questions : ● Quel aéroport a enregistré le plus de départs en 2005 +----+------+--------------------+--------------------+ |year|origin| airport|number_of_departures| +----+------+--------------------+--------------------+ |2005| ATL|William B Hartsfi...| 419841| +----+------+--------------------+--------------------+ ● Nombre total de vols par transporteur en 2008 ● Quel transporteur avait globalement les pires performances de ponctualité en 2007 +-------------+--------------------+-----------+ |UniqueCarrier| Description|total_delay| +-------------+--------------------+-----------+ | EV|Atlantic Southeas...| 2832238.0|
  • 6.
    Apache Spark /Apache Zeppelin Développer le code spark dans un notebook Zeppelin afin de répondre à ces questions : ● l'état (US state) qui a eu le plus de vols d'arrivée en 2005 ● Nombre de vols par jour de la semaine (lundi,mardi,mercredi,jeudi,vendredi,samedi,dimanche) en 2005
  • 7.
    Apache Hive Créer lestables Hive et développer les requêtes HiveQL permettant de répondre à ces questions : ● Quel aéroport a enregistré le plus de vols d’arrivée en 2003 ● Top 5 des transporteurs avec le plus grand nombre d'annulations en 2003
  • 8.
    Elasticsearch / Kibana Créerun dashboard Kibana contenant les visualisations suivantes (en 2007): ● Metric ○ nombre total de vols ● Metric ○ nombre de vols annulés ● map : ○ nombre de vols par Etat (départ) ● vertical bar chart ○ nombre de vols par mois ● pie chart ○ nombre de vols par transporteur (top5) ● vertical bar chart ○ les causes des annulations par an ● search (tableau) ○ affichant le détail des vols
  • 9.
  • 10.
  • 11.
    3 Problématiques majeurespour les données massives Volume  Vélocité  Variété BIG DATA: Caractéristiques
  • 12.
  • 15.
  • 16.
  • 17.
    17 Les 5 Vde Big Data Question: Comment déterminer les données qui méritent d’être stockées? :  Les données de Transactions? Logs? Métier? Utilisateur? Capteurs? Médicales? Sociales? Volume - Téraoctets - Enreg. / Archives - Transactions - Tables, fichiers Le volume  Le prix de stockage des données a beaucoup diminué ces 30 dernières années: De $100,000 / Go (1980) à $0.10 / Go (2013)  Les lieux de stockage fiables (comme des SAN: Storage Area Network) ou réseaux de stockage peuvent être très coûteux ! Choisir de ne stocker que certaines données, jugées sensibles Perte de données, pouvant être très utiles. Problèmes: ▪ Comment stocker les données dans un endroit fiable, qui soit moins cher? ▪ Comment parcourir ces données et en extraire des informations facilement et rapidement? Réponse: Aucune donnée n’est inutile.! Certaines n’ont juste pas encore servi!
  • 18.
    18  Des volumesqui relèvent du Big Data à partir du moment où ces données ne peuvent plus être traitées en un temps "raisonnables " ou "utiles« par des systèmes constitués d’un seul nœud. Le volume
  • 20.
    20 Les 5 Vde Big Data Volume - Téraoctets - Enreg. / Archives - Transactions - Tables, fichiers La variété (Variety) Variété - Structurées - Non structurées - Probabilistes  Pour un stockage dans des bases de données ou dans des entrepôts de données, les données doivent respecter un format prédéfini! Mais!  La plupart des données existantes sont non-structurées ou semi structurées,  Les données sont sous plusieurs formats et types (fichiers xml, json, txt, base de données relationnelle, etc),
  • 21.
  • 22.
    Données structurées versusDonnées non structurées La variété (Variety)
  • 24.
  • 26.
  • 28.
  • 30.
    30 Pourquoi utiliser leBig Data? Un exemple pour illustrer tout ça! 06:00 10:00 temps Tableau de bord x y z
  • 32.
    32 C’est quoi leBig Data ? Les 5 V de Big Data  La fréquence d’arrivée des données,  La vitesse de traitement des données, Volume - Téraoctets - Enreg. / Archives - Transactions - Tables, fichiers La vélocité /vitesse (Velocity) « Au cœur du Time to Market » Variété - Structurées - Non structurées - Probabilistes Vélocité - Batch - Temps réel - Processus - Flot de données  Les données doivent être stockées à l’arrivée, parfois même des Teraoctets par jour!  Sinon, risque de les perdre!  Les entreprises se trouvent de plus en plus au milieu d’un flux continuel de données
  • 33.
  • 34.
    Big Data BIG DATA= V3 = VOLUME, VELOCITE, VARIETE – source Gartner Volume : Dans les systèmes d’information en place dans les entreprises, les volumes de données traités se mesurent en téraoctets. Le challenge immédiat de l’IT traditionnel est d’être en capacité de traiter des Pétaoctets et bientôt des Exaoctets puis des Zettaoctets. Vélocité : L’importance de l’immédiateté et de l’instantanéité pour recevoir ou émettre des informations par chacun d’entre nous et pour toutes les activités, professionnelles ou personnelles, du quotidien contraigne les organisations à améliorer leurs vitesses de réaction et d’anticipation. L’information n’est plus statique, mais elle devient un facteur de changement dynamique Variété : Texte, images, vidéos, quel que soit le format de l’information, les données, structurées ou non structurées, requièrent un nouveau savoir-faire pour être assimilées puis analysées. L’exploitation et le traitement de l’information aussi variée, tant par la forme que par le contenu, sont difficilement réalisables en dehors du support initial.
  • 35.
    Au-delà du relationnel... Le « big bang » data – commencé au début des années 2000 – a nécessité des solutions différentes, comme des appliances des éditeurs (Oracle/Teradata …) mais aussi des solutions NoSQL qui privilégient la haute disponibilité et la simplicité au détriment de la cohérence Nous allons maintenant parler du NoSQL, puis d’Hadoop qui essaye – grâce à un écosystème de solutions sans cesse amélioré et grossi – de se positionner sur toutes les facettes du Big Data et de devenir un « Data OS » open-­ source.
  • 36.
    Bases de donnéesNOSQL ● Le terme NOSQL (Not Only SQL) a été popularisé début 2009 par Johan Oskarsson (commiter Apache, software engineer chez Slack aujourd’hui) ● Les BD NoSQL ne respectent pas forcément les propriétés ACID (Atomicité, Cohérence, Isolation, Durabilité) des BD relationnelles ● Les BD NoSQL n’ont donc pas vocation à remplacer les BD relationnelles ● Afin d’éviter les jointures, elles poussent la dénormalisation ● Caractéristiques des Bases de Données distribuées ○ Extensibilité (Scalability) ○ Sharding ○ Théorème du CAP
  • 37.
    Extensibilité (Scalability) Définition :L’extensibilité est la propriété d’un système, d’un réseau ou d’un processus qui témoigne de sa capacité à gérer des charges de travail importantes en toute souplesse ou à être agrandi sans difficultés. Deux types: ● Extensibilité vertical (scale up) ● Etensibilité horizontale (scale out)
  • 38.
    Sharding (partitionnement dedonnées) Un shard (partition) est une division logique d'une base de données en plusieurs parties indépendantes. Cela permet d'obtenir une capacité de stockage supérieure à la taille des disques durs locaux ou d'effectuer des requêtes en parallèle sur plusieurs partitions. 2 types : ● Sharding Vertical ● Sharding Horizontal
  • 39.
    Sharding (partitionnement dedonnées) Sharding Horizontal : Chaque serveur stocke un sous ensemble des données (identifié par un intervalle de clés) d’une même table Sharding Vertical : Les serveurs stockent différentes tables d’une base de données
  • 40.
    Le théorème duCAP Théorème de Eric Brewer (VP Infrastructure @Google) évoqué lorsque l’on parle de données massivement distribuées : ● La cohérence ● La disponibilité (Availability) ● La tolérance au partitionnement (Partition Tolerance) ⇒ seulement deux de ces postulats peuvent être appliqués en même temps en environnement distribué Dans le cas du NOSQL : privilégier la haute disponibilité grâce à de puissantes capacités de partitionnement, au détriment de la cohérence des données
  • 41.
    Classification des BDNOSQL ● Clé/valeur ○ Ex: Redis, Memcached ● Orientées colonne: ○ Ex: BigTable, HBase, Cassandra, HyperTable
  • 42.
    Classification des BDNOSQL ● Orientées document: ○ Ex: CouchDB, MongoDB, Elasticsearch ● Orientées graphe: fondées sur la théorie des graphes et basées sur des concepts de noeuds, relations et propriétés. ○ Ex: Neo4J, FlockDB (de Twitter), OrientDB

Notes de l'éditeur

  • #1 Traitement de Big Data Avancé
  • #2 Chapitre 1: Introduction à Big Data • Chapitre 2: Hadoop – Généralité – Architecture HDFS – Algorithme MapRduce – Installation et configuration Hadoop (TP inclus) • Chapitre 3: Utilisation de Hadoop – Manipulation de HDFS – Développement d’une application MapReduce – TP inclus • Chapitre 4: Spark – TP inclus • Chapitre 5: NoSQL • Chapitre 6: HBase, MangoDB – TP inclus -----MongoDB - Réplication et Sharding PLAN Introduction MongoDB – Réplication et Sharding Le Phénomène Big Data Un peu d’Histoire Notions Les Problématiques des Big Data Challenges & Problématiques Stockage Traitement Collecte Lambda Architecture Domaines de Recherche
  • #4 Video 02/01/ https://hellichbucket.s3.eu-west-3.amazonaws.com/carriers.csv https://hellichbucket.s3.eu-west-3.amazonaws.com/airports.csv https://hellichbucket.s3.eu-west-3.amazonaws.com/plane-data.csv
  • #5 Chemin hdfs pour airports.csv, carriers.csv, plane-data.csv sous /user/ec2-user/project_big_data https://spark.apache.org/docs/2.3.2/api/python/pyspark.sql.html
  • #6 PS: il faut pas compter les vols annulés (Cancelled=1)
  • #8 Il faut appliquer un pré-processing des données avec Spark et pousser que les données nécessaires à la création du Dashboard dans Elasticsearch
  • #11  BIG DATA: Caractéristiques • COUVERTURE DE CINQ DIMENSIONS - 5Vs (1/2)  Gartner (2001) – 3Vs  IBM (2012) – 4Vs  2015 : encore plus de V VOLUME VARIETE VELOCITE VOLUME VARIETE VELOCITE VERACITE VALEUR Volume stockage Vélocité -Traitement Variétécollecte
  • #12 Volume Le nom Big Data lui-même contient le terme “énorme”. La taille des données joue un rôle très crucial dans la détermination de la valeur(insights) des données. De plus, le fait de savoir si une donnée particulière peut réellement être considérée comme un Big Data ou non dépend du volume de données. Par conséquent, le «volume» est une caractéristique qui doit être prise en compte lors du traitement des mégadonnées. Le prochain aspect est sa variété. --- https://fr.slideshare.net/LiliaSfaxi/thinking-big-48033518
  • #16 -Un ERP (Enterprise Resource Planning) ou encore parfois appelé PGI (Progiciel de Gestion Intégré) est un système d'information qui permet de gérer et suivre au quotidien, l'ensemble des informations et des services opérationnels d'une entreprise. - Gestion de la Relation Client en Français, c'est l'art de créer, développer et entretenir une relation privilégiée avec chacun de vos contacts.
  • #17 La solution été de choisir de ne stocker que.. Et la perte ---- Volume (1/2) • Croissance sans cesse des données à gérer de tout type, souvent en teraoctets voir en petaoctets. • Chaque jour, 2.5 trillions d’octets de données sont générées. • 90% des données créées dans le monde l’ont été au cours des 2 dernières années (2014). • Prévision d’une croissance de 800% des quantités de données à traiter d’ici à 5 ans.
  • #20 Les données sont sous plusieurs formats et types (fichiers xml, json, txt, base de données relationnelle, etc), Certaines données peuvent paraître obsolètes, mais sont utiles pour certaines décisions. Variété La variété fait référence à des sources hétérogènes et à la nature des données, à la fois structurées et non structurées. Auparavant, les feuilles de calcul et les bases de données étaient les seules sources de données prises en compte par la plupart des applications. De nos jours, les données sous forme de courriels, photos, vidéos, appareils de surveillance, PDF, audio, etc. sont également prises en compte dans les applications d’analyse. Cette variété de données non structurées pose certains problèmes pour le stockage, l’extraction et l’analyse des données. --- Un exemple typique d’utilisation de données hétéroclites est celui d’un croisement entre des données contenues dans un CRM (gestionnaire de la relation client), des données géolocalisation, des données extraites d’un réseau social qui collectivement permettont d’enrichir un profil utilisateur avec des informations à caractère affectif très souvent corrélées au déclenchement d’un acte d’achat! ----------------------- Variété • Traitement des données sous forme structurée (bases de données structurée, feuilles de calcul venant de tableur, …) et non structurée (textes, sons, images, vidéos, données de capteurs, fichiers journaux, medias sociaux, signaux,…) qui doivent faire l’objet d’une analyse collective. • Diversité des données Variété
  • #21 https://www.digitalwallonia.be/fr/publications/big-data-la-revolution-des-donnees On peut d'autre part envisager deux grandes catégories de données: les données structurées. Ce sont les données que l'on peut facilement organiser par rangées et colonnes, et qui sont traditionnellement gérées dans des bases de données. Il s'agit notamment des données liées au fonctionnement habituel des entreprises et organisations (stocks, comptabilité, finances, ressources humaines, statistiques, études scientifiques, ...) les données non structurées. Déjà présentes sous la forme de la production bureautique non organisée, ces données se multiplient de manière exponentielle et incontrôlable avec les plateformes de crowdsourcing, le mobile et l'Internet des objets. Par leur volume, leur vitesse d'acquisition et la variété de leurs formats, elles nécessitent de nouveaux outils pour leur stockage, leur traitement et leur analyse. C'est à leur développement que correspond la naissance du Big Data. Les 3, 4, 5, ... 6 V du Bi
  • #22 Variété (2) Données structurées versus Données non structurées I Données structurées : Données que l’on peut clairement codifier et identifier. I Les données d’un tableur sont typiquement des données structurées. I On peut comprendre leurs significations en croisant les titres de la ligne et colonne dans laquelle se trouent les données. ⇒ Les systèmes d’analyse algorithmique ont depuis toujours été développés pour traiter ce type de données. I Données non structurées : Données qui ne répondent pas à un codage qui per- met d’en tirer de l’infor- mation. I C’est en analysant les contenus des messages que l’on déduit l’informa- tion : fichiers texte, au- dio, vidéo, etc. que l’on peut clairement codifier et identifier. 
  • #24 Une table d’employés dans une base de données est un exemple de données structurés.
  • #25 https://cours.etsmtl.ca/log660/public_docs/acetates/BigData_Technologies_PL.pdf
  • #26 Semi-structuré Les données semi-structurées peuvent contenir les deux formes de données. Nous pouvons voir les données semi-structurées comme une forme structurée, mais elles ne sont en fait pas définies avec par exemple une définition de table dans un SGBD relationnel. Un exemple de données semi-structurées est une donnée représentée dans un fichier XML.
  • #27 Sur des outils analytiques
  • #28 Non structuré Toutes les données de forme ou de structure inconnue sont classées comme données non structurées. En plus d’être de taille énorme, les données non structurées posent de multiples défis en termes de traitement pour en tirer de la valeur. Un exemple typique de données non structurées est une source de données hétérogène contenant une combinaison de simples fichiers texte, images, vidéos, etc. Aujourd’hui, les organisations disposent de nombreuses données mais malheureusement, elles ne savent pas comment en tirer de la valeur depuis ces données sont dans leur forme brute ou dans un format non structuré. Un exemple de données non structurée est le résultat d’une recherche google.
  • #29 Donc les entrprise dispose les differents types de données qui pourront passer par un pipeline qui tiendra la possibilité de le traiter pour faire tte sorte d’anayse
  • #30 JavaScript Object Notation (JSON) est un format de données textuelles dérivé de la notation des objets du langage JavaScript. Il permet de représenter de l’information structurée comme le permet XML par exemple
  • #31 Vitesse ou Vélocité Le terme «vitesse» fait référence à la vitesse de génération des données. La rapidité avec laquelle les données sont générées et traitées. La vélocité du Big Data traite de la vitesse à laquelle les données circulent à partir de sources telles que les processus métier, les journaux d’applications, les réseaux et les sites de médias sociaux, les capteurs, les appareils mobiles, etc. Le flux de données est massif et continu.
  • #32 Les entreprises se trouvent de plus en plus au milieu d’un flux continuel de données, qu’il soit interne ou externe! Exemple 2: ▪ Il ne suffit pas de savoir quel article un client a acheté ou réservé ▪ Si on sait que vous avez passé plus de 5mn à consulter un article dans une boutique d’achat en ligne, il est possible de vous envoyer un email dès que cet article est soldé.
  • #33 Vitesse (Velocity) • Utilisation des données en temps réel (pour la détection de fraudes, analyse des données, …). • Fait référence à la vitesse à laquelle de nouvelles données sont générées et la vitesse à laquelle les données sont traitées par le système pour être bien analysées. • La technologie nous permet maintenant d'analyser les données pendant qu’elles sont générées, sans jamais mettre en bases de données. • Streaming Data  des centaines par seconde • 100 Capteurs  dans chaque voiture moderne pour la surveillance 
  • #34 https://www.gartner.com/en/information-technology/glossary/big-data
  • #36 Les BD NoSQL n’ont donc pas vocation à remplacer les BD relationnelles Les bases de données NoSQL (Not Only SQL) sont conçues pour gérer les données de manière différente par rapport aux systèmes de gestion de base de données relationnelle (SQL). L'une des caractéristiques clés des bases de données NoSQL est qu'elles sont souvent utilisées pour stocker des données non structurées ou semi-structurées, telles que des données JSON, XML Afin d’éviter les jointures, elles poussent la dénormalisation -contrairement aux bases de données relationnelles qui encouragent généralement la normalisation (c'est-à-dire la division des données en plusieurs tables pour minimiser la redondance), les bases de données NoSQL tendent à stocker les données de manière dénormalisée. En d'autres termes, les données sont souvent stockées sous une forme plus "plate" ou "denormalisée", avec des informations redondantes ou fortement imbriquées pour faciliter les opérations de lecture. car les jointures peuvent ralentir considérablement les opérations de lecture dans les bases de données relationnelles NoSQL, les données sont souvent structurées de manière à être accessibles rapidement, même si cela signifie que certaines données sont répétées dans plusieurs endroits. Caractéristiques des Bases de Données distribuées
  • #37 C’est la proporieté d’un système d’un réseau ou d’un processus qui témoigne de sa capacité à gérer des charges de travail importantes en tte souplesse ou a etre agrandir sans difficulté
  • #40 1 http://www.cs.berkeley.edu/~brewer/cs262b-­‐2004/PODC-­‐keynote.pdf
  • #42 "Bonjour Asma, J'espère que tu vas bien. Je suis à la faculté toute l'après-midi. Si tu es disponible, est-ce que nous pourrions nous réunir plus tard pour discuter des travaux pratiques (TP) ? Fais-moi savoir quand tu es libre. Merci !"