SlideShare une entreprise Scribd logo
1  sur  79
Télécharger pour lire hors ligne
BIG DATA
Contexte
Défis
Technologies
Applications
Mohamed Ramzi Haddad
Maître assistant en informatique, ENIT
Chercheur au laboratoire RIADI, ENSI
Haddad.medramzi@gmail.com
Université de la Manouba
Institut Supérieur des Arts Multimédias
JOURNÉES
SCIENTIFIQUES
PLURIDISCIPLINAIRES
Recherche et Innovation à l'Ère du Numérique Massif
JSP ISAMM, Septembre 2018 Big data, Mohamed Ramzi Haddad
Plan
Genèse Sources Acquisition
Stockage Analyse
Architectures et
technologies
Applications
2Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
GENÈSE
- Contexte
- Problématique
- Défis
- Intérêt
3Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
Contexte
• Démocratisation de l’accès à internet
• Explosion de l’offre sur internet
• Temps d’usage de l’internet
• Usage des smartphones
• Emergence & adoption de l’IoT
• 30 milliards d’objets déployés
• Explosion du volume des données*
• 500 exabyte en 2009
• 2,7 zettabyte en 2012
• 35 zettabyte en 2020
• Diminution des coûts de stockage et de calcul
• 80% de données non structurées*
• 1/3 des entreprises n’ont pas confiance dans les données
qu’elles utilisent*
*https://www.slideshare.net/SwissHUG/ibm-big-data-platform-nov-2012
https://www.backblaze.com/blog/hard-drive-cost-per-gigabyte/
4Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
Problématique
• Nouvel ordre de grandeur
• Volume
• Vélocité
• Variété
• Véracité
• Données dépassant
• L’intuition humaine (analyse, imagination, conceptualisation)
• Les outils (sestion, analyse, visualisation)
• Les infrastructures (stockage, transport)
5Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
Défis
• Passage à l’échelle
• Capturer, gérer, analyser ces données massives
• Extraire les connaissances, prendre décision et agir
• Extraire de la valeur ajoutée
• Recherche & Innovation
• Infrastructures matérielles (calcul, stockage, réseaux)
• Algorithmes & logiciels (ingestion, analyse, modélisation,
prédiction, etc.)
• Ethique
• Respect de la vie privée
• Droits
6Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
Intérêts
Le big data et l’intelligence artificielle :
• Parmi les plus grands défis informatiques de la décennie
• Priorités en recherche et développement
• Priorités & opprtunités pour les entreprises
• Marché en pleine expansion
• Compétences à forte demande
7Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
Intérêts (2)
8Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
https://www.forbes.com/sites/louiscolumbus/2017/05/13/ibm-predicts-demand-for-data-scientists-will-soar-28-by-2020/#3d3e38187e3b
GENÈSE
- Contexte
- Problématique
- Défis
- Intérêt
3Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
Sources de données big data
• Données du Web
• Textuelle
• Multimédias
• sociales
• Données de l’entreprise
• Clients
• Produits
• Service et offres
• Transactions
• Données de l’IoT
• Télémétrie
• Interactions
• Mobilité
• Données médicales
10Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
ACQUISITION
- Collection
- Transport
- Prétraitement
11Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
Collection
• Fichiers de journalisation (logs)
• Systèmes d’informations
• Bases de données
• Capteurs
• Equipements mobiles
• Surveillance des réseaux
12Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
Transport
• Réseaux et protocoles
• Nouvelles technologies et
architecture réseau : DAS, NAS,
SAN, RAID
13Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
Contexte
• Démocratisation de l’accès à internet
• Explosion de l’offre sur internet
• Temps d’usage de l’internet
• Usage des smartphones
• Emergence & adoption de l’IoT
• 30 milliards d’objets déployés
• Explosion du volume des données*
• 500 exabyte en 2009
• 2,7 zettabyte en 2012
• 35 zettabyte en 2020
• Diminution des coûts de stockage et de calcul
• 80% de données non structurées*
• 1/3 des entreprises n’ont pas confiance dans les données
qu’elles utilisent*
*https://www.slideshare.net/SwissHUG/ibm-big-data-platform-nov-2012
https://www.backblaze.com/blog/hard-drive-cost-per-gigabyte/
4Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
STOCKAGE
- Infrastructures
- Mécanismes
- Bases de données
15Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
Stockage distribué
• Théorème CAP (Brewer, 2000) : Il est impossible pour un
système distribué de garantir au même temps les trois critères
• Consistance/cohérence:
• Disponibilité
• Résilience/tolérance au partitionnement
• Compromis
• CA : BD relationnelles à petite échelle
• CP : Systèmes à charge moyenne
• AP : Consistance éventuelle, grande
charge, précision modérée
16Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
Mécanismes de stockage
• Modèles de stockage
• Block : Amazon EBS, OpenStack cinder
• Fichier : systèmes de fichiers (GFS, Colossus, HDFS, COSMOS,
TFS and FastDFS)
• Objet : Amazon S3, OpenStack Swift
• Bases de données :
• Clé/Valeur
• Orientées documents
• Orientées colonnes
• Graphes
• Autres types
• Modèles de programmation
• MapReduce, Dryad, Pregel
17Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
BD Clé/valeur
• Principes :
• Chaque donnée (simple ou complexe) est identifiée par une clé.
• Les clés sont uniques et sont le seul moyen de rechercher les
données.
• Exemples : DynamoDB, Memcached, Redis, RIAK, Voldemort
• Avantages:
• Structure associative simple
• Modèle de données simple
• Requêtes simples
• Performances accrues
• Inconvénients:
• Modèle de données trop simple pour les entités complexes
• Requêtes par clé seulement
18Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
BD Clé/valeur - Exemple
19Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
BD Orientées documents
• Principes :
• Etend le modèle clé/valeur pour pouvoir gérer des données plus
complexes.
• Les entrées (documents) n’ont pas de schéma fixe.
• Les champs indexables ayant des valeurs simples ou composites.
• Exemples : MongoDB, CouchDB, SimpleDB, Couchbase
• Avantages :
• Représentation simple des documents : JSON, XML, BSON
• Flexibilité et richesse de la structure (scheamless)
• Requêtes simples et riche
• Inconvénients :
• Interrogation des hiérarchies complexes (données imbriquées)
• Difficulté de représenter les associations
20Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
BD Orientées documents - Exemple
{
"ProductID": "123112",
"Manufacturer": "Apple"
"Model" : "iPhone",
"Memory":"8GB",
"Color":"Gold"
}
{
"ProductID": "146177",
"Manufacturer": "Samsung",
"OS" : "Android",
"Model" : "Galaxy S7",
"Memory": "32GB",
"Warrantee" : "US Warrantee"
"Lock" "Lock Free"
}
{
"ProductID": "123112",
"Manufacturer":
"Samsung",
"OS" : "Android",
"Model" : "Galaxy J7",
"Color": "Gold",
"SIM": "Dual Sim"
}
21Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
Problématique
• Nouvel ordre de grandeur
• Volume
• Vélocité
• Variété
• Véracité
• Données dépassant
• L’intuition humaine (analyse, imagination, conceptualisation)
• Les outils (sestion, analyse, visualisation)
• Les infrastructures (stockage, transport)
5Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
BD Orientées documents - Exemple (3)
• Modélisation du profil d’un utilisateurs d’un site d’actualité
• MongoDB (JSON)
Haddad, M. R.; Baazaoui, H. & Ficel, H., A Scalable and Interactive Recommendation Model for Users’ Interests Prediction
International Journal of Information Technology & Decision Making, 2018
23Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
BD orientées colonnes
• Principes :
• Stockage et traitement des données par colonnes.
• Les informations concernant une entité peuvent se trouver
distribuées.
• Exemples : BigTable, Cassandra, Hbase, Hypertable
• Avantages :
• Passage à l’échelle facile
• Performances
• Données indexées automatiquement par colonne
• Inconvénients :
• Non adaptées aux données fortement connectées.
• Flexibilité moyenne lors de changements des structures de données.
24Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
BD orientées colonnes (2)
25Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
BD graphes
• Principes :
• modéliser les objets ainsi que leurs relations sous forme d’un
graphe (noeuds, d’arcs et d’adjecence).
• La recherche se fait par exploration du graphe
• Exemples : Neo4j, OrientDB
• Caractéristiques :
• Flexibilité du modèle des données
• Performances
• Modélisation simple
• Requêtes simple
26Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
Défis
• Passage à l’échelle
• Capturer, gérer, analyser ces données massives
• Extraire les connaissances, prendre décision et agir
• Extraire de la valeur ajoutée
• Recherche & Innovation
• Infrastructures matérielles (calcul, stockage, réseaux)
• Algorithmes & logiciels (ingestion, analyse, modélisation,
prédiction, etc.)
• Ethique
• Respect de la vie privée
• Droits
6Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
Défis
• Passage à l’échelle
• Capturer, gérer, analyser ces données massives
• Extraire les connaissances, prendre décision et agir
• Extraire de la valeur ajoutée
• Recherche & Innovation
• Infrastructures matérielles (calcul, stockage, réseaux)
• Algorithmes & logiciels (ingestion, analyse, modélisation,
prédiction, etc.)
• Ethique
• Respect de la vie privée
• Droits
6Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
Indexes externes
• Principes :
• Indexation de données volumineuses généralement externes
• Gestion des indexes et accès en temps réel
• Fonctionnalités de recherche avancées
• Exemples: Lucene, ElasticSearch
• Caractéristiques :
• Adaptées pour la gestion des données textuelles
• Recherches textuelles avancées (NLP, recherche floue).
29Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
BD relationnelles pour le Big data
• Produits
• MySQL Cluster
• VoltDB
• Vertica Analytics Platform
• Sur le cloud
• Amazon RDS
• Microsoft Azure SQL
• Google Cloud SQL
30Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
Choix des DBs
• Modèle de données (schémas?)
• Taille des données
• Stockage
• Compromis CAP
• Atomicité des transactions
• Contrôle de concurrence (locks)
• Indexation
• Données parcimonieuses
• Modèle de programmation
31Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
ANALYSE
• Data mining
• Méthodes descriptives et prédictives
• Techniques spécialisée
• Modes & architectures
32Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
Intérêts
Le big data et l’intelligence artificielle :
• Parmi les plus grands défis informatiques de la décennie
• Priorités en recherche et développement
• Priorités & opprtunités pour les entreprises
• Marché en pleine expansion
• Compétences à forte demande
7Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
Data mining – Méthodes prédictives
• Classification : labellisation des observations inconnues.
• Détection des anomalies : détection des observations
aberrantes divergeant des modèles/patrons établis.
• Régression : modélisation des relations entre une ou
plusieurs variables explicatives et une variable étudiée .
• Règles d’association : cooccurrences des observations.
• Arbres de décision : prédiction/décision à partir de
variables discriminantes.
• Inférence Bayésienne : probabilités de l’observation des
évènements futurs.
• Raisonnement par cas/similarité : inférence basée sur
les observations similaires du passé.
34Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
Data mining - Exemple d’usage
• Inférence Bayesienne
• Segmentation du contenu
et des utilisateurs
• Kmeans
• Cmeans
• Régression logistique
• Ordinale
• Binaire
• Catégorique
Haddad, M.R. ; Baazaoui, H.; Ziou, D. & Ben Ghezala, H., Towards a new model for context-aware recommendation, IS'12
35Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
Techniques pour le Big data
• Réduction de la dimensionnalité : réduire le nombre de
variables disponibles par sélection ou par projection (PCA, LSH,
KNN, Autoencodeurs).
• Réduction du volume : Réduire la taille des données par
compression, échantillonnage ou hachage pour réduire les coûts
d’ingestion, de traitement, de transfert et de stockage.
• Complexité des algorithmes : recours à des algorithmes
ayant une moindre complexité (temporelle ou spatiale) pour alléger
les contraintes de l’analyse des données massives.
36Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
Techniques pour le Big data (2)
• Indexation : indexer les données permet de réduire les coûts de
quelques opérations sur les données.
• Utilisation des caches : stockage temporaire/local des données
fréquemment utilisées sur des supports rapides pour réduire la
latence et augmenter le débit (CPU, GPU, RAM, Disque,
Memoisation, etc…).
• Optimisation du code : améliorer l'efficacité du code d'un
programme ou d'une librairie pour s’exécuter plus rapidement,
prendre moins de place en mémoire, limiter la consommation des
ressources et consommer moins d’énergie (complexité, réorganiser le
code, structures de données, mémoisation, langage) .
37Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
Techniques pour le Big data - Exemple
• Réduction du volume des
données
• Suppression des mots vides
• Codage des lemmes
• Indexation du texte
• Réduction de la Complexité
du calcul de similarité
• Segmentation des articles
• Classification des nouveaux
articles dans les partitions.
• Mise en cache des derniers
articles lus et des sessions des
utilisateurs
Haddad, M. R.; Baazaoui, H. & Ficel, H., A Scalable and Interactive Recommendation Model for Users’ Interests Prediction
International Journal of Information Technology & Decision Making, 2018
38Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
Techniques pour le Big data - Exemple
Haddad, M. R.; Baazaoui, H. & Ficel, H., A Scalable and Interactive Recommendation Model for Users’ Interests Prediction
International Journal of Information Technology & Decision Making, 2018
39Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
Modes d’analyse et d’inférence
• Echelle de l’analyse : petite (en mémoire), modérée (outils BI,
BD) ou large (HDFS & Hadoop)
• En ligne (temps réel) vs Hors ligne : Temps de réponse
requis : calcul parallèle, grappes de calcul, Calcul en mémoire, etc…
• Flux (Stream) vs lots (Batch) : Latence dans le traitement des
données/observations:
• Données historiques vs récentes
• Données au repos vs en mouvement
40Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
Intérêts (2)
8Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
https://www.forbes.com/sites/louiscolumbus/2017/05/13/ibm-predicts-demand-for-data-scientists-will-soar-28-by-2020/#3d3e38187e3b
Analyse de flux ou de lots - Exemples
Lot (Batch processing)
• Génération de rapports
• Recommandation
(marketing, emailing, etc.)
• Trading algorithmique
long terme
• Analyse des données
satellitaires
• Modélisation des spams
Flux (stream processing)
• Rapports interactifs
• Recommandation
(actualité, tweets, etc.)
• Trading algorithmique
court terme
• Données de mobilité
• Classification des emails
42Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
ARCHITECTURES ET
TECHNOLOGIES
- Architectures
- Modèles de programmation
- Plateformes de programmation
- Cloud computing
43Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
Passage à l’échelle et évolutivité
Verticale (scale up) Horizontale (scale out)
Distributed Computing in Big Data Analytics, Concepts, Technologies and Applications, Springer
44Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
Composantes des architectures Big data
https://docs.microsoft.com/en-us/azure/architecture/data-guide/big-data/
45Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
Architecture Lambda
https://docs.microsoft.com/en-us/azure/architecture/data-guide/big-data/
46Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
Architecture Lambda - Exemple
• Recommandation d’articles d’actualité
Ficel, H.; Haddad, M. R. & Baazaoui Zghal, H., Large-Scale Real-Time News Recommendation Based on Semantic Data
Analysis and Users’ Implicit and Explicit Behaviors. ADBIS’18, Springer, 2018
47Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
Architecture Lambda - Exemple (2)
Ficel, H.; Haddad, M. R. & Baazaoui Zghal, H., Large-Scale Real-Time News Recommendation Based on Semantic Data
Analysis and Users’ Implicit and Explicit Behaviors. ADBIS’18, Springer, 2018
48Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
Architecture Kappa
https://docs.microsoft.com/en-us/azure/architecture/data-guide/big-data/
49Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
Architecture Kappa – Exemple
• Recommandation d’articles d’actualité
Haddad, M. R.; Baazaoui, H. & Ficel, H., A Scalable and Interactive Recommendation Model for Users’ Interests Prediction
International Journal of Information Technology & Decision Making, 2018
50Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
Architecture Kappa – Exemple
Haddad, M. R.; Baazaoui, H. & Ficel, H., A Scalable and Interactive Recommendation Model for Users’ Interests Prediction
International Journal of Information Technology & Decision Making, 2018
51Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
Autres architectures
• Grid computing
• Microservices
• Event driven architecture
• Edge Computing : exploitation des capacités de calcul à
l’extrémité du réseau.
• Fog computing (informatique en brouillard ou géodistribuée) :
exploitation des capacités de stockage et de calcul proches des
sources de données.
52Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
SOURCES
- Internet
- Entreprises
- IoT
9Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
Exemple Edge computing
• Prédiction des appels téléphoniques
• > 10K utilisateurs
• > 1 million d’évènements
Haddad, M.R. ; Baazaoui, H.; Ziou, D. & Ben Ghezala, H., A predictive model for recurrent consumption behavior: An
application on phone calls, Knowledge-Based Systems, 2014
54Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
Modèles de programmation
Handbook of Big Data Technologies, Springer
55Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
MapReduce
• Hadoop, MapR, Spark, Flink, Java,
Handbook of Big Data Technologies, Springer
56Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
MapReduce – Exemple d’usage
• Filtrage collaboratif distribué pour la recommandation de
films en modes flux et lot (flink)
(à paraitre) Zaouali, K., Haddad, M. R.; Baazaoui, H. Distributed Collaborative Filtering for batch and stream processing-
based recommendations, COOPIS’18, 2018
57Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
MapReduce – Exemple d’usage (2)
• Filtrage collaboratif distribué pour la recommandation de
films en modes flux et lot (flink)
• Scalabilité horizontale
(à paraitre) Zaouali, K., Haddad, M. R.; Baazaoui, H. Distributed Collaborative Filtering for batch and stream processing-
based recommendations, COOPIS’18, 2018
58Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
Langages d’interrogation
• Programmation des algorithmes en utilisant les langages
d’interrogation :
• Hive (HQL)
• Cassandra (CQL)
• Spark SQL
• Flink Table & SQL APIs
• Kafka KSQL
• Apache Drill
• Neo4j (Cypher)
59Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
Sources de données big data
• Données du Web
• Textuelle
• Multimédias
• sociales
• Données de l’entreprise
• Clients
• Produits
• Service et offres
• Transactions
• Données de l’IoT
• Télémétrie
• Interactions
• Mobilité
• Données médicales
10Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
Sources de données big data
• Données du Web
• Textuelle
• Multimédias
• sociales
• Données de l’entreprise
• Clients
• Produits
• Service et offres
• Transactions
• Données de l’IoT
• Télémétrie
• Interactions
• Mobilité
• Données médicales
10Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
Sources de données big data
• Données du Web
• Textuelle
• Multimédias
• sociales
• Données de l’entreprise
• Clients
• Produits
• Service et offres
• Transactions
• Données de l’IoT
• Télémétrie
• Interactions
• Mobilité
• Données médicales
10Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
Programmation concurrente
• Parallèle :
• Threads : mémoire partagée, compétition, synchronisation (mutex,
barrières, etc.)
• Modèle acteur : Akka, Storm
• Programmation fonctionnelle : spark, flink, java 8, etc.
• GPU : CUDA, OpenACC
• SIMD : OpenCL, CUDA, API OpenMP
• MIMD : Open MPI, MPICH
• Distribuée :
• MPI : Open MPI
• Architecture microservices
• Message-oriented middleware : Kafka, ActiveMQ, RabbitMQ, etc.
63Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
Exemple de programmation fonctionnelle
• Recommandation de films (Movielens)
Algorithme de filtrage collaboratif avec les interfaces fonctionnelles de Java 8
64Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
Autres
• R
• Matlab
• Mahout
• Apache Oozie
• Apache Giraph et Google Pregel
• Apache Hama
65Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
Plateformes de programmation
• Paralléllisation pour les données (SIMD)
• Hadoop et son écosystème
• Spark
• Parallélisation pour les tâches (MIMD)
• Flink
• Parallélisation pour les graphes
• Pregel
• GraphX (spark)
• GraphLab
• Traitement des flux (stream processing)
• Storm
• Heron
• Flink
• Spark streaming
• Apache Apex
• Kafka streams
66Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
Big data sur le cloud
• Opensource
• OpenStack
• OpenNebula
• Offre commerciale
• Microsoft Azure
• Amazon Web Services
• Google Cloud Platform
67Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
ACQUISITION
- Collection
- Transport
- Prétraitement
11Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
ACQUISITION
- Collection
- Transport
- Prétraitement
11Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
Données structurées
• Détection des anomalies
• Prédiction des séries temporelles
• Énergie
• Météo
• Cours des actions en bourse
• Données des capteurs (IoT)
• Finance
• Détection de fraude
• Blanchissement d’argent
• Financement du terrorisme
• Commerce
• Pricing
• Veille
70Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
Données du Web
• Analyse du contenu (Texte, Image, Vidéo, etc.):
• Moteurs de recherche
• Recommandation
• Analyse des structures
• Moteurs de recherche
• Analyse des usages
• Fournisseurs de services ou de contenu
• Analyse et prédiction des tendances
• Recommandation
• Personnalisation
71Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
Données textuelles
• Text mining : extraction des connaissances à partir du
contenu textuel (emails, documents, pages Web,
commentaires, etc…)
• Opinion mining : détermination des opinions exprimées
dans un texte.
• Recherche d’information
• Traitement du langage naturel
• Traduction
72Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
Données multimédias
• Audio, images, vidéo
• Indexation er recherche d’information
• Recommandation
• Extraction des connaissances
• Annotation
• Transcription et traduction
• Résumé du contenu
• Surveillance
• Analyse des opinions et des sentiments
73Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
Collection
• Fichiers de journalisation (logs)
• Systèmes d’informations
• Bases de données
• Capteurs
• Equipements mobiles
• Surveillance des réseaux
12Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
Données de mobilité
• Smartphones
• GPS
• Objets connectés
• RFID labels are used to identify, locate, track
• Capteurs
• Balises (Beacons BLE)
75Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
Donnée liées à la santé
• Génomique & ADN
• Imagerie médicale
• Historiques des patients
• Assurances
• Epidémiologie
76Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
CONCLUSION
77Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
Leçons retenues et perspectives
• Domaine porteur et à haute valeur ajoutée
• Domaine vaste et offre technologique variée
• Ne se limite pas à Hadoop et à Spark
• Choix guidés par l’usage et les tests
• S’apprend par la pratique et les exemples
• En constante évolution
• Plus accessible avec les offre de cloud
• Le big data est complémentaire à l’IA, ML et DL
• Recherche d’approches évolutives, scalables,
adaptatives, en ligne pour les problématiques
d’entreprises
78Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
Transport
• Réseaux et protocoles
• Nouvelles technologies et
architecture réseau : DAS, NAS,
SAN, RAID
13Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018

Contenu connexe

Tendances

Cours Big Data Chap2
Cours Big Data Chap2Cours Big Data Chap2
Cours Big Data Chap2Amal Abid
 
Installation hadoopv2.7.4-amal abid
Installation hadoopv2.7.4-amal abidInstallation hadoopv2.7.4-amal abid
Installation hadoopv2.7.4-amal abidAmal Abid
 
Cours Big Data Chap1
Cours Big Data Chap1Cours Big Data Chap1
Cours Big Data Chap1Amal Abid
 
Cours Big Data Chap3
Cours Big Data Chap3Cours Big Data Chap3
Cours Big Data Chap3Amal Abid
 
Big Data, Hadoop & Spark
Big Data, Hadoop & SparkBig Data, Hadoop & Spark
Big Data, Hadoop & SparkAlexia Audevart
 
BigData_Chp3: Data Processing
BigData_Chp3: Data ProcessingBigData_Chp3: Data Processing
BigData_Chp3: Data ProcessingLilia Sfaxi
 
Spark (v1.3) - Présentation (Français)
Spark (v1.3) - Présentation (Français)Spark (v1.3) - Présentation (Français)
Spark (v1.3) - Présentation (Français)Alexis Seigneurin
 
Projet BI - 2 - Conception base de données
Projet BI - 2 - Conception base de donnéesProjet BI - 2 - Conception base de données
Projet BI - 2 - Conception base de donnéesJean-Marc Dupont
 
Introduction au big data
Introduction au big dataIntroduction au big data
Introduction au big dataAbdelghani Azri
 
Projet BI - 1 - Analyse des besoins
Projet BI - 1 - Analyse des besoinsProjet BI - 1 - Analyse des besoins
Projet BI - 1 - Analyse des besoinsJean-Marc Dupont
 
Apache SPARK ML : principes, concepts et mise en œuvre
Apache SPARK  ML : principes, concepts et  mise en œuvre Apache SPARK  ML : principes, concepts et  mise en œuvre
Apache SPARK ML : principes, concepts et mise en œuvre MICHRAFY MUSTAFA
 
BigData_TP2: Design Patterns dans Hadoop
BigData_TP2: Design Patterns dans HadoopBigData_TP2: Design Patterns dans Hadoop
BigData_TP2: Design Patterns dans HadoopLilia Sfaxi
 
Cours Big Data Chap4 - Spark
Cours Big Data Chap4 - SparkCours Big Data Chap4 - Spark
Cours Big Data Chap4 - SparkAmal Abid
 
BigData_TP3 : Spark
BigData_TP3 : SparkBigData_TP3 : Spark
BigData_TP3 : SparkLilia Sfaxi
 
BigData_TP4 : Cassandra
BigData_TP4 : CassandraBigData_TP4 : Cassandra
BigData_TP4 : CassandraLilia Sfaxi
 
Projet Bi - 3 - Alimentation des données
Projet Bi - 3 - Alimentation des donnéesProjet Bi - 3 - Alimentation des données
Projet Bi - 3 - Alimentation des donnéesJean-Marc Dupont
 

Tendances (20)

Cours Big Data Chap2
Cours Big Data Chap2Cours Big Data Chap2
Cours Big Data Chap2
 
Cours Big Data Part I
Cours Big Data Part ICours Big Data Part I
Cours Big Data Part I
 
Installation hadoopv2.7.4-amal abid
Installation hadoopv2.7.4-amal abidInstallation hadoopv2.7.4-amal abid
Installation hadoopv2.7.4-amal abid
 
Cours Big Data Chap1
Cours Big Data Chap1Cours Big Data Chap1
Cours Big Data Chap1
 
Big data
Big dataBig data
Big data
 
Cours Big Data Chap3
Cours Big Data Chap3Cours Big Data Chap3
Cours Big Data Chap3
 
Big Data, Hadoop & Spark
Big Data, Hadoop & SparkBig Data, Hadoop & Spark
Big Data, Hadoop & Spark
 
BigData_Chp3: Data Processing
BigData_Chp3: Data ProcessingBigData_Chp3: Data Processing
BigData_Chp3: Data Processing
 
Spark (v1.3) - Présentation (Français)
Spark (v1.3) - Présentation (Français)Spark (v1.3) - Présentation (Français)
Spark (v1.3) - Présentation (Français)
 
Introduction au BIG DATA
Introduction au BIG DATAIntroduction au BIG DATA
Introduction au BIG DATA
 
Projet BI - 2 - Conception base de données
Projet BI - 2 - Conception base de donnéesProjet BI - 2 - Conception base de données
Projet BI - 2 - Conception base de données
 
Introduction au big data
Introduction au big dataIntroduction au big data
Introduction au big data
 
Projet BI - 1 - Analyse des besoins
Projet BI - 1 - Analyse des besoinsProjet BI - 1 - Analyse des besoins
Projet BI - 1 - Analyse des besoins
 
Apache SPARK ML : principes, concepts et mise en œuvre
Apache SPARK  ML : principes, concepts et  mise en œuvre Apache SPARK  ML : principes, concepts et  mise en œuvre
Apache SPARK ML : principes, concepts et mise en œuvre
 
BigData_TP2: Design Patterns dans Hadoop
BigData_TP2: Design Patterns dans HadoopBigData_TP2: Design Patterns dans Hadoop
BigData_TP2: Design Patterns dans Hadoop
 
Cours Big Data Chap4 - Spark
Cours Big Data Chap4 - SparkCours Big Data Chap4 - Spark
Cours Big Data Chap4 - Spark
 
BigData_TP3 : Spark
BigData_TP3 : SparkBigData_TP3 : Spark
BigData_TP3 : Spark
 
BigData_TP4 : Cassandra
BigData_TP4 : CassandraBigData_TP4 : Cassandra
BigData_TP4 : Cassandra
 
Projet Bi - 3 - Alimentation des données
Projet Bi - 3 - Alimentation des donnéesProjet Bi - 3 - Alimentation des données
Projet Bi - 3 - Alimentation des données
 
Les BD NoSQL
Les BD NoSQLLes BD NoSQL
Les BD NoSQL
 

Similaire à Big data : défis & technologies

Quel est l'avenir des stratégies de données?
Quel est l'avenir des stratégies de données?Quel est l'avenir des stratégies de données?
Quel est l'avenir des stratégies de données?Denodo
 
Big data - Cours d'introduction l Data-business
Big data - Cours d'introduction l Data-businessBig data - Cours d'introduction l Data-business
Big data - Cours d'introduction l Data-businessVincent de Stoecklin
 
Session découverte de la Data Virtualization
Session découverte de la Data VirtualizationSession découverte de la Data Virtualization
Session découverte de la Data VirtualizationDenodo
 
Session découverte de la Data Virtualization
Session découverte de la Data VirtualizationSession découverte de la Data Virtualization
Session découverte de la Data VirtualizationDenodo
 
Big Data, Charles Huot, Aproged,février 2013
Big Data, Charles Huot, Aproged,février 2013Big Data, Charles Huot, Aproged,février 2013
Big Data, Charles Huot, Aproged,février 2013ADBS
 
La Logical Data Fabric au secours de la connaissance client
La Logical Data Fabric au secours de la connaissance clientLa Logical Data Fabric au secours de la connaissance client
La Logical Data Fabric au secours de la connaissance clientDenodo
 
Big Data Des méandres des outils au potentiel business
Big Data   Des méandres des outils au potentiel businessBig Data   Des méandres des outils au potentiel business
Big Data Des méandres des outils au potentiel businessMouhsine LAKHDISSI
 
Ecosystème Big Data
Ecosystème Big DataEcosystème Big Data
Ecosystème Big DataIdriss22
 
BigData & Cloud @ Excelerate Systems France
BigData & Cloud @ Excelerate Systems FranceBigData & Cloud @ Excelerate Systems France
BigData & Cloud @ Excelerate Systems FranceExcelerate Systems
 
DataGalaxy et Denodo : le guichet unique de gouvernance et d’accès aux données !
DataGalaxy et Denodo : le guichet unique de gouvernance et d’accès aux données !DataGalaxy et Denodo : le guichet unique de gouvernance et d’accès aux données !
DataGalaxy et Denodo : le guichet unique de gouvernance et d’accès aux données !Denodo
 
Analytics & Machine Learning avec la Data Virtualization
Analytics & Machine Learning avec la Data VirtualizationAnalytics & Machine Learning avec la Data Virtualization
Analytics & Machine Learning avec la Data VirtualizationDenodo
 
GraphTour Paris - Cas d'usages populaires Neo4j
GraphTour Paris - Cas d'usages populaires Neo4jGraphTour Paris - Cas d'usages populaires Neo4j
GraphTour Paris - Cas d'usages populaires Neo4jNeo4j
 
Petit-déjeuner OCTO Technology : Calculez vos indicateurs en temps réel ave...
Petit-déjeuner OCTO Technology :  Calculez vos indicateurs en temps réel ave...Petit-déjeuner OCTO Technology :  Calculez vos indicateurs en temps réel ave...
Petit-déjeuner OCTO Technology : Calculez vos indicateurs en temps réel ave...OCTO Technology
 
Baina bigdata le futur eldorado
Baina bigdata le futur eldoradoBaina bigdata le futur eldorado
Baina bigdata le futur eldoradoKarim Baïna
 
Six sigma & Big data
Six sigma & Big dataSix sigma & Big data
Six sigma & Big dataXL Groupe
 
GraphDay Paris - Crédit Agricole CIB - Détection & qualification d’événements...
GraphDay Paris - Crédit Agricole CIB - Détection & qualification d’événements...GraphDay Paris - Crédit Agricole CIB - Détection & qualification d’événements...
GraphDay Paris - Crédit Agricole CIB - Détection & qualification d’événements...Neo4j
 
La protection de la vie privée à l'heure du BIG DATA
La protection de la vie privée à l'heure du BIG DATALa protection de la vie privée à l'heure du BIG DATA
La protection de la vie privée à l'heure du BIG DATAISACA Chapitre de Québec
 
Séminaire BIG DATA, SYNTHÈSE - ORSYS Formation
Séminaire BIG DATA, SYNTHÈSE - ORSYS FormationSéminaire BIG DATA, SYNTHÈSE - ORSYS Formation
Séminaire BIG DATA, SYNTHÈSE - ORSYS FormationORSYS
 
Oxalide MorningTech #1 - BigData
Oxalide MorningTech #1 - BigDataOxalide MorningTech #1 - BigData
Oxalide MorningTech #1 - BigDataLudovic Piot
 

Similaire à Big data : défis & technologies (20)

Quel est l'avenir des stratégies de données?
Quel est l'avenir des stratégies de données?Quel est l'avenir des stratégies de données?
Quel est l'avenir des stratégies de données?
 
Big data - Cours d'introduction l Data-business
Big data - Cours d'introduction l Data-businessBig data - Cours d'introduction l Data-business
Big data - Cours d'introduction l Data-business
 
Session découverte de la Data Virtualization
Session découverte de la Data VirtualizationSession découverte de la Data Virtualization
Session découverte de la Data Virtualization
 
Session découverte de la Data Virtualization
Session découverte de la Data VirtualizationSession découverte de la Data Virtualization
Session découverte de la Data Virtualization
 
Big Data, Charles Huot, Aproged,février 2013
Big Data, Charles Huot, Aproged,février 2013Big Data, Charles Huot, Aproged,février 2013
Big Data, Charles Huot, Aproged,février 2013
 
La Logical Data Fabric au secours de la connaissance client
La Logical Data Fabric au secours de la connaissance clientLa Logical Data Fabric au secours de la connaissance client
La Logical Data Fabric au secours de la connaissance client
 
Big Data Des méandres des outils au potentiel business
Big Data   Des méandres des outils au potentiel businessBig Data   Des méandres des outils au potentiel business
Big Data Des méandres des outils au potentiel business
 
Ecosystème Big Data
Ecosystème Big DataEcosystème Big Data
Ecosystème Big Data
 
BigData & Cloud @ Excelerate Systems France
BigData & Cloud @ Excelerate Systems FranceBigData & Cloud @ Excelerate Systems France
BigData & Cloud @ Excelerate Systems France
 
DataGalaxy et Denodo : le guichet unique de gouvernance et d’accès aux données !
DataGalaxy et Denodo : le guichet unique de gouvernance et d’accès aux données !DataGalaxy et Denodo : le guichet unique de gouvernance et d’accès aux données !
DataGalaxy et Denodo : le guichet unique de gouvernance et d’accès aux données !
 
Parcours Big Data @ Cetic (6 mai 2014)
Parcours Big Data @ Cetic (6 mai 2014)Parcours Big Data @ Cetic (6 mai 2014)
Parcours Big Data @ Cetic (6 mai 2014)
 
Analytics & Machine Learning avec la Data Virtualization
Analytics & Machine Learning avec la Data VirtualizationAnalytics & Machine Learning avec la Data Virtualization
Analytics & Machine Learning avec la Data Virtualization
 
GraphTour Paris - Cas d'usages populaires Neo4j
GraphTour Paris - Cas d'usages populaires Neo4jGraphTour Paris - Cas d'usages populaires Neo4j
GraphTour Paris - Cas d'usages populaires Neo4j
 
Petit-déjeuner OCTO Technology : Calculez vos indicateurs en temps réel ave...
Petit-déjeuner OCTO Technology :  Calculez vos indicateurs en temps réel ave...Petit-déjeuner OCTO Technology :  Calculez vos indicateurs en temps réel ave...
Petit-déjeuner OCTO Technology : Calculez vos indicateurs en temps réel ave...
 
Baina bigdata le futur eldorado
Baina bigdata le futur eldoradoBaina bigdata le futur eldorado
Baina bigdata le futur eldorado
 
Six sigma & Big data
Six sigma & Big dataSix sigma & Big data
Six sigma & Big data
 
GraphDay Paris - Crédit Agricole CIB - Détection & qualification d’événements...
GraphDay Paris - Crédit Agricole CIB - Détection & qualification d’événements...GraphDay Paris - Crédit Agricole CIB - Détection & qualification d’événements...
GraphDay Paris - Crédit Agricole CIB - Détection & qualification d’événements...
 
La protection de la vie privée à l'heure du BIG DATA
La protection de la vie privée à l'heure du BIG DATALa protection de la vie privée à l'heure du BIG DATA
La protection de la vie privée à l'heure du BIG DATA
 
Séminaire BIG DATA, SYNTHÈSE - ORSYS Formation
Séminaire BIG DATA, SYNTHÈSE - ORSYS FormationSéminaire BIG DATA, SYNTHÈSE - ORSYS Formation
Séminaire BIG DATA, SYNTHÈSE - ORSYS Formation
 
Oxalide MorningTech #1 - BigData
Oxalide MorningTech #1 - BigDataOxalide MorningTech #1 - BigData
Oxalide MorningTech #1 - BigData
 

Big data : défis & technologies

  • 1. BIG DATA Contexte Défis Technologies Applications Mohamed Ramzi Haddad Maître assistant en informatique, ENIT Chercheur au laboratoire RIADI, ENSI Haddad.medramzi@gmail.com Université de la Manouba Institut Supérieur des Arts Multimédias JOURNÉES SCIENTIFIQUES PLURIDISCIPLINAIRES Recherche et Innovation à l'Ère du Numérique Massif JSP ISAMM, Septembre 2018 Big data, Mohamed Ramzi Haddad
  • 2. Plan Genèse Sources Acquisition Stockage Analyse Architectures et technologies Applications 2Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
  • 3. GENÈSE - Contexte - Problématique - Défis - Intérêt 3Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
  • 4. Contexte • Démocratisation de l’accès à internet • Explosion de l’offre sur internet • Temps d’usage de l’internet • Usage des smartphones • Emergence & adoption de l’IoT • 30 milliards d’objets déployés • Explosion du volume des données* • 500 exabyte en 2009 • 2,7 zettabyte en 2012 • 35 zettabyte en 2020 • Diminution des coûts de stockage et de calcul • 80% de données non structurées* • 1/3 des entreprises n’ont pas confiance dans les données qu’elles utilisent* *https://www.slideshare.net/SwissHUG/ibm-big-data-platform-nov-2012 https://www.backblaze.com/blog/hard-drive-cost-per-gigabyte/ 4Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
  • 5. Problématique • Nouvel ordre de grandeur • Volume • Vélocité • Variété • Véracité • Données dépassant • L’intuition humaine (analyse, imagination, conceptualisation) • Les outils (sestion, analyse, visualisation) • Les infrastructures (stockage, transport) 5Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
  • 6. Défis • Passage à l’échelle • Capturer, gérer, analyser ces données massives • Extraire les connaissances, prendre décision et agir • Extraire de la valeur ajoutée • Recherche & Innovation • Infrastructures matérielles (calcul, stockage, réseaux) • Algorithmes & logiciels (ingestion, analyse, modélisation, prédiction, etc.) • Ethique • Respect de la vie privée • Droits 6Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
  • 7. Intérêts Le big data et l’intelligence artificielle : • Parmi les plus grands défis informatiques de la décennie • Priorités en recherche et développement • Priorités & opprtunités pour les entreprises • Marché en pleine expansion • Compétences à forte demande 7Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
  • 8. Intérêts (2) 8Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018 https://www.forbes.com/sites/louiscolumbus/2017/05/13/ibm-predicts-demand-for-data-scientists-will-soar-28-by-2020/#3d3e38187e3b
  • 9. GENÈSE - Contexte - Problématique - Défis - Intérêt 3Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
  • 10. Sources de données big data • Données du Web • Textuelle • Multimédias • sociales • Données de l’entreprise • Clients • Produits • Service et offres • Transactions • Données de l’IoT • Télémétrie • Interactions • Mobilité • Données médicales 10Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
  • 11. ACQUISITION - Collection - Transport - Prétraitement 11Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
  • 12. Collection • Fichiers de journalisation (logs) • Systèmes d’informations • Bases de données • Capteurs • Equipements mobiles • Surveillance des réseaux 12Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
  • 13. Transport • Réseaux et protocoles • Nouvelles technologies et architecture réseau : DAS, NAS, SAN, RAID 13Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
  • 14. Contexte • Démocratisation de l’accès à internet • Explosion de l’offre sur internet • Temps d’usage de l’internet • Usage des smartphones • Emergence & adoption de l’IoT • 30 milliards d’objets déployés • Explosion du volume des données* • 500 exabyte en 2009 • 2,7 zettabyte en 2012 • 35 zettabyte en 2020 • Diminution des coûts de stockage et de calcul • 80% de données non structurées* • 1/3 des entreprises n’ont pas confiance dans les données qu’elles utilisent* *https://www.slideshare.net/SwissHUG/ibm-big-data-platform-nov-2012 https://www.backblaze.com/blog/hard-drive-cost-per-gigabyte/ 4Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
  • 15. STOCKAGE - Infrastructures - Mécanismes - Bases de données 15Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
  • 16. Stockage distribué • Théorème CAP (Brewer, 2000) : Il est impossible pour un système distribué de garantir au même temps les trois critères • Consistance/cohérence: • Disponibilité • Résilience/tolérance au partitionnement • Compromis • CA : BD relationnelles à petite échelle • CP : Systèmes à charge moyenne • AP : Consistance éventuelle, grande charge, précision modérée 16Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
  • 17. Mécanismes de stockage • Modèles de stockage • Block : Amazon EBS, OpenStack cinder • Fichier : systèmes de fichiers (GFS, Colossus, HDFS, COSMOS, TFS and FastDFS) • Objet : Amazon S3, OpenStack Swift • Bases de données : • Clé/Valeur • Orientées documents • Orientées colonnes • Graphes • Autres types • Modèles de programmation • MapReduce, Dryad, Pregel 17Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
  • 18. BD Clé/valeur • Principes : • Chaque donnée (simple ou complexe) est identifiée par une clé. • Les clés sont uniques et sont le seul moyen de rechercher les données. • Exemples : DynamoDB, Memcached, Redis, RIAK, Voldemort • Avantages: • Structure associative simple • Modèle de données simple • Requêtes simples • Performances accrues • Inconvénients: • Modèle de données trop simple pour les entités complexes • Requêtes par clé seulement 18Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
  • 19. BD Clé/valeur - Exemple 19Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
  • 20. BD Orientées documents • Principes : • Etend le modèle clé/valeur pour pouvoir gérer des données plus complexes. • Les entrées (documents) n’ont pas de schéma fixe. • Les champs indexables ayant des valeurs simples ou composites. • Exemples : MongoDB, CouchDB, SimpleDB, Couchbase • Avantages : • Représentation simple des documents : JSON, XML, BSON • Flexibilité et richesse de la structure (scheamless) • Requêtes simples et riche • Inconvénients : • Interrogation des hiérarchies complexes (données imbriquées) • Difficulté de représenter les associations 20Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
  • 21. BD Orientées documents - Exemple { "ProductID": "123112", "Manufacturer": "Apple" "Model" : "iPhone", "Memory":"8GB", "Color":"Gold" } { "ProductID": "146177", "Manufacturer": "Samsung", "OS" : "Android", "Model" : "Galaxy S7", "Memory": "32GB", "Warrantee" : "US Warrantee" "Lock" "Lock Free" } { "ProductID": "123112", "Manufacturer": "Samsung", "OS" : "Android", "Model" : "Galaxy J7", "Color": "Gold", "SIM": "Dual Sim" } 21Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
  • 22. Problématique • Nouvel ordre de grandeur • Volume • Vélocité • Variété • Véracité • Données dépassant • L’intuition humaine (analyse, imagination, conceptualisation) • Les outils (sestion, analyse, visualisation) • Les infrastructures (stockage, transport) 5Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
  • 23. BD Orientées documents - Exemple (3) • Modélisation du profil d’un utilisateurs d’un site d’actualité • MongoDB (JSON) Haddad, M. R.; Baazaoui, H. & Ficel, H., A Scalable and Interactive Recommendation Model for Users’ Interests Prediction International Journal of Information Technology & Decision Making, 2018 23Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
  • 24. BD orientées colonnes • Principes : • Stockage et traitement des données par colonnes. • Les informations concernant une entité peuvent se trouver distribuées. • Exemples : BigTable, Cassandra, Hbase, Hypertable • Avantages : • Passage à l’échelle facile • Performances • Données indexées automatiquement par colonne • Inconvénients : • Non adaptées aux données fortement connectées. • Flexibilité moyenne lors de changements des structures de données. 24Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
  • 25. BD orientées colonnes (2) 25Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
  • 26. BD graphes • Principes : • modéliser les objets ainsi que leurs relations sous forme d’un graphe (noeuds, d’arcs et d’adjecence). • La recherche se fait par exploration du graphe • Exemples : Neo4j, OrientDB • Caractéristiques : • Flexibilité du modèle des données • Performances • Modélisation simple • Requêtes simple 26Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
  • 27. Défis • Passage à l’échelle • Capturer, gérer, analyser ces données massives • Extraire les connaissances, prendre décision et agir • Extraire de la valeur ajoutée • Recherche & Innovation • Infrastructures matérielles (calcul, stockage, réseaux) • Algorithmes & logiciels (ingestion, analyse, modélisation, prédiction, etc.) • Ethique • Respect de la vie privée • Droits 6Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
  • 28. Défis • Passage à l’échelle • Capturer, gérer, analyser ces données massives • Extraire les connaissances, prendre décision et agir • Extraire de la valeur ajoutée • Recherche & Innovation • Infrastructures matérielles (calcul, stockage, réseaux) • Algorithmes & logiciels (ingestion, analyse, modélisation, prédiction, etc.) • Ethique • Respect de la vie privée • Droits 6Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
  • 29. Indexes externes • Principes : • Indexation de données volumineuses généralement externes • Gestion des indexes et accès en temps réel • Fonctionnalités de recherche avancées • Exemples: Lucene, ElasticSearch • Caractéristiques : • Adaptées pour la gestion des données textuelles • Recherches textuelles avancées (NLP, recherche floue). 29Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
  • 30. BD relationnelles pour le Big data • Produits • MySQL Cluster • VoltDB • Vertica Analytics Platform • Sur le cloud • Amazon RDS • Microsoft Azure SQL • Google Cloud SQL 30Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
  • 31. Choix des DBs • Modèle de données (schémas?) • Taille des données • Stockage • Compromis CAP • Atomicité des transactions • Contrôle de concurrence (locks) • Indexation • Données parcimonieuses • Modèle de programmation 31Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
  • 32. ANALYSE • Data mining • Méthodes descriptives et prédictives • Techniques spécialisée • Modes & architectures 32Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
  • 33. Intérêts Le big data et l’intelligence artificielle : • Parmi les plus grands défis informatiques de la décennie • Priorités en recherche et développement • Priorités & opprtunités pour les entreprises • Marché en pleine expansion • Compétences à forte demande 7Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
  • 34. Data mining – Méthodes prédictives • Classification : labellisation des observations inconnues. • Détection des anomalies : détection des observations aberrantes divergeant des modèles/patrons établis. • Régression : modélisation des relations entre une ou plusieurs variables explicatives et une variable étudiée . • Règles d’association : cooccurrences des observations. • Arbres de décision : prédiction/décision à partir de variables discriminantes. • Inférence Bayésienne : probabilités de l’observation des évènements futurs. • Raisonnement par cas/similarité : inférence basée sur les observations similaires du passé. 34Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
  • 35. Data mining - Exemple d’usage • Inférence Bayesienne • Segmentation du contenu et des utilisateurs • Kmeans • Cmeans • Régression logistique • Ordinale • Binaire • Catégorique Haddad, M.R. ; Baazaoui, H.; Ziou, D. & Ben Ghezala, H., Towards a new model for context-aware recommendation, IS'12 35Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
  • 36. Techniques pour le Big data • Réduction de la dimensionnalité : réduire le nombre de variables disponibles par sélection ou par projection (PCA, LSH, KNN, Autoencodeurs). • Réduction du volume : Réduire la taille des données par compression, échantillonnage ou hachage pour réduire les coûts d’ingestion, de traitement, de transfert et de stockage. • Complexité des algorithmes : recours à des algorithmes ayant une moindre complexité (temporelle ou spatiale) pour alléger les contraintes de l’analyse des données massives. 36Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
  • 37. Techniques pour le Big data (2) • Indexation : indexer les données permet de réduire les coûts de quelques opérations sur les données. • Utilisation des caches : stockage temporaire/local des données fréquemment utilisées sur des supports rapides pour réduire la latence et augmenter le débit (CPU, GPU, RAM, Disque, Memoisation, etc…). • Optimisation du code : améliorer l'efficacité du code d'un programme ou d'une librairie pour s’exécuter plus rapidement, prendre moins de place en mémoire, limiter la consommation des ressources et consommer moins d’énergie (complexité, réorganiser le code, structures de données, mémoisation, langage) . 37Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
  • 38. Techniques pour le Big data - Exemple • Réduction du volume des données • Suppression des mots vides • Codage des lemmes • Indexation du texte • Réduction de la Complexité du calcul de similarité • Segmentation des articles • Classification des nouveaux articles dans les partitions. • Mise en cache des derniers articles lus et des sessions des utilisateurs Haddad, M. R.; Baazaoui, H. & Ficel, H., A Scalable and Interactive Recommendation Model for Users’ Interests Prediction International Journal of Information Technology & Decision Making, 2018 38Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
  • 39. Techniques pour le Big data - Exemple Haddad, M. R.; Baazaoui, H. & Ficel, H., A Scalable and Interactive Recommendation Model for Users’ Interests Prediction International Journal of Information Technology & Decision Making, 2018 39Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
  • 40. Modes d’analyse et d’inférence • Echelle de l’analyse : petite (en mémoire), modérée (outils BI, BD) ou large (HDFS & Hadoop) • En ligne (temps réel) vs Hors ligne : Temps de réponse requis : calcul parallèle, grappes de calcul, Calcul en mémoire, etc… • Flux (Stream) vs lots (Batch) : Latence dans le traitement des données/observations: • Données historiques vs récentes • Données au repos vs en mouvement 40Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
  • 41. Intérêts (2) 8Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018 https://www.forbes.com/sites/louiscolumbus/2017/05/13/ibm-predicts-demand-for-data-scientists-will-soar-28-by-2020/#3d3e38187e3b
  • 42. Analyse de flux ou de lots - Exemples Lot (Batch processing) • Génération de rapports • Recommandation (marketing, emailing, etc.) • Trading algorithmique long terme • Analyse des données satellitaires • Modélisation des spams Flux (stream processing) • Rapports interactifs • Recommandation (actualité, tweets, etc.) • Trading algorithmique court terme • Données de mobilité • Classification des emails 42Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
  • 43. ARCHITECTURES ET TECHNOLOGIES - Architectures - Modèles de programmation - Plateformes de programmation - Cloud computing 43Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
  • 44. Passage à l’échelle et évolutivité Verticale (scale up) Horizontale (scale out) Distributed Computing in Big Data Analytics, Concepts, Technologies and Applications, Springer 44Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
  • 45. Composantes des architectures Big data https://docs.microsoft.com/en-us/azure/architecture/data-guide/big-data/ 45Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
  • 47. Architecture Lambda - Exemple • Recommandation d’articles d’actualité Ficel, H.; Haddad, M. R. & Baazaoui Zghal, H., Large-Scale Real-Time News Recommendation Based on Semantic Data Analysis and Users’ Implicit and Explicit Behaviors. ADBIS’18, Springer, 2018 47Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
  • 48. Architecture Lambda - Exemple (2) Ficel, H.; Haddad, M. R. & Baazaoui Zghal, H., Large-Scale Real-Time News Recommendation Based on Semantic Data Analysis and Users’ Implicit and Explicit Behaviors. ADBIS’18, Springer, 2018 48Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
  • 50. Architecture Kappa – Exemple • Recommandation d’articles d’actualité Haddad, M. R.; Baazaoui, H. & Ficel, H., A Scalable and Interactive Recommendation Model for Users’ Interests Prediction International Journal of Information Technology & Decision Making, 2018 50Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
  • 51. Architecture Kappa – Exemple Haddad, M. R.; Baazaoui, H. & Ficel, H., A Scalable and Interactive Recommendation Model for Users’ Interests Prediction International Journal of Information Technology & Decision Making, 2018 51Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
  • 52. Autres architectures • Grid computing • Microservices • Event driven architecture • Edge Computing : exploitation des capacités de calcul à l’extrémité du réseau. • Fog computing (informatique en brouillard ou géodistribuée) : exploitation des capacités de stockage et de calcul proches des sources de données. 52Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
  • 53. SOURCES - Internet - Entreprises - IoT 9Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
  • 54. Exemple Edge computing • Prédiction des appels téléphoniques • > 10K utilisateurs • > 1 million d’évènements Haddad, M.R. ; Baazaoui, H.; Ziou, D. & Ben Ghezala, H., A predictive model for recurrent consumption behavior: An application on phone calls, Knowledge-Based Systems, 2014 54Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
  • 55. Modèles de programmation Handbook of Big Data Technologies, Springer 55Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
  • 56. MapReduce • Hadoop, MapR, Spark, Flink, Java, Handbook of Big Data Technologies, Springer 56Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
  • 57. MapReduce – Exemple d’usage • Filtrage collaboratif distribué pour la recommandation de films en modes flux et lot (flink) (à paraitre) Zaouali, K., Haddad, M. R.; Baazaoui, H. Distributed Collaborative Filtering for batch and stream processing- based recommendations, COOPIS’18, 2018 57Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
  • 58. MapReduce – Exemple d’usage (2) • Filtrage collaboratif distribué pour la recommandation de films en modes flux et lot (flink) • Scalabilité horizontale (à paraitre) Zaouali, K., Haddad, M. R.; Baazaoui, H. Distributed Collaborative Filtering for batch and stream processing- based recommendations, COOPIS’18, 2018 58Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
  • 59. Langages d’interrogation • Programmation des algorithmes en utilisant les langages d’interrogation : • Hive (HQL) • Cassandra (CQL) • Spark SQL • Flink Table & SQL APIs • Kafka KSQL • Apache Drill • Neo4j (Cypher) 59Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
  • 60. Sources de données big data • Données du Web • Textuelle • Multimédias • sociales • Données de l’entreprise • Clients • Produits • Service et offres • Transactions • Données de l’IoT • Télémétrie • Interactions • Mobilité • Données médicales 10Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
  • 61. Sources de données big data • Données du Web • Textuelle • Multimédias • sociales • Données de l’entreprise • Clients • Produits • Service et offres • Transactions • Données de l’IoT • Télémétrie • Interactions • Mobilité • Données médicales 10Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
  • 62. Sources de données big data • Données du Web • Textuelle • Multimédias • sociales • Données de l’entreprise • Clients • Produits • Service et offres • Transactions • Données de l’IoT • Télémétrie • Interactions • Mobilité • Données médicales 10Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
  • 63. Programmation concurrente • Parallèle : • Threads : mémoire partagée, compétition, synchronisation (mutex, barrières, etc.) • Modèle acteur : Akka, Storm • Programmation fonctionnelle : spark, flink, java 8, etc. • GPU : CUDA, OpenACC • SIMD : OpenCL, CUDA, API OpenMP • MIMD : Open MPI, MPICH • Distribuée : • MPI : Open MPI • Architecture microservices • Message-oriented middleware : Kafka, ActiveMQ, RabbitMQ, etc. 63Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
  • 64. Exemple de programmation fonctionnelle • Recommandation de films (Movielens) Algorithme de filtrage collaboratif avec les interfaces fonctionnelles de Java 8 64Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
  • 65. Autres • R • Matlab • Mahout • Apache Oozie • Apache Giraph et Google Pregel • Apache Hama 65Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
  • 66. Plateformes de programmation • Paralléllisation pour les données (SIMD) • Hadoop et son écosystème • Spark • Parallélisation pour les tâches (MIMD) • Flink • Parallélisation pour les graphes • Pregel • GraphX (spark) • GraphLab • Traitement des flux (stream processing) • Storm • Heron • Flink • Spark streaming • Apache Apex • Kafka streams 66Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
  • 67. Big data sur le cloud • Opensource • OpenStack • OpenNebula • Offre commerciale • Microsoft Azure • Amazon Web Services • Google Cloud Platform 67Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
  • 68. ACQUISITION - Collection - Transport - Prétraitement 11Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
  • 69. ACQUISITION - Collection - Transport - Prétraitement 11Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
  • 70. Données structurées • Détection des anomalies • Prédiction des séries temporelles • Énergie • Météo • Cours des actions en bourse • Données des capteurs (IoT) • Finance • Détection de fraude • Blanchissement d’argent • Financement du terrorisme • Commerce • Pricing • Veille 70Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
  • 71. Données du Web • Analyse du contenu (Texte, Image, Vidéo, etc.): • Moteurs de recherche • Recommandation • Analyse des structures • Moteurs de recherche • Analyse des usages • Fournisseurs de services ou de contenu • Analyse et prédiction des tendances • Recommandation • Personnalisation 71Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
  • 72. Données textuelles • Text mining : extraction des connaissances à partir du contenu textuel (emails, documents, pages Web, commentaires, etc…) • Opinion mining : détermination des opinions exprimées dans un texte. • Recherche d’information • Traitement du langage naturel • Traduction 72Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
  • 73. Données multimédias • Audio, images, vidéo • Indexation er recherche d’information • Recommandation • Extraction des connaissances • Annotation • Transcription et traduction • Résumé du contenu • Surveillance • Analyse des opinions et des sentiments 73Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
  • 74. Collection • Fichiers de journalisation (logs) • Systèmes d’informations • Bases de données • Capteurs • Equipements mobiles • Surveillance des réseaux 12Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
  • 75. Données de mobilité • Smartphones • GPS • Objets connectés • RFID labels are used to identify, locate, track • Capteurs • Balises (Beacons BLE) 75Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
  • 76. Donnée liées à la santé • Génomique & ADN • Imagerie médicale • Historiques des patients • Assurances • Epidémiologie 76Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
  • 77. CONCLUSION 77Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
  • 78. Leçons retenues et perspectives • Domaine porteur et à haute valeur ajoutée • Domaine vaste et offre technologique variée • Ne se limite pas à Hadoop et à Spark • Choix guidés par l’usage et les tests • S’apprend par la pratique et les exemples • En constante évolution • Plus accessible avec les offre de cloud • Le big data est complémentaire à l’IA, ML et DL • Recherche d’approches évolutives, scalables, adaptatives, en ligne pour les problématiques d’entreprises 78Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
  • 79. Transport • Réseaux et protocoles • Nouvelles technologies et architecture réseau : DAS, NAS, SAN, RAID 13Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018