BIG DATA
Contexte
Défis
Technologies
Applications
Mohamed Ramzi Haddad
Maître assistant en informatique, ENIT
Chercheur au laboratoire RIADI, ENSI
Haddad.medramzi@gmail.com
Université de la Manouba
Institut Supérieur des Arts Multimédias
JOURNÉES
SCIENTIFIQUES
PLURIDISCIPLINAIRES
Recherche et Innovation à l'Ère du Numérique Massif
JSP ISAMM, Septembre 2018 Big data, Mohamed Ramzi Haddad
Plan
Genèse Sources Acquisition
Stockage Analyse
Architectures et
technologies
Applications
2Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
GENÈSE
- Contexte
- Problématique
- Défis
- Intérêt
3Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
Contexte
• Démocratisation de l’accès à internet
• Explosion de l’offre sur internet
• Temps d’usage de l’internet
• Usage des smartphones
• Emergence & adoption de l’IoT
• 30 milliards d’objets déployés
• Explosion du volume des données*
• 500 exabyte en 2009
• 2,7 zettabyte en 2012
• 35 zettabyte en 2020
• Diminution des coûts de stockage et de calcul
• 80% de données non structurées*
• 1/3 des entreprises n’ont pas confiance dans les données
qu’elles utilisent*
*https://www.slideshare.net/SwissHUG/ibm-big-data-platform-nov-2012
https://www.backblaze.com/blog/hard-drive-cost-per-gigabyte/
4Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
Problématique
• Nouvel ordre de grandeur
• Volume
• Vélocité
• Variété
• Véracité
• Données dépassant
• L’intuition humaine (analyse, imagination, conceptualisation)
• Les outils (sestion, analyse, visualisation)
• Les infrastructures (stockage, transport)
5Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
Défis
• Passage à l’échelle
• Capturer, gérer, analyser ces données massives
• Extraire les connaissances, prendre décision et agir
• Extraire de la valeur ajoutée
• Recherche & Innovation
• Infrastructures matérielles (calcul, stockage, réseaux)
• Algorithmes & logiciels (ingestion, analyse, modélisation,
prédiction, etc.)
• Ethique
• Respect de la vie privée
• Droits
6Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
Intérêts
Le big data et l’intelligence artificielle :
• Parmi les plus grands défis informatiques de la décennie
• Priorités en recherche et développement
• Priorités & opprtunités pour les entreprises
• Marché en pleine expansion
• Compétences à forte demande
7Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
Intérêts (2)
8Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
https://www.forbes.com/sites/louiscolumbus/2017/05/13/ibm-predicts-demand-for-data-scientists-will-soar-28-by-2020/#3d3e38187e3b
GENÈSE
- Contexte
- Problématique
- Défis
- Intérêt
3Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
Sources de données big data
• Données du Web
• Textuelle
• Multimédias
• sociales
• Données de l’entreprise
• Clients
• Produits
• Service et offres
• Transactions
• Données de l’IoT
• Télémétrie
• Interactions
• Mobilité
• Données médicales
10Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
ACQUISITION
- Collection
- Transport
- Prétraitement
11Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
Collection
• Fichiers de journalisation (logs)
• Systèmes d’informations
• Bases de données
• Capteurs
• Equipements mobiles
• Surveillance des réseaux
12Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
Transport
• Réseaux et protocoles
• Nouvelles technologies et
architecture réseau : DAS, NAS,
SAN, RAID
13Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
Contexte
• Démocratisation de l’accès à internet
• Explosion de l’offre sur internet
• Temps d’usage de l’internet
• Usage des smartphones
• Emergence & adoption de l’IoT
• 30 milliards d’objets déployés
• Explosion du volume des données*
• 500 exabyte en 2009
• 2,7 zettabyte en 2012
• 35 zettabyte en 2020
• Diminution des coûts de stockage et de calcul
• 80% de données non structurées*
• 1/3 des entreprises n’ont pas confiance dans les données
qu’elles utilisent*
*https://www.slideshare.net/SwissHUG/ibm-big-data-platform-nov-2012
https://www.backblaze.com/blog/hard-drive-cost-per-gigabyte/
4Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
STOCKAGE
- Infrastructures
- Mécanismes
- Bases de données
15Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
Stockage distribué
• Théorème CAP (Brewer, 2000) : Il est impossible pour un
système distribué de garantir au même temps les trois critères
• Consistance/cohérence:
• Disponibilité
• Résilience/tolérance au partitionnement
• Compromis
• CA : BD relationnelles à petite échelle
• CP : Systèmes à charge moyenne
• AP : Consistance éventuelle, grande
charge, précision modérée
16Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
Mécanismes de stockage
• Modèles de stockage
• Block : Amazon EBS, OpenStack cinder
• Fichier : systèmes de fichiers (GFS, Colossus, HDFS, COSMOS,
TFS and FastDFS)
• Objet : Amazon S3, OpenStack Swift
• Bases de données :
• Clé/Valeur
• Orientées documents
• Orientées colonnes
• Graphes
• Autres types
• Modèles de programmation
• MapReduce, Dryad, Pregel
17Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
BD Clé/valeur
• Principes :
• Chaque donnée (simple ou complexe) est identifiée par une clé.
• Les clés sont uniques et sont le seul moyen de rechercher les
données.
• Exemples : DynamoDB, Memcached, Redis, RIAK, Voldemort
• Avantages:
• Structure associative simple
• Modèle de données simple
• Requêtes simples
• Performances accrues
• Inconvénients:
• Modèle de données trop simple pour les entités complexes
• Requêtes par clé seulement
18Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
BD Clé/valeur - Exemple
19Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
BD Orientées documents
• Principes :
• Etend le modèle clé/valeur pour pouvoir gérer des données plus
complexes.
• Les entrées (documents) n’ont pas de schéma fixe.
• Les champs indexables ayant des valeurs simples ou composites.
• Exemples : MongoDB, CouchDB, SimpleDB, Couchbase
• Avantages :
• Représentation simple des documents : JSON, XML, BSON
• Flexibilité et richesse de la structure (scheamless)
• Requêtes simples et riche
• Inconvénients :
• Interrogation des hiérarchies complexes (données imbriquées)
• Difficulté de représenter les associations
20Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
BD Orientées documents - Exemple
{
"ProductID": "123112",
"Manufacturer": "Apple"
"Model" : "iPhone",
"Memory":"8GB",
"Color":"Gold"
}
{
"ProductID": "146177",
"Manufacturer": "Samsung",
"OS" : "Android",
"Model" : "Galaxy S7",
"Memory": "32GB",
"Warrantee" : "US Warrantee"
"Lock" "Lock Free"
}
{
"ProductID": "123112",
"Manufacturer":
"Samsung",
"OS" : "Android",
"Model" : "Galaxy J7",
"Color": "Gold",
"SIM": "Dual Sim"
}
21Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
Problématique
• Nouvel ordre de grandeur
• Volume
• Vélocité
• Variété
• Véracité
• Données dépassant
• L’intuition humaine (analyse, imagination, conceptualisation)
• Les outils (sestion, analyse, visualisation)
• Les infrastructures (stockage, transport)
5Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
BD Orientées documents - Exemple (3)
• Modélisation du profil d’un utilisateurs d’un site d’actualité
• MongoDB (JSON)
Haddad, M. R.; Baazaoui, H. & Ficel, H., A Scalable and Interactive Recommendation Model for Users’ Interests Prediction
International Journal of Information Technology & Decision Making, 2018
23Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
BD orientées colonnes
• Principes :
• Stockage et traitement des données par colonnes.
• Les informations concernant une entité peuvent se trouver
distribuées.
• Exemples : BigTable, Cassandra, Hbase, Hypertable
• Avantages :
• Passage à l’échelle facile
• Performances
• Données indexées automatiquement par colonne
• Inconvénients :
• Non adaptées aux données fortement connectées.
• Flexibilité moyenne lors de changements des structures de données.
24Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
BD orientées colonnes (2)
25Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
BD graphes
• Principes :
• modéliser les objets ainsi que leurs relations sous forme d’un
graphe (noeuds, d’arcs et d’adjecence).
• La recherche se fait par exploration du graphe
• Exemples : Neo4j, OrientDB
• Caractéristiques :
• Flexibilité du modèle des données
• Performances
• Modélisation simple
• Requêtes simple
26Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
Défis
• Passage à l’échelle
• Capturer, gérer, analyser ces données massives
• Extraire les connaissances, prendre décision et agir
• Extraire de la valeur ajoutée
• Recherche & Innovation
• Infrastructures matérielles (calcul, stockage, réseaux)
• Algorithmes & logiciels (ingestion, analyse, modélisation,
prédiction, etc.)
• Ethique
• Respect de la vie privée
• Droits
6Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
Défis
• Passage à l’échelle
• Capturer, gérer, analyser ces données massives
• Extraire les connaissances, prendre décision et agir
• Extraire de la valeur ajoutée
• Recherche & Innovation
• Infrastructures matérielles (calcul, stockage, réseaux)
• Algorithmes & logiciels (ingestion, analyse, modélisation,
prédiction, etc.)
• Ethique
• Respect de la vie privée
• Droits
6Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
Indexes externes
• Principes :
• Indexation de données volumineuses généralement externes
• Gestion des indexes et accès en temps réel
• Fonctionnalités de recherche avancées
• Exemples: Lucene, ElasticSearch
• Caractéristiques :
• Adaptées pour la gestion des données textuelles
• Recherches textuelles avancées (NLP, recherche floue).
29Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
BD relationnelles pour le Big data
• Produits
• MySQL Cluster
• VoltDB
• Vertica Analytics Platform
• Sur le cloud
• Amazon RDS
• Microsoft Azure SQL
• Google Cloud SQL
30Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
Choix des DBs
• Modèle de données (schémas?)
• Taille des données
• Stockage
• Compromis CAP
• Atomicité des transactions
• Contrôle de concurrence (locks)
• Indexation
• Données parcimonieuses
• Modèle de programmation
31Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
ANALYSE
• Data mining
• Méthodes descriptives et prédictives
• Techniques spécialisée
• Modes & architectures
32Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
Intérêts
Le big data et l’intelligence artificielle :
• Parmi les plus grands défis informatiques de la décennie
• Priorités en recherche et développement
• Priorités & opprtunités pour les entreprises
• Marché en pleine expansion
• Compétences à forte demande
7Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
Data mining – Méthodes prédictives
• Classification : labellisation des observations inconnues.
• Détection des anomalies : détection des observations
aberrantes divergeant des modèles/patrons établis.
• Régression : modélisation des relations entre une ou
plusieurs variables explicatives et une variable étudiée .
• Règles d’association : cooccurrences des observations.
• Arbres de décision : prédiction/décision à partir de
variables discriminantes.
• Inférence Bayésienne : probabilités de l’observation des
évènements futurs.
• Raisonnement par cas/similarité : inférence basée sur
les observations similaires du passé.
34Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
Data mining - Exemple d’usage
• Inférence Bayesienne
• Segmentation du contenu
et des utilisateurs
• Kmeans
• Cmeans
• Régression logistique
• Ordinale
• Binaire
• Catégorique
Haddad, M.R. ; Baazaoui, H.; Ziou, D. & Ben Ghezala, H., Towards a new model for context-aware recommendation, IS'12
35Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
Techniques pour le Big data
• Réduction de la dimensionnalité : réduire le nombre de
variables disponibles par sélection ou par projection (PCA, LSH,
KNN, Autoencodeurs).
• Réduction du volume : Réduire la taille des données par
compression, échantillonnage ou hachage pour réduire les coûts
d’ingestion, de traitement, de transfert et de stockage.
• Complexité des algorithmes : recours à des algorithmes
ayant une moindre complexité (temporelle ou spatiale) pour alléger
les contraintes de l’analyse des données massives.
36Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
Techniques pour le Big data (2)
• Indexation : indexer les données permet de réduire les coûts de
quelques opérations sur les données.
• Utilisation des caches : stockage temporaire/local des données
fréquemment utilisées sur des supports rapides pour réduire la
latence et augmenter le débit (CPU, GPU, RAM, Disque,
Memoisation, etc…).
• Optimisation du code : améliorer l'efficacité du code d'un
programme ou d'une librairie pour s’exécuter plus rapidement,
prendre moins de place en mémoire, limiter la consommation des
ressources et consommer moins d’énergie (complexité, réorganiser le
code, structures de données, mémoisation, langage) .
37Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
Techniques pour le Big data - Exemple
• Réduction du volume des
données
• Suppression des mots vides
• Codage des lemmes
• Indexation du texte
• Réduction de la Complexité
du calcul de similarité
• Segmentation des articles
• Classification des nouveaux
articles dans les partitions.
• Mise en cache des derniers
articles lus et des sessions des
utilisateurs
Haddad, M. R.; Baazaoui, H. & Ficel, H., A Scalable and Interactive Recommendation Model for Users’ Interests Prediction
International Journal of Information Technology & Decision Making, 2018
38Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
Techniques pour le Big data - Exemple
Haddad, M. R.; Baazaoui, H. & Ficel, H., A Scalable and Interactive Recommendation Model for Users’ Interests Prediction
International Journal of Information Technology & Decision Making, 2018
39Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
Modes d’analyse et d’inférence
• Echelle de l’analyse : petite (en mémoire), modérée (outils BI,
BD) ou large (HDFS & Hadoop)
• En ligne (temps réel) vs Hors ligne : Temps de réponse
requis : calcul parallèle, grappes de calcul, Calcul en mémoire, etc…
• Flux (Stream) vs lots (Batch) : Latence dans le traitement des
données/observations:
• Données historiques vs récentes
• Données au repos vs en mouvement
40Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
Intérêts (2)
8Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
https://www.forbes.com/sites/louiscolumbus/2017/05/13/ibm-predicts-demand-for-data-scientists-will-soar-28-by-2020/#3d3e38187e3b
Analyse de flux ou de lots - Exemples
Lot (Batch processing)
• Génération de rapports
• Recommandation
(marketing, emailing, etc.)
• Trading algorithmique
long terme
• Analyse des données
satellitaires
• Modélisation des spams
Flux (stream processing)
• Rapports interactifs
• Recommandation
(actualité, tweets, etc.)
• Trading algorithmique
court terme
• Données de mobilité
• Classification des emails
42Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
ARCHITECTURES ET
TECHNOLOGIES
- Architectures
- Modèles de programmation
- Plateformes de programmation
- Cloud computing
43Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
Passage à l’échelle et évolutivité
Verticale (scale up) Horizontale (scale out)
Distributed Computing in Big Data Analytics, Concepts, Technologies and Applications, Springer
44Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
Composantes des architectures Big data
https://docs.microsoft.com/en-us/azure/architecture/data-guide/big-data/
45Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
Architecture Lambda
https://docs.microsoft.com/en-us/azure/architecture/data-guide/big-data/
46Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
Architecture Lambda - Exemple
• Recommandation d’articles d’actualité
Ficel, H.; Haddad, M. R. & Baazaoui Zghal, H., Large-Scale Real-Time News Recommendation Based on Semantic Data
Analysis and Users’ Implicit and Explicit Behaviors. ADBIS’18, Springer, 2018
47Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
Architecture Lambda - Exemple (2)
Ficel, H.; Haddad, M. R. & Baazaoui Zghal, H., Large-Scale Real-Time News Recommendation Based on Semantic Data
Analysis and Users’ Implicit and Explicit Behaviors. ADBIS’18, Springer, 2018
48Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
Architecture Kappa
https://docs.microsoft.com/en-us/azure/architecture/data-guide/big-data/
49Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
Architecture Kappa – Exemple
• Recommandation d’articles d’actualité
Haddad, M. R.; Baazaoui, H. & Ficel, H., A Scalable and Interactive Recommendation Model for Users’ Interests Prediction
International Journal of Information Technology & Decision Making, 2018
50Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
Architecture Kappa – Exemple
Haddad, M. R.; Baazaoui, H. & Ficel, H., A Scalable and Interactive Recommendation Model for Users’ Interests Prediction
International Journal of Information Technology & Decision Making, 2018
51Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
Autres architectures
• Grid computing
• Microservices
• Event driven architecture
• Edge Computing : exploitation des capacités de calcul à
l’extrémité du réseau.
• Fog computing (informatique en brouillard ou géodistribuée) :
exploitation des capacités de stockage et de calcul proches des
sources de données.
52Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
SOURCES
- Internet
- Entreprises
- IoT
9Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
Exemple Edge computing
• Prédiction des appels téléphoniques
• > 10K utilisateurs
• > 1 million d’évènements
Haddad, M.R. ; Baazaoui, H.; Ziou, D. & Ben Ghezala, H., A predictive model for recurrent consumption behavior: An
application on phone calls, Knowledge-Based Systems, 2014
54Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
Modèles de programmation
Handbook of Big Data Technologies, Springer
55Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
MapReduce
• Hadoop, MapR, Spark, Flink, Java,
Handbook of Big Data Technologies, Springer
56Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
MapReduce – Exemple d’usage
• Filtrage collaboratif distribué pour la recommandation de
films en modes flux et lot (flink)
(à paraitre) Zaouali, K., Haddad, M. R.; Baazaoui, H. Distributed Collaborative Filtering for batch and stream processing-
based recommendations, COOPIS’18, 2018
57Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
MapReduce – Exemple d’usage (2)
• Filtrage collaboratif distribué pour la recommandation de
films en modes flux et lot (flink)
• Scalabilité horizontale
(à paraitre) Zaouali, K., Haddad, M. R.; Baazaoui, H. Distributed Collaborative Filtering for batch and stream processing-
based recommendations, COOPIS’18, 2018
58Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
Langages d’interrogation
• Programmation des algorithmes en utilisant les langages
d’interrogation :
• Hive (HQL)
• Cassandra (CQL)
• Spark SQL
• Flink Table & SQL APIs
• Kafka KSQL
• Apache Drill
• Neo4j (Cypher)
59Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
Sources de données big data
• Données du Web
• Textuelle
• Multimédias
• sociales
• Données de l’entreprise
• Clients
• Produits
• Service et offres
• Transactions
• Données de l’IoT
• Télémétrie
• Interactions
• Mobilité
• Données médicales
10Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
Sources de données big data
• Données du Web
• Textuelle
• Multimédias
• sociales
• Données de l’entreprise
• Clients
• Produits
• Service et offres
• Transactions
• Données de l’IoT
• Télémétrie
• Interactions
• Mobilité
• Données médicales
10Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
Sources de données big data
• Données du Web
• Textuelle
• Multimédias
• sociales
• Données de l’entreprise
• Clients
• Produits
• Service et offres
• Transactions
• Données de l’IoT
• Télémétrie
• Interactions
• Mobilité
• Données médicales
10Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
Programmation concurrente
• Parallèle :
• Threads : mémoire partagée, compétition, synchronisation (mutex,
barrières, etc.)
• Modèle acteur : Akka, Storm
• Programmation fonctionnelle : spark, flink, java 8, etc.
• GPU : CUDA, OpenACC
• SIMD : OpenCL, CUDA, API OpenMP
• MIMD : Open MPI, MPICH
• Distribuée :
• MPI : Open MPI
• Architecture microservices
• Message-oriented middleware : Kafka, ActiveMQ, RabbitMQ, etc.
63Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
Exemple de programmation fonctionnelle
• Recommandation de films (Movielens)
Algorithme de filtrage collaboratif avec les interfaces fonctionnelles de Java 8
64Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
Autres
• R
• Matlab
• Mahout
• Apache Oozie
• Apache Giraph et Google Pregel
• Apache Hama
65Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
Plateformes de programmation
• Paralléllisation pour les données (SIMD)
• Hadoop et son écosystème
• Spark
• Parallélisation pour les tâches (MIMD)
• Flink
• Parallélisation pour les graphes
• Pregel
• GraphX (spark)
• GraphLab
• Traitement des flux (stream processing)
• Storm
• Heron
• Flink
• Spark streaming
• Apache Apex
• Kafka streams
66Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
Big data sur le cloud
• Opensource
• OpenStack
• OpenNebula
• Offre commerciale
• Microsoft Azure
• Amazon Web Services
• Google Cloud Platform
67Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
ACQUISITION
- Collection
- Transport
- Prétraitement
11Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
ACQUISITION
- Collection
- Transport
- Prétraitement
11Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
Données structurées
• Détection des anomalies
• Prédiction des séries temporelles
• Énergie
• Météo
• Cours des actions en bourse
• Données des capteurs (IoT)
• Finance
• Détection de fraude
• Blanchissement d’argent
• Financement du terrorisme
• Commerce
• Pricing
• Veille
70Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
Données du Web
• Analyse du contenu (Texte, Image, Vidéo, etc.):
• Moteurs de recherche
• Recommandation
• Analyse des structures
• Moteurs de recherche
• Analyse des usages
• Fournisseurs de services ou de contenu
• Analyse et prédiction des tendances
• Recommandation
• Personnalisation
71Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
Données textuelles
• Text mining : extraction des connaissances à partir du
contenu textuel (emails, documents, pages Web,
commentaires, etc…)
• Opinion mining : détermination des opinions exprimées
dans un texte.
• Recherche d’information
• Traitement du langage naturel
• Traduction
72Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
Données multimédias
• Audio, images, vidéo
• Indexation er recherche d’information
• Recommandation
• Extraction des connaissances
• Annotation
• Transcription et traduction
• Résumé du contenu
• Surveillance
• Analyse des opinions et des sentiments
73Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
Collection
• Fichiers de journalisation (logs)
• Systèmes d’informations
• Bases de données
• Capteurs
• Equipements mobiles
• Surveillance des réseaux
12Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
Données de mobilité
• Smartphones
• GPS
• Objets connectés
• RFID labels are used to identify, locate, track
• Capteurs
• Balises (Beacons BLE)
75Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
Donnée liées à la santé
• Génomique & ADN
• Imagerie médicale
• Historiques des patients
• Assurances
• Epidémiologie
76Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
CONCLUSION
77Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
Leçons retenues et perspectives
• Domaine porteur et à haute valeur ajoutée
• Domaine vaste et offre technologique variée
• Ne se limite pas à Hadoop et à Spark
• Choix guidés par l’usage et les tests
• S’apprend par la pratique et les exemples
• En constante évolution
• Plus accessible avec les offre de cloud
• Le big data est complémentaire à l’IA, ML et DL
• Recherche d’approches évolutives, scalables,
adaptatives, en ligne pour les problématiques
d’entreprises
78Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
Transport
• Réseaux et protocoles
• Nouvelles technologies et
architecture réseau : DAS, NAS,
SAN, RAID
13Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018

Big data : défis & technologies

  • 1.
    BIG DATA Contexte Défis Technologies Applications Mohamed RamziHaddad Maître assistant en informatique, ENIT Chercheur au laboratoire RIADI, ENSI Haddad.medramzi@gmail.com Université de la Manouba Institut Supérieur des Arts Multimédias JOURNÉES SCIENTIFIQUES PLURIDISCIPLINAIRES Recherche et Innovation à l'Ère du Numérique Massif JSP ISAMM, Septembre 2018 Big data, Mohamed Ramzi Haddad
  • 2.
    Plan Genèse Sources Acquisition StockageAnalyse Architectures et technologies Applications 2Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
  • 3.
    GENÈSE - Contexte - Problématique -Défis - Intérêt 3Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
  • 4.
    Contexte • Démocratisation del’accès à internet • Explosion de l’offre sur internet • Temps d’usage de l’internet • Usage des smartphones • Emergence & adoption de l’IoT • 30 milliards d’objets déployés • Explosion du volume des données* • 500 exabyte en 2009 • 2,7 zettabyte en 2012 • 35 zettabyte en 2020 • Diminution des coûts de stockage et de calcul • 80% de données non structurées* • 1/3 des entreprises n’ont pas confiance dans les données qu’elles utilisent* *https://www.slideshare.net/SwissHUG/ibm-big-data-platform-nov-2012 https://www.backblaze.com/blog/hard-drive-cost-per-gigabyte/ 4Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
  • 5.
    Problématique • Nouvel ordrede grandeur • Volume • Vélocité • Variété • Véracité • Données dépassant • L’intuition humaine (analyse, imagination, conceptualisation) • Les outils (sestion, analyse, visualisation) • Les infrastructures (stockage, transport) 5Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
  • 6.
    Défis • Passage àl’échelle • Capturer, gérer, analyser ces données massives • Extraire les connaissances, prendre décision et agir • Extraire de la valeur ajoutée • Recherche & Innovation • Infrastructures matérielles (calcul, stockage, réseaux) • Algorithmes & logiciels (ingestion, analyse, modélisation, prédiction, etc.) • Ethique • Respect de la vie privée • Droits 6Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
  • 7.
    Intérêts Le big dataet l’intelligence artificielle : • Parmi les plus grands défis informatiques de la décennie • Priorités en recherche et développement • Priorités & opprtunités pour les entreprises • Marché en pleine expansion • Compétences à forte demande 7Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
  • 8.
    Intérêts (2) 8Big data,Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018 https://www.forbes.com/sites/louiscolumbus/2017/05/13/ibm-predicts-demand-for-data-scientists-will-soar-28-by-2020/#3d3e38187e3b
  • 9.
    GENÈSE - Contexte - Problématique -Défis - Intérêt 3Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
  • 10.
    Sources de donnéesbig data • Données du Web • Textuelle • Multimédias • sociales • Données de l’entreprise • Clients • Produits • Service et offres • Transactions • Données de l’IoT • Télémétrie • Interactions • Mobilité • Données médicales 10Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
  • 11.
    ACQUISITION - Collection - Transport -Prétraitement 11Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
  • 12.
    Collection • Fichiers dejournalisation (logs) • Systèmes d’informations • Bases de données • Capteurs • Equipements mobiles • Surveillance des réseaux 12Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
  • 13.
    Transport • Réseaux etprotocoles • Nouvelles technologies et architecture réseau : DAS, NAS, SAN, RAID 13Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
  • 14.
    Contexte • Démocratisation del’accès à internet • Explosion de l’offre sur internet • Temps d’usage de l’internet • Usage des smartphones • Emergence & adoption de l’IoT • 30 milliards d’objets déployés • Explosion du volume des données* • 500 exabyte en 2009 • 2,7 zettabyte en 2012 • 35 zettabyte en 2020 • Diminution des coûts de stockage et de calcul • 80% de données non structurées* • 1/3 des entreprises n’ont pas confiance dans les données qu’elles utilisent* *https://www.slideshare.net/SwissHUG/ibm-big-data-platform-nov-2012 https://www.backblaze.com/blog/hard-drive-cost-per-gigabyte/ 4Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
  • 15.
    STOCKAGE - Infrastructures - Mécanismes -Bases de données 15Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
  • 16.
    Stockage distribué • ThéorèmeCAP (Brewer, 2000) : Il est impossible pour un système distribué de garantir au même temps les trois critères • Consistance/cohérence: • Disponibilité • Résilience/tolérance au partitionnement • Compromis • CA : BD relationnelles à petite échelle • CP : Systèmes à charge moyenne • AP : Consistance éventuelle, grande charge, précision modérée 16Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
  • 17.
    Mécanismes de stockage •Modèles de stockage • Block : Amazon EBS, OpenStack cinder • Fichier : systèmes de fichiers (GFS, Colossus, HDFS, COSMOS, TFS and FastDFS) • Objet : Amazon S3, OpenStack Swift • Bases de données : • Clé/Valeur • Orientées documents • Orientées colonnes • Graphes • Autres types • Modèles de programmation • MapReduce, Dryad, Pregel 17Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
  • 18.
    BD Clé/valeur • Principes: • Chaque donnée (simple ou complexe) est identifiée par une clé. • Les clés sont uniques et sont le seul moyen de rechercher les données. • Exemples : DynamoDB, Memcached, Redis, RIAK, Voldemort • Avantages: • Structure associative simple • Modèle de données simple • Requêtes simples • Performances accrues • Inconvénients: • Modèle de données trop simple pour les entités complexes • Requêtes par clé seulement 18Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
  • 19.
    BD Clé/valeur -Exemple 19Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
  • 20.
    BD Orientées documents •Principes : • Etend le modèle clé/valeur pour pouvoir gérer des données plus complexes. • Les entrées (documents) n’ont pas de schéma fixe. • Les champs indexables ayant des valeurs simples ou composites. • Exemples : MongoDB, CouchDB, SimpleDB, Couchbase • Avantages : • Représentation simple des documents : JSON, XML, BSON • Flexibilité et richesse de la structure (scheamless) • Requêtes simples et riche • Inconvénients : • Interrogation des hiérarchies complexes (données imbriquées) • Difficulté de représenter les associations 20Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
  • 21.
    BD Orientées documents- Exemple { "ProductID": "123112", "Manufacturer": "Apple" "Model" : "iPhone", "Memory":"8GB", "Color":"Gold" } { "ProductID": "146177", "Manufacturer": "Samsung", "OS" : "Android", "Model" : "Galaxy S7", "Memory": "32GB", "Warrantee" : "US Warrantee" "Lock" "Lock Free" } { "ProductID": "123112", "Manufacturer": "Samsung", "OS" : "Android", "Model" : "Galaxy J7", "Color": "Gold", "SIM": "Dual Sim" } 21Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
  • 22.
    Problématique • Nouvel ordrede grandeur • Volume • Vélocité • Variété • Véracité • Données dépassant • L’intuition humaine (analyse, imagination, conceptualisation) • Les outils (sestion, analyse, visualisation) • Les infrastructures (stockage, transport) 5Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
  • 23.
    BD Orientées documents- Exemple (3) • Modélisation du profil d’un utilisateurs d’un site d’actualité • MongoDB (JSON) Haddad, M. R.; Baazaoui, H. & Ficel, H., A Scalable and Interactive Recommendation Model for Users’ Interests Prediction International Journal of Information Technology & Decision Making, 2018 23Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
  • 24.
    BD orientées colonnes •Principes : • Stockage et traitement des données par colonnes. • Les informations concernant une entité peuvent se trouver distribuées. • Exemples : BigTable, Cassandra, Hbase, Hypertable • Avantages : • Passage à l’échelle facile • Performances • Données indexées automatiquement par colonne • Inconvénients : • Non adaptées aux données fortement connectées. • Flexibilité moyenne lors de changements des structures de données. 24Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
  • 25.
    BD orientées colonnes(2) 25Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
  • 26.
    BD graphes • Principes: • modéliser les objets ainsi que leurs relations sous forme d’un graphe (noeuds, d’arcs et d’adjecence). • La recherche se fait par exploration du graphe • Exemples : Neo4j, OrientDB • Caractéristiques : • Flexibilité du modèle des données • Performances • Modélisation simple • Requêtes simple 26Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
  • 27.
    Défis • Passage àl’échelle • Capturer, gérer, analyser ces données massives • Extraire les connaissances, prendre décision et agir • Extraire de la valeur ajoutée • Recherche & Innovation • Infrastructures matérielles (calcul, stockage, réseaux) • Algorithmes & logiciels (ingestion, analyse, modélisation, prédiction, etc.) • Ethique • Respect de la vie privée • Droits 6Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
  • 28.
    Défis • Passage àl’échelle • Capturer, gérer, analyser ces données massives • Extraire les connaissances, prendre décision et agir • Extraire de la valeur ajoutée • Recherche & Innovation • Infrastructures matérielles (calcul, stockage, réseaux) • Algorithmes & logiciels (ingestion, analyse, modélisation, prédiction, etc.) • Ethique • Respect de la vie privée • Droits 6Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
  • 29.
    Indexes externes • Principes: • Indexation de données volumineuses généralement externes • Gestion des indexes et accès en temps réel • Fonctionnalités de recherche avancées • Exemples: Lucene, ElasticSearch • Caractéristiques : • Adaptées pour la gestion des données textuelles • Recherches textuelles avancées (NLP, recherche floue). 29Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
  • 30.
    BD relationnelles pourle Big data • Produits • MySQL Cluster • VoltDB • Vertica Analytics Platform • Sur le cloud • Amazon RDS • Microsoft Azure SQL • Google Cloud SQL 30Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
  • 31.
    Choix des DBs •Modèle de données (schémas?) • Taille des données • Stockage • Compromis CAP • Atomicité des transactions • Contrôle de concurrence (locks) • Indexation • Données parcimonieuses • Modèle de programmation 31Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
  • 32.
    ANALYSE • Data mining •Méthodes descriptives et prédictives • Techniques spécialisée • Modes & architectures 32Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
  • 33.
    Intérêts Le big dataet l’intelligence artificielle : • Parmi les plus grands défis informatiques de la décennie • Priorités en recherche et développement • Priorités & opprtunités pour les entreprises • Marché en pleine expansion • Compétences à forte demande 7Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
  • 34.
    Data mining –Méthodes prédictives • Classification : labellisation des observations inconnues. • Détection des anomalies : détection des observations aberrantes divergeant des modèles/patrons établis. • Régression : modélisation des relations entre une ou plusieurs variables explicatives et une variable étudiée . • Règles d’association : cooccurrences des observations. • Arbres de décision : prédiction/décision à partir de variables discriminantes. • Inférence Bayésienne : probabilités de l’observation des évènements futurs. • Raisonnement par cas/similarité : inférence basée sur les observations similaires du passé. 34Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
  • 35.
    Data mining -Exemple d’usage • Inférence Bayesienne • Segmentation du contenu et des utilisateurs • Kmeans • Cmeans • Régression logistique • Ordinale • Binaire • Catégorique Haddad, M.R. ; Baazaoui, H.; Ziou, D. & Ben Ghezala, H., Towards a new model for context-aware recommendation, IS'12 35Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
  • 36.
    Techniques pour leBig data • Réduction de la dimensionnalité : réduire le nombre de variables disponibles par sélection ou par projection (PCA, LSH, KNN, Autoencodeurs). • Réduction du volume : Réduire la taille des données par compression, échantillonnage ou hachage pour réduire les coûts d’ingestion, de traitement, de transfert et de stockage. • Complexité des algorithmes : recours à des algorithmes ayant une moindre complexité (temporelle ou spatiale) pour alléger les contraintes de l’analyse des données massives. 36Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
  • 37.
    Techniques pour leBig data (2) • Indexation : indexer les données permet de réduire les coûts de quelques opérations sur les données. • Utilisation des caches : stockage temporaire/local des données fréquemment utilisées sur des supports rapides pour réduire la latence et augmenter le débit (CPU, GPU, RAM, Disque, Memoisation, etc…). • Optimisation du code : améliorer l'efficacité du code d'un programme ou d'une librairie pour s’exécuter plus rapidement, prendre moins de place en mémoire, limiter la consommation des ressources et consommer moins d’énergie (complexité, réorganiser le code, structures de données, mémoisation, langage) . 37Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
  • 38.
    Techniques pour leBig data - Exemple • Réduction du volume des données • Suppression des mots vides • Codage des lemmes • Indexation du texte • Réduction de la Complexité du calcul de similarité • Segmentation des articles • Classification des nouveaux articles dans les partitions. • Mise en cache des derniers articles lus et des sessions des utilisateurs Haddad, M. R.; Baazaoui, H. & Ficel, H., A Scalable and Interactive Recommendation Model for Users’ Interests Prediction International Journal of Information Technology & Decision Making, 2018 38Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
  • 39.
    Techniques pour leBig data - Exemple Haddad, M. R.; Baazaoui, H. & Ficel, H., A Scalable and Interactive Recommendation Model for Users’ Interests Prediction International Journal of Information Technology & Decision Making, 2018 39Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
  • 40.
    Modes d’analyse etd’inférence • Echelle de l’analyse : petite (en mémoire), modérée (outils BI, BD) ou large (HDFS & Hadoop) • En ligne (temps réel) vs Hors ligne : Temps de réponse requis : calcul parallèle, grappes de calcul, Calcul en mémoire, etc… • Flux (Stream) vs lots (Batch) : Latence dans le traitement des données/observations: • Données historiques vs récentes • Données au repos vs en mouvement 40Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
  • 41.
    Intérêts (2) 8Big data,Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018 https://www.forbes.com/sites/louiscolumbus/2017/05/13/ibm-predicts-demand-for-data-scientists-will-soar-28-by-2020/#3d3e38187e3b
  • 42.
    Analyse de fluxou de lots - Exemples Lot (Batch processing) • Génération de rapports • Recommandation (marketing, emailing, etc.) • Trading algorithmique long terme • Analyse des données satellitaires • Modélisation des spams Flux (stream processing) • Rapports interactifs • Recommandation (actualité, tweets, etc.) • Trading algorithmique court terme • Données de mobilité • Classification des emails 42Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
  • 43.
    ARCHITECTURES ET TECHNOLOGIES - Architectures -Modèles de programmation - Plateformes de programmation - Cloud computing 43Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
  • 44.
    Passage à l’échelleet évolutivité Verticale (scale up) Horizontale (scale out) Distributed Computing in Big Data Analytics, Concepts, Technologies and Applications, Springer 44Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
  • 45.
    Composantes des architecturesBig data https://docs.microsoft.com/en-us/azure/architecture/data-guide/big-data/ 45Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
  • 46.
  • 47.
    Architecture Lambda -Exemple • Recommandation d’articles d’actualité Ficel, H.; Haddad, M. R. & Baazaoui Zghal, H., Large-Scale Real-Time News Recommendation Based on Semantic Data Analysis and Users’ Implicit and Explicit Behaviors. ADBIS’18, Springer, 2018 47Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
  • 48.
    Architecture Lambda -Exemple (2) Ficel, H.; Haddad, M. R. & Baazaoui Zghal, H., Large-Scale Real-Time News Recommendation Based on Semantic Data Analysis and Users’ Implicit and Explicit Behaviors. ADBIS’18, Springer, 2018 48Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
  • 49.
  • 50.
    Architecture Kappa –Exemple • Recommandation d’articles d’actualité Haddad, M. R.; Baazaoui, H. & Ficel, H., A Scalable and Interactive Recommendation Model for Users’ Interests Prediction International Journal of Information Technology & Decision Making, 2018 50Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
  • 51.
    Architecture Kappa –Exemple Haddad, M. R.; Baazaoui, H. & Ficel, H., A Scalable and Interactive Recommendation Model for Users’ Interests Prediction International Journal of Information Technology & Decision Making, 2018 51Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
  • 52.
    Autres architectures • Gridcomputing • Microservices • Event driven architecture • Edge Computing : exploitation des capacités de calcul à l’extrémité du réseau. • Fog computing (informatique en brouillard ou géodistribuée) : exploitation des capacités de stockage et de calcul proches des sources de données. 52Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
  • 53.
    SOURCES - Internet - Entreprises -IoT 9Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
  • 54.
    Exemple Edge computing •Prédiction des appels téléphoniques • > 10K utilisateurs • > 1 million d’évènements Haddad, M.R. ; Baazaoui, H.; Ziou, D. & Ben Ghezala, H., A predictive model for recurrent consumption behavior: An application on phone calls, Knowledge-Based Systems, 2014 54Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
  • 55.
    Modèles de programmation Handbookof Big Data Technologies, Springer 55Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
  • 56.
    MapReduce • Hadoop, MapR,Spark, Flink, Java, Handbook of Big Data Technologies, Springer 56Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
  • 57.
    MapReduce – Exempled’usage • Filtrage collaboratif distribué pour la recommandation de films en modes flux et lot (flink) (à paraitre) Zaouali, K., Haddad, M. R.; Baazaoui, H. Distributed Collaborative Filtering for batch and stream processing- based recommendations, COOPIS’18, 2018 57Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
  • 58.
    MapReduce – Exempled’usage (2) • Filtrage collaboratif distribué pour la recommandation de films en modes flux et lot (flink) • Scalabilité horizontale (à paraitre) Zaouali, K., Haddad, M. R.; Baazaoui, H. Distributed Collaborative Filtering for batch and stream processing- based recommendations, COOPIS’18, 2018 58Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
  • 59.
    Langages d’interrogation • Programmationdes algorithmes en utilisant les langages d’interrogation : • Hive (HQL) • Cassandra (CQL) • Spark SQL • Flink Table & SQL APIs • Kafka KSQL • Apache Drill • Neo4j (Cypher) 59Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
  • 60.
    Sources de donnéesbig data • Données du Web • Textuelle • Multimédias • sociales • Données de l’entreprise • Clients • Produits • Service et offres • Transactions • Données de l’IoT • Télémétrie • Interactions • Mobilité • Données médicales 10Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
  • 61.
    Sources de donnéesbig data • Données du Web • Textuelle • Multimédias • sociales • Données de l’entreprise • Clients • Produits • Service et offres • Transactions • Données de l’IoT • Télémétrie • Interactions • Mobilité • Données médicales 10Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
  • 62.
    Sources de donnéesbig data • Données du Web • Textuelle • Multimédias • sociales • Données de l’entreprise • Clients • Produits • Service et offres • Transactions • Données de l’IoT • Télémétrie • Interactions • Mobilité • Données médicales 10Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
  • 63.
    Programmation concurrente • Parallèle: • Threads : mémoire partagée, compétition, synchronisation (mutex, barrières, etc.) • Modèle acteur : Akka, Storm • Programmation fonctionnelle : spark, flink, java 8, etc. • GPU : CUDA, OpenACC • SIMD : OpenCL, CUDA, API OpenMP • MIMD : Open MPI, MPICH • Distribuée : • MPI : Open MPI • Architecture microservices • Message-oriented middleware : Kafka, ActiveMQ, RabbitMQ, etc. 63Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
  • 64.
    Exemple de programmationfonctionnelle • Recommandation de films (Movielens) Algorithme de filtrage collaboratif avec les interfaces fonctionnelles de Java 8 64Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
  • 65.
    Autres • R • Matlab •Mahout • Apache Oozie • Apache Giraph et Google Pregel • Apache Hama 65Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
  • 66.
    Plateformes de programmation •Paralléllisation pour les données (SIMD) • Hadoop et son écosystème • Spark • Parallélisation pour les tâches (MIMD) • Flink • Parallélisation pour les graphes • Pregel • GraphX (spark) • GraphLab • Traitement des flux (stream processing) • Storm • Heron • Flink • Spark streaming • Apache Apex • Kafka streams 66Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
  • 67.
    Big data surle cloud • Opensource • OpenStack • OpenNebula • Offre commerciale • Microsoft Azure • Amazon Web Services • Google Cloud Platform 67Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
  • 68.
    ACQUISITION - Collection - Transport -Prétraitement 11Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
  • 69.
    ACQUISITION - Collection - Transport -Prétraitement 11Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
  • 70.
    Données structurées • Détectiondes anomalies • Prédiction des séries temporelles • Énergie • Météo • Cours des actions en bourse • Données des capteurs (IoT) • Finance • Détection de fraude • Blanchissement d’argent • Financement du terrorisme • Commerce • Pricing • Veille 70Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
  • 71.
    Données du Web •Analyse du contenu (Texte, Image, Vidéo, etc.): • Moteurs de recherche • Recommandation • Analyse des structures • Moteurs de recherche • Analyse des usages • Fournisseurs de services ou de contenu • Analyse et prédiction des tendances • Recommandation • Personnalisation 71Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
  • 72.
    Données textuelles • Textmining : extraction des connaissances à partir du contenu textuel (emails, documents, pages Web, commentaires, etc…) • Opinion mining : détermination des opinions exprimées dans un texte. • Recherche d’information • Traitement du langage naturel • Traduction 72Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
  • 73.
    Données multimédias • Audio,images, vidéo • Indexation er recherche d’information • Recommandation • Extraction des connaissances • Annotation • Transcription et traduction • Résumé du contenu • Surveillance • Analyse des opinions et des sentiments 73Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
  • 74.
    Collection • Fichiers dejournalisation (logs) • Systèmes d’informations • Bases de données • Capteurs • Equipements mobiles • Surveillance des réseaux 12Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
  • 75.
    Données de mobilité •Smartphones • GPS • Objets connectés • RFID labels are used to identify, locate, track • Capteurs • Balises (Beacons BLE) 75Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
  • 76.
    Donnée liées àla santé • Génomique & ADN • Imagerie médicale • Historiques des patients • Assurances • Epidémiologie 76Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
  • 77.
    CONCLUSION 77Big data, MohamedRamzi HaddadJSP ISAMM, Septembre 2018
  • 78.
    Leçons retenues etperspectives • Domaine porteur et à haute valeur ajoutée • Domaine vaste et offre technologique variée • Ne se limite pas à Hadoop et à Spark • Choix guidés par l’usage et les tests • S’apprend par la pratique et les exemples • En constante évolution • Plus accessible avec les offre de cloud • Le big data est complémentaire à l’IA, ML et DL • Recherche d’approches évolutives, scalables, adaptatives, en ligne pour les problématiques d’entreprises 78Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018
  • 79.
    Transport • Réseaux etprotocoles • Nouvelles technologies et architecture réseau : DAS, NAS, SAN, RAID 13Big data, Mohamed Ramzi HaddadJSP ISAMM, Septembre 2018