Cet exposé donnera un aperçu du paysage NoSQL et une classification pour les différentes catégories architecturales, clarifiera les concepts de base et la terminologie, et fournira une comparaison des caractéristiques, des forces et des inconvénients des projets les plus populaires (CouchDB, MongoDB , Riak, Redis, Membase, Neo4j, Cassandra, HBase, Hypertable).
Les bases de données NoSQL bénéficient d'une large couverture médiatique, mais il semble y avoir beaucoup de confusion autour de celles-ci, comme dans quelles situations elles fonctionnent mieux qu'une base de données relationnelle, et comment choisir l'une plutôt qu'une autre.
BigData_TP2: Design Patterns dans HadoopLilia Sfaxi
Pour accéder aux fichiers nécessaires pour faire ce TP, visitez: https://drive.google.com/folderview?id=0Bz7DokLRQvx7M2JWZEt1VHdwSE0&usp=sharing
Pour plus de contenu, Visitez http://liliasfaxi.wix.com/liliasfaxi !
CNES - CCT SIL - Traitement et Manipulation de la donnée à l‘aide des technologies Big Data
Présentation du 30 Juin 2017
Les CCT sont des espaces d'échanges techniques mis en place par le CNES il y a 20 ans, dans le but de réunir différents acteurs industriels et public pour s'enrichir mutuellement.
Cet exposé donnera un aperçu du paysage NoSQL et une classification pour les différentes catégories architecturales, clarifiera les concepts de base et la terminologie, et fournira une comparaison des caractéristiques, des forces et des inconvénients des projets les plus populaires (CouchDB, MongoDB , Riak, Redis, Membase, Neo4j, Cassandra, HBase, Hypertable).
Les bases de données NoSQL bénéficient d'une large couverture médiatique, mais il semble y avoir beaucoup de confusion autour de celles-ci, comme dans quelles situations elles fonctionnent mieux qu'une base de données relationnelle, et comment choisir l'une plutôt qu'une autre.
BigData_TP2: Design Patterns dans HadoopLilia Sfaxi
Pour accéder aux fichiers nécessaires pour faire ce TP, visitez: https://drive.google.com/folderview?id=0Bz7DokLRQvx7M2JWZEt1VHdwSE0&usp=sharing
Pour plus de contenu, Visitez http://liliasfaxi.wix.com/liliasfaxi !
CNES - CCT SIL - Traitement et Manipulation de la donnée à l‘aide des technologies Big Data
Présentation du 30 Juin 2017
Les CCT sont des espaces d'échanges techniques mis en place par le CNES il y a 20 ans, dans le but de réunir différents acteurs industriels et public pour s'enrichir mutuellement.
Pour accéder aux fichiers nécessaires pour faire ce TP, visitez: https://drive.google.com/folderview?id=0Bz7DokLRQvx7M2JWZEt1VHdwSE0&usp=sharing
Pour plus de contenu, Visitez http://liliasfaxi.wix.com/liliasfaxi !
Big Data : Hadoop
- Généralité
- Architecture HDFS
- Algorithme MapRduce
- Architecture YARN
- Hadoop v3.x vs Hadoopv2.x
Cours Big Data - Chap2 - GI3 - ENIS
Une introduction au Big Data, NoSQL et Open Data.
Il présente les avantages de NoSQL.
Une présentation des différents types des bases de données NoSQL.
Architecture web aujourd'hui, besoin de scalabilité des bases de données relationnelles, découverte des bases de données NoSQL et des différents types de celles-ci. La vidéo de présentation peut être consultée à l'adresse suivante : http://youtu.be/oIpjcqHyx2M
Pour accéder aux fichiers nécessaires pour faire ce TP, visitez: https://drive.google.com/folderview?id=0Bz7DokLRQvx7M2JWZEt1VHdwSE0&usp=sharing
Pour plus de contenu, Visitez http://liliasfaxi.wix.com/liliasfaxi !
Big Data : Hadoop
- Généralité
- Architecture HDFS
- Algorithme MapRduce
- Architecture YARN
- Hadoop v3.x vs Hadoopv2.x
Cours Big Data - Chap2 - GI3 - ENIS
Une introduction au Big Data, NoSQL et Open Data.
Il présente les avantages de NoSQL.
Une présentation des différents types des bases de données NoSQL.
Architecture web aujourd'hui, besoin de scalabilité des bases de données relationnelles, découverte des bases de données NoSQL et des différents types de celles-ci. La vidéo de présentation peut être consultée à l'adresse suivante : http://youtu.be/oIpjcqHyx2M
Le buzz est à son comble, tout le monde en parle, mais avez-vous vu un Data Scientist travailler en temps réel sur des données Big Data ? Découvrez un cas d’utilisation basé sur des données Open Data et sur un modèle predictif.
Hervé Desaunois - Directeur technique, Valtech Toulouse
herve.desaunois@valtech.fr
Pierre-Yves Koenig – Data Scientist, Valtech Toulouse
pierre-yves.koenig@valtech.fr
slides_conf_sur_AI_big_data_par_Françoise_Soulié-Fogelmanshuai wang
Intelligence Artificielle
De retour de 3 ans en Chine, regard sur
l’IA en France et en Europe
Françoise Soulié-Fogelman
(Hub France IA)
Mardi 11 décembre 2018
Institut des Actuaires – Groupe de travail Big Data
Softshake 2015 - Des small data aux big data - Méthodes et TechnologiesOCTO Technology Suisse
L'importance de la donnée et les informations que nous pouvons en tirer sont en train de révolutionner notre monde. De plus en plus massives et hétérogènes, l'exploitation de ces données induit de faire appel à de nouvelles méthodes et technologies. Ces évolutions récentes en termes de moyens de stockage, de capacités de calcul et de méthodes d'analyse donnent une nouvelle place aux données dans notre quotidien.
Cette présentation offre une découverte du monde du big data en introduisant les différentes méthodes et technologies utilisées et en les illustrant de plusieurs cas pratiques.
La data n’a pas besoin d’être « big » pour générer de la valeurMicrosoft Ideas
Les entreprises sont de plus en plus nombreuses à s’intéresser au big data : Beaucoup y voit le graal qui leur permettra de sortir de la crise. Oui mais voilà, les Big Data entrent dans des critères de volume, véracité, variété et de vélocité (4V) bien précis et tellement importants (voire même hors norme) qu’elles ne concernent finalement qu’une très faible partie des projets d’exploitation de données. Faut-il pour autant exclure les entreprises ou les projets dont les cas d’usage n’entrent pas dans ces critères ? Nous allons démontrer dans le cadre de cette session et sur la base d’exemples concrets comment les données, même en volume limité et aussi dispersées soient-elle, renferment un gisement de valeurs considérable pour l’entreprise : à condition de respecter certains fondamentaux et prérequis pour pouvoir les faire parler. Retour d’expérience avec Anne LAURENT, directrice du centre HPC@LR à Montpellier, centre de compétences dévolu au calcul intensif (High Performance Computing) Session présentée par le partenaire : Isiasoft.
Speakers : Fabienne Amadori (Isiasoft), Anne Laurent (CNRS )
Formation professionnelle "Big data : concepts et enjeux"Philippe METAYER
Sensibiliser au contexte des données massives et du big data.
Le web est un incroyable réservoir de données.
Concept des données structurées et non structurées.
Les 5V : Volumétrie Vitesse Valeur Variété Véracité
Comprendre les technologies de récolte des données : scraping et crawling.
Comment traiter les données récoltées ?
Formation réalisée par Philippe Métayer - IUT MMI Bordeaux.
Résumé des présentations et ressources de l'événement "Parcours Big Data" organisé par @Cetic dans la cadre de la Big Data Week 2014, en collaboration avec @awtbe
Big Data Des méandres des outils au potentiel businessMouhsine LAKHDISSI
Une présentation du Big Data faite dans le cadre des Open Source Days à l'ENSA de Khouribga. Elle traite du potentiel business et des opportunités qui peuvent être crées par le Big Data dans différents domaines métier avec un apperçu également sur les outils et les techniques associées
Comment planter son projet data ? Par Thomas GERBAUD PhD OceanData.ioHervé Bourdon
Loin des buzzwords et de la noyade conceptuelle, Thomas nous livre un point précis sur la situation des technologies et des marché. Il enchaîne sur une approche raisonnée des outils et des déclinaisons profitables de l'usage de la big data
Qu'est ce que le big data - Présentation AIMM 30 octobreSimon Boucher
- Mais qu’est-ce vraiment que le Big Data? – Simon Boucher, Fujitsu Canada
- Le Big Data et les réseaux Sociaux – Claude G. Théorêt, Nexalogy Environnics
- L’analyse des réseaux Sociaux – Exemples – Josée Plamondon, consultante
Big Data - Un domaine au carrefour de plusieurs disciplines et d'expertises
Vue globale de l'Architecture et des Processus Big Data
Démarche Big Data
Big Data – Paradigm Shift
Big Data – L'univers digital devient de plus en plus large et interconnecté
Big Data – Perception du Volume de l'univers digital
Volume - Big Data « data-intensive » Paradigm shift : Data Locality
Volume - Big Data Paradigm shift : Synchronous batch processing
Variété - Big Data : multitude des formats de données
Varieté - Big Data Paradigme shift : Schema on Run/Read (aka ELT)
Vélocité - Big Data paradigm shift : Real Time Analysis Processing (RTAP)
Prévision des évolution des épidémies
Anticiper les pics de la circulation
Prévision Catastrophes naturelles
Sécurité territoriale
Mesure de la Satisfaction du client
Sécurité du citoyen
Mesure de la Perception du citoyen
Traitement des échanges boursiers
Exemple pratique : Calcul de la carte du bonheur par pays
Big Data & visualisation « Dataviz »
Big Data – un écosystème de
nouveaux concepts et technologies
Big Data – Quels Profils et Compétences ?
Big Data – Eldorado pour la R&D et l'Innovation
Nuage des topics liés à 15 conférences sur le Big Data de 2016
Top 20 des topics liées à 10 études d'opportunités Big Data (282 pages, 115.623 mots)
Big Data Opportunité 1 - Services
Big Data Opportunité 2 - Security
Big Data Opportunité 3 - Smart Governement
Big Data Opportunité 4 - Health
Opportunités Big Data – Améliorer le quotidien du citoyen Marocain
Big Data – Sans oublier bien évidemment de Préparer le Maroc de demain
Thinking Big - Big data: principes et architecture
1. Thinking Big
Big Data: The (Rather) New Phenomenon
21/04/2017
Lilia SFAXI
liliasfaxi@gmail.com
LIP2 Laboratory - Team MASTER
Department of Software Engineering and Mathematics, INSAT, Tunis
Tunisia
l
.pLaboratoire d'Informatique, de Parallelisme et de Productiqu
Équipe MASTER
2. 29
Thinking Big
Lilia SFAXI
Le Phénomène Big
Data
Un peu d’Histoire
Notions
Les Problématiques
des Big Data
Challenges &
Problématiques
Stockage
Traitement
Collecte
Lambda Architecture
Domaines de
Recherche
LIP2 - MASTER
INSAT, Tunis
Tunisie
l
.p Plan
Le Phénomène Big Data
Un peu d’Histoire
Notions
Les Problématiques des Big Data
Challenges & Problématiques
Stockage
Traitement
Collecte
Lambda Architecture
Domaines de Recherche
3. 29
Thinking Big
Lilia SFAXI
Le Phénomène Big
Data
2Un peu d’Histoire
Notions
Les Problématiques
des Big Data
Challenges &
Problématiques
Stockage
Traitement
Collecte
Lambda Architecture
Domaines de
Recherche
LIP2 - MASTER
INSAT, Tunis
Tunisie
l
.p Big Data: Un peu d’Histoire
Il était une fois ...
4. 29
Thinking Big
Lilia SFAXI
Le Phénomène Big
Data
2Un peu d’Histoire
Notions
Les Problématiques
des Big Data
Challenges &
Problématiques
Stockage
Traitement
Collecte
Lambda Architecture
Domaines de
Recherche
LIP2 - MASTER
INSAT, Tunis
Tunisie
l
.p Big Data: Un peu d’Histoire
Il était une fois ...
World Wide WEB
5. 29
Thinking Big
Lilia SFAXI
Le Phénomène Big
Data
3Un peu d’Histoire
Notions
Les Problématiques
des Big Data
Challenges &
Problématiques
Stockage
Traitement
Collecte
Lambda Architecture
Domaines de
Recherche
LIP2 - MASTER
INSAT, Tunis
Tunisie
l
.p Big Data: Un peu d’Histoire
Web 1.0: Web Passif
6. 29
Thinking Big
Lilia SFAXI
Le Phénomène Big
Data
4Un peu d’Histoire
Notions
Les Problématiques
des Big Data
Challenges &
Problématiques
Stockage
Traitement
Collecte
Lambda Architecture
Domaines de
Recherche
LIP2 - MASTER
INSAT, Tunis
Tunisie
l
.p Big Data: Un peu d’Histoire
Web 2.0: Web Collaboratif
7. 29
Thinking Big
Lilia SFAXI
Le Phénomène Big
Data
5Un peu d’Histoire
Notions
Les Problématiques
des Big Data
Challenges &
Problématiques
Stockage
Traitement
Collecte
Lambda Architecture
Domaines de
Recherche
LIP2 - MASTER
INSAT, Tunis
Tunisie
l
.p Big Data: Un peu d’Histoire
Web 3.0: Web Sémantique (?)
8. 29
Thinking Big
Lilia SFAXI
Le Phénomène Big
Data
6Un peu d’Histoire
Notions
Les Problématiques
des Big Data
Challenges &
Problématiques
Stockage
Traitement
Collecte
Lambda Architecture
Domaines de
Recherche
LIP2 - MASTER
INSAT, Tunis
Tunisie
l
.p Big Data: Un peu d’Histoire
Big Data
Terme apparu en premier en 1997
Décrit les défis technologiques à relever pour visualiser un
grand ensemble de données
A pris toute son ampleur avec l’avènement du Web 2.0
9. 29
Thinking Big
Lilia SFAXI
Le Phénomène Big
Data
Un peu d’Histoire
7Notions
Les Problématiques
des Big Data
Challenges &
Problématiques
Stockage
Traitement
Collecte
Lambda Architecture
Domaines de
Recherche
LIP2 - MASTER
INSAT, Tunis
Tunisie
l
.p Big Data: Notions
Big Data = Big + Data
10. 29
Thinking Big
Lilia SFAXI
Le Phénomène Big
Data
Un peu d’Histoire
7Notions
Les Problématiques
des Big Data
Challenges &
Problématiques
Stockage
Traitement
Collecte
Lambda Architecture
Domaines de
Recherche
LIP2 - MASTER
INSAT, Tunis
Tunisie
l
.p Big Data: Notions
Big Data = Big + Data
Données:
Deuxième bien le plus précieux au monde après l’Information
Différences:
Valeur Ajoutée
Exploitation
Interprétation
DATA
11. 29
Thinking Big
Lilia SFAXI
Le Phénomène Big
Data
Un peu d’Histoire
8Notions
Les Problématiques
des Big Data
Challenges &
Problématiques
Stockage
Traitement
Collecte
Lambda Architecture
Domaines de
Recherche
LIP2 - MASTER
INSAT, Tunis
Tunisie
l
.p Big Data: Notions
Big Data = Big + Data
Big: Volume énorme
Question Fréquente
Les systèmes traditionnels ne gèrent-ils pas des données
volumineuses?
12. 29
Thinking Big
Lilia SFAXI
Le Phénomène Big
Data
Un peu d’Histoire
8Notions
Les Problématiques
des Big Data
Challenges &
Problématiques
Stockage
Traitement
Collecte
Lambda Architecture
Domaines de
Recherche
LIP2 - MASTER
INSAT, Tunis
Tunisie
l
.p Big Data: Notions
Big Data = Big + Data
Big: Volume énorme
Question Fréquente
Les systèmes traditionnels ne gèrent-ils pas des données
volumineuses?
IMPORTANT
L’objectif n’est pas de remplacer les systèmes existants
avec les systèmes Big Data, mais de les intégrer
ensemble!
13. 29
Thinking Big
Lilia SFAXI
Le Phénomène Big
Data
Un peu d’Histoire
8Notions
Les Problématiques
des Big Data
Challenges &
Problématiques
Stockage
Traitement
Collecte
Lambda Architecture
Domaines de
Recherche
LIP2 - MASTER
INSAT, Tunis
Tunisie
l
.p Big Data: Notions
Big Data = Big + Data
Big: Volume énorme
Question Fréquente
Les systèmes traditionnels ne gèrent-ils pas des données
volumineuses?
Données Massives ou Megadonnées
Exaoctets (1018 o) voire Zettaoctets (1021 o)
90% des données récoltées depuis le début de l’humanité
ont été générées les deux dernières années
14. 29
Thinking Big
Lilia SFAXI
Le Phénomène Big
Data
Un peu d’Histoire
9Notions
Les Problématiques
des Big Data
Challenges &
Problématiques
Stockage
Traitement
Collecte
Lambda Architecture
Domaines de
Recherche
LIP2 - MASTER
INSAT, Tunis
Tunisie
l
.p Big Data: Notions
Et là, ce n’est que le premier V...
Volume Vélocité
Variété
15. 29
Thinking Big
Lilia SFAXI
Le Phénomène Big
Data
Un peu d’Histoire
9Notions
Les Problématiques
des Big Data
Challenges &
Problématiques
Stockage
Traitement
Collecte
Lambda Architecture
Domaines de
Recherche
LIP2 - MASTER
INSAT, Tunis
Tunisie
l
.p Big Data: Notions
Volume Vélocité
Variété
16. 29
Thinking Big
Lilia SFAXI
Le Phénomène Big
Data
Un peu d’Histoire
9Notions
Les Problématiques
des Big Data
Challenges &
Problématiques
Stockage
Traitement
Collecte
Lambda Architecture
Domaines de
Recherche
LIP2 - MASTER
INSAT, Tunis
Tunisie
l
.p Big Data: Notions
Volume
Variété
Vélocité
17. 29
Thinking Big
Lilia SFAXI
Le Phénomène Big
Data
Un peu d’Histoire
10Notions
Les Problématiques
des Big Data
Challenges &
Problématiques
Stockage
Traitement
Collecte
Lambda Architecture
Domaines de
Recherche
LIP2 - MASTER
INSAT, Tunis
Tunisie
l
.p Big Data: Notions
Mais encore...
18. 29
Thinking Big
Lilia SFAXI
Le Phénomène Big
Data
Un peu d’Histoire
10Notions
Les Problématiques
des Big Data
Challenges &
Problématiques
Stockage
Traitement
Collecte
Lambda Architecture
Domaines de
Recherche
LIP2 - MASTER
INSAT, Tunis
Tunisie
l
.p Big Data: Notions
Mais encore...
Valeur
19. 29
Thinking Big
Lilia SFAXI
Le Phénomène Big
Data
Un peu d’Histoire
10Notions
Les Problématiques
des Big Data
Challenges &
Problématiques
Stockage
Traitement
Collecte
Lambda Architecture
Domaines de
Recherche
LIP2 - MASTER
INSAT, Tunis
Tunisie
l
.p Big Data: Notions
Mais encore...
Valeur
Véracité
20. 29
Thinking Big
Lilia SFAXI
Le Phénomène Big
Data
Un peu d’Histoire
10Notions
Les Problématiques
des Big Data
Challenges &
Problématiques
Stockage
Traitement
Collecte
Lambda Architecture
Domaines de
Recherche
LIP2 - MASTER
INSAT, Tunis
Tunisie
l
.p Big Data: Notions
Mais encore...
Valeur
Véracité
Visibilité
21. 29
Thinking Big
Lilia SFAXI
Le Phénomène Big
Data
Un peu d’Histoire
Notions
Les Problématiques
des Big Data
11Challenges &
Problématiques
Stockage
Traitement
Collecte
Lambda Architecture
Domaines de
Recherche
LIP2 - MASTER
INSAT, Tunis
Tunisie
l
.p Challenges
Stocker d’abord, réfléchir ensuite
22. 29
Thinking Big
Lilia SFAXI
Le Phénomène Big
Data
Un peu d’Histoire
Notions
Les Problématiques
des Big Data
11Challenges &
Problématiques
Stockage
Traitement
Collecte
Lambda Architecture
Domaines de
Recherche
LIP2 - MASTER
INSAT, Tunis
Tunisie
l
.p Challenges
Stocker d’abord, réfléchir ensuite
Ce sont les données qui pilotent le traitement (et pas le
contraire)
23. 29
Thinking Big
Lilia SFAXI
Le Phénomène Big
Data
Un peu d’Histoire
Notions
Les Problématiques
des Big Data
11Challenges &
Problématiques
Stockage
Traitement
Collecte
Lambda Architecture
Domaines de
Recherche
LIP2 - MASTER
INSAT, Tunis
Tunisie
l
.p Challenges
Stocker d’abord, réfléchir ensuite
Ce sont les données qui pilotent le traitement (et pas le
contraire)
Arrêter de réfléchir en relationnel!
24. 29
Thinking Big
Lilia SFAXI
Le Phénomène Big
Data
Un peu d’Histoire
Notions
Les Problématiques
des Big Data
11Challenges &
Problématiques
Stockage
Traitement
Collecte
Lambda Architecture
Domaines de
Recherche
LIP2 - MASTER
INSAT, Tunis
Tunisie
l
.p Challenges
Stocker d’abord, réfléchir ensuite
Ce sont les données qui pilotent le traitement (et pas le
contraire)
Arrêter de réfléchir en relationnel!
Absolument TOUTES les données sont importantes
(même si elle ne le paraissent pas tout de suite)
25. 29
Thinking Big
Lilia SFAXI
Le Phénomène Big
Data
Un peu d’Histoire
Notions
Les Problématiques
des Big Data
12Challenges &
Problématiques
Stockage
Traitement
Collecte
Lambda Architecture
Domaines de
Recherche
LIP2 - MASTER
INSAT, Tunis
Tunisie
l
.p Problématiques
3 Problématiques majeures pour les données massives
Volume
Vélocité
Variété
26. 29
Thinking Big
Lilia SFAXI
Le Phénomène Big
Data
Un peu d’Histoire
Notions
Les Problématiques
des Big Data
12Challenges &
Problématiques
Stockage
Traitement
Collecte
Lambda Architecture
Domaines de
Recherche
LIP2 - MASTER
INSAT, Tunis
Tunisie
l
.p Problématiques
3 Problématiques majeures pour les données massives
Volume → Stockage
Vélocité
Variété
27. 29
Thinking Big
Lilia SFAXI
Le Phénomène Big
Data
Un peu d’Histoire
Notions
Les Problématiques
des Big Data
12Challenges &
Problématiques
Stockage
Traitement
Collecte
Lambda Architecture
Domaines de
Recherche
LIP2 - MASTER
INSAT, Tunis
Tunisie
l
.p Problématiques
3 Problématiques majeures pour les données massives
Volume → Stockage
Vélocité → Traitement
Variété
28. 29
Thinking Big
Lilia SFAXI
Le Phénomène Big
Data
Un peu d’Histoire
Notions
Les Problématiques
des Big Data
12Challenges &
Problématiques
Stockage
Traitement
Collecte
Lambda Architecture
Domaines de
Recherche
LIP2 - MASTER
INSAT, Tunis
Tunisie
l
.p Problématiques
3 Problématiques majeures pour les données massives
Volume → Stockage
Vélocité → Traitement
Variété → Collecte
29. 29
Thinking Big
Lilia SFAXI
Le Phénomène Big
Data
Un peu d’Histoire
Notions
Les Problématiques
des Big Data
Challenges &
Problématiques
13Stockage
Traitement
Collecte
Lambda Architecture
Domaines de
Recherche
LIP2 - MASTER
INSAT, Tunis
Tunisie
l
.p Stockage
Problématique du Volume
Problème
Comment stocker ces données dont le volume ne cesse
d’augmenter?
30. 29
Thinking Big
Lilia SFAXI
Le Phénomène Big
Data
Un peu d’Histoire
Notions
Les Problématiques
des Big Data
Challenges &
Problématiques
13Stockage
Traitement
Collecte
Lambda Architecture
Domaines de
Recherche
LIP2 - MASTER
INSAT, Tunis
Tunisie
l
.p Stockage
Problématique du Volume
Problème
Comment stocker ces données dont le volume ne cesse
d’augmenter?
Solution
Scale UP vs Scale OUT
31. 29
Thinking Big
Lilia SFAXI
Le Phénomène Big
Data
Un peu d’Histoire
Notions
Les Problématiques
des Big Data
Challenges &
Problématiques
13Stockage
Traitement
Collecte
Lambda Architecture
Domaines de
Recherche
LIP2 - MASTER
INSAT, Tunis
Tunisie
l
.p Stockage
Problématique du Volume
Problème
Comment stocker ces données dont le volume ne cesse
d’augmenter?
Solution
Scale UP vs Scale OUT
32. 29
Thinking Big
Lilia SFAXI
Le Phénomène Big
Data
Un peu d’Histoire
Notions
Les Problématiques
des Big Data
Challenges &
Problématiques
13Stockage
Traitement
Collecte
Lambda Architecture
Domaines de
Recherche
LIP2 - MASTER
INSAT, Tunis
Tunisie
l
.p Stockage
Problématique du Volume
Problème
Comment stocker ces données dont le volume ne cesse
d’augmenter?
Solution
Scale UP vs Scale OUT
33. 29
Thinking Big
Lilia SFAXI
Le Phénomène Big
Data
Un peu d’Histoire
Notions
Les Problématiques
des Big Data
Challenges &
Problématiques
13Stockage
Traitement
Collecte
Lambda Architecture
Domaines de
Recherche
LIP2 - MASTER
INSAT, Tunis
Tunisie
l
.p Stockage
Problématique du Volume
Problème
Comment stocker ces données dont le volume ne cesse
d’augmenter?
Solution
Scale UP vs Scale OUT
34. 29
Thinking Big
Lilia SFAXI
Le Phénomène Big
Data
Un peu d’Histoire
Notions
Les Problématiques
des Big Data
Challenges &
Problématiques
13Stockage
Traitement
Collecte
Lambda Architecture
Domaines de
Recherche
LIP2 - MASTER
INSAT, Tunis
Tunisie
l
.p Stockage
Problématique du Volume
Problème
Comment stocker ces données dont le volume ne cesse
d’augmenter?
Solution
Scale UP vs Scale OUT
35. 29
Thinking Big
Lilia SFAXI
Le Phénomène Big
Data
Un peu d’Histoire
Notions
Les Problématiques
des Big Data
Challenges &
Problématiques
13Stockage
Traitement
Collecte
Lambda Architecture
Domaines de
Recherche
LIP2 - MASTER
INSAT, Tunis
Tunisie
l
.p Stockage
Problématique du Volume
Problème
Comment stocker ces données dont le volume ne cesse
d’augmenter?
Solution
Scale UP vs Scale OUT
36. 29
Thinking Big
Lilia SFAXI
Le Phénomène Big
Data
Un peu d’Histoire
Notions
Les Problématiques
des Big Data
Challenges &
Problématiques
13Stockage
Traitement
Collecte
Lambda Architecture
Domaines de
Recherche
LIP2 - MASTER
INSAT, Tunis
Tunisie
l
.p Stockage
Problématique du Volume
Problème
Comment stocker ces données dont le volume ne cesse
d’augmenter?
Solution
Scale UP vs Scale OUT
⇒ Favoriser le partitionnement
37. 29
Thinking Big
Lilia SFAXI
Le Phénomène Big
Data
Un peu d’Histoire
Notions
Les Problématiques
des Big Data
Challenges &
Problématiques
14Stockage
Traitement
Collecte
Lambda Architecture
Domaines de
Recherche
LIP2 - MASTER
INSAT, Tunis
Tunisie
l
.p Stockage
Problématiques du Partitionnement
Problème
Étant donné un système de stockage partitionné (sous
forme de cluster), comment assurer:
La répartition de charges
La tolérance aux fautes
La haute disponibilité
38. 29
Thinking Big
Lilia SFAXI
Le Phénomène Big
Data
Un peu d’Histoire
Notions
Les Problématiques
des Big Data
Challenges &
Problématiques
14Stockage
Traitement
Collecte
Lambda Architecture
Domaines de
Recherche
LIP2 - MASTER
INSAT, Tunis
Tunisie
l
.p Stockage
Problématiques du Partitionnement
Problème
Étant donné un système de stockage partitionné (sous
forme de cluster), comment assurer:
La répartition de charges
La tolérance aux fautes
La haute disponibilité
Solution: Répartition de charges
Données réparties sur l’ensemble des noeuds du cluster,
selon une stratégie de partitionnement choisie (aléatoire,
ordonnée..)
Co-localisation du traitement et du stockage
39. 29
Thinking Big
Lilia SFAXI
Le Phénomène Big
Data
Un peu d’Histoire
Notions
Les Problématiques
des Big Data
Challenges &
Problématiques
14Stockage
Traitement
Collecte
Lambda Architecture
Domaines de
Recherche
LIP2 - MASTER
INSAT, Tunis
Tunisie
l
.p Stockage
Problématiques du Partitionnement
Problème
Étant donné un système de stockage partitionné (sous
forme de cluster), comment assurer:
La répartition de charges
La tolérance aux fautes
La haute disponibilité
Solution: Tolérance aux fautes
Duplication de toutes les données un nombre donné de
fois
Définition d’une stratégie de réplication (simple, par
topologie de réseau..)
Principe de Rack Awareness
40. 29
Thinking Big
Lilia SFAXI
Le Phénomène Big
Data
Un peu d’Histoire
Notions
Les Problématiques
des Big Data
Challenges &
Problématiques
14Stockage
Traitement
Collecte
Lambda Architecture
Domaines de
Recherche
LIP2 - MASTER
INSAT, Tunis
Tunisie
l
.p Stockage
Problématiques du Partitionnement
Problème
Étant donné un système de stockage partitionné (sous
forme de cluster), comment assurer:
La répartition de charges
La tolérance aux fautes
La haute disponibilité
Solution: Haute disponibilité
Assurer une lecture et écriture instantanée des données
Read and Write Anywhere, dans certains systèmes
Éviter les jointures et les transactions, tolérer les
redondances
Favoriser les traitements côté client pour décharger le
système de stockage
41. 29
Thinking Big
Lilia SFAXI
Le Phénomène Big
Data
Un peu d’Histoire
Notions
Les Problématiques
des Big Data
Challenges &
Problématiques
15Stockage
Traitement
Collecte
Lambda Architecture
Domaines de
Recherche
LIP2 - MASTER
INSAT, Tunis
Tunisie
l
.p Stockage
Théorème CAP
Problème
Théorème CAP : Seules deux des trois propriétés
suivantes peuvent être assurées
Consistancy
Availability
Partitionning
42. 29
Thinking Big
Lilia SFAXI
Le Phénomène Big
Data
Un peu d’Histoire
Notions
Les Problématiques
des Big Data
Challenges &
Problématiques
15Stockage
Traitement
Collecte
Lambda Architecture
Domaines de
Recherche
LIP2 - MASTER
INSAT, Tunis
Tunisie
l
.p Stockage
Théorème CAP
Problème
Théorème CAP : Seules deux des trois propriétés
suivantes peuvent être assurées
Consistancy
Availability
Partitionning
Solution
Tolérer une certaine perte de la consistance au profit du
paritionnement et de la haute disponibilité
Remplacer les propriétés ACID par les propriétés BASE
Basically Available
Soft State
Eventual Consistancy
43. 29
Thinking Big
Lilia SFAXI
Le Phénomène Big
Data
Un peu d’Histoire
Notions
Les Problématiques
des Big Data
Challenges &
Problématiques
16Stockage
Traitement
Collecte
Lambda Architecture
Domaines de
Recherche
LIP2 - MASTER
INSAT, Tunis
Tunisie
l
.p Stockage
Systèmes de Stockage
Apparition d’autres types de systèmes de stockages:
Systèmes de fichiers distribués
Bases de données hautement distribuées (NOSQL)
Bases de données NewSQL
44. 29
Thinking Big
Lilia SFAXI
Le Phénomène Big
Data
Un peu d’Histoire
Notions
Les Problématiques
des Big Data
Challenges &
Problématiques
Stockage
17Traitement
Collecte
Lambda Architecture
Domaines de
Recherche
LIP2 - MASTER
INSAT, Tunis
Tunisie
l
.p Traitement des Données Massives
Principes Fondamentaux
Déplacer le traitement vers les données
45. 29
Thinking Big
Lilia SFAXI
Le Phénomène Big
Data
Un peu d’Histoire
Notions
Les Problématiques
des Big Data
Challenges &
Problématiques
Stockage
17Traitement
Collecte
Lambda Architecture
Domaines de
Recherche
LIP2 - MASTER
INSAT, Tunis
Tunisie
l
.p Traitement des Données Massives
Principes Fondamentaux
Déplacer le traitement vers les données
Principe de In-Memory Processing
46. 29
Thinking Big
Lilia SFAXI
Le Phénomène Big
Data
Un peu d’Histoire
Notions
Les Problématiques
des Big Data
Challenges &
Problématiques
Stockage
17Traitement
Collecte
Lambda Architecture
Domaines de
Recherche
LIP2 - MASTER
INSAT, Tunis
Tunisie
l
.p Traitement des Données Massives
Principes Fondamentaux
Déplacer le traitement vers les données
Principe de In-Memory Processing
Savoir être polyglotte
47. 29
Thinking Big
Lilia SFAXI
Le Phénomène Big
Data
Un peu d’Histoire
Notions
Les Problématiques
des Big Data
Challenges &
Problématiques
Stockage
17Traitement
Collecte
Lambda Architecture
Domaines de
Recherche
LIP2 - MASTER
INSAT, Tunis
Tunisie
l
.p Traitement des Données Massives
Principes Fondamentaux
Déplacer le traitement vers les données
Principe de In-Memory Processing
Savoir être polyglotte
* Polyglot Programming: Plusieurs langages et paradigmes
de programmation dans une seule application
48. 29
Thinking Big
Lilia SFAXI
Le Phénomène Big
Data
Un peu d’Histoire
Notions
Les Problématiques
des Big Data
Challenges &
Problématiques
Stockage
17Traitement
Collecte
Lambda Architecture
Domaines de
Recherche
LIP2 - MASTER
INSAT, Tunis
Tunisie
l
.p Traitement des Données Massives
Principes Fondamentaux
Déplacer le traitement vers les données
Principe de In-Memory Processing
Savoir être polyglotte
* Polyglot Programming: Plusieurs langages et paradigmes
de programmation dans une seule application
* Polyglot Persistance: Plusieurs technologies de stockage
dans une seule application
49. 29
Thinking Big
Lilia SFAXI
Le Phénomène Big
Data
Un peu d’Histoire
Notions
Les Problématiques
des Big Data
Challenges &
Problématiques
Stockage
18Traitement
Collecte
Lambda Architecture
Domaines de
Recherche
LIP2 - MASTER
INSAT, Tunis
Tunisie
l
.p Traitement des Données Massives
Types de Traitements
Plusieurs types de traitement:
Batch Processing
Stream Processing
Micro-Batch Processing
Real-time Processing
50. 29
Thinking Big
Lilia SFAXI
Le Phénomène Big
Data
Un peu d’Histoire
Notions
Les Problématiques
des Big Data
Challenges &
Problématiques
Stockage
19Traitement
Collecte
Lambda Architecture
Domaines de
Recherche
LIP2 - MASTER
INSAT, Tunis
Tunisie
l
.p Traitement des Données Massives
Batch Processing
Batch Processing
Données collectées, stockées, traitées puis les résultats
fournis
Traitement réalisé sur l’ensemble des données
* Vision globale sur les données stockées
* Traitement peut être lourd et complexe
Plus concentré sur le débit (nb d’actions/unité de temps)
que la latence (temps requis pour obtenir une réponse)
Cible les caractéristiques Volume et Variété
51. 29
Thinking Big
Lilia SFAXI
Le Phénomène Big
Data
Un peu d’Histoire
Notions
Les Problématiques
des Big Data
Challenges &
Problématiques
Stockage
19Traitement
Collecte
Lambda Architecture
Domaines de
Recherche
LIP2 - MASTER
INSAT, Tunis
Tunisie
l
.p Traitement des Données Massives
Batch Processing
Batch Processing
Données collectées, stockées, traitées puis les résultats
fournis
Traitement réalisé sur l’ensemble des données
* Vision globale sur les données stockées
* Traitement peut être lourd et complexe
Plus concentré sur le débit (nb d’actions/unité de temps)
que la latence (temps requis pour obtenir une réponse)
Cible les caractéristiques Volume et Variété
Inconvénients
Faire des traitements récursifs ou itératifs est coûteux
Les données doivent être prêtes avant le début du job
Produit des résultats sur des données anciennes
52. 29
Thinking Big
Lilia SFAXI
Le Phénomène Big
Data
Un peu d’Histoire
Notions
Les Problématiques
des Big Data
Challenges &
Problématiques
Stockage
20Traitement
Collecte
Lambda Architecture
Domaines de
Recherche
LIP2 - MASTER
INSAT, Tunis
Tunisie
l
.p Traitement des Données Massives
Stream Processing
Stream Processing
Traitement sur un élément ou un petit nombre d’éléments
récents
Traitement doit être simple, fait presque en temps réel
Traitements indépendants
Asynchrone
Latence faible
Cible les caractéristiques Vélocité et Variété
53. 29
Thinking Big
Lilia SFAXI
Le Phénomène Big
Data
Un peu d’Histoire
Notions
Les Problématiques
des Big Data
Challenges &
Problématiques
Stockage
20Traitement
Collecte
Lambda Architecture
Domaines de
Recherche
LIP2 - MASTER
INSAT, Tunis
Tunisie
l
.p Traitement des Données Massives
Stream Processing
Stream Processing
Traitement sur un élément ou un petit nombre d’éléments
récents
Traitement doit être simple, fait presque en temps réel
Traitements indépendants
Asynchrone
Latence faible
Cible les caractéristiques Vélocité et Variété
Inconvénients
Pas de visibilité sur l’ensemble de données
Complexe à maintenir: Système doit être toujours prêt,
toujours connecté, avoir des temps de réponse courts
Risque de perte de données
54. 29
Thinking Big
Lilia SFAXI
Le Phénomène Big
Data
Un peu d’Histoire
Notions
Les Problématiques
des Big Data
Challenges &
Problématiques
Stockage
21Traitement
Collecte
Lambda Architecture
Domaines de
Recherche
LIP2 - MASTER
INSAT, Tunis
Tunisie
l
.p Traitement des Données Massives
µ-batch et Real-time Processing
µ-batch Processing
Alternative entre Batch et Stream Processing
Traitement du stream comme séquence de petits batchs
Utilisation de files d’attentes
Permet un traitement de données au fil de l’eau, sans
risque de perte de données
55. 29
Thinking Big
Lilia SFAXI
Le Phénomène Big
Data
Un peu d’Histoire
Notions
Les Problématiques
des Big Data
Challenges &
Problématiques
Stockage
21Traitement
Collecte
Lambda Architecture
Domaines de
Recherche
LIP2 - MASTER
INSAT, Tunis
Tunisie
l
.p Traitement des Données Massives
µ-batch et Real-time Processing
µ-batch Processing
Alternative entre Batch et Stream Processing
Traitement du stream comme séquence de petits batchs
Utilisation de files d’attentes
Permet un traitement de données au fil de l’eau, sans
risque de perte de données
Real-Time Processing
Plutôt approprié pour les traitements synchrones
Réponse du système en temps réel
56. 29
Thinking Big
Lilia SFAXI
Le Phénomène Big
Data
Un peu d’Histoire
Notions
Les Problématiques
des Big Data
Challenges &
Problématiques
Stockage
Traitement
22Collecte
Lambda Architecture
Domaines de
Recherche
LIP2 - MASTER
INSAT, Tunis
Tunisie
l
.p Collecte des Données
Problèmes
Collecte de données de sources, formats et types
différents
Homogénéisation et fusion des données
Considération de la vélocité des données
57. 29
Thinking Big
Lilia SFAXI
Le Phénomène Big
Data
Un peu d’Histoire
Notions
Les Problématiques
des Big Data
Challenges &
Problématiques
Stockage
Traitement
22Collecte
Lambda Architecture
Domaines de
Recherche
LIP2 - MASTER
INSAT, Tunis
Tunisie
l
.p Collecte des Données
Problèmes
Collecte de données de sources, formats et types
différents
Homogénéisation et fusion des données
Considération de la vélocité des données
Solution
Extraction de données et stockage dans des structures de
données réparties en mémoire en attendant leur
traitement
58. 29
Thinking Big
Lilia SFAXI
Le Phénomène Big
Data
Un peu d’Histoire
Notions
Les Problématiques
des Big Data
Challenges &
Problématiques
Stockage
Traitement
Collecte
23Lambda Architecture
Domaines de
Recherche
LIP2 - MASTER
INSAT, Tunis
Tunisie
l
.p Choix du Type de Traitement
Souvent, un seul type de traitement n’est pas suffisant
pour une analyse poussée des données
Batch Processing pour une vue globale mais différée
Stream Processing pour des résultats instantanés
Certaines architectures permettent de combiner les deux
types de traitements
59. 29
Thinking Big
Lilia SFAXI
Le Phénomène Big
Data
Un peu d’Histoire
Notions
Les Problématiques
des Big Data
Challenges &
Problématiques
Stockage
Traitement
Collecte
24Lambda Architecture
Domaines de
Recherche
LIP2 - MASTER
INSAT, Tunis
Tunisie
l
.p Lambda Architecture
60. 29
Thinking Big
Lilia SFAXI
Le Phénomène Big
Data
Un peu d’Histoire
Notions
Les Problématiques
des Big Data
Challenges &
Problématiques
Stockage
Traitement
Collecte
Lambda Architecture
25Domaines de
Recherche
LIP2 - MASTER
INSAT, Tunis
Tunisie
l
.p Domaines de Recherche
61. 29
Thinking Big
Lilia SFAXI
Le Phénomène Big
Data
Un peu d’Histoire
Notions
Les Problématiques
des Big Data
Challenges &
Problématiques
Stockage
Traitement
Collecte
Lambda Architecture
25Domaines de
Recherche
LIP2 - MASTER
INSAT, Tunis
Tunisie
l
.p Domaines de Recherche
Dans le domaine des Big Data,
TOUT est encore à faire...
62. 29
Thinking Big
Lilia SFAXI
Le Phénomène Big
Data
Un peu d’Histoire
Notions
Les Problématiques
des Big Data
Challenges &
Problématiques
Stockage
Traitement
Collecte
Lambda Architecture
26Domaines de
Recherche
LIP2 - MASTER
INSAT, Tunis
Tunisie
l
.p Domaines de Recherche
Optimisation
Optimisation du temps de traitement
Optimisation des tailles des données stockées
Optimisation des accès aux données
Tradeoffs entre consistance et disponibilité
Stratégies de partitionnement et de réplication
In-memory vs. persistance
63. 29
Thinking Big
Lilia SFAXI
Le Phénomène Big
Data
Un peu d’Histoire
Notions
Les Problématiques
des Big Data
Challenges &
Problématiques
Stockage
Traitement
Collecte
Lambda Architecture
26Domaines de
Recherche
LIP2 - MASTER
INSAT, Tunis
Tunisie
l
.p Domaines de Recherche
Optimisation
Optimisation du temps de traitement
Optimisation des tailles des données stockées
Optimisation des accès aux données
Tradeoffs entre consistance et disponibilité
Stratégies de partitionnement et de réplication
In-memory vs. persistance
Data Science
Algorithmes pour la visualisation des données
Data mining, data prediction, data analytics
Analyse des sentiments et analyse sémantique
64. 29
Thinking Big
Lilia SFAXI
Le Phénomène Big
Data
Un peu d’Histoire
Notions
Les Problématiques
des Big Data
Challenges &
Problématiques
Stockage
Traitement
Collecte
Lambda Architecture
27Domaines de
Recherche
LIP2 - MASTER
INSAT, Tunis
Tunisie
l
.p Domaines de Recherche
Big Data Design
Méthodologies de conception pour les systèmes Big Data
Définition d’architectures de stockages et traitement
65. 29
Thinking Big
Lilia SFAXI
Le Phénomène Big
Data
Un peu d’Histoire
Notions
Les Problématiques
des Big Data
Challenges &
Problématiques
Stockage
Traitement
Collecte
Lambda Architecture
27Domaines de
Recherche
LIP2 - MASTER
INSAT, Tunis
Tunisie
l
.p Domaines de Recherche
Big Data Design
Méthodologies de conception pour les systèmes Big Data
Définition d’architectures de stockages et traitement
Big Data Security
Sécurité des traitements dans les environnements
distribués
Sécurité des bases de données non-relationnelles
Sécurité des logs
Validation et filtrage des données en entrée
Contrôle d’accès et cryptographie
66. 29
Thinking Big
Lilia SFAXI
Le Phénomène Big
Data
Un peu d’Histoire
Notions
Les Problématiques
des Big Data
Challenges &
Problématiques
Stockage
Traitement
Collecte
Lambda Architecture
28Domaines de
Recherche
LIP2 - MASTER
INSAT, Tunis
Tunisie
l
.p Domaines de Recherche
Big Data and Other New Trends
Big Data et Business Intelligence
Big Data et Cloud Computing
Big Data et Internet of Things
Big Data et Mobile
67. 29
Thinking Big
Lilia SFAXI
Le Phénomène Big
Data
Un peu d’Histoire
Notions
Les Problématiques
des Big Data
Challenges &
Problématiques
Stockage
Traitement
Collecte
Lambda Architecture
28Domaines de
Recherche
LIP2 - MASTER
INSAT, Tunis
Tunisie
l
.p Domaines de Recherche
Big Data and Other New Trends
Big Data et Business Intelligence
Big Data et Cloud Computing
Big Data et Internet of Things
Big Data et Mobile
Big Data and Other Fields
Big Data in Education
Big Data in Health
Big Data in Arts
...
68. 29
Thinking Big
Lilia SFAXI
Le Phénomène Big
Data
Un peu d’Histoire
Notions
Les Problématiques
des Big Data
Challenges &
Problématiques
Stockage
Traitement
Collecte
Lambda Architecture
29Domaines de
Recherche
LIP2 - MASTER
INSAT, Tunis
Tunisie
l
.p Conclusion
Big Data is here to stay!
69. Thinking Big
Big Data: The (Rather) New Phenomenon
21/04/2017
Lilia SFAXI
liliasfaxi@gmail.com
LIP2 Laboratory - Team MASTER
Department of Software Engineering and Mathematics, INSAT, Tunis
Tunisia
l
.pLaboratoire d'Informatique, de Parallelisme et de Productiqu
Équipe MASTER