2. BIO
- Microsoft Student Partner Lead
- Lauréat du 55Heurs Maroc
- Webmaster de l’Université Ibn Tofail
- Microsoft Tech Addict
- M2 en Big Data et Cloud Computing
4. Définition de la Big Data
Terme qui désigne un ensemble très volumineux de
données qu’aucun outil classique ne peut traiter.
Les vvv de la big Data:
1) Volume
2) Variété
3) Vélocité
7. Baisse de prix exponentielle
• Les prix des ressources IT a chuté en accord avec la loi de Moore, qu’ils
s’agissent de la capacité de stockage, CPU et bande passante
8. Progrès initiés par les géants du Web
• Afin de bénéficier des ressources de stockage, les géants du Web ont du
développer pour leurs propres besoins de nouvelles technologies.
Exemples :
- Google a développé GFS qui va inspirer Hadoop
- Google a développé BigTable qui va inspirer Hbase
- Facebook a développé Hive et Cassandra
- Yahoo a développé Hadoop
10. Mouvements NoSql
• Terme inventé en 2009 qui désigne un système de gestion de base de
données qui s’écarte du paradigme classiques des bases de données.
• Le besoin fondamental auquel répond NoSQL est la performance. En effet,
ces dernières années, les géants du Web comme Google et Amazon ont vu
leurs besoins en termes de charge et de volumétrie de données croître de
façon exponentielle.
11. Types NoSql
• Les solutions NoSQL existantes peuvent être regroupées en 4 grandes
familles.
Clef/Valeur : Les données sont représentées par un couple clé/valeur. La valeur
peut être une simple chaîne de caractères
Orientées colonnes : Ce modèle ressemble à une table dans un SGBDR à la
différence qu’avec une BD NoSQL orientée colonne, le nombre de colonnes est
dynamique.
Orientées graphes : Ce modèle de représentation des données se base sur la
théorie des graphes
Orientées documents : Ce modèle se base sur le paradigme clé valeur. La
valeur, dans ce cas est un document de type JSON ou XML
13. Ecosystème Hadoop
• Framework Open Source destiné à faciliter la création d’application
distribuées
Il suffit de programmer Map et Reduce (Java, C++, Python, etc.)
18. Distributions Hadoop
Hadoop est notamment distribué par quatre acteurs qui proposent des services
de formation et un support commercial, mais également des fonctions
supplémentaires :
• Cloudera
• HortonWorks
• MapR
• IBM BigInsights
20. Métiers de la Big Data
• Chief Data Officer (CDO): Il est à la tête d’une équipe spécialisée dans
l’acquisition, l’analyse et l’exploitation des données. Sa fonction consiste à la
gouvernance de son équipe pour l’approvisionnement des données les plus
intéressantes et cohérentes pour l’intérêt de l’entreprise.
• Business Intelligence Manager: Il utilise des nouvelles technologies pour
mettre en place des tableaux de bords, des outils de reporting, afin de les
intégrer au système informatique.
• Data Scientist : Il est responsable de la collecte, du traitement, de
l’évaluation et de l’analyse des données massives, ou big data, afin
d’optimiser la stratégie de l’entreprise. Son rôle est de créer pour les métiers
de l’entreprise des algorithmes qui produisent des informations utiles,
notamment afin de proposer aux clients, les produits qu’ils recherchent.
21. Métiers de la Big Data
• Data Analyst Il utilise des techniques statistiques et des outils informatiques
spécialisés afin d’organiser, de synthétiser et de traduire les informations
dont les entreprises ont besoin pour faciliter les prises de décisions.
• Le Data Miner Il est le « fouilleur de données », le Sherlock Holmes de la
data. Son rôle est de dénicher les informations parmi de multiples données,
afin de les rendre exploitables et utiles pour l’entreprise. Il doit disposer
d’excellentes compétences en informatique, en statistiques et en business.
23. Machine Learning
Définition
Ensemble d’outils statistiques et d’algorithmes permettant d’automatiser la
construction d’une fonction de prédiction à partir d’un ensemble d’observation.
Exemples
- Détecter les comportements frauduleux lors d’une transaction
- Prédire les risques de solvabilités d’un client
- Découvrir les préférences d’un client
Projets
Mahout, Scikit-learn (Python), Mlib( Spark)