Big Data
BIO
- Microsoft Student Partner Lead
- Lauréat du 55Heurs Maroc
- Webmaster de l’Université Ibn Tofail
- Microsoft Tech Addict
- M2 en Big Data et Cloud Computing
Definition
de la Big
Data
Définition de la Big Data
Terme qui désigne un ensemble très volumineux de
données qu’aucun outil classique ne peut traiter.
Les vvv de la big Data:
1) Volume
2) Variété
3) Vélocité
Ce qui se passe en 60 secondes sur le net
Causes
économiques
et
technologique
s
Baisse de prix exponentielle
• Les prix des ressources IT a chuté en accord avec la loi de Moore, qu’ils
s’agissent de la capacité de stockage, CPU et bande passante
Progrès initiés par les géants du Web
• Afin de bénéficier des ressources de stockage, les géants du Web ont du
développer pour leurs propres besoins de nouvelles technologies.
Exemples :
- Google a développé GFS qui va inspirer Hadoop
- Google a développé BigTable qui va inspirer Hbase
- Facebook a développé Hive et Cassandra
- Yahoo a développé Hadoop
Mouvement
s
NoSql
Mouvements NoSql
• Terme inventé en 2009 qui désigne un système de gestion de base de
données qui s’écarte du paradigme classiques des bases de données.
• Le besoin fondamental auquel répond NoSQL est la performance. En effet,
ces dernières années, les géants du Web comme Google et Amazon ont vu
leurs besoins en termes de charge et de volumétrie de données croître de
façon exponentielle.
Types NoSql
• Les solutions NoSQL existantes peuvent être regroupées en 4 grandes
familles.
Clef/Valeur : Les données sont représentées par un couple clé/valeur. La valeur
peut être une simple chaîne de caractères
Orientées colonnes : Ce modèle ressemble à une table dans un SGBDR à la
différence qu’avec une BD NoSQL orientée colonne, le nombre de colonnes est
dynamique.
Orientées graphes : Ce modèle de représentation des données se base sur la
théorie des graphes
Orientées documents : Ce modèle se base sur le paradigme clé valeur. La
valeur, dans ce cas est un document de type JSON ou XML
Outils Big
Data
Ecosystème Hadoop
• Framework Open Source destiné à faciliter la création d’application
distribuées
Il suffit de programmer Map et Reduce (Java, C++, Python, etc.)
Exemple de Map/Reduce
Services Hadoop
Spark
Framework de traitement très puissant open source qui se pose comme une
alternative de Map/Reduce, Il s’éxecute sur du HDFS.
Principaux langages de développements
Distributions Hadoop
Hadoop est notamment distribué par quatre acteurs qui proposent des services
de formation et un support commercial, mais également des fonctions
supplémentaires :
• Cloudera
• HortonWorks
• MapR
• IBM BigInsights
Métiers de
la Big Data
Métiers de la Big Data
• Chief Data Officer (CDO): Il est à la tête d’une équipe spécialisée dans
l’acquisition, l’analyse et l’exploitation des données. Sa fonction consiste à la
gouvernance de son équipe pour l’approvisionnement des données les plus
intéressantes et cohérentes pour l’intérêt de l’entreprise.
• Business Intelligence Manager: Il utilise des nouvelles technologies pour
mettre en place des tableaux de bords, des outils de reporting, afin de les
intégrer au système informatique.
• Data Scientist : Il est responsable de la collecte, du traitement, de
l’évaluation et de l’analyse des données massives, ou big data, afin
d’optimiser la stratégie de l’entreprise. Son rôle est de créer pour les métiers
de l’entreprise des algorithmes qui produisent des informations utiles,
notamment afin de proposer aux clients, les produits qu’ils recherchent.
Métiers de la Big Data
• Data Analyst Il utilise des techniques statistiques et des outils informatiques
spécialisés afin d’organiser, de synthétiser et de traduire les informations
dont les entreprises ont besoin pour faciliter les prises de décisions.
• Le Data Miner Il est le « fouilleur de données », le Sherlock Holmes de la
data. Son rôle est de dénicher les informations parmi de multiples données,
afin de les rendre exploitables et utiles pour l’entreprise. Il doit disposer
d’excellentes compétences en informatique, en statistiques et en business.
Machine
Learning
Machine Learning
Définition
Ensemble d’outils statistiques et d’algorithmes permettant d’automatiser la
construction d’une fonction de prédiction à partir d’un ensemble d’observation.
Exemples
- Détecter les comportements frauduleux lors d’une transaction
- Prédire les risques de solvabilités d’un client
- Découvrir les préférences d’un client
Projets
Mahout, Scikit-learn (Python), Mlib( Spark)
Success Stories
Thank You

Big data

  • 1.
  • 2.
    BIO - Microsoft StudentPartner Lead - Lauréat du 55Heurs Maroc - Webmaster de l’Université Ibn Tofail - Microsoft Tech Addict - M2 en Big Data et Cloud Computing
  • 3.
  • 4.
    Définition de laBig Data Terme qui désigne un ensemble très volumineux de données qu’aucun outil classique ne peut traiter. Les vvv de la big Data: 1) Volume 2) Variété 3) Vélocité
  • 5.
    Ce qui sepasse en 60 secondes sur le net
  • 6.
  • 7.
    Baisse de prixexponentielle • Les prix des ressources IT a chuté en accord avec la loi de Moore, qu’ils s’agissent de la capacité de stockage, CPU et bande passante
  • 8.
    Progrès initiés parles géants du Web • Afin de bénéficier des ressources de stockage, les géants du Web ont du développer pour leurs propres besoins de nouvelles technologies. Exemples : - Google a développé GFS qui va inspirer Hadoop - Google a développé BigTable qui va inspirer Hbase - Facebook a développé Hive et Cassandra - Yahoo a développé Hadoop
  • 9.
  • 10.
    Mouvements NoSql • Termeinventé en 2009 qui désigne un système de gestion de base de données qui s’écarte du paradigme classiques des bases de données. • Le besoin fondamental auquel répond NoSQL est la performance. En effet, ces dernières années, les géants du Web comme Google et Amazon ont vu leurs besoins en termes de charge et de volumétrie de données croître de façon exponentielle.
  • 11.
    Types NoSql • Lessolutions NoSQL existantes peuvent être regroupées en 4 grandes familles. Clef/Valeur : Les données sont représentées par un couple clé/valeur. La valeur peut être une simple chaîne de caractères Orientées colonnes : Ce modèle ressemble à une table dans un SGBDR à la différence qu’avec une BD NoSQL orientée colonne, le nombre de colonnes est dynamique. Orientées graphes : Ce modèle de représentation des données se base sur la théorie des graphes Orientées documents : Ce modèle se base sur le paradigme clé valeur. La valeur, dans ce cas est un document de type JSON ou XML
  • 12.
  • 13.
    Ecosystème Hadoop • FrameworkOpen Source destiné à faciliter la création d’application distribuées Il suffit de programmer Map et Reduce (Java, C++, Python, etc.)
  • 14.
  • 15.
  • 16.
    Spark Framework de traitementtrès puissant open source qui se pose comme une alternative de Map/Reduce, Il s’éxecute sur du HDFS.
  • 17.
    Principaux langages dedéveloppements
  • 18.
    Distributions Hadoop Hadoop estnotamment distribué par quatre acteurs qui proposent des services de formation et un support commercial, mais également des fonctions supplémentaires : • Cloudera • HortonWorks • MapR • IBM BigInsights
  • 19.
  • 20.
    Métiers de laBig Data • Chief Data Officer (CDO): Il est à la tête d’une équipe spécialisée dans l’acquisition, l’analyse et l’exploitation des données. Sa fonction consiste à la gouvernance de son équipe pour l’approvisionnement des données les plus intéressantes et cohérentes pour l’intérêt de l’entreprise. • Business Intelligence Manager: Il utilise des nouvelles technologies pour mettre en place des tableaux de bords, des outils de reporting, afin de les intégrer au système informatique. • Data Scientist : Il est responsable de la collecte, du traitement, de l’évaluation et de l’analyse des données massives, ou big data, afin d’optimiser la stratégie de l’entreprise. Son rôle est de créer pour les métiers de l’entreprise des algorithmes qui produisent des informations utiles, notamment afin de proposer aux clients, les produits qu’ils recherchent.
  • 21.
    Métiers de laBig Data • Data Analyst Il utilise des techniques statistiques et des outils informatiques spécialisés afin d’organiser, de synthétiser et de traduire les informations dont les entreprises ont besoin pour faciliter les prises de décisions. • Le Data Miner Il est le « fouilleur de données », le Sherlock Holmes de la data. Son rôle est de dénicher les informations parmi de multiples données, afin de les rendre exploitables et utiles pour l’entreprise. Il doit disposer d’excellentes compétences en informatique, en statistiques et en business.
  • 22.
  • 23.
    Machine Learning Définition Ensemble d’outilsstatistiques et d’algorithmes permettant d’automatiser la construction d’une fonction de prédiction à partir d’un ensemble d’observation. Exemples - Détecter les comportements frauduleux lors d’une transaction - Prédire les risques de solvabilités d’un client - Découvrir les préférences d’un client Projets Mahout, Scikit-learn (Python), Mlib( Spark)
  • 24.
  • 25.