Baina bigdata le futur eldorado

308 vues

Publié le

Big Data - Un domaine au carrefour de plusieurs disciplines et d'expertises
Vue globale de l'Architecture et des Processus Big Data

Démarche Big Data

Big Data – Paradigm Shift

Big Data – L'univers digital devient de plus en plus large et interconnecté

Big Data – Perception du Volume de l'univers digital

Volume - Big Data « data-intensive » Paradigm shift : Data Locality

Volume - Big Data Paradigm shift : Synchronous batch processing

Variété - Big Data : multitude des formats de données

Varieté - Big Data Paradigme shift : Schema on Run/Read (aka ELT)

Vélocité - Big Data paradigm shift : Real Time Analysis Processing (RTAP)

Prévision des évolution des épidémies
Anticiper les pics de la circulation
Prévision Catastrophes naturelles
Sécurité territoriale
Mesure de la Satisfaction du client
Sécurité du citoyen
Mesure de la Perception du citoyen
Traitement des échanges boursiers

Exemple pratique : Calcul de la carte du bonheur par pays

Big Data & visualisation « Dataviz »

Big Data – un écosystème de
nouveaux concepts et technologies

Big Data – Quels Profils et Compétences ?

Big Data – Eldorado pour la R&D et l'Innovation

Nuage des topics liés à 15 conférences sur le Big Data de 2016

Top 20 des topics liées à 10 études d'opportunités Big Data (282 pages, 115.623 mots)

Big Data Opportunité 1 - Services
Big Data Opportunité 2 - Security
Big Data Opportunité 3 - Smart Governement
Big Data Opportunité 4 - Health

Opportunités Big Data – Améliorer le quotidien du citoyen Marocain

Big Data – Sans oublier bien évidemment de Préparer le Maroc de demain






Publié dans : Technologie
0 commentaire
0 j’aime
Statistiques
Remarques
  • Soyez le premier à commenter

  • Soyez le premier à aimer ceci

Aucun téléchargement
Vues
Nombre de vues
308
Sur SlideShare
0
Issues des intégrations
0
Intégrations
24
Actions
Partages
0
Téléchargements
12
Commentaires
0
J’aime
0
Intégrations 0
Aucune incorporation

Aucune remarque pour cette diapositive

Baina bigdata le futur eldorado

  1. 1. Les Big Data Le nouvel Eldorado Prof. Karim Baïna karim.baina@gmail.com Professeur d'Enseignement Supérieur ENSIAS, Université Mohammed V de Rabat, Maroc Co-responsable du Diplôme Universitaire « Big Data Scientist » Chef du Département Génie Logiciel Chef de Service de Coopération Première rencontre du Digital Smart Systems Førum autour de « Big Data : Nouvelles voies de R&D et d’Innovation » Mercredi 01 Juin 2016, ENSIAS
  2. 2. © Karim Baïna 2016 2 Big Data – Introduction Première rencontre du Digital Smart Systems Førum autour de « Big Data : Nouvelles voies de R&D et d’Innovation » Mercredi 01 Juin 2016, ENSIAS
  3. 3. © Karim Baïna 2016 3 Big Data 4 V ● VOLUME – 90% des données universelles ont été créées durant les 5 dernières années – de 2013 à 2020, la taille de l'univers digital sera multipliée par 10 de 4.4 trillion (10**12) GB à 44 trillion – La taille de l'univers digital plus que double chaque 2 ans ● VELOCITY (Fréquence de production de la donnée) – 6 Milliard de téléphones portables dans le monde (sur 8 Milliard de population) – Une voiture moderne embarque plus de 100 capteurs – 200 Million de compteurs intelligents, 30 Billion (10**12) Tag RFID, 420 Million de capteurs médicaux – 2,3 Trillion (10**12) GB de données sont générées chaque jours dans le monde ● VARIETY ● 80% des données universelles sont non-structurées (inexploitables par les systèmes traditionnels) ● VERACITY ● Données incertaines, entre 30 % – 80 % followers fictifs sur twitter (selon la popularité du compte) – La circulation des hoax (canulars), spam, fake post est reprise (retwittée) plus que les démentis. Doug Laney, « 3D Data Management: Controlling Data Volume, Velocity, and Variety. », 2001 research report, META Group (now Gartner) Samsung 16TB (Technologie SSD) Le plus large HD
  4. 4. © Karim Baïna 2016 4 Big Data – étude d'opportunité de Recherche (index de volume de recherche google) https://www.google.com/trends/ Le marché du Big Data s'élèverait à 40 milliards de dollars pour l'année 2015 et il connaitra, selon les prévisions, une croissance de 14% chaque année jusqu'en 2020
  5. 5. © Karim Baïna 2016 5 Big Data - Un domaine au carrefour de plusieurs disciplines et d'expertises IoT/IoE Digital Humanities Social Networking Information Systems
  6. 6. © Karim Baïna 2016 6 Big Data - Un domaine au carrefour de plusieurs disciplines et d'expertises IoT/IoE Digital Humanities Social Networking Grid Computing Information Systems Cloud Computing
  7. 7. © Karim Baïna 2016 7 Big Data - Un domaine au carrefour de plusieurs disciplines et d'expertises IoT/IoE Digital Humanities Social Networking Grid Computing Information Systems Cloud Computing Computational Linguistics KM Data Management
  8. 8. © Karim Baïna 2016 8 Big Data - Un domaine au carrefour de plusieurs disciplines et d'expertises IoT/IoE Digital Humanities Social Networking Grid Computing Information Systems Maths & Statistics Cloud Computing Computational Linguistics KM Data Management Operational Research
  9. 9. © Karim Baïna 2016 9 Big Data - Un domaine au carrefour de plusieurs disciplines et d'expertises IoT/IoE Digital Humanities Social Networking Grid Computing Software engineering Information Systems Cloud Computing Computational Linguistics KM Software programming Data Management Operational ResearchMaths & Statistics
  10. 10. © Karim Baïna 2016 10 Vue globale de l'Architecture et des Processus Big Data Real Time Processing Big Data Zone ata ke © Amir Gandomi, et al. 2015, International Journal of Information Management
  11. 11. © Karim Baïna 2016 11 Démarche Big Data ● Démarche INDUCTIVE/INFERENTIELLE (typique dans les Big Data) : Les données (observations) sont collectées sans formuler préalablement d'hypothèse et les explications sont dérivées de ces données par généralisation des faits observés pour produire un modèle scientifique de la réalité dit prévisionnel. – alias : observationnelle, corrélative, régressive ● Démarche DÉDUCTIVE : Le chercheur a une vue théorique du monde naturel, basée sur des concepts et théories acceptés, et cherche à vérifier certaines hypothèses quant aux causes d'un phénomène. Ces hypothèses sont ensuite testées au cours de l'analyse, et c'est par le jeu de leurs acceptations/rejets que se construisent les théories explicatives. Les scientifiques qui pratiquent cette approche sont qualifiés de rationalistes. – alias : expérimentale
  12. 12. © Karim Baïna 2016 12 Big Data – Paradigm Shift Première rencontre du Digital Smart Systems Førum autour de « Big Data : Nouvelles voies de R&D et d’Innovation » Mercredi 01 Juin 2016, ENSIAS
  13. 13. Big Data – L'univers digital devient de plus en plus large et interconnecté © IBM (10^12)
  14. 14. © Karim Baïna 2016 14 Big Data – Perception du Volume de l'univers digital Lune Terre 2/3 6,6x TeraB (10**12 B) → PetaB (10**15 B) → ExaB (10**18 B) → ZetaB (10**21 B)
  15. 15. © Karim Baïna 2016 15 Volume - Big Data « data-intensive » Paradigm shift : Data Locality Principle 1 : spread data across a cluster of computers Principle 2 : keep work physically close to the data (partition/fragmentation) Pour le Grid Computing « computing-intensive » les serveurs de traitements sont fixés et la datlocality n'est pas la priorité ! ● Le volume des données (en PétaOctets 10^15 Octets) et la complexité des calculs sont plus importants que la fréquence des calculs (en milliers). Et les traitements parallèles ne partagent pas les données initiales seulement des résultats intermédiaires. Data at Rest
  16. 16. © Karim Baïna 2016 16 Volume - Big Data Paradigm shift : Synchronous batch processing Le Grid Computing « computing-intensive » est defacto asynchrone ! Data at Rest
  17. 17. © Karim Baïna 2016 17 Variété - Big Data : multitude des formats de données OLAP non-structuré semi-structuré structuré
  18. 18. © Karim Baïna 2016 18 Varieté - Big Data Paradigme shift : Schema on Run/Read (aka ELT) ● Avec le Big Data - Schema on Run/Read (aka ELT) : – Collecte des données non ou semi-structurées depuis les sources – Stockage les données brutes sans structures explicites – Compatible avec la démarche inductive (zéro hypothèse) – Exploration et Analyse les données « programmatoirement » le programme s'adapte au format et pas l'inverse !! – Stockage dans une structure cible pour de futures analyses – Cycle de vie court et flexible La Business Intelligence suit le paradigme « Schema on Load/Write » (aka ETL). L'Objet & les dimensions d'analyse sont pré-organisées selon l’utilisation envisagée, Collecte des données de production structurées selon un format intial et Stockage dans un hyper-cube structuré. A chaque fois que les données évoluent, il y a nécessité de mise à niveau du datawarehouse et remise en question de la stratégie d’organisation de l’information (Cycle de vie très long et rigide)
  19. 19. © Karim Baïna 2016 19 Vélocité - Big Data paradigm shift : Real Time Analysis Processing (RTAP) ● Les données (événements) arrivent vers les calculs et sont traitées à la volée avant même d'être stockées ● Les traitements peuvent accueillir plusieurs millions d'événements par seconde. Pattern recognition/correlation/scoring rules Data in Motion
  20. 20. © Karim Baïna 2016 20Recommandation de services/produits Prévision Catastrophes naturelles ... Prévision des évolution des épidémies Traitement des échanges boursiers Sécurité territoriale Mesure de la Perception du citoyen Mesure de la Satisfaction du client Anticiper les pics de la circulation Sécurité du citoyen
  21. 21. © Karim Baïna 2016 21 Exemple pratique : Calcul de la carte du bonheur par pays Un échantillon Json de Tweeter Un dictionnaire d'émotion
  22. 22. © Karim Baïna 2016 22 Exemple pratique : Calcul de la carte du bonheur par pays (en 7 mini-requêtes HiveQL) I) Charger Dictionnaire d'émotion create table dictionary (word string, rating int) ROW FORMAT DELIMITED FIELDS TERMINATED BY 't'; LOAD DATA LOCAL INPATH '/home/hadoop/AFINN.txt' into TABLE dictionary; II) Charger Tweets depuis stockage flume create external table load_tweets(id BIGINT, text STRING, country STRING) ROW FORMAT SERDE 'com.cloudera.hive.serde.JSONSerDe' LOCATION '/user/flume/tweets' Tokeniser les tweets create table split_words as select id as id, split(text,' ') as words, country from load_tweets; Applatir les mots des tweets create table tweet_word as select id as id, word, location from split_words LATERAL VIEW explode(words) w as word; III) Croiser Tweets & Dictionnaire create table tweet_word_join as select tweet_word.id, tweet_word.word, country, dictionary.rating from tweet_word LEFT OUTER JOIN dictionary ON(tweet_word.word =dictionary.word); Calculer moyenne score de chaque Tweet create table tweet_rating_avg as select id, country, AVG(rating) as rating from tweet_word_join GROUP BY id, country order by rating DESC; Calculer moyenne score de chaque Pays create table location_rating_avg as select country, AVG(rating) as rating from tweet_rating_avg GROUP BY country order by rating DESC; -Like
  23. 23. © Karim Baïna 2016 23 Big Data & visualisation « Dataviz » http://www.mastersindatascience.org/blog/10-cool-big-data-visualizations/
  24. 24. © Karim Baïna 2016 24 Big Data & visualisation « Dataviz » http://www.mastersindatascience.org/blog/10-cool-big-data-visualizations/
  25. 25. © Karim Baïna 2016 25 Big Data & visualisation « Dataviz » http://www.mastersindatascience.org/blog/10-cool-big-data-visualizations/
  26. 26. © Karim Baïna 2016 26 Big Data & visualisation « Dataviz » http://www.mastersindatascience.org/blog/10-cool-big-data-visualizations/
  27. 27. © Karim Baïna 2016 27 Big Data & visualisation « Dataviz » http://www.theguardian.com/world/interactive/2011/mar/22/middle-east-protest-interactive-timeline
  28. 28. © Karim Baïna 2016 28 Big Data & visualisation « Dataviz » Not all Arab tweeters agreed with Mona Eltahawy views of feminism in the Arab world Visualizing Big Data: Social Network Analysis by Michael Lieberman, 2014
  29. 29. © Karim Baïna 2016 29 Big Data – un écosystème de nouveaux concepts et technologies
  30. 30. © Karim Baïna 2016 30 Dev Ops Engineer Builds the cluster Data Analyst SQL & NoSQL guru Big Data Developer/ Insight Developer Insight Developer, Productise insight Data Scientist Data Manager, Machine learning expert Data Innovator Business Analyst, Data Value services INFRA DATA ENGINEERING DATA SCIENCE DATA INNOVATION Big Data – Quels Profils et Compétences ?
  31. 31. © Karim Baïna 2016 31 ● Pour devenir Spécialiste de Big Data – Un Statisticien devra apprendre à manipuler des données distribuées et qui ne tiennent pas en mémoire RAM d'une seule machine – Un analyste métier ingénieur BI (ou analyste d'affaires - Business Analyst) devra apprendre à écrire et exécuter des algorithmes décisionnels à l'échelle et faire du reporting sur des données stockées en format brute – Un DBA devra apprendre à manipuler des données non- structurées – Un ingénieur Génie Logiciel devra apprendre la modélisation statistique et la communication des résultats © Bill Howe Big Data – Quels Profils et Compétences ?
  32. 32. © Karim Baïna 2016 32 Big Data – Eldorado pour la R&D et l'Innovation Première rencontre du Digital Smart Systems Førum autour de « Big Data : Nouvelles voies de R&D et d’Innovation » Mercredi 01 Juin 2016, ENSIAS
  33. 33. © Karim Baïna 2016 33 Nuage des topics liés à 15 conférences sur le Big Data de 2016 Analyse de 1692 occurrences de 443 mots du domaine (sans doublons) au total
  34. 34. © Karim Baïna 2016 34 Analyse de 1692 occurrences de 443 mots du domaine (sans doublons) au total cloud 50 2,96% computing/tation 39 2,30% analysis/tics 36 2,13% application(s) 36 2,13% system(s) 28 1,65% semantic(s) 26 1,54% architecture(s)/al 24 1,42% management/ing 24 1,42% learning 23 1,36% service 23 1,36% network/ing 21 1,24% web/2 21 1,24% business 20 1,18% model/lling 20 1,18% security 17 1,00% social 17 1,00% privacy 16 0,95% enterprise 15 0,89% method/ologies 15 0,89% knowledge 14 0,83% smart 13 0,77% recommendations/der 9 0,53% virtual/isation 7 0,41% iot 6 0,35% sensor/itive 6 0,35% trust/ed/worthy 6 0,35% interoperability 2 0,12% Topics liées à 15 conférences sur le Big Data de 2016 – top 30
  35. 35. © Karim Baïna 2016 35 Analyse de 1692 occurrences de 443 mots du domaine (sans doublons) au total data enterprise applications learning model/lling techniques/logy mobile scale/able 0 20 40 60 80 100 120 0,00% 1,00% 2,00% 3,00% 4,00% 5,00% 6,00% 7,00% Distribution des apparitions de mots dans les CFP mot fréquenced'apparition science/tist 13 0,77% bioinformatics/logical/logy/medical/metrics 12 0,71% health 8 0,47% market/ing 8 0,47% transport/ation8 0,47% energy 7 0,41% home 7 0,41% ehealth 5 0,30% governance 5 0,30% healthcare 5 0,30% cities 3 0,18% econometrics/nomics 3 0,18% human 3 0,18% medical 3 0,18% banking 2 0,12% hospitals 2 0,12% industrial 2 0,12% Topics liées à 15 conférences sur le Big Data de 2016 – par domaine
  36. 36. © Karim Baïna 2016 36 Top 20 des topics liées à 10 études d'opportunités Big Data (282 pages, 115.623 mots) service(s) value/able/ed computation/al/ally tool/kit 0,00% 1,00% 2,00% 3,00% 4,00% 5,00% 6,00% distribution des apparitions des mots dans les études d'opportunité Bi mots fréquenced'apparition privacy/vate/tivally 554 4,91% governance/nment 392 3,48% analytic/al/ze.. 370 3,28% social/itycs/etal/etally/ities/economic/logical/ethnical311 2,76% global/ization/lly/world 287 2,54% decision/ding/cisive 283 2,51% individual/lized 251 2,23% usability/er/sable/age/ed/ful/fulness220 1,95% policy/maker/making 213 1,89% science/tific/tifically 208 1,84% protection/tected/tecting/tective 2011,78% system/ic/ematic/emacally 1881,67% computation/al/ally 167 1,48% secure/ly/ing/ities 167 1,48% acces/ssibility/ssible 164 1,45% digital/lisation/tally/tised 163 1,45% Marketing 159 1,41% predict/able/ted/ting/tive/tion/tor 154 1,37% Mobile 125 1,11% Analyse de 11280 occurrences de 229 mots du domaine (sans doublons) au total
  37. 37. © Karim Baïna 2016 37 Big Data Opportunité 1 - Services (446 occurrences) risk price/cing/stats/discrimination production/ve/ivity smart/er/erplanet/meter/phone devices bank/ing transport/ation/ing car/automtive/mobile telecom interoperability interconnect/ed/ting/tivity 0 10 20 30 40 50 60 70 80 90 100 Nombre d'occurrences dans les études d'opportunité Big Data Apparition OpportunitéBigData
  38. 38. © Karim Baïna 2016 38 Big Data Opportunité 2 - Security (396 occurrences ) risk crime/minal fraud/ulent surveillance account/ability/ant prevent/tion/ting/tive anomalies anonymise/sation trust/ed/ing/ees terrorism/ist cameras 0 10 20 30 40 50 60 70 80 90 100 Nombre d'occurrences dans les études d'opportunité Big Data Apparition OpportrunitéBigData
  39. 39. © Karim Baïna 2016 39 Big Data Opportunité 3 - Smart Governement (350 occurrences) citizen population civil/ian/ized/rights regulatate/lation/lating/lator/latory popular/rity/rly democracy/tic/tization/tized political/ciations/tics vote/r 0 10 20 30 40 50 60 70 80 Nombre d'occurrences dans les études d'opportunité Big Data Apparition OpportunitéBigData
  40. 40. © Karim Baïna 2016 40 Big Data Opportunité 4 - Health (176 occurrences) medical genome/tic/ticist/alogy/e bioinformatics/logical/logy/med/medical/metric/tech senior clinical/cian epicentre/demic/demics/miologic/logical pharmacy/ceutical/cogenomics doctor cancer 0 5 10 15 20 25 30 35 40 45 Nombre d'occurrences dans les études d'opportunité Big Data Opportunité Big Data Apparition
  41. 41. 41 Opportunités Big Data – Améliorer le quotidien du citoyen Marocain Améliorer la Sécurité Routière – plus de campagnes et de signalisation dans les régions/véhicules à haut risque Améliorer la qualité du transport – mieux desservir la demande en période de pic Améliorer les services sociaux – mieux desservir les régions selon les spécialités manquantes Réduire le chômage et augmenter l'employabilité – mieux connecter offreurs et demandeurs d'emploi, anticiper les besoins du marché d'emploi Améliorer l'éducation – mieux servir les régions marginalisées
  42. 42. 42 Big Data – Sans oublier bien évidemment de Préparer le Maroc de demain Énergies Desertec Développement durable & Économie verte Développement humain & Économie équitable Environnement Logistique Industrie & Services

×