Introduction au BIG DATA

1 003 vues

Publié le

La révolution Les données grande échelle 'BIG DATA'

Publié dans : Ingénierie
1 commentaire
3 j’aime
Statistiques
Remarques
Aucun téléchargement
Vues
Nombre de vues
1 003
Sur SlideShare
0
Issues des intégrations
0
Intégrations
5
Actions
Partages
0
Téléchargements
55
Commentaires
1
J’aime
3
Intégrations 0
Aucune incorporation

Aucune remarque pour cette diapositive

Introduction au BIG DATA

  1. 1. INTRODUCTION DU SUJET AIT EL MOUDEN Zakariyaa
  2. 2. Définition  Les big data, littéralement les « grosses données », ou mégadonnées, désignent des ensembles de données qui deviennent tellement volumineux qu'ils en deviennent difficiles à travailler avec des outils classiques de gestion de base de données ou de gestion de l'information. -wikipédia- 2
  3. 3. D’où vient les données ?  Les applications et les services professionnels: - ERP ’Entreprise Resource planning’ en français « progiciel de gestion intégré » (PGI) : Ce type de logiciel correspond, pour une organisation, au support de base capable d'assurer une « gestion intégrée», définie comme étant l'interconnexion et l'intégration de l'ensemble des fonctions de l'entreprise dans un système informatique centralisé (et généralement configuré selon le mode client-serveur). Les sources de production des données : 3
  4. 4. - CRM ’Customer Relationship Management’ en français « La gestion de la relation client » (GRC) : est l'ensemble des outils et techniques destinés à capter, traiter, analyser les informations relatives aux clients et aux prospects, dans le but de les fidéliser en leur offrant le meilleur service - SCM ‘supply chain management’ en français «gestion de la chaîne logistique» (GCL) vise à garantir l'organisation et la qualité du service logistique en conformité avec les dispositions figurant au cahier des charges logistique. - les outils de production de contenu et de bureautique (série office) ou les intranets, etc. Les sources de production des données : (suite) 4
  5. 5.  Le Web En utilisant le Web, Les entreprises et les organisations créent un volume considérable de données (sites d’actualités, e- commerce, publicités … ) Avec l’utilisation des moteurs de recherche et les annuaires dans le web, le nombre des données crées est de plus en plus innombrables. "Nous créons actuellement en deux jours autant d'information que nous en avions créée depuis la naissance de la civilisation jusqu'en 2003". rappelait récemment Eric Schmidt, Chairman de Google. Les sources de production des données : (suite) 5
  6. 6.  Les Media sociaux Avec le développement des outils d’expression (le Web 2.0) ces dix dernières années, le volume des données produites à eu une croissance phénoménale. exemples : Réseaux sociaux : facebook, twitter, youtube, etc Plateformes de partage : SlideShare, Flickr, Instagram, etc Statistique : Chaque minute, plus de 30 heures de vidéo sont uploadées sur YouTube, 2 millions de posts sont publiés sur Facebook et 100.000 tweets diffusés sur Twitter. Les sources de production des données : (suite) 6
  7. 7.  Le Mobile Avec l’évolution du mobile, et l’apparition du ‘smartphone’, Le téléphone mobile est devenu une source respectable de production des données. Les statistiques prouvent qu’ il y a actuellement 4 fois plus de téléphone mobiles en usage que des ordinateurs et tablettes. Statistique : A la fin 2013, l'App Store de Apple et Google Play auront dépassé les 50 milliards d'applications téléchargées. Les sources de production des données : (suite) 7
  8. 8.  Internet des objets (IdO) en anglais « Internet Of Things » (IoT) un réseau qui permet, via des systèmes d’identification électronique normalisés et sans fil, d’identifier et de communiquer numériquement avec des objets physiques afin de pouvoir mesurer et échanger des données entre les mondes physiques et virtuels. L'internet des objets est considéré comme la troisième évolution de l'Internet, baptisée Web 3.0 Les sources de production des données : (suite) 8
  9. 9. Les catégories des données  Données Structurées les informations structurées sont disposées de façon à être traitées automatiquement et efficacement par un logiciel, mais non nécessairement par un humain. La ligne de code Java : int salaire = 6000; String nom=« Ali"; est un exemple simple d’informations structurées ,nous connaissons les valeurs, dont le nom est associé à la fonction. Nous pouvons ici supposer que le nom de l’individu est Jean et que son salaire est de 6 000 Dh. Par opposition, la chaîne de caractères « Ali gagne un salaire de 60 000 dirhams » n’est pas structurée, car nous ne pouvons nous attendre à ce qu’un logiciel puisse lire et comprendre une phrase écrite en français. 9
  10. 10. Les catégories des données (suite)  Le plus souvent, nous disposons les informations structurées dans des tableaux, comme dans une base de données relationnelle Nom Salaire Ali 6000 Mohammed 7000 10
  11. 11. Les catégories des données (suite)  Les données non structurées Il est impossible de tout stocker sous la forme d’informations structurées (p. ex. lettres, courriels, livres, rapports, collections d’images ou de vidéos, brevets, images satellites, offres de service et CV, appels d’offre). Il s’agit pourtant d’informations que les organisations doivent traiter.  Les big data sont généralement des données semi structurées. 11
  12. 12. Les dimensions du BIG DATA Les dimensions du big data Volume Vitesse Variété Véracité Visibilité Valeur 12
  13. 13.  Le Volume : Le premier concept qui intervient dans la notion du big data, données en petabyte( 1015 bytes )  La Vitesse : Analyse et exploitation des données en temps réel.  La Variété : Les données sont non structurées, et de plus sont de formats différents (images, texte, sons, vidéos , etc.)  La Valeur : Les données concernées sont de valeur importante dans l’entreprise. Les 4v principaux 13
  14. 14. Pourquoi la notion du big data est récente ?  L’expression « Big data » fait finalement son apparition en octobre 1997 dans la bibliothèque numérique de l’ACM*, au sein d’articles scientifiques qui pointent du doigt les défis technologiques à visualiser les « grands ensembles de données ». Le Big data est né, et avec lui ses nombreux défis.. *Association For Computing Machinery, association américaine à but non lucratif fondée en 1947 et vouée à l’informatique. Sa bibliothèque numérique est particulièrement riche quand il s’agit de retracer l’histoire de la discipline. 14
  15. 15. Facteurs de naissance du Big data  Le cout du stockage : Ce concept n’est plus un problème majeur pour les entreprises avec l’apparition du Cloud Computing.  Réseaux à très haut débit (THD) : Le stockage des données dans des serveurs distants n’est pas une vrai solution sans un réseau hait débit pour atteindre ces données avec une transparence à la localisation.  Evolution des technologie de gestion et d’analyse des données : Analyse et gestion en temps réel 15
  16. 16. Usages des Big Data  Optimisation Optimisation du temps de calcul, recherche, traitement des données, etc. exemple: Une société de de fabrication d’éoliennes nommée Vestas , utilise les ‘ big data analytics ’ d’IBM pour décider la localisation d’éoliennes en optimisant le temps de traitement des données variées et non structurées (données météorologiques et géo spatiales, des images satellites, etc. ) >> résultat fournit en quelques heures, au lieu des études qui prennent des semaines sur terrain. 16
  17. 17.  Tracer et cibler Les big data permettent d’analyser la situation et le contexte de millier de personnes en temps réel. Application : (big data dans l’aéroport) les passagers doivent obligatoirement passer un certain nombre de tests de sécurité (ce qui génère du stress, des temps d’attente). Une application de géolocalisation dans l’aéroport pourrait offrir aux passagers, en retour de leurs données émises, un guide interactif du lieu, des informations sur les temps d’attente aux différents postes de sécurité, sur les horaires des vols et portes d’embarquement, alors ils peuvent exploiter leurs temps d’attente dans des boutiques ou des restaurants, etc. 17 Usages des Big Data (suite)
  18. 18. Usages des Big Data (suite)  Prévoir et prédire L’analyse prédictive permet de faire des projections ultra réalistes pour identifier des nouvelles sources d’opportunités (ou des menaces) et ainsi anticiper les réponses adaptées à la situation réelle. Exemple : ‘Flu Trends’ est un modèle de Google qui permet d’estimer la propagation des cas réels de grippe en fonction des recherches sur Internet, prenant en compte le fait que tous les internautes qui tapent « grippe » sur leur clavier ne sont pas nécessairement malades.  Automobile et Autres usages … 18
  19. 19. Visualisation des données  Pourquoi on visualise les données ? ‘’ Une image (data visualisation) vaut mieux qu'un long (big) discours (data) ‘’ Une visualisation intelligente et utilisable des analytics sont un facteur clé dans le déploiement du Big Data dans les entreprises. Le développement des infographies va d'ailleurs de pair avec le développement des techniques d'exploitation des données. 19
  20. 20. Visualisation des données (suite) La visualisation des big data permet :  La prise de décision Une Data Visualisation de qualité donnera aux managers le moyen de manipuler de larges volumes de données pour faire émerger des tendances, ou encore répondre à des questions spécifiques. Grâce à des outils de comparaison et de croisement dynamiques, les managers peuvent faire apparaître des informations perdues sous le flot de données, qui ne peuvent se révéler qu’après avoir été visualisées. 20
  21. 21. Visualisation des données (suite)  se concentrer sur l’essentiel, plus rapidement La principale raison pour laquelle la Data Visualisation est demandée par les entreprises est la confusion qui accompagne la surcharge de données : celles-ci sont éparpillées dans des feuilles de calculs, des bases de données, des espaces de stockages… Leur interprétation devient difficile. A l’inverse, le but de la Data Visualisation va à l’essentiel en regroupant toutes ces données sur un seul écran, et en les traitant intelligemment grâce à des filtres, des groupes et des classements pertinents. 21
  22. 22. Visualisation des données (suite) 22 Exemple :  Fichier visualisé : Les misérables de Victor Hugo  Nombre de nœuds : 77  Nombre des liens : 254  Algorithme de spatialisation : Force Atlas  Outil de visualisation : Gephi 0.8.1
  23. 23. Visualisation des données (suite)  Même fichier avec d’autres algorithmes de spatialisation : 23 Fruchterman-Reingold Force Atlas 2
  24. 24. Conclusion  Avec la notion du big data, les problèmes volume des données, variance, hétérogénéité, le temps d’analyse des données et plein d’autres problèmes ne sont plus de la même complexité qu’avant. C’est la nouvelle génération des données. 24
  25. 25. Références  www.wiki.gephi.org  www.awt.be  http://physicsbjj.perso.sfr.fr/  www.wikipedia.org  le big data, Christophe de Maistre 25
  26. 26. Chapitre suivant : Algorithmes de spatialisation

×