Les big data révolutionnent le monde d'aujourd'hui. Mais qu'est-ce que c'est ? A quoi ça sert ? Que faut-il pour un professionnel de l'Informatique pour envisager une carrière dans le domaine ? Et où trouver une formation adaptée ? J'ai profité des Journées Portes Ouvertes de l'Institut Africain d'Informatique, Représentation du Togo (IAI-TOGO) pour animer cette conférence.
4. Définition
Mégadonnées, données massives, données
volumineuses
4
- En effet, nous procréons environ 2,5 trillions (10^18) d’octets de données tous les jours. Ce sont
les informations provenant de partout : messages que nous nous envoyons, vidéos que nous
publions, informations climatiques, signaux GPS, enregistrements transactionnels d’achats en ligne et
bien d’autres encore. Ces données sont baptisées Big Data ou volumes massifs de données. Les
géants du Web, au premier rang desquels Yahoo (mais aussi Facebook et Google), ont été les tous
premiers à déployer ce type de technologie.
5. Définition
5
Aucune définition universelle
- Cependant, aucune définition précise ou universelle ne peut être donnée au Big
Data. Etant un objet complexe polymorphe, sa définition varie selon les communautés
qui s’y intéressent en tant qu’usager ou fournisseur de services.
6. “
Données présentant une grande
variété, arrivant en volumes
croissants, à grande vitesse.
C’est ce que l’on appelle les trois « V ».
6
-- Définition de Gartner, 2001
9. Hadoop
○ Framework logiciel libre destiné à
faciliter la création d’applications
distribuées.
9
○ Permet aux entreprises de stocker et
traiter de vastes quantités de données
rapidement.
15. Quelques utilisations
pratiques du Big Data
15
- Afin de permettre à tout un chacun de trouver les lieux qui l’intéressent dans les
plus grandes villes du monde, Yelp a trouvé un usage détourné très ingénieux du
Big Data. La fonctionnalité World Map permet de trier les lieux d’une ville en
fonction des mots utilisés dans les avis laissés par les visiteurs. Il suffit de
choisir un mot, et les différents endroits de la ville sont classés par rapport au
nombre de fois que le mot a été utilisé dans les critiques des utilisateurs.
16. Quelques utilisations
pratiques du Big Data
16
- Traditionnellement, les panneaux publicitaires sont facturés en
fonction du nombre d’impressions, à un tarif proportionnel au nombre
de vues quotidiennes. Ce nombre est défini par une estimation
jusqu’à présent totalement arbitraire. Toutefois, grâce au Big Data,
l’entreprise de marketing Route est désormais en mesure d’évaluer
le niveau d’exposition d’une publicité avec précision. Afin de
mesurer le nombre de personnes qui verront une publicité affichée
sur un bus, un arrêt de bus ou un banc public, la firme utilise un
système de tracking oculaire, un GPS, et analyse les cycles de
trafic pour définir un prix adapté au potentiel publicitaire de l’espace
proposé.
17. Quelques utilisations
pratiques du Big Data
17
- L’application WeatherSignal utilise
les capteurs intégrés aux
smartphones Android afin de
collecter des données
météorologiques en temps réel.
Grâce au baromètre, à
l’hygromètre, au thermomètre et au
posemètre des téléphones Android,
l’application récupère des données
du monde entier et les exploite pour
prédire la météo à venir.
18. Les acteurs
Oracle HP IBM
18
Google Facebook LinkedIn
Des acteurs IT traditionnels
SAP
Des acteurs IT du web
19. Formations (sur le continent)
19
AIMS Dans 6 pays en Afrique
MSc. Big Data, MSc.
Machine Intelligence
INP-HB (avec ENSEA et l’X) Côte d’Ivoire MSc. Data Science
University of Rwanda Rwanda
MSc. Data Science
(diverse applications)
- En effet, nous procréons environ 2,5 trillions (10^18) d’octets de données tous les jours. Ce sont les informations provenant de partout : messages que nous nous envoyons, vidéos que nous publions, informations climatiques, signaux GPS, enregistrements transactionnels d’achats en ligne et bien d’autres encore. Ces données sont baptisées Big Data ou volumes massifs de données. Les géants du Web, au premier rang desquels Yahoo (mais aussi Facebook et Google), ont été les tous premiers à déployer ce type de technologie.
- Cependant, aucune définition précise ou universelle ne peut être donnée au Big Data. Etant un objet complexe polymorphe, sa définition varie selon les communautés qui s’y intéressent en tant qu’usager ou fournisseur de services.
- En effet, nous procréons environ 2,5 trillions (10^18) d’octets de données tous les jours. Ce sont les informations provenant de partout : messages que nous nous envoyons, vidéos que nous publions, informations climatiques, signaux GPS, enregistrements transactionnels d’achats en ligne et bien d’autres encore. Ces données sont baptisées Big Data ou volumes massifs de données. Les géants du Web, au premier rang desquels Yahoo (mais aussi Facebook et Google), ont été les tous premiers à déployer ce type de technologie.
- Cependant, aucune définition précise ou universelle ne peut être donnée au Big Data. Etant un objet complexe polymorphe, sa définition varie selon les communautés qui s’y intéressent en tant qu’usager ou fournisseur de services.
composé de jeux de données complexes, provenant essentiellement de nouvelles sources.
données sont si volumineux que les logiciels de traitement des données classiques sont incapables de les traiter.
Variété : Il ne s'agit pas de données relationnelles traditionnelles, ces données sont brutes, semi-structurées, voire non structurées (cependant, les données non structurées devront, pour utilisation, être structurées47). Ce sont des données complexes provenant du web (Web mining), au format texte (text mining) et images (image mining). Elles peuvent être publiques (open data, Web des données), géo-démographiques par îlot (adresses IP), ou relever de la propriété des consommateurs[réf. nécessaire]. Ce qui les rend difficilement utilisables avec les outils traditionnels.
Volume : les données numériques créées dans le monde seraient passées de 1,2 zettaoctet par an en 2010 à 1,8 zettaoctet en 201143, puis 2,8 zettaoctets en 2012 et s'élèveront à 40 zettaoctets en 2020. À titre d'exemple, Twitter générait en janvier 2013, 7 téraoctets de données chaque jour et Facebook 10 téraoctets44. En 2014, Facebook Hive générait 4 000 To de data par jour
Vitesse : La vélocité représente la fréquence à laquelle les données sont à la fois générées, capturées, partagées et mises à jour49.
Des flux croissants de données doivent être analysés en quasi-temps réel (fouille de flots de données) pour répondre aux besoins des processus chrono-sensibles50. Par exemple, les systèmes mis en place par la bourse et les entreprises doivent être capables de traiter ces données avant qu’un nouveau cycle de génération n’ait commencé, avec le risque pour l'Homme de perdre une grande partie de la maîtrise du système quand les principaux opérateurs deviennent des machine capables de lancer des ordres d'achat ou de vente à la nanoseconde (trading haute fréquence) sans disposer de tous les critères pertinents d'analyse pour le moyen et long terme.
Hadoop est un framework logiciel open source permettant de stocker des données, et de lancer ds applications sur des grappes de machines standards.
Afin de permettre à tout un chacun de trouver les lieux qui l’intéressent dans les plus grandes villes du monde, Yelp a trouvé un usage détourné très ingénieux du Big Data. La fonctionnalité World Map permet de trier les lieux d’une ville en fonction des mots utilisés dans les avis laissés par les visiteurs. Il suffit de choisir un mot, et les différents endroits de la ville sont classés par rapport au nombre de fois que le mot a été utilisé dans les critiques des utilisateurs.
Traditionnellement, les panneaux publicitaires sont facturés en fonction du nombre d’impressions, à un tarif proportionnel au nombre de vues quotidiennes. Ce nombre est défini par une estimation jusqu’à présent totalement arbitraire. Toutefois, grâce au Big Data, l’entreprise de marketing Route est désormais en mesure d’évaluer le niveau d’exposition d’une publicité avec précision. Afin de mesurer le nombre de personnes qui verront une publicité affichée sur un bus, un arrêt de bus ou un banc public, la firme utilise un système de tracking oculaire, un GPS, et analyse les cycles de trafic pour définir un prix adapté au potentiel publicitaire de l’espace proposé.
L’application WeatherSignal utilise les capteurs intégrés aux smartphones Android afin de collecter des données météorologiques en temps réel. Grâce au baromètre, à l’hygromètre, au thermomètre et au posemètre des téléphones Android, l’application récupère des données du monde entier et les exploite pour prédire la météo à venir.
Afin de permettre à tout un chacun de trouver les lieux qui l’intéressent dans les plus grandes villes du monde, Yelp a trouvé un usage détourné très ingénieux du Big Data. La fonctionnalité World Map permet de trier les lieux d’une ville en fonction des mots utilisés dans les avis laissés par les visiteurs. Il suffit de choisir un mot, et les différents endroits de la ville sont classés par rapport au nombre de fois que le mot a été utilisé dans les critiques des utilisateurs.
Traditionnellement, les panneaux publicitaires sont facturés en fonction du nombre d’impressions, à un tarif proportionnel au nombre de vues quotidiennes. Ce nombre est défini par une estimation jusqu’à présent totalement arbitraire. Toutefois, grâce au Big Data, l’entreprise de marketing Route est désormais en mesure d’évaluer le niveau d’exposition d’une publicité avec précision. Afin de mesurer le nombre de personnes qui verront une publicité affichée sur un bus, un arrêt de bus ou un banc public, la firme utilise un système de tracking oculaire, un GPS, et analyse les cycles de trafic pour définir un prix adapté au potentiel publicitaire de l’espace proposé.
L’application WeatherSignal utilise les capteurs intégrés aux smartphones Android afin de collecter des données météorologiques en temps réel. Grâce au baromètre, à l’hygromètre, au thermomètre et au posemètre des téléphones Android, l’application récupère des données du monde entier et les exploite pour prédire la météo à venir.
Afin de permettre à tout un chacun de trouver les lieux qui l’intéressent dans les plus grandes villes du monde, Yelp a trouvé un usage détourné très ingénieux du Big Data. La fonctionnalité World Map permet de trier les lieux d’une ville en fonction des mots utilisés dans les avis laissés par les visiteurs. Il suffit de choisir un mot, et les différents endroits de la ville sont classés par rapport au nombre de fois que le mot a été utilisé dans les critiques des utilisateurs.
Traditionnellement, les panneaux publicitaires sont facturés en fonction du nombre d’impressions, à un tarif proportionnel au nombre de vues quotidiennes. Ce nombre est défini par une estimation jusqu’à présent totalement arbitraire. Toutefois, grâce au Big Data, l’entreprise de marketing Route est désormais en mesure d’évaluer le niveau d’exposition d’une publicité avec précision. Afin de mesurer le nombre de personnes qui verront une publicité affichée sur un bus, un arrêt de bus ou un banc public, la firme utilise un système de tracking oculaire, un GPS, et analyse les cycles de trafic pour définir un prix adapté au potentiel publicitaire de l’espace proposé.
L’application WeatherSignal utilise les capteurs intégrés aux smartphones Android afin de collecter des données météorologiques en temps réel. Grâce au baromètre, à l’hygromètre, au thermomètre et au posemètre des téléphones Android, l’application récupère des données du monde entier et les exploite pour prédire la météo à venir.