Coordination éditoriale : Alain KHEMILI
3 minutes pour comprendre …
Le Big Data
Octobre 2015
Chaque jour, nous générons 2,5 trillions d’octets de données. A tel point que 90% des données dans le
monde ont été créées au cours des deux dernières années seulement. Ces données proviennent de
partout : de capteurs utilisés pour collecter les informations climatiques, de messages sur les sites de
médias sociaux, d'images numériques et de vidéos publiées en ligne, d'enregistrements transactionnels
d'achats en ligne et de signaux GPS de téléphones mobiles, pour ne citer que quelques sources. Ces
données sont appelées Big Data ou mégadonnées ou volumes massifs de données.
1. De quoi s’agit-il
L’explosion quantitative de la donnée numérique contraint à de nouvelles manières de voir et analyser le
monde. De nouveaux ordres de grandeur concernent la capture, le stockage, la recherche, le partage,
l'analyse et la visualisation des données. Les perspectives du traitement des big data sont énormes et en
partie encore insoupçonnées ; on évoque souvent de nouvelles possibilités d'exploration de l'information
diffusée par les médias, de connaissance et d'évaluation, d'analyse tendancielle et prospective
(climatiques, environnementales ou encore sociopolitiques, etc.) et de gestion des risques (commerciaux,
assuranciels, industriels, naturels) et de phénomènes religieux, culturels, politiques, mais aussi en termes
de génomique ou métagénomique, pour la médecine (compréhension du fonctionnement du cerveau,
épidémiologie, écoépidémiologie...), la météorologie et l'adaptation aux changements climatiques, la
gestion de réseaux énergétiques complexes (via les smartgrids ou un futur « internet de l'énergie »…)
l'écologie (fonctionnement et dysfonctionnement des réseaux écologiques, des réseaux trophiques avec le
GBIF par exemple), ou encore la sécurité et la lutte contre la criminalité9.
2. Sur quelles technologies reposent les solutions Big Data ?
Pour analyser les hautes et disparates volumétries de données, les solutions peuvent s'appuyer sur trois
types de technologies distinctes : une accélération matérielle à l'aide de mémoires dynamiques DRAM ou
Flash, le recours à des bases de données massivement parallèles (Massively Parallel Processing) Hadoop
ou encore les solutions utilisant des formats de bases de données non relationnelles basées sur NoSQL
(MongoDB, Cassandra, Redis)
3. Le Big Data en 4 V
Le Big Data couvre quatre dimensions : volume, vélocité, variété et véracité.
Volume : les entreprises sont submergées de volumes de données croissants de tous types, qui se
comptent en téraoctets, voire en pétaoctets (exemples : Transformer les 12 téraoctets de Tweets créés
quotidiennement en analyse poussée des opinions sur un produit. Convertir les 350 milliards de relevés
annuels de compteurs afin de mieux prédire la consommation d'énergie)
Vélocité : parfois, 2 minutes c'est trop. Pour les processus chronosensibles tels que la détection de
fraudes, le Big Data doit être utilisé au fil de l'eau, à mesure que les données sont collectées par votre
entreprise afin d'en tirer le maximum de valeur (Exemples : Scruter 5 millions d'événements commerciaux
par jour afin d'identifier les fraudes potentielles. Analyser en temps réel 500 millions d’enregistrements
détaillés d’appels quotidiens)
Variété : le Big Data se présente sous la forme de données structurées ou non structurées (texte, données
de capteurs, son, vidéo, données sur le parcours, fichiers journaux, etc.). De nouvelles connaissances sont
issues de l’analyse collective de ces données. (Exemples : Utiliser les centaines de flux vidéo des caméras
de surveillance pour contrôler les points d'intérêt. Tirer parti de la croissance de 80 % du volume de
données image, vidéo et documentaires pour améliorer la satisfaction client)
Véracité : renvoie au degré de fiabilité et de confiance que l’on peut accorder aux données utilisées au
moment d’une prise de décision. Bien que la véracité des données ait toujours été un facteur important en
gestion des données, elle prend toutefois une importance plus grande dans le contexte du Big Data. Il
devient essentiel, par exemple, de s’assurer que les données provenant notamment de l’extérieur de
l’organisation – comme celles provenant des réseaux sociaux – sont véritables et ne sont pas faussement
mises hors contexte.
Octets
1 Mégaoctet = 106 octets
1 Gigaoctet = 109 octets
1 Téraoctet = 1012 octets
1 Pétaoctet = 1015 octets
1 Exaoctet = 1018 octets
1 Zettaoctet = 1021 octets
____________________________
Genèse
Le terme Big Data a été
évoqué la première fois par le
cabinet d'études Gartner en
2008 mais des traces de la
genèse de ce terme remontent
à 2001 et ont été évoquées par
le cabinet Meta Group racheté
en 2005 par le Gartner.
____________________________
Applications
Sciences : séquençage de
l’ADN
Marketing : affinage des offres,
meilleur ciblage pour
campagnes d’information
Transports : amélioration des
horaires et des trajets
Education en ligne : activité
des élèves, façon de suivre les
programmes, pour amélioration
des modes d’enseignement.
Services Publics : lutte anti-
fraude, prédictions
géographiques
Développement durable :
paramétrage d’éoliennes après
collecte de données
météorologiques
Santé : Prédiction et
prévention des pandémies
____________________________
Site web utile
Le portail du Big Data
Guide du Big Data
____________________________
Contacts utiles
GFII - Groupement Francais de
l'Industrie de l'Information
AFDEL - Association des
Editeurs de Logiciels et de
Solutions Internet)
Votre CCI

3 minutes pour comprendre ... le Big Data

  • 1.
    Coordination éditoriale :Alain KHEMILI 3 minutes pour comprendre … Le Big Data Octobre 2015 Chaque jour, nous générons 2,5 trillions d’octets de données. A tel point que 90% des données dans le monde ont été créées au cours des deux dernières années seulement. Ces données proviennent de partout : de capteurs utilisés pour collecter les informations climatiques, de messages sur les sites de médias sociaux, d'images numériques et de vidéos publiées en ligne, d'enregistrements transactionnels d'achats en ligne et de signaux GPS de téléphones mobiles, pour ne citer que quelques sources. Ces données sont appelées Big Data ou mégadonnées ou volumes massifs de données. 1. De quoi s’agit-il L’explosion quantitative de la donnée numérique contraint à de nouvelles manières de voir et analyser le monde. De nouveaux ordres de grandeur concernent la capture, le stockage, la recherche, le partage, l'analyse et la visualisation des données. Les perspectives du traitement des big data sont énormes et en partie encore insoupçonnées ; on évoque souvent de nouvelles possibilités d'exploration de l'information diffusée par les médias, de connaissance et d'évaluation, d'analyse tendancielle et prospective (climatiques, environnementales ou encore sociopolitiques, etc.) et de gestion des risques (commerciaux, assuranciels, industriels, naturels) et de phénomènes religieux, culturels, politiques, mais aussi en termes de génomique ou métagénomique, pour la médecine (compréhension du fonctionnement du cerveau, épidémiologie, écoépidémiologie...), la météorologie et l'adaptation aux changements climatiques, la gestion de réseaux énergétiques complexes (via les smartgrids ou un futur « internet de l'énergie »…) l'écologie (fonctionnement et dysfonctionnement des réseaux écologiques, des réseaux trophiques avec le GBIF par exemple), ou encore la sécurité et la lutte contre la criminalité9. 2. Sur quelles technologies reposent les solutions Big Data ? Pour analyser les hautes et disparates volumétries de données, les solutions peuvent s'appuyer sur trois types de technologies distinctes : une accélération matérielle à l'aide de mémoires dynamiques DRAM ou Flash, le recours à des bases de données massivement parallèles (Massively Parallel Processing) Hadoop ou encore les solutions utilisant des formats de bases de données non relationnelles basées sur NoSQL (MongoDB, Cassandra, Redis) 3. Le Big Data en 4 V Le Big Data couvre quatre dimensions : volume, vélocité, variété et véracité. Volume : les entreprises sont submergées de volumes de données croissants de tous types, qui se comptent en téraoctets, voire en pétaoctets (exemples : Transformer les 12 téraoctets de Tweets créés quotidiennement en analyse poussée des opinions sur un produit. Convertir les 350 milliards de relevés annuels de compteurs afin de mieux prédire la consommation d'énergie) Vélocité : parfois, 2 minutes c'est trop. Pour les processus chronosensibles tels que la détection de fraudes, le Big Data doit être utilisé au fil de l'eau, à mesure que les données sont collectées par votre entreprise afin d'en tirer le maximum de valeur (Exemples : Scruter 5 millions d'événements commerciaux par jour afin d'identifier les fraudes potentielles. Analyser en temps réel 500 millions d’enregistrements détaillés d’appels quotidiens) Variété : le Big Data se présente sous la forme de données structurées ou non structurées (texte, données de capteurs, son, vidéo, données sur le parcours, fichiers journaux, etc.). De nouvelles connaissances sont issues de l’analyse collective de ces données. (Exemples : Utiliser les centaines de flux vidéo des caméras de surveillance pour contrôler les points d'intérêt. Tirer parti de la croissance de 80 % du volume de données image, vidéo et documentaires pour améliorer la satisfaction client) Véracité : renvoie au degré de fiabilité et de confiance que l’on peut accorder aux données utilisées au moment d’une prise de décision. Bien que la véracité des données ait toujours été un facteur important en gestion des données, elle prend toutefois une importance plus grande dans le contexte du Big Data. Il devient essentiel, par exemple, de s’assurer que les données provenant notamment de l’extérieur de l’organisation – comme celles provenant des réseaux sociaux – sont véritables et ne sont pas faussement mises hors contexte. Octets 1 Mégaoctet = 106 octets 1 Gigaoctet = 109 octets 1 Téraoctet = 1012 octets 1 Pétaoctet = 1015 octets 1 Exaoctet = 1018 octets 1 Zettaoctet = 1021 octets ____________________________ Genèse Le terme Big Data a été évoqué la première fois par le cabinet d'études Gartner en 2008 mais des traces de la genèse de ce terme remontent à 2001 et ont été évoquées par le cabinet Meta Group racheté en 2005 par le Gartner. ____________________________ Applications Sciences : séquençage de l’ADN Marketing : affinage des offres, meilleur ciblage pour campagnes d’information Transports : amélioration des horaires et des trajets Education en ligne : activité des élèves, façon de suivre les programmes, pour amélioration des modes d’enseignement. Services Publics : lutte anti- fraude, prédictions géographiques Développement durable : paramétrage d’éoliennes après collecte de données météorologiques Santé : Prédiction et prévention des pandémies ____________________________ Site web utile Le portail du Big Data Guide du Big Data ____________________________ Contacts utiles GFII - Groupement Francais de l'Industrie de l'Information AFDEL - Association des Editeurs de Logiciels et de Solutions Internet) Votre CCI