Introduction
Pour qu’un système
d’information fonctionne
correctement, il faudra
qu’il se base sur des
informations solides et
des données fiables,
utiles et vraies .
Durant ces dernières
années , un nouveau
concept émerge en
assistance à la notion de
système d’information
efficace servant à l’aide
à la décision à tous les
niveaux : stratégiques
tactique et opérationnel.
3
Notion Big Data
un concept s’étant popularisé dès 2012 pour traduire le fait que
les entreprises sont confrontées à des volumes de données (data)
à traiter de plus en plus considérables et présentant de forts
enjeux.
De façon très simplifiée, on peut résumer la problématique
technique du big data à devoir gérer d’énormes volumes de
données le plus souvent en temps réel.
La finalité étant de créer de la valeur .
6
Simplifier la
production
des
informations
structurées et
porteuses du
sens
Créer du sens
et des
connaissances
à partir des
données non
enrichies et
non
structurées
Analyser des
tendances sur
la durée
Permettre la
création de
modèle sur
des données
ambiantes
Analyse
prédictive
10
Perspective big data en matière de
gouvernance publique
Une politique publique efficace nécessite la connaissance des
besoins exacts d’une population.
L’analyse du big data pourrait ainsi devenir pour les
administrations un moyen inégalable:
d’obtenir une image fidèle des réalités de la société,
d’anticiper ses évolutions et d’identifier les conséquences et les
risques inhérents à chacune des politiques publiques dont elles
auraient la charge.
De simplification des relations entre les citoyens et leurs
administrations 15
Applications pratiques de traitement big data
au secteur Public
Modélisation des
déplacements pour
adapter les
infrastructures de
transports
optimisation via les
« smart grids » l’offre et
la demande d’énergie ou
la consommation en
eau.
combiner plus
efficacement les offres
avec les qualifications
des demandeurs
d’emploi.
La généralisation des
procédures
administratives en ligne
16
Risques Big Data secteur publics
Une exploitation frauduleuse de ces informations
par des acteurs privés (une sécurisation suffisante
des systèmes d’information publics )
Une utilisation légale, mais liberticide, du big data
par la puissance publique (une législation solide à
même de protéger les données à caractère
personnel et d’encadrer l’utilisation des
informations recueillies par les administrations)
17
19
Salle des catalogues bibliothèque du Congrès,
début du 20e siècle Centre de données de Google, début 21e siècle
20
L’Analytics s’est étendu, des simples données d’entreprise au Big
Data
en provenance de caméras de surveillancede transactions commerciales par seconde
Analyse de sentiment et d’opinions Surveillance / Analyse comportementsIdentification de fraudes potentielles
Volume Vitesse Varieté
5 100’sde Tweets créés quotidiennement
12 terabytes
de flux
vidéomillions
de dossiers de prêts par jour
Prévention de l’attrition client
d’enregistrement d’appels chaque jour sont des images, des vidéos, des documents,
courriers, e-mail, …
Amélioration de la satisfaction client
180 Millions 500 millions 80%
des données créées
Découvrir les risques cachés
DIVERSITE ET VOLUME DES SOURCES DE DONNEES
21
VOLUMES : Chaque jour, 2,5 trillions d’octets de données sont générés. 90% des données créées
dans le monde l’ont été au cours des 2 dernières années. Prévision d’une croissance de 800%
des quantités de données à traiter d’ici à 5 ans.
DIVERSITE DES SOURCES : capteurs, medias sociaux, images, videos, achats en lignes, signaux
GPS …
L’ENJEU DE BIG DATA
Il faut exploiter les Big Data non pour automatiser le passé, Mais pour faire:
– Plus (productivité, pénétration…)
– Mieux (compétitivité, pertinence…)
– Autre chose (nouveaux marchés, innovations, partenariats, offres contextuelles…)
– Différemment
Les techniques du Big Data facilitent des interactions
– Moins chères
– Plus rapides et Plus efficaces
– Moins contraintes par le temps et les distances
– D’où de nouveaux modèles économiques
22
EXEMPLE D’APPLICATION : LE BINGO ONLINE TEXT ANALYTICS EN ACTION
23
DICTIONNAIRES : mots positifs/négatifs, mots indiquant des sentiments, émoticônes
Paquets de négations et autres cas particuliers
-« i nerver win ! » vs « I win again »
-« bloody game ! » vs « bloody awesome game »
Positionner un poids sur chaque mot
Agrégation, afin de donner un score global sur le sentiment du message.
Attribuer une note globale sur l’ambiance générale basée sur les dictionnaires
LES NOUVEAUX ACTEURS UTILISENT MASSIVEMENT LES BIG DATA
Zynga
– Créateur des jeux sociaux les plus populaires 10% de la population Internet mondiale a joue
un jeu Zynga (230M joueurs / mois) Déplace 1Pb de données chaque jour Ajoute 1000 serveurs
par semaine
Facebook
– 500M d’utilisateurs
– 3.5B morceaux de contenu / semaine
– 1.2M photos / second (lues)
Twitter
– 70M Tweet / day = 800 tweets/sec * 200b = 160kb/sec = 9Mb/min = 12Gb/jour de texte 8T de
données / day 6B api calls / day
24
L’USAGE DE BIG DATA
◦ Le Big Data, en traitant une multiplicité de données issues de sources variées et selon un
quasi-temps réel, a ouvert la voie à d’autres utilisations de la donnée et à de nouvelles
méthodes d’analyse :
En marketing
Dans le domaine du pilotage de l’entreprise
Pour la Recherche
Dans le domaine de l’Information
25
En marketing
Le Big Data permet en effet aux professionnels du secteur de connaître leur client « à 360° »,
c’est-à-dire à la fois par son parcours internet mais également par ses achats en magasin ou ses
préférences affichées sur les réseaux sociaux. Anticiper les besoins de celui-ci et cibler des offres
personnalisées est devenu le credo du marketing « data-driven », qui met en avant des
techniques inédites : le Real-Time Bidding pour l’achat d’espaces en temps réel, le Retargeting
pour le ciblage personnalisé ou encore l’analyse de sentiment pour la détection de
comportements sur les réseaux sociaux.
Le marketing se fait de plus en plus prédictif avec le Big Data, et l’on assiste à une éclosion de
nouveaux modèles statistiques davantage inductifs.
26
Dans le domaine du pilotage de l’entreprise
27
Le Big Data laisse entrevoir une optimisation complète des processus et des ressources métiers.
Il réduit le temps de réaction face à des erreurs ou des pannes et permet d’ajuster en permanence les
équilibres offre-demande et temps-ressource. C’est une promesse importante dans des secteurs
comme ceux de l’énergie ou des transports qui sont constamment portés par la logique de flux ; outre
une réduction importante des coûts, le Big Data permet ici d’identifier au plus près les moteurs de
l’activité, ce qui n’était pas possible avec les indicateurs traditionnels, soumis à des délais de latence
bien plus importants.
La Recherche
En autorisant le traitement de multitudes de données, le Big Data permet à la
science de réaliser des avancées importantes, lorsqu’il s’agit d’explorer l’infiniment petit
(ex : exploration géologique), de croiser des données complexes (ex : imagerie) ou
d’effectuer des simulations (ex : domaine spatial). C’est d’ailleurs en génétique que le
Big Data a fait ses premières armes car ce secteur réclamait une approche à la fois
quantitative et qualitative avancée.
28
Dans le domaine de l’Information
Le traitement des Big Data a profondément modifié la donnée : il est désormais
possible d’accéder à un croisement d’informations très disparates, issues de sources
jusque-là négligées. L’instantanéité des réseaux sociaux est à ce titre une innovation de
taille : l’analyse des tweets est devenue une source de renseignements courante pour
comprendre les comportements ou les goûts de populations segmentées. De plus, au-
delà de la compréhension de phénomènes,la data s’avère un outil de communication
efficace pour faire passer des messages factuels aux publics : c’est tout le rôle du data
journalisme, qui vise à mettre en lumière des événements complexes au travers de la
représentation de données multiples.
29
On résume parfois la problématique du Big Data aux 3 V pour Volume, Vitesse et Variété ou 5V (en ajoutant Véracité et Valeur).– volume car les masses de données à traiter sont sans cesse croissantes.– vitesse car la collecte, l’analyse et l’exploitation des données doit de plus en plus souvent se faire en temps réel.– variété car les données sont de formes très variées et pas toujours structurées (données relatives aux réseaux sociaux par exemple).Pour plus de détails, voir les 5V big data.
Utilisation d’une manière efficace et judicieuse
en mettant en commun pour l’ensemble des institutions publiques les informations dont elles disposent sur leurs administrés,