SlideShare une entreprise Scribd logo
1  sur  34
Conférence thématique
DOCUMATION MIS 2015 – DATA INTELLIGENCE FORUM
Jeudi 19 mars 2015
Valeur et Véracité de la donnée :
Enjeux pour l’entreprise
Défis pour le Data Scientist
Bruno Teboul & Thierry Berthier
Bruno Teboul est Directeur
Scientifique, R&D et Innovation du groupe
Keyrus, membre de la Gouvernance de la
Chaire Data Scientist de l’Ecole
Polytechnique et enseignant-chercheur à
l'Université Paris-Dauphine.
Thierry Berthier est Maitre de
conférences en mathématiques à
l'Université de Limoges. Il effectue ses
recherches au sein de la Chaire de
Cybersécurité & Cyberdéfense, Saint-Cyr -
Thales – Sogeti, est membre de l'Institut
Fredrik Bull et du comité d'études de la
Défense Nationale. Il est cofondateur du
site d’analyse stratégique EchoRadar et
de Cyberland.
Selon Gartner et IBM, les données
massives sont caractérisées par 6 V :
- Volume
- Variété
- Vélocité
- Visibilité
- Valeur
- Véracité
Nous allons évoquer la Valeur et la
Véracité d’une donnée
Premiers constats…
Les 4 V (Volume, Variété, Vélocité, Visibilité) sont
assez facilement mesurables.
Mesurer précisément la valeur et la véracité d’une
donnée, c’est en général un problème difficile.
Valeur et Véracité de la donnée dépendent
fortement du contexte et de l’instant d’évaluation.
La Valeur et la Véracité d’une donnée sont parfois
indépendantes.
Premiers constats…
Notre production atteindra les 40 Zo de données en
2020 ( 1 Zo = 10 puissance 21 octets ).
Nos projections algorithmiques volontaires ou
systémiques contribuent au déluge des données.
Elles témoignent de la fusion de l’espace physique
avec le cyberespace. L’information ubiquitaire
renforce cette tendance.
Les projections algorithmiques
des utilisateurs ont une valeur
pour le data scientist.
Premiers constats…
La fragmentation des projections algorithmiques
fragmente aussi leurs valeurs.
1 – Approche systémique de la valeur
d’impact d’une donnée
Un zeste de formalisme pour fixer les choses …
Définition d’une donnée : C’est un ensemble fini de mots binaires.
Un mot binaire est une suite finie formée de 0 et de 1. On note
désormais D une donnée définie par :
D = {M1,M2,......,Mn} où les Mj sont des mots binaires avec Mj =
b1b2.....bk et bi = 0 ou 1.
Définition d’un contexte : On parlera de contexte C pour désigner
un ensemble d'infrastructures humaines, physiques et
algorithmiques liées entre elles par des relations et des transferts
d'information assurant une cohérence systémique globale. Un
contexte est constitué de groupements humains et de systèmes
physiques et algorithmiques assurant son interconnexion.
Un zeste de formalisme pour fixer les choses …
Fixons maintenant la notion de valeur fonctionnelle
instantanée d’une donnée D sur un contexte C
selon un algorithme A :
Val t ( D / C, A)
Si D est une donnée accessible au contexte C, et A un algorithme
interprétant D, exécutable sur un système de calcul S du contexte, on
notera alors Val t ( D / C, A) la valeur à l'instant t de D relativement au
contexte C et à l'algorithme A exploitant D sur C.
Val t ( D / C, A) est une valeur numérique instantanée, positive ou
nulle dépendant du contexte et de l'algorithme d'exploitation.
Un premier exemple illustrant la Valeur avec Véracité
La vente de données clients par Microsoft au FBI :
Le 21 janvier 2014, la SEA (Syrian Electronic Army) publie
sur son site web la copie de nombreuses factures Microsoft
envoyées au FBI ainsi que des listings de données
personnelles vendues. Celles-ci concernent les utilisateurs
d'Outlook ou de Skype et contiennent l'identité, l'identifiant,
l'adresse IP, le nom de compte en hotmail.com et le mot de
passe.
D'après les factures publiées par la SEA, le coût unitaire d'un
jeu de données concernant un utilisateur varie entre 50
dollars et 200 dollars en fonction du contenu transmis.
La véracité des données clients vendues était certifiée par Microsoft.
Un premier exemple illustrant la Valeur avec Véracité
La vente de données clients par Microsoft au FBI :
La valeur instantanée d'une
donnée client D vendue par
Microsoft au FBI vérifie :
Val t ( D / C, A) = 200 USD pour t >
0 sur le contexte de production
Microsoft.
A est un algorithme de
structuration (ou de mise au
format) et de lecture de la
donnée.
V0 est le coût de structuration, de
mise au format et de stockage de
la donnée pour Microsoft.
V1 désigne le prix de vente
unitaire par Microsoft au FBI.
V∞ est la valeur résiduelle de la
donnée.
Un second exemple illustrant la Valeur sans la Véracité
L’histoire du faux tweet de la SEA qui valait 136 milliards
Le 24 avril 2013, la SEA attaque le compte Twitter de l'agence Associated
Press (AP). Elle en prend momentanément le contrôle et publie à 13h07 le
message suivant : « Breaking : Two Explosions in the White House and
Barack Obama is injured »
Les 1.9 millions d'abonnés au compte Twitter d'Associated Press reçoivent
le faux message posté par la SEA en le considérant comme authentique. La
réaction des marchés financiers est presque immédiate : entre 13h08 et
13h10, l'indice principal de Wallstreet, le Dow Jones (DJIA) perd 145 points
soit l'équivalent de 136 milliards de dollars (105 milliards d'euros) en
raison notamment du trading haute fréquence (HFT) qui a interprété et
« réagi » au faux tweet. Les actions Microsoft, Apple, Mobil perdent plus
de 1% presque instantanément. Quelques minutes plus tard, Associated
Press reprend le contrôle de son compte et publie immédiatement un
tweet annonçant que le message précédent était un faux et qu'il résultait
du piratage de son compte.
Un second exemple illustrant la Valeur sans la Véracité
Le faux tweet de la SEA qui valait 136 milliards de dollars
Un second exemple illustrant la Valeur sans la Véracité
Un second exemple illustrant la Valeur sans la Véracité
A l'instant t = 0, le tweet de la SEA est
publié sur le compte AP et reste
accessible et crédible durant quatre
minutes. A l'instant t1 , AP et la Maison
Blanche publient un démenti qui
annule immédiatement la valeur
instantanée de la donnée D.
V0 désigne la valeur de production et
d'insertion de la donnée sur le compte
d'AP. Cette valeur tient compte du coût
global du piratage du compte par la
SEA.
V1 est la valeur maximale de la donnée
avant la reprise de contrôle du compte
AP. Elle peut prendre en compte la
valeur d'impact du faux tweet sur les
marchés.
Un second exemple illustrant la Valeur sans la Véracité
Ce que nous disent ces exemples :
La valeur d’impact d’une donnée peut être indépendante
de sa Véracité.
C’est bien la confiance qu’on accorde à une donnée qui lui
permet de fonder sa valeur.
Interroger la donnée, c’est d’abord évaluer la confiance
qu’elle suscite, mesurer sa véracité puis sa valeur sur un
contexte.
2 – Approche de la Valeur par le gain
dans un contexte Big Data
D’où viennent les données massives ?
Définir la valeur des données massives par le gain
L'idée : Pour un jeu de données massives D, on mesure le gain obtenu sur
une ligne de contrainte L après exploitation de D via un système de calcul S.
Une ligne de contrainte L pour une entreprise, une institution ou un
laboratoire peut être temporelle (le temps nécessaire à un processus de
production), spatiale (une distance, une surface à prospecter). Elle peut
concerner un effectif (le nombre d'ingénieurs sur un projet) ou un coût de
développement. Elle est mesurée par CL(t).
Le gain obtenu sur la ligne de contrainte L après exploitation de D par S
s'écrit :
GL( D , S ) = CL ( après exploitation de D ) – CL ( avant exploitation de D )
La valeur du jeu de données D sur la ligne de contrainte L est définie par
le maximum des gains obtenus lorsque l'on fait varier le système de calcul
S (algorithmes et machines) :
VL( D ) = Max S ( GL( D , S ) )
L’exemple des éoliennes VESTAS
L’exemple des éoliennes VESTAS
L‘analyse Big Data a permis à Vestas d’optimiser son processus
d’identification des meilleurs emplacements pour implanter ses éoliennes
. L’analyse des données a permis d’augmenter la production d’électricité
et de réduire les coûts énergétiques.
Grâce aux données massives, Vestas est en mesure de décrire avec
précision le comportement du vent et de fournir une analyse de
rentabilisation solide à ses clients.
Le système Big Data VESTAS (IBM) induit une réduction de 97 % du temps
de réponse sur les prévisions éoliennes passant de plusieurs semaines à
seulement quelques heures aujourd’hui. Il réduit le coût de production par
kilowattheure pour les clients et réduit le coût et l’encombrement
informatique avec une diminution de 40 % de la consommation
énergétique.
La base de données « Vestas-Eoliennes » atteint les 24 péta-octets .
L’exemple des éoliennes VESTAS
Le logiciel IBM InfoSphere BigInsights fonctionnant sur un système IBM
System x iDataPlex assiste VESTAS dans sa gestion des données
météorologiques et de localisation. Ainsi, l’entreprise a diminué la
résolution de base de ses grilles de données éoliennes qui passent d’une
aire de 27 x 27 kilomètres à 3 x 3 kilomètres après exploitation du jeu de
données. Ceci représente une réduction de 90% de l’incertitude. Ce gain
donne aux dirigeants un aperçu immédiat des sites potentiels
d’implantation d’éoliennes.
La ligne de contrainte L est la résolution de base des grilles de données
(une surface) et le gain après exploitation du jeu de données météo
s’élève à :
GL( D , S ) = + 90 % et VL( D ) > 90 %
L’exemple du Zoo de Cincinnati - Ohio
L’exemple du Zoo de Cincinnati - Ohio
Le zoo de Cincinnati a mis en place une structure d'analyse Big Data
des données issues de capteurs et des données clients. L'image
globale en temps réel de la clientèle et son interprétation ont
permis d'augmenter de 25 % les dépenses des visiteurs, soit 350 000
dollars de recettes supplémentaires par an. La compréhension fine
des données clients a été appliquée à l'optimisation des ressources
humaines et a libéré du temps pour le personnel.
La ligne de contrainte L est la dépense annuelle des visiteurs et le gain
après exploitation de l’ensemble annuel des données client s’élève à :
GL( D , S ) = + 25 % et VL( D ) > 25 %
3 – Véracité de la donnée
La tentation des fausses données pour se protéger…
Selon le rapport Symantec 2015 sur la protection des données
privées :
57 % des européens se déclarent inquiets quant à la sécurité de leurs
informations personnelles.
81 % estiment que leurs données ont de la valeur (>1000 euros).
31 % n’hésitent plus à communiquer de fausses données
pour protéger leurs données personnelles.
Des applications pour créer de fausses données
Tromper les applications Android avec de fausses données !
Xprivacy est un outil qui permet de nourrir les applications Android avec de
faux contacts, de fausses coordonnées géographiques, de faux dictionnaires
user, de faux presses papiers, de faux historiques d’appels, de faux SMS…
L’objectif étant de créer de fausses données pour mieux protéger sa vie
privée.
Des applications pour créer de fausses données
Le site FakeNameGenerator permet de construire des bases de données
sous divers formats (MS SQL, MySQL,IBM DB2, Oracle,…) de 50 000
identités cohérentes incluant l’identité, l’âge, l’adresse, le métier, etc…
Données fictives et hacking
Dans une opération de hacking, la phase d’ingénierie sociale s’appuie de plus
en plus souvent sur la création d’un ensemble de données fictives.
L’objectif est d’installer la confiance auprès des cibles et de les pousser à
exécuter un code viral (malware,spyware, rançonware,…).
Un exemple emblématique : l’Opération Newscaster - NewsOnLine
L’OP Newscaster
Newscaster est une opération de cyberespionnage attribuée à l’Iran
qui s’inscrit dans le durée (2012-2014) ciblant plus de 2000 personnes
(USA, Europe, Israël) , des officiers supérieurs de l’US Army, des
ingénieurs de l’industrie de l’armement, des membres du congrès, etc.
C’est une APT longue, structurée et furtive. La première phase de
l’opération s’est appuyée sur la construction d’un faux site web
d’information NewsOnLine, hébergé sur des serveurs US et supervisé
par une rédaction américaine fictive. Des contacts ont été noués avec
les futures cibles pour qu’elles participent à la rédaction d’articles du
site. Un noyau de profils fictifs américains (sur Facebook, Twitter,
LinkedIn) a été construit de toute pièce pour échanger avec les cibles.
La confiance s’installe durant près d’un an puis, les attaquants
profitent des échanges de fichiers d’articles pour injecter des spyware
sur les machines des cibles et collecter des données sensibles ou
classifiées.
L’OP Newscaster
Mesurer la confiance en une donnée ?
Pour une donnée D, nous évaluons en général la probabilité :
P ( D est vraie / Historique et réputation )
L’historique du contexte et la réputation de l’émetteur de la donnée.
Nous devrions plutôt évaluer :
P ( D est vraie / Historique, réputation et P(Hacking(D)) > 0 )
C’est cette probabilité qui permet d’exprimer la confiance que l’on
porte en une donnée.
Les futurs défis du Data Scientist
- Il faut évoluer vers la certification des données.
- Certifier une donnée, c’est augmenter sa valeur !
- L’analyse Big Data doit s’appuyer sur des données globalement
certifiées.
- Nous devons pouvoir détecter les corpus de données fictives pour
anticiper le hacking et les cybermanipulations.
- Il faut pour cela former des Data Scientists qui possèdent une vraie
culture de cybersécurité et croiser les compétences de sorte que les
deux derniers V (Volume et Véracité) occupent toute leur place.
- Il faut construire des infrastructures algorithmiques dans le Big
Data qui soient résilientes, antifragiles, capables d’évaluer en temps
réel la véracité et la valeur des données en streaming.
Bruno TEBOUL - KEYRUS
www.keyrus.fr/
https://twitter.com/brunoteboul
Thierry BERTHIER - ECHORADAR & CYBERLAND
http://cyberland.centerblog.net/
http://echoradar.eu/
https://twitter.com/echo_radar

Contenu connexe

Similaire à Conférence Data Intelligence Forum - Documation MIS 2015

Qu'est ce que le big data - Présentation AIMM 30 octobre
Qu'est ce que le big data - Présentation AIMM 30 octobreQu'est ce que le big data - Présentation AIMM 30 octobre
Qu'est ce que le big data - Présentation AIMM 30 octobreSimon Boucher
 
Baina bigdata le futur eldorado
Baina bigdata le futur eldoradoBaina bigdata le futur eldorado
Baina bigdata le futur eldoradoKarim Baïna
 
Colloque IOT Bordeaux Pessac 16 - 17 mars 2017
Colloque IOT Bordeaux Pessac 16 - 17 mars 2017Colloque IOT Bordeaux Pessac 16 - 17 mars 2017
Colloque IOT Bordeaux Pessac 16 - 17 mars 2017OPcyberland
 
Bluemix Paris Meetup : Big data et Analytics - 15 avril 2015
Bluemix Paris Meetup :  Big data et Analytics - 15 avril 2015Bluemix Paris Meetup :  Big data et Analytics - 15 avril 2015
Bluemix Paris Meetup : Big data et Analytics - 15 avril 2015IBM France Lab
 
Colloque "La donnée n'est pas donnée - Big Data " Ecole Militaire
Colloque "La donnée n'est pas donnée - Big Data " Ecole MilitaireColloque "La donnée n'est pas donnée - Big Data " Ecole Militaire
Colloque "La donnée n'est pas donnée - Big Data " Ecole MilitaireOPcyberland
 
Big data telecom-evolution
Big data telecom-evolutionBig data telecom-evolution
Big data telecom-evolutionTélécom Paris
 
La Data Virtualization par Orano : cas d'usage à la Hague et démo de Denodo
La Data Virtualization par Orano : cas d'usage à la Hague et démo de DenodoLa Data Virtualization par Orano : cas d'usage à la Hague et démo de Denodo
La Data Virtualization par Orano : cas d'usage à la Hague et démo de DenodoDenodo
 
Blockchain : révolution ou évolution ?
Blockchain : révolution ou évolution ?Blockchain : révolution ou évolution ?
Blockchain : révolution ou évolution ?Nicolas Marchand
 
Le Cloud Computing pour les nuls
Le Cloud Computing pour les nulsLe Cloud Computing pour les nuls
Le Cloud Computing pour les nulsOlivier DUPONT
 
Cloud Europe - Pourquoi et comment les individus et les entreprises doivent p...
Cloud Europe - Pourquoi et comment les individus et les entreprises doivent p...Cloud Europe - Pourquoi et comment les individus et les entreprises doivent p...
Cloud Europe - Pourquoi et comment les individus et les entreprises doivent p...Tristan Nitot
 
dt_medecine_personalis.pptx
dt_medecine_personalis.pptxdt_medecine_personalis.pptx
dt_medecine_personalis.pptxnour91922
 
Petit-déjeuner OCTO Technology : Calculez vos indicateurs en temps réel ave...
Petit-déjeuner OCTO Technology :  Calculez vos indicateurs en temps réel ave...Petit-déjeuner OCTO Technology :  Calculez vos indicateurs en temps réel ave...
Petit-déjeuner OCTO Technology : Calculez vos indicateurs en temps réel ave...OCTO Technology
 
Cloud computing
Cloud computingCloud computing
Cloud computingvcoulombe
 
La Banque de demain : Chapitre 4
La Banque de demain : Chapitre 4 La Banque de demain : Chapitre 4
La Banque de demain : Chapitre 4 OCTO Technology
 
Conference fep cybersecurite 24 janvier 2018
Conference fep cybersecurite   24 janvier 2018Conference fep cybersecurite   24 janvier 2018
Conference fep cybersecurite 24 janvier 2018OPcyberland
 
Conference fep cybersecurite 24 janvier 2018
Conference fep cybersecurite   24 janvier 2018Conference fep cybersecurite   24 janvier 2018
Conference fep cybersecurite 24 janvier 2018OPcyberland
 
EXTRA-Présentation generale 180923.pptx
EXTRA-Présentation generale 180923.pptxEXTRA-Présentation generale 180923.pptx
EXTRA-Présentation generale 180923.pptxInfopole1
 

Similaire à Conférence Data Intelligence Forum - Documation MIS 2015 (20)

Qu'est ce que le big data - Présentation AIMM 30 octobre
Qu'est ce que le big data - Présentation AIMM 30 octobreQu'est ce que le big data - Présentation AIMM 30 octobre
Qu'est ce que le big data - Présentation AIMM 30 octobre
 
Analyse spatiale en Big data
Analyse spatiale en Big dataAnalyse spatiale en Big data
Analyse spatiale en Big data
 
Baina bigdata le futur eldorado
Baina bigdata le futur eldoradoBaina bigdata le futur eldorado
Baina bigdata le futur eldorado
 
Introduction
IntroductionIntroduction
Introduction
 
Colloque IOT Bordeaux Pessac 16 - 17 mars 2017
Colloque IOT Bordeaux Pessac 16 - 17 mars 2017Colloque IOT Bordeaux Pessac 16 - 17 mars 2017
Colloque IOT Bordeaux Pessac 16 - 17 mars 2017
 
Bluemix Paris Meetup : Big data et Analytics - 15 avril 2015
Bluemix Paris Meetup :  Big data et Analytics - 15 avril 2015Bluemix Paris Meetup :  Big data et Analytics - 15 avril 2015
Bluemix Paris Meetup : Big data et Analytics - 15 avril 2015
 
Colloque "La donnée n'est pas donnée - Big Data " Ecole Militaire
Colloque "La donnée n'est pas donnée - Big Data " Ecole MilitaireColloque "La donnée n'est pas donnée - Big Data " Ecole Militaire
Colloque "La donnée n'est pas donnée - Big Data " Ecole Militaire
 
Big data telecom-evolution
Big data telecom-evolutionBig data telecom-evolution
Big data telecom-evolution
 
La Data Virtualization par Orano : cas d'usage à la Hague et démo de Denodo
La Data Virtualization par Orano : cas d'usage à la Hague et démo de DenodoLa Data Virtualization par Orano : cas d'usage à la Hague et démo de Denodo
La Data Virtualization par Orano : cas d'usage à la Hague et démo de Denodo
 
Cergeco informatique de gestion
Cergeco informatique de gestionCergeco informatique de gestion
Cergeco informatique de gestion
 
Blockchain : révolution ou évolution ?
Blockchain : révolution ou évolution ?Blockchain : révolution ou évolution ?
Blockchain : révolution ou évolution ?
 
Le Cloud Computing pour les nuls
Le Cloud Computing pour les nulsLe Cloud Computing pour les nuls
Le Cloud Computing pour les nuls
 
Cloud Europe - Pourquoi et comment les individus et les entreprises doivent p...
Cloud Europe - Pourquoi et comment les individus et les entreprises doivent p...Cloud Europe - Pourquoi et comment les individus et les entreprises doivent p...
Cloud Europe - Pourquoi et comment les individus et les entreprises doivent p...
 
dt_medecine_personalis.pptx
dt_medecine_personalis.pptxdt_medecine_personalis.pptx
dt_medecine_personalis.pptx
 
Petit-déjeuner OCTO Technology : Calculez vos indicateurs en temps réel ave...
Petit-déjeuner OCTO Technology :  Calculez vos indicateurs en temps réel ave...Petit-déjeuner OCTO Technology :  Calculez vos indicateurs en temps réel ave...
Petit-déjeuner OCTO Technology : Calculez vos indicateurs en temps réel ave...
 
Cloud computing
Cloud computingCloud computing
Cloud computing
 
La Banque de demain : Chapitre 4
La Banque de demain : Chapitre 4 La Banque de demain : Chapitre 4
La Banque de demain : Chapitre 4
 
Conference fep cybersecurite 24 janvier 2018
Conference fep cybersecurite   24 janvier 2018Conference fep cybersecurite   24 janvier 2018
Conference fep cybersecurite 24 janvier 2018
 
Conference fep cybersecurite 24 janvier 2018
Conference fep cybersecurite   24 janvier 2018Conference fep cybersecurite   24 janvier 2018
Conference fep cybersecurite 24 janvier 2018
 
EXTRA-Présentation generale 180923.pptx
EXTRA-Présentation generale 180923.pptxEXTRA-Présentation generale 180923.pptx
EXTRA-Présentation generale 180923.pptx
 

Plus de OPcyberland

Conference robots kedge 26 mars 2021
Conference robots kedge   26 mars 2021Conference robots kedge   26 mars 2021
Conference robots kedge 26 mars 2021OPcyberland
 
Panorama Cybersécurité 2020
Panorama Cybersécurité 2020Panorama Cybersécurité 2020
Panorama Cybersécurité 2020OPcyberland
 
Synthese ianp2019
Synthese ianp2019Synthese ianp2019
Synthese ianp2019OPcyberland
 
ID FORUM - FIC2020
ID FORUM - FIC2020ID FORUM - FIC2020
ID FORUM - FIC2020OPcyberland
 
Dut informatique limoges
Dut informatique limogesDut informatique limoges
Dut informatique limogesOPcyberland
 
Nouveaux risques cyber - 4 décembre 2019
Nouveaux risques cyber - 4 décembre 2019Nouveaux risques cyber - 4 décembre 2019
Nouveaux risques cyber - 4 décembre 2019OPcyberland
 
Guide survie dans la jungle numérique pour élèves de 3eme
Guide survie dans la jungle numérique pour élèves de 3emeGuide survie dans la jungle numérique pour élèves de 3eme
Guide survie dans la jungle numérique pour élèves de 3emeOPcyberland
 
Congres cybermed nice 2019
Congres cybermed nice 2019Congres cybermed nice 2019
Congres cybermed nice 2019OPcyberland
 
Conférence NAIA Bordeaux
Conférence NAIA Bordeaux Conférence NAIA Bordeaux
Conférence NAIA Bordeaux OPcyberland
 
Ihedn menace cyber
Ihedn menace cyberIhedn menace cyber
Ihedn menace cyberOPcyberland
 
Colloque IA DEFENSE - CREC SAINT-CYR - 30 janvier 2019
Colloque IA DEFENSE - CREC SAINT-CYR - 30 janvier 2019Colloque IA DEFENSE - CREC SAINT-CYR - 30 janvier 2019
Colloque IA DEFENSE - CREC SAINT-CYR - 30 janvier 2019OPcyberland
 
MasterClass Intelligence Artificielle et Sécurité FIC 2019
MasterClass Intelligence Artificielle et Sécurité FIC 2019MasterClass Intelligence Artificielle et Sécurité FIC 2019
MasterClass Intelligence Artificielle et Sécurité FIC 2019OPcyberland
 
ifda financial attacks - Conférence ECW 2018 Rennes
   ifda financial attacks - Conférence ECW 2018 Rennes   ifda financial attacks - Conférence ECW 2018 Rennes
ifda financial attacks - Conférence ECW 2018 RennesOPcyberland
 
Aristote IA et sécurité numérique - 15 novembre 2018 - Ecole Polytechnique
Aristote   IA et sécurité numérique - 15 novembre 2018 - Ecole PolytechniqueAristote   IA et sécurité numérique - 15 novembre 2018 - Ecole Polytechnique
Aristote IA et sécurité numérique - 15 novembre 2018 - Ecole PolytechniqueOPcyberland
 
Keynote thierry berthier cybersecurite NOVAQ 2018
Keynote thierry berthier cybersecurite NOVAQ 2018Keynote thierry berthier cybersecurite NOVAQ 2018
Keynote thierry berthier cybersecurite NOVAQ 2018OPcyberland
 
Intelligence Artificielle - Comment change-t-elle le mode ? JBU2018
Intelligence Artificielle - Comment change-t-elle le mode ? JBU2018Intelligence Artificielle - Comment change-t-elle le mode ? JBU2018
Intelligence Artificielle - Comment change-t-elle le mode ? JBU2018OPcyberland
 
Conférence Sécurité et Intelligence Artificielle - INHESJ 2018
Conférence Sécurité et Intelligence Artificielle - INHESJ 2018Conférence Sécurité et Intelligence Artificielle - INHESJ 2018
Conférence Sécurité et Intelligence Artificielle - INHESJ 2018OPcyberland
 

Plus de OPcyberland (20)

Conference robots kedge 26 mars 2021
Conference robots kedge   26 mars 2021Conference robots kedge   26 mars 2021
Conference robots kedge 26 mars 2021
 
Panorama Cybersécurité 2020
Panorama Cybersécurité 2020Panorama Cybersécurité 2020
Panorama Cybersécurité 2020
 
Synthese ianp2019
Synthese ianp2019Synthese ianp2019
Synthese ianp2019
 
Ianp 2019
Ianp 2019Ianp 2019
Ianp 2019
 
ID FORUM - FIC2020
ID FORUM - FIC2020ID FORUM - FIC2020
ID FORUM - FIC2020
 
Cybermed ia2020
Cybermed ia2020Cybermed ia2020
Cybermed ia2020
 
Dut informatique limoges
Dut informatique limogesDut informatique limoges
Dut informatique limoges
 
Nouveaux risques cyber - 4 décembre 2019
Nouveaux risques cyber - 4 décembre 2019Nouveaux risques cyber - 4 décembre 2019
Nouveaux risques cyber - 4 décembre 2019
 
Guide survie dans la jungle numérique pour élèves de 3eme
Guide survie dans la jungle numérique pour élèves de 3emeGuide survie dans la jungle numérique pour élèves de 3eme
Guide survie dans la jungle numérique pour élèves de 3eme
 
Congres cybermed nice 2019
Congres cybermed nice 2019Congres cybermed nice 2019
Congres cybermed nice 2019
 
Conférence NAIA Bordeaux
Conférence NAIA Bordeaux Conférence NAIA Bordeaux
Conférence NAIA Bordeaux
 
Ihedn menace cyber
Ihedn menace cyberIhedn menace cyber
Ihedn menace cyber
 
Colloque IA DEFENSE - CREC SAINT-CYR - 30 janvier 2019
Colloque IA DEFENSE - CREC SAINT-CYR - 30 janvier 2019Colloque IA DEFENSE - CREC SAINT-CYR - 30 janvier 2019
Colloque IA DEFENSE - CREC SAINT-CYR - 30 janvier 2019
 
MasterClass Intelligence Artificielle et Sécurité FIC 2019
MasterClass Intelligence Artificielle et Sécurité FIC 2019MasterClass Intelligence Artificielle et Sécurité FIC 2019
MasterClass Intelligence Artificielle et Sécurité FIC 2019
 
ifda financial attacks - Conférence ECW 2018 Rennes
   ifda financial attacks - Conférence ECW 2018 Rennes   ifda financial attacks - Conférence ECW 2018 Rennes
ifda financial attacks - Conférence ECW 2018 Rennes
 
Aristote IA et sécurité numérique - 15 novembre 2018 - Ecole Polytechnique
Aristote   IA et sécurité numérique - 15 novembre 2018 - Ecole PolytechniqueAristote   IA et sécurité numérique - 15 novembre 2018 - Ecole Polytechnique
Aristote IA et sécurité numérique - 15 novembre 2018 - Ecole Polytechnique
 
Keynote thierry berthier cybersecurite NOVAQ 2018
Keynote thierry berthier cybersecurite NOVAQ 2018Keynote thierry berthier cybersecurite NOVAQ 2018
Keynote thierry berthier cybersecurite NOVAQ 2018
 
Cyberstrategia
CyberstrategiaCyberstrategia
Cyberstrategia
 
Intelligence Artificielle - Comment change-t-elle le mode ? JBU2018
Intelligence Artificielle - Comment change-t-elle le mode ? JBU2018Intelligence Artificielle - Comment change-t-elle le mode ? JBU2018
Intelligence Artificielle - Comment change-t-elle le mode ? JBU2018
 
Conférence Sécurité et Intelligence Artificielle - INHESJ 2018
Conférence Sécurité et Intelligence Artificielle - INHESJ 2018Conférence Sécurité et Intelligence Artificielle - INHESJ 2018
Conférence Sécurité et Intelligence Artificielle - INHESJ 2018
 

Conférence Data Intelligence Forum - Documation MIS 2015

  • 1. Conférence thématique DOCUMATION MIS 2015 – DATA INTELLIGENCE FORUM Jeudi 19 mars 2015 Valeur et Véracité de la donnée : Enjeux pour l’entreprise Défis pour le Data Scientist Bruno Teboul & Thierry Berthier
  • 2. Bruno Teboul est Directeur Scientifique, R&D et Innovation du groupe Keyrus, membre de la Gouvernance de la Chaire Data Scientist de l’Ecole Polytechnique et enseignant-chercheur à l'Université Paris-Dauphine. Thierry Berthier est Maitre de conférences en mathématiques à l'Université de Limoges. Il effectue ses recherches au sein de la Chaire de Cybersécurité & Cyberdéfense, Saint-Cyr - Thales – Sogeti, est membre de l'Institut Fredrik Bull et du comité d'études de la Défense Nationale. Il est cofondateur du site d’analyse stratégique EchoRadar et de Cyberland.
  • 3. Selon Gartner et IBM, les données massives sont caractérisées par 6 V : - Volume - Variété - Vélocité - Visibilité - Valeur - Véracité Nous allons évoquer la Valeur et la Véracité d’une donnée
  • 4. Premiers constats… Les 4 V (Volume, Variété, Vélocité, Visibilité) sont assez facilement mesurables. Mesurer précisément la valeur et la véracité d’une donnée, c’est en général un problème difficile. Valeur et Véracité de la donnée dépendent fortement du contexte et de l’instant d’évaluation. La Valeur et la Véracité d’une donnée sont parfois indépendantes.
  • 5. Premiers constats… Notre production atteindra les 40 Zo de données en 2020 ( 1 Zo = 10 puissance 21 octets ). Nos projections algorithmiques volontaires ou systémiques contribuent au déluge des données. Elles témoignent de la fusion de l’espace physique avec le cyberespace. L’information ubiquitaire renforce cette tendance. Les projections algorithmiques des utilisateurs ont une valeur pour le data scientist.
  • 6. Premiers constats… La fragmentation des projections algorithmiques fragmente aussi leurs valeurs.
  • 7. 1 – Approche systémique de la valeur d’impact d’une donnée
  • 8. Un zeste de formalisme pour fixer les choses … Définition d’une donnée : C’est un ensemble fini de mots binaires. Un mot binaire est une suite finie formée de 0 et de 1. On note désormais D une donnée définie par : D = {M1,M2,......,Mn} où les Mj sont des mots binaires avec Mj = b1b2.....bk et bi = 0 ou 1. Définition d’un contexte : On parlera de contexte C pour désigner un ensemble d'infrastructures humaines, physiques et algorithmiques liées entre elles par des relations et des transferts d'information assurant une cohérence systémique globale. Un contexte est constitué de groupements humains et de systèmes physiques et algorithmiques assurant son interconnexion.
  • 9. Un zeste de formalisme pour fixer les choses … Fixons maintenant la notion de valeur fonctionnelle instantanée d’une donnée D sur un contexte C selon un algorithme A : Val t ( D / C, A) Si D est une donnée accessible au contexte C, et A un algorithme interprétant D, exécutable sur un système de calcul S du contexte, on notera alors Val t ( D / C, A) la valeur à l'instant t de D relativement au contexte C et à l'algorithme A exploitant D sur C. Val t ( D / C, A) est une valeur numérique instantanée, positive ou nulle dépendant du contexte et de l'algorithme d'exploitation.
  • 10. Un premier exemple illustrant la Valeur avec Véracité La vente de données clients par Microsoft au FBI : Le 21 janvier 2014, la SEA (Syrian Electronic Army) publie sur son site web la copie de nombreuses factures Microsoft envoyées au FBI ainsi que des listings de données personnelles vendues. Celles-ci concernent les utilisateurs d'Outlook ou de Skype et contiennent l'identité, l'identifiant, l'adresse IP, le nom de compte en hotmail.com et le mot de passe. D'après les factures publiées par la SEA, le coût unitaire d'un jeu de données concernant un utilisateur varie entre 50 dollars et 200 dollars en fonction du contenu transmis. La véracité des données clients vendues était certifiée par Microsoft.
  • 11. Un premier exemple illustrant la Valeur avec Véracité La vente de données clients par Microsoft au FBI : La valeur instantanée d'une donnée client D vendue par Microsoft au FBI vérifie : Val t ( D / C, A) = 200 USD pour t > 0 sur le contexte de production Microsoft. A est un algorithme de structuration (ou de mise au format) et de lecture de la donnée. V0 est le coût de structuration, de mise au format et de stockage de la donnée pour Microsoft. V1 désigne le prix de vente unitaire par Microsoft au FBI. V∞ est la valeur résiduelle de la donnée.
  • 12. Un second exemple illustrant la Valeur sans la Véracité L’histoire du faux tweet de la SEA qui valait 136 milliards Le 24 avril 2013, la SEA attaque le compte Twitter de l'agence Associated Press (AP). Elle en prend momentanément le contrôle et publie à 13h07 le message suivant : « Breaking : Two Explosions in the White House and Barack Obama is injured » Les 1.9 millions d'abonnés au compte Twitter d'Associated Press reçoivent le faux message posté par la SEA en le considérant comme authentique. La réaction des marchés financiers est presque immédiate : entre 13h08 et 13h10, l'indice principal de Wallstreet, le Dow Jones (DJIA) perd 145 points soit l'équivalent de 136 milliards de dollars (105 milliards d'euros) en raison notamment du trading haute fréquence (HFT) qui a interprété et « réagi » au faux tweet. Les actions Microsoft, Apple, Mobil perdent plus de 1% presque instantanément. Quelques minutes plus tard, Associated Press reprend le contrôle de son compte et publie immédiatement un tweet annonçant que le message précédent était un faux et qu'il résultait du piratage de son compte.
  • 13. Un second exemple illustrant la Valeur sans la Véracité Le faux tweet de la SEA qui valait 136 milliards de dollars
  • 14. Un second exemple illustrant la Valeur sans la Véracité
  • 15. Un second exemple illustrant la Valeur sans la Véracité A l'instant t = 0, le tweet de la SEA est publié sur le compte AP et reste accessible et crédible durant quatre minutes. A l'instant t1 , AP et la Maison Blanche publient un démenti qui annule immédiatement la valeur instantanée de la donnée D. V0 désigne la valeur de production et d'insertion de la donnée sur le compte d'AP. Cette valeur tient compte du coût global du piratage du compte par la SEA. V1 est la valeur maximale de la donnée avant la reprise de contrôle du compte AP. Elle peut prendre en compte la valeur d'impact du faux tweet sur les marchés.
  • 16. Un second exemple illustrant la Valeur sans la Véracité Ce que nous disent ces exemples : La valeur d’impact d’une donnée peut être indépendante de sa Véracité. C’est bien la confiance qu’on accorde à une donnée qui lui permet de fonder sa valeur. Interroger la donnée, c’est d’abord évaluer la confiance qu’elle suscite, mesurer sa véracité puis sa valeur sur un contexte.
  • 17. 2 – Approche de la Valeur par le gain dans un contexte Big Data
  • 18. D’où viennent les données massives ?
  • 19. Définir la valeur des données massives par le gain L'idée : Pour un jeu de données massives D, on mesure le gain obtenu sur une ligne de contrainte L après exploitation de D via un système de calcul S. Une ligne de contrainte L pour une entreprise, une institution ou un laboratoire peut être temporelle (le temps nécessaire à un processus de production), spatiale (une distance, une surface à prospecter). Elle peut concerner un effectif (le nombre d'ingénieurs sur un projet) ou un coût de développement. Elle est mesurée par CL(t). Le gain obtenu sur la ligne de contrainte L après exploitation de D par S s'écrit : GL( D , S ) = CL ( après exploitation de D ) – CL ( avant exploitation de D ) La valeur du jeu de données D sur la ligne de contrainte L est définie par le maximum des gains obtenus lorsque l'on fait varier le système de calcul S (algorithmes et machines) : VL( D ) = Max S ( GL( D , S ) )
  • 21. L’exemple des éoliennes VESTAS L‘analyse Big Data a permis à Vestas d’optimiser son processus d’identification des meilleurs emplacements pour implanter ses éoliennes . L’analyse des données a permis d’augmenter la production d’électricité et de réduire les coûts énergétiques. Grâce aux données massives, Vestas est en mesure de décrire avec précision le comportement du vent et de fournir une analyse de rentabilisation solide à ses clients. Le système Big Data VESTAS (IBM) induit une réduction de 97 % du temps de réponse sur les prévisions éoliennes passant de plusieurs semaines à seulement quelques heures aujourd’hui. Il réduit le coût de production par kilowattheure pour les clients et réduit le coût et l’encombrement informatique avec une diminution de 40 % de la consommation énergétique. La base de données « Vestas-Eoliennes » atteint les 24 péta-octets .
  • 22. L’exemple des éoliennes VESTAS Le logiciel IBM InfoSphere BigInsights fonctionnant sur un système IBM System x iDataPlex assiste VESTAS dans sa gestion des données météorologiques et de localisation. Ainsi, l’entreprise a diminué la résolution de base de ses grilles de données éoliennes qui passent d’une aire de 27 x 27 kilomètres à 3 x 3 kilomètres après exploitation du jeu de données. Ceci représente une réduction de 90% de l’incertitude. Ce gain donne aux dirigeants un aperçu immédiat des sites potentiels d’implantation d’éoliennes. La ligne de contrainte L est la résolution de base des grilles de données (une surface) et le gain après exploitation du jeu de données météo s’élève à : GL( D , S ) = + 90 % et VL( D ) > 90 %
  • 23. L’exemple du Zoo de Cincinnati - Ohio
  • 24. L’exemple du Zoo de Cincinnati - Ohio Le zoo de Cincinnati a mis en place une structure d'analyse Big Data des données issues de capteurs et des données clients. L'image globale en temps réel de la clientèle et son interprétation ont permis d'augmenter de 25 % les dépenses des visiteurs, soit 350 000 dollars de recettes supplémentaires par an. La compréhension fine des données clients a été appliquée à l'optimisation des ressources humaines et a libéré du temps pour le personnel. La ligne de contrainte L est la dépense annuelle des visiteurs et le gain après exploitation de l’ensemble annuel des données client s’élève à : GL( D , S ) = + 25 % et VL( D ) > 25 %
  • 25. 3 – Véracité de la donnée
  • 26. La tentation des fausses données pour se protéger… Selon le rapport Symantec 2015 sur la protection des données privées : 57 % des européens se déclarent inquiets quant à la sécurité de leurs informations personnelles. 81 % estiment que leurs données ont de la valeur (>1000 euros). 31 % n’hésitent plus à communiquer de fausses données pour protéger leurs données personnelles.
  • 27. Des applications pour créer de fausses données Tromper les applications Android avec de fausses données ! Xprivacy est un outil qui permet de nourrir les applications Android avec de faux contacts, de fausses coordonnées géographiques, de faux dictionnaires user, de faux presses papiers, de faux historiques d’appels, de faux SMS… L’objectif étant de créer de fausses données pour mieux protéger sa vie privée.
  • 28. Des applications pour créer de fausses données Le site FakeNameGenerator permet de construire des bases de données sous divers formats (MS SQL, MySQL,IBM DB2, Oracle,…) de 50 000 identités cohérentes incluant l’identité, l’âge, l’adresse, le métier, etc…
  • 29. Données fictives et hacking Dans une opération de hacking, la phase d’ingénierie sociale s’appuie de plus en plus souvent sur la création d’un ensemble de données fictives. L’objectif est d’installer la confiance auprès des cibles et de les pousser à exécuter un code viral (malware,spyware, rançonware,…). Un exemple emblématique : l’Opération Newscaster - NewsOnLine
  • 30. L’OP Newscaster Newscaster est une opération de cyberespionnage attribuée à l’Iran qui s’inscrit dans le durée (2012-2014) ciblant plus de 2000 personnes (USA, Europe, Israël) , des officiers supérieurs de l’US Army, des ingénieurs de l’industrie de l’armement, des membres du congrès, etc. C’est une APT longue, structurée et furtive. La première phase de l’opération s’est appuyée sur la construction d’un faux site web d’information NewsOnLine, hébergé sur des serveurs US et supervisé par une rédaction américaine fictive. Des contacts ont été noués avec les futures cibles pour qu’elles participent à la rédaction d’articles du site. Un noyau de profils fictifs américains (sur Facebook, Twitter, LinkedIn) a été construit de toute pièce pour échanger avec les cibles. La confiance s’installe durant près d’un an puis, les attaquants profitent des échanges de fichiers d’articles pour injecter des spyware sur les machines des cibles et collecter des données sensibles ou classifiées.
  • 32. Mesurer la confiance en une donnée ? Pour une donnée D, nous évaluons en général la probabilité : P ( D est vraie / Historique et réputation ) L’historique du contexte et la réputation de l’émetteur de la donnée. Nous devrions plutôt évaluer : P ( D est vraie / Historique, réputation et P(Hacking(D)) > 0 ) C’est cette probabilité qui permet d’exprimer la confiance que l’on porte en une donnée.
  • 33. Les futurs défis du Data Scientist - Il faut évoluer vers la certification des données. - Certifier une donnée, c’est augmenter sa valeur ! - L’analyse Big Data doit s’appuyer sur des données globalement certifiées. - Nous devons pouvoir détecter les corpus de données fictives pour anticiper le hacking et les cybermanipulations. - Il faut pour cela former des Data Scientists qui possèdent une vraie culture de cybersécurité et croiser les compétences de sorte que les deux derniers V (Volume et Véracité) occupent toute leur place. - Il faut construire des infrastructures algorithmiques dans le Big Data qui soient résilientes, antifragiles, capables d’évaluer en temps réel la véracité et la valeur des données en streaming.
  • 34. Bruno TEBOUL - KEYRUS www.keyrus.fr/ https://twitter.com/brunoteboul Thierry BERTHIER - ECHORADAR & CYBERLAND http://cyberland.centerblog.net/ http://echoradar.eu/ https://twitter.com/echo_radar