SlideShare une entreprise Scribd logo
1  sur  18
Colloque
« La donnée n’est pas donnée »
Ecole Militaire – Paris
Lundi 23 mars 2015
Véracité de la donnée :
Un enjeu pour l’entreprise
Des défis pour le Data
Scientist
Thierry Berthier
Chaire de Cybersécurité &
Cyberdéfense Saint-Cyr - Thales
Selon Gartner et IBM, les données
massives sont caractérisées par 6 V :
- Volume
- Variété
- Vélocité
- Visibilité
- Valeur
- Véracité
Nous allons évoquer la Valeur et la
Véracité d’une donnée
Premiers constats…
Les 4 V (Volume, Variété, Vélocité, Visibilité) sont
assez facilement mesurables.
Mesurer précisément la valeur et la véracité d’une
donnée, c’est en général un problème difficile.
Valeur et Véracité de la donnée dépendent
fortement du contexte et de l’instant d’évaluation.
La Valeur et la Véracité d’une donnée sont parfois
indépendantes.
Premiers constats…
La fragmentation des projections algorithmiques
fragmente aussi leur valeur et leur véracité
La valeur d’impact d’une donnée
On doit parler de valeur fonctionnelle instantanée
d’une donnée D sur un contexte C selon un
algorithme A :
Val t ( D / C, A)
Un exemple illustrant la Valeur sans la Véracité
Le faux tweet de la SEA qui valait 136 milliards de dollars
Un exemple illustrant la Valeur sans la Véracité
La valeur d’impact d’une donnée peut être indépendante
de sa Véracité.
C’est la confiance qu’on accorde à une donnée qui lui
permet de fonder sa valeur.
Interroger la donnée, c’est d’abord évaluer la confiance
qu’elle suscite, mesurer sa véracité puis sa valeur sur un
contexte.
La tentation des fausses données pour se protéger…
Selon le rapport Symantec 2015 sur la protection des données
privées :
57 % des européens se déclarent inquiets quant à la sécurité de leurs
informations personnelles.
81 % estiment que leurs données ont de la valeur (>1000 euros).
31 % n’hésitent plus à communiquer de fausses données
pour protéger leurs données personnelles.
Des applications pour créer de fausses données
Tromper les applications Android avec de fausses données !
Xprivacy est un outil qui permet de nourrir les applications Android avec de
faux contacts, de fausses coordonnées géographiques, de faux dictionnaires
user, de faux presses papiers, de faux historiques d’appels, de faux SMS…
L’objectif étant de créer de fausses données pour mieux protéger sa vie
privée.
Des applications pour créer de fausses données
Le site FakeNameGenerator permet de construire des bases de données
sous divers formats (MS SQL, MySQL,IBM DB2, Oracle,…) de 50 000
identités cohérentes incluant l’identité, l’âge, l’adresse, le métier, etc…
Données fictives et hacking
Dans une opération de hacking, la phase d’ingénierie sociale s’appuie de plus
en plus souvent sur la création d’un ensemble de données fictives.
L’objectif est d’installer la confiance auprès des cibles et de les pousser à
exécuter un code viral (malware,spyware, rançonware,…).
Un exemple emblématique : l’Opération Newscaster - NewsOnLine
L’OP Newscaster
Newscaster est une opération de cyberespionnage attribuée à l’Iran
qui s’inscrit dans le durée (2012-2014) ciblant plus de 2000 personnes
(USA, Europe, Israël) , des officiers supérieurs de l’US Army, des
ingénieurs de l’industrie de l’armement, des membres du congrès, etc.
C’est une APT longue, structurée et furtive. La première phase de
l’opération s’est appuyée sur la construction d’un faux site web
d’information NewsOnLine, hébergé sur des serveurs US et supervisé
par une rédaction américaine fictive. Des contacts ont été noués avec
les futures cibles pour qu’elles participent à la rédaction d’articles du
site. Un noyau de profils fictifs américains (sur Facebook, Twitter,
LinkedIn) a été construit de toute pièce pour échanger avec les cibles.
La confiance s’installe durant près d’un an puis, les attaquants
profitent des échanges de fichiers d’articles pour injecter des spyware
sur les machines des cibles et collecter des données sensibles ou
classifiées.
L’OP Newscaster
Mesurer la confiance en une donnée ?
Pour une donnée D, nous évaluons en général la probabilité :
P ( D est vraie / Historique et réputation )
L’historique du contexte et la réputation de l’émetteur de la donnée.
Nous devrions plutôt évaluer :
P ( D est vraie / Historique, réputation et P(Hacking(D)) > 0 )
C’est cette probabilité qui permet d’exprimer la confiance que l’on
porte en une donnée.
Les futurs défis du Data Scientist
- Il faut évoluer vers la certification des données.
- Certifier une donnée, c’est augmenter sa valeur !
- L’analyse Big Data doit s’appuyer sur des données globalement
certifiées.
- Nous devons pouvoir détecter les corpus de données fictives pour
anticiper le hacking et les cybermanipulations.
- Il faut pour cela former des Data Scientists qui possèdent une vraie
culture de cybersécurité et croiser les compétences de sorte que les
deux derniers V (Volume et Véracité) occupent toute leur place.
- Il faut construire des infrastructures algorithmiques dans le Big
Data qui soient résilientes, antifragiles, capables d’évaluer en temps
réel la véracité et la valeur des données en streaming.
Thierry Berthier est Maitre de conférences en mathématiques à l'Université
de Limoges. Il effectue ses recherches au sein de la Chaire de Cybersécurité &
Cyberdéfense, Saint-Cyr - Thales – Sogeti, est membre de l'Institut Fredrik Bull et
du comité d'études de la Défense Nationale. Il est cofondateur du site d’analyse
stratégique EchoRadar et de Cyberland.
Thierry BERTHIER
ECHORADAR & CYBERLAND
http://cyberland.centerblog.net/
http://echoradar.eu/
https://twitter.com/echo_radar

Contenu connexe

Similaire à Colloque "La donnée n'est pas donnée - Big Data " Ecole Militaire

Formation des dirigeants d’entreprises jan 2013 v3-2
Formation des dirigeants d’entreprises jan 2013   v3-2Formation des dirigeants d’entreprises jan 2013   v3-2
Formation des dirigeants d’entreprises jan 2013 v3-2
Cédric Lefebvre
 

Similaire à Colloque "La donnée n'est pas donnée - Big Data " Ecole Militaire (20)

siris1.pdf
siris1.pdfsiris1.pdf
siris1.pdf
 
Symposium Recherche - Réserve Citoyenne Cyberdéfense 2014 - Thierry Berthier
Symposium Recherche - Réserve Citoyenne Cyberdéfense 2014 - Thierry BerthierSymposium Recherche - Réserve Citoyenne Cyberdéfense 2014 - Thierry Berthier
Symposium Recherche - Réserve Citoyenne Cyberdéfense 2014 - Thierry Berthier
 
MasterClass Intelligence Artificielle et Sécurité FIC 2019
MasterClass Intelligence Artificielle et Sécurité FIC 2019MasterClass Intelligence Artificielle et Sécurité FIC 2019
MasterClass Intelligence Artificielle et Sécurité FIC 2019
 
Cybermed ia2020
Cybermed ia2020Cybermed ia2020
Cybermed ia2020
 
Interview : Quels sont les enjeux de la cybersécurité pour : chambé-carnet
Interview : Quels sont les enjeux de la cybersécurité pour : chambé-carnetInterview : Quels sont les enjeux de la cybersécurité pour : chambé-carnet
Interview : Quels sont les enjeux de la cybersécurité pour : chambé-carnet
 
Formation des dirigeants d’entreprises jan 2013 v3-2
Formation des dirigeants d’entreprises jan 2013   v3-2Formation des dirigeants d’entreprises jan 2013   v3-2
Formation des dirigeants d’entreprises jan 2013 v3-2
 
Cybersécurité en 2018 : quelles sont les tendances ?
Cybersécurité en 2018 : quelles sont les tendances ?Cybersécurité en 2018 : quelles sont les tendances ?
Cybersécurité en 2018 : quelles sont les tendances ?
 
COLLOQUE GREC-O Systémique, Complexité,
COLLOQUE GREC-O  Systémique, Complexité,COLLOQUE GREC-O  Systémique, Complexité,
COLLOQUE GREC-O Systémique, Complexité,
 
Les systèmes complexes face au tsunami exponentiel du numérique. Valeur et vé...
Les systèmes complexes face au tsunami exponentiel du numérique. Valeur et vé...Les systèmes complexes face au tsunami exponentiel du numérique. Valeur et vé...
Les systèmes complexes face au tsunami exponentiel du numérique. Valeur et vé...
 
War Ram - Juin 2014
War Ram - Juin 2014War Ram - Juin 2014
War Ram - Juin 2014
 
Rapport des menaces en 2015 par F-Secure
Rapport des menaces en 2015 par F-SecureRapport des menaces en 2015 par F-Secure
Rapport des menaces en 2015 par F-Secure
 
Conférence DI 2014 - Cyberconflictualité, hacking d'influence et prévisibilit...
Conférence DI 2014 - Cyberconflictualité, hacking d'influence et prévisibilit...Conférence DI 2014 - Cyberconflictualité, hacking d'influence et prévisibilit...
Conférence DI 2014 - Cyberconflictualité, hacking d'influence et prévisibilit...
 
Introspect event - 5 Juillet 2018 - Kyos threat challenges
Introspect event - 5 Juillet 2018 - Kyos threat challengesIntrospect event - 5 Juillet 2018 - Kyos threat challenges
Introspect event - 5 Juillet 2018 - Kyos threat challenges
 
la sécurité de l'information (extrait de presentation)
la sécurité de l'information (extrait de presentation)la sécurité de l'information (extrait de presentation)
la sécurité de l'information (extrait de presentation)
 
Introduction au BIG DATA
Introduction au BIG DATAIntroduction au BIG DATA
Introduction au BIG DATA
 
Conférence big data
Conférence big dataConférence big data
Conférence big data
 
Sécurité informatique - Etat des menaces
Sécurité informatique - Etat des menacesSécurité informatique - Etat des menaces
Sécurité informatique - Etat des menaces
 
LES DANGERS DU PHISHING AVEC KASPERSKY
LES DANGERS DU PHISHING AVEC KASPERSKYLES DANGERS DU PHISHING AVEC KASPERSKY
LES DANGERS DU PHISHING AVEC KASPERSKY
 
La nécessité de la dlp aujourd’hui un livre blanc clearswift
La nécessité de la dlp aujourd’hui   un livre blanc clearswiftLa nécessité de la dlp aujourd’hui   un livre blanc clearswift
La nécessité de la dlp aujourd’hui un livre blanc clearswift
 
Congres cybermed nice 2019
Congres cybermed nice 2019Congres cybermed nice 2019
Congres cybermed nice 2019
 

Plus de OPcyberland

Plus de OPcyberland (20)

Conference robots kedge 26 mars 2021
Conference robots kedge   26 mars 2021Conference robots kedge   26 mars 2021
Conference robots kedge 26 mars 2021
 
Synthese ianp2019
Synthese ianp2019Synthese ianp2019
Synthese ianp2019
 
Ianp 2019
Ianp 2019Ianp 2019
Ianp 2019
 
Ia et cybersecurite - conférence 3IL
Ia et cybersecurite - conférence 3ILIa et cybersecurite - conférence 3IL
Ia et cybersecurite - conférence 3IL
 
ID FORUM - FIC2020
ID FORUM - FIC2020ID FORUM - FIC2020
ID FORUM - FIC2020
 
Dut informatique limoges
Dut informatique limogesDut informatique limoges
Dut informatique limoges
 
Guide survie dans la jungle numérique pour élèves de 3eme
Guide survie dans la jungle numérique pour élèves de 3emeGuide survie dans la jungle numérique pour élèves de 3eme
Guide survie dans la jungle numérique pour élèves de 3eme
 
Conférence NAIA Bordeaux
Conférence NAIA Bordeaux Conférence NAIA Bordeaux
Conférence NAIA Bordeaux
 
Ihedn menace cyber
Ihedn menace cyberIhedn menace cyber
Ihedn menace cyber
 
Colloque IA DEFENSE - CREC SAINT-CYR - 30 janvier 2019
Colloque IA DEFENSE - CREC SAINT-CYR - 30 janvier 2019Colloque IA DEFENSE - CREC SAINT-CYR - 30 janvier 2019
Colloque IA DEFENSE - CREC SAINT-CYR - 30 janvier 2019
 
ifda financial attacks - Conférence ECW 2018 Rennes
   ifda financial attacks - Conférence ECW 2018 Rennes   ifda financial attacks - Conférence ECW 2018 Rennes
ifda financial attacks - Conférence ECW 2018 Rennes
 
Aristote IA et sécurité numérique - 15 novembre 2018 - Ecole Polytechnique
Aristote   IA et sécurité numérique - 15 novembre 2018 - Ecole PolytechniqueAristote   IA et sécurité numérique - 15 novembre 2018 - Ecole Polytechnique
Aristote IA et sécurité numérique - 15 novembre 2018 - Ecole Polytechnique
 
Keynote thierry berthier cybersecurite NOVAQ 2018
Keynote thierry berthier cybersecurite NOVAQ 2018Keynote thierry berthier cybersecurite NOVAQ 2018
Keynote thierry berthier cybersecurite NOVAQ 2018
 
Cyberstrategia
CyberstrategiaCyberstrategia
Cyberstrategia
 
Intelligence Artificielle - Comment change-t-elle le mode ? JBU2018
Intelligence Artificielle - Comment change-t-elle le mode ? JBU2018Intelligence Artificielle - Comment change-t-elle le mode ? JBU2018
Intelligence Artificielle - Comment change-t-elle le mode ? JBU2018
 
Conférence Sécurité et Intelligence Artificielle - INHESJ 2018
Conférence Sécurité et Intelligence Artificielle - INHESJ 2018Conférence Sécurité et Intelligence Artificielle - INHESJ 2018
Conférence Sécurité et Intelligence Artificielle - INHESJ 2018
 
Conférence NXU SUPAERO ISAE
Conférence NXU SUPAERO ISAE Conférence NXU SUPAERO ISAE
Conférence NXU SUPAERO ISAE
 
Conference fep cybersecurite 24 janvier 2018
Conference fep cybersecurite   24 janvier 2018Conference fep cybersecurite   24 janvier 2018
Conference fep cybersecurite 24 janvier 2018
 
Conference fep cybersecurite 24 janvier 2018
Conference fep cybersecurite   24 janvier 2018Conference fep cybersecurite   24 janvier 2018
Conference fep cybersecurite 24 janvier 2018
 
Hors-Série RGN - Droit des Robots et de l'IA
Hors-Série RGN - Droit des Robots et de l'IAHors-Série RGN - Droit des Robots et de l'IA
Hors-Série RGN - Droit des Robots et de l'IA
 

Colloque "La donnée n'est pas donnée - Big Data " Ecole Militaire

  • 1. Colloque « La donnée n’est pas donnée » Ecole Militaire – Paris Lundi 23 mars 2015 Véracité de la donnée : Un enjeu pour l’entreprise Des défis pour le Data Scientist Thierry Berthier Chaire de Cybersécurité & Cyberdéfense Saint-Cyr - Thales
  • 2. Selon Gartner et IBM, les données massives sont caractérisées par 6 V : - Volume - Variété - Vélocité - Visibilité - Valeur - Véracité Nous allons évoquer la Valeur et la Véracité d’une donnée
  • 3. Premiers constats… Les 4 V (Volume, Variété, Vélocité, Visibilité) sont assez facilement mesurables. Mesurer précisément la valeur et la véracité d’une donnée, c’est en général un problème difficile. Valeur et Véracité de la donnée dépendent fortement du contexte et de l’instant d’évaluation. La Valeur et la Véracité d’une donnée sont parfois indépendantes.
  • 4. Premiers constats… La fragmentation des projections algorithmiques fragmente aussi leur valeur et leur véracité
  • 5. La valeur d’impact d’une donnée On doit parler de valeur fonctionnelle instantanée d’une donnée D sur un contexte C selon un algorithme A : Val t ( D / C, A)
  • 6. Un exemple illustrant la Valeur sans la Véracité Le faux tweet de la SEA qui valait 136 milliards de dollars
  • 7. Un exemple illustrant la Valeur sans la Véracité
  • 8. La valeur d’impact d’une donnée peut être indépendante de sa Véracité. C’est la confiance qu’on accorde à une donnée qui lui permet de fonder sa valeur. Interroger la donnée, c’est d’abord évaluer la confiance qu’elle suscite, mesurer sa véracité puis sa valeur sur un contexte.
  • 9. La tentation des fausses données pour se protéger… Selon le rapport Symantec 2015 sur la protection des données privées : 57 % des européens se déclarent inquiets quant à la sécurité de leurs informations personnelles. 81 % estiment que leurs données ont de la valeur (>1000 euros). 31 % n’hésitent plus à communiquer de fausses données pour protéger leurs données personnelles.
  • 10. Des applications pour créer de fausses données Tromper les applications Android avec de fausses données ! Xprivacy est un outil qui permet de nourrir les applications Android avec de faux contacts, de fausses coordonnées géographiques, de faux dictionnaires user, de faux presses papiers, de faux historiques d’appels, de faux SMS… L’objectif étant de créer de fausses données pour mieux protéger sa vie privée.
  • 11. Des applications pour créer de fausses données Le site FakeNameGenerator permet de construire des bases de données sous divers formats (MS SQL, MySQL,IBM DB2, Oracle,…) de 50 000 identités cohérentes incluant l’identité, l’âge, l’adresse, le métier, etc…
  • 12. Données fictives et hacking Dans une opération de hacking, la phase d’ingénierie sociale s’appuie de plus en plus souvent sur la création d’un ensemble de données fictives. L’objectif est d’installer la confiance auprès des cibles et de les pousser à exécuter un code viral (malware,spyware, rançonware,…). Un exemple emblématique : l’Opération Newscaster - NewsOnLine
  • 13. L’OP Newscaster Newscaster est une opération de cyberespionnage attribuée à l’Iran qui s’inscrit dans le durée (2012-2014) ciblant plus de 2000 personnes (USA, Europe, Israël) , des officiers supérieurs de l’US Army, des ingénieurs de l’industrie de l’armement, des membres du congrès, etc. C’est une APT longue, structurée et furtive. La première phase de l’opération s’est appuyée sur la construction d’un faux site web d’information NewsOnLine, hébergé sur des serveurs US et supervisé par une rédaction américaine fictive. Des contacts ont été noués avec les futures cibles pour qu’elles participent à la rédaction d’articles du site. Un noyau de profils fictifs américains (sur Facebook, Twitter, LinkedIn) a été construit de toute pièce pour échanger avec les cibles. La confiance s’installe durant près d’un an puis, les attaquants profitent des échanges de fichiers d’articles pour injecter des spyware sur les machines des cibles et collecter des données sensibles ou classifiées.
  • 15. Mesurer la confiance en une donnée ? Pour une donnée D, nous évaluons en général la probabilité : P ( D est vraie / Historique et réputation ) L’historique du contexte et la réputation de l’émetteur de la donnée. Nous devrions plutôt évaluer : P ( D est vraie / Historique, réputation et P(Hacking(D)) > 0 ) C’est cette probabilité qui permet d’exprimer la confiance que l’on porte en une donnée.
  • 16. Les futurs défis du Data Scientist - Il faut évoluer vers la certification des données. - Certifier une donnée, c’est augmenter sa valeur ! - L’analyse Big Data doit s’appuyer sur des données globalement certifiées. - Nous devons pouvoir détecter les corpus de données fictives pour anticiper le hacking et les cybermanipulations. - Il faut pour cela former des Data Scientists qui possèdent une vraie culture de cybersécurité et croiser les compétences de sorte que les deux derniers V (Volume et Véracité) occupent toute leur place. - Il faut construire des infrastructures algorithmiques dans le Big Data qui soient résilientes, antifragiles, capables d’évaluer en temps réel la véracité et la valeur des données en streaming.
  • 17. Thierry Berthier est Maitre de conférences en mathématiques à l'Université de Limoges. Il effectue ses recherches au sein de la Chaire de Cybersécurité & Cyberdéfense, Saint-Cyr - Thales – Sogeti, est membre de l'Institut Fredrik Bull et du comité d'études de la Défense Nationale. Il est cofondateur du site d’analyse stratégique EchoRadar et de Cyberland.
  • 18. Thierry BERTHIER ECHORADAR & CYBERLAND http://cyberland.centerblog.net/ http://echoradar.eu/ https://twitter.com/echo_radar