Michel BERA
Professeur du Conservatoire national des arts et métiers
Chaire de modélisation statistique du risque, département IMATH
Mardi 9 juillet 2014
Université d’été de l’Institut des actuaires
Confidentialité des données
Ce dont je ne parlerai pas (extraits)
•  La data science -> voir exposé suivant!
•  Le juridique -> voir la conférence au Groupe Big Data de
Fabrice Naftalski (partner, E&Y)
•  La CNIL : de nombreuses actions sur les données
personnelles sont parfaitement interdites, mais peu le
savent (ex : arrêt pages jaunes, banque avec filiale
assurantielle captive, données génétiques)
•  L’audit demandé à l’Institut des données de santé par le
rapport Bras (2013) : Gouvernance et utilisation des
données de santé
Le « Snowden Point »
(6 juin 2013)
•  C’est un « tipping point » (point de basculement
sociologique)
•  Brutalement toute la « population » se rend
compte que des données massives sont
collectées et utilisées à des fins commerciales,
voire mystérieuses (militaires, etc.)
•  Besoin de protection, de « confidentialité des
données » : sorte d’approche Amish face aux
données..
Esther Dyson (USA)
•  Toute personne devrait être en mesure de
« négocier » librement la mise à disposition par
elle des données qui la concerne (PC Forum -
1995 ?)
•  C’était avant la « découverte » de la théorie des
réseaux sociaux! (Barabasi, Linked)
•  Problème du « banc de poissons »
•  Problème de la mutualisation
•  Problème de la cohorte (permet la « preuve »)
De quoi peut-on parler : de la protection des
données personnelles (1)
•  Première question: que font les américains?
•  rechercher des solutions « technologiques » (ici
data science) – cf Rapport Obama (mai14)
•  construire (et breveter) des méthodes
scientifiques
–  La k-anonymisation (Latanya Sweeney, Professor of
Government and Technology in Residence at Harvard
University) – 2002
–  La K-indistinguability (micro-aggregation) : clusters -> Defays
–  Le floutage (confidentialité différentielle) Cynthia Dwork
•  Mettre en place des standards mondiaux (ex : MIT Open
PDS)
De quoi peut-on parler : de la protection des
données personnelles (2)
•  Seconde question: que font les français?
•  chercher des solutions « technologiques » : ex :
La « bulle » du CASD : Antoine Frachot/GENES
•  Construire des algorithmes de cryptage (FOIN :
Fonction d’occultation des informations
nominatives) – Catherine Quantin
•  Les systèmes souverains d’hébergement de
données et de puissance de calcul (ex :
Cloudwatt, Thalès)
•  Définir et gérer des stratégies « open data »
Un focus sur les données de santé US
•  Gros travail sur les notions de « statistical de-
identification » (HIPAA – Health Insurance
Portability and Accountability Act)
•  Papiers « terrifiants » réguliers en grand public:
–  En génomique (ré-identification)
–  En données de comportement (géolocalisation, 5
points pour identifier à 95% une personne, etc.)
–  Attaques de ré-identification (Laura Sweeney again)
–  etc.
Conclusion
•  Le modèle français peut faire école européenne a
minimis (CNIL et al.)
•  Il est sot de se priver d’avancées extraordinaires pour le
bien-être des peuples par un excès de précautions/
floutage/anonymisation (ex : sida)
•  Principe d’un ordre de travail sur les données, qui rend
la main à l’homme en final : Data Driven -> Evidence
Based -> commission d’experts statuant sur les
recommandations de la machine, pour que l’homme
reste au centre
•  Application à la confidentialité des données
personnelles : le « data driven open data » (DDOD)
Merci pour votre attention …

Confidentialité des données michel béra

  • 1.
    Michel BERA Professeur duConservatoire national des arts et métiers Chaire de modélisation statistique du risque, département IMATH Mardi 9 juillet 2014 Université d’été de l’Institut des actuaires Confidentialité des données
  • 3.
    Ce dont jene parlerai pas (extraits) •  La data science -> voir exposé suivant! •  Le juridique -> voir la conférence au Groupe Big Data de Fabrice Naftalski (partner, E&Y) •  La CNIL : de nombreuses actions sur les données personnelles sont parfaitement interdites, mais peu le savent (ex : arrêt pages jaunes, banque avec filiale assurantielle captive, données génétiques) •  L’audit demandé à l’Institut des données de santé par le rapport Bras (2013) : Gouvernance et utilisation des données de santé
  • 4.
    Le « SnowdenPoint » (6 juin 2013) •  C’est un « tipping point » (point de basculement sociologique) •  Brutalement toute la « population » se rend compte que des données massives sont collectées et utilisées à des fins commerciales, voire mystérieuses (militaires, etc.) •  Besoin de protection, de « confidentialité des données » : sorte d’approche Amish face aux données..
  • 5.
    Esther Dyson (USA) • Toute personne devrait être en mesure de « négocier » librement la mise à disposition par elle des données qui la concerne (PC Forum - 1995 ?) •  C’était avant la « découverte » de la théorie des réseaux sociaux! (Barabasi, Linked) •  Problème du « banc de poissons » •  Problème de la mutualisation •  Problème de la cohorte (permet la « preuve »)
  • 6.
    De quoi peut-onparler : de la protection des données personnelles (1) •  Première question: que font les américains? •  rechercher des solutions « technologiques » (ici data science) – cf Rapport Obama (mai14) •  construire (et breveter) des méthodes scientifiques –  La k-anonymisation (Latanya Sweeney, Professor of Government and Technology in Residence at Harvard University) – 2002 –  La K-indistinguability (micro-aggregation) : clusters -> Defays –  Le floutage (confidentialité différentielle) Cynthia Dwork •  Mettre en place des standards mondiaux (ex : MIT Open PDS)
  • 7.
    De quoi peut-onparler : de la protection des données personnelles (2) •  Seconde question: que font les français? •  chercher des solutions « technologiques » : ex : La « bulle » du CASD : Antoine Frachot/GENES •  Construire des algorithmes de cryptage (FOIN : Fonction d’occultation des informations nominatives) – Catherine Quantin •  Les systèmes souverains d’hébergement de données et de puissance de calcul (ex : Cloudwatt, Thalès) •  Définir et gérer des stratégies « open data »
  • 8.
    Un focus surles données de santé US •  Gros travail sur les notions de « statistical de- identification » (HIPAA – Health Insurance Portability and Accountability Act) •  Papiers « terrifiants » réguliers en grand public: –  En génomique (ré-identification) –  En données de comportement (géolocalisation, 5 points pour identifier à 95% une personne, etc.) –  Attaques de ré-identification (Laura Sweeney again) –  etc.
  • 9.
    Conclusion •  Le modèlefrançais peut faire école européenne a minimis (CNIL et al.) •  Il est sot de se priver d’avancées extraordinaires pour le bien-être des peuples par un excès de précautions/ floutage/anonymisation (ex : sida) •  Principe d’un ordre de travail sur les données, qui rend la main à l’homme en final : Data Driven -> Evidence Based -> commission d’experts statuant sur les recommandations de la machine, pour que l’homme reste au centre •  Application à la confidentialité des données personnelles : le « data driven open data » (DDOD)
  • 10.
    Merci pour votreattention …