SlideShare une entreprise Scribd logo
1  sur  41
Accommoder les miettes de données :
Ingrédients, Recettes et Astuces
Amélie Marian – Arnaud Sahuguet
BDA, Porquerolles, 2 Octobre 2015
https://goo.gl/dgAWnp
1
Dramatis Personae
Amelie Marian
@ameliemarian
Arnaud Sahuguet
@sahuguet
Paris IX Dauphine
Columbia Univ., PhD
X – ENPC – Paris VI
Univ. of Pennsylvania, PhD
Bell Labs / Alcatel-Lucent
Google
The Governance Lab @ NYU
2
Les objectifs de ce keynote
vous rappeler que c'est un sujet d'actualité brûlant
définir les concepts, e.g. miettes, small data, big data
présenter les axes de recherches liés aux miettes de données
vous convaincre de vous lancer dans l'aventure
rappeler que votre expertise est essentielle à un plus large débat
3
4
Plus malin que l’ogre BigData ?
… et a été dénoncée par Rite Aid pour “excessive transactions”
Se cacher devient suspect
http://time.com/83200/privacy-internet-big-data-opt-out/
?
5
Elle a caché sa grossesse sur internet...
Social medias
Achats en cash ou gift card
Tor pour surfer le web
Janet Vertesi, Assistant Professor of Sociology à Princeton a essayé
Finance
Web of Things/Quantified Self
Administration
Commerce
Services Web/Réseaux Sociaux
Transport
Mobile
Santé / Assurance
Services
Loisirs
6
miette :
sous-produit digital de nos activités
quotidiennes, telles que couriel, texto, appel
téléphonique, achat, transport, jeux, etc.
7
“J'ai laissé des bouts de moi au creux de chaque endroit
Un peu de chair à chaque empreinte de mes pas”
Jean-Jacques Goldman, 1987.
Dessine-moi une miette
8
Taxonomie basée sur l'origine des miettes
Directement depuis l'utilisateur
Miette fournie
- initiée
- transactionnelle
- publiée par l'utilisateur
Miette observée
- par engagement
- non-anticipée
- passive
9
Depuis le fournisseur de service
Miette dérivée
- computationelle
- notationelle
Miette inferrée
- statistique
- modèle plus avancé
Source: OECD 2014, Martin Abrams
Taxonomie pour les réseaux sociaux
Service data: data you give to SP in order to
use it.
Disclosed data: data you post on your own
pages.
Entrusted data: data you post on other
people's pages.
Incidental data: data other people post
about you.
10
Behavioral data: data collected by SP about
your habits.
Derived data: data derived from all other
data.
Source: IEEE Privacy & Security, 2010, by Bruce Schneier
Taxonomie basée sur la nature des miettes
11
Transport
Communications
Commerce
Loisirs
Santé, Bien-être
Activités
Citoyennes
Education
Travail
Social
Soupe de "Data"
big, small, personal, etc.
12
BIG DATA vs small data
13
small data
BIG DATA
L'intérêt des miettes
14
e.g. personalisation
e.g. quantified self,
IoT.
e.g. data philanthropy
Uber, Google FluTrends,
Twitter
Ce dont on ne va pas parler...
Big Data
Analytics
Learning
Ethiques
Droit à l’oubli
Big Brother
Patriot Act / Loi de renseignement
Beaucoup de choses à dire...
15
La vie d'une miette
16
La vie d'une miette
17
Interêt Personnel
Application:
"Personal Information Management"
18
Suivre les miettes pour retracer ses pas
19
Quel est le restaurant où j’ai mangé la dernière fois qu’on est allé au ski ?
Dates du voyage: Email de réservation, Calendrier, GPS
Nom du restaurant: Relevé de CB, checkin Foursquare
Quand est-ce que j’ai vu Sihem pour la dernière fois?
Email et SMS avec Sihem
Photos où Sihem et moi sommes taguées au même endroit
Les informations existent, mais sont difficiles à accéder et connecter
Projet Digital Self à Rutgers University
Les miettes de données sont riches en contexte
Des travaux en Psychologie ont montré qu’on se souvient des
informations/événements à partir d’indices de contexte
Qui, Quand, Où, Quoi, Pourquoi, Comment
Nous proposons un PIMS basé sur des données contextuelles.
Extrait les miettes de données
Intègre les données fragmentées
Permet la recherche sur les données personelles
Crée une base de connaissances personelle
En collaboration avec:
Thu Nguyen
Alex Borgida
Daniela Vianna
Valia Kalokyri
Alicia-Michelle Yong
Chaolun Xia
20
Digital Self Architecture
21
• Collection de données
–Identification, récupération, stockage,
– Personal Extraction Tool:
https://github.com/ameliemarian/DigitalSelf
• Integration de données
–Modèle de données unifié
–Multidimensionnel, contextuel
–Analyse NLP
w5h Model
• Recherche
–basée sur des travaux sur la mémoire
–contextuelle, imprécise
w5h Search
• Base de connaissance
–Identifier des connections et séquences
–Intégrer les comportements et réactions
w5h - Modèle de données Contextuel
• Différents types de contexte
–Metadata
–Application data
–Environnement
–Inférence
• Cognitive Psychology
–le contexte peut être utliser pour
rappeller et stocker l’information
22
Who, When, Where
Metadata, Environnement, Inférence
What
Contenu de la miette
Why
Tâche; fait le lien entre des miettes
Inférence
How
Comment a-t-on enregistré la miette,
Application Data
Preliminary Results - MRR
En gras: significance statistique (p<0.05)
23
w5h
recherche contextuelle, index w5h
Text
Index texte natif Mongodb sur données
modelisée en w5h
Solr
Index texte sur données extraites
Base de Connaissances Personnelle (PKB)
Dimension Why
Connecter des miettes en identifiant
les processes dont elles font partie
(e.g., aller à un concert)
Ontologies de processes
Algorithmes de reconnaissance
24
Application II
"small data for good"
25
Intérêt Général & Gouvernance 2.0
26
« Améliorer la vie des gens en améliorant la façon dont les décisions sont prises. »
Data Driven
Collaborative
Participatory
Les Données Ouvertes
27
« […] that can be freely used, re-used and redistributed by anyone – subject only, at
most, to the requirement to attribute and sharealike. » Open Data Handbook.
En 2013, mandat de la Maison Blanche pour ouvrir les données.
Etude McKinsey qui évalue à $3 milliards la valeur de l'open data.
Plus d'un million de jeux de données.
En France,
Open Civic Data: Of the People, By the People, For the People.
Sahuguet et al. 2015.
RDF
open data
data
models
sdX project à Cornell Tech (Estrin et al.)smalldata.io
« Creating community infrastructure for small data apps and services »
Exemples de projet de recherche
- correlation entre sommeil et activité sur les réseaux sociaux
- pilote pour aider les gens qui souffrent de problèmes de dos
Les défis
- collecte de données & intégration
- modèle de données, meta-données et langage de requête
- stockage (privacy at rest) et contrôle d'accès
28
ML
privacy trust
data
models
UX
La collecte de données
2 problèmes intéressants
29
La création d'expériences
- trouver les bons sujets
- leur expliquer comment les données
vont être utilisées
- les convaincre de donner leurs données
- garantir la confidentialité des données
Exemple de requête : utilisateur iOS, vivant à
New York, avec un compte Twitter actif et un
sensor de sommeil.
PAMYADL
RDF
privacy trust
social
data
models
crowd
UX
Comment inciter aux dons de données
P × B + D > C: a ‘calculus’ for Open Data
P: probabilité que l'ouverture des données apporte de la valeur à son
propriétaire.
B: bénéfice pour le propriétaire des données.
D: bénéfice global
C: coût
30
privacy trust
social
open data
Problématiques de recherche
31
Revenons au Petit Poucet
32
Les compagnies se gavent de nos
miettes de données
Comment les transformer en
petits cailloux blancs?
Défis de recherche
Capture des données
software, e.g. eye tracking
hardware, e.g. IoT
crowdsourcing
Integration de données
Alignement d’objets
Identification d’entités, PKB
Ontologies de tâches personnelles
Stockage et Archivage
Personal clouds
33
Privacy
Encryption
Partage d’information
Interface Homme-Machine (HCI)
Comment les utilisateurs partagent leurs
données
Comment les utilisateurs consultent leur
données
Personal Data Analytics
Apprentissage
Prediction, alertes
Au-delà de la technologie
34
Même si nous avions promis de ne pas en parler
- la gouvernance des données
- la notion de propriété des données
- les incitations
- les cadres juridiques
- le rôle que nous, scientifiques, avons à jouer
« Data science sans conscience n'est que ruine de l'âme. » #gargantua2.0
35
Les miettes, une tradition
scientifique bien française
36
FAIM FIN.
et bon appétit.
Mais avant de vous laisser partir,
temps pour quelques questions.
37
Références bibliographiques,
Conseils de lecture
38
Researchers wrestle with a privacy problem, Nature Sep 2015.
As we may think, Vannevar Bush, the Atlantic Monthly, 1945.
Beyond total capture: a constructive critique of Lifelogging, Sellen and Whitaker, CACM
2010.
The Black Box Society, Frank Pasquale, 2015
39
Data extraction
•A tool for personal data extraction. D. Vianna, A.-M. Yong, C. Xia, A. Marian, and T. Nguyen
PIMS:
•Personal Information Management. W. Jones and J. Teevan, editors. U of Washington Press, 2007.
•Seetrieve, Gyllstrom and Soules, IUI 2008.
Societal issues
•Managing your digital life with a Personal information management system, Serge Abiteboul, Benjamin
André, Daniel Kaplan, Comm. of the ACM
•http://mesinfos.fing.org
•http://www.midatalab.org.uk
•https://www.data.gov/consumer/smart-disclosure-policy
40
Data Integration:
•Principles of Data integration, Doan, Halevy, Ives, 2012.
•Principles of dataspace systems, Halevy, Franklin, and Maier. CACM, 2006.
Security and trust
•Management of Personal Information Disclosure: The Interdependence of Privacy, Security,
and Trust, Clare-Marie Karat, John Karat, and Carolyn Brodie
•Secure Personal Data Servers: a Vision Paper. T Allard et al. VLDB, 2010.
Knowledge management
•Ontology for PIMS: OntoPIM, Katifori, Poggi, Scannapieco, et al. 2005
•Networked Environment for Personal, Ontology-based Management of Unified
Knowledge (NEPOMUK).
41

Contenu connexe

En vedette

Diapo photojournalisme
Diapo photojournalismeDiapo photojournalisme
Diapo photojournalisme
edjouldem
 
Questionnaire results
Questionnaire resultsQuestionnaire results
Questionnaire results
piie786
 
La fuite du temps et le memento mori
La fuite du temps et le memento moriLa fuite du temps et le memento mori
La fuite du temps et le memento mori
10_Elisa_19
 

En vedette (20)

Zapping 22 août -
Zapping 22   août -Zapping 22   août -
Zapping 22 août -
 
OGM pourquoi tant de passions ?
OGM pourquoi tant de passions ?OGM pourquoi tant de passions ?
OGM pourquoi tant de passions ?
 
Présentation smash articles par laurent lhuillier
Présentation smash articles par laurent lhuillierPrésentation smash articles par laurent lhuillier
Présentation smash articles par laurent lhuillier
 
Actividad semana numero 2 el maestro un guia un ejemplo
Actividad semana numero 2 el maestro un guia un ejemploActividad semana numero 2 el maestro un guia un ejemplo
Actividad semana numero 2 el maestro un guia un ejemplo
 
Joaquin antuna bernardo
Joaquin antuna bernardoJoaquin antuna bernardo
Joaquin antuna bernardo
 
Diapo photojournalisme
Diapo photojournalismeDiapo photojournalisme
Diapo photojournalisme
 
Menu especiales
Menu especialesMenu especiales
Menu especiales
 
Questionnaire results
Questionnaire resultsQuestionnaire results
Questionnaire results
 
Patrones de diseño (tarea)
Patrones de diseño (tarea)Patrones de diseño (tarea)
Patrones de diseño (tarea)
 
La fuite du temps et le memento mori
La fuite du temps et le memento moriLa fuite du temps et le memento mori
La fuite du temps et le memento mori
 
Cuaresma maestros
Cuaresma  maestrosCuaresma  maestros
Cuaresma maestros
 
Tourisme ardennes
Tourisme ardennesTourisme ardennes
Tourisme ardennes
 
Comment À Retirer Rootkit
Comment À Retirer RootkitComment À Retirer Rootkit
Comment À Retirer Rootkit
 
French
FrenchFrench
French
 
Informatica
InformaticaInformatica
Informatica
 
L&rsquo;internet et l&rsquo;industrie de la musique occidentale : Une relatio...
L&rsquo;internet et l&rsquo;industrie de la musique occidentale : Une relatio...L&rsquo;internet et l&rsquo;industrie de la musique occidentale : Une relatio...
L&rsquo;internet et l&rsquo;industrie de la musique occidentale : Une relatio...
 
Veille informationnelle Emilie et Nicolas
Veille informationnelle Emilie et NicolasVeille informationnelle Emilie et Nicolas
Veille informationnelle Emilie et Nicolas
 
Communauté d'Agglomérations de la Porte du Hainaut - Rapport de développement...
Communauté d'Agglomérations de la Porte du Hainaut - Rapport de développement...Communauté d'Agglomérations de la Porte du Hainaut - Rapport de développement...
Communauté d'Agglomérations de la Porte du Hainaut - Rapport de développement...
 
Informatica
Informatica Informatica
Informatica
 
Practica06 2008 2009
Practica06 2008 2009Practica06 2008 2009
Practica06 2008 2009
 

Similaire à Miettes de données - Keynote BDA 2015

Boissaye-Marine-M2MAG-mémoire
Boissaye-Marine-M2MAG-mémoireBoissaye-Marine-M2MAG-mémoire
Boissaye-Marine-M2MAG-mémoire
Marine Boissaye
 
Web predictif-ertzscheid
Web predictif-ertzscheidWeb predictif-ertzscheid
Web predictif-ertzscheid
olivier
 

Similaire à Miettes de données - Keynote BDA 2015 (20)

4. Algorithmes
4. Algorithmes4. Algorithmes
4. Algorithmes
 
Gestion des donnees personnelles.
Gestion des donnees personnelles.Gestion des donnees personnelles.
Gestion des donnees personnelles.
 
Sfsic14 140605-ibekwe-san juan-big science
Sfsic14 140605-ibekwe-san juan-big scienceSfsic14 140605-ibekwe-san juan-big science
Sfsic14 140605-ibekwe-san juan-big science
 
Propos sur les Big Data.pdf
Propos sur les Big Data.pdfPropos sur les Big Data.pdf
Propos sur les Big Data.pdf
 
De l'importance de développer une culture des données dans les organisations
De l'importance de développer une culture des données dans les organisationsDe l'importance de développer une culture des données dans les organisations
De l'importance de développer une culture des données dans les organisations
 
Design, données personnelles et vie privée
Design, données personnelles et vie privéeDesign, données personnelles et vie privée
Design, données personnelles et vie privée
 
CGT-digital-week.pptx
CGT-digital-week.pptxCGT-digital-week.pptx
CGT-digital-week.pptx
 
Presentation a in ovive montpellier - 26%2 f06%2f2018 (1)
Presentation a in ovive   montpellier - 26%2 f06%2f2018 (1)Presentation a in ovive   montpellier - 26%2 f06%2f2018 (1)
Presentation a in ovive montpellier - 26%2 f06%2f2018 (1)
 
Aaf archivistes these
Aaf archivistes   theseAaf archivistes   these
Aaf archivistes these
 
Boissaye-Marine-M2MAG-mémoire
Boissaye-Marine-M2MAG-mémoireBoissaye-Marine-M2MAG-mémoire
Boissaye-Marine-M2MAG-mémoire
 
Parcours Big Data @ Cetic (6 mai 2014)
Parcours Big Data @ Cetic (6 mai 2014)Parcours Big Data @ Cetic (6 mai 2014)
Parcours Big Data @ Cetic (6 mai 2014)
 
Identité numérique accoma et sensibiliser
Identité numérique accoma et sensibiliserIdentité numérique accoma et sensibiliser
Identité numérique accoma et sensibiliser
 
Profil ertzscheid - copie
Profil ertzscheid - copieProfil ertzscheid - copie
Profil ertzscheid - copie
 
Web predictif-ertzscheid
Web predictif-ertzscheidWeb predictif-ertzscheid
Web predictif-ertzscheid
 
Confidentialité des données michel béra
Confidentialité des données   michel béraConfidentialité des données   michel béra
Confidentialité des données michel béra
 
Vade mecum sur le traitement des donnees numeriques
Vade mecum sur le traitement des donnees numeriquesVade mecum sur le traitement des donnees numeriques
Vade mecum sur le traitement des donnees numeriques
 
Ethique du numérique - livre blanc- (vf)
Ethique du numérique - livre blanc- (vf)Ethique du numérique - livre blanc- (vf)
Ethique du numérique - livre blanc- (vf)
 
La protection de la vie privée à l'heure du BIG DATA
La protection de la vie privée à l'heure du BIG DATALa protection de la vie privée à l'heure du BIG DATA
La protection de la vie privée à l'heure du BIG DATA
 
Le renseignement humain augmenté
Le renseignement humain augmentéLe renseignement humain augmenté
Le renseignement humain augmenté
 
Marketing digital et données personnelles
Marketing digital et données personnellesMarketing digital et données personnelles
Marketing digital et données personnelles
 

Plus de Amélie Marian (6)

Integration and Exploration of Connected Personal Digital Traces
Integration and Exploration of Connected Personal Digital TracesIntegration and Exploration of Connected Personal Digital Traces
Integration and Exploration of Connected Personal Digital Traces
 
Personalizing Forum Search using Multidimensional Random Walks
Personalizing Forum Search using Multidimensional Random WalksPersonalizing Forum Search using Multidimensional Random Walks
Personalizing Forum Search using Multidimensional Random Walks
 
Corroborating Facts from Affirmative Statements
Corroborating Facts from Affirmative StatementsCorroborating Facts from Affirmative Statements
Corroborating Facts from Affirmative Statements
 
Searching Web Forums
Searching Web ForumsSearching Web Forums
Searching Web Forums
 
Remembrance of data past
Remembrance of data pastRemembrance of data past
Remembrance of data past
 
Searching data with substance and style
Searching data with substance and styleSearching data with substance and style
Searching data with substance and style
 

Miettes de données - Keynote BDA 2015

  • 1. Accommoder les miettes de données : Ingrédients, Recettes et Astuces Amélie Marian – Arnaud Sahuguet BDA, Porquerolles, 2 Octobre 2015 https://goo.gl/dgAWnp 1
  • 2. Dramatis Personae Amelie Marian @ameliemarian Arnaud Sahuguet @sahuguet Paris IX Dauphine Columbia Univ., PhD X – ENPC – Paris VI Univ. of Pennsylvania, PhD Bell Labs / Alcatel-Lucent Google The Governance Lab @ NYU 2
  • 3. Les objectifs de ce keynote vous rappeler que c'est un sujet d'actualité brûlant définir les concepts, e.g. miettes, small data, big data présenter les axes de recherches liés aux miettes de données vous convaincre de vous lancer dans l'aventure rappeler que votre expertise est essentielle à un plus large débat 3
  • 4. 4
  • 5. Plus malin que l’ogre BigData ? … et a été dénoncée par Rite Aid pour “excessive transactions” Se cacher devient suspect http://time.com/83200/privacy-internet-big-data-opt-out/ ? 5 Elle a caché sa grossesse sur internet... Social medias Achats en cash ou gift card Tor pour surfer le web Janet Vertesi, Assistant Professor of Sociology à Princeton a essayé
  • 6. Finance Web of Things/Quantified Self Administration Commerce Services Web/Réseaux Sociaux Transport Mobile Santé / Assurance Services Loisirs 6
  • 7. miette : sous-produit digital de nos activités quotidiennes, telles que couriel, texto, appel téléphonique, achat, transport, jeux, etc. 7 “J'ai laissé des bouts de moi au creux de chaque endroit Un peu de chair à chaque empreinte de mes pas” Jean-Jacques Goldman, 1987.
  • 9. Taxonomie basée sur l'origine des miettes Directement depuis l'utilisateur Miette fournie - initiée - transactionnelle - publiée par l'utilisateur Miette observée - par engagement - non-anticipée - passive 9 Depuis le fournisseur de service Miette dérivée - computationelle - notationelle Miette inferrée - statistique - modèle plus avancé Source: OECD 2014, Martin Abrams
  • 10. Taxonomie pour les réseaux sociaux Service data: data you give to SP in order to use it. Disclosed data: data you post on your own pages. Entrusted data: data you post on other people's pages. Incidental data: data other people post about you. 10 Behavioral data: data collected by SP about your habits. Derived data: data derived from all other data. Source: IEEE Privacy & Security, 2010, by Bruce Schneier
  • 11. Taxonomie basée sur la nature des miettes 11 Transport Communications Commerce Loisirs Santé, Bien-être Activités Citoyennes Education Travail Social
  • 12. Soupe de "Data" big, small, personal, etc. 12
  • 13. BIG DATA vs small data 13 small data BIG DATA
  • 14. L'intérêt des miettes 14 e.g. personalisation e.g. quantified self, IoT. e.g. data philanthropy Uber, Google FluTrends, Twitter
  • 15. Ce dont on ne va pas parler... Big Data Analytics Learning Ethiques Droit à l’oubli Big Brother Patriot Act / Loi de renseignement Beaucoup de choses à dire... 15
  • 16. La vie d'une miette 16
  • 17. La vie d'une miette 17
  • 19. Suivre les miettes pour retracer ses pas 19 Quel est le restaurant où j’ai mangé la dernière fois qu’on est allé au ski ? Dates du voyage: Email de réservation, Calendrier, GPS Nom du restaurant: Relevé de CB, checkin Foursquare Quand est-ce que j’ai vu Sihem pour la dernière fois? Email et SMS avec Sihem Photos où Sihem et moi sommes taguées au même endroit Les informations existent, mais sont difficiles à accéder et connecter
  • 20. Projet Digital Self à Rutgers University Les miettes de données sont riches en contexte Des travaux en Psychologie ont montré qu’on se souvient des informations/événements à partir d’indices de contexte Qui, Quand, Où, Quoi, Pourquoi, Comment Nous proposons un PIMS basé sur des données contextuelles. Extrait les miettes de données Intègre les données fragmentées Permet la recherche sur les données personelles Crée une base de connaissances personelle En collaboration avec: Thu Nguyen Alex Borgida Daniela Vianna Valia Kalokyri Alicia-Michelle Yong Chaolun Xia 20
  • 21. Digital Self Architecture 21 • Collection de données –Identification, récupération, stockage, – Personal Extraction Tool: https://github.com/ameliemarian/DigitalSelf • Integration de données –Modèle de données unifié –Multidimensionnel, contextuel –Analyse NLP w5h Model • Recherche –basée sur des travaux sur la mémoire –contextuelle, imprécise w5h Search • Base de connaissance –Identifier des connections et séquences –Intégrer les comportements et réactions
  • 22. w5h - Modèle de données Contextuel • Différents types de contexte –Metadata –Application data –Environnement –Inférence • Cognitive Psychology –le contexte peut être utliser pour rappeller et stocker l’information 22 Who, When, Where Metadata, Environnement, Inférence What Contenu de la miette Why Tâche; fait le lien entre des miettes Inférence How Comment a-t-on enregistré la miette, Application Data
  • 23. Preliminary Results - MRR En gras: significance statistique (p<0.05) 23 w5h recherche contextuelle, index w5h Text Index texte natif Mongodb sur données modelisée en w5h Solr Index texte sur données extraites
  • 24. Base de Connaissances Personnelle (PKB) Dimension Why Connecter des miettes en identifiant les processes dont elles font partie (e.g., aller à un concert) Ontologies de processes Algorithmes de reconnaissance 24
  • 26. Intérêt Général & Gouvernance 2.0 26 « Améliorer la vie des gens en améliorant la façon dont les décisions sont prises. » Data Driven Collaborative Participatory
  • 27. Les Données Ouvertes 27 « […] that can be freely used, re-used and redistributed by anyone – subject only, at most, to the requirement to attribute and sharealike. » Open Data Handbook. En 2013, mandat de la Maison Blanche pour ouvrir les données. Etude McKinsey qui évalue à $3 milliards la valeur de l'open data. Plus d'un million de jeux de données. En France, Open Civic Data: Of the People, By the People, For the People. Sahuguet et al. 2015. RDF open data data models
  • 28. sdX project à Cornell Tech (Estrin et al.)smalldata.io « Creating community infrastructure for small data apps and services » Exemples de projet de recherche - correlation entre sommeil et activité sur les réseaux sociaux - pilote pour aider les gens qui souffrent de problèmes de dos Les défis - collecte de données & intégration - modèle de données, meta-données et langage de requête - stockage (privacy at rest) et contrôle d'accès 28 ML privacy trust data models UX
  • 29. La collecte de données 2 problèmes intéressants 29 La création d'expériences - trouver les bons sujets - leur expliquer comment les données vont être utilisées - les convaincre de donner leurs données - garantir la confidentialité des données Exemple de requête : utilisateur iOS, vivant à New York, avec un compte Twitter actif et un sensor de sommeil. PAMYADL RDF privacy trust social data models crowd UX
  • 30. Comment inciter aux dons de données P × B + D > C: a ‘calculus’ for Open Data P: probabilité que l'ouverture des données apporte de la valeur à son propriétaire. B: bénéfice pour le propriétaire des données. D: bénéfice global C: coût 30 privacy trust social open data
  • 32. Revenons au Petit Poucet 32 Les compagnies se gavent de nos miettes de données Comment les transformer en petits cailloux blancs?
  • 33. Défis de recherche Capture des données software, e.g. eye tracking hardware, e.g. IoT crowdsourcing Integration de données Alignement d’objets Identification d’entités, PKB Ontologies de tâches personnelles Stockage et Archivage Personal clouds 33 Privacy Encryption Partage d’information Interface Homme-Machine (HCI) Comment les utilisateurs partagent leurs données Comment les utilisateurs consultent leur données Personal Data Analytics Apprentissage Prediction, alertes
  • 34. Au-delà de la technologie 34
  • 35. Même si nous avions promis de ne pas en parler - la gouvernance des données - la notion de propriété des données - les incitations - les cadres juridiques - le rôle que nous, scientifiques, avons à jouer « Data science sans conscience n'est que ruine de l'âme. » #gargantua2.0 35
  • 36. Les miettes, une tradition scientifique bien française 36
  • 37. FAIM FIN. et bon appétit. Mais avant de vous laisser partir, temps pour quelques questions. 37
  • 39. Researchers wrestle with a privacy problem, Nature Sep 2015. As we may think, Vannevar Bush, the Atlantic Monthly, 1945. Beyond total capture: a constructive critique of Lifelogging, Sellen and Whitaker, CACM 2010. The Black Box Society, Frank Pasquale, 2015 39
  • 40. Data extraction •A tool for personal data extraction. D. Vianna, A.-M. Yong, C. Xia, A. Marian, and T. Nguyen PIMS: •Personal Information Management. W. Jones and J. Teevan, editors. U of Washington Press, 2007. •Seetrieve, Gyllstrom and Soules, IUI 2008. Societal issues •Managing your digital life with a Personal information management system, Serge Abiteboul, Benjamin André, Daniel Kaplan, Comm. of the ACM •http://mesinfos.fing.org •http://www.midatalab.org.uk •https://www.data.gov/consumer/smart-disclosure-policy 40
  • 41. Data Integration: •Principles of Data integration, Doan, Halevy, Ives, 2012. •Principles of dataspace systems, Halevy, Franklin, and Maier. CACM, 2006. Security and trust •Management of Personal Information Disclosure: The Interdependence of Privacy, Security, and Trust, Clare-Marie Karat, John Karat, and Carolyn Brodie •Secure Personal Data Servers: a Vision Paper. T Allard et al. VLDB, 2010. Knowledge management •Ontology for PIMS: OntoPIM, Katifori, Poggi, Scannapieco, et al. 2005 •Networked Environment for Personal, Ontology-based Management of Unified Knowledge (NEPOMUK). 41