Colloque « Données & Sécurité »
25 mars 2016, Paris
Télécom ParisTech - LINCS / GERN -CNRS
« Ce que nous disent les métadonnées »
Thierry Berthier
Chaire de Cybersécurité & Cyberdéfense Saint-Cyr
Thales - Sogeti
« Ce que nous disent les métadonnées »
Plan
1 - Définir la métadonnée , exemples, ratio des volumes
« Données / Métadonnée...
1- Définir la métadonnée
1- Définir la métadonnée
On parle souvent de « données sur la donnée » ou « d’informations
sur une information » pour défi...
1- Définir la métadonnée
Quelques exemple de métadonnées :
-Date et heure de création d’un fichier.
- Adresse ou géolocali...
Quelques contextes de création de métadonnées…
Métadonnées associées
Numéro de téléphone de l'appelant
Numéro de téléphone...
Quelques contextes de création de métadonnées…
Nom, adresse de courriel et adresse IP de
l'expéditeur
Nom et adresse de co...
Quelques contextes de création de métadonnées…
Votre nom et les renseignements
biographiques indiqués dans votre profil,
n...
Quelques contextes de création de métadonnées…
Votre nom, le lieu où vous vous trouvez,
votre langue, les renseignements
b...
Quelques contextes de création de métadonnées…
Les pages que vous visitez, et quand
Les données sur l'utilisateur et peut
...
Les métadonnées d’un tweet de 140 caractères
Les métadonnées d’un tweet de 140 caractères
Les métadonnées d’un tweet de 140 caractères
Les métadonnées d’un tweet de 140 caractères
Les métadonnées d’un tweet de 140 caractères
Un tweet de 140 caractères est donc encapsulé dans plus de 25
champs de métad...
Les métadonnées associées à un mail
Expérimentation : j’utilise Mozilla Thunderbird pour
envoyer un mail depuis mon compte...
Code source associé au message
From - Wed Mar 16 13:10:36 2016
X-Account-Key: account1
X-UIDL: 1199567394.116940
X-Mozilla...
Code source associé au message
DKIM-Signature: v=1; a=rsa-sha256; c=relaxed/relaxed;
d=gmail.com; s=20120113;
h=to:from:su...
Code source associé au message
To: Thierry Berthier <thier.berthier@orange.fr>
From: Thierry Berthier <thier.berthier@gmai...
Les métadonnées associées à un mail
Le code source associé au message contient 3676 caractères sans
les espaces et 4144 ca...
Les métadonnées associées à un mail
Les métadonnées associées à un message envoyé depuis un
compte Gmail ou Yahoo sont fac...
Les métadonnées associées à un mail
Les métadonnées associées à un mail
Les métadonnées d’archivage
Elles sont indispensables à la conservation de l’information.
Il existe plusieurs standards in...
Les métadonnées d’archivage
Les métadonnées d’archivage
Les métadonnées « métier » d’archivage : le système PAC
Les métadonnées « métier » d’archivage : le système PAC
Métadonnées d’une image numérique
Limiter ses métadonnées ?
Des applications permettent de limiter la création de
métadonnées et d’en supprimer certaines.
P...
Limiter ses métadonnées ?
Limiter ses métadonnées ?
2 – Quand la métadonnée renseigne plus que la donnée
http://www.lemonde.fr/pixels/video/2015/06/15/comment-les-metadonnees...
2 – Quand la métadonnée renseigne plus que la donnée
Une donnée numérique D est accompagnée d'une ensemble de
métadonnées ...
2 – Quand la métadonnée renseigne plus que la donnée
Exemple 1 – Téléphonie mobile
Une équipe du MIT a démontré dans un ar...
2 – Quand la métadonnée renseigne plus que la donnée
Une mesure du caractère d’unicité des traces de mobilité E (ou unicit...
2 – Quand la métadonnée renseigne plus que la donnée
Exemple 2 - Analyse des métadonnées Twitter
2 – Quand la métadonnée renseigne plus que la donnée
Exemple 2 - Analyse des métadonnées Twitter
Une équipe du Master d'in...
2 – Quand la métadonnée renseigne plus que la donnée
Exemple 2 - Analyse des métadonnées Twitter
Le fait pour un compte tw...
2 – Quand la métadonnée renseigne plus que la donnée
Exemple 2 - Analyse des métadonnées Twitter
La valeur du ratio R expl...
3 - La projection algorithmique
d’un individu
3-1 La projection algorithmique d’un individu
Lorsqu’un individu H déclenche l’exécution (volontaire ou non)
d’un algorith...
3 -1 La projection algorithmique d’un individu
POS(H/A) est la composante ouverte de la projection, elle est
publique, con...
3-1 - La projection algorithmique d’un individu
Lorsque l’on considère maintenant la réunion de toutes les
projections alg...
3-1 - La projection algorithmique d’un individu
La projection globale P(H) d’un individu se décompose encore en
composante...
3-1 - La projection algorithmique d’un individu
Dans quelle mesure notre libre-arbitre peut-il
s’accommoder d’une projecti...
3-2 - Le niveau d’ubiquité d’un lieu
Considérons à présent un individu évoluant dans une ville
connectée durant l'interval...
3-2 - Le niveau d’ubiquité d’un lieu
Définition du niveau d'ubiquité d'une ville :
Une ville est dite ubiquitaire de nivea...
3-2 - Le niveau d’ubiquité d’un lieu
Ubiquité et temporalité
La durée d’observation choisie T détermine le niveau d’ubiqui...
3-3 - Le consentement algorithmique
Ce second niveau d'ubiquité s'appuie cette fois sur une appréciation
rétrospective que...
3-3 - Le consentement algorithmique
Les réponses de l'usager permettent alors de séparer l'ensemble des
projections systém...
3-3 - Le consentement algorithmique
Puis, on passe à la phase de jugement rétrospectif de l'usager, à
l'instant T, sur ses...
3-3 - Le consentement algorithmique
Enfin, on définit la valeur moyenne de ce ratio
µ (R cons ( H , [0,T] ) ) prise sur to...
3-3 - Le consentement algorithmique
La valeur du consentement algorithmique dépend en
particulier de la période sur laquel...
3-3 - Le consentement algorithmique
Prospérité et développement d’une ville intelligente :
Une ville intelligente ne peut ...
http://cyberland.centerblog.net/
http://echoradar.eu/
http://www.chaire-cyber.fr/
Prochain SlideShare
Chargement dans…5
×

Colloque "données et sécurité" Ce que disent les métadonnées

1 563 vues

Publié le

Colloque "Données et Sécurité" - Télécom ParisTech
Titre : "Ce que disent les métadonnées"
25 mars 2016

Publié dans : Internet
  • Soyez le premier à commenter

Colloque "données et sécurité" Ce que disent les métadonnées

  1. 1. Colloque « Données & Sécurité » 25 mars 2016, Paris Télécom ParisTech - LINCS / GERN -CNRS
  2. 2. « Ce que nous disent les métadonnées » Thierry Berthier Chaire de Cybersécurité & Cyberdéfense Saint-Cyr Thales - Sogeti
  3. 3. « Ce que nous disent les métadonnées » Plan 1 - Définir la métadonnée , exemples, ratio des volumes « Données / Métadonnées » 2 - Quand la métadonnée renseigne plus que la donnée… 3 - Métadonnées et projections algorithmiques
  4. 4. 1- Définir la métadonnée
  5. 5. 1- Définir la métadonnée On parle souvent de « données sur la donnée » ou « d’informations sur une information » pour définir la métadonnée. Il s’agit d’une donnée qui décrit une autre donnée. Elle accompagne la donnée principale et contient de l’information additionnelle sur cette donnée. Le préfixe grec « méta » indique le niveau supérieur de cette information. Certains qualifient les métadonnées d’armes à double tranchant : à la fois très utiles pour classer et structurer l’information mais parfois également néfastes pour l’utilisateur dans certaines situations. Nous sous-estimons fortement le volume d’information véhiculé par les métadonnées.
  6. 6. 1- Définir la métadonnée Quelques exemple de métadonnées : -Date et heure de création d’un fichier. - Adresse ou géolocalisation du lieu où a été créé le fichier. -Nom des contributeurs ayant travaillé sur un document ou commentaires ajoutés. - La marque, le modèle et l’opérateur téléphonique lors d’un appel sur smartphone. - Type d’appareil photo utilisé et paramètres fixés au moment de la prise de vue. - Le type d’enregistreur audio ou vidéo et les paramètres fixés lors de l’enregistrement .
  7. 7. Quelques contextes de création de métadonnées… Métadonnées associées Numéro de téléphone de l'appelant Numéro de téléphone composé Numéro de série unique des appareils téléphoniques utilisés Heure de l'appel Durée de l'appel Emplacement de chaque participant Numéro de carte d'appel https://www.priv.gc.ca/information/research-recherche/2014/md_201410_f.asp
  8. 8. Quelques contextes de création de métadonnées… Nom, adresse de courriel et adresse IP de l'expéditeur Nom et adresse de courriel du destinataire Renseignements sur le transfert via le serveur Date, heure et fuseau horaire Identifiant unique du courriel et des courriels connexes (identifiant de message) Type de contenu et codage Dossier de connexion du client de la messagerie avec adresse IP Format de l'en-tête du client de la messagerie Priorité et catégorie Objet du courriel Statut du courriel Demande de confirmation de lecture
  9. 9. Quelques contextes de création de métadonnées… Votre nom et les renseignements biographiques indiqués dans votre profil, notamment votre date de naissance, votre ville natale, vos antécédents professionnels et vos centres d'intérêt Votre nom d'utilisateur et identifiant unique Vos abonnements Le lieu où vous vous trouvez L'appareil que vous utilisez La date et l'heure de l'activité ainsi que le fuseau horaire Vos activités, ce que vous aimez, le lieu où vous vous trouvez et les événements auxquels vous assistez https://www.priv.gc.ca/information/research-recherche/2014/md_201410_f.asp
  10. 10. Quelques contextes de création de métadonnées… Votre nom, le lieu où vous vous trouvez, votre langue, les renseignements biographiques indiqués dans votre profil et votre URL La date à laquelle vous avez créé votre compte Votre nom d'utilisateur et votre identifiant unique Le lieu du gazouillis, la date, l'heure et le fuseau horaire Le numéro d'identification unique du gazouillis et celui du gazouillis auquel vous répondez Le code d'identification des contributeurs Le nombre d'abonnés, d'abonnements et de favoris Votre statut en matière de vérification L'application qui a servi à l'envoi du gazouillis
  11. 11. Quelques contextes de création de métadonnées… Les pages que vous visitez, et quand Les données sur l'utilisateur et peut être les détails de connexion de l'utilisateur avec la fonction de saisie automatique Les adresses URL Votre adresse IP, votre fournisseur de services Internet, les détails matériels de votre appareil, la version du système d'exploitation et du navigateur Les témoins et données en cache provenant des sites Web Vos requêtes de recherche Les résultats de recherche qui s'affichent Les pages que vous visitez par la suite https://www.priv.gc.ca/information/research-recherche/2014/md_201410_f.asp
  12. 12. Les métadonnées d’un tweet de 140 caractères
  13. 13. Les métadonnées d’un tweet de 140 caractères
  14. 14. Les métadonnées d’un tweet de 140 caractères
  15. 15. Les métadonnées d’un tweet de 140 caractères
  16. 16. Les métadonnées d’un tweet de 140 caractères Un tweet de 140 caractères est donc encapsulé dans plus de 25 champs de métadonnées. Le tweet (champ TEXTE) lui-même peut être considéré comme l’une des métadonnées de l’ensemble informationnel. Il n’est pas privilégié dans la structure, c’est un champ parmi les autres champs. Si l’on compare le nombre de caractères du Tweet (< 140) et le nombre de caractères de l’ensemble des métadonnées qui l’accompagnent, on obtient un ratio R pour Twitter : R = Volume message / Volume total envoyé R < 5% !
  17. 17. Les métadonnées associées à un mail Expérimentation : j’utilise Mozilla Thunderbird pour envoyer un mail depuis mon compte Gmail sur mon compte Orange : Texte de mon mail : « Bonjour, Voici un mail. Observons les métadonnées associées ». Longueur du message = 52 caractères sans les espaces, 58 en les comptant. Le code source associé à ce message est reproduit dans les slides suivantes …
  18. 18. Code source associé au message From - Wed Mar 16 13:10:36 2016 X-Account-Key: account1 X-UIDL: 1199567394.116940 X-Mozilla-Status: 0001 X-Mozilla-Status2: 00000000 X-Mozilla-Keys: Return-Path: <thier.berthier@gmail.com> Received: from mwinf5c45 (mwinf5c45.me-wanadoo.net [10.223.111.95]) by mwinb2p02 with LMTPA; Wed, 16 Mar 2016 13:10:30 +0100 X-Sieve: CMU Sieve 2.3 Received: from mail-wm0-f53.google.com ([74.125.82.53]) by mwinf5c45 with ME id WXQd1s01P191faa01cAWk9; Wed, 16 Mar 2016 13:10:30 +0100 X-bcc: thier.berthier@orange.fr X-ME-bounce-domain: orange.fr X-ME-engine: default X-me-spamcause: (0)(0000)gggruggvucftvghtrhhoucdtuddrfeekkedrtddvgdefheculddtuddrfeekjedrtddtmdcutefuodetggdotefrodftvfcurfhrohhfihhlvgemucfogf dpggftiffpkfenuceurghilhhouhhtmecugedttdenucenucfjughrpefvhffukffffgggtgfgsehtkegrtddtfeejnecuhfhrohhmpefvhhhivghrrhihuceuvghrth hhihgvrhcuoehthhhivghrrdgsvghrthhhihgvrhesghhmrghilhdrtghomheqnecuffhomhgrihhnpegrvhgrshhtrdgtohhmnecukfhppeejgedruddvhed rkedvrdehfedpledtrdefkedrkeegrdekudenucfrrghrrghmpehhvghlohepmhgrihhlqdifmhdtqdhfheefrdhgohhoghhlvgdrtghomhdpihhnvghtpeejg edruddvhedrkedvrdehfedpmhgrihhlfhhrohhmpehthhhivghrrdgsvghrthhhihgvrhesghhmrghilhdrtghomhdprhgtphhtthhopehthhhivghrrdgsvgh rthhhihgvrhesohhrrghnghgvrdhfrh X-me-spamlevel: not-spam X-ME-Helo: mail-wm0-f53.google.com X-ME-IP: 74.125.82.53 X-ME-Entity: ofr Received: by mail-wm0-f53.google.com with SMTP id l124so37043686wmf.1 for <thier.berthier@orange.fr>; Wed, 16 Mar 2016 05:10:30 -0700 (PDT)
  19. 19. Code source associé au message DKIM-Signature: v=1; a=rsa-sha256; c=relaxed/relaxed; d=gmail.com; s=20120113; h=to:from:subject:message-id:date:user-agent:mime-version :content-transfer-encoding; bh=jvnu7JfOim9bOWPcVMASJIJjk8a/JJOVzO5hmx1+HyM=; b=V5z9ya3nfRYlPfejSZIu1GQRCUotzB39+SJLyUYpyKUAZM/aHuCrywScv1oDbmiApx tG3eeg0ZMD5NT3C+cIVMttF4m1PA/Xhrlz5QtlKsTT7HSzESGMxg58E/VhvalQ5X1ZQO de5af6V9MFYgFUYMFvn5zKDMCIkmDcQ74760gdSuKaGtg0Yd0ek6CC3yz2X1k4Gjhk9V dL/svKF8FdPEpgsgPRtBEXmdD7SVXGu3xphBq49tXaXeokp/8ykXe3eOHjuk7YjB4CdG dhWnQwSjuEx47kExzoHb9hBrjzPywJtwWSIyhqnhvgLLBgFeDzN6D9CilOH9e+igxHNX HIlQ== X-Google-DKIM-Signature: v=1; a=rsa-sha256; c=relaxed/relaxed; d=1e100.net; s=20130820; h=x-gm-message-state:to:from:subject:message-id:date:user-agent :mime-version:content-transfer-encoding; bh=jvnu7JfOim9bOWPcVMASJIJjk8a/JJOVzO5hmx1+HyM=; b=fOk5zdPhQecvBVcat+qxZT+uxawbt2FQZEXpaMFlVToICViaSVi/YSLBhtUWbcDfsO f27+RcSPGbJng5sKOY1SUkjQ2jBO5m3+DnFs+Y56rypbHeebSscum8Tz8llDmI4R3rEb V14B3ZDI4XWC1VsJ71x7THBWUw35LQjOntNUVYZosmhivcifJUj+YHa8i2coK3cAd1vj E0IwU9r0pIU+4oaaB37FNczJVa8ae50q90hzpA9Ol5GuuAG41grdbHo+E9vWIiojZljG hpCz0QvcM6JsMgOZqKmYSf8gI8PRHH0lhO8SIJYDhEyvVLyy0wy0CJlWcAUYmHQbIsAi rjcg== X-Gm-Message-State: AD7BkJJfJ+E0PF3fg9H4RNZfV3SNr/QBZBY7s2HuJ0T34cLZk8rD1hu43V1ac3fW7RAXtw== X-Received: by 10.194.189.7 with SMTP id ge7mr3450791wjc.72.1458130230263; Wed, 16 Mar 2016 05:10:30 -0700 (PDT) Received: from [127.0.0.1] (APoitiers-257-1-17-81.w90-38.abo.wanadoo.fr. [90.38.84.81]) by smtp.googlemail.com with ESMTPSA id g203sm25229488wmf.23.2016.03.16.05.10.29 for <thier.berthier@orange.fr> (version=TLSv1/SSLv3 cipher=OTHER); Wed, 16 Mar 2016 05:10:29 -0700 (PDT)
  20. 20. Code source associé au message To: Thierry Berthier <thier.berthier@orange.fr> From: Thierry Berthier <thier.berthier@gmail.com> Subject: =?UTF-8?Q?Un_mail_et_ses_m=c3=a9tadonn=c3=a9es?= Message-ID: <56E94D33.1040407@gmail.com> Date: Wed, 16 Mar 2016 13:10:27 +0100 User-Agent: Mozilla/5.0 (Windows NT 6.3; WOW64; rv:38.0) Gecko/20100101 Thunderbird/38.5.1 MIME-Version: 1.0 Content-Type: text/plain; charset=utf-8; format=flowed Content-Transfer-Encoding: 8bit X-Antivirus: avast! (VPS 160315-1, 15/03/2016), Outbound message X-Antivirus-Status: Clean X-Antivirus: avast! (VPS 160315-1, 15/03/2016), Inbound message X-Antivirus-Status: Clean Bonjour, Voici un mail. Observons les métadonnées associées. --- L'absence de virus dans ce courrier électronique a été vérifiée par le logiciel antivirus Avast. https://www.avast.com/antivirus
  21. 21. Les métadonnées associées à un mail Le code source associé au message contient 3676 caractères sans les espaces et 4144 caractères espaces compris. On observe alors dans ce contexte d’envoi un ratio R : R = 52 / 3676 = 0,0141 soit à peine plus de 1% (!) On retrouve ce ratio avec la plupart des clients de messagerie électronique. Le volume de l’information volontairement transmise par l’utilisateur représente moins de 10 % du volume numérique envoyé …
  22. 22. Les métadonnées associées à un mail Les métadonnées associées à un message envoyé depuis un compte Gmail ou Yahoo sont facilement exploitable et fournissent une « mine d’informations ». Vous pouvez expérimenter en utilisant votre compte Gmail ou Yahoo à partir de l’application IMMERSION développée par une équipe de chercheurs du MIT : https://immersion.media.mit.edu/ Immersion réalise le « mapping » de l’ensemble de vos contacts et échanges à partir de votre boite gmail (data visualisation) en hiérarchisant les métadonnées par fréquence d’envoi et de réception.
  23. 23. Les métadonnées associées à un mail
  24. 24. Les métadonnées associées à un mail
  25. 25. Les métadonnées d’archivage Elles sont indispensables à la conservation de l’information. Il existe plusieurs standards internationaux comme le modèle OAIS : Reference Model for an Open Archival Information System développé par l’organisme international de normalisation des agences spatiales. Les données archivées sont encapsulées dans un ensemble de métadonnées qui permet de garantir leur traçabilité et leur intégrité.
  26. 26. Les métadonnées d’archivage
  27. 27. Les métadonnées d’archivage
  28. 28. Les métadonnées « métier » d’archivage : le système PAC
  29. 29. Les métadonnées « métier » d’archivage : le système PAC
  30. 30. Métadonnées d’une image numérique
  31. 31. Limiter ses métadonnées ? Des applications permettent de limiter la création de métadonnées et d’en supprimer certaines. Par exemple, le système d’exploitation TAILS peut être utilisé pour minorer le volume de métadonnées créées par l’utilisateur (TAILS s’appuie sur TOR). TAILS : The Amnesic Incognito Live System
  32. 32. Limiter ses métadonnées ?
  33. 33. Limiter ses métadonnées ?
  34. 34. 2 – Quand la métadonnée renseigne plus que la donnée http://www.lemonde.fr/pixels/video/2015/06/15/comment-les-metadonnees-permettent- de-vous-surveiller-explique-en-patates_4654461_4408996.html
  35. 35. 2 – Quand la métadonnée renseigne plus que la donnée Une donnée numérique D est accompagnée d'une ensemble de métadonnées M(D) = { M1, M2, .... , Mk } . La paire (D, M(D) ) est stockée ou transmise. On s'intéresse à l'ensemble de toutes les hypothèses que l'on peut formuler à partir de M(D) en utilisant les règles usuelles de logique (sans connaitre le contenu de D). On note H(D) = < M(D) > l'ensemble des hypothèses construites à partir de la seule connaissance des métadonnées de D ou d'une partie seulement de ces métadonnées H(D) = { H1, H2, .... , Hn } Chaque hypothèse Hi a une probabilité pi d'être vérifiée connaissant M(D) (Hi peut être vraie sur un certain contexte à un instant t ). pi = P ( Hi / M(D) )
  36. 36. 2 – Quand la métadonnée renseigne plus que la donnée Exemple 1 – Téléphonie mobile Une équipe du MIT a démontré dans un article de 2013 (Yves Alexandre de Montjoye, César A Hidalgo, Michel Verleysen article publié sur la revue Nature) qu’il suffit de quatre repères spatio-temporels de type métadonnées pour déterminer, dans 95% des cas, l’identité d’un individu utilisant un réseau de communication téléphonique. Les repères utilisés sont par exemple le lieu ou l’heure de l’appel téléphonique. L’identité de la cible est inconnue, seules ses traces de mobilité sont analysées. L’étude a été menée à partir des données de mobilité d’un ensemble de 1,5 million d’utilisateurs d’un réseau de téléphonie mobile. La collecte des données a eu lieu entre avril 2006 et juin 2007 dans un pays occidental. Lorsque l’utilisateur interagit avec le réseau de téléphonie par le lancement ou la réception d’un appel ou d’un SMS, l’emplacement de l’antenne de connexion relais est enregistré ainsi que l’heure de l’appel. La résolution spatiale de l’ensemble de données est égale à la moitié de la distance maximale séparant les antennes. La résolution temporelle de l’ensemble est exprimée en heures.
  37. 37. 2 – Quand la métadonnée renseigne plus que la donnée Une mesure du caractère d’unicité des traces de mobilité E (ou unicité de mobilité humaine) est construite à partir des données collectées, et s’exprime selon la formule : E = a – (v . h)B h est la résolution temporelle, v la résolution spatiale liée au nombre d’antennes. B est un exposant linéairement lié aux nombres de traces de mobilité, par exemple B = – p / 100 avec p traces utilisées (en pratique p = 4 suffit à l’identification). La quantité « a » est une constante d’ajustement liée au système. En moyenne, l’étude rapporte 114 interactions par utilisateur, par mois, sur un réseau de 6500 antennes référencées. Ces antennes sont distribuées sur le territoire en servant environ 2000 habitants par antenne et couvrant des zones géographiques de 0,15 km² en secteur urbain et 15 km² en zone rurale. Le nombre d’antennes est bien entendu corrélé à la densité de population. Les traces de mobilité n’ont pas toutes la même valeur informationnelle. Ainsi, une communication téléphonique passée à midi en plein centre de Paris est moins spécifique, moins parlante qu’un appel passé à quatre heures du matin depuis une clairière de la forêt de Fontainebleau. L’étude démontre que quatre traces ou points choisis au hasard sont suffisants pour caractériser de façon unique 95% des utilisateurs du réseau ; c’est-à-dire que E > 0,95.
  38. 38. 2 – Quand la métadonnée renseigne plus que la donnée Exemple 2 - Analyse des métadonnées Twitter
  39. 39. 2 – Quand la métadonnée renseigne plus que la donnée Exemple 2 - Analyse des métadonnées Twitter Une équipe du Master d'intelligence économique de l'université d'Angers s'est intéressée au Buzz médiatique créé le 17 mai 2015 par les révélations de Médiapart sur le procès Kerviel/ Société Générale. En utilisant le logiciel de data visualisation - cartographie Gephi l'équipe a analysé les interactions sur Twitter à partir des seules métadonnées et a été en mesure de produire les hypothèses suivantes : Mediapart, source de l’affaire, est le principal vecteur de sa diffusion. Jérome Kerviel, très mentionné car cité directement dans les tweets de Mediapart et Edwy Plenel, profite de l’occasion pour communiquer de son côté. Le compte @sg_etvous, même peu mentionné, est visible en dehors des clients de la Société Générale. Les politiques Jean-Luc Mélenchon et Eva Joly ne touchent que leurs sympathisants (leur propre communauté), contrairement au porte-parole des Verts Julien Bayou. L’avocat David Koubbi, qui prend à parti la Société Générale dans ses tweets, est très central dans les échanges.Un second filtrage sous Gephi permet de faire ressortir certains médias et quelques élus, sans enlever de comptes très mentionnés ou centraux en dehors de @Denisjph2, compte central avec 816 followers.Cela correspond à la logique de diffusion de cette information : ce sont surtout des médias ou des politiques qui relaient l’information, et qui ont donc déjà de nombreux abonnés.
  40. 40. 2 – Quand la métadonnée renseigne plus que la donnée Exemple 2 - Analyse des métadonnées Twitter Le fait pour un compte twitter d’être présent dans un nombre très important de listes permet de confirmer si des twittos considèrent ses tweets intéressants ou non. Ici, on constate que seuls les comptes de médias restent, en dehors de Jean-Luc Mélenchon, seul politique présent. La plupart des comptes ayant contribué aux discussions sur la Société Générale ne sont donc pas forcément jugés pertinents par de nombreux membres de Twitter. Cela confirme le caractère très « parisien » de la diffusion de cette information, mais aussi que les politiques nationaux basés sur Paris qui interviennent sur le sujet n’assument pas trop d’y être présent. Bien entendu, selon les thématiques, l’utilisation des filtres sera plus ou moins pertinente. Le buzz sur la « nouvelle » affaire étant ici assuré par des médias et des politiques, ce sont principalement des comptes Twitter basés à Paris, étant très listés et ayant beaucoup d’abonnés. http://master-iesc-angers.com/usage-des-metadonnees-pour-lanalyse-des- reseaux-sociaux-via-gephi-lexemple-de-la-societe-generale/
  41. 41. 2 – Quand la métadonnée renseigne plus que la donnée Exemple 2 - Analyse des métadonnées Twitter La valeur du ratio R explique la puissance informationnelle des métadonnées. En tant qu'utilisateur : -Nous sous-estimons fortement la taille de l'ensemble M(D) -Nous sous-estimons fortement le volume de l'ensemble H(D) = < M(D) > -Nous sous-estimons la vitesse de convergence vers 1 des probabilités pi = P (Hi / M(D) ) lorsque M(D) croît !
  42. 42. 3 - La projection algorithmique d’un individu
  43. 43. 3-1 La projection algorithmique d’un individu Lorsqu’un individu H déclenche l’exécution (volontaire ou non) d’un algorithme A sur un système S, une partie de l’information associée à cette exécution est stockée quelque part dans les archives de S, dans le Cloud ou ailleurs. C’est la trace numérique de cette interaction. Cette information est notée PS(H/A), comme la projection algorithmique de H sur S selon A. PS(H/A) est un ensemble de mots binaires m qui ont un sens pour la machine qui exécute A. Cette projection algorithmique peut se décomposer en composantes ouverte et fermée : PS(H/A) = POS(H/A) U PFS(H/A)
  44. 44. 3 -1 La projection algorithmique d’un individu POS(H/A) est la composante ouverte de la projection, elle est publique, consultable par tous les utilisateurs sur S. PFS(H/A) est la composante fermée de la projection, elle est privée, consultable par les administrateurs de S et d’autres… Elle peut aussi se décomposer en composantes volontaire et systémique : PS(H/A) = PVOL-S(H/A) U PSYST-S(H/A) PVOL-S(H/A) est la composante volontaire de la projection. (je rédige un mail et je l’envoie, j’achète un objet en ligne). PSYST-S(H/A) est la composante systémique de la projection. (les métadonnées créées lors d’une interaction).
  45. 45. 3-1 - La projection algorithmique d’un individu Lorsque l’on considère maintenant la réunion de toutes les projections algorithmiques d’un individu H sur le système S, on obtient sa S-projection notée PS(H) : PS(H) = UA PS(H/A) Puis, on généralise encore en considérant la réunion de toutes les S-projections de H. On obtient la projection algorithmique globale de H notée P(H) : P(H) = US PS(H)
  46. 46. 3-1 - La projection algorithmique d’un individu La projection globale P(H) d’un individu se décompose encore en composantes globales ouverte, fermée, volontaire et systémique. Elle se construit tout au long de notre vie… P(H) est croissante en fonction du temps t. L’archivage et la duplication des données assurent cette croissance en volume, de la naissance jusqu’à la mort. La composante globale systémique va bientôt dépasser en volume la composante volontaire. Les objets connectés vont contribuer à ce basculement du volontaire vers le systémique.
  47. 47. 3-1 - La projection algorithmique d’un individu Dans quelle mesure notre libre-arbitre peut-il s’accommoder d’une projection globale systémique hyper croissante ? Doit-on s’y opposer ? Chacun possède sa propre réponse. Celle d’aujourd’hui n’est pas celle de demain. Ma réponse est toujours directement liée à mon niveau de consentement algorithmique (cf. partie 3).
  48. 48. 3-2 - Le niveau d’ubiquité d’un lieu Considérons à présent un individu évoluant dans une ville connectée durant l'intervalle de temps [0,T]. Au cours de cette période, il va produire des projections algorithmiques volontaires et systémiques (involontaires) dont on mesure le volume total V Vol ( H , [0,T] ) et V Syst ( H , [0,T] ) . On s'intéresse ensuite au ratio des volumes "volontaire / systémique" durant la période considérée : R ( H , [0,T] ) = V Vol ( H , [0,T] ) / V Syst ( H , [0,T] ) puis à la valeur moyenne µ ( R ( H , [0,T] ) ) de ce ratio prise sur tous les individus fréquentant la ville durant la période [0,T]. On peut alors définir le niveau d'ubiquité d'une ville connectée en fonction de cette valeur moyenne.
  49. 49. 3-2 - Le niveau d’ubiquité d’un lieu Définition du niveau d'ubiquité d'une ville : Une ville est dite ubiquitaire de niveau N sur la période [0,T] si : µ ( R ( H , [0,T] ) ) < 10 - N Le niveau d'ubiquité d'une ville intelligente est l'entier N[0,T] maximum vérifiant cette inégalité. Plus N est grand et plus la partie systémique des projections est prépondérante sur la partie volontaire. Cela signifie que durant la période considérée, la densité des objets, systèmes de surveillance vidéo et infrastructures connectées de la ville provoque cette dissymétrie. Le niveau N est globalement croissant dans le temps au sein d'une ville intelligente.
  50. 50. 3-2 - Le niveau d’ubiquité d’un lieu Ubiquité et temporalité La durée d’observation choisie T détermine le niveau d’ubiquité du lieu. On peut s’intéresser à l’évolution de ce niveau d’ubiquité lorsque T tend vers 0. La limite s’interprète alors comme le niveau d’ubiquité instantané d’un lieu donné.
  51. 51. 3-3 - Le consentement algorithmique Ce second niveau d'ubiquité s'appuie cette fois sur une appréciation rétrospective que l'usager porte sur sa propre projection algorithmique purement systémique. Le niveau de consentement algorithmique (ou ubiquité consentie) mesure en quelque sorte le degré de liberté algorithmique ressenti par les usagers d'une ville intelligente. On le définit à partir des projections algorithmiques systémiques des usagers : P Syst - S ( H / A). On observe leur production de projections purement systémique durant l'intervalle de temps [0,T] puis à l'instant T, on leur demande de se prononcer rétrospectivement sur l'admissibilité de chacune des projections systémiques par la question : "Vous avez produit involontairement P Syst - S ( H / A). Si vous aviez la possibilité de bloquer ou de supprimer cette projection, le feriez-vous ?".
  52. 52. 3-3 - Le consentement algorithmique Les réponses de l'usager permettent alors de séparer l'ensemble des projections systémiques créées durant la période [0,T] en deux sous- ensemble : les projections systémiques rétrospectivement consenties d'une part, et celles qui sont rétrospectivement jugées non admissibles par l'usager, c'est-à-dire, celles qu'il aurait refusées s'il en avait eu la possibilité. Ainsi, la projection systémique sur un système S pendant la durée [0,T] s'écrit : PSyst - S (H, [0,T] ) = UA, [0,T] PSyst - S (H/A) On la généralise à tous les systèmes actifs pendant l'intervalle de temps [0,T] pour obtenir : PSyst (H, [0,T]) = US PSyst - S (H, [0,T])
  53. 53. 3-3 - Le consentement algorithmique Puis, on passe à la phase de jugement rétrospectif de l'usager, à l'instant T, sur ses projections systémiques : PSyst (H, [0,T]) = PSyst - consentie (H, [0,T]) U PSyst - refusée (H, [0,T]) Cette partition fait apparaitre la projection algorithmique systémique consentie par l'usager d'une part PSyst - consentie (H, [0,T]) et d'autre part, celle qu'il refuserait rétrospectivement de produire s'il en avait la possibilité : PSyst - refusée (H, [0,T]). En considérant les volumes respectifs de ces projections consenties et systémiques, on peut alors définir le ratio de consentement algorithmique d'un usager de la ville sur l'intervalle de temps [0,T] par : R consentie ( H , [0,T] ) = V Syst - consentie ( H , [0,T] ) / V Syst ( H , [0,T] )
  54. 54. 3-3 - Le consentement algorithmique Enfin, on définit la valeur moyenne de ce ratio µ (R cons ( H , [0,T] ) ) prise sur tous les individus fréquentant la ville durant la période [0,T]. Définition du consentement algorithmique : On appelle consentement algorithmique sur la période [0,T] ou niveau d'ubiquité consentie d'une ville intelligente sur la période [0,T], la valeur C[0,T] = µ (R consentie ( H , [0,T] ) ) . Plus cette valeur moyenne C[0,T] est proche de 1 et plus il y a consentement algorithmique des usagers de la ville intelligente. Plus ce ratio s'approche de 0 et plus les usagers ont le sentiment d'une perte de liberté et d'une captation illégitime par les infrastructures connectées de leurs données personnelles. Le ratio fournit une mesure sur la période [0,T] du degré de liberté ressentie par l'usager au sein de la ville intelligente.
  55. 55. 3-3 - Le consentement algorithmique La valeur du consentement algorithmique dépend en particulier de la période sur laquelle on la mesure et du lieu d'implantation de la ville intelligente. Par exemple, la demande en systèmes de vidéo surveillance automatisés semble plus forte chez les habitants de Songdo (Corée du Sud) que dans une ville connectée européenne. C'est avant tout une question de culture, de perception des risques et d'acceptation d'une technologie parfois intrusive.
  56. 56. 3-3 - Le consentement algorithmique Prospérité et développement d’une ville intelligente : Une ville intelligente ne peut prospérer, se développer, et augmenter ses capacités algorithmiques que si, lorsque N[0,T] croît, alors C[0,T] croît également. Autrement dit, le développement et la prospérité d'une ville connectée reposent sur les croissances conjuguées de son niveau d'ubiquité N[0,T] et de son consentement algorithmique C[0,T] .
  57. 57. http://cyberland.centerblog.net/ http://echoradar.eu/ http://www.chaire-cyber.fr/

×