www.centraliens.net 17
Dossier
D
ans notre vie quotidienne, nous
constatons l’explosion des données
numériques : nos relat...
Dossier
18 Centraliens no
634 [juin 2014]
La révolution des données
ou l’or du XXIe
siècle
La révolution numérique a engen...
www.centraliens.net 19
big data, so what ?
se cache derrière ces quantités d’informations
produites et stockées tous les j...
Dossier
20 Centraliens no
634 [juin 2014]
L
’objectif principal de la business
intelligence (BI) est de transformer
les do...
www.centraliens.net 21
big data, so what ?
La figure 1b correspond à la vision du projet
CUBIST, dans laquelle les sources...
Dossier
22 Centraliens no
634 [juin 2014]
et d’enrichir sémantiquement des données
au format RDF, et ceci à très grande éc...
www.centraliens.net 23
big data, so what ?
Dossier
24 Centraliens no
634 [juin 2014]
Figure 1. Les trois propriétés du théorème CAP de Brewer.
L
a montée en puissanc...
www.centraliens.net 25
big data, so what ?
quer plusieurs versions d’une même don-
née sur différentes machines. Il suffit...
Dossier
26 Centraliens no
634 [juin 2014]
S
i l’on considère l’assurance auto, le
développement des premières offres
de ta...
www.centraliens.net 27
big data, so what ?
Sur un plan fondamental, un risque n’est
en effet assurable qu’à la condition d...
Dossier
28 Centraliens no
634 [juin 2014]
S
ur Internet, le marché de la publi-
cité se décompose en deux grandes
catégori...
www.centraliens.net 29
big data, so what ?
Chacun des acheteurs potentiels connectés
à ces plates-formes reçoit une requêt...
Dossier
30 Centraliens no
634 [juin 2014]
Vers la médecine 3.0 ?
Le suivi de la grippe saisonnière dans 18 pays, dont
les ...
www.centraliens.net 31
big data, so what ?
cardiaque, etc. Parallèlement à l’arrivée de
smartphones disposant de fonctions...
Dossier
32 Centraliens no
634 [juin 2014]
M
étadonnées, littéralement « don-
nées à propos des données  ».
Bien que le ter...
www.centraliens.net 33
big data, so what ?
desquelles on a retiré les identifiants d’un
utilisateur  : son nom, son numéro...
Prochain SlideShare
Chargement dans…5
×

Central634_Dossier_completDV_001

164 vues

Publié le

0 commentaire
0 j’aime
Statistiques
Remarques
  • Soyez le premier à commenter

  • Soyez le premier à aimer ceci

Aucun téléchargement
Vues
Nombre de vues
164
Sur SlideShare
0
Issues des intégrations
0
Intégrations
8
Actions
Partages
0
Téléchargements
6
Commentaires
0
J’aime
0
Intégrations 0
Aucune incorporation

Aucune remarque pour cette diapositive

Central634_Dossier_completDV_001

  1. 1. www.centraliens.net 17 Dossier D ans notre vie quotidienne, nous constatons l’explosion des données numériques : nos relations avec nos fournisseurs, l’administration, les banques et aussi la photographie, la vidéo, les réseaux sociaux sont devenus numériques, avec une progression exponentielle de la créa- tion de données. Cette progression est loin d’être terminée, notamment avec le dévelop- pement de l’usage des smartphones, tablettes numériques et avec l’arrivée de « l’Internet des objets » qui voit n’importe quelle apps ou objet (réfrigérateur, montre cardio, voiture et plus généralement objet connecté) échanger de l’information avec des systèmes ou acteurs toujours plus nombreux sur les réseaux Inter- net. Ainsi, de nouvelles technologies ont été créées et se développent, en particulier dans le domaine de l’analyse, pour tirer parti de ces in- formations numériques : le « big data » est né. Il a ses caractéristiques propres ; on parle des trois, et parfois des quatre « V » : • volumes de données ; • variété de nature, de type… ; • vitesse ; • véracité des données. Seulement voilà, au-delà des technologies, quelssontlesusagespotentielsdecesbigdata? Ouvrent-elles la porte à de nouveaux services pour le commun des mortels ? Toutes ces informations qui traquent le moindre de nos mouvements, questions, en- vies, ne viennent-elles pas entraver les libertés individuelles ? In fine, c’est l’usage des technologies de big data qui va apporter la valeur, parfois consi- dérée comme le cinquième « V » et dimen- sion ultime des big data. Il est intéressant de souligner ici que l’ap- proche big data est et doit être systémique, car c’est le modèle d’affaire ou de fonctionnement des organisations elles-mêmes qui est modifié. C’est une des raisons pour laquelle la plupart des professionnels contactés m’ont expliqué le caractère stratégique de ce sujet pour leur société. D’où leur refus de communiquer. Ce caractère systémique va d’ailleurs large- ment au-delà des frontières des entreprises et des organisations ; l’approche de l’ingé- nieur doit être holistique. De fait, il induit une réelle complexité du sujet dans le sens ou la réaction des écosystèmes aux systèmes de big data mis en place évoluent avec le temps : par exemple, Google modifie régulièrement ses algorithmes de « scoring » pour tenir compte de l’usage qui est fait de son moteur de recherche. Nous verrons dans le dossier l’exemple d’une société française innovante et reconnue mondialement. Au fond, c’est un terrain de jeu passion- nant : le marketing, souvent premier grand bénéficiaire du volet technologique du big data, doit être traité en même temps que la stratégie, les partenariats et l’organisation. Nous apportons ici des éléments de réponse et de réflexion en illustrant en particulier les usages du big data : • un premier article plante le décor de la révolution industrielle que représente ce nouveau monde de l’information ; • deux articles couvrent les aspects techno- logiques : la recherche (analyse séman- tique des données), la mise en œuvre de ces technologies (les architectures de systèmes en question) ; • différents points de vue s’expriment : les assurances, la publicité et la santé ; • enfin un article sur les métadonnées et la protection de la vie privée. Je tiens à remercier vivement les auteurs qui ont partagé leur point de vue. J’espère que ce dossier vous éclairera sur ce sujet qui fait cou- ler beaucoup d’encre. Nous sommes au début d’une nouvelle ère de l’information, à chacun d’écrire une partie de ce nouveau chapitre. Je vous souhaite autant de plaisir à le lire que j’en ai eu à échanger avec les différents auteurs, experts de ce sujet, pour coordonner ce dossier ! Big data, so what ? Sommaire p 18 La révolution des données ou l’or du XXIe siècle p 20 De la business intelligence aux big data : apport des technologies sémantiques p 24 Des architectures pour le big data p 26 À l’aube d’une révolution dans l’assurance p 28 La science de prédiction des clics p 30 Vers la médecine 3.0 ? p 32 Métadonnées, « pour ou contre » ? Bruno Cambounet (84) Vice-président chez Axway, société leader dans la gouvernance des flux de données, en charge des marchés verticaux. Il a développé son expérience dans des positions d’opérationnel et de conseil. Il dirige des projets d’innovation et de développement dans différents sec- teurs comme l’industrie, le transport et logistique, la santé, les télécommu- nications et les services. Il préside le groupement professionnel Centrale Consultants de l’Association des Centraliens.
  2. 2. Dossier 18 Centraliens no 634 [juin 2014] La révolution des données ou l’or du XXIe siècle La révolution numérique a engendré des gains de productivité records au cours des dernières années. Pour beaucoup d’analystes, c’est la troisième révolution industrielle. Des États-Unis à l’Europe, de la santé à l’éducation, les big data préfigurent un nouveau modèle de société. A ux États-Unis, les gains de produc- tivité enregistrés par le Bureau of Statisticssurlesannées2009,2010et 2011sontlesplusimportantsjamais rencontrés. Pour les analystes économiques, la principale force derrière cette accélération est le paradigme numérique. Les similitudes avec le « Gilded Age » lié à l’émergence de la deuxième révolution industrielle sont trou- blantes : concentration des capitaux à grande vitesse, maîtrise d’économies de réseaux par quelques acteurs très concentrés, besoins très élevés en capitaux, etc. À n’en pas douter nous assistons là à l’opti- misation de l’adéquation des offres et des de- mandes grâce aux gains d’opportunités carac- téristiques du numérique qui servent l’intérêt d’une toute petite minorité, amassant des for- tunes à des vitesses très élevées. En effet, pen- dant que ces gains de productivité permettent à Sergueï Brin, Mark Zuckerberg et quelques autres de s’enrichir, la classe moyenne améri- caine s’appauvrit rapidement. Ces problèmes ne sont pas nouveaux : on garde à l’esprit les conditions effroyables dans lesquelles vivaient les ouvriers anglais tout au long du XIXe siècle, travaillant dans des usines rudimentaires et insalubres… Puis le droit du travail a été inventé, tout comme la sécurité sociale et l’éducation obligatoire. L’idée est là. Chaque révolution industrielle amène son modèle social et sa régulation appropriée. La première a vu l’émergence du code civil, qui a fourni une stabilité du droit propre à permettre une forte expansion économique. La deuxième a donné naissance aux droits so- cial et du travail, qui ont permis l’émergence d’une classe prolétaire formée et disposant d’uneconsciencepolitique.Latroisièmepour- rait voir l’avènement du « code des données ». Une manne croissante d’informations En effet, la révolution numérique pourrait se transformer rapidement en révolution des données. Afin de replacer les choses dans leur contexte, il faut savoir que 90 % de la donnée produite dans le monde l’a été au cours des deux dernières années. Car en plus de disposer d’une manne crois- sante d’informations, la production de ces données se fait au sein d’un réseau unifié, communiquant à l’aide d’un même protocole (« IP ») utilisé pour véhiculer l’information. Si aujourd’hui le nombre d’adresses IP est de l’ordre de 10 à 20 milliards, l’on estime qu’en 2025, avec l’avènement de l’ère des objets connectés, ce nombre pourrait passer à 150 ou même 200 milliards. Et il ne s’agit là que de prédictions relativement conservatrices car, comme le fait remarquer Jean-Yves Pro- nier, directeur marketing du gestionnaire de données EMC, « ces estimations sont rendues fausses d’année en année par les nouveaux usages ». Aujourd’hui, nous en sommes encore à l’âge de pierre de l’exploitation intelligente et mas- sive de la donnée connectée. Néanmoins, nous pouvons déjà en discerner les contours et en apprécier le potentiel. Il y a peu, l’ex- ploitation d’une si grande quantité de don- nées était impossible car les volumes étaient trop importants et les outils d’analyse pas encore inventés. Néanmoins, une nouvelle génération d’algorithmes permet désormais de gérer ces données dans leur globalité et leur complexité : on a donné à cet ensemble de technologies le nom de « big data ». En plus de faire communiquer les données entre elles, nous pouvons à présent nous ser- vir d’un jeu de données pour en comprendre un autre et ainsi de suite, révélant le secret qui 90 % de la donnée produite dans le monde l’a été au cours des deux dernières années.
  3. 3. www.centraliens.net 19 big data, so what ? se cache derrière ces quantités d’informations produites et stockées tous les jours. C’est de cette manière que Google, en comp- tant le nombre de fautes d’orthographe saisies dans le moteur de recherche, parvient à esti- mer précisément le niveau d’illettrisme dans un pays ou une zone géographique donnée. Au même titre l’ONU, avec son programme Global Pulse, écoute désormais les réseaux sociaux pour détecter de façon préventive les endroits dans le monde où un conflit est sus- ceptible de survenir. Autre exemple : dans l’agglomération de Chicago, l’analyse des flux de données issues des réseaux sociaux a permis de prédire avec un niveau de précision inouï où seraient commis les prochains crimes, et ainsi de les prévenir en plaçant des véhicules de police au niveau des zones d’alerte. L’on pourrait étendre ces mêmes mécanismes au domaine de l’épidémiologie, la prévention précoce des maladies chroniques ou encore le traitement des pathologies orphelines. Un impact sur tous les secteurs En bref, les technologies big data risquent d’impacter fortement de très nombreux sec- teurs, ce type d’approches pouvant être massi- vement généralisé afin d’optimiser les oppor- tunités dans tous les domaines. Certes,ilyalesrisquesentoutgenre,lesaddic- tions, les abus que des entreprises pourraient être tentées de commettre, et la volonté de surveillance sans limite des États. Pour autant, tout aussi technologiques que puissent être les données, nous en sommes jusqu’à preuve du contraire les maîtres et c’est à nous, les sociétés civiles, les institutions élues, de décider de la façon dont nous souhaitons construire notre société. De surcroît, la data n’est pas une force brute, une énergie motrice, un liquide que l’on met dans un moteur à explosion, c’est un outil qui nous permet de créer un monde plus intelligent, où les opportunités sont plus nombreuses, ou les occasions manquées se raréfient ; c’est potentiellement un nouveau modèle de société, une nouveau vecteur d’ex- pression, l’opportunité d’une consommation plus raisonnée. À l’heure où notre modèle social semble lar- gement menacé et où l’économie est en berne, c’est là l’occasion pour notre nation de se re- construire, de se réinventer d’une manière qui va largement au-delà de ce que nous pouvons concevoir. L’éducation, la santé, la production de richesse, l’utilisation des ressources… tout cela sera affecté par ce que l’on appelle désor- mais « l’or du XXIe siècle ». Mark Zuckerberg, premier actionnaire de Facebook et 21e fortune mondiale, estimée à 26,7 milliards de dollars. Gilles Babinet Depuis 1989, Gilles Babinet a fondé neuf sociétés dans des domaines d’activité variés : travaux élec- triques en hauteur, design, téléchargement de musique, recherche publicitaire et marketing, big data… En 2011 il est élu premier pré- sident du Conseil national du numé- rique. Nommé « Digital Champion » par la ministre déléguée au Numérique en 2012, il publie en janvier 2014 L’Ère numérique, un nouvel âge de l’huma- nité dans lequel il met en avant l’impact de la sphère numérique sur la société moderne. ©Facebook
  4. 4. Dossier 20 Centraliens no 634 [juin 2014] L ’objectif principal de la business intelligence (BI) est de transformer les données en connaissances afin d’améliorer le processus décisionnel. Or, certains facteurs comme la croissance constante du volume de données et d’infor- mations ont conduit à la nécessité de mettre en œuvre de nouveaux moyens d’interac- tion. Les utilisateurs manipulent de plus en plus de données non structurées (docu- ments, courriels, réseaux sociaux, contacts) en plus des données structurées (CRM, bases de données, etc.). Ces utilisateurs souhaitent plus d’interactivité, de flexibi- lité et de dynamicité. De plus, les processus de décisions sont de plus en plus rapides et nécessitent d’être plus automatisés. Toutes ces évolutions ont induit un changement de paradigme important pour la BI, avec notamment la prise en compte des données non structurées extraites à l’aide des techno- logies sémantiques. Extraire de la valeur à partir de ces don- nées est devenu un enjeu crucial dans un marché mondial hyper compétitif. La BI est également impactée par les big data, avec le besoin croissant d’extraire de la valeur en temps réel à partir d’importants volumes de données. Les technologies sémantiques regroupent un ensemble de méthodes, pro- cessus et algorithmes destinés à extraire du sens à partir des données. Les technologies du web sémantique incluent un ensemble de standards comme le modèle RDF (Re- source Description Framework), un lan- gage de description d’ontologies (OWL) et un langage d’interrogation (SPARQL). Les technologies sémantiques et celles du web sémantique peuvent adresser la variété dans les big data. Évolution de la BI pour prendre en compte les « big data » La business intelligence est un ensemble d’ou- tils et de méthodes destinés à collecter, repré- senter et analyser les données pour assister le processus d’aide à la décision dans les entre- prises. Elle est définie comme la capacité pour une organisation à prendre toutes les données en entrée et à les convertir en connaissances, délivrant ainsi une information pertinente au moment opportun et via un canal de diffusion adapté. Durant ces vingt dernières années, de nombreux outils ont été conçus pour rendre disponibles de grands volumes de données d’entreprise à des utilisateurs non experts. La BI est une technologie mature, largement acceptée mais qui fait face à de nouveaux défis tels que l’intégration de données non structurées dans le processus d’analyse. Ces défis sont induits par les volumes de don- nées disponibles en constante augmentation, dont les systèmes doivent comprendre le sens et être capables d’y réagir en temps réel. Les technologies sémantiques et les mécanismes de raisonnement associés peuvent faciliter ce processus d’analyse. La BI traditionnelle peut donc être étendue aux technologies sémantiques pour intégrer le sens des données. La vision du projet CUBIST (www.cubist-project.eu) est d’étendre le pro- cessus classique d’ETL (extraction, transfor- mation et chargement) aux données structu- rées et non structurées et à leur stockage sous forme de triplets RDF. La figure 1a représente l’architecture clas- sique d’un outil de BI dans lequel les données sont structurées et chargées dans un entrepôt de données. Les utilisateurs peuvent interagir avec des requêtes restreintes produisant un tableau de bord statique. Destinée à analyser les données brutes pour en extraire du sens, la business intelligence est également impactée par les problématiques de big data. De la business intelligence aux big data : apport des technologies sémantiques
  5. 5. www.centraliens.net 21 big data, so what ? La figure 1b correspond à la vision du projet CUBIST, dans laquelle les sources de don- nées sont hétérogènes (structurées ou non) et stockées sémantiquement dans un triple store (entreposage de triplets RDF). Les utilisateurs peuvent interagir avec des requêtes flexibles (requêtes SPARQL) et utiliser dynamique- ment des outils de visualisation analytique. La figure 1c représente une évolution plus récente pour prendre en compte les flux de données et la sémantique. Avec la croissance exponentielle des capteurs, logs, réseaux sociaux et objets connectés, de larges collec- tions de données sont générées en temps réel. Elles sont appelées des « flux de données » : il n’y a pas de limite quant au volume géné- ré ni de contrôle sur l’ordre d’arrivée. Les méthodes d’analyse doivent donc s’adapter au traitement des données à la volée et dans l’ordre d’arrivée. Ces flux de données sont analysés en temps réel, mais également agré- gés et interprétés de manière à générer des alertes pour réagir à des événements. L’ana- lyse sémantique de ces flux, et plus particuliè- rement leur croisement avec d’autres sources d’information, est une vraie valeur ajoutée dans le processus de décision. Ces flux, et plus particulièrement leur croi- sement avec d’autres sources d’information, est une vraie valeur ajoutée dans le processus de décision. Dans une plate-forme BI temps réel, de multiples sources de données hétérogènes peuvent être connectées, et ces données peuvent être statiques ou dynamiques. Les données statiques peuvent provenir de bases de données ou de données ouvertes (open data), et ne changent pas ou peu. Les don- nées dynamiques proviennent de capteurs et peuvent éventuellement être dans un format sémantique comme RDF. Ces données, sta- tiques et dynamiques, sont exploitées pour répondre à des processus spécifiques. Des requêtes continues et persistantes permettent de gérer ces flux en temps réel et aux utilisa- teurs de recevoir des nouveaux résultats dès qu’ils sont disponibles. Les technologies sémantiques De nombreuses techniques permettent d’ex- traire du sens ou de la connaissance à partir des données. Parmi celles-ci, nous pouvons citer le traitement automatique des langues, la fouille de données, l’apprentissage ainsi que l’ingénierie des ontologies. Ces tech- niques permettent d’extraire des modèles et des patrons, de structurer les données non structurées et ainsi de transformer n’im- porte quelle donnée en information ou en connaissance actionnable. Les technologies du web sémantique per- mettent de lier, publier et rechercher des données sur le web, mais aussi de structurer Figure 1. BI classique (a), BI sémantique (b) et BI en temps réel (c).
  6. 6. Dossier 22 Centraliens no 634 [juin 2014] et d’enrichir sémantiquement des données au format RDF, et ceci à très grande échelle. Les approches guidées par la sémantique peuvent simplifier le processus d’intégra- tion de sources de données hétérogènes par le biais d’ontologies, fournir ainsi une couche unifiée de métadonnées, découvrir et enrichir l’information et, enfin, fournir un mécanisme unifié d’accès aux données. La sémantique peut donc adresser la variété dans les big data, en permettant la transfor- mation des données non structurées dans un format structuré en vue de leur analyse. De plus, la valeur des données augmente quand celles-ci peuvent être liées à d’autres données (linked data). Les technologies sémantiques sont donc une opportunité pour réduire le coût et la complexité de l’in- tégration de données. En conclusion, comme le montre la figure  2, les « linked data » évoluent vers des masses de plus en plus importantes qu’il est pos- sible de qualifier de « big linked data », mais les big data peuvent aussi tirer profit d’une évolution vers les « linked big data ». Figure 2. Big data et linked data. Marie-Aude Aufaure est professeur à l’École Centrale Paris (Laboratoire MAS). Elle dirige depuis 2008 la chaire business intelligence. Elle participe aux tra- vaux de l’Inria Paris-Rocquencourt, où elle a réalisé sa thèse. Elle est impliquée dans plusieurs projets européens et nationaux. Docteur en informatique, elle a été enseignante à l’université de Lyon et à Supélec. Ses domaines de compétence couvrent les bases de données, la fouille de données, l’ingénierie des connais- sances et, plus récemment, les big data. Printemps 2015 : executive certificate big data Un programme de formation continue préparé par Marie-Aude Aufaure À l’ère du numérique, le déluge de données crée de nouvelles opportunités économiques pour les entreprises. Toute la chaîne du décisionnel est impactée par les big data : collecte des données hétérogènes, analyse, visualisation, marketing, stratégie d’entreprise... De nouveaux métiers apparaissent, tels que « data scientist ». Centrale Paris Executive Education, la formation continue de l’École Centrale Paris, propose en 2015 un nouveau cursus de vingt jours. Cette formation est composée de six modules qui pourront être choisis à la carte. L’objectif est de dresser un état des lieux et un panorama des technologies. Les entreprises ont besoin de maîtriser leurs données et la valeur qu’elles peuvent générer. L’organisation centrée des données permet ainsi de placer les données au centre de la gestion opérationnelle et déci- sionnelle et de réduire le temps de prise de décision. La formation comprend : 3 modules non techniques : enjeux, perspectives et applications des big data, retours d’ex- périence, aspects juridiques et protection des données ; 3 modules techniques : acquisition et stockage des données, traitement distribué, analyse et visualisation de données. Les technologies de l’information et de la communication seront largement utilisées, en com- binant enseignement en ligne et présentiel. Des webinars seront également proposés. Des in- tervenants industriels, chercheurs, institutionnels (acteurs majeurs du domaine des big data) prendront part à cette formation. Il existe déjà depuis deux ans un « executive certificate » cloud computing. Cette formation de vingt-sept jours permet de former des professionnels maîtrisant la gouvernance et l’architecture de solutions cloud. www.ecp.fr/home/Formations/Formation_continue
  7. 7. www.centraliens.net 23 big data, so what ?
  8. 8. Dossier 24 Centraliens no 634 [juin 2014] Figure 1. Les trois propriétés du théorème CAP de Brewer. L a montée en puissance du big data actuelle est le fruit de trois tendances concomitantes : la disponibilité des données, la disponibilité des algo- rithmes de traitement, la disponibilité de la puissance machine permettant de stocker et de traiter ces données. D’un point de vue tech- nique, on parle de big data lorsque la quantité ou le débit des données pose un défi qui ne peut être relevé avec des technologies « stan- dard»(typiquementlesbasesdedonnéesrela- tionnelles). Pour avoir une idée des ordres de grandeur, on peut considérer qu’aujourd’hui une base de données relationnelle commence à montrer ses limites dans deux cas : pour des quantités de données stockées supérieures à 10 To, ou pour des débits de « transactions » (l’écriture ou la lectured’unedonnée)quidépassent1000tran- sactions par seconde. Ces limites sont évidem- ment indicatives et, par ailleurs, évoluent dans le temps selon la fameuse loi de Moore : « toute ressource informatique double de capacité à prix constant tous les 18 mois. » Deux points méritent cependant l’attention. D’une part, la quantité des données disponibles croissent bien plus rapidement que la loi de Moore1 . D’autre part, il existe une ressource informatique qui échappe à la loi de Moore : la vitesse d’écriture des données sur les supports physiques. Certes quand on passe du disque dur tournant (HDD) au disque dur fixe (SDD), le débit d’écriture progresse, mais bien moins rapidement que les autres ressources que sont le volume de stockage et la puissance de traite- ment. Les systèmes d’informations modernes doivent donc manipuler une quantité de don- nées qui croît beaucoup plus vite que la loi de Moore avec une « tuyauterie » qui croît beau- coup moins vite. Ce ciseau est structurant dans la mesure où il a déterminé les choix d’archi- tecture des solutions dites de big data. Rete- nons donc ce point : l’une des actions les plus coûteuses en temps dans les systèmes d’infor- mations modernes devient le déplacement de la donnée d’un espace de stockage à un autre. Distribuer la donnée sur un grand nombre de machines D’où viennent les limitations des bases de données relationnelles ? Essentiellement d’une conception monomachine. Cette affirmation est en réalité simplificatrice car les architec- tures de ces bases ont évolué, mais elles portent malgré tout cette caractéristique dans leur code génétique. Aussi, pour augmenter le débit de transactions et la capacité de stockage, une idée naturelle est apparue : distribuer la donnée sur un grand nombre de machines. On dispose ainsi non seulement d’un espace de stockage mais aussi d’un débit de transaction proportionnelsaunombredemachinespuisque, d’une certaine façon, on multiplie le nombre de tuyauxparlesquelstransiteladonnée. Ce principe est au cœur de la conception des solutions dites big data. La réalité est cependant moinssimplequ’iln’yparaît.Voicivenulemo- ment d’introduire le théorème de Brewer, du nom de la personne qui l’a conjecturé en 2000, la preuve ayant été publiée en 2002. Car oui, il s’agit d’un vrai théorème ! LethéorèmedeBrewer,aussiappeléthéorème CAP, du nom des sommets du triangle de la fi- gure 1, stipule que dans tout système distribué, on ne peut garantir simultanément que deux des trois propriétés suivantes ; consistency (cohérence) : la capacité d’un système à garantir que tous ceux qui accèdent àunedonnéeontlamêmevisiondeladonnée; availability (disponibilité) : le fait que la donnée est accessible à tout moment ; partition tolerance (tolérance à la parti- tion) : le fait que le système dans son ensemble fonctionnecorrectement,mêmeencasdeperte d’une machine, induisant donc une « sépara- tion » (partition) entre les machines. Les deux premières propriétés, assez classiques, sont celles que garantissent les bases de don- nées relationnelles : on veut pouvoir lire et écrire des données tout le temps (availability) engarantissantquetoutlemondevoielamême donnée (consistency). Assurer la tolérance à la partition Pendant longtemps, ces propriétés ont suffi à notre bonheur. Mais quand il a été nécessaire de répartir la donnée sur plu- sieurs machines pour augmenter le volume de stockage, la tolérance à la partition est devenue essentielle. En effet, le coût pour garantir que tous les nœuds d’un cluster fonctionnent correctement à tout moment devient très rapidement exorbitant. On a ainsi cherché des compromis sur les autres axes. Et en premier lieu, sur la cohé- rence. De prime abord, cela paraît très ris- qué : comment travailler de façon fiable avec des données qui ne le sont pas ? Pour pallier ce problème, la stratégie a consisté à dupli- Des architectures pour le big data La distribution des données sur un grand nombre de machines est au cœur des solutions big data. Or si le principe semble simple, il soulève des enjeux de conception qui ont suscité l’innovation.
  9. 9. www.centraliens.net 25 big data, so what ? quer plusieurs versions d’une même don- née sur différentes machines. Il suffit alors de disposer de plusieurs copies absolument identiques d’une donnée pour être certain de cette donnée, même si une autre copie est corrompue ou dans un état instable. On parle ainsi de cohérence in fine, car le système ne garantit pas à tout moment la cohérence de la donnée, mais garantit qu’au bout d’un certain temps la donnée le sera. Ce mode de fonctionnement est au cœur de plusieurs familles de solutions big data, notamment Hadoop et Cassandra. Hadoop, plate-forme de plus en plus utili- sée dans le domaine du big data, présente une autre caractéristique intéressante. Elle propose une distribution des traitements au plus proche des données, selon un algo- rithme appelé MapReduce. Souvenez-vous : avec le big data, l’opération la plus longue est le déplacement de la donnée. Avec MapReduce, Hadoop s’efforce de déplacer l’exécution des traitements sur les machines qui détiennent les données nécessaires à ces traitements (figure 2). Chaque rectangle bleu correspond à une opé- ration qui peut être exécutée sur un serveur différent (typiquement, le serveur le moins chargé détenant une copie de la donnée qui intervient dans le traitement). On « mappe » des sous-tâches indépendantes sur des ser- veurs différents et quand chaque serveur a accompli sa sous-tâche, on recolle les mor- ceaux entre eux pour obtenir le résultat final. Des changements plus profonds qu’il n’y paraît Ce rapide survol des architectures des solu- tions big data donne un aperçu des nouveaux principes mis en œuvre pour traiter de très gros volumes de données. Ces changements, plus profonds qu’il n’y paraît, induisent quelques corollaires importants : quitte à devoir utiliser plusieurs ma- chines, autant utiliser des machines de grande série (commodity hardware) plutôt que de gros serveurs très coûteux. Il s’agit d’une tendance forte dans les infrastructures actuelles ; à partir du moment où on utilise un grand nombre de machines, l’automatisa- tion de la configuration des machines et du déploiement des traitements doit être très poussée. Ceci a suscité l’émergence d’outils et de pratiques qui, poussées à l’extrême, ont favorisé l’émergence du cloud ; tous les traitements ne sont pas distri- buables sur plusieurs machines. Il y a par conséquent une recherche particulièrement active pour identifier des algorithmes qui se prêtent à ce type de parallélisation. Les solutions big data s’inscrivent éga- lement dans un mouvement plus vaste, l’accessibilité de ces technologies (certains parlent de consumérisation). Hadoop, par exemple, est open source. La plupart des algorithmes d’apprentissage automatique sont également disponibles gratuitement. Il est possible de louer pour quelques cen- taines d’euros (et une durée limitée) plu- 1. Voir à ce sujet l'article de Stacey Higginbotham sur le site Gigaom.com, « Question everything : a new processor for big data ». sieurs machines sur un cloud tel que celui d’Amazon. Ainsi, aujourd’hui, les techno- logies big data sont accessibles à quasiment tout le monde alors qu’il y a peu, leurs équi- valents étaient réservés à des entreprises dis- posant de solides capacités d’investissement informatique. Le potentiel d’innovation lié à l’ouverture et à la puissance de ces outils est considérable. Ludovic Cinquin (95) Directeur général France d'Octo, cabinet de conseil en technologies et management de système d'information. Co-auteur de plusieurs ouvrages, dont Les Géants du web : culture pratique architecture. En parallèle à ses activités de manage- ment, il accompagne les grands comptes dans le cadre de missions de conseil stratégiques. Il intervient régulièrement en tant que speaker, notamment à la conférence USI (www.usievents.com). Figure 2. L’algorithme MapReduce permet de déplacer l’exécution des traitements sur les machines qui détiennent les données nécessaires à ces traitements.
  10. 10. Dossier 26 Centraliens no 634 [juin 2014] S i l’on considère l’assurance auto, le développement des premières offres de tarification au kilomètre ne date que de quelques années, bénéficiant des progrès en matière de télématique per- mettant d’embarquer dans le véhicule des so- lutions de géolocalisation fiables, discrètes et économiques. Cette géolocalisation permet à l’assureur d’intégrer dans sa tarification le nombre de kilomètres réellement parcourus, qui constitue une dimension jusqu’à présent estimée et pourtant d’ordre un dans l’évalua- tion du risque, et d’offrir ainsi à l’assuré un tarif plus « juste ». Ce principe du « pay as you drive » n’est que la première étape d’une ouverture beaucoup plus large des possibi- lités de personnalisation des tarifs. On peut imaginer le « pay where you drive », le « pay how you drive »… Le fait de collecter cette masse d’informations sur la conduite permet de converger vers le « segment of one », c’est- à-dire la possibilité de proposer des prix per- sonnalisés par conducteur et donc plus bas pour les bons conducteurs. Le big data pourra également permettre d’enrichir le contenu des services qu’offre l’assureur à ses assurés : le flots des données capturées (par les boîtiers de télématique em- barqués ou par toute autre source de données publique ou privée) permet en effet d’infor- mer en temps réel le conducteur sur les zones à risque, les obstacles susceptibles de ralentir sa route, les conditions météo, ainsi que sur son propre comportement (freinage, accélé- ration…) dans une optique de prévention. Il permet en outre de géolocaliser le véhicule, notamment en cas de vol. Seulement 2 % des assureurs automobile américains offrent aujourd’hui des produits fondés sur le moni- toring du comportement des assurés. Cette proportion devrait atteindre 10 à 15 % en 2017. Sur le plan concurrentiel, l’usage de la télématique constitue une innovation de rupture susceptible de modifier le paysage concurrentiel, selon le rythme de déploie- ment par les acteurs installés ou de nouveaux entrants. En matière de santé, on peut de la même ma- nière imaginer la possibilité pour l’assureur de prendre en compte les habitudes de vie de ses assurés (le « pay how you live ») en s’ap- puyant sur un flot de données générées par les individus dans leur vie quotidienne. Ce champ d’application est certainement moins mûr que ne l’est la télématique automobile, mais la technologie évolue vite. Commencent ainsi à apparaître des outils connectés desti- nés à mieux gérer notre santé : bracelet lisant la qualité du sommeil, balances connectées au Smartphone, outils de monitoring des habitudes alimentaires… Intégration des données génétiques Le progrès ne s’arrêtera pas là : la génération dedatasantéreflétantleshabitudesdeviesera progressivement complétée par la génération de données génétiques. En 2013, le génome d’un million d’individus a été séquencé. La carte génétique d’un individu peut désormais être établie pour une somme de 100 euros, et la connaissance précise du patrimoine géné- tique va permettre d’entrer dans le domaine de la médecine prédictive. Cette révolution médicale risque de fortement déstabiliser les fondamentaux de l’assurance santé. La quantité de données est l’élément majeur de la fiabilité des statistiques, fondement de l’assurance. L’abondance et la qualité des données sont par conséquent des facteurs essentiels de différenciation compétitive pour les assureurs. Dans un monde « big data », la disponibilité de données nouvelles et la capacité de les exploiter va profondément modifier la relation qu’entretiennent les assureurs avec leurs clients, en transformant la manière d’entrer en contact avec eux et de les servir. À l’aube d’une révolution dans l’assurance
  11. 11. www.centraliens.net 27 big data, so what ? Sur un plan fondamental, un risque n’est en effet assurable qu’à la condition d’être quantifiable et mutualisable, et que les distorsions occasionnées par l’asymétrie d’information (source d’antisélection) et l’aléa moral soient limitées. Dans le cas de l’assurance automobile, la connaissance du risque va évoluer et le tarif sera de plus en plus individualisé. Pour autant le risque ne disparaîtra pas, l’asymétrie d’informa- tion est même abaissée (l’assureur connaît mieux le comportement de son assuré) et il reste indispensable de s’assurer. Le mar- ché de l’assurance santé sera en revanche fortement impacté, avec différents états de marché possibles selon la manière dont les données personnelles de santé seront gérées. Un marché autorisant la tarification repo- sant sur des données génétiques ira dans le sens d’une hypersegmentation tarifaire, avec pour conséquence de rendre les po- lices d’assurance plus coûteuses pour un nombre croissant de « risques aggravés », tandis que la taille et la qualité des mutua- lités diminuera. Il est vraisemblable que les préoccupations éthiques fassent obstacle à ce type de marché, en limitant les possibi- lités d’utilisation des données personnelles dans le domaine de la santé. La consé- quence est dans ce cas l’apparition d’une asymétrie d’information amplifiée entre les assurés et les assureurs, avec le risque pour les assureurs de voir les bons risques leur échapper ou de devoir les tarifer à des prix très bas. Cette question sur l’équilibre du marché est le reflet d’un débat de société entre d’une part le besoin de personnalisation souhaité par chaque consommateur d’un service et d’autre part la volonté des pouvoirs publics de lutter contre les discriminations. À ce titre, il est utile de rappeler qu’un avis de la Cour de justice européenne de 2011 in- terdit la possibilité offerte aux assureurs au- tomobile d’utiliser le genre en tarification. Limitation des risques de fraude Actuellement, les méthodes traditionnelles de détection des fraudes à l’assurance ex- ploitent des rapports d’expertise, les histo- riques de fraudes antérieures… sans pour autant exploiter toutes les sources de don- nées comme l’activité des assurés sur les réseaux sociaux. Le big data va permettre de détecter et d’utiliser toutes sortes de « si- gnaux faibles » et pouvant être corrélés à des tentatives de fraude ou des fraudes avérées. De manière moins spécifique à l’assurance, mais tout aussi impactant pour les opéra- teurs en place, les technologies du big data vont offrir de nouvelles possibilités sur le plan commercial. Les capacités des outils de CRM vont être démultipliées, enrichies d’une infinité de données client mêlant sources internes et externes, de manière à cibler toujours plus précisément les besoins de chaque prospect ou client. La connais- sance des clients en temps quasi réel per- mettant de les gérer de manière totalement individualisée, et de leur proposer le service adapté au bon moment par le bon canal commercial. La révolution du big data est bien en route pour les assureurs installés, dans un envi- ronnement qui individualisera de plus en plus le risque et la relation client, avec in fine la possibilité de modifier profondément le paysage concurrentiel du secteur. Une autre famille d’acteurs cherchera inévitablement à tirer son épingle du jeu et à s’approprier une part significative de la valeur : il s’agit des fournisseurs de données, détenteurs du nouvel or noir, et maîtres de la segmenta- tion des risques. Christophe Mugnier (95) Directeur de la stra- tégie, du contrôle de gestion et des achats d’Axa France. Avant de rejoindre le groupe Axa il y a 18 ans, Christophe Mugnier a dirigé l’actuariat Vie individuelle et assuré la Direction technique des assurances collectives et l’activité épargne et retraite entreprises. Il est membre de l’Institut des actuaires. Le séquençage des génomes risque de déstabiliser les fondamentaux de l'assurance santé. La connaissance des clients en temps quasi réel permet de les gérer de manière totalement individualisée.
  12. 12. Dossier 28 Centraliens no 634 [juin 2014] S ur Internet, le marché de la publi- cité se décompose en deux grandes catégories : Le search, c’est-à-dire l’achat de mots-clés auprès des moteurs de recherche. Si vous travaillez pour un site de vente en ligne de chaussures, vous pouvez par exemple choisir d’acheter le mot-clé « chaus- sure sport », ce qui vous permettra d’appa- raître dans la partie liens sponsorisés des résultats de votre moteur de recherche. Pour cela vous rémunérez ce dernier au CPC (cost per click), c’est-à-dire uniquement si l’utili- sateur clique sur votre lien. Plus votre CPC est élevé, plus vous aurez de chance d’arriver en tête des liens sponsorisés. Les utilisateurs de ce type de campagnes ont en général un objectif de performance. Autrement dit, ils calculent le retour sur investissement de leur campagne. Le display, l’affichage de bannières publici- taires chez tous les sites dits « éditeurs », qui souhaitent générer des revenus publicitaires. Si l’on reprend le même exemple, vous pou- vez décider de promouvoir votre site en affi- chant des bannières contenant votre logo et des photos de vos chaussures les plus popu- laires. Vous rémunérez alors la plupart du temps le site éditeur au CPM (cost per mille), c’est-à-dire pour chaque affichage, essen- tiellement parce que les performances de ce type de campagnes étaient beaucoup moins bonnes que celles du search. Leader mondial de la publicité display à la performance, Criteo diffuse des campagnes pour le compte de ses clients (la plupart des grands sites marchands). Son objectif : affi- cher « la bonne publicité, au bon utilisateur, au bon moment ». Les niveaux de perfor- mance sont mesurés aux taux de clics et aux taux de conversion. Ce dernier représente la proportion d’utilisateurs qui « conver- tissent », c’est-à-dire qui achètent un article sur le site après un clic. Criteo a choisi le même modèle de rému- nération que le search. L’entreprise achète au CPM sur des sites éditeur mais est rému- nérée au CPC. Les intérêts de Criteo et des clients se rejoignent puisque le client ne paie pas pour des affichages qui ne génèrent pas de revenu incrémental pour lui. L’achat de ces affichages se fait via des plates- formes de RTB (real time bidding), des places de marché où les acheteurs (sociétés de publicité en ligne) et les vendeurs (sites éditeurs qui souhaitent générer des revenus publicitaires) se retrouvent pour effectuer des transactions. Aspect essentiel des modèles économiques du net actuel, la publicité se décompose en deux grandes catégories : la mise en avant lors de la recherche (search) et l’affichage classique sous forme de bannières (display). Société de diffusion publicitaire en ligne, Criteo emploie des technologies big data pour affiner ses campagnes. La science de prédiction des clics Le CPC (cost per click) est calculé en fonction du nombre de fois où l’utilisateur a cliqué sur un lien proposé par le moteur de recherche. Search : achat de mots clés. Display : affichage de bannières publicitaires.
  13. 13. www.centraliens.net 29 big data, so what ? Chacun des acheteurs potentiels connectés à ces plates-formes reçoit une requête pour chaque opportunité d’affichage envoyée par les sites éditeurs et doit répondre par une enchère. L’acheteur ayant émis l’enchère la plus élevée gagne le droit de faire l’affichage et doit générer une bannière de publicité. Tout ceci se fait en temps réel et en quelques millisecondes au moment du chargement de la page par l’utilisateur. Comment prévoir le taux de clics ? La capacité à prédire précisément le taux de clics a un impact direct sur la performance : idéalement Criteo devrait acheter tous les affichages qui conduisent à un clic et seu- lement ceux-là. Son modèle de prédiction du taux de clics prend en compte plusieurs dizaines de variables collectées de différentes sources : l’engagement de l’utilisateur, évalué grâce aux données collectées directement sur les sites marchands : a-t-il vu un grand nombre de pages produits ? Est-il un ache- teur régulier sur ce site ? etc. ; la qualité de l’affichage, estimée grâce aux données transmises par les plates-formes RTB au moment de la requête : l’affichage se trouve-t-il vers le haut ou le bas de la page ? Les utilisateurs passent-ils beau- coup de temps sur la page sur laquelle il apparaîtra ? etc. ; l’aspect de la bannière, choisi dynamique- ment de manière à maximiser la perfor- mance. La capacité de Criteo à recommander les bons produits est également primordiale. Pour cela la société utilise les événements collectés sur les sites de ses clients pour cal- culer des similarités entre produits : si les utilisateurs qui ont vu le produit A ont aussi souvent vu le produit B, on peut vraisembla- blement supposer qu’un utilisateur qui n’au- rait vu que le produit A serait aussi intéressé par le produit B. Des données très volumineuses La volumétrie des données utilisées pour générer ces modèles de prédiction et de re- commandation est considérable : 20 téraoc- tets par jour. Elle nécessite la mise en œuvre de technologies spécifiques comme Hadoop (voir l’article « Des architectures pour le big data » dans ce même dossier). Par ailleurs, ces modèles de prédictions sont appelés plus de 15 millions de fois par seconde et mis à jour quotidiennement. Ces modèles sont optimisés en permanence par une équipe R&D composée à la fois de développeurs et d’experts en machine learning. On retrouve donc bien les fameux « 3 V » qui définissent le big data selon les défini- tions d’Internet : • volume : 20 To/j ; • variété : les données utilisées proviennent à la fois des sites marchands, des sites des éditeurs sur lesquels les bannières sont affi- chées et des campagnes de publicité à pro- prement parler ; • vitesse : 15 millions d’appels aux modèles de prédiction par seconde. Au-delà des 3 V, un aspect remarquable chez Criteo est que le big data est au cœur de la valeur ajoutée offerte aux clients : il est la clé du succès actuel de la société. Bastien Albizzati (02) Titulaire d’un master de recherche opéra- tionnelle de l’universi- té de Berkeley, Bastien Albizzati est respon- sable des améliorations des modèles de prédiction et de recommandation au sein de l’équipe produit de Criteo. Autre expérience : la recherche opé- rationnelle chez Saint-Gobain Re- cherche, avec un projet de simulation des risques inondations pour la Caisse centrale de réassurance. Les événements collectés sur les sites de clients permettent de cibler une publicité personnalisée.
  14. 14. Dossier 30 Centraliens no 634 [juin 2014] Vers la médecine 3.0 ? Le suivi de la grippe saisonnière dans 18 pays, dont les États-Unis. « Google Flu Trend » est apparu en 2008. . La quantité de données issue de la prise en charge d’individus dans un cadre sanitaire ne cesse d’augmenter, de même que le nombre de sources de données disponibles. Si l’on associe ce constat aux évolutions techno- logiques, chaque individu peut ainsi espérer bénéficier d’une médecine prédictive, préventive, personnalisée et participative. L a gestion de ces données massives est un important levier pour une meil- leure compréhension des maladies, du développement de médicaments et du traitement des patients. Les applica- tions du big data pourraient ainsi contri- buer à réduire de 300 milliards de dollars (environ 217 milliards d’euros) les coûts liés au système de santé américain grâce à la prévention et à la médecine personnalisée. Lasurveillanceépidémiologiquefigureparmi les pistes prometteuses, avec certains avan- tages par rapport aux systèmes traditionnels de veille en termes de réactivité. C’est ainsi que Google Flu Trends est apparu en 2008 pour le suivi de la grippe saisonnière à travers 18 pays, puis que les hashtags de Twitter ont été utilisés par la Food Standards Agency bri- tannique pour surveiller les pics épidémiques de gastro-entérite durant l’hiver 2012-2013. En France, l’entreprise Celtipharm publie depuis peu sur openhealth.fr des cartes épi- démiques réactualisées chaque jour, à partir des achats réalisés dans un réseau de plus de 4 000 pharmacies. Un peu de prudence est néanmoins de mise dans l’exploitation et l’analyse qui sont faites de certaines données. Selon une étude pu- bliée dans la revue Science et relayée par The Register, les prédictions de pics d’épidémie réalisées par Google seraient erronées pour 100 des 108 semaines écoulées depuis 2011. La pharmacovigilance représente un autre enjeu critique en termes de veille sanitaire, particulièrement mis en évidence lors de l’affaire du Mediator. Ici encore, l’accès à certaines sources de données et leur exploi- tation pourraient apporter une surveillance plus réactive en générant des alertes et en permettant des prises de décisions adaptées au contexte de la part des pouvoirs publics. Big data n’est pas synonyme d’open data La veille sanitaire pourrait donc s’inscrire dans une politique de plus grande transpa- rence publique, mais toutes les données de santé ne sont pas accessibles, et la rançon de leur confidentialité se matérialise très logi- quement par des difficultés à pouvoir les ex- ploiter. En France, après la circulation d’une pétition en 2013 pour « libérer les données de santé » et la remise au ministère d’un rapport de l’Inspection générale des affaires sociales, une démarche est désormais enga- gée afin d’intégrer l’ouverture des données publiques de santé dans la future loi de san- té, de façon très encadrée. Une commission associant les différents acteurs concernés remettra ses conclusions en avril 2014 sous la forme d’un rapport et d’une doctrine qui guideront les décisions publiques. Les données du Système national d’infor- mation inter-régimes de l’assurance-mala- die (Sniiram) sont bien entendu concernées, puisqu’il s’agirait du plus vaste entrepôt de données de santé au monde, consolidant chaque année 500 millions d’actes médi- caux et 11 millions de séjours hospitaliers. L’accès aux données devra ainsi garantir le respect de la vie privée et de l’anonymat, et leur « ouverture » sera limitée en raison des risques de ré-identification indirecte. Un dispositif juridique, technique et organisa- tionnel en sécurisera donc l’accès et l’utili- sation, à travers la mise en place d’une gou- vernance adaptée. Une médecine bijective et réflexive à la fois Le « crowd sourcing médical » n’est pas seulement exploitable à travers les com- mentaires échangés entre les internautes sur les réseaux sociaux, sans qu’ils soient conscients que ces données vont servir à dépister une épidémie. Les individus pour- raient souhaiter, un peu à la manière dont des patients sont enrôlés dans des essais cli- niques, devenir des contributeurs de masse de données anonymes permettant de déve- lopper un véritable big data de santé inter- national au service de la recherche, dans le cadre d’une médecine plus participative. En marge des médias sociaux, le grand public commence également à partager des données personnelles de santé ou de « bien-être » à travers des dispositifs tels que des montres intelligentes et des bracelets connectés qui surveillent le sommeil, l’exercice physique et la consommation de calories, la fréquence
  15. 15. www.centraliens.net 31 big data, so what ? cardiaque, etc. Parallèlement à l’arrivée de smartphones disposant de fonctions permet- tant à chacun de surveiller son état de santé par l’intermédiaire de capteurs, des construc- teurs tels Apple et Samsung travaillent sur des dispositifs et des technologies leur per- mettant de pénétrer le marché du « quanti- fied self » et de la santé connectée. L’alimentation du big data à travers l’Internet des objets passera également par le domicile, la domotique et des solutions permettant d’assurer le maintien à domicile de personnes en situation de dépendance, âgées et/ou at- teintes de pathologies chroniques. Différents services peuvent ainsi se décliner à travers un « habitat intelligent et connecté », de la télé- consultation à la télésurveillance, en passant par des systèmes assurant la coordination de soins et d’aides à domicile, la livraison de repas, des services de coaching nutritionnel ou thérapeutique. Les supermarchés peuvent désormais aussi connaître les habitudes ali- mentaires des consommateurs, et même un réfrigérateur peut être connecté à Internet afin de suivre ce qui est consommé et ce qui doit être réapprovisionné. De la santé publique à la médecine individualisée ou personnalisée Dans un autre domaine, l’étude du génome et des relations entre les maladies et leurs facteurs de risque génétiques et environ- nementaux permet d’explorer le champ de la médecine personnalisée en optimisant le traitement d’un individu donné. Cepen- dant, les technologies de l’information ne peuvent pas encore suivre le rythme de l’explosion des données, en particulier pour assurer un « suivi génétique global » des cancers qui nécessiterait le recoupement des caractéristiques de millions de tumeurs. Les jeux de données recueillis par les clini- ciens sont tout simplement bien trop volu- mineux pour être partagés ou échangés sur les réseaux en place. À titre d’illustration aux États-Unis, en estimant un volume de 100 Go par tumeur appliqué à 16 millions de personnes atteintes d’un cancer, on tota- liserait des centaines de pétaoctets (un mil- lion de gigaoctets) de données par an. Le sujet est d’actualité, l’Opecst (Office par- lementaire d’évaluation des choix scienti- fiques et technologiques) ayant remis en janvier dernier à la Commission des affaires sociales de l’Assemblée nationale un rapport sur les enjeux scientifiques, technologiques, éthiques et juridiques de la médecine per- sonnalisée. De la causalité à la corrélation La sécurité représente un enjeu majeur en raison de la capacité à identifier un individu à travers des caractéristiques pourtant décla- rées anonymisées ou leur recoupement avec d’autres bases de données publiques. Dans l’État américain de l’Illinois, des données anonymisées de sorties d’hospitalisation, de recensement et de listes électorales ont ainsi pu être recoupées avec des données géné- tiques également anonymisées, permettant de ré-identifier 50 % des patients atteints de la maladie de Huntington. Certains scien- tifiques vont même jusqu’à affirmer que « l’anonymat est devenu algorithmiquement impossible ». Il existe donc un véritable cadre éthique et sécuritaire à définir au niveau interna- tional afin de garantir le bon usage de ces En France, une démarche est engagée pour intégrer l’ouverture des données publiques de santé de façon très encadrée dans la future loi de santé. Docteur Laurent Guigue Médecin de santé pu- blique, spécialiste de l’informatique médi- cale. Il est directeur médical au sein de la société Santéos, filiale de Worldline. Son expertise concerne notamment le partage de données de santé à caractère personnel. Docteur Christophe Richard Il dirige le groupe de travail « open data/ big data en santé » du Syntec numérique. Il est également secré- taire général du Collège national des médecins des hébergeurs (CNMH). données sans risque pour la vie privée, et il convient de se prémunir contre toute dicta- ture des données qui nous conduirait à lais- ser prendre des décisions par des machines, à l’image des dérives du trading haute fré- quence dans le milieu boursier. Les données de santé n’ont pas qu’une valeur économique, elles sont une opportunité et un enjeu majeur en santé et constituent une ressource pour les outils de big data. Chacun devra s’attacher à construire une économie du système qui ne sera pas fondée sur la vente des données, mais sur les enseignements qui découleront des traitements effectués.
  16. 16. Dossier 32 Centraliens no 634 [juin 2014] M étadonnées, littéralement « don- nées à propos des données  ». Bien que le terme ne soit pas nouveau – il est utilisé dans les systèmes de classification des bibliothèques – l’avènement du numérique lui donne un nouveau sens et surtout une nouvelle por- tée. Les métadonnées modernes sont les traces numériques que nous laissons tous derrière nous, en permanence. Lorsque nous téléphonons, lorsque nous naviguons sur Internet, lorsque nous payons avec notre carte bancaire. Les métadonnées de nos télé- phones portables ressemblent à une facture très détaillée : appels ou textos reçus, dates et heures, antennes GSM auxquelles nous nous sommes connectés. Ces métadonnées comportementales sont, avec les données textuelles, un des deux grands types de « big data  », ces très grands ensembles de don- nées dont la collecte et l’utilisation à grande échelle sont récemment devenues non seule- ment possibles mais (très) bon marché. Est-ce parce que le grand public a appris leur existence par les agences de renseigne- ment aux États-Unis ou en France ? Parce qu’elles sont collectées de manière passive ? Ou encore parce qu'elles sont plus difficiles à appréhender que leurs équivalents textuels ? Il est en tout cas certain que ces métadonnées inquiètent. Du positif… Mais d’abord, revenons sur le côté positif de ces métadonnées. Elles facilitent notre vie quotidienne  : quel est le meilleur chemin pour éviter les bouchons  ? Quel sera mon film préféré ? Quelle page web répond exac- tement à ma question ? Les métadonnées sont également cruciales pour l’ingénieur : gérer et améliorer le réseau téléphonique, lutter contre la fraude ban- caire, optimiser un réseau de distribution. Enfin, pour la recherche scientifique, ces métadonnées sont une révolution. Un récent article dans la revue Science compare leur impact scientifique à l’invention du micros- cope. En épidémiologie, les données de mobilité sont utilisées pour étudier la pro- pagation d’un virus comme la malaria. En économie du développement, les chercheurs travaillent à l’utilisation des données télépho- niques pour comprendre et mieux combattre la pauvreté. Autre exemple : les métadonnées font avancer la recherche en management et en sciences sociales. Comment la produc- tivité d’un employé est-elle influencée par ses liens sociaux les plus forts, quel décou- page rationnel pour un territoire comme la France, comment la diversité de notre réseau social est-elle liée à notre pouvoir d’achat, ou encore comment nos connaissances et amis influent-ils sur nos opinions ? Que du positif ? Même si nous sommes bien loin des références orwelliennes ou kaf- kaïennes, l’utilisation commerciale et gou- vernementale à grande échelle de métadon- nées comportementales soulève trois grandes questions. Des interrogations/questions Tout d’abord, celle de l’anonymat  : nos traces numériques contiennent beaucoup d’informations et sont fondamentalement personnelles et privées. C’est pourquoi les chercheurs comme les entreprises n’utilisent que des bases de données anonymisées, Le 6 juin 2013, un nouveau mot est (ré)apparu dans la langue française : métadonnées ! Pas de nouvelle édition du Petit Robert à l’horizon, mais bien les révélations inédites d’un ancien consultant de la NSA, l’agence américaine de renseignement. En quelques jours, le mot a fait la une de tous les grands quotidiens. Métadonnées, « pour ou contre » ? La collecte et l’utilisation à grande échelle des métadonnées sont devenues non seulement possibles mais très bon marché.
  17. 17. www.centraliens.net 33 big data, so what ? desquelles on a retiré les identifiants d’un utilisateur  : son nom, son numéro de télé- phone, son adresse… Cependant, dans le cas des métadonnées, cela n’est absolument pas suffisant. Un récent article en collabora- tion avec l’université de Louvain montre par exemple que notre manière de nous déplacer est très régulière, unique, et comparable à des empreintes digitales. Il suffit en effet de connaître quatre points, quatre endroits et temps approximatifs, où un utilisateur était pour le retrouver dans une base de données pourtant apparemment anonyme de 1,5 mil- lion de personnes. Les métadonnées sont riches, leurs usages multiples et il est très peu probable qu’il soit jamais possible de les ano- nymiser. Il est donc temps d’oublier, légale- ment et techniquement, la notion d’anony- mat au profit d’une quantification du risque de ré-identification. Deuxième interrogation  : les révélations indirectes sur l’individu. Les métadonnées téléphoniques contiennent beaucoup plus d’informations qu’il n’y paraît. Une étude en collaboration avec des chercheurs de l’ENS de Lyon a montré qu’il est possible de prédire la personnalité d’une personne en observant la manière dont celle-ci utilise son téléphone. En calculant un certain nombre d’indicateurs à partir des métadonnées téléphoniques, la durée moyenne qu’un utilisateur prend pour répondre à un texto, la distance moyenne qu’il parcourt par jour ou encore la diversité de ses contacts, des algorithmes de machine learning peuvent prédire le score d’un utilisa- teur dans chacun des cinq grands facteurs de personnalité : l’extraversion, le neuroticisme, l’ouverture à l’expérience, la conscienciosité ou encore l’agréabilité. La vraie question à se poser pour les métadonnées n’est donc pas ce qu’elles révèlent directement mais bien ce qu’un algorithme pourrait, raisonnablement, révéler sur une personne en les utilisant. Enfin, troisième question, la propriété et l’accès aux métadonnées. Bien qu’utilisées à bon escient, leur collecte et leur utilisation sont malheureusement souvent faites de manière peu transparente. Ce manque de transparence nourrit les fantasmes. L’uti- lisateur, celui qui génère les données, doit au minimum y avoir accès. Seul l’accès aux métadonnées brutes permet de comprendre ce qu’elles contiennent et l’usage qui peut en être fait, directement ou indirectement. De même seul cet accès aux données brutes per- met à l’utilisateur de les utiliser pleinement. Il ne s’agit donc pas d’être « pour ou contre » les métadonnées mais de les expliquer, de se poser les bonnes questions et de choisir les réponses que nous voulons y apporter, en tant qu’ingénieurs ou que simples citoyens. Yves-Alexandre de Montjoye (08) @yvesalexandre est chercheur en mathé- matiques appliquées au MIT Media Lab. Il développe des mé- thodes stochastiques pour l’analyse de métadonnées comportementales  : données de mobilité, transactions financières, communications dans les réseaux sociaux. Ses recherches ont reçu une couverture médiatique dans BBC News, CNN, The New York Times, Wall Street Journal, Foreign Policy, Le Monde, Der Spiegel, dans les rap- ports du World Economic Forum et des Nations unies. Avant de rejoindre le MIT, Yves- Alexandre était chercheur au Santa Fe Institute (Nouveau-Mexique). Il est titulaire d’un master en mathéma- tiques appliquées de l’université de Lou- vain et d’un master en ingénierie mathé- matique de la KU Leuven (Belgique). Notre manière de nous déplacer est régulière, unique et comparable à des empreintes digitales. Il est possible de prédire la personnalité d’une personne en observant la manière dont celle-ci utilise son téléphone.

×