Central634_Dossier_completDV_001

www.centraliens.net 17
Dossier
D
ans notre vie quotidienne, nous
constatons l’explosion des données
numériques : nos relations avec nos
fournisseurs, l’administration, les
banques et aussi la photographie, la vidéo, les
réseaux sociaux sont devenus numériques,
avec une progression exponentielle de la créa-
tion de données. Cette progression est loin
d’être terminée, notamment avec le dévelop-
pement de l’usage des smartphones, tablettes
numériques et avec l’arrivée de « l’Internet
des objets » qui voit n’importe quelle apps ou
objet (réfrigérateur, montre cardio, voiture et
plus généralement objet connecté) échanger
de l’information avec des systèmes ou acteurs
toujours plus nombreux sur les réseaux Inter-
net. Ainsi, de nouvelles technologies ont été
créées et se développent, en particulier dans le
domaine de l’analyse, pour tirer parti de ces in-
formations numériques : le « big data » est né.
Il a ses caractéristiques propres ; on parle des
trois, et parfois des quatre « V » :
• volumes de données ;
• variété de nature, de type… ;
• vitesse ;
• véracité des données.
Seulement voilà, au-delà des technologies,
quelssontlesusagespotentielsdecesbigdata?
Ouvrent-elles la porte à de nouveaux services
pour le commun des mortels ?
Toutes ces informations qui traquent le
moindre de nos mouvements, questions, en-
vies, ne viennent-elles pas entraver les libertés
individuelles ?
In fine, c’est l’usage des technologies de big
data qui va apporter la valeur, parfois consi-
dérée comme le cinquième « V » et dimen-
sion ultime des big data.
Il est intéressant de souligner ici que l’ap-
proche big data est et doit être systémique, car
c’est le modèle d’affaire ou de fonctionnement
des organisations elles-mêmes qui est modifié.
C’est une des raisons pour laquelle la plupart
des professionnels contactés m’ont expliqué
le caractère stratégique de ce sujet pour leur
société. D’où leur refus de communiquer.
Ce caractère systémique va d’ailleurs large-
ment au-delà des frontières des entreprises
et des organisations ; l’approche de l’ingé-
nieur doit être holistique. De fait, il induit
une réelle complexité du sujet dans le sens ou
la réaction des écosystèmes aux systèmes de
big data mis en place évoluent avec le temps :
par exemple, Google modifie régulièrement
ses algorithmes de « scoring » pour tenir
compte de l’usage qui est fait de son moteur
de recherche. Nous verrons dans le dossier
l’exemple d’une société française innovante et
reconnue mondialement.
Au fond, c’est un terrain de jeu passion-
nant : le marketing, souvent premier grand
bénéficiaire du volet technologique du big
data, doit être traité en même temps que la
stratégie, les partenariats et l’organisation.
Nous apportons ici des éléments de réponse
et de réflexion en illustrant en particulier les
usages du big data :
• un premier article plante le décor de la
révolution industrielle que représente ce
nouveau monde de l’information ;
• deux articles couvrent les aspects techno-
logiques : la recherche (analyse séman-
tique des données), la mise en œuvre de ces
technologies (les architectures de systèmes
en question) ;
• différents points de vue s’expriment : les
assurances, la publicité et la santé ;
• enfin un article sur les métadonnées et la
protection de la vie privée.
Je tiens à remercier vivement les auteurs qui
ont partagé leur point de vue. J’espère que ce
dossier vous éclairera sur ce sujet qui fait cou-
ler beaucoup d’encre. Nous sommes au début
d’une nouvelle ère de l’information, à chacun
d’écrire une partie de ce nouveau chapitre.
Je vous souhaite autant de plaisir à le lire
que j’en ai eu à échanger avec les différents
auteurs, experts de ce sujet, pour coordonner
ce dossier !
Big data, so what ?
Sommaire
p 18 La révolution des données
ou l’or du XXIe
siècle
p 20 De la business intelligence
aux big data :
apport des technologies sémantiques
p 24 Des architectures pour le big data
p 26 À l’aube d’une révolution
dans l’assurance
p 28 La science de prédiction des clics
p 30 Vers la médecine 3.0 ?
p 32 Métadonnées,
« pour ou contre » ?
Bruno Cambounet
(84)
Vice-président chez
Axway, société leader
dans la gouvernance
des flux de données,
en charge des marchés
verticaux.
Il a développé son expérience dans des
positions d’opérationnel et de conseil.
Il dirige des projets d’innovation et de
développement dans différents sec-
teurs comme l’industrie, le transport
et logistique, la santé, les télécommu-
nications et les services.
Il préside le groupement professionnel
Centrale Consultants de l’Association
des Centraliens.

Dossier
18 Centraliens no
634 [juin 2014]
La révolution des données
ou l’or du XXIe
siècle
La révolution numérique a engendré des gains de productivité records au cours des dernières
années. Pour beaucoup d’analystes, c’est la troisième révolution industrielle. Des États-Unis
à l’Europe, de la santé à l’éducation, les big data préﬁgurent un nouveau modèle de société.
A
ux États-Unis, les gains de produc-
tivité enregistrés par le Bureau of
Statisticssurlesannées2009,2010et
2011sontlesplusimportantsjamais
rencontrés. Pour les analystes économiques,
la principale force derrière cette accélération
est le paradigme numérique. Les similitudes
avec le « Gilded Age » lié à l’émergence de la
deuxième révolution industrielle sont trou-
blantes : concentration des capitaux à grande
vitesse, maîtrise d’économies de réseaux par
quelques acteurs très concentrés, besoins très
élevés en capitaux, etc.
À n’en pas douter nous assistons là à l’opti-
misation de l’adéquation des offres et des de-
mandes grâce aux gains d’opportunités carac-
téristiques du numérique qui servent l’intérêt
d’une toute petite minorité, amassant des for-
tunes à des vitesses très élevées. En effet, pen-
dant que ces gains de productivité permettent
à Sergueï Brin, Mark Zuckerberg et quelques
autres de s’enrichir, la classe moyenne améri-
caine s’appauvrit rapidement. Ces problèmes
ne sont pas nouveaux : on garde à l’esprit les
conditions effroyables dans lesquelles vivaient
les ouvriers anglais tout au long du XIXe
siècle,
travaillant dans des usines rudimentaires
et insalubres… Puis le droit du travail a été
inventé, tout comme la sécurité sociale et
l’éducation obligatoire.
L’idée est là. Chaque révolution industrielle
amène son modèle social et sa régulation
appropriée.
La première a vu l’émergence du code civil,
qui a fourni une stabilité du droit propre à
permettre une forte expansion économique.
La deuxième a donné naissance aux droits so-
cial et du travail, qui ont permis l’émergence
d’une classe prolétaire formée et disposant
d’uneconsciencepolitique.Latroisièmepour-
rait voir l’avènement du « code des données ».
Une manne croissante
d’informations
En effet, la révolution numérique pourrait se
transformer rapidement en révolution des
données. Afin de replacer les choses dans leur
contexte, il faut savoir que 90 % de la donnée
produite dans le monde l’a été au cours des
deux dernières années.
Car en plus de disposer d’une manne crois-
sante d’informations, la production de ces
données se fait au sein d’un réseau unifié,
communiquant à l’aide d’un même protocole
(« IP ») utilisé pour véhiculer l’information.
Si aujourd’hui le nombre d’adresses IP est de
l’ordre de 10 à 20 milliards, l’on estime qu’en
2025, avec l’avènement de l’ère des objets
connectés, ce nombre pourrait passer à 150
ou même 200 milliards. Et il ne s’agit là que
de prédictions relativement conservatrices
car, comme le fait remarquer Jean-Yves Pro-
nier, directeur marketing du gestionnaire de
données EMC, « ces estimations sont rendues
fausses d’année en année par les nouveaux
usages ».
Aujourd’hui, nous en sommes encore à l’âge
de pierre de l’exploitation intelligente et mas-
sive de la donnée connectée. Néanmoins,
nous pouvons déjà en discerner les contours
et en apprécier le potentiel. Il y a peu, l’ex-
ploitation d’une si grande quantité de don-
nées était impossible car les volumes étaient
trop importants et les outils d’analyse pas
encore inventés. Néanmoins, une nouvelle
génération d’algorithmes permet désormais
de gérer ces données dans leur globalité et
leur complexité : on a donné à cet ensemble
de technologies le nom de « big data ».
En plus de faire communiquer les données
entre elles, nous pouvons à présent nous ser-
vir d’un jeu de données pour en comprendre
un autre et ainsi de suite, révélant le secret qui
90 % de la donnée produite dans le monde l’a été au
cours des deux dernières années.

big data, so what ?
se cache derrière ces quantités d’informations
produites et stockées tous les jours.
C’est de cette manière que Google, en comp-
tant le nombre de fautes d’orthographe saisies
dans le moteur de recherche, parvient à esti-
mer précisément le niveau d’illettrisme dans
un pays ou une zone géographique donnée.
Au même titre l’ONU, avec son programme
Global Pulse, écoute désormais les réseaux
sociaux pour détecter de façon préventive les
endroits dans le monde où un conflit est sus-
ceptible de survenir.
Autre exemple : dans l’agglomération de
Chicago, l’analyse des flux de données issues
des réseaux sociaux a permis de prédire avec
un niveau de précision inouï où seraient
commis les prochains crimes, et ainsi de les
prévenir en plaçant des véhicules de police
au niveau des zones d’alerte. L’on pourrait
étendre ces mêmes mécanismes au domaine
de l’épidémiologie, la prévention précoce des
maladies chroniques ou encore le traitement
des pathologies orphelines.
Un impact sur tous les secteurs
En bref, les technologies big data risquent
d’impacter fortement de très nombreux sec-
teurs, ce type d’approches pouvant être massi-
vement généralisé afin d’optimiser les oppor-
tunités dans tous les domaines.
Certes,ilyalesrisquesentoutgenre,lesaddic-
tions, les abus que des entreprises pourraient
être tentées de commettre, et la volonté de
surveillance sans limite des États. Pour autant,
tout aussi technologiques que puissent être les
données, nous en sommes jusqu’à preuve du
contraire les maîtres et c’est à nous, les sociétés
civiles, les institutions élues, de décider de la
façon dont nous souhaitons construire notre
société.
De surcroît, la data n’est pas une force brute,
une énergie motrice, un liquide que l’on met
dans un moteur à explosion, c’est un outil
qui nous permet de créer un monde plus
intelligent, où les opportunités sont plus
nombreuses, ou les occasions manquées se
raréfient ; c’est potentiellement un nouveau
modèle de société, une nouveau vecteur d’ex-
pression, l’opportunité d’une consommation
plus raisonnée.
À l’heure où notre modèle social semble lar-
gement menacé et où l’économie est en berne,
c’est là l’occasion pour notre nation de se re-
construire, de se réinventer d’une manière qui
va largement au-delà de ce que nous pouvons
concevoir. L’éducation, la santé, la production
de richesse, l’utilisation des ressources… tout
cela sera affecté par ce que l’on appelle désor-
mais « l’or du XXIe
siècle ».
Mark Zuckerberg, premier actionnaire de Facebook et 21e
fortune mondiale,
estimée à 26,7 milliards de dollars.
Gilles Babinet
Depuis 1989, Gilles
Babinet a fondé neuf
sociétés dans des
domaines d’activité
variés : travaux élec-
triques en hauteur,
design, téléchargement de musique,
recherche publicitaire et marketing, big
data… En 2011 il est élu premier pré-
sident du Conseil national du numé-
rique. Nommé « Digital Champion »
par la ministre déléguée au Numérique
en 2012, il publie en janvier 2014 L’Ère
numérique, un nouvel âge de l’huma-
nité dans lequel il met en avant l’impact
de la sphère numérique sur la société
moderne.
©Facebook

Dossier
20 Centraliens no
634 [juin 2014]
L
’objectif principal de la business
intelligence (BI) est de transformer
les données en connaissances afin
d’améliorer le processus décisionnel.
Or, certains facteurs comme la croissance
constante du volume de données et d’infor-
mations ont conduit à la nécessité de mettre
en œuvre de nouveaux moyens d’interac-
tion. Les utilisateurs manipulent de plus
en plus de données non structurées (docu-
ments, courriels, réseaux sociaux, contacts)
en plus des données structurées (CRM,
bases de données, etc.). Ces utilisateurs
souhaitent plus d’interactivité, de flexibi-
lité et de dynamicité. De plus, les processus
de décisions sont de plus en plus rapides et
nécessitent d’être plus automatisés. Toutes
ces évolutions ont induit un changement
de paradigme important pour la BI, avec
notamment la prise en compte des données
non structurées extraites à l’aide des techno-
logies sémantiques.
Extraire de la valeur à partir de ces don-
nées est devenu un enjeu crucial dans un
marché mondial hyper compétitif. La BI est
également impactée par les big data, avec le
besoin croissant d’extraire de la valeur en
temps réel à partir d’importants volumes
de données. Les technologies sémantiques
regroupent un ensemble de méthodes, pro-
cessus et algorithmes destinés à extraire du
sens à partir des données. Les technologies
du web sémantique incluent un ensemble
de standards comme le modèle RDF (Re-
source Description Framework), un lan-
gage de description d’ontologies (OWL) et
un langage d’interrogation (SPARQL). Les
technologies sémantiques et celles du web
sémantique peuvent adresser la variété dans
les big data.
Évolution de la BI pour prendre
en compte les « big data »
La business intelligence est un ensemble d’ou-
tils et de méthodes destinés à collecter, repré-
senter et analyser les données pour assister le
processus d’aide à la décision dans les entre-
prises. Elle est définie comme la capacité pour
une organisation à prendre toutes les données
en entrée et à les convertir en connaissances,
délivrant ainsi une information pertinente au
moment opportun et via un canal de diffusion
adapté. Durant ces vingt dernières années, de
nombreux outils ont été conçus pour rendre
disponibles de grands volumes de données
d’entreprise à des utilisateurs non experts.
La BI est une technologie mature, largement
acceptée mais qui fait face à de nouveaux
défis tels que l’intégration de données non
structurées dans le processus d’analyse. Ces
défis sont induits par les volumes de don-
nées disponibles en constante augmentation,
dont les systèmes doivent comprendre le sens
et être capables d’y réagir en temps réel. Les
technologies sémantiques et les mécanismes
de raisonnement associés peuvent faciliter ce
processus d’analyse.
La BI traditionnelle peut donc être étendue
aux technologies sémantiques pour intégrer le
sens des données. La vision du projet CUBIST
(www.cubist-project.eu) est d’étendre le pro-
cessus classique d’ETL (extraction, transfor-
mation et chargement) aux données structu-
rées et non structurées et à leur stockage sous
forme de triplets RDF.
La figure 1a représente l’architecture clas-
sique d’un outil de BI dans lequel les données
sont structurées et chargées dans un entrepôt
de données. Les utilisateurs peuvent interagir
avec des requêtes restreintes produisant un
tableau de bord statique.
Destinée à analyser les données brutes pour en extraire du sens, la business intelligence
est également impactée par les problématiques de big data.
De la business intelligence
aux big data :
apport des technologies sémantiques

big data, so what ?
La figure 1b correspond à la vision du projet
CUBIST, dans laquelle les sources de don-
nées sont hétérogènes (structurées ou non) et
stockées sémantiquement dans un triple store
(entreposage de triplets RDF). Les utilisateurs
peuvent interagir avec des requêtes flexibles
(requêtes SPARQL) et utiliser dynamique-
ment des outils de visualisation analytique.
La figure 1c représente une évolution plus
récente pour prendre en compte les flux de
données et la sémantique. Avec la croissance
exponentielle des capteurs, logs, réseaux
sociaux et objets connectés, de larges collec-
tions de données sont générées en temps réel.
Elles sont appelées des « flux de données » :
il n’y a pas de limite quant au volume géné-
ré ni de contrôle sur l’ordre d’arrivée. Les
méthodes d’analyse doivent donc s’adapter
au traitement des données à la volée et dans
l’ordre d’arrivée. Ces flux de données sont
analysés en temps réel, mais également agré-
gés et interprétés de manière à générer des
alertes pour réagir à des événements. L’ana-
lyse sémantique de ces flux, et plus particuliè-
rement leur croisement avec d’autres sources
d’information, est une vraie valeur ajoutée
dans le processus de décision.
Ces flux, et plus particulièrement leur croi-
sement avec d’autres sources d’information,
est une vraie valeur ajoutée dans le processus
de décision.
Dans une plate-forme BI temps réel, de
multiples sources de données hétérogènes
peuvent être connectées, et ces données
peuvent être statiques ou dynamiques. Les
données statiques peuvent provenir de bases
de données ou de données ouvertes (open
data), et ne changent pas ou peu. Les don-
nées dynamiques proviennent de capteurs et
peuvent éventuellement être dans un format
sémantique comme RDF. Ces données, sta-
tiques et dynamiques, sont exploitées pour
répondre à des processus spécifiques. Des
requêtes continues et persistantes permettent
de gérer ces flux en temps réel et aux utilisa-
teurs de recevoir des nouveaux résultats dès
qu’ils sont disponibles.
Les technologies sémantiques
De nombreuses techniques permettent d’ex-
traire du sens ou de la connaissance à partir
des données. Parmi celles-ci, nous pouvons
citer le traitement automatique des langues,
la fouille de données, l’apprentissage ainsi
que l’ingénierie des ontologies. Ces tech-
niques permettent d’extraire des modèles et
des patrons, de structurer les données non
structurées et ainsi de transformer n’im-
porte quelle donnée en information ou en
connaissance actionnable.
Les technologies du web sémantique per-
mettent de lier, publier et rechercher des
données sur le web, mais aussi de structurer
Figure 1. BI classique (a), BI sémantique (b) et BI en temps réel (c).

Dossier
22 Centraliens no
634 [juin 2014]
et d’enrichir sémantiquement des données
au format RDF, et ceci à très grande échelle.
Les approches guidées par la sémantique
peuvent simplifier le processus d’intégra-
tion de sources de données hétérogènes
par le biais d’ontologies, fournir ainsi une
couche unifiée de métadonnées, découvrir
et enrichir l’information et, enfin, fournir
un mécanisme unifié d’accès aux données.
La sémantique peut donc adresser la variété
dans les big data, en permettant la transfor-
mation des données non structurées dans
un format structuré en vue de leur analyse.
De plus, la valeur des données augmente
quand celles-ci peuvent être liées à d’autres
données (linked data). Les technologies
sémantiques sont donc une opportunité
pour réduire le coût et la complexité de l’in-
tégration de données.
En conclusion, comme le montre la figure 2,
les « linked data » évoluent vers des masses
de plus en plus importantes qu’il est pos-
sible de qualifier de « big linked data », mais
les big data peuvent aussi tirer profit d’une
évolution vers les « linked big data ».
Figure 2. Big data et linked data.
Marie-Aude
Aufaure est professeur
à l’École Centrale Paris
(Laboratoire MAS).
Elle dirige depuis 2008
la chaire business
intelligence.
Elle participe aux tra-
vaux de l’Inria Paris-Rocquencourt, où
elle a réalisé sa thèse. Elle est impliquée
dans plusieurs projets européens et
nationaux.
Docteur en informatique, elle a été
enseignante à l’université de Lyon et à
Supélec. Ses domaines de compétence
couvrent les bases de données, la fouille
de données, l’ingénierie des connais-
sances et, plus récemment, les big data.
Printemps 2015 : executive certiﬁcate big data
Un programme de formation continue préparé par Marie-Aude Aufaure
À l’ère du numérique, le déluge de données crée de nouvelles opportunités économiques
pour les entreprises. Toute la chaîne du décisionnel est impactée par les big data : collecte des
données hétérogènes, analyse, visualisation, marketing, stratégie d’entreprise... De nouveaux
métiers apparaissent, tels que « data scientist ».
Centrale Paris Executive Education, la formation continue de l’École Centrale Paris, propose
en 2015 un nouveau cursus de vingt jours. Cette formation est composée de six modules qui
pourront être choisis à la carte.
L’objectif est de dresser un état des lieux et un panorama des technologies. Les entreprises ont
besoin de maîtriser leurs données et la valeur qu’elles peuvent générer. L’organisation centrée
des données permet ainsi de placer les données au centre de la gestion opérationnelle et déci-
sionnelle et de réduire le temps de prise de décision.
La formation comprend :
3 modules non techniques : enjeux, perspectives et applications des big data, retours d’ex-
périence, aspects juridiques et protection des données ;
3 modules techniques : acquisition et stockage des données, traitement distribué, analyse
et visualisation de données.
Les technologies de l’information et de la communication seront largement utilisées, en com-
binant enseignement en ligne et présentiel. Des webinars seront également proposés. Des in-
tervenants industriels, chercheurs, institutionnels (acteurs majeurs du domaine des big data)
prendront part à cette formation.
Il existe déjà depuis deux ans un « executive certificate » cloud computing. Cette formation de vingt-sept jours
permet de former des professionnels maîtrisant la gouvernance et l’architecture de solutions cloud.
www.ecp.fr/home/Formations/Formation_continue

big data, so what ?

Dossier
24 Centraliens no
634 [juin 2014]
Figure 1. Les trois propriétés du théorème CAP de Brewer.
L
a montée en puissance du big data
actuelle est le fruit de trois tendances
concomitantes : la disponibilité des
données, la disponibilité des algo-
rithmes de traitement, la disponibilité de la
puissance machine permettant de stocker et
de traiter ces données. D’un point de vue tech-
nique, on parle de big data lorsque la quantité
ou le débit des données pose un défi qui ne
peut être relevé avec des technologies « stan-
dard»(typiquementlesbasesdedonnéesrela-
tionnelles).
Pour avoir une idée des ordres de grandeur,
on peut considérer qu’aujourd’hui une base de
données relationnelle commence à montrer ses
limites dans deux cas : pour des quantités de
données stockées supérieures à 10 To, ou pour
des débits de « transactions » (l’écriture ou la
lectured’unedonnée)quidépassent1000tran-
sactions par seconde. Ces limites sont évidem-
ment indicatives et, par ailleurs, évoluent dans
le temps selon la fameuse loi de Moore : « toute
ressource informatique double de capacité à prix
constant tous les 18 mois. »
Deux points méritent cependant l’attention.
D’une part, la quantité des données disponibles
croissent bien plus rapidement que la loi de
Moore1
. D’autre part, il existe une ressource
informatique qui échappe à la loi de Moore : la
vitesse d’écriture des données sur les supports
physiques. Certes quand on passe du disque
dur tournant (HDD) au disque dur fixe (SDD),
le débit d’écriture progresse, mais bien moins
rapidement que les autres ressources que sont
le volume de stockage et la puissance de traite-
ment. Les systèmes d’informations modernes
doivent donc manipuler une quantité de don-
nées qui croît beaucoup plus vite que la loi de
Moore avec une « tuyauterie » qui croît beau-
coup moins vite. Ce ciseau est structurant dans
la mesure où il a déterminé les choix d’archi-
tecture des solutions dites de big data. Rete-
nons donc ce point : l’une des actions les plus
coûteuses en temps dans les systèmes d’infor-
mations modernes devient le déplacement de
la donnée d’un espace de stockage à un autre.
Distribuer la donnée sur
un grand nombre de machines
D’où viennent les limitations des bases de
données relationnelles ? Essentiellement d’une
conception monomachine. Cette affirmation
est en réalité simplificatrice car les architec-
tures de ces bases ont évolué, mais elles portent
malgré tout cette caractéristique dans leur code
génétique. Aussi, pour augmenter le débit de
transactions et la capacité de stockage, une idée
naturelle est apparue : distribuer la donnée sur
un grand nombre de machines.
On dispose ainsi non seulement d’un espace de
stockage mais aussi d’un débit de transaction
proportionnelsaunombredemachinespuisque,
d’une certaine façon, on multiplie le nombre de
tuyauxparlesquelstransiteladonnée.
Ce principe est au cœur de la conception des
solutions dites big data. La réalité est cependant
moinssimplequ’iln’yparaît.Voicivenulemo-
ment d’introduire le théorème de Brewer, du
nom de la personne qui l’a conjecturé en 2000,
la preuve ayant été publiée en 2002. Car oui, il
s’agit d’un vrai théorème !
LethéorèmedeBrewer,aussiappeléthéorème
CAP, du nom des sommets du triangle de la fi-
gure 1, stipule que dans tout système distribué,
on ne peut garantir simultanément que deux
des trois propriétés suivantes ;
consistency (cohérence) : la capacité d’un
système à garantir que tous ceux qui accèdent
àunedonnéeontlamêmevisiondeladonnée;
availability (disponibilité) : le fait que la
donnée est accessible à tout moment ;
partition tolerance (tolérance à la parti-
tion) : le fait que le système dans son ensemble
fonctionnecorrectement,mêmeencasdeperte
d’une machine, induisant donc une « sépara-
tion » (partition) entre les machines.
Les deux premières propriétés, assez classiques,
sont celles que garantissent les bases de don-
nées relationnelles : on veut pouvoir lire et
écrire des données tout le temps (availability)
engarantissantquetoutlemondevoielamême
donnée (consistency).
Assurer la tolérance
à la partition
Pendant longtemps, ces propriétés ont
suffi à notre bonheur. Mais quand il a été
nécessaire de répartir la donnée sur plu-
sieurs machines pour augmenter le volume
de stockage, la tolérance à la partition est
devenue essentielle. En effet, le coût pour
garantir que tous les nœuds d’un cluster
fonctionnent correctement à tout moment
devient très rapidement exorbitant.
On a ainsi cherché des compromis sur les
autres axes. Et en premier lieu, sur la cohé-
rence. De prime abord, cela paraît très ris-
qué : comment travailler de façon fiable avec
des données qui ne le sont pas ? Pour pallier
ce problème, la stratégie a consisté à dupli-
Des architectures
pour le big data
La distribution des données sur un grand nombre de machines est au cœur des solutions big data.
Or si le principe semble simple, il soulève des enjeux de conception qui ont suscité l’innovation.

big data, so what ?
quer plusieurs versions d’une même don-
née sur différentes machines. Il suffit alors
de disposer de plusieurs copies absolument
identiques d’une donnée pour être certain
de cette donnée, même si une autre copie
est corrompue ou dans un état instable.
On parle ainsi de cohérence in fine, car le
système ne garantit pas à tout moment la
cohérence de la donnée, mais garantit qu’au
bout d’un certain temps la donnée le sera.
Ce mode de fonctionnement est au cœur
de plusieurs familles de solutions big data,
notamment Hadoop et Cassandra.
Hadoop, plate-forme de plus en plus utili-
sée dans le domaine du big data, présente
une autre caractéristique intéressante. Elle
propose une distribution des traitements
au plus proche des données, selon un algo-
rithme appelé MapReduce. Souvenez-vous :
avec le big data, l’opération la plus longue
est le déplacement de la donnée. Avec
MapReduce, Hadoop s’efforce de déplacer
l’exécution des traitements sur les machines
qui détiennent les données nécessaires à ces
traitements (figure 2).
Chaque rectangle bleu correspond à une opé-
ration qui peut être exécutée sur un serveur
différent (typiquement, le serveur le moins
chargé détenant une copie de la donnée qui
intervient dans le traitement). On « mappe »
des sous-tâches indépendantes sur des ser-
veurs différents et quand chaque serveur a
accompli sa sous-tâche, on recolle les mor-
ceaux entre eux pour obtenir le résultat final.
Des changements
plus profonds qu’il n’y paraît
Ce rapide survol des architectures des solu-
tions big data donne un aperçu des nouveaux
principes mis en œuvre pour traiter de très
gros volumes de données. Ces changements,
plus profonds qu’il n’y paraît, induisent
quelques corollaires importants :
quitte à devoir utiliser plusieurs ma-
chines, autant utiliser des machines de
grande série (commodity hardware) plutôt
que de gros serveurs très coûteux. Il s’agit
d’une tendance forte dans les infrastructures
actuelles ;
à partir du moment où on utilise un
grand nombre de machines, l’automatisa-
tion de la configuration des machines et du
déploiement des traitements doit être très
poussée. Ceci a suscité l’émergence d’outils
et de pratiques qui, poussées à l’extrême, ont
favorisé l’émergence du cloud ;
tous les traitements ne sont pas distri-
buables sur plusieurs machines. Il y a par
conséquent une recherche particulièrement
active pour identifier des algorithmes qui se
prêtent à ce type de parallélisation.
Les solutions big data s’inscrivent éga-
lement dans un mouvement plus vaste,
l’accessibilité de ces technologies (certains
parlent de consumérisation). Hadoop, par
exemple, est open source. La plupart des
algorithmes d’apprentissage automatique
sont également disponibles gratuitement.
Il est possible de louer pour quelques cen-
taines d’euros (et une durée limitée) plu-
1. Voir à ce sujet l'article de Stacey Higginbotham sur
le site Gigaom.com, « Question everything : a new
processor for big data ».
sieurs machines sur un cloud tel que celui
d’Amazon. Ainsi, aujourd’hui, les techno-
logies big data sont accessibles à quasiment
tout le monde alors qu’il y a peu, leurs équi-
valents étaient réservés à des entreprises dis-
posant de solides capacités d’investissement
informatique. Le potentiel d’innovation lié à
l’ouverture et à la puissance de ces outils est
considérable.
Ludovic Cinquin
(95)
Directeur général
France d'Octo,
cabinet de conseil
en technologies
et management de
système d'information. Co-auteur de
plusieurs ouvrages, dont Les Géants
du web : culture pratique architecture.
En parallèle à ses activités de manage-
ment, il accompagne les grands comptes
dans le cadre de missions de conseil
stratégiques. Il intervient régulièrement
en tant que speaker, notamment à la
conférence USI (www.usievents.com).
Figure 2. L’algorithme MapReduce permet de déplacer l’exécution des traitements sur les machines
qui détiennent les données nécessaires à ces traitements.

Dossier
26 Centraliens no
634 [juin 2014]
S
i l’on considère l’assurance auto, le
développement des premières offres
de tarification au kilomètre ne date
que de quelques années, bénéficiant
des progrès en matière de télématique per-
mettant d’embarquer dans le véhicule des so-
lutions de géolocalisation fiables, discrètes et
économiques. Cette géolocalisation permet
à l’assureur d’intégrer dans sa tarification le
nombre de kilomètres réellement parcourus,
qui constitue une dimension jusqu’à présent
estimée et pourtant d’ordre un dans l’évalua-
tion du risque, et d’offrir ainsi à l’assuré un
tarif plus « juste ». Ce principe du « pay as
you drive » n’est que la première étape d’une
ouverture beaucoup plus large des possibi-
lités de personnalisation des tarifs. On peut
imaginer le « pay where you drive », le « pay
how you drive »… Le fait de collecter cette
masse d’informations sur la conduite permet
de converger vers le « segment of one », c’est-
à-dire la possibilité de proposer des prix per-
sonnalisés par conducteur et donc plus bas
pour les bons conducteurs.
Le big data pourra également permettre
d’enrichir le contenu des services qu’offre
l’assureur à ses assurés : le flots des données
capturées (par les boîtiers de télématique em-
barqués ou par toute autre source de données
publique ou privée) permet en effet d’infor-
mer en temps réel le conducteur sur les zones
à risque, les obstacles susceptibles de ralentir
sa route, les conditions météo, ainsi que sur
son propre comportement (freinage, accélé-
ration…) dans une optique de prévention. Il
permet en outre de géolocaliser le véhicule,
notamment en cas de vol. Seulement 2 %
des assureurs automobile américains offrent
aujourd’hui des produits fondés sur le moni-
toring du comportement des assurés. Cette
proportion devrait atteindre 10 à 15 % en
2017. Sur le plan concurrentiel, l’usage de
la télématique constitue une innovation de
rupture susceptible de modifier le paysage
concurrentiel, selon le rythme de déploie-
ment par les acteurs installés ou de nouveaux
entrants.
En matière de santé, on peut de la même ma-
nière imaginer la possibilité pour l’assureur
de prendre en compte les habitudes de vie de
ses assurés (le « pay how you live ») en s’ap-
puyant sur un flot de données générées par
les individus dans leur vie quotidienne. Ce
champ d’application est certainement moins
mûr que ne l’est la télématique automobile,
mais la technologie évolue vite. Commencent
ainsi à apparaître des outils connectés desti-
nés à mieux gérer notre santé : bracelet lisant
la qualité du sommeil, balances connectées
au Smartphone, outils de monitoring des
habitudes alimentaires…
Intégration des données
génétiques
Le progrès ne s’arrêtera pas là : la génération
dedatasantéreflétantleshabitudesdeviesera
progressivement complétée par la génération
de données génétiques. En 2013, le génome
d’un million d’individus a été séquencé. La
carte génétique d’un individu peut désormais
être établie pour une somme de 100 euros, et
la connaissance précise du patrimoine géné-
tique va permettre d’entrer dans le domaine
de la médecine prédictive. Cette révolution
médicale risque de fortement déstabiliser les
fondamentaux de l’assurance santé.
La quantité de données est
l’élément majeur de la ﬁabilité
des statistiques, fondement de
l’assurance. L’abondance et
la qualité des données sont
par conséquent des facteurs
essentiels de différenciation
compétitive pour les assureurs.
Dans un monde « big data »,
la disponibilité de données
nouvelles et la capacité de
les exploiter va profondément
modiﬁer la relation
qu’entretiennent les assureurs
avec leurs clients, en transformant
la manière d’entrer en contact
avec eux et de les servir.
À l’aube d’une révolution
dans l’assurance

big data, so what ?
Sur un plan fondamental, un risque n’est
en effet assurable qu’à la condition d’être
quantifiable et mutualisable, et que les
distorsions occasionnées par l’asymétrie
d’information (source d’antisélection) et
l’aléa moral soient limitées. Dans le cas de
l’assurance automobile, la connaissance du
risque va évoluer et le tarif sera de plus en
plus individualisé. Pour autant le risque
ne disparaîtra pas, l’asymétrie d’informa-
tion est même abaissée (l’assureur connaît
mieux le comportement de son assuré) et
il reste indispensable de s’assurer. Le mar-
ché de l’assurance santé sera en revanche
fortement impacté, avec différents états
de marché possibles selon la manière dont
les données personnelles de santé seront
gérées.
Un marché autorisant la tarification repo-
sant sur des données génétiques ira dans
le sens d’une hypersegmentation tarifaire,
avec pour conséquence de rendre les po-
lices d’assurance plus coûteuses pour un
nombre croissant de « risques aggravés »,
tandis que la taille et la qualité des mutua-
lités diminuera. Il est vraisemblable que les
préoccupations éthiques fassent obstacle à
ce type de marché, en limitant les possibi-
lités d’utilisation des données personnelles
dans le domaine de la santé. La consé-
quence est dans ce cas l’apparition d’une
asymétrie d’information amplifiée entre
les assurés et les assureurs, avec le risque
pour les assureurs de voir les bons risques
leur échapper ou de devoir les tarifer à des
prix très bas.
Cette question sur l’équilibre du marché est
le reflet d’un débat de société entre d’une
part le besoin de personnalisation souhaité
par chaque consommateur d’un service et
d’autre part la volonté des pouvoirs publics
de lutter contre les discriminations.
À ce titre, il est utile de rappeler qu’un avis
de la Cour de justice européenne de 2011 in-
terdit la possibilité offerte aux assureurs au-
tomobile d’utiliser le genre en tarification.
Limitation des risques
de fraude
Actuellement, les méthodes traditionnelles
de détection des fraudes à l’assurance ex-
ploitent des rapports d’expertise, les histo-
riques de fraudes antérieures… sans pour
autant exploiter toutes les sources de don-
nées comme l’activité des assurés sur les
réseaux sociaux. Le big data va permettre
de détecter et d’utiliser toutes sortes de « si-
gnaux faibles » et pouvant être corrélés à des
tentatives de fraude ou des fraudes avérées.
De manière moins spécifique à l’assurance,
mais tout aussi impactant pour les opéra-
teurs en place, les technologies du big data
vont offrir de nouvelles possibilités sur le
plan commercial. Les capacités des outils
de CRM vont être démultipliées, enrichies
d’une infinité de données client mêlant
sources internes et externes, de manière à
cibler toujours plus précisément les besoins
de chaque prospect ou client. La connais-
sance des clients en temps quasi réel per-
mettant de les gérer de manière totalement
individualisée, et de leur proposer le service
adapté au bon moment par le bon canal
commercial.
La révolution du big data est bien en route
pour les assureurs installés, dans un envi-
ronnement qui individualisera de plus en
plus le risque et la relation client, avec in fine
la possibilité de modifier profondément le
paysage concurrentiel du secteur. Une autre
famille d’acteurs cherchera inévitablement
à tirer son épingle du jeu et à s’approprier
une part significative de la valeur : il s’agit
des fournisseurs de données, détenteurs du
nouvel or noir, et maîtres de la segmenta-
tion des risques.
Christophe Mugnier
(95)
Directeur de la stra-
tégie, du contrôle de
gestion et des achats
d’Axa France. Avant
de rejoindre le groupe
Axa il y a 18 ans, Christophe Mugnier
a dirigé l’actuariat Vie individuelle
et assuré la Direction technique des
assurances collectives et l’activité
épargne et retraite entreprises. Il est
membre de l’Institut des actuaires.
Le séquençage des génomes risque de déstabiliser les fondamentaux
de l'assurance santé.
La connaissance des clients en temps quasi réel permet de les gérer de manière
totalement individualisée.

Dossier
28 Centraliens no
634 [juin 2014]
S
ur Internet, le marché de la publi-
cité se décompose en deux grandes
catégories :
Le search, c’est-à-dire l’achat de
mots-clés auprès des moteurs de recherche.
Si vous travaillez pour un site de vente
en ligne de chaussures, vous pouvez par
exemple choisir d’acheter le mot-clé « chaus-
sure sport », ce qui vous permettra d’appa-
raître dans la partie liens sponsorisés des
résultats de votre moteur de recherche. Pour
cela vous rémunérez ce dernier au CPC (cost
per click), c’est-à-dire uniquement si l’utili-
sateur clique sur votre lien. Plus votre CPC
est élevé, plus vous aurez de chance d’arriver
en tête des liens sponsorisés. Les utilisateurs
de ce type de campagnes ont en général un
objectif de performance. Autrement dit, ils
calculent le retour sur investissement de leur
campagne.
Le display, l’affichage de bannières publici-
taires chez tous les sites dits « éditeurs », qui
souhaitent générer des revenus publicitaires.
Si l’on reprend le même exemple, vous pou-
vez décider de promouvoir votre site en affi-
chant des bannières contenant votre logo et
des photos de vos chaussures les plus popu-
laires. Vous rémunérez alors la plupart du
temps le site éditeur au CPM (cost per mille),
c’est-à-dire pour chaque affichage, essen-
tiellement parce que les performances de ce
type de campagnes étaient beaucoup moins
bonnes que celles du search.
Leader mondial de la publicité display à la
performance, Criteo diffuse des campagnes
pour le compte de ses clients (la plupart des
grands sites marchands). Son objectif : affi-
cher « la bonne publicité, au bon utilisateur,
au bon moment ». Les niveaux de perfor-
mance sont mesurés aux taux de clics et aux
taux de conversion. Ce dernier représente
la proportion d’utilisateurs qui « conver-
tissent », c’est-à-dire qui achètent un article
sur le site après un clic.
Criteo a choisi le même modèle de rému-
nération que le search. L’entreprise achète
au CPM sur des sites éditeur mais est rému-
nérée au CPC. Les intérêts de Criteo et des
clients se rejoignent puisque le client ne paie
pas pour des affichages qui ne génèrent pas
de revenu incrémental pour lui.
L’achat de ces affichages se fait via des plates-
formes de RTB (real time bidding), des
places de marché où les acheteurs (sociétés
de publicité en ligne) et les vendeurs (sites
éditeurs qui souhaitent générer des revenus
publicitaires) se retrouvent pour effectuer
des transactions.
Aspect essentiel des modèles
économiques du net actuel,
la publicité se décompose
en deux grandes catégories :
la mise en avant lors
de la recherche (search) et
l’afﬁchage classique sous forme
de bannières (display).
Société de diffusion publicitaire
en ligne, Criteo emploie des
technologies big data
pour afﬁner ses campagnes.
La science de prédiction des clics
Le CPC (cost per click) est calculé en fonction du nombre de fois où l’utilisateur a cliqué sur un lien
proposé par le moteur de recherche.
Search : achat de mots clés.
Display : affichage de bannières publicitaires.

big data, so what ?
Chacun des acheteurs potentiels connectés
à ces plates-formes reçoit une requête pour
chaque opportunité d’affichage envoyée par
les sites éditeurs et doit répondre par une
enchère. L’acheteur ayant émis l’enchère la
plus élevée gagne le droit de faire l’affichage
et doit générer une bannière de publicité.
Tout ceci se fait en temps réel et en quelques
millisecondes au moment du chargement de
la page par l’utilisateur.
Comment prévoir le taux
de clics ?
La capacité à prédire précisément le taux de
clics a un impact direct sur la performance :
idéalement Criteo devrait acheter tous les
affichages qui conduisent à un clic et seu-
lement ceux-là. Son modèle de prédiction
du taux de clics prend en compte plusieurs
dizaines de variables collectées de différentes
sources :
l’engagement de l’utilisateur, évalué grâce
aux données collectées directement sur
les sites marchands : a-t-il vu un grand
nombre de pages produits ? Est-il un ache-
teur régulier sur ce site ? etc. ;
la qualité de l’affichage, estimée grâce aux
données transmises par les plates-formes
RTB au moment de la requête : l’affichage
se trouve-t-il vers le haut ou le bas de la
page ? Les utilisateurs passent-ils beau-
coup de temps sur la page sur laquelle il
apparaîtra ? etc. ;
l’aspect de la bannière, choisi dynamique-
ment de manière à maximiser la perfor-
mance.
La capacité de Criteo à recommander les
bons produits est également primordiale.
Pour cela la société utilise les événements
collectés sur les sites de ses clients pour cal-
culer des similarités entre produits : si les
utilisateurs qui ont vu le produit A ont aussi
souvent vu le produit B, on peut vraisembla-
blement supposer qu’un utilisateur qui n’au-
rait vu que le produit A serait aussi intéressé
par le produit B.
Des données très volumineuses
La volumétrie des données utilisées pour
générer ces modèles de prédiction et de re-
commandation est considérable : 20 téraoc-
tets par jour. Elle nécessite la mise en œuvre
de technologies spécifiques comme Hadoop
(voir l’article « Des architectures pour le big
data » dans ce même dossier). Par ailleurs,
ces modèles de prédictions sont appelés plus
de 15 millions de fois par seconde et mis à
jour quotidiennement. Ces modèles sont
optimisés en permanence par une équipe
R&D composée à la fois de développeurs et
d’experts en machine learning.
On retrouve donc bien les fameux « 3 V »
qui définissent le big data selon les défini-
tions d’Internet :
• volume : 20 To/j ;
• variété : les données utilisées proviennent
à la fois des sites marchands, des sites des
éditeurs sur lesquels les bannières sont affi-
chées et des campagnes de publicité à pro-
prement parler ;
• vitesse : 15 millions d’appels aux modèles
de prédiction par seconde.
Au-delà des 3 V, un aspect remarquable chez
Criteo est que le big data est au cœur de la
valeur ajoutée offerte aux clients : il est la clé
du succès actuel de la société.
Bastien Albizzati
(02)
Titulaire d’un master
de recherche opéra-
tionnelle de l’universi-
té de Berkeley, Bastien
Albizzati est respon-
sable des améliorations des modèles
de prédiction et de recommandation
au sein de l’équipe produit de Criteo.
Autre expérience : la recherche opé-
rationnelle chez Saint-Gobain Re-
cherche, avec un projet de simulation
des risques inondations pour la Caisse
centrale de réassurance.
Les événements collectés sur les sites de clients permettent de cibler une publicité personnalisée.

Dossier
30 Centraliens no
634 [juin 2014]
Vers la médecine 3.0 ?
Le suivi de la grippe saisonnière dans 18 pays, dont
les États-Unis. « Google Flu Trend » est apparu
en 2008. .
La quantité de données issue
de la prise en charge d’individus
dans un cadre sanitaire ne cesse
d’augmenter, de même que le
nombre de sources de données
disponibles. Si l’on associe ce
constat aux évolutions techno-
logiques, chaque individu peut
ainsi espérer bénéﬁcier d’une
médecine prédictive, préventive,
personnalisée et participative.
L
a gestion de ces données massives est
un important levier pour une meil-
leure compréhension des maladies,
du développement de médicaments
et du traitement des patients. Les applica-
tions du big data pourraient ainsi contri-
buer à réduire de 300 milliards de dollars
(environ 217 milliards d’euros) les coûts
liés au système de santé américain grâce à la
prévention et à la médecine personnalisée.
Lasurveillanceépidémiologiquefigureparmi
les pistes prometteuses, avec certains avan-
tages par rapport aux systèmes traditionnels
de veille en termes de réactivité. C’est ainsi
que Google Flu Trends est apparu en 2008
pour le suivi de la grippe saisonnière à travers
18 pays, puis que les hashtags de Twitter ont
été utilisés par la Food Standards Agency bri-
tannique pour surveiller les pics épidémiques
de gastro-entérite durant l’hiver 2012-2013.
En France, l’entreprise Celtipharm publie
depuis peu sur openhealth.fr des cartes épi-
démiques réactualisées chaque jour, à partir
des achats réalisés dans un réseau de plus de
4 000 pharmacies.
Un peu de prudence est néanmoins de mise
dans l’exploitation et l’analyse qui sont faites
de certaines données. Selon une étude pu-
bliée dans la revue Science et relayée par The
Register, les prédictions de pics d’épidémie
réalisées par Google seraient erronées pour
100 des 108 semaines écoulées depuis 2011.
La pharmacovigilance représente un autre
enjeu critique en termes de veille sanitaire,
particulièrement mis en évidence lors de
l’affaire du Mediator. Ici encore, l’accès à
certaines sources de données et leur exploi-
tation pourraient apporter une surveillance
plus réactive en générant des alertes et en
permettant des prises de décisions adaptées
au contexte de la part des pouvoirs publics.
Big data n’est pas synonyme
d’open data
La veille sanitaire pourrait donc s’inscrire
dans une politique de plus grande transpa-
rence publique, mais toutes les données de
santé ne sont pas accessibles, et la rançon de
leur confidentialité se matérialise très logi-
quement par des difficultés à pouvoir les ex-
ploiter. En France, après la circulation d’une
pétition en 2013 pour « libérer les données
de santé » et la remise au ministère d’un
rapport de l’Inspection générale des affaires
sociales, une démarche est désormais enga-
gée afin d’intégrer l’ouverture des données
publiques de santé dans la future loi de san-
té, de façon très encadrée. Une commission
associant les différents acteurs concernés
remettra ses conclusions en avril 2014 sous
la forme d’un rapport et d’une doctrine qui
guideront les décisions publiques.
Les données du Système national d’infor-
mation inter-régimes de l’assurance-mala-
die (Sniiram) sont bien entendu concernées,
puisqu’il s’agirait du plus vaste entrepôt de
données de santé au monde, consolidant
chaque année 500 millions d’actes médi-
caux et 11 millions de séjours hospitaliers.
L’accès aux données devra ainsi garantir le
respect de la vie privée et de l’anonymat, et
leur « ouverture » sera limitée en raison des
risques de ré-identification indirecte. Un
dispositif juridique, technique et organisa-
tionnel en sécurisera donc l’accès et l’utili-
sation, à travers la mise en place d’une gou-
vernance adaptée.
Une médecine bijective
et réﬂexive à la fois
Le « crowd sourcing médical » n’est pas
seulement exploitable à travers les com-
mentaires échangés entre les internautes
sur les réseaux sociaux, sans qu’ils soient
conscients que ces données vont servir à
dépister une épidémie. Les individus pour-
raient souhaiter, un peu à la manière dont
des patients sont enrôlés dans des essais cli-
niques, devenir des contributeurs de masse
de données anonymes permettant de déve-
lopper un véritable big data de santé inter-
national au service de la recherche, dans le
cadre d’une médecine plus participative.
En marge des médias sociaux, le grand public
commence également à partager des données
personnelles de santé ou de « bien-être » à
travers des dispositifs tels que des montres
intelligentes et des bracelets connectés qui
surveillent le sommeil, l’exercice physique
et la consommation de calories, la fréquence

big data, so what ?
cardiaque, etc. Parallèlement à l’arrivée de
smartphones disposant de fonctions permet-
tant à chacun de surveiller son état de santé
par l’intermédiaire de capteurs, des construc-
teurs tels Apple et Samsung travaillent sur
des dispositifs et des technologies leur per-
mettant de pénétrer le marché du « quanti-
fied self » et de la santé connectée.
L’alimentation du big data à travers l’Internet
des objets passera également par le domicile,
la domotique et des solutions permettant
d’assurer le maintien à domicile de personnes
en situation de dépendance, âgées et/ou at-
teintes de pathologies chroniques. Différents
services peuvent ainsi se décliner à travers un
« habitat intelligent et connecté », de la télé-
consultation à la télésurveillance, en passant
par des systèmes assurant la coordination
de soins et d’aides à domicile, la livraison de
repas, des services de coaching nutritionnel
ou thérapeutique. Les supermarchés peuvent
désormais aussi connaître les habitudes ali-
mentaires des consommateurs, et même un
réfrigérateur peut être connecté à Internet
afin de suivre ce qui est consommé et ce qui
doit être réapprovisionné.
De la santé publique
à la médecine individualisée
ou personnalisée
Dans un autre domaine, l’étude du génome
et des relations entre les maladies et leurs
facteurs de risque génétiques et environ-
nementaux permet d’explorer le champ de
la médecine personnalisée en optimisant
le traitement d’un individu donné. Cepen-
dant, les technologies de l’information ne
peuvent pas encore suivre le rythme de
l’explosion des données, en particulier pour
assurer un « suivi génétique global » des
cancers qui nécessiterait le recoupement
des caractéristiques de millions de tumeurs.
Les jeux de données recueillis par les clini-
ciens sont tout simplement bien trop volu-
mineux pour être partagés ou échangés sur
les réseaux en place. À titre d’illustration
aux États-Unis, en estimant un volume de
100 Go par tumeur appliqué à 16 millions
de personnes atteintes d’un cancer, on tota-
liserait des centaines de pétaoctets (un mil-
lion de gigaoctets) de données par an.
Le sujet est d’actualité, l’Opecst (Office par-
lementaire d’évaluation des choix scienti-
fiques et technologiques) ayant remis en
janvier dernier à la Commission des affaires
sociales de l’Assemblée nationale un rapport
sur les enjeux scientifiques, technologiques,
éthiques et juridiques de la médecine per-
sonnalisée.
De la causalité à la corrélation
La sécurité représente un enjeu majeur en
raison de la capacité à identifier un individu
à travers des caractéristiques pourtant décla-
rées anonymisées ou leur recoupement avec
d’autres bases de données publiques. Dans
l’État américain de l’Illinois, des données
anonymisées de sorties d’hospitalisation, de
recensement et de listes électorales ont ainsi
pu être recoupées avec des données géné-
tiques également anonymisées, permettant
de ré-identifier 50 % des patients atteints de
la maladie de Huntington. Certains scien-
tifiques vont même jusqu’à affirmer que
« l’anonymat est devenu algorithmiquement
impossible ».
Il existe donc un véritable cadre éthique
et sécuritaire à définir au niveau interna-
tional afin de garantir le bon usage de ces
En France, une démarche est engagée pour intégrer l’ouverture des données publiques de santé
de façon très encadrée dans la future loi de santé.
Docteur
Laurent Guigue
Médecin de santé pu-
blique, spécialiste de
l’informatique médi-
cale. Il est directeur
médical au sein de la
société Santéos, filiale de Worldline.
Son expertise concerne notamment le
partage de données de santé à caractère
personnel.
Docteur
Christophe Richard
Il dirige le groupe de
travail « open data/
big data en santé » du
Syntec numérique.
Il est également secré-
taire général du Collège national des
médecins des hébergeurs (CNMH).
données sans risque pour la vie privée, et il
convient de se prémunir contre toute dicta-
ture des données qui nous conduirait à lais-
ser prendre des décisions par des machines,
à l’image des dérives du trading haute fré-
quence dans le milieu boursier.
Les données de santé n’ont pas qu’une valeur
économique, elles sont une opportunité et
un enjeu majeur en santé et constituent une
ressource pour les outils de big data. Chacun
devra s’attacher à construire une économie
du système qui ne sera pas fondée sur la vente
des données, mais sur les enseignements qui
découleront des traitements effectués.

Dossier
32 Centraliens no
634 [juin 2014]
M
étadonnées, littéralement « don-
nées à propos des données ».
Bien que le terme ne soit pas
nouveau – il est utilisé dans les
systèmes de classification des bibliothèques
– l’avènement du numérique lui donne un
nouveau sens et surtout une nouvelle por-
tée. Les métadonnées modernes sont les
traces numériques que nous laissons tous
derrière nous, en permanence. Lorsque nous
téléphonons, lorsque nous naviguons sur
Internet, lorsque nous payons avec notre
carte bancaire. Les métadonnées de nos télé-
phones portables ressemblent à une facture
très détaillée : appels ou textos reçus, dates
et heures, antennes GSM auxquelles nous
nous sommes connectés. Ces métadonnées
comportementales sont, avec les données
textuelles, un des deux grands types de « big
data », ces très grands ensembles de don-
nées dont la collecte et l’utilisation à grande
échelle sont récemment devenues non seule-
ment possibles mais (très) bon marché.
Est-ce parce que le grand public a appris
leur existence par les agences de renseigne-
ment aux États-Unis ou en France ? Parce
qu’elles sont collectées de manière passive ?
Ou encore parce qu'elles sont plus difficiles à
appréhender que leurs équivalents textuels ?
Il est en tout cas certain que ces métadonnées
inquiètent.
Du positif…
Mais d’abord, revenons sur le côté positif de
ces métadonnées. Elles facilitent notre vie
quotidienne : quel est le meilleur chemin
pour éviter les bouchons ? Quel sera mon
film préféré ? Quelle page web répond exac-
tement à ma question ?
Les métadonnées sont également cruciales
pour l’ingénieur : gérer et améliorer le réseau
téléphonique, lutter contre la fraude ban-
caire, optimiser un réseau de distribution.
Enfin, pour la recherche scientifique, ces
métadonnées sont une révolution. Un récent
article dans la revue Science compare leur
impact scientifique à l’invention du micros-
cope. En épidémiologie, les données de
mobilité sont utilisées pour étudier la pro-
pagation d’un virus comme la malaria. En
économie du développement, les chercheurs
travaillent à l’utilisation des données télépho-
niques pour comprendre et mieux combattre
la pauvreté. Autre exemple : les métadonnées
font avancer la recherche en management et
en sciences sociales. Comment la produc-
tivité d’un employé est-elle influencée par
ses liens sociaux les plus forts, quel décou-
page rationnel pour un territoire comme la
France, comment la diversité de notre réseau
social est-elle liée à notre pouvoir d’achat, ou
encore comment nos connaissances et amis
influent-ils sur nos opinions ?
Que du positif ? Même si nous sommes bien
loin des références orwelliennes ou kaf-
kaïennes, l’utilisation commerciale et gou-
vernementale à grande échelle de métadon-
nées comportementales soulève trois grandes
questions.
Des interrogations/questions
Tout d’abord, celle de l’anonymat : nos
traces numériques contiennent beaucoup
d’informations et sont fondamentalement
personnelles et privées. C’est pourquoi les
chercheurs comme les entreprises n’utilisent
que des bases de données anonymisées,
Le 6 juin 2013, un nouveau mot
est (ré)apparu dans la langue
française : métadonnées !
Pas de nouvelle édition du
Petit Robert à l’horizon, mais
bien les révélations inédites
d’un ancien consultant de
la NSA, l’agence américaine
de renseignement.
En quelques jours, le mot
a fait la une de tous les grands
quotidiens.
Métadonnées,
« pour ou contre » ?
La collecte et l’utilisation à grande échelle des métadonnées sont devenues non seulement possibles mais
très bon marché.

big data, so what ?
desquelles on a retiré les identifiants d’un
utilisateur : son nom, son numéro de télé-
phone, son adresse… Cependant, dans le
cas des métadonnées, cela n’est absolument
pas suffisant. Un récent article en collabora-
tion avec l’université de Louvain montre par
exemple que notre manière de nous déplacer
est très régulière, unique, et comparable à
des empreintes digitales. Il suffit en effet de
connaître quatre points, quatre endroits et
temps approximatifs, où un utilisateur était
pour le retrouver dans une base de données
pourtant apparemment anonyme de 1,5 mil-
lion de personnes. Les métadonnées sont
riches, leurs usages multiples et il est très peu
probable qu’il soit jamais possible de les ano-
nymiser. Il est donc temps d’oublier, légale-
ment et techniquement, la notion d’anony-
mat au profit d’une quantification du risque
de ré-identification.
Deuxième interrogation : les révélations
indirectes sur l’individu. Les métadonnées
téléphoniques contiennent beaucoup plus
d’informations qu’il n’y paraît. Une étude en
collaboration avec des chercheurs de l’ENS
de Lyon a montré qu’il est possible de prédire
la personnalité d’une personne en observant
la manière dont celle-ci utilise son téléphone.
En calculant un certain nombre d’indicateurs
à partir des métadonnées téléphoniques, la
durée moyenne qu’un utilisateur prend pour
répondre à un texto, la distance moyenne
qu’il parcourt par jour ou encore la diversité
de ses contacts, des algorithmes de machine
learning peuvent prédire le score d’un utilisa-
teur dans chacun des cinq grands facteurs de
personnalité : l’extraversion, le neuroticisme,
l’ouverture à l’expérience, la conscienciosité
ou encore l’agréabilité. La vraie question à se
poser pour les métadonnées n’est donc pas
ce qu’elles révèlent directement mais bien ce
qu’un algorithme pourrait, raisonnablement,
révéler sur une personne en les utilisant.
Enfin, troisième question, la propriété et
l’accès aux métadonnées. Bien qu’utilisées à
bon escient, leur collecte et leur utilisation
sont malheureusement souvent faites de
manière peu transparente. Ce manque de
transparence nourrit les fantasmes. L’uti-
lisateur, celui qui génère les données, doit
au minimum y avoir accès. Seul l’accès aux
métadonnées brutes permet de comprendre
ce qu’elles contiennent et l’usage qui peut en
être fait, directement ou indirectement. De
même seul cet accès aux données brutes per-
met à l’utilisateur de les utiliser pleinement.
Il ne s’agit donc pas d’être « pour ou contre »
les métadonnées mais de les expliquer, de se
poser les bonnes questions et de choisir les
réponses que nous voulons y apporter, en
tant qu’ingénieurs ou que simples citoyens.
Yves-Alexandre
de Montjoye (08)
@yvesalexandre est
chercheur en mathé-
matiques appliquées
au MIT Media Lab.
Il développe des mé-
thodes stochastiques pour l’analyse
de métadonnées comportementales :
données de mobilité, transactions
financières, communications dans les
réseaux sociaux. Ses recherches ont
reçu une couverture médiatique dans
BBC News, CNN, The New York Times,
Wall Street Journal, Foreign Policy,
Le Monde, Der Spiegel, dans les rap-
ports du World Economic Forum et
des Nations unies.
Avant de rejoindre le MIT, Yves-
Alexandre était chercheur au Santa Fe
Institute (Nouveau-Mexique).
Il est titulaire d’un master en mathéma-
tiques appliquées de l’université de Lou-
vain et d’un master en ingénierie mathé-
matique de la KU Leuven (Belgique).
Notre manière de nous déplacer est régulière, unique et comparable
à des empreintes digitales.
Il est possible de prédire la personnalité d’une personne en observant la manière
dont celle-ci utilise son téléphone.

Central634_Dossier_completDV_001

Contenu connexe

Tendances

En vedette

Similaire à Central634_Dossier_completDV_001

Central634_Dossier_completDV_001