IA et Big Data : mythes et réalité

1
Intelligence Artificielle et Big Data : quels impacts pour
l’économie et l’entreprise ?
Jean–François Marcotorchino et Christophe Faurie (*)
I.A. et Big Data : mythes et réalités
Intelligence Artificielle et Big Data sont deux sujets dont on reparle aujourd’hui simultanément. Avec
la robotique ils enflamment l’imagination de nos contemporains. Certes la cohabitation de l’homme
avec des systèmes artificiels est depuis longtemps l’un des thèmes favoris de la science fiction.
Songeons que le terme « intelligence artificielle » fut inventé en Juillet 1956, lors d’une conférence au
Dartmouth College 1
dans le New Hampshire. Quant au mot « robot », il est plus ancien encore
puisqu’il fût forgé en 1920 par un dramaturge Tchèque2
, Karel Capek. Dans le passé, ces disciplines
ont tour à tour suscité espoirs démesurés puis déceptions, et ce,de façon quasi cyclique.
Mais nombre d’événements récents, souvent habilement mis en scène – réussite du test de Turing par
un ordinateur en 2014, victoire d’une machine contre le champion du monde du jeu de go (2016),
défaite d’un instructeur de l’US Air Force dans un combat aérien simulé contre une intelligence
artificielle (2016) – laissent à penser que s’ouvre à nouveau une ère de ruptures dans la technologie.
C’est pourquoi I.A. et Big Data nourrissent désormais un véritable débat de société.
L’intelligence artificielle en particulier déclenche une floraison de discours alarmistes sur la
suppression potentielle d’emplois qu’elle induirait dans un avenir proche, discours apparemment
crédibles puisque émanant d’entrepreneurs célèbres de l’économie numérique ou d’éminents
chercheurs, tels que Stephen Hawking, Elon Musk, Bill Gates, etc. De son côté le Big Data présenté
comme « nouveau pétrole » des entreprises et de l’économie numérique, est accusé de menacer nos
libertés individuelles, par la diffusion (d’ailleurs le plus souvent avec acceptation tacite des intéressés)
de masses d’informations nous concernant directement. C’est particulièrement la crainte qu’inspire
(*) Jean-François Marcotorchino est directeur associé au Laboratoire de Statistique Théorique et Appliquée (LSTA) de Paris
VI/UPMC. Professeurdes Universités, chargé de cours à Paris VI et à l’ISUP (Institut de Statistique de l’Université de Paris).
Ancien Vice Président, Directeur scientifique, de Thales SIX, et « Thales Technical Fellow ». Il fut également pendant 30 ans
membre d’IBM France et d’IBM Research, et en particulier, pendant 10 ans, Directeur du Centre Scientifique IBM de Paris
(Place Vendôme et Rives de Seine) et de l’ « EuropeanCentre for AppliedMathematics (ECAM) » d’IBMEurope.
Christophe Faurie est un spécialiste de la question du changement, un sujet sur lequel il a publié 6 ouvrages. Il s’intéresse,
en particulier et depuis ses débuts comme responsable des algorithmes généraux du département FAO de l’éditeur de
logiciel Dassault Systèmes, au problème de l’adoption des systèmes d’information par les organisations. Par ailleurs, il a
consacré ses recherches de MPhil, à l’université de Cambridge, à la question de l’application de l’intelligence artificielle à
l’ingénierie du contrôle.
Cet article s’inspire d’ une communication de Jean-François Marcotorchino à paraître dans un livre édité par l’Académie des
sciences morales et politiques, dans le cadre de son programme de recherche « Guerre et technique » (organisé par Jean
Baechler et Christian Malis), article intitulé : « Intelligence Artificielle et Big Data : impacts sur les futurs systèmes de
Défense ».
1
Parmi lesorganisateurs ducolloque de Dartmouthencet été 1956, on trouve outre Marvin Minsky, et John Mac Carthy
du MIT, Claude Shannon (qui yrentrera 2 ans après) et Nathan Rochester (d’IBMResearch) ;parmi lesautres participants
célèbres on retrouve également RaySolomonoff, Allen Newell et Herbert Simon.
2 Cette Information a été communiquée par le Professeur Jean Gabriel Ganascia (UPMC/ParisVI).

2
l’exploitation systématique du processus de « profiling3
» des individus par le GAFA (Google,
Amazon, Facebook et Apple) auquel on peut rajouter à un degré moindre IBM.
Défiance et interrogations n’empêchent pas, au demeurant, I.A. et Big Data de drainer aujourd’hui des
investissements colossaux se traduisant par des innovations techniques ou des programmes de
recherche de grande envergure. Cette tendance générale affecte aussi le secteur de la Défense4
à
travers la mise en place de nouvelles doctrines d’utilisation des outils d’I.A. et de Big Data,
parallèlement à l’apparition de nouveaux métiers comme : « Data Scientist », « Chief Data Officer »,
« Analyste I.A. » etc. A ces efforts il faut ajouter ceux consacrés au développement des moyens de
formation.
Scientifiquement, spécialement au plan de la recherche universitaire, les technologies actuelles de l’I.A.
et du Big Data font appel, de plus en plus, à des algorithmes mathématiques de haut niveau s’appuyant
sur des machines de plus en plus puissantes. Mais la nouveauté et les perspectives de rupture sont loin
d’être aussi radicales qu’on se plaît à le faire croire. Aussi, dans le contexte de cet article, est-il
important de bien faire la part entre progrès en cours de validation, et redécouverte de techniques
préexistantes et peu diffusées, ou encore entre percées scientifiques réelles et validées et « relooking »
d’approches déjà connues. C’est cette préoccupation qui nous anime dans cette réflexion sur l’impact
réel et raisonnablement prévisible de l’I.A. et du Big Data sur l’économie et l’entreprise.
Introduction
« Intelligence Artificielle (I.A.) » et « Big Data » connaissent aujourd’hui une phase de convergence
remarquable, essentiellement sous l’effet de deux facteurs largement indépendants l’un de l’autre : une
immense profusion de données accessibles et numérisées d’une part, d’autre part une puissance accrue
des machines permettant enfin d’accéder à des possibilités de calcul qui n’étaient qu’envisagées ou à
peine esquissées il y a une douzaine d’années. Cette convergence recouvre des relations cachées
complexes et des besoins réciproques.
Ainsi l’I.A dans sa version apprentissage nécessite beaucoup de données pour être efficace et bien
fonctionner, mais de son côté l’exploitation des masses de données s’appuie sur des algorithmes à base
de mathématiques et d’I.A pour trier dans ces masses informationnelles, réduire les dimensions en jeu
et éviter le COS (« Cognitive Overload Syndrom »), bien rendu par la phrase « trop d’information tue
l’information ».
Pour comprendre les perspectives réellement ouvertes par le couple I.A.-Big Data, il importe d’abord
de débusquer les contre-vérités les plus flagrantes. Elles s’attachent spécialement au fameux
« Machine Learning », en français « apprentissage automatique». Beaucoup de profanes imaginent
que la machine auto-apprenante va s’auto-adapter au contexte, que plus vous la nourrirez de données,
plus elle deviendra « intelligente ». Certes, dans des conditions bien précises, c’est un stade que l’on
peut atteindre, ce qui implique par projection temporelle qu’à terme l’homme sera vite remplaçable et,
de facto, il est déjà remplacé par des machines « intelligentes » pour certains types de tâches et de
métiers : celles qui impliquent une forte dose de reproductibilité (téléopérateurs, agents de contrôle
technique, ouvriers utilisant des robots d’usinage, employés administratifs décideurs sur des
affectations automatiques à des tâches ou à des parcours (exemple le cas du logiciel d’I.A. : APB
« Admission Post Bac » de gestion des préférences des élèves en terminale etc.).
3
Le « profiling » est le processus d’analyse de l’individu, représenté sous forme d’un vecteur (son profil descriptif
personnel) dans un espace multidimensionnel. A partir de ce profil individuel, on peut calculer des « profils » de personnes
qui lui sont semblables, sa caractérisation par classe d’appartenance, ainsi que sa propension à être intéressé à tel ou tel
produit (marketing ciblé), etc.
4 A ce propos, les auteurs remercient Christian Malis : Professeur associé à Saint-Cyr et Directeur de la Prospective
Stratégique chez Thales, auteur de livres sur la « pensée stratégique militaire », pour ses conseils judicieux, pour ses
remarques érudites et sessuggestions constructives.

3
Mais nous sommes loin de ces conditions de reproductibilité pour l’ensemble des métiers et des
situations potentielles où l’homme a un rôle important à jouer. La raison en est la suivante. Si les
ordinateurs peuvent être dotés d’une mémoire sans limites au moins tant que la « loi de Moore »
pourra s’appliquer5
, leur capacité d’apprentissage est, depuis l’origine, l’un des obstacles majeurs de
la transformation des machines en structures rapidement apprenantes et autonomes. En fait, en dehors
des cas d’école très spectaculaires6
mis en avant et largement mis en scène par le marketing de Google,
Facebook, Amazon, IBM, Apple, ou par des sociétés de pointe de la Côte Ouest des USA, ou issues
de grandes universités américaines, on est relativement loin d’une approche totalement générale aussi
efficace pour tous les domaines qui peuvent concerner l’homme dans sa vie courante.
Quand on parle d’approches I.A. on évoque souvent les « algorithmes génétiques », mais c’est surtout
le mode « apprentissage machine » qui est prépondérant. Et de facto dans ce contexte on s’intéresse
immédiatement aux approches neuronales génériques célèbres, connues sous le nom de « Deep
Learning » (apprentissage profond), qu’elles soient de type Réseaux de Neurones Récurrents :
« Recurrent Neural Nets » (RNN) ou de type Réseaux de Neurones Convolutionnels : « Convolutional
Neural Nets », (CNN). Il faut bien comprendre que ces approches sont dédiées à des applications
définies dans des contextes particuliers et avec des données spécifiques, le tout étant difficilement
transposables. Ainsi une application remarquable de reconnaissance de la parole fondée sur
l’apprentissage de millions d’enregistrements ne pourrait fonctionner, telle quelle, pour traiter un
problème de reconnaissance automatique d’images. Les réseaux de neurones récurrents (RNN)
(introduits par Jordan, 1989; et Elman, 1990) par exemple sont des modèles capables de prendre en
compte un contexte dans leur fonction de décision. Ils sont pour cela particulièrement adaptés à
plusieurs tâches de Traitement Automatique des Langues (TAL), notamment celles qui consistent à
prédire une information ayant une certaine séquentialité7
. De leur côté, les Réseaux de Neurones
Convolutionnels (ou convolutifs) sont les outils de choix dans la besace du « Data Scientist » pour le
traitement et la reconnaissance d’images8
. Ce sont des algorithmes phares du Deep Learning, objets
d’intenses recherches aux enjeux considérables. Et pourtant, leur manque de généricité ne permet pas
encore de parler de modèles totalement interchangeables.
Ceci a toute chance de demeurer vrai à l’horizon prévisible, en dépit de l’essor de nouveaux concepts
ayant pour objet d’augmenter considérablement la généricité et l’adaptabilité des modèles neuronaux.
On pense notamment aux ENN (Evolutionary Neural Nets)9
.
5 En fait la première « loi de Moore » (celle concernant la fréquence des processus) n’est plus valide depuis 2005, elle se
heurte à des problèmes non surmontés de dissipation de la chaleurémise conduisant à de la surchauffe des processeurs.
Mais l’homme a des ressources et des composants nouveaux remplaçant potentiels du Silicium et de l ’Arséniure de Galium
sont à l’étude (Graphene, Hafnium, etc.). Quant aux capacités d’intégration des microprocesseurs elles se heurtent à un
mur (lié à des effets quantiques) qu’on ne sait pas encore surmonter. Seule la partie de la loi de Moore concernant la
« puissance » des ordinateurs reste encore valide, mais pour combien de temps ?
6 Ainsi, la preuve a été faite dans les jeux complexes que la machine pouvait vaincre l’homme, référons nous par exemple à
la séquence suivante : on rappelle ici que « Deep Blue » d’IBM a battu le grand maître international Garry Kasparov aux
échecs en 1997, que le logiciel « Watson » d’IBM, encore, a battu en 2011, deux champions américains de Jeopardy (Brad
Rutter et Ken Jennings), qu’« Alpha Go » de DeepMind Google a créé la surprise en battant Lee Sedol en 2016 (championdu
monde coréen du jeu de Go), enfin plus récemment le programme d’I.A « Libratus » du Professeur Sandholm de Carnegie
Mellon a ridiculisé 4 professionnels de Texas Hold’Em Poker au tournoi international de Rivers Casino à Pittsburgh en
Janvier 2017. Dans ce dernier cas il est à noter que le poker est un jeu à information incomplète, donc a priori plus
complexe que les autres pour la machine.
7 Le principe de séquentialité est intrinsèque aux « n-grams » (succession de « n » termes à l’apparition plus probable que
d’autres dans une langue donnée, des tri-grams dans ce cas), il avait déjà été introduit à l’IBM T. Watson Research Centre
de Yorktown par Fred Jelinek au milieu des années 80, il utilisa outre les 3-grams des grammaires à chaines de Markov
cachées et les n-grams.
8 C’est ce type d’algorithme par exemple qui est utilisé par le Laboratoire de recherche en I.A. de Facebook (dirigé parle
Français Yann LeCun) pour interpréter automatiquement le contenu de milliards d’imageset photos.
9
C’est une technique neuronale que l’on peut caractériser, comme le dit le chercheur Zachary Chase Lipton par : « une
approche qui est en fait très similaire à un réseau neuronal classique. La différence réside dans la manière dont on fait

4
Concernant le degré de nouveauté des approches actuelles, ayons conscience que bien des techniques
utilisées aujourd’hui datent, en fait, des années 75-90, (voir figure n°1), seul l’environnement
d’application a été changé. A cette époque l’engouement pour l’I.A, stimulé par le mythe japonais des
ordinateurs de cinquième génération, avait fait naître des espoirs, largement déçus ensuite10
. Il faut
alors reconnaître que les résultats actuels obtenus par certaines entreprises privées et certains
Laboratoires universitaires prouvent que les tenants de l’Intelligence Artificielle n’ont pas été
découragés par ces échecs préalables, et fréquents, et ce malgré l’abandon concomitant et progressif
des Langages informatiques vedettes des années 65-75 qui servaient de support à ces
développements 11
. Ils ont poursuivi leurs travaux jusqu’à ce qu’enfin l’environnement
méthodologique, l’accès aux données d’apprentissage et la puissance supplémentaire des ordinateurs
aient permis le passage à l’échelle (« scalability ») de certains algorithmes d’I.A. ou de Big
Analytics12
.
Il n’en demeure pas moins que, s’il est vrai que l’Intelligence Artificielle et le Big Data sont en train
de se co-développer de façon remarquable, il reste que nombre d’ algorithmes existants sont
totalement inadaptables à l’environnement généraliste des problématiques à résoudre.
C’est cette thèse fondamentale sur les limites intrinsèques de l’I.A. et du Big Data que nous
souhaitons traiter dans ce texte. Dans une première partie nous abordons quelques sujets d’actualité.
Dans une partie finale, plus technique, on présentera une réflexion sur les « dualités fondamentales »
qui risquent de limiter encore pour quelques temps le fonctionnement d’algorithmes clefs, interdisant
de s’évader totalement dans les rêves de la science-fiction.
jouer les paramètres, afin d’accroître l’efficacité du programme. Dans le cas d’un réseau de neurones traditionnel, on
effectue des calculs pour optimiser le gain à chaque nouvelle tentative. Avec une stratégie évolutive, on applique un grand
nombre de mutations aléatoires aux paramètres et l’onsélectionne ensuite les plus efficaces ».
10 Il s’agit ici du projet « Ordinateurs de cinquième génération » (Fifth Generation Computer Systems, FGCS). Par sa durée et
les moyens humains et financiers qu’il a mobilisés, c’est le plus important projet que le ministère de l’industrie et du
commerce international japonais (MITI) ait entrepris. Ce projet est d’autant plus important que tous les projets qui lui sont
ultérieurs ont été réalisés en tenant compte de ses réussites et échecs. Alors qu’il a fait l’objet de nombreux commentaires
lors de son lancement en 1982, sa clôture s’est faite dans un silence quasi-total en 1992. Les rares ouvrages traitant de
l’histoire de l’informatique auJaponne lui font qu’une place mineure, pourquoi ? Un sentiment d’échec national ?
11 A savoir :Le LISP(MacCarthy 1960) et Prolog (Colmerauer 1971).
12 Le « Big Analytics » est le terme consacré, donné par les Anglo-saxons, à l’ensemble des algorithmes nécessaires , utilisés
pour analyserles données, réduire les dimensions des problèmes, classifier et « clusteriser » les populations, et optimiser
les ressources dans le contexte du Big Data. Certains des algorithmes du « Big Analytics » sont des dérivés (certes souvent
plus puissants) d’algorithmes qui préexistaient sous le vocable « Data Mining » auparavant, certains autres comprennent,
bien entendu, des algorithmes neuronaux qui rentrent dans la catégorie Intelligence Artificielle, renforçant encore l’aspect
symbiotique de ces deux domaines.

5
Figure n° 1 : Convergence Big Data Analytics (noir)-IntelligenceArtificielle (violet)
6 /6 /
Big Analytics
>2008 -up to now
(Unconstrained Data Mining)
Hypotheses driven mode:
Sampling Techniques+Inference Hypotheses driven &Data driven:
Dimensions Reduction & Segmentation
Data Exponential volume increase
Business Intelligence
1981-2008
(Constrained Data Mining)
Statistical Data Analysis
<1980
(Pure Statistical Inference)
Data Exponential cost decrease
Deep Learning NN (Le
Cun, Bengio) (RNN, CNN,
RBM..
>2008 -up to now
(Renewal of A.I.)
Mixture Heuristic & Logic
Perceptrons(Rosenblatt)
<1975
(Simple Schemes )
Expert Systems, Kernels
Machines (Vapnick), MDL
(Rissanen), Few layers
Neural nets
1975-2008
(Prolog , SVM , Classification)
Mainly supervised approaches +
scalability limits è Hypotheses
drivenFirst attemps to Connexionism . Only
simple supervised approaches ,
Full Data driven mode: Power use
of learning techniques mainly
unsupervised
IA/ Big Data: Des Evolutions Historiques et des Convergences

6
Quatre sujets d’actualité
Lorsque l’on creuse la question de l’I.A. et du Big Data, on découvre que ce que l’on dit possible,
voire facile, l’est rarement. Mais, au contraire, ils peuvent redonner vie à des espoirs auxquels nous
avions renoncés. Voici quatre sujets d’actualité qui illustrent cette observation :
Transformation numérique
Dans deux articles récents13
, le Financial Times révélait un aspect méconnu de l’I.A. et du Big Data.
Le premier traitait de « machine learning ». La plupart des algorithmes d’Intelligence artificielle
demandent un « apprentissage ». Prenons le cas de la voiture autonome. Chaque concepteur de voiture
autonome paie, depuis des années, des équipes constituées de milliers de personnes. Elles analysent
image à image les données issues de films pris en conditions réelles. Elles décrivent l’image à la
machine : un cycliste, une voiture, un arbre… Petit à petit, l’ordinateur extrait de ce travail des règles
qui lui permettront d’interpréter une situation. Cependant, il n’apprend pas comme l’homme. On ne
peut pas lui donner un « permis de conduire ». L’ordinateur aura besoin d’assistance. Il faudra le
nourrir des évolutions de l’environnement urbain, notamment. Dans le cas de jeux comme le go, ou
dans celui du diagnostic de certains cancers, cet apprentissage prend des années. En ce qui concerne la
voiture autonome, on évalue déjà son coût en milliards d’euros.
Prenons un exemple plus ordinaire. Lorsque nous utilisons Internet, nous sommes sollicités par des
offres d’achat. Elles sont le résultat de l’analyse de notre trace numérique. Comment jugez-vous
l’efficacité de ces offres ? Pour atteindre un haut niveau de pertinence, un algorithme a besoin d’un
volume considérable de données. Et, ces données doivent être qualifiées.
Le second article traite d’une autre question critique. On ne sait pas comment un algorithme qui
travaille sur de grosses masses de données atteint la conclusion qu’il nous donne14
. Or, dans certains
cas, par exemple pour un décideur militaire, il n’est pas possible de prendre des décisions dans ces
conditions. C’est pour cela que d’importants travaux de recherche ont été lancés sur ce sujet. Il s’agit
de trouver un moyen de démontrer à un être humain la justesse du raisonnement de la machine.
Cependant, on n’en attend pas de résultats avant 2021.
Cette analyse nous amène à une conclusion. Que l’on parle de voiture autonome, de santé, de réseaux
sociaux ou de plates-formes telles que Uber ou AirBnB, deux a priori sont à l’œuvre :
 Tout est numérique. Tout ce qu’il faut savoir sur la société, le marché, la famille, tel ou tel
individu… a une expression numérique, et se trouve sur Internet.
 On dispose « d’algorithmes » qui permettent de transformer automatiquement cette
information, diffuse, en des actions pertinentes pour l’entreprise.
En réalité, il existe certes des algorithmes puissants, mais seul un petit nombre d’entreprises se trouve
dans les conditions de les utiliser. Pour les autres, le potentiel du numérique n’est pas où elles le
croient. En voici un exemple :
L’analyse automatisée des réseaux sociaux n’a pas remplacé les techniques classiques d’études de
marché. En revanche, ils se sont révélés un moyen sans équivalent de faire naître de nouvelles idées.
En effet, ils permettent d’attirer et de constituer des communautés d’innovateurs qui, stimulées par les
capacités d’une entreprise, vont « co-créer » avec elle. On retrouve ici une des idées du
13 Self-driving cars prove to be labour-intensive for humans, 9 juillet 2017 et Intelligent machines are asked to explain how
their minds work, 10 juillet 2017.
14 D’autant que la dite boîte noire n’a pas fait la preuve de son infaillibilité. On se souvient de l’accident mortel provoqué
par une voiture que son conducteur avait mise en pilotage automatique. Mais aussi des fausses corrélations qui ont résulté
de la tentative de relier systématiquement génétique et maladies. (Voir Medecine by numbers, The Economist, 7 mars
2015.)

7
psychosociologue Kurt Lewin, le pionnier des travaux modernes sur le changement : pour comprendre
quelque chose il faut essayer de le changer. Observation clé : l’information qui a le plus de valeur est
celle qu’émet un marché en changement. On ne peut pas l’anticiper de son comportement ordinaire.
Cependant, la constitution de telles communautés demeure un phénomène mystérieux. En outre, il leur
faut, évidemment, un animateur qui ait un profil de créateur. Voici un résultat général, que l’on
développera par la suite. Le numérique a été annoncé comme un concurrent de l’homme, alors qu’il
est un révélateur de talent.
La Cybersécurité
De très nombreux exemples récents de cyberattaques le montrent, les motivations des « hackers »
pour mener des attaques ciblées sont variées. Mais, il apparait que le but des attaques ciblées les plus
conséquentes est le plus souvent le vol d’informations sensibles, souvent dans une optique
d’espionnage, voire de destruction de structures informatiques. Ces dernières attaques, plus
organisées, se distinguent nettement des attaques plus généralistes qui visent plutôt à infecter un large
panel d’utilisateurs, de manière aléatoire, le plus souvent dans un but financier et crapuleux immédiat
(« ransomwares »). Le continuum « Défense-Sécurité » est sans aucun doute le domaine du MINDEF
et plus généralement du Gouvernement (via l’ANSSI) qui représente au plus haut niveau l’autre grand
chantier d’application de l’I.A. et du Big Data, où ces deux techniques couplées servent déjà de façon
efficace et interviendront de façon plus massive encore, à brève échéance, pour protéger les systèmes
informatiques et les systèmes d’armes de la destruction de données vitales intrinsèques,
principalement au travers de systèmes d’analyse, appelés « IDS » « Intrusion Detection Systems », où
l’I.A. et le Big Data servent essentiellement à détecter des anomalies systèmes, à bloquer des
« malwares » et autres « attaques virales », et à analyser en mode anticipatif les « hackers » putatifs,
via l’étude de leurs profils d’utilisateurs et de leurs comportements : « behavioral trends », etc. Ceci
se traduit par l’exploration d’une chaîne complexe : la « kill chain », allant de l’enregistrement des
« logs systèmes », qui se comptent en tera-octets par semaine, suivi d’une liste d’actions en séquence
telle qu’elle apparait sur la Figure n°2, avec des actions de détection et d’identification et des actions
de réponse ciblée à l’attaque. On doit travailler également sur la recherche des vulnérabilités des
systèmes IT, au travers des topologies induites par leurs dépendances critiques inter-nœuds, mesurées
par des capteurs passifs en grand nombre (sondes). On se doit également d’investir sur les nouveaux
modes de dissémination de l’information que sont les réseaux sociaux et les structures relationnelles
d’échange d’information, d’une part pour traquer les « hackers » qui souvent se communiquent leurs
exploits, mais d’autre part pour développer des compétences sur l’analyse profonde des données
réticulaires liées aux réseaux (réseaux IT, réseaux de transport, réseaux de communications, etc.) par
rapport à des problématiques de résilience, d’optimisation de service et de calibrage des ressources.
Ces derniers domaines sont par définition des générateurs implicites de données massives et
totalement dépendantes du Big Data.

8
Figure 2 – Une représentation de la « Kill Chain » inspirée15 de (Hutchins, Cloppert & Amin)
En fait, la véritable nature du risque Internet est systémique. Les entreprises sont solidaires les unes
des autres16. L’Internet des objets renforce cette dépendance. Un article rappelait récemment qu’il
suffirait qu’un virus déclenche les climatiseurs des USA pour faire s’effondrer le réseau électrique du
pays. Or, les « objets » utiliseront des logiciels du marché. Comment s’assurer que les protections de
ceux-ci sont à jour17
? Par ailleurs, une étude de la Lloyds chiffre à 120md$, le coût d’une attaque
contre un grand fournisseur du cloud18
. Mais, il existe un risque plus sérieux. Notre société tend à
s’organiser en réseaux (santé, production d’énergie…), eux mêmes reposant sur Internet. Or, les
réseaux sont sujets au phénomène de « percolation19
». Lorsqu’ils deviennent « hyper connectés », un
simple hasard peut instantanément mettre le réseau hors service, et provoquer une catastrophe. Il est
probable qu’Internet sera prochainement « hyper connecté ».
La solution à un problème systémique est systémique. Les entreprises et les nations doivent combiner
leurs forces pour éviter ces risques.
Performance… numérique
Avec Frederick Taylor, qui semble avoir été le premier à s’appeler « consultant en management », les
sciences du management se posent la question de la performance20
. Depuis leurs origines, elles
utilisent le même procédé. Elles observent les « meilleures pratiques » et les diffusent. Leur
vocabulaire est celui des consultants. Ce travail est le « benchmarking », qui permet la « gestion de la
15 Hutchins, Cloppert & Amin, (2011) : ”Intelligence-driven computer network defense informed by analysis of adversary
campaigns and intrusion kill chains “, Leading Issues inInformationWarfare & Security Research, 1, 80. (pp. 20– 22).
16 Un des exemples fameux des conséquences de cette interdépendance vient d’un sous-traitant de Toyota, en 1983. Il a
été détruit par un incendie. Il était le seul à pouvoir fabriquer une pièce critique. On a cru un moment que Toyota ne s’en
relèverait pas. Avec, en conséquence un Japon, et peut-être le monde, en crise. Toyota a été sauvé parla réactivité, et le
génie !, de son écosystème. Mais l’affaire a été chaude. Le feu hier, un virus demain ? (Cité dans : WATTS, Duncan J., Six
Degrees:The Science of a Connected Age, W. W. Norton & Company, 2004.)
17 Voir, par exemple, The Economist, du25 janvier 2015.
18 Lloyd's says cyber-attack could cost $120bn, same as Hurricane Katrina, The Gardian, 17 juillet 2017.
19 Pour une introduction à la question : Ouellette, Jennifer, The New Laws of Explosive Systems, Quanta Magazine, 14 juillet
2015.
20 Kanigel, Robert, The One Best Way:FrederickWinslow Taylor and the Enigma of Efficiency, Viking, 1998.

9
connaissance » ou « knowledge management ». C’est pour cela que l’on a appelé les progiciels de
gestion des « knowledgeware » : ils doivent diffuser les connaissances de l’entreprise.
Au 19ème
siècle, Frederick Taylor employait un chronomètre. Aujourd’hui, que ce soit un réseau de
vente, ou une chaîne de production, la modélisation d’un processus économique exige au minimum
une trentaine de variables. L’homme ne peut pas traiter une telle complexité. Le Smart Data ouvre de
nouvelles perspectives à la quête de performance. Le Big Data travaille sur de gros volumes de
données, le Smart Data brasse relativement peu de données, mais des problèmes combinatoires
complexes. Par exemple, pour un processus de production modélisé par trente variables : pour éliminer
les rebuts, quelles sont les variables pertinentes, et les plages de valeurs qui correspondent aux pièces
de qualité ? Le Smart Data est utilisé pour rechercher des « anomalies ». Ces anomalies peuvent être
négatives (fraude), ou positives (nouvelle tendance). Il ne trouve pas de solutions, mais il donne, à la
personne compétente, une « intuition » de la solution. Le Smart Data est donc un outil d’enquête pour
« décideur ».
On parle peu de Smart Data. Pourtant,il y a là la perspective de gains de productivité considérables.
Lean start up
Depuis que Maurice Lévy a parlé « d’ubérisation », le mot est partout. Cependant, en termes
technologiques, il recouvre une réalité modeste. La force d’un Uber ou d’un AirBnB est avant tout leur
image de marque, due, comme celle de Coca Cola, à une énorme puissance marketing. Tout au
contraire, la technologie qu’ils utilisent s’est démocratisée. Devant brasser des volumes de données
hétérogènes colossaux, Google, en particulier, a eu recours à une logique différente de celle qu’avaient
fait prévaloir les IBM, HP et autres Oracle. Il a bâti son système d’information autour de matériels peu
sophistiqués, de logiciels en open source et du cloud. Cette nouvelle logique est à l’origine de ce que
l’on a appelé la « lean start up ». Un individu, pour pas cher, et rapidement, peut bâtir un site de vente
en ligne aussi sophistiqué que celui d’Amazon. De même, il n’est pas interdit à une association de
taxis d’opérer une application de réservation, de même que les enseignants ont créé la MAIF, la
CAMIF ou la MAE. En fait, le phénomène « lean start up » s’adresse surtout aux entreprises
traditionnelles. Il est possible de re concevoir leurs processus à partir de technologies puissantes et qui
coûtent peu. La location saisonnière en est un exemple. AirBnB a ébranlé le secteur. Mais
l’écosystème du métier est en pleine recomposition. Il s’est lui aussi équipé. Du coup, une multitude
de niches, très rentables, se sont révélées.
Il semble donc que ce que l’on dit de l’I.A. et de Big Data corresponde aux grandes entreprises de la
Silicon Valley. Mais un nouveau changement s’annonce, qui ne les concerne pas ou peu. C’est
maintenant au reste de l’économie de profiter d’une démocratisation d’outils puissants et d’une
impressionnante puissance de calcul, à bas coût. C’est, à n’en pas douter, la possibilité pour le talent
individuel ou collectif de jouir d’un effet de levier formidable.
Prospective : quelles contraintes structurelles des algorithmes actuels
faudra-t-il lever en vue de progrès décisifs ?
Dans cette partie plus mathématique nous voudrions proposer une réflexion en profondeur sur les
problématiques d’évolution réelle de l’ « algorithmique » actuelle. Les progrès récents sont tributaires
de progrès datant des années quatre-vingts et d’améliorations des performances de calcul. Mais pour
l’avenir, l’évolution réelle se trouve obérée par cinq antinomies structurelles. Toute réflexion devra
d’une manière ou d’une autre en tenir compte et les résoudre si l’on souhaite réellement déboucher sur
des ruptures. Ces antinomies sont les suivantes :
1. antinomie entre problèmes « supervisés » et problèmes « non supervisés ».
2. antinomie entre la « connaissance a priori » de la population ou du problème à étudier
versus la « non connaissance a priori de la population » ou du problème à traiter.

10
3. antinomie (partielle) entre « complexité » d’un problème et « taille » ou « volume » du dit
problème au niveau de la quantité des données associées.
4. antinomie entre les approches « data driven » et les approches« hypothesesdriven ».
5. antinomie entre traitements desdonnées « hétérogènes » et données « homogènes ».
Ces antinomies peuvent s’ajouter et rendre encore plus difficile l’application des techniques d’I.A. et
de Big Data/ Big Analytics. Analyser des données non homogènes dans une approche non supervisée,
pour des problèmes de complexité maximale (problèmes NP complets) est le summum d’une telle
addition de difficultés. Cette situation se produit pourtant souvent et nul doute alors, qu’à défaut de
traiter le vrai problème initial, on sera obligé de tenter des approximations simplificatrices
(« heuristiques »).
Antinomie entre problèmes « supervisés » et problèmes « non supervisés ».
Dans le cas de problèmes dits « supervisés » on connaît a priori ce que l’on cherche à mettre en
évidence, par exemple : le fait de devoir discriminer entre « bons » et « mauvais » payeurs potentiels,
durant la phase d’octroi de prêts bancaires (« credit scoring ») suppose implicitement qu’on sache
définir ce qu’est un « bon » payeur versus un « mauvais » payeur. Autre exemple, dans le domaine
médical, discriminer entre « tumeurs malignes » ou « tumeurs bénignes » après une pré-caractérisation,
donnée par des experts médicaux, d’après divers examens d’histopathologie, ou plus généralement
entre des configurations dites « normales », opposées à des configurations jugées « anormales ». Cette
approche qu’on peut qualifier de « recherche d’anomalies » est une situation que l’on rencontre
typiquement en cyber-sécurité, par exemple, où les anomalies (ou encore les a-normalités), en général
nombreuses, peuvent correspondre à des « intrusions dans les systèmes », des virus ou « malwares »,
des « dénis de services », des « menaces persistantes », par opposition aux flux « normaux », en
beaucoup plus grand nombre heureusement, etc.
Dans ce type de cas, la machine va effectivement apprendre vite et efficacement les bonnes frontières
de décision (disons les bonnes pratiques) et donner des résultats qui seront d’autant meilleurs que l’on
aura beaucoup de données disponibles labellisées ou indexées, des machines puissantes, et peu
d’ambiguïté sur les choix décisionnels possibles (même s’il faut alors minimiser le nombre de fausses
alarmes qui pourraient rendre caduc le principe de précaution associé). Dans cette configuration on
parle effectivement d’approches « supervisées21
». Le « machine learning » est parfaitement adapté22
aux approches « supervisées », en particulier sa composante fondée sur les « réseaux neuronaux » de
nouvelle génération (« Deep Learning ») : avec des résultats remarquables dans le domaine de la
« reconnaissance de caractères », de la « traduction automatique », de la « discrimination entre
images », etc.
Soit, a contrario, on n’a pas une idée précise de ce que l’on cherche, juste une connaissance partielle
de l’univers d’analyse. Dans ce cas on se sert alors du processus de collecte, d’exploration et d’analyse
21 Prenons, par exemple, le cas du logiciel juridique « Predictice » utilisant l’I.A et le Big Analytics (voir le Figaro du samedi
6 Mai 2017). Il est utilisé en test auprès des cours d’appel de Rennes et Douai. S’appuyant sur les cas de jurisprudence
(approche supervisée pure, et uniquement dans les contentieux civils à ce stade), il permet de choisir les bonnes stratégies
de défense en fonction des juridictions et il permet de révéler aux juges l’étalonnage de leur décisionet leur contributions à
la jurisprudence . Il sera sans doute généralisé, car efficace, dans un avenir proche. L’idée sous-jacente dans Predictice n’est
pas nouvelle cependant, une approche d’étalonnage des juridictions, et de comparaisons des peines avait déjà été
envisagée par l‘éminent criminologue Jacques Leauté (mort en 1994) dans une approche fondée sur un algorithme de
régression et de clustering mathématique relationnel, approche qu’il avait élaborée avec des chercheurs du Centre
Scientifique d’IBMFrance en 1982.
22 L’actuel Directeur du Laboratoire de Recherche Facebook, Yann Le Cun, avait d’ailleurs montré, il ya un certain temps,
l’intérêt des réseaux de neurones avec « apprentissage supervisé » dans la reconnaissance de caractères : Y. Le Cun, B.
Boser, J. S. Denker, D. Henderson, R. E. Howard, W. Hubbard and L. D. Jackel: “Handwritten digit recognition with a back-
propagation network”, in Touretzky, David (Eds), Advances in Neural Information Processing Systems (NIPS 1989), 2,
Morgan Kaufman, Denver, Colorado,1990), poussé dans cette voie par son Directeur de Thèse à Paris VI, Patrick
Gallinari (voir F. Fogelman-Soulié, P. Gallinari, Y. LeCun and S. Thiria): « Automata networks and artificial intelligence », in
Automata networks in computer science, Theoryand applications, 133-186, PrincetonUniversityPress, 1987).

11
des données, pour, au fond, se définir le problème que l’on pourrait avoir à résoudre. Et ceci est fait en
même temps que l’on explore les données disponibles sans hypothèses préalables. On est alors dans le
cas d’approches « non supervisées ». Dans ce cas, la machine ne trouve pas des solutions, mais va
nous aider à nous poser la (ou les) bonnes questions, permettant de définir un vrai problème à résoudre,
compatible avec les contraintes que nous avons à satisfaire et les données que nous avons à notre
disposition. Ceci permet de définir un problème que nous n’avions pas tout à fait envisagé ou imaginé
au départ. En gagnant en connaissance et en précision sur l’environnement que l’on veut étudier, on se
retrouve peu à peu dans le cas d’un pseudo problème « supervisé » et les algorithmes adaptés au cas
précédent reprennent tout leur sens. En fait, seul l’homme peut décider du problème réel à résoudre, en
lui donnant un type (une caractérisation) et de facto en proposant une collection d’algorithmes ou de
méthodes adaptés et associés.
Or les situations « non—supervisées » sont fréquentes dans l’univers de l’économie, ce qui risque de
freiner considérablement l’extension de l’I.A.
Antinomie entre la « connaissance a priori » de la population ou du problème à étudier
et la « non connaissance23 a priori de la population » ou du problème à traiter.
Connaissons-nous réellement la population que nous voulons analyser ? En effet, ne pas connaître
une population a priori, en utilisant des outils qui supposent des lois apprises sur le passé ou sur
d’autres populations, soi-disant similaires, peut conduire à des erreurs drastiques. Prenons l’exemple
familier des sondages. Nous avons tous en tête les résultats récents catastrophiques des prévisions
pendant les primaires de la droite et de la gauche des élections présidentielles en France. La raison en
était une connaissance trop parcellaire et incomplète de la part des instituts de sondage des futurs
votants dans ces nouveaux types d’élections. En revanche les résultats ont été, miraculeusement ?, de
nouveau satisfaisants dans des contextes connus par eux. Les situations électorales conventionnelles
font appel à une connaissance de la population dont les bases sont solides car sa stratification est
fournie par les recensements INSEE que possèdent tous les instituts de sondage. A l’inverse les soi-
disant « spécialistes » utilisant des approches nouvelles du Big Data ont, eux, commis des erreurs de
prévision très significatives en mélangeant de façon incongrue des sources disparates.
Connaître une population à analyser, c’est essentiellement posséder beaucoup de données et
d’informations sur elle, mais pas n’importe lesquelles : celles vraiment utiles à l’analyse. C’est encore
mieux si les données associées ont été validées et « labellisées » sur des sous-ensembles témoins,
qu’on a étudiés tout particulièrement et en profondeur, étape préalable à beaucoup de processus
d’apprentissage. Une raison fondamentale aux succès de Google, Amazon et Facebook en I.A. / Big
Data, c’est que non seulement ils ont des quantités gigantesques de données en leur possession, mais
en plus des données labellisées (ce travail de labellisation ou d’annotation, fort coûteux est souvent
fait, dans leur cas,avec l’aval, non conscient, de leurs propres clients)24
.
La question se pose avec acuité dans le domaine de la « fraude » ou de « l’intrusion malveillante »
dans les systèmes informatiques en cyber-sécurité. En effet dans le contexte de la fraude (qu’elle soit
bancaire ou informatique par exemple) vous ne savez pas qui fraude ni comment il fraude. D’autre part
les « signatures » des « fraudes ou virus » déjà connus, en d’autres termes leurs caractéristiques
répertoriées, ont une durée de vie limitée et le propre des fraudeurs c’est d’inventer de nouvelles
fraudes le plus fréquemment possible, en un processus de renouvellement perpétuel et de grandes
conséquences néfastes peuvent en découler.
23 Par « connaissance » d’une population, on entend ici l’ensemble des paramètres intrinsèques permettant de la
caractériseravec une assez bonne précision (taille, structure, moyennes, lois statistiques sous-jacentes, écarts maximaux
entre valeurs,univers de descriptionsuffisant, etc.)
24 Typiquement la monstrueuse base de données images de Facebook est annotée en continu par les membres du réseau,
fiers de leurs contributions !

12
L’opposition (partielle) entre « complexité » d’un problème et « taille » ou « volume »
du problème et ses données associées.
La troisième question importante à se poser est la suivante : quelle est la vraie complexité des
traitements algorithmiques? On peut montrer qu’il existe deux types de complexités, une complexité
intrinsèque (ou combinatoire), dont la solution sera au mieux approchée, et une complexité
extrinsèque, qui n’est en fait qu’un effet de masse soluble par la puissance de calcul et le découpage en
sous-volumes plus faciles à traiter.
Prenons un exemple mathématique simple de complexité intrinsèque. Soit un ensemble de dix mille
objets (ce qui est un « petit nombre » pour l’approche Big Data / Big Analytics) : combien de
partitions (ou de regroupements) peut-on faire de ces dix mille objets ? Réponse : environ dix à la
puissance 23900 (1023900
). Aucun ordinateur, même le plus puissant existant aujourd’hui, ne sera
jamais capable de faire de tels calculs exhaustivement. Cette complexité « intrinsèque » est une
contrainte incontournable, obligeant souvent à utiliser des méthodes « heuristiques » ou approchées
pour résoudre partiellement ou de façon approximative le problème concerné.
La complexité extrinsèque est généralement liée à la massivité des données. Avec un peu de chance, le
problème pourra être modélisé par des calculs linéaires (c’est-à-dire dépendant de la taille de la
population et non de son carré ou davantage) ou être découpé en sous problèmes indépendants de
tailles très inférieures, ou enfin faire l’objet d’une réduction des dimensions de l’univers descriptif de
sorte que chaque opération élémentaire soit relativement simple. Dans ces conditions on peut trouver
des solutions et des méthodes de résolution dès lors que l’on dispose de machines puissantes et de
bons algorithmes.
Un exemple illustratif de ce type de complexité est le cas des réseaux sociaux (même si ces derniers
obéissent à certains modèles théoriques de caractérisation25
, il est très difficile quand on a affaire un
graphe de trois cents millions de nœuds et de quelques milliards de liens (Twitter) ou d’un milliard
neuf cents millions de nœuds et quelques centaines de milliards de liens (Facebook) d’estimer le
comportement ou la densité des clusters (les cliques réunissant des membres du réseau qui s’échangent
plus d’informations entre eux qu’avec le reste de la population26
). Quel intérêt présente un sondage
effectué sur le réseau Facebook pour savoir de quoi parlent les gens entre eux, sans connaître
partiellement le type de segmentation potentielle sous-jacente, ni avoir une idée de la structure du
réseau? Aucun. En dehors de générer des banalités et des sottises. D’ailleurs attaquer le graphe dans sa
totalité sans le découper en clusters de tailles gérables est une tâche vouée a priori à l’échec. Et il y a
pire ! L’exemple le plus surprenant27
est sans doute celui de la mère de toutes les techniques d’analyse
25 Citons par exemple :le modèle « sans échelle » (Barabasi–Albert) ou le modèle « Petits Mondes » (Watts-Strogatz).
26 On voit ici tout l’intérêt d’isoler et d’analyser automatiquement ces « cliques » ou « clusters » regroupant des gens qui
ont l’habitude de s’échanger souvent de l’information (en tout cas plus qu’avec le reste des autres membres du réseau)
dans la recherche de « foyers terroristes » (approche « Counter Terrorism » des Anglo-saxons) ou de « tenants de
comportements déviants » (pédophilie). Avec augmentation de la facilité de l’interprétation du « cluster » dès qu’un
membre dugroupe a déjà été « marqué » et reconnu auparavant.
27 Elle est viciée par nature ! Aujourd’hui, les individus à analyser (au sens statistique) sont représentés par leurs
caractéristiques descriptives. Un client sera décrit par ses descripteurs « bio-sociologiques » (son profil),exemple :son sexe,
son âge, son lieu de résidence, son métier, son niveau d’éducation, son nombre d’enfants, etc. Si l’on veut regrouper
(segmenter) ces clients en classes de similarités de profils on est amené, a priori, à regrouper des gens qui se ressemblent
fortement tout en les séparant de ceuxqui appartiennent auxautres classes. Ce principe de « regroupement-séparation »
conduit implicitement à un mode de segmentation (« clustering ») obéissant au théorème de Huygens (qui implique que la
meilleure décomposition en groupes distincts est celle où tous les individus sont isolés). Il en résulte que la meilleure de
toutes les segmentations est celle qui aboutit à la segmentation triviale : un segment parindividu ! Autrement dit pas de
segmentation du tout. Alors, que fait-on ? On fixe arbitrairement le nombre de K de segments, approches dites « K-
means »! Et c’est comme cela que l’on rate les segments émergents ou rares, ceux qui peuvent avoir un intérêt particulier
et discriminant dans certains cas, quel que soit le domaine : Marketing, Médecine, Cyber-sécurité, Renseignement,
Pharmacodynamique, Sociologie, etc. C’est comme cela que les sondeurs ratent les mouvements souterrains qui
transforment les sociétés, et que les entreprises passent à côté des innovations ou des différentiateurs. Or, il existe des
approches oùl’onpeut s’éviter de fixer a priori et à l’avance le nombre de classes d’une segmentation, il faut lesutiliser !

13
de données : la « segmentation » ou décomposition de la problématique de départ en classes de
ressemblance de profils (voir note de bas de page).
Pour faire ce travail préalable, il faut mobiliser des algorithmes et des mathématiciens de haut niveau.
L’opposition entre les approches « data driven » et les approches « hypotheses driven ».
Dans ce cas, le plus important est de comprendre que nous vivons un changement de paradigme qui
est finalement l’une des caractéristiques majeures du Big Data, son nom : le mode « data driven ».
Jusqu’ici il était question de ce que les anglo-saxons appelaient le mode « hypotheses driven ». Vous
partiez d’un modèle théorique que vous paramétriez ou que vous ajustiez à la réalité. Exemple simple :
mesure de la taille dans une population donnée d’individus. Depuis A. Quetelet et F. Galton, on sait
que la courbe des tailles est, approximativement, une courbe en cloche, dite courbe de Gauss (ou
courbe Normale). A partir d’un recensement ou d’une collecte de données, sur une large population,
on va essayer de trouver les paramètres clefs de cette courbe (moyenne, écart type, etc.) qui
interviennent dans son expression mathématique, et, dès lors on aura une traduction semi explicite de
ce que nos données suivent comme modèle. Le data driven, lui, ne fait pas d’hypothèses. Le domaine
de la « fraude » que nous avons présenté plus haut est un exemple d’une question inaccessible, sauf
cas particuliers, à l’« hypotheses driven ». On en arrive alors à ce qui n’a pas été bien compris. Notre
inconscient est modelé par les méthodes adaptées à une exploitation et une exploration des données,
orientées par les approches statistiques usuelles et historiques. Elles sont souvent fondées sur un
univers de description où l’on supposait a priori des lois naturelles ou des comportements moyens,
largement étudiés et validés en s’appuyant sur des lois ou des théorèmes fondamentaux (Loi normale,
Loi des grands nombres, Théorème Central Limite, Théorème de Donsker, Théorème de Glivenko-
Cantelli dit « théorème fondamental de la statistique »), elles sont parfaitement valables en univers de
connaissance étalonnée des populations étudiées, mais pas du tout quand la population est quasi infinie
et changeante dans le temps ou non définie explicitement (cas déjà vu des élections primaires). Ceci
arrive de plus en plus désormais, dans l’approche du « vrai Big Data ».
Cependant, le data driven a aussi ses limites... Certains ont assuré que par des approches plus
descriptives que modélisatrices, fondées sur des processus de transferts, de simplifications par couches
successives bref d’apprentissage (par exemple réseaux de neurones profonds : convolutionnels ou
récurrents) on évitait l’obligation de passer par le principe des hypothèses prédéfinies, en laissant les
données s’auto-adapter aux hypothèses latentes. Les problèmes se situent alors plutôt sur les limites
inhérentes28
à ces techniques de « deep learning ». Une illustration archétypale représentative de tels
principes d’auto-adaptation se retrouve dans les réseaux de neurones dits « auto-encodeurs » (ou
encore du fait de leur forme : réseaux « diabolos », ou « sabliers ») où l’on propose comme données
de sorties du réseaux (c’est-à-dire les résultats à classifier) les données mises en entrée du réseaux (les
données de départ), le but du jeu étant de trouver la couche minimale (en nombre de nœuds) dite
« couche d’abstraction » résumant de façon optimale (tout en étant réduite) l’univers d’analyse à
considérer réellement. Les « auto-encodeurs » sont d’ailleurs préconisés pour faire du
« préapprentissage », qui consiste à apprendre de manière « non supervisée » en « Deep Learning »
les couches intermédiaires du réseau maître, les poids ainsi obtenus par l’auto-encodeur servant
d’initialisation pour le réglage plus fin du réseau maître. Ces palliatifs servant aux préapprentissages
donnent de très bons résultats lorsque l’on a de très bonnes bases de données labellisées29
(c’est-à-dire
pré-étalonnées), mais ils ne marchent pas dans tous les cas, nombreux, où la stratification de l’univers
de description est partielle ou assez mal connue.
L’opposition Data Driven / Hypotheses Driven est une sorte de méta dualité par rapport à celle
opposant surpervision et non supervision. Philosophiquement, ne dit-on pas que le changement vient
28 Initialisation aléatoire des poids du réseau, rétro propagation de l’erreur sur toutes les couches, difficulté de constituer
d’importantes bases de d’apprentissage labélisées (entrainant le « sur-apprentissage » ou la « mauvaise généralisation » ),
complexité des architectures, et manque d’adaptabilité aux structures « vraiment » non supervisées.
29 Voirles travaux de Yann Le Cun sur la reconnaissance de caractères, ou désormais sur la reconnaissance d’images chez
Facebook ou ceux de Yoshua Bengio au Canada.

14
des marges ou des valeurs extrêmes, les statisticiens diraient des « outliers » ? Le « data driven » nous
permet de trouver ce que nous ne cherchons pas, parce que nous ne le soupçonnions pas. Et voilà
pourquoi c’est une innovation révolutionnaire, à condition d’en exploiter réellement les possibilités.
L’opposition entre traitements des données « hétérogènes » et données « homogènes ».
On aborde ici l’opposition qui régit la difficulté intrinsèque de fusion d’informations selon qu’elles
sont homogènes ou hétérogènes lors de l’application d’algorithmes qui sont souvent, on l’a vu dans
l’introduction, rarement génériques. Pour résumer, les cas apparemment spectaculaires de progrès de
l’I.A., comme les (encore futures) voitures autonomes, reposent essentiellement sur la fusion de
données quasi homogènes, relativement faciles à combiner ou à agréger.
L’hétérogénéité signifie, par exemple, que les algorithmes d’apprentissage ou de big analytics qui
travaillent sur les données textuelles ou audio, ne sont pas adaptés aux données images, les méthodes
adaptées au traitement de signal, sont rarement capables de prendre en compte des données
qualitatives et binaires en simultané et vice versa. Par définition, des algorithmes traitant
simultanément de la parole, de l’image, du signal, des données de comptage / fréquences, du qualitatif
hiérarchisé et des données binaires au même niveau de pondération n’existent pas encore. Ceci permet
d’étalonner la différence entre le spectaculaire et le fonctionnel.
Prenons au contraire l’exemple de la fameuse « voiture autonome » (sans chauffeur), dont on a déjà
parlé, bardée d’électronique et de programmes d’Intelligence artificielle et de Data Analytics. Les
données analysées (ici dans un contexte de temps réel) sont essentiellement des données de signal
(signaux radar, lidar, vidéo, GPS, caméra infrarouge, signaux sonores, etc.), qui, du fait de leur
homogénéité structurelle liée à leur nature de signal, peuvent être fusionnées et étalonnées en mode de
compatibilité, lors de processus d’apprentissage. C’est ce qui permet de déterminer des règles de
décision opportunistes (freinage, ralentissement, écart, virage, parking etc.) qui doivent être prises
lors du déplacement du véhicule. Le cas de la « voiture autonome » est donc spectaculaire, mais il est
loin d’être le plus compliqué intrinsèquement. Mais seulement, bien sûr, dans un univers où toutes les
voitures seraient toutes autonomes ; car, et c’est là que le bât blesse, si l’on fait entrer l’homme dans la
boucle (l’homme qui peut être un piéton ou un chauffeur imposé), il va ajouter des paramètres
« qualitatifs » peu étalonnables avec ses décisions et ses comportements imprévisibles, qui vont très
sérieusement compliquer le contexte pratique.
L’agrégation de données hétérogènes se rencontre fréquemment dans les problèmes d’affectation
d’objets à des classes, exemple type : les diagnostics médicaux multidimensionnels de patients ou
l’affectation à des protocoles de soin, etc. Le système doit travailler sur des scores (« grading
functions ») précis liés à des seuils de similarité calculés par comparaison de profils sur variables
hétérogènes. Ces variables hétérogènes sont de nature très différente (mélange de données
quantitatives, fréquentielles, binaires, qualitatives nominales, etc.) de ce fait, on est toujours bloqué
par l’obstacle de la fusion30
sans biais des données. Tout ceci explique que le diagnostic médical et
l’I.A., même si l’on sent qu’à terme on les verra imbriqués totalement, sont encore des domaines de
test (on parle d’expériences avec Watson31
d’IBM sur le cancer du poumon). Mais il faudra franchir
30 Pour comprendre la difficulté intrinsèque de ce problème qui semble simple a priori supposons que nous comparions des
malades atteints de mélanomes malins cutanés, pour les affecter par groupes à des protocoles de soins différenciés selon
trois critères :le sexe, l’épaisseur du grain de beauté (selonle niveau d’invasion de Clark 5 valeurs), et l’âge du malade en 9
tranches : 0-15, 15-25, 25-35, 35-45, 45-55, 55-65, 65-75, 75-85, >85. Supposons alors que l’on compare deux profils le
Malade n°i = (Homme, Niveau 4, Age 7) et le Malade n°j = (Homme, Niveau 3, Age 6), il apparait à l’évidence que le sexe a
un poids plus fort que le niveau d’invasion de Clark, lui -même ayant un pouvoir de similarité plus fort que le
paramètre âge. En effet en supposant que les modalités de chaque variable soient équi-réparties, il y a une chance sur 2
que le Malade i et Malade j soient similaires , c’est-à-dire aient le même sexe, 1 chance sur 5 (1/5) qu’ils aient le même
niveau de Clark, 1 chance sur 9 (1/9) qu’ils aient le même âge. Ce biais doit être corrigé sinon l’on écrase et l’on biaise
lourdement les résultats, qui pourtant sont vitaux pour le malade. Deux façon de faire :la régularisation de la similarité ou
la représentationspatiale par changement d’espace, recodage et normalisation.
31 Test effectué en 2012 auMemorial Sloan-Kettering Cancer Center de New York, Watsona pu diagnostiquer uncancer du
poumonavec untaux de succès de 90%, contre 50% pour un médecin. L’intelligence augmentée avait intégré 600 000
données médicales, 2 millions de pages issues de revues spécialiséeset les dossiers de 1,5 millionde patients.

15
quelques écueils. Dans l’exemple IBM, le temps d’apprentissage du moteur Watson, vue la quantité
d’informations qu’il a fallu lui faire assimiler, est sans doute fort long. L’approche par régularisation
de similarité comme aide au diagnostic du médecin décisionnaire est encore et toujours plus efficace, à
la fois en temps, et via l’automatisme contrôlé par l’homme et les pouvoirs explicatifs et interprétatifs
sur les relations de corrélation et de causes à effets que les approches statistiques avancées peuvent
permettre d’obtenir32
.
En conclusion l’hétérogénéité des données estencore unobstacle, qu’onle veuilleounon.
Conclusion
Ces réflexions nous amènent à deux conclusions.
Le court terme. Ce que l’on entend généralement sur I.A. et Big Data n’est applicable qu’à un petit
nombre de très grandes entreprises, généralement situées aux USA. Il y a, aujourd’hui, matière à une
révolution du type de celle qui a créé le GAFA, mais totalement différente. Elle concerne l’ensemble
des acteurs de l’économie et de la société, entreprise traditionnelle, individu, association… Elle est à
base de Smart Data, de boîte à outils pour « lean start up », de cloud… Elle ne coûte pas cher, mais
elle demande du travail, et du talent. Nous avons tous une chance à saisir.
Le long terme. Effectuer une réelle percée dans le domaine de l’I.A. et du Big Data est ardu.
Cependant, celui qui y parviendra peut acquérir un avantage considérable. Et ce dans de très nombreux
domaines, qui vont de l’économie à la sécurité nationale. Comme nous l’avons vu dans ce texte, les
trois piliers de la réussite en matière d’I.A. et de Big Data / Big Analytics reposent sur la puissance
nouvelle des machines, l’abondance de données labellisées accessibles facilement et la qualité des
algorithmes utilisés. Ce dernier point pose implicitement la question du niveau des concepteurs des
algorithmes qui seront développés. En France nous avons la chance d’avoir des mathématiciens et
statisticiens d’un niveau supérieur à ce qui se trouve ailleurs, excepté aux USA. Il faut conserver nos
innovateurs mathématiciens. Il faut les motiver avant qu’ils ne désertent nos Centres de recherche ou
qu’ils n’aillent pratiquer leur talent dans les laboratoires d’entreprises étrangères (Facebook, Microsoft,
Huawei, etc.). Il est important d’en avoir conscience avant qu’il ne soit trop tard, afin d’éviter de se
retrouver, pour les domaines que nous venons d’évoquer, dans la même situation que celle où nous
nous trouvons aujourd’hui en ce qui concerne toute l’industrie informatique (matériels et logiciels).
32 N’oublions pas ici que l’un des reproches faits aux algorithmes d’apprentissage fondés sur des modèles neuronaux par
couches profondes est le côté « boîte noire » de ces techniques, qui est une conséquence intrinsèque de la façon dont ils
procèdent. En médecine mais également dans les processus de décisions de tir, par exemple dans le domaine militaire, la
non possibilité d’interpréter une décision via une compréhension profonde d’une situation ou d’un état de fait est
difficilement compatible avec certaines doctrines et règles déontologiques.

IA et Big Data : mythes et réalité

Recommandé

Recommandé

Contenu connexe

Tendances

Tendances (20)

En vedette

En vedette (6)

Similaire à IA et Big Data : mythes et réalité

Similaire à IA et Big Data : mythes et réalité (20)

Plus de Faurie Christophe

Plus de Faurie Christophe (13)

Dernier

Dernier (11)

IA et Big Data : mythes et réalité