Ce diaporama a bien été signalé.
Nous utilisons votre profil LinkedIn et vos données d’activité pour vous proposer des publicités personnalisées et pertinentes. Vous pouvez changer vos préférences de publicités à tout moment.

IA et Big Data : mythes et réalité

20 331 vues

Publié le

Le regard d’un mathématicien sur « Intelligence artificielle et Big Data ». Ce mathématicien a une double légitimité : celle d’avoir été longtemps acteur dans l’univers industriel (IBM et Thales) et chercheur académique et enseignant universitaire en France et en Europe.
Que dit-il ? Pour le moment, nous sommes en train de vendre la peau de l’ours avant de l’avoir tué. Même si l’ours est certes gravement blessé, il est loin d’être mort. Nous ne sommes pas capables de réaliser toutes les promesses que l’on nous a faites et que l’on est en train de nous faire. Plus précisément, utiliser les techniques d’I.A. et de Big Data demande de se confronter à cinq « antinomies », qui en limitent singulièrement la portée : « pour l’avenir, l’évolution réelle se trouve obérée par cinq problématiques structurelles. Toute réflexion devra d’une manière ou d’une autre en tenir compte et essayer de les résoudre, au moins celles qui sont les moins ambigües, si l’on souhaite réellement déboucher sur des ruptures. »
Faire un pas vers cette innovation de rupture demandera des mathématiciens de très bon niveau. Or, beaucoup des nôtres, qui étaient et sont encore parmi les meilleurs au monde, nous quittent petit à petit appelés par les sirènes dollars ou yuans.
Cependant, les techniques dont parlent les journaux ne sont pas les seules qui puissent nous concerner. En effet, il y a eu « démocratisation ». Des outils extrêmement puissants sont maintenant accessibles par quasiment n’importe qui. C’est là que se trouve, pour la grande majorité des entreprises, donc pour l’économie, le levier d’un changement potentiellement radical.

Publié dans : Données & analyses
  • Soyez le premier à commenter

IA et Big Data : mythes et réalité

  1. 1. 1 Intelligence Artificielle et Big Data : quels impacts pour l’économie et l’entreprise ? Jean–François Marcotorchino et Christophe Faurie (*) I.A. et Big Data : mythes et réalités Intelligence Artificielle et Big Data sont deux sujets dont on reparle aujourd’hui simultanément. Avec la robotique ils enflamment l’imagination de nos contemporains. Certes la cohabitation de l’homme avec des systèmes artificiels est depuis longtemps l’un des thèmes favoris de la science fiction. Songeons que le terme « intelligence artificielle » fut inventé en Juillet 1956, lors d’une conférence au Dartmouth College 1 dans le New Hampshire. Quant au mot « robot », il est plus ancien encore puisqu’il fût forgé en 1920 par un dramaturge Tchèque2 , Karel Capek. Dans le passé, ces disciplines ont tour à tour suscité espoirs démesurés puis déceptions, et ce,de façon quasi cyclique. Mais nombre d’événements récents, souvent habilement mis en scène – réussite du test de Turing par un ordinateur en 2014, victoire d’une machine contre le champion du monde du jeu de go (2016), défaite d’un instructeur de l’US Air Force dans un combat aérien simulé contre une intelligence artificielle (2016) – laissent à penser que s’ouvre à nouveau une ère de ruptures dans la technologie. C’est pourquoi I.A. et Big Data nourrissent désormais un véritable débat de société. L’intelligence artificielle en particulier déclenche une floraison de discours alarmistes sur la suppression potentielle d’emplois qu’elle induirait dans un avenir proche, discours apparemment crédibles puisque émanant d’entrepreneurs célèbres de l’économie numérique ou d’éminents chercheurs, tels que Stephen Hawking, Elon Musk, Bill Gates, etc. De son côté le Big Data présenté comme « nouveau pétrole » des entreprises et de l’économie numérique, est accusé de menacer nos libertés individuelles, par la diffusion (d’ailleurs le plus souvent avec acceptation tacite des intéressés) de masses d’informations nous concernant directement. C’est particulièrement la crainte qu’inspire (*) Jean-François Marcotorchino est directeur associé au Laboratoire de Statistique Théorique et Appliquée (LSTA) de Paris VI/UPMC. Professeurdes Universités, chargé de cours à Paris VI et à l’ISUP (Institut de Statistique de l’Université de Paris). Ancien Vice Président, Directeur scientifique, de Thales SIX, et « Thales Technical Fellow ». Il fut également pendant 30 ans membre d’IBM France et d’IBM Research, et en particulier, pendant 10 ans, Directeur du Centre Scientifique IBM de Paris (Place Vendôme et Rives de Seine) et de l’ « EuropeanCentre for AppliedMathematics (ECAM) » d’IBMEurope. Christophe Faurie est un spécialiste de la question du changement, un sujet sur lequel il a publié 6 ouvrages. Il s’intéresse, en particulier et depuis ses débuts comme responsable des algorithmes généraux du département FAO de l’éditeur de logiciel Dassault Systèmes, au problème de l’adoption des systèmes d’information par les organisations. Par ailleurs, il a consacré ses recherches de MPhil, à l’université de Cambridge, à la question de l’application de l’intelligence artificielle à l’ingénierie du contrôle. Cet article s’inspire d’ une communication de Jean-François Marcotorchino à paraître dans un livre édité par l’Académie des sciences morales et politiques, dans le cadre de son programme de recherche « Guerre et technique » (organisé par Jean Baechler et Christian Malis), article intitulé : « Intelligence Artificielle et Big Data : impacts sur les futurs systèmes de Défense ». 1 Parmi lesorganisateurs ducolloque de Dartmouthencet été 1956, on trouve outre Marvin Minsky, et John Mac Carthy du MIT, Claude Shannon (qui yrentrera 2 ans après) et Nathan Rochester (d’IBMResearch) ;parmi lesautres participants célèbres on retrouve également RaySolomonoff, Allen Newell et Herbert Simon. 2 Cette Information a été communiquée par le Professeur Jean Gabriel Ganascia (UPMC/ParisVI).
  2. 2. 2 l’exploitation systématique du processus de « profiling3 » des individus par le GAFA (Google, Amazon, Facebook et Apple) auquel on peut rajouter à un degré moindre IBM. Défiance et interrogations n’empêchent pas, au demeurant, I.A. et Big Data de drainer aujourd’hui des investissements colossaux se traduisant par des innovations techniques ou des programmes de recherche de grande envergure. Cette tendance générale affecte aussi le secteur de la Défense4 à travers la mise en place de nouvelles doctrines d’utilisation des outils d’I.A. et de Big Data, parallèlement à l’apparition de nouveaux métiers comme : « Data Scientist », « Chief Data Officer », « Analyste I.A. » etc. A ces efforts il faut ajouter ceux consacrés au développement des moyens de formation. Scientifiquement, spécialement au plan de la recherche universitaire, les technologies actuelles de l’I.A. et du Big Data font appel, de plus en plus, à des algorithmes mathématiques de haut niveau s’appuyant sur des machines de plus en plus puissantes. Mais la nouveauté et les perspectives de rupture sont loin d’être aussi radicales qu’on se plaît à le faire croire. Aussi, dans le contexte de cet article, est-il important de bien faire la part entre progrès en cours de validation, et redécouverte de techniques préexistantes et peu diffusées, ou encore entre percées scientifiques réelles et validées et « relooking » d’approches déjà connues. C’est cette préoccupation qui nous anime dans cette réflexion sur l’impact réel et raisonnablement prévisible de l’I.A. et du Big Data sur l’économie et l’entreprise. Introduction « Intelligence Artificielle (I.A.) » et « Big Data » connaissent aujourd’hui une phase de convergence remarquable, essentiellement sous l’effet de deux facteurs largement indépendants l’un de l’autre : une immense profusion de données accessibles et numérisées d’une part, d’autre part une puissance accrue des machines permettant enfin d’accéder à des possibilités de calcul qui n’étaient qu’envisagées ou à peine esquissées il y a une douzaine d’années. Cette convergence recouvre des relations cachées complexes et des besoins réciproques. Ainsi l’I.A dans sa version apprentissage nécessite beaucoup de données pour être efficace et bien fonctionner, mais de son côté l’exploitation des masses de données s’appuie sur des algorithmes à base de mathématiques et d’I.A pour trier dans ces masses informationnelles, réduire les dimensions en jeu et éviter le COS (« Cognitive Overload Syndrom »), bien rendu par la phrase « trop d’information tue l’information ». Pour comprendre les perspectives réellement ouvertes par le couple I.A.-Big Data, il importe d’abord de débusquer les contre-vérités les plus flagrantes. Elles s’attachent spécialement au fameux « Machine Learning », en français « apprentissage automatique». Beaucoup de profanes imaginent que la machine auto-apprenante va s’auto-adapter au contexte, que plus vous la nourrirez de données, plus elle deviendra « intelligente ». Certes, dans des conditions bien précises, c’est un stade que l’on peut atteindre, ce qui implique par projection temporelle qu’à terme l’homme sera vite remplaçable et, de facto, il est déjà remplacé par des machines « intelligentes » pour certains types de tâches et de métiers : celles qui impliquent une forte dose de reproductibilité (téléopérateurs, agents de contrôle technique, ouvriers utilisant des robots d’usinage, employés administratifs décideurs sur des affectations automatiques à des tâches ou à des parcours (exemple le cas du logiciel d’I.A. : APB « Admission Post Bac » de gestion des préférences des élèves en terminale etc.). 3 Le « profiling » est le processus d’analyse de l’individu, représenté sous forme d’un vecteur (son profil descriptif personnel) dans un espace multidimensionnel. A partir de ce profil individuel, on peut calculer des « profils » de personnes qui lui sont semblables, sa caractérisation par classe d’appartenance, ainsi que sa propension à être intéressé à tel ou tel produit (marketing ciblé), etc. 4 A ce propos, les auteurs remercient Christian Malis : Professeur associé à Saint-Cyr et Directeur de la Prospective Stratégique chez Thales, auteur de livres sur la « pensée stratégique militaire », pour ses conseils judicieux, pour ses remarques érudites et sessuggestions constructives.
  3. 3. 3 Mais nous sommes loin de ces conditions de reproductibilité pour l’ensemble des métiers et des situations potentielles où l’homme a un rôle important à jouer. La raison en est la suivante. Si les ordinateurs peuvent être dotés d’une mémoire sans limites au moins tant que la « loi de Moore » pourra s’appliquer5 , leur capacité d’apprentissage est, depuis l’origine, l’un des obstacles majeurs de la transformation des machines en structures rapidement apprenantes et autonomes. En fait, en dehors des cas d’école très spectaculaires6 mis en avant et largement mis en scène par le marketing de Google, Facebook, Amazon, IBM, Apple, ou par des sociétés de pointe de la Côte Ouest des USA, ou issues de grandes universités américaines, on est relativement loin d’une approche totalement générale aussi efficace pour tous les domaines qui peuvent concerner l’homme dans sa vie courante. Quand on parle d’approches I.A. on évoque souvent les « algorithmes génétiques », mais c’est surtout le mode « apprentissage machine » qui est prépondérant. Et de facto dans ce contexte on s’intéresse immédiatement aux approches neuronales génériques célèbres, connues sous le nom de « Deep Learning » (apprentissage profond), qu’elles soient de type Réseaux de Neurones Récurrents : « Recurrent Neural Nets » (RNN) ou de type Réseaux de Neurones Convolutionnels : « Convolutional Neural Nets », (CNN). Il faut bien comprendre que ces approches sont dédiées à des applications définies dans des contextes particuliers et avec des données spécifiques, le tout étant difficilement transposables. Ainsi une application remarquable de reconnaissance de la parole fondée sur l’apprentissage de millions d’enregistrements ne pourrait fonctionner, telle quelle, pour traiter un problème de reconnaissance automatique d’images. Les réseaux de neurones récurrents (RNN) (introduits par Jordan, 1989; et Elman, 1990) par exemple sont des modèles capables de prendre en compte un contexte dans leur fonction de décision. Ils sont pour cela particulièrement adaptés à plusieurs tâches de Traitement Automatique des Langues (TAL), notamment celles qui consistent à prédire une information ayant une certaine séquentialité7 . De leur côté, les Réseaux de Neurones Convolutionnels (ou convolutifs) sont les outils de choix dans la besace du « Data Scientist » pour le traitement et la reconnaissance d’images8 . Ce sont des algorithmes phares du Deep Learning, objets d’intenses recherches aux enjeux considérables. Et pourtant, leur manque de généricité ne permet pas encore de parler de modèles totalement interchangeables. Ceci a toute chance de demeurer vrai à l’horizon prévisible, en dépit de l’essor de nouveaux concepts ayant pour objet d’augmenter considérablement la généricité et l’adaptabilité des modèles neuronaux. On pense notamment aux ENN (Evolutionary Neural Nets)9 . 5 En fait la première « loi de Moore » (celle concernant la fréquence des processus) n’est plus valide depuis 2005, elle se heurte à des problèmes non surmontés de dissipation de la chaleurémise conduisant à de la surchauffe des processeurs. Mais l’homme a des ressources et des composants nouveaux remplaçant potentiels du Silicium et de l ’Arséniure de Galium sont à l’étude (Graphene, Hafnium, etc.). Quant aux capacités d’intégration des microprocesseurs elles se heurtent à un mur (lié à des effets quantiques) qu’on ne sait pas encore surmonter. Seule la partie de la loi de Moore concernant la « puissance » des ordinateurs reste encore valide, mais pour combien de temps ? 6 Ainsi, la preuve a été faite dans les jeux complexes que la machine pouvait vaincre l’homme, référons nous par exemple à la séquence suivante : on rappelle ici que « Deep Blue » d’IBM a battu le grand maître international Garry Kasparov aux échecs en 1997, que le logiciel « Watson » d’IBM, encore, a battu en 2011, deux champions américains de Jeopardy (Brad Rutter et Ken Jennings), qu’« Alpha Go » de DeepMind Google a créé la surprise en battant Lee Sedol en 2016 (championdu monde coréen du jeu de Go), enfin plus récemment le programme d’I.A « Libratus » du Professeur Sandholm de Carnegie Mellon a ridiculisé 4 professionnels de Texas Hold’Em Poker au tournoi international de Rivers Casino à Pittsburgh en Janvier 2017. Dans ce dernier cas il est à noter que le poker est un jeu à information incomplète, donc a priori plus complexe que les autres pour la machine. 7 Le principe de séquentialité est intrinsèque aux « n-grams » (succession de « n » termes à l’apparition plus probable que d’autres dans une langue donnée, des tri-grams dans ce cas), il avait déjà été introduit à l’IBM T. Watson Research Centre de Yorktown par Fred Jelinek au milieu des années 80, il utilisa outre les 3-grams des grammaires à chaines de Markov cachées et les n-grams. 8 C’est ce type d’algorithme par exemple qui est utilisé par le Laboratoire de recherche en I.A. de Facebook (dirigé parle Français Yann LeCun) pour interpréter automatiquement le contenu de milliards d’imageset photos. 9 C’est une technique neuronale que l’on peut caractériser, comme le dit le chercheur Zachary Chase Lipton par : « une approche qui est en fait très similaire à un réseau neuronal classique. La différence réside dans la manière dont on fait
  4. 4. 4 Concernant le degré de nouveauté des approches actuelles, ayons conscience que bien des techniques utilisées aujourd’hui datent, en fait, des années 75-90, (voir figure n°1), seul l’environnement d’application a été changé. A cette époque l’engouement pour l’I.A, stimulé par le mythe japonais des ordinateurs de cinquième génération, avait fait naître des espoirs, largement déçus ensuite10 . Il faut alors reconnaître que les résultats actuels obtenus par certaines entreprises privées et certains Laboratoires universitaires prouvent que les tenants de l’Intelligence Artificielle n’ont pas été découragés par ces échecs préalables, et fréquents, et ce malgré l’abandon concomitant et progressif des Langages informatiques vedettes des années 65-75 qui servaient de support à ces développements 11 . Ils ont poursuivi leurs travaux jusqu’à ce qu’enfin l’environnement méthodologique, l’accès aux données d’apprentissage et la puissance supplémentaire des ordinateurs aient permis le passage à l’échelle (« scalability ») de certains algorithmes d’I.A. ou de Big Analytics12 . Il n’en demeure pas moins que, s’il est vrai que l’Intelligence Artificielle et le Big Data sont en train de se co-développer de façon remarquable, il reste que nombre d’ algorithmes existants sont totalement inadaptables à l’environnement généraliste des problématiques à résoudre. C’est cette thèse fondamentale sur les limites intrinsèques de l’I.A. et du Big Data que nous souhaitons traiter dans ce texte. Dans une première partie nous abordons quelques sujets d’actualité. Dans une partie finale, plus technique, on présentera une réflexion sur les « dualités fondamentales » qui risquent de limiter encore pour quelques temps le fonctionnement d’algorithmes clefs, interdisant de s’évader totalement dans les rêves de la science-fiction. jouer les paramètres, afin d’accroître l’efficacité du programme. Dans le cas d’un réseau de neurones traditionnel, on effectue des calculs pour optimiser le gain à chaque nouvelle tentative. Avec une stratégie évolutive, on applique un grand nombre de mutations aléatoires aux paramètres et l’onsélectionne ensuite les plus efficaces ». 10 Il s’agit ici du projet « Ordinateurs de cinquième génération » (Fifth Generation Computer Systems, FGCS). Par sa durée et les moyens humains et financiers qu’il a mobilisés, c’est le plus important projet que le ministère de l’industrie et du commerce international japonais (MITI) ait entrepris. Ce projet est d’autant plus important que tous les projets qui lui sont ultérieurs ont été réalisés en tenant compte de ses réussites et échecs. Alors qu’il a fait l’objet de nombreux commentaires lors de son lancement en 1982, sa clôture s’est faite dans un silence quasi-total en 1992. Les rares ouvrages traitant de l’histoire de l’informatique auJaponne lui font qu’une place mineure, pourquoi ? Un sentiment d’échec national ? 11 A savoir :Le LISP(MacCarthy 1960) et Prolog (Colmerauer 1971). 12 Le « Big Analytics » est le terme consacré, donné par les Anglo-saxons, à l’ensemble des algorithmes nécessaires , utilisés pour analyserles données, réduire les dimensions des problèmes, classifier et « clusteriser » les populations, et optimiser les ressources dans le contexte du Big Data. Certains des algorithmes du « Big Analytics » sont des dérivés (certes souvent plus puissants) d’algorithmes qui préexistaient sous le vocable « Data Mining » auparavant, certains autres comprennent, bien entendu, des algorithmes neuronaux qui rentrent dans la catégorie Intelligence Artificielle, renforçant encore l’aspect symbiotique de ces deux domaines.
  5. 5. 5 Figure n° 1 : Convergence Big Data Analytics (noir)-IntelligenceArtificielle (violet) 6 /6 / Big Analytics >2008 -up to now (Unconstrained Data Mining) Hypotheses driven mode: Sampling Techniques+Inference Hypotheses driven &Data driven: Dimensions Reduction & Segmentation Data Exponential volume increase Business Intelligence 1981-2008 (Constrained Data Mining) Statistical Data Analysis <1980 (Pure Statistical Inference) Data Exponential cost decrease Deep Learning NN (Le Cun, Bengio) (RNN, CNN, RBM.. >2008 -up to now (Renewal of A.I.) Mixture Heuristic & Logic Perceptrons(Rosenblatt) <1975 (Simple Schemes ) Expert Systems, Kernels Machines (Vapnick), MDL (Rissanen), Few layers Neural nets 1975-2008 (Prolog , SVM , Classification) Mainly supervised approaches + scalability limits è Hypotheses drivenFirst attemps to Connexionism . Only simple supervised approaches , Full Data driven mode: Power use of learning techniques mainly unsupervised IA/ Big Data: Des Evolutions Historiques et des Convergences
  6. 6. 6 Quatre sujets d’actualité Lorsque l’on creuse la question de l’I.A. et du Big Data, on découvre que ce que l’on dit possible, voire facile, l’est rarement. Mais, au contraire, ils peuvent redonner vie à des espoirs auxquels nous avions renoncés. Voici quatre sujets d’actualité qui illustrent cette observation : Transformation numérique Dans deux articles récents13 , le Financial Times révélait un aspect méconnu de l’I.A. et du Big Data. Le premier traitait de « machine learning ». La plupart des algorithmes d’Intelligence artificielle demandent un « apprentissage ». Prenons le cas de la voiture autonome. Chaque concepteur de voiture autonome paie, depuis des années, des équipes constituées de milliers de personnes. Elles analysent image à image les données issues de films pris en conditions réelles. Elles décrivent l’image à la machine : un cycliste, une voiture, un arbre… Petit à petit, l’ordinateur extrait de ce travail des règles qui lui permettront d’interpréter une situation. Cependant, il n’apprend pas comme l’homme. On ne peut pas lui donner un « permis de conduire ». L’ordinateur aura besoin d’assistance. Il faudra le nourrir des évolutions de l’environnement urbain, notamment. Dans le cas de jeux comme le go, ou dans celui du diagnostic de certains cancers, cet apprentissage prend des années. En ce qui concerne la voiture autonome, on évalue déjà son coût en milliards d’euros. Prenons un exemple plus ordinaire. Lorsque nous utilisons Internet, nous sommes sollicités par des offres d’achat. Elles sont le résultat de l’analyse de notre trace numérique. Comment jugez-vous l’efficacité de ces offres ? Pour atteindre un haut niveau de pertinence, un algorithme a besoin d’un volume considérable de données. Et, ces données doivent être qualifiées. Le second article traite d’une autre question critique. On ne sait pas comment un algorithme qui travaille sur de grosses masses de données atteint la conclusion qu’il nous donne14 . Or, dans certains cas, par exemple pour un décideur militaire, il n’est pas possible de prendre des décisions dans ces conditions. C’est pour cela que d’importants travaux de recherche ont été lancés sur ce sujet. Il s’agit de trouver un moyen de démontrer à un être humain la justesse du raisonnement de la machine. Cependant, on n’en attend pas de résultats avant 2021. Cette analyse nous amène à une conclusion. Que l’on parle de voiture autonome, de santé, de réseaux sociaux ou de plates-formes telles que Uber ou AirBnB, deux a priori sont à l’œuvre :  Tout est numérique. Tout ce qu’il faut savoir sur la société, le marché, la famille, tel ou tel individu… a une expression numérique, et se trouve sur Internet.  On dispose « d’algorithmes » qui permettent de transformer automatiquement cette information, diffuse, en des actions pertinentes pour l’entreprise. En réalité, il existe certes des algorithmes puissants, mais seul un petit nombre d’entreprises se trouve dans les conditions de les utiliser. Pour les autres, le potentiel du numérique n’est pas où elles le croient. En voici un exemple : L’analyse automatisée des réseaux sociaux n’a pas remplacé les techniques classiques d’études de marché. En revanche, ils se sont révélés un moyen sans équivalent de faire naître de nouvelles idées. En effet, ils permettent d’attirer et de constituer des communautés d’innovateurs qui, stimulées par les capacités d’une entreprise, vont « co-créer » avec elle. On retrouve ici une des idées du 13 Self-driving cars prove to be labour-intensive for humans, 9 juillet 2017 et Intelligent machines are asked to explain how their minds work, 10 juillet 2017. 14 D’autant que la dite boîte noire n’a pas fait la preuve de son infaillibilité. On se souvient de l’accident mortel provoqué par une voiture que son conducteur avait mise en pilotage automatique. Mais aussi des fausses corrélations qui ont résulté de la tentative de relier systématiquement génétique et maladies. (Voir Medecine by numbers, The Economist, 7 mars 2015.)
  7. 7. 7 psychosociologue Kurt Lewin, le pionnier des travaux modernes sur le changement : pour comprendre quelque chose il faut essayer de le changer. Observation clé : l’information qui a le plus de valeur est celle qu’émet un marché en changement. On ne peut pas l’anticiper de son comportement ordinaire. Cependant, la constitution de telles communautés demeure un phénomène mystérieux. En outre, il leur faut, évidemment, un animateur qui ait un profil de créateur. Voici un résultat général, que l’on développera par la suite. Le numérique a été annoncé comme un concurrent de l’homme, alors qu’il est un révélateur de talent. La Cybersécurité De très nombreux exemples récents de cyberattaques le montrent, les motivations des « hackers » pour mener des attaques ciblées sont variées. Mais, il apparait que le but des attaques ciblées les plus conséquentes est le plus souvent le vol d’informations sensibles, souvent dans une optique d’espionnage, voire de destruction de structures informatiques. Ces dernières attaques, plus organisées, se distinguent nettement des attaques plus généralistes qui visent plutôt à infecter un large panel d’utilisateurs, de manière aléatoire, le plus souvent dans un but financier et crapuleux immédiat (« ransomwares »). Le continuum « Défense-Sécurité » est sans aucun doute le domaine du MINDEF et plus généralement du Gouvernement (via l’ANSSI) qui représente au plus haut niveau l’autre grand chantier d’application de l’I.A. et du Big Data, où ces deux techniques couplées servent déjà de façon efficace et interviendront de façon plus massive encore, à brève échéance, pour protéger les systèmes informatiques et les systèmes d’armes de la destruction de données vitales intrinsèques, principalement au travers de systèmes d’analyse, appelés « IDS » « Intrusion Detection Systems », où l’I.A. et le Big Data servent essentiellement à détecter des anomalies systèmes, à bloquer des « malwares » et autres « attaques virales », et à analyser en mode anticipatif les « hackers » putatifs, via l’étude de leurs profils d’utilisateurs et de leurs comportements : « behavioral trends », etc. Ceci se traduit par l’exploration d’une chaîne complexe : la « kill chain », allant de l’enregistrement des « logs systèmes », qui se comptent en tera-octets par semaine, suivi d’une liste d’actions en séquence telle qu’elle apparait sur la Figure n°2, avec des actions de détection et d’identification et des actions de réponse ciblée à l’attaque. On doit travailler également sur la recherche des vulnérabilités des systèmes IT, au travers des topologies induites par leurs dépendances critiques inter-nœuds, mesurées par des capteurs passifs en grand nombre (sondes). On se doit également d’investir sur les nouveaux modes de dissémination de l’information que sont les réseaux sociaux et les structures relationnelles d’échange d’information, d’une part pour traquer les « hackers » qui souvent se communiquent leurs exploits, mais d’autre part pour développer des compétences sur l’analyse profonde des données réticulaires liées aux réseaux (réseaux IT, réseaux de transport, réseaux de communications, etc.) par rapport à des problématiques de résilience, d’optimisation de service et de calibrage des ressources. Ces derniers domaines sont par définition des générateurs implicites de données massives et totalement dépendantes du Big Data.
  8. 8. 8 Figure 2 – Une représentation de la « Kill Chain » inspirée15 de (Hutchins, Cloppert & Amin) En fait, la véritable nature du risque Internet est systémique. Les entreprises sont solidaires les unes des autres16. L’Internet des objets renforce cette dépendance. Un article rappelait récemment qu’il suffirait qu’un virus déclenche les climatiseurs des USA pour faire s’effondrer le réseau électrique du pays. Or, les « objets » utiliseront des logiciels du marché. Comment s’assurer que les protections de ceux-ci sont à jour17 ? Par ailleurs, une étude de la Lloyds chiffre à 120md$, le coût d’une attaque contre un grand fournisseur du cloud18 . Mais, il existe un risque plus sérieux. Notre société tend à s’organiser en réseaux (santé, production d’énergie…), eux mêmes reposant sur Internet. Or, les réseaux sont sujets au phénomène de « percolation19 ». Lorsqu’ils deviennent « hyper connectés », un simple hasard peut instantanément mettre le réseau hors service, et provoquer une catastrophe. Il est probable qu’Internet sera prochainement « hyper connecté ». La solution à un problème systémique est systémique. Les entreprises et les nations doivent combiner leurs forces pour éviter ces risques. Performance… numérique Avec Frederick Taylor, qui semble avoir été le premier à s’appeler « consultant en management », les sciences du management se posent la question de la performance20 . Depuis leurs origines, elles utilisent le même procédé. Elles observent les « meilleures pratiques » et les diffusent. Leur vocabulaire est celui des consultants. Ce travail est le « benchmarking », qui permet la « gestion de la 15 Hutchins, Cloppert & Amin, (2011) : ”Intelligence-driven computer network defense informed by analysis of adversary campaigns and intrusion kill chains “, Leading Issues inInformationWarfare & Security Research, 1, 80. (pp. 20– 22). 16 Un des exemples fameux des conséquences de cette interdépendance vient d’un sous-traitant de Toyota, en 1983. Il a été détruit par un incendie. Il était le seul à pouvoir fabriquer une pièce critique. On a cru un moment que Toyota ne s’en relèverait pas. Avec, en conséquence un Japon, et peut-être le monde, en crise. Toyota a été sauvé parla réactivité, et le génie !, de son écosystème. Mais l’affaire a été chaude. Le feu hier, un virus demain ? (Cité dans : WATTS, Duncan J., Six Degrees:The Science of a Connected Age, W. W. Norton & Company, 2004.) 17 Voir, par exemple, The Economist, du25 janvier 2015. 18 Lloyd's says cyber-attack could cost $120bn, same as Hurricane Katrina, The Gardian, 17 juillet 2017. 19 Pour une introduction à la question : Ouellette, Jennifer, The New Laws of Explosive Systems, Quanta Magazine, 14 juillet 2015. 20 Kanigel, Robert, The One Best Way:FrederickWinslow Taylor and the Enigma of Efficiency, Viking, 1998.
  9. 9. 9 connaissance » ou « knowledge management ». C’est pour cela que l’on a appelé les progiciels de gestion des « knowledgeware » : ils doivent diffuser les connaissances de l’entreprise. Au 19ème siècle, Frederick Taylor employait un chronomètre. Aujourd’hui, que ce soit un réseau de vente, ou une chaîne de production, la modélisation d’un processus économique exige au minimum une trentaine de variables. L’homme ne peut pas traiter une telle complexité. Le Smart Data ouvre de nouvelles perspectives à la quête de performance. Le Big Data travaille sur de gros volumes de données, le Smart Data brasse relativement peu de données, mais des problèmes combinatoires complexes. Par exemple, pour un processus de production modélisé par trente variables : pour éliminer les rebuts, quelles sont les variables pertinentes, et les plages de valeurs qui correspondent aux pièces de qualité ? Le Smart Data est utilisé pour rechercher des « anomalies ». Ces anomalies peuvent être négatives (fraude), ou positives (nouvelle tendance). Il ne trouve pas de solutions, mais il donne, à la personne compétente, une « intuition » de la solution. Le Smart Data est donc un outil d’enquête pour « décideur ». On parle peu de Smart Data. Pourtant,il y a là la perspective de gains de productivité considérables. Lean start up Depuis que Maurice Lévy a parlé « d’ubérisation », le mot est partout. Cependant, en termes technologiques, il recouvre une réalité modeste. La force d’un Uber ou d’un AirBnB est avant tout leur image de marque, due, comme celle de Coca Cola, à une énorme puissance marketing. Tout au contraire, la technologie qu’ils utilisent s’est démocratisée. Devant brasser des volumes de données hétérogènes colossaux, Google, en particulier, a eu recours à une logique différente de celle qu’avaient fait prévaloir les IBM, HP et autres Oracle. Il a bâti son système d’information autour de matériels peu sophistiqués, de logiciels en open source et du cloud. Cette nouvelle logique est à l’origine de ce que l’on a appelé la « lean start up ». Un individu, pour pas cher, et rapidement, peut bâtir un site de vente en ligne aussi sophistiqué que celui d’Amazon. De même, il n’est pas interdit à une association de taxis d’opérer une application de réservation, de même que les enseignants ont créé la MAIF, la CAMIF ou la MAE. En fait, le phénomène « lean start up » s’adresse surtout aux entreprises traditionnelles. Il est possible de re concevoir leurs processus à partir de technologies puissantes et qui coûtent peu. La location saisonnière en est un exemple. AirBnB a ébranlé le secteur. Mais l’écosystème du métier est en pleine recomposition. Il s’est lui aussi équipé. Du coup, une multitude de niches, très rentables, se sont révélées. Il semble donc que ce que l’on dit de l’I.A. et de Big Data corresponde aux grandes entreprises de la Silicon Valley. Mais un nouveau changement s’annonce, qui ne les concerne pas ou peu. C’est maintenant au reste de l’économie de profiter d’une démocratisation d’outils puissants et d’une impressionnante puissance de calcul, à bas coût. C’est, à n’en pas douter, la possibilité pour le talent individuel ou collectif de jouir d’un effet de levier formidable. Prospective : quelles contraintes structurelles des algorithmes actuels faudra-t-il lever en vue de progrès décisifs ? Dans cette partie plus mathématique nous voudrions proposer une réflexion en profondeur sur les problématiques d’évolution réelle de l’ « algorithmique » actuelle. Les progrès récents sont tributaires de progrès datant des années quatre-vingts et d’améliorations des performances de calcul. Mais pour l’avenir, l’évolution réelle se trouve obérée par cinq antinomies structurelles. Toute réflexion devra d’une manière ou d’une autre en tenir compte et les résoudre si l’on souhaite réellement déboucher sur des ruptures. Ces antinomies sont les suivantes : 1. antinomie entre problèmes « supervisés » et problèmes « non supervisés ». 2. antinomie entre la « connaissance a priori » de la population ou du problème à étudier versus la « non connaissance a priori de la population » ou du problème à traiter.
  10. 10. 10 3. antinomie (partielle) entre « complexité » d’un problème et « taille » ou « volume » du dit problème au niveau de la quantité des données associées. 4. antinomie entre les approches « data driven » et les approches« hypothesesdriven ». 5. antinomie entre traitements desdonnées « hétérogènes » et données « homogènes ». Ces antinomies peuvent s’ajouter et rendre encore plus difficile l’application des techniques d’I.A. et de Big Data/ Big Analytics. Analyser des données non homogènes dans une approche non supervisée, pour des problèmes de complexité maximale (problèmes NP complets) est le summum d’une telle addition de difficultés. Cette situation se produit pourtant souvent et nul doute alors, qu’à défaut de traiter le vrai problème initial, on sera obligé de tenter des approximations simplificatrices (« heuristiques »). Antinomie entre problèmes « supervisés » et problèmes « non supervisés ». Dans le cas de problèmes dits « supervisés » on connaît a priori ce que l’on cherche à mettre en évidence, par exemple : le fait de devoir discriminer entre « bons » et « mauvais » payeurs potentiels, durant la phase d’octroi de prêts bancaires (« credit scoring ») suppose implicitement qu’on sache définir ce qu’est un « bon » payeur versus un « mauvais » payeur. Autre exemple, dans le domaine médical, discriminer entre « tumeurs malignes » ou « tumeurs bénignes » après une pré-caractérisation, donnée par des experts médicaux, d’après divers examens d’histopathologie, ou plus généralement entre des configurations dites « normales », opposées à des configurations jugées « anormales ». Cette approche qu’on peut qualifier de « recherche d’anomalies » est une situation que l’on rencontre typiquement en cyber-sécurité, par exemple, où les anomalies (ou encore les a-normalités), en général nombreuses, peuvent correspondre à des « intrusions dans les systèmes », des virus ou « malwares », des « dénis de services », des « menaces persistantes », par opposition aux flux « normaux », en beaucoup plus grand nombre heureusement, etc. Dans ce type de cas, la machine va effectivement apprendre vite et efficacement les bonnes frontières de décision (disons les bonnes pratiques) et donner des résultats qui seront d’autant meilleurs que l’on aura beaucoup de données disponibles labellisées ou indexées, des machines puissantes, et peu d’ambiguïté sur les choix décisionnels possibles (même s’il faut alors minimiser le nombre de fausses alarmes qui pourraient rendre caduc le principe de précaution associé). Dans cette configuration on parle effectivement d’approches « supervisées21 ». Le « machine learning » est parfaitement adapté22 aux approches « supervisées », en particulier sa composante fondée sur les « réseaux neuronaux » de nouvelle génération (« Deep Learning ») : avec des résultats remarquables dans le domaine de la « reconnaissance de caractères », de la « traduction automatique », de la « discrimination entre images », etc. Soit, a contrario, on n’a pas une idée précise de ce que l’on cherche, juste une connaissance partielle de l’univers d’analyse. Dans ce cas on se sert alors du processus de collecte, d’exploration et d’analyse 21 Prenons, par exemple, le cas du logiciel juridique « Predictice » utilisant l’I.A et le Big Analytics (voir le Figaro du samedi 6 Mai 2017). Il est utilisé en test auprès des cours d’appel de Rennes et Douai. S’appuyant sur les cas de jurisprudence (approche supervisée pure, et uniquement dans les contentieux civils à ce stade), il permet de choisir les bonnes stratégies de défense en fonction des juridictions et il permet de révéler aux juges l’étalonnage de leur décisionet leur contributions à la jurisprudence . Il sera sans doute généralisé, car efficace, dans un avenir proche. L’idée sous-jacente dans Predictice n’est pas nouvelle cependant, une approche d’étalonnage des juridictions, et de comparaisons des peines avait déjà été envisagée par l‘éminent criminologue Jacques Leauté (mort en 1994) dans une approche fondée sur un algorithme de régression et de clustering mathématique relationnel, approche qu’il avait élaborée avec des chercheurs du Centre Scientifique d’IBMFrance en 1982. 22 L’actuel Directeur du Laboratoire de Recherche Facebook, Yann Le Cun, avait d’ailleurs montré, il ya un certain temps, l’intérêt des réseaux de neurones avec « apprentissage supervisé » dans la reconnaissance de caractères : Y. Le Cun, B. Boser, J. S. Denker, D. Henderson, R. E. Howard, W. Hubbard and L. D. Jackel: “Handwritten digit recognition with a back- propagation network”, in Touretzky, David (Eds), Advances in Neural Information Processing Systems (NIPS 1989), 2, Morgan Kaufman, Denver, Colorado,1990), poussé dans cette voie par son Directeur de Thèse à Paris VI, Patrick Gallinari (voir F. Fogelman-Soulié, P. Gallinari, Y. LeCun and S. Thiria): « Automata networks and artificial intelligence », in Automata networks in computer science, Theoryand applications, 133-186, PrincetonUniversityPress, 1987).
  11. 11. 11 des données, pour, au fond, se définir le problème que l’on pourrait avoir à résoudre. Et ceci est fait en même temps que l’on explore les données disponibles sans hypothèses préalables. On est alors dans le cas d’approches « non supervisées ». Dans ce cas, la machine ne trouve pas des solutions, mais va nous aider à nous poser la (ou les) bonnes questions, permettant de définir un vrai problème à résoudre, compatible avec les contraintes que nous avons à satisfaire et les données que nous avons à notre disposition. Ceci permet de définir un problème que nous n’avions pas tout à fait envisagé ou imaginé au départ. En gagnant en connaissance et en précision sur l’environnement que l’on veut étudier, on se retrouve peu à peu dans le cas d’un pseudo problème « supervisé » et les algorithmes adaptés au cas précédent reprennent tout leur sens. En fait, seul l’homme peut décider du problème réel à résoudre, en lui donnant un type (une caractérisation) et de facto en proposant une collection d’algorithmes ou de méthodes adaptés et associés. Or les situations « non—supervisées » sont fréquentes dans l’univers de l’économie, ce qui risque de freiner considérablement l’extension de l’I.A. Antinomie entre la « connaissance a priori » de la population ou du problème à étudier et la « non connaissance23 a priori de la population » ou du problème à traiter. Connaissons-nous réellement la population que nous voulons analyser ? En effet, ne pas connaître une population a priori, en utilisant des outils qui supposent des lois apprises sur le passé ou sur d’autres populations, soi-disant similaires, peut conduire à des erreurs drastiques. Prenons l’exemple familier des sondages. Nous avons tous en tête les résultats récents catastrophiques des prévisions pendant les primaires de la droite et de la gauche des élections présidentielles en France. La raison en était une connaissance trop parcellaire et incomplète de la part des instituts de sondage des futurs votants dans ces nouveaux types d’élections. En revanche les résultats ont été, miraculeusement ?, de nouveau satisfaisants dans des contextes connus par eux. Les situations électorales conventionnelles font appel à une connaissance de la population dont les bases sont solides car sa stratification est fournie par les recensements INSEE que possèdent tous les instituts de sondage. A l’inverse les soi- disant « spécialistes » utilisant des approches nouvelles du Big Data ont, eux, commis des erreurs de prévision très significatives en mélangeant de façon incongrue des sources disparates. Connaître une population à analyser, c’est essentiellement posséder beaucoup de données et d’informations sur elle, mais pas n’importe lesquelles : celles vraiment utiles à l’analyse. C’est encore mieux si les données associées ont été validées et « labellisées » sur des sous-ensembles témoins, qu’on a étudiés tout particulièrement et en profondeur, étape préalable à beaucoup de processus d’apprentissage. Une raison fondamentale aux succès de Google, Amazon et Facebook en I.A. / Big Data, c’est que non seulement ils ont des quantités gigantesques de données en leur possession, mais en plus des données labellisées (ce travail de labellisation ou d’annotation, fort coûteux est souvent fait, dans leur cas,avec l’aval, non conscient, de leurs propres clients)24 . La question se pose avec acuité dans le domaine de la « fraude » ou de « l’intrusion malveillante » dans les systèmes informatiques en cyber-sécurité. En effet dans le contexte de la fraude (qu’elle soit bancaire ou informatique par exemple) vous ne savez pas qui fraude ni comment il fraude. D’autre part les « signatures » des « fraudes ou virus » déjà connus, en d’autres termes leurs caractéristiques répertoriées, ont une durée de vie limitée et le propre des fraudeurs c’est d’inventer de nouvelles fraudes le plus fréquemment possible, en un processus de renouvellement perpétuel et de grandes conséquences néfastes peuvent en découler. 23 Par « connaissance » d’une population, on entend ici l’ensemble des paramètres intrinsèques permettant de la caractériseravec une assez bonne précision (taille, structure, moyennes, lois statistiques sous-jacentes, écarts maximaux entre valeurs,univers de descriptionsuffisant, etc.) 24 Typiquement la monstrueuse base de données images de Facebook est annotée en continu par les membres du réseau, fiers de leurs contributions !
  12. 12. 12 L’opposition (partielle) entre « complexité » d’un problème et « taille » ou « volume » du problème et ses données associées. La troisième question importante à se poser est la suivante : quelle est la vraie complexité des traitements algorithmiques? On peut montrer qu’il existe deux types de complexités, une complexité intrinsèque (ou combinatoire), dont la solution sera au mieux approchée, et une complexité extrinsèque, qui n’est en fait qu’un effet de masse soluble par la puissance de calcul et le découpage en sous-volumes plus faciles à traiter. Prenons un exemple mathématique simple de complexité intrinsèque. Soit un ensemble de dix mille objets (ce qui est un « petit nombre » pour l’approche Big Data / Big Analytics) : combien de partitions (ou de regroupements) peut-on faire de ces dix mille objets ? Réponse : environ dix à la puissance 23900 (1023900 ). Aucun ordinateur, même le plus puissant existant aujourd’hui, ne sera jamais capable de faire de tels calculs exhaustivement. Cette complexité « intrinsèque » est une contrainte incontournable, obligeant souvent à utiliser des méthodes « heuristiques » ou approchées pour résoudre partiellement ou de façon approximative le problème concerné. La complexité extrinsèque est généralement liée à la massivité des données. Avec un peu de chance, le problème pourra être modélisé par des calculs linéaires (c’est-à-dire dépendant de la taille de la population et non de son carré ou davantage) ou être découpé en sous problèmes indépendants de tailles très inférieures, ou enfin faire l’objet d’une réduction des dimensions de l’univers descriptif de sorte que chaque opération élémentaire soit relativement simple. Dans ces conditions on peut trouver des solutions et des méthodes de résolution dès lors que l’on dispose de machines puissantes et de bons algorithmes. Un exemple illustratif de ce type de complexité est le cas des réseaux sociaux (même si ces derniers obéissent à certains modèles théoriques de caractérisation25 , il est très difficile quand on a affaire un graphe de trois cents millions de nœuds et de quelques milliards de liens (Twitter) ou d’un milliard neuf cents millions de nœuds et quelques centaines de milliards de liens (Facebook) d’estimer le comportement ou la densité des clusters (les cliques réunissant des membres du réseau qui s’échangent plus d’informations entre eux qu’avec le reste de la population26 ). Quel intérêt présente un sondage effectué sur le réseau Facebook pour savoir de quoi parlent les gens entre eux, sans connaître partiellement le type de segmentation potentielle sous-jacente, ni avoir une idée de la structure du réseau? Aucun. En dehors de générer des banalités et des sottises. D’ailleurs attaquer le graphe dans sa totalité sans le découper en clusters de tailles gérables est une tâche vouée a priori à l’échec. Et il y a pire ! L’exemple le plus surprenant27 est sans doute celui de la mère de toutes les techniques d’analyse 25 Citons par exemple :le modèle « sans échelle » (Barabasi–Albert) ou le modèle « Petits Mondes » (Watts-Strogatz). 26 On voit ici tout l’intérêt d’isoler et d’analyser automatiquement ces « cliques » ou « clusters » regroupant des gens qui ont l’habitude de s’échanger souvent de l’information (en tout cas plus qu’avec le reste des autres membres du réseau) dans la recherche de « foyers terroristes » (approche « Counter Terrorism » des Anglo-saxons) ou de « tenants de comportements déviants » (pédophilie). Avec augmentation de la facilité de l’interprétation du « cluster » dès qu’un membre dugroupe a déjà été « marqué » et reconnu auparavant. 27 Elle est viciée par nature ! Aujourd’hui, les individus à analyser (au sens statistique) sont représentés par leurs caractéristiques descriptives. Un client sera décrit par ses descripteurs « bio-sociologiques » (son profil),exemple :son sexe, son âge, son lieu de résidence, son métier, son niveau d’éducation, son nombre d’enfants, etc. Si l’on veut regrouper (segmenter) ces clients en classes de similarités de profils on est amené, a priori, à regrouper des gens qui se ressemblent fortement tout en les séparant de ceuxqui appartiennent auxautres classes. Ce principe de « regroupement-séparation » conduit implicitement à un mode de segmentation (« clustering ») obéissant au théorème de Huygens (qui implique que la meilleure décomposition en groupes distincts est celle où tous les individus sont isolés). Il en résulte que la meilleure de toutes les segmentations est celle qui aboutit à la segmentation triviale : un segment parindividu ! Autrement dit pas de segmentation du tout. Alors, que fait-on ? On fixe arbitrairement le nombre de K de segments, approches dites « K- means »! Et c’est comme cela que l’on rate les segments émergents ou rares, ceux qui peuvent avoir un intérêt particulier et discriminant dans certains cas, quel que soit le domaine : Marketing, Médecine, Cyber-sécurité, Renseignement, Pharmacodynamique, Sociologie, etc. C’est comme cela que les sondeurs ratent les mouvements souterrains qui transforment les sociétés, et que les entreprises passent à côté des innovations ou des différentiateurs. Or, il existe des approches oùl’onpeut s’éviter de fixer a priori et à l’avance le nombre de classes d’une segmentation, il faut lesutiliser !
  13. 13. 13 de données : la « segmentation » ou décomposition de la problématique de départ en classes de ressemblance de profils (voir note de bas de page). Pour faire ce travail préalable, il faut mobiliser des algorithmes et des mathématiciens de haut niveau. L’opposition entre les approches « data driven » et les approches « hypotheses driven ». Dans ce cas, le plus important est de comprendre que nous vivons un changement de paradigme qui est finalement l’une des caractéristiques majeures du Big Data, son nom : le mode « data driven ». Jusqu’ici il était question de ce que les anglo-saxons appelaient le mode « hypotheses driven ». Vous partiez d’un modèle théorique que vous paramétriez ou que vous ajustiez à la réalité. Exemple simple : mesure de la taille dans une population donnée d’individus. Depuis A. Quetelet et F. Galton, on sait que la courbe des tailles est, approximativement, une courbe en cloche, dite courbe de Gauss (ou courbe Normale). A partir d’un recensement ou d’une collecte de données, sur une large population, on va essayer de trouver les paramètres clefs de cette courbe (moyenne, écart type, etc.) qui interviennent dans son expression mathématique, et, dès lors on aura une traduction semi explicite de ce que nos données suivent comme modèle. Le data driven, lui, ne fait pas d’hypothèses. Le domaine de la « fraude » que nous avons présenté plus haut est un exemple d’une question inaccessible, sauf cas particuliers, à l’« hypotheses driven ». On en arrive alors à ce qui n’a pas été bien compris. Notre inconscient est modelé par les méthodes adaptées à une exploitation et une exploration des données, orientées par les approches statistiques usuelles et historiques. Elles sont souvent fondées sur un univers de description où l’on supposait a priori des lois naturelles ou des comportements moyens, largement étudiés et validés en s’appuyant sur des lois ou des théorèmes fondamentaux (Loi normale, Loi des grands nombres, Théorème Central Limite, Théorème de Donsker, Théorème de Glivenko- Cantelli dit « théorème fondamental de la statistique »), elles sont parfaitement valables en univers de connaissance étalonnée des populations étudiées, mais pas du tout quand la population est quasi infinie et changeante dans le temps ou non définie explicitement (cas déjà vu des élections primaires). Ceci arrive de plus en plus désormais, dans l’approche du « vrai Big Data ». Cependant, le data driven a aussi ses limites... Certains ont assuré que par des approches plus descriptives que modélisatrices, fondées sur des processus de transferts, de simplifications par couches successives bref d’apprentissage (par exemple réseaux de neurones profonds : convolutionnels ou récurrents) on évitait l’obligation de passer par le principe des hypothèses prédéfinies, en laissant les données s’auto-adapter aux hypothèses latentes. Les problèmes se situent alors plutôt sur les limites inhérentes28 à ces techniques de « deep learning ». Une illustration archétypale représentative de tels principes d’auto-adaptation se retrouve dans les réseaux de neurones dits « auto-encodeurs » (ou encore du fait de leur forme : réseaux « diabolos », ou « sabliers ») où l’on propose comme données de sorties du réseaux (c’est-à-dire les résultats à classifier) les données mises en entrée du réseaux (les données de départ), le but du jeu étant de trouver la couche minimale (en nombre de nœuds) dite « couche d’abstraction » résumant de façon optimale (tout en étant réduite) l’univers d’analyse à considérer réellement. Les « auto-encodeurs » sont d’ailleurs préconisés pour faire du « préapprentissage », qui consiste à apprendre de manière « non supervisée » en « Deep Learning » les couches intermédiaires du réseau maître, les poids ainsi obtenus par l’auto-encodeur servant d’initialisation pour le réglage plus fin du réseau maître. Ces palliatifs servant aux préapprentissages donnent de très bons résultats lorsque l’on a de très bonnes bases de données labellisées29 (c’est-à-dire pré-étalonnées), mais ils ne marchent pas dans tous les cas, nombreux, où la stratification de l’univers de description est partielle ou assez mal connue. L’opposition Data Driven / Hypotheses Driven est une sorte de méta dualité par rapport à celle opposant surpervision et non supervision. Philosophiquement, ne dit-on pas que le changement vient 28 Initialisation aléatoire des poids du réseau, rétro propagation de l’erreur sur toutes les couches, difficulté de constituer d’importantes bases de d’apprentissage labélisées (entrainant le « sur-apprentissage » ou la « mauvaise généralisation » ), complexité des architectures, et manque d’adaptabilité aux structures « vraiment » non supervisées. 29 Voirles travaux de Yann Le Cun sur la reconnaissance de caractères, ou désormais sur la reconnaissance d’images chez Facebook ou ceux de Yoshua Bengio au Canada.
  14. 14. 14 des marges ou des valeurs extrêmes, les statisticiens diraient des « outliers » ? Le « data driven » nous permet de trouver ce que nous ne cherchons pas, parce que nous ne le soupçonnions pas. Et voilà pourquoi c’est une innovation révolutionnaire, à condition d’en exploiter réellement les possibilités. L’opposition entre traitements des données « hétérogènes » et données « homogènes ». On aborde ici l’opposition qui régit la difficulté intrinsèque de fusion d’informations selon qu’elles sont homogènes ou hétérogènes lors de l’application d’algorithmes qui sont souvent, on l’a vu dans l’introduction, rarement génériques. Pour résumer, les cas apparemment spectaculaires de progrès de l’I.A., comme les (encore futures) voitures autonomes, reposent essentiellement sur la fusion de données quasi homogènes, relativement faciles à combiner ou à agréger. L’hétérogénéité signifie, par exemple, que les algorithmes d’apprentissage ou de big analytics qui travaillent sur les données textuelles ou audio, ne sont pas adaptés aux données images, les méthodes adaptées au traitement de signal, sont rarement capables de prendre en compte des données qualitatives et binaires en simultané et vice versa. Par définition, des algorithmes traitant simultanément de la parole, de l’image, du signal, des données de comptage / fréquences, du qualitatif hiérarchisé et des données binaires au même niveau de pondération n’existent pas encore. Ceci permet d’étalonner la différence entre le spectaculaire et le fonctionnel. Prenons au contraire l’exemple de la fameuse « voiture autonome » (sans chauffeur), dont on a déjà parlé, bardée d’électronique et de programmes d’Intelligence artificielle et de Data Analytics. Les données analysées (ici dans un contexte de temps réel) sont essentiellement des données de signal (signaux radar, lidar, vidéo, GPS, caméra infrarouge, signaux sonores, etc.), qui, du fait de leur homogénéité structurelle liée à leur nature de signal, peuvent être fusionnées et étalonnées en mode de compatibilité, lors de processus d’apprentissage. C’est ce qui permet de déterminer des règles de décision opportunistes (freinage, ralentissement, écart, virage, parking etc.) qui doivent être prises lors du déplacement du véhicule. Le cas de la « voiture autonome » est donc spectaculaire, mais il est loin d’être le plus compliqué intrinsèquement. Mais seulement, bien sûr, dans un univers où toutes les voitures seraient toutes autonomes ; car, et c’est là que le bât blesse, si l’on fait entrer l’homme dans la boucle (l’homme qui peut être un piéton ou un chauffeur imposé), il va ajouter des paramètres « qualitatifs » peu étalonnables avec ses décisions et ses comportements imprévisibles, qui vont très sérieusement compliquer le contexte pratique. L’agrégation de données hétérogènes se rencontre fréquemment dans les problèmes d’affectation d’objets à des classes, exemple type : les diagnostics médicaux multidimensionnels de patients ou l’affectation à des protocoles de soin, etc. Le système doit travailler sur des scores (« grading functions ») précis liés à des seuils de similarité calculés par comparaison de profils sur variables hétérogènes. Ces variables hétérogènes sont de nature très différente (mélange de données quantitatives, fréquentielles, binaires, qualitatives nominales, etc.) de ce fait, on est toujours bloqué par l’obstacle de la fusion30 sans biais des données. Tout ceci explique que le diagnostic médical et l’I.A., même si l’on sent qu’à terme on les verra imbriqués totalement, sont encore des domaines de test (on parle d’expériences avec Watson31 d’IBM sur le cancer du poumon). Mais il faudra franchir 30 Pour comprendre la difficulté intrinsèque de ce problème qui semble simple a priori supposons que nous comparions des malades atteints de mélanomes malins cutanés, pour les affecter par groupes à des protocoles de soins différenciés selon trois critères :le sexe, l’épaisseur du grain de beauté (selonle niveau d’invasion de Clark 5 valeurs), et l’âge du malade en 9 tranches : 0-15, 15-25, 25-35, 35-45, 45-55, 55-65, 65-75, 75-85, >85. Supposons alors que l’on compare deux profils le Malade n°i = (Homme, Niveau 4, Age 7) et le Malade n°j = (Homme, Niveau 3, Age 6), il apparait à l’évidence que le sexe a un poids plus fort que le niveau d’invasion de Clark, lui -même ayant un pouvoir de similarité plus fort que le paramètre âge. En effet en supposant que les modalités de chaque variable soient équi-réparties, il y a une chance sur 2 que le Malade i et Malade j soient similaires , c’est-à-dire aient le même sexe, 1 chance sur 5 (1/5) qu’ils aient le même niveau de Clark, 1 chance sur 9 (1/9) qu’ils aient le même âge. Ce biais doit être corrigé sinon l’on écrase et l’on biaise lourdement les résultats, qui pourtant sont vitaux pour le malade. Deux façon de faire :la régularisation de la similarité ou la représentationspatiale par changement d’espace, recodage et normalisation. 31 Test effectué en 2012 auMemorial Sloan-Kettering Cancer Center de New York, Watsona pu diagnostiquer uncancer du poumonavec untaux de succès de 90%, contre 50% pour un médecin. L’intelligence augmentée avait intégré 600 000 données médicales, 2 millions de pages issues de revues spécialiséeset les dossiers de 1,5 millionde patients.
  15. 15. 15 quelques écueils. Dans l’exemple IBM, le temps d’apprentissage du moteur Watson, vue la quantité d’informations qu’il a fallu lui faire assimiler, est sans doute fort long. L’approche par régularisation de similarité comme aide au diagnostic du médecin décisionnaire est encore et toujours plus efficace, à la fois en temps, et via l’automatisme contrôlé par l’homme et les pouvoirs explicatifs et interprétatifs sur les relations de corrélation et de causes à effets que les approches statistiques avancées peuvent permettre d’obtenir32 . En conclusion l’hétérogénéité des données estencore unobstacle, qu’onle veuilleounon. Conclusion Ces réflexions nous amènent à deux conclusions. Le court terme. Ce que l’on entend généralement sur I.A. et Big Data n’est applicable qu’à un petit nombre de très grandes entreprises, généralement situées aux USA. Il y a, aujourd’hui, matière à une révolution du type de celle qui a créé le GAFA, mais totalement différente. Elle concerne l’ensemble des acteurs de l’économie et de la société, entreprise traditionnelle, individu, association… Elle est à base de Smart Data, de boîte à outils pour « lean start up », de cloud… Elle ne coûte pas cher, mais elle demande du travail, et du talent. Nous avons tous une chance à saisir. Le long terme. Effectuer une réelle percée dans le domaine de l’I.A. et du Big Data est ardu. Cependant, celui qui y parviendra peut acquérir un avantage considérable. Et ce dans de très nombreux domaines, qui vont de l’économie à la sécurité nationale. Comme nous l’avons vu dans ce texte, les trois piliers de la réussite en matière d’I.A. et de Big Data / Big Analytics reposent sur la puissance nouvelle des machines, l’abondance de données labellisées accessibles facilement et la qualité des algorithmes utilisés. Ce dernier point pose implicitement la question du niveau des concepteurs des algorithmes qui seront développés. En France nous avons la chance d’avoir des mathématiciens et statisticiens d’un niveau supérieur à ce qui se trouve ailleurs, excepté aux USA. Il faut conserver nos innovateurs mathématiciens. Il faut les motiver avant qu’ils ne désertent nos Centres de recherche ou qu’ils n’aillent pratiquer leur talent dans les laboratoires d’entreprises étrangères (Facebook, Microsoft, Huawei, etc.). Il est important d’en avoir conscience avant qu’il ne soit trop tard, afin d’éviter de se retrouver, pour les domaines que nous venons d’évoquer, dans la même situation que celle où nous nous trouvons aujourd’hui en ce qui concerne toute l’industrie informatique (matériels et logiciels). 32 N’oublions pas ici que l’un des reproches faits aux algorithmes d’apprentissage fondés sur des modèles neuronaux par couches profondes est le côté « boîte noire » de ces techniques, qui est une conséquence intrinsèque de la façon dont ils procèdent. En médecine mais également dans les processus de décisions de tir, par exemple dans le domaine militaire, la non possibilité d’interpréter une décision via une compréhension profonde d’une situation ou d’un état de fait est difficilement compatible avec certaines doctrines et règles déontologiques.

×