Support de la présentation sur les objets connectés, l'intelligence artificielle et le Big Data de Romain Willmann. Elle a été prononcée pour la première fois le 7 février 2018 pour les programmes PGM et AMP d'emlyon business school.
Kevin Ashton, directeur exécutif du
Auto-ID Center (MIT)
I could be wrong, but I'm fairly
sure the phrase Internet of
Things started life as the title of a
presentation I made at Procter &
Gamble in 1999
Une demande forte
Taille du marché
(dollars)
591
milliards
13 000
milliards
Appareils
connectés
9,7
milliards
25
milliards
2014
2020
Secteur Nombre d’appareils
connectés (2016 -2017)
Industrie +84%
Finance & assurance +61%
Energie +41%
Transport et distribution +40%
Secteur public (smart city) +19%
Médical +11%
Une demande stable
Volume Variété
Vélocité Variabilité
Requiert une
infrastructure de
stockage, manipulation
et analyse
Guerre des V : véracité,
valeur, volatilité,
validité, etc…
Qu’est-ce que le Big Data?
Métadonnées
Données
Donnée non-structurée
Près de 90% des données
Sens difficilement compréhensible par une
machine (image, son, texte…)
Valeur énorme pour les entreprises
Donnée structurée
Sens immédiat pour une machine
Produite par les machines ou mises en forme
(bases de données)
Base de l’informatique mais pauvre en sens
Les formes de données
Année Coût moyen de 1Go (en $ constants)
1980 437,500
1985 105,000
1990 11,200
1995 1,120
2000 11.00
2005 1.24
2010 0.09
2013 0.05
2014 0.03
2015 0.022
2016 0.019
Emergence du
Cloud (AWS, 2006)
dont le prix baisse
constamment
Progrès logiciels :
NoSQL,
compression…
Une hausse continue des capacités de stockage
Démocratisation
de la
technologie
Progrès
économique
Convergence
des modes de
vie
Numérisation
des sociétés
En 2017, chaque minute sur : Il se passe
Amazon 258K$ de produits achetés
Google 3,6M recherches
The Weather Channel 18M de requêtes traitées
Skype 154K appels lancés
Snapchat 527K photos partagés
YouTube 4,1M de vidéos regardées
Une production croissante de données
A moyen terme, toute la population mondiale sera
reliée à Internet (2012 : 2,5Mds de personnes reliées
à Internet; 2017 : 3,7Mds)
Collecte
Préparation
Analyse
Action
Emergence d’un nouveau paradigme scientifique
Data science is the extraction of actionable
knowledge directly from data through a
process of discovery, or hypothesis
formulation and hypothesis testing
Discipline hybride:
mathématiques,
statistiques,
économétrie…
Importance de la
modélisation
Doctrine assez
présente dans
l’industrie
Paradigme
technique, social
et économique
Solutionnisme
technique
Le Big Data comme fin en soi : le dataism
An obsession with data has led to
the idea that good data handling
can provide infinite results
without other types of planning -
David Brooks
Artificial Intelligence is
the science and
engineering of making
intelligent machines
- John McCarthy, 1956
Perception Apprentissage
Abstraction Raisonnement
Définition
IA faible, IA
forte
Transposition
de la loi de
Moore à l’IA
Amélioration
récursive puis
conscience
It is an idea mostly believed by
people not working in artificial
intelligence. People like the
philosopher Nick Bostrom, and
the futurist and inventor Ray
Kurzweil
- Pr Toby Walsh
La peur de la Singularité
La machine explore des cas spécifiques
Le programme contient des règles qui
représentent la connaissance dans un
domaine spécifique
L’expertise est créée
par l’humain
Capacité de
raisonnement dans un
cadre nettement
délimité
Pas d’apprentissage et
mauvais traitement de
l’incertitude
Phase 1 : traitement procédural
Le modèle propose des solutions statistiques
qui s’affinent dans le temps
Perception Apprentissage
Le modèle est entraîné sur un
gros volume de données
L’homme crée un modèle statistique
appliqué à un domaine
Requiert une bonne compréhension du
domaine (corpus)
Capacités de
classifications
nuancées et de
prédiction
Aucune adaptation
contextuelle et
faible capacité de
raisonnement
Phase 2 : apprentissage statistique
Construction de
modèle pour
expliquer des
phénomènes
Adaptation
contextuelle
Limites techniques
fortes : chaos,
hasard…
Limite dans la
compréhension
humaine du
monde
Le futur : l’IA généraliste
Notes de l'éditeur
Photo : anna sondej
Romain Willmann, étudiant & intervenant à emlyon business school.
Classes préparatoires puis Programme Grande Ecole, parcours Droit. Passion pour l’informatique depuis l’âge de 13 ans.
Publication d’un ouvrage aux Editions Ellipses sur le développement Web : https://www.amazon.fr/Apprendre-Applications-Javascript-Node-Js-Mongodb/dp/2340016789/
Une formation complète à la cybersécurité est disponible en distanciel : https://www.unow.fr/formations/sensibilisation-cybersecurite/
Contact :
Twitter : @rwillmann
LinkedIn : https://www.linkedin.com/in/rwillmann/
YouTube : https://www.youtube.com/channel/UCtBXgnQ5Rmx87yNT1Os83mg/
Mail : romain-willmann@edu.em-lyon.com
Photo : Annie Spratt
Photo : Annie Spratt
Kevin Ashton est le co-fondateur et directeur exécutif du Auto-ID Center
Citation: I could be wrong, but I'm fairly sure the phrase "Internet of Things" started life as the title of a presentation I made at Procter & Gamble (P&G) in 1999. Linking the new idea of RFID in P&G's supply chain to the then-red-hot topic of the Internet was more than just a good way to get executive attention. It summed up an important insight—one that 10 years later, after the Internet of Things has become the title of everything from an article in Scientific American to the name of a European Union conference, is still often misunderstood.
Source : http://www.rfidjournal.com/articles/view?4986
Photo: YouTube, https://i.ytimg.com/vi/nWHV3fNnKZQ/maxresdefault.jpg
Tout objet connecté repose sur le principe ETS : entrée, traitement et sortie de l’information. L’IoT est plus ou moins inséparable de l’électronique et n’est pas une apparition récente. Premier appareil connecté stricto sensu: 1832, Samuel Morse et son télégraphe
Trois composants fondamentaux :
Les capteurs collectent de l’information d’un environnement. Parfois nommé générateurs de signaux, sondes ou transducteurs de mesure mais surtout pas senseur qui est une mauvaise transposition de l’anglais sensor.
Le contrôleur agrège et structure l’information et agit ou non sur l’actionneur
La sortie se fait par les actionneurs (ou actuateurs qui transforment l’information en action sur l’environnement
Autres composants : source d’énergie (pile, batterie…) et interface de communication (réseau, radio…)
Photo: Blocks par Mark Sze , https://www.flickr.com/photos/marksze/4189330457/
Un exemple de contrôleur « grand public »: l’Arduino Uno. Coûte une quinzaine d’euros et permet de contrôler plus ou moins n’importe quel composant électronique
Photo: Arduino par Laura Barrio, https://www.flickr.com/photos/hachimaki123/27122209534/
Un exemple autre exemple de contrôleur « grand public »: Raspberry Pi. Coûte une quarantaine d’euros et est beaucoup plus complet que l’Arduino. Véritable système informatique (Linux) qui peut être utilisé comme un ordinateur.
Photo: Raspberry Pi, https://www.flickr.com/photos/gijsbertpeijs/7988262046/
Modèle proposé par le NSIT, organisme américain de formalisation de la technologie, en juillet 2016. Ce modèle ne dépend d’aucune technologie et est transposable à tout objet connecté (SCADA avec un contrôle électromécanique par exemple)
Source : NIST Special Publication 800-183 , Networks of ‘Things’. Disponible en ligne : http://nvlpubs.nist.gov/nistpubs/SpecialPublications/NIST.SP.800-183.pdf
Citation : The model's five building blocks, called "primitives," are core components of distributed systems. They provide a vocabulary to compare different NoTs that can be used to aid understanding of IoTs. Let's use an example of a simple NoT in a home to understand the primitives. The NoT is programmed to turn off the overhead light if no one is in the living room. The first primitive is a sensor, in this case a motion detector, that measures physical properties. The second primitive, a communications channel, transmits the data from the motion sensor to an aggregator primitive. The aggregator is software that processes the sensor's raw data into information using an external utility primitive such as a laptop computer. The decision-trigger primitive determines whether or not the light should be turned off.
Photo : Night view at Cargo Pier, Kennedy Town, Hong Kong par james j8246, https://www.flickr.com/photos/127437870@N08/15766933722/
Si le développement de l’IoT est une tendance longue, apparaissant finalement dès le début de l’électronique, le concept se développe très fortement depuis 2010. S’explique principalement par la disparition de tous les obstacles techniques à la généralisation de l’IoT. 3 principaux facteurs:
Conjecture de Moore (env. 1971) : le nombre (et la puissance) d’un processeur double plus ou moins tous les 18 mois. Assure en tout cas de bénéficier de systèmes de plus en plus intelligents, petits, puissants et économiques
Loi de Meltcafe (inventeur de l’Ethernet) : L’utilité d’un réseau est proportionnelle au carré du nombre de ses utilisateurs. Un réseau devient de plus en plus intéressant à exploiter lorsque son nombre de membres augmente. Marche aussi dans l’autre sens : condamne le Minitel et le fax lorsque leur nombre d’utilisateurs est fortement limité ou décroît
IPv6 : permet de connecter un appareil sur Internet en lui donnant une adresse IP. La version précédente (IPv4) limitait le nombre total d’appareils connectés simultanément à 4 milliards. IPv6 en autorise 10^38 (500+ millions de milliards d’appareils connectés par cm² sur la Terre). Principal effet : plus de limite au nombre d’objets connectés
Les deux lois relèvent plus de prophéties auto réalisatrices, qui ont eu pour effet de faciliter le financement de la R&D informatique et assurer son expansion.
Sur la loi de Moore, lire notamment : http://www.wired.co.uk/article/wired-explains-moores-law
Photo: RAF Reaper MQ-9 Remotely Piloted Air System, https://www.flickr.com/photos/defenceimages/5755016315/
Source : Verizon, State of the Market THE INTERNET OF THINGS 2015 Discover how IoT is transforming business results.A noter que Verizon est extrêmement conservateur sur le nombre d’appareils connectés en 2019. IDC mentionne ainsi 250 milliards d’appareils. L’hypothèse de Verizon est néanmoins maintenue en 2018.
Photo :
RFID
Judith Klein
https://www.flickr.com/photos/juditk/4698846693
Source : Verizon, State of the Market THE INTERNET OF THINGS 2017 Making way for the enterprise De manière amusante, les secteurs les plus médiatisés (smart city, médical) sont assez peu moteurs. Ceci s’explique en partie par le fait que l’IoT favorise les secteurs capitalistiques et qui disposent des capacités financières pour y investir. La finance est un secteur traditionnellement à la pointe de la technologie (carte de crédit, ATM, câble transatlantique en 1858, fibre optique, HTF, risques & fraudes, cryptomonnaies…).
Le marché est ainsi tiré par les investissements du secteur inductriel. Le rapport estime que l’industrie mondiale a investi 183 milliards de dollars en IoT en 2017, le transport a investi 85 milliards et le secteur des utilities, 66 milliards
Photo: Factory par Peter Miller, https://www.flickr.com/photos/pmillera4/9488100837
Sur la sécurité des objets connectés, voir mon intervention : https://youtu.be/tgA0jXKnxuw
Sur la règlementation, lire : https://krebsonsecurity.com/2017/08/new-bill-seeks-basic-iot-security-standards/
Photo : Brandon Mowinkel
Photo : Annie Spratt
Référence : http://nvlpubs.nist.gov/nistpubs/SpecialPublications/NIST.SP.1500-1.pdf (septembre 2015)
Citation : Big Data consists of extensive datasets primarily in the characteristics of volume, variety, velocity, and/or variability that require a scalable architecture for efficient storage, manipulation, and analysis
La definition du NIST est une reprise du modèle proposé par Gartner (ajout de la variabilité). Les 4 V sont donc:
Volume : taille du jeu de données
Variété : types et provenance des données
Vélocité : fréquence d’acquisition et de mise à jour des données
Variabilité : possibilité de changer des éléments
Si ces quatre éléments sont réunis, on peut légitimement parler de Big Data. A noter: aucun de ces quatre éléments n’est défini de manière quantitative ou qualitative.
Guerre des V : de nombreux acteurs ont enrichi / prolongé cette definition en ajoutant un ou plusieurs V, notamment : véracité (exactitude de la donnée), valeur (rareté et utilité des données), validité (de la donnée dans un contexte donné) ou volatilité (changement de la donnée dans le temps).
Photo : Florian van Duyn
Référence :
Citations :
One important concept to Big Data is metadata, which is often described as “data about data.” Metadatadescribes additional information about the data such as how and when data was collected and how it hasbeen processed. Metadata should itself be viewed as data with all the requirements for tracking, changemanagement, and security. Many standards are being developed for metadata, for general metadatacoverage
Semantic metadata, another type of metadata, refers to the description of a data element to assist withproper interpretation. An ontology can be conceptualized as a graphic model, representing a semanticrelationship between entities.
Taxonomies represent in some sense metadata about data element relationships. Taxonomy is ahierarchical relationship between entities, where a data element is broken down into smaller componentparts.
Sur les données non-structurées, voir : https://www.webopedia.com/TERM/U/unstructured_data.html
Photo : Matthew Henry
Source du coût de stockage : https://www.statisticbrain.com/average-cost-of-hard-drive-storage/ (2 septembre 2016)
Sur la baisse tendancielle des coûts du Cloud, lire : http://www.businessinsider.fr/us/cloud-computing-price-war-in-one-chart-2015-1/?op=1
Sur l’amelioration des outils de compression, lire : http://techmeup.net/history-data-compression-infographic/
Quelques dates : LZ77 (compression avec dictionnaire, 1977), LZW (utilisé dans les modems, 1980), ZIP et MP3 (1989), PNG (1996)…
Voir la série Silicon Valley sur l’importance de la compression
Référence : http://nvlpubs.nist.gov/nistpubs/SpecialPublications/NIST.SP.1500-1.pdf (septembre 2015)
Citation : estimates show that the amount of data in the world doubles every two years. Should this trend continue, by 2020 there would be 500 times the amount of data as existed in 2011. The data volumes have stimulated new ways for scalable storage across a collection of horizontally coupled resources.
Sur les statistiques, voir notamment : https://www.socialmediatoday.com/technology-data/how-much-data-generated-every-minute-infographic
Sur l’accumulation, la citation d’Eric Schmidt : http://www.kurzweilai.net/eric-schmidt-every-2-days-we-create-as-much-information-as-we-did-up-to-2003
Photo : Redd Angelo
Référence :
Photo : Umari Bethan
Sur les faux-semblants du Big Data : https://www.newyorker.com/tech/elements/how-to-call-bullshit-on-big-data-a-practical-guide
Sur le cas GFT : https://www.wired.com/2015/10/can-learn-epic-failure-google-flu-trends/
Citation : And then, GFT failed—and failed spectacularly—missing at the peak of the 2013 flu season by 140 percent. When Google quietly euthanized the program, called Google Flu Trends (GFT), it turned the poster child of big data into the poster child of the foibles of big data.
Photo : Kelly Sikkema
Référence : https://www.ft.com/content/50bb4830-6a4c-11e6-ae5b-a7cc5dd5a28c
Citation : if you experience something — record it. If you record something — upload it. If you upload something — share it.
Sur le dataism, lire : https://www.techopedia.com/definition/14808/data-ism
Photo : Tom Pumford
Photo : Annie Spratt
Alan Turing et le jeu de l’imitation. Son article "Computing Machinery and Intelligence" a été publié en 1950 dans le journal Mind.
Source : Homage to John McCarthy, the father of Artificial Intelligence (AI), June 2, 2017/ Andy Peart /
Citation : It was in the mid-1950s that McCarthy (September 4, 1927 – October 24, 2011) coined the term “Artificial Intelligence” which he would define as “the science and engineering of making intelligent machines”. McCarthy presented his definition at a conference on the campus of Dartmouth College in the summer of 1956 indicating the beginning of AI research, and the attendees, including John McCarthy, became the leaders of AI research for many decades.
McCarthy était un professeur de l’université de Stanford et un pionnier de l’intelligence artificielle. Il a notamment créé le langage Lisp.
Première IA qui a plus ou moins passé le test de Turing : ELIZA (1964-1966), créé par Joseph Weizenbaum au MIT Artificial Intelligence Laboratory.
Le modèle de la DARPA divise l’intelligence en quatre facultés :
Percevoir : une information riche, complexe et subtile
Apprendre : dans un environnement
Créer des abstractions et de nouvelles significations
Raisonner pour planifier et agir
Source : https://www.darpa.mil/about-us/darpa-perspective-on-ai
Photo : Edgar
Sur les limites des theories de la singularité, IA forte et faible, voir notamment : https://www.slideshare.net/carologic/ai-and-machine-learning-demystified-by-carol-smith-at-midwest-ux-2017
Lire le point de vue d’un praticien de l’IA : https://www.wired.co.uk/article/elon-musk-artificial-intelligence-scaremongering
Citation complète : Most people working in AI like myself have a healthy skepticism for the idea of the singularity. We know how hard it is to get even a little intelligence into a machine, let alone enough to achieve recursive self-improvement. There are many technical reasons why the singularity might never happen. We might simply run into some fundamental limits. Every other field of science has fundamental limits. You can’t, for example, accelerate past the speed of light. Perhaps there are some fundamental limits to how smart you can be? Or perhaps we run into some engineering limits. Did you know Moore’s Law is officially dead? Intel is no longer looking to double transistor count every 18 months. But even if we do get to the singularity, machines don’t have any consciousness, any sentience. They have no desires or goals other than the ones that we give them.
Photo : Jehyun Sung
Trois vagues, qui ne sont pas mutuellement exclusives :
Traitement procédural (handcrafted knowledge) : l’objectif de cette forme d’IA est de décrire. Manière historique de faire de l’informatique
Apprentissage statistique (statistical learning) : cette forme d’IA vise à catégoriser. Apparu dans les années 80-90 puis a connu un regain d’intérêt dans la première moitié des années 2000. Paradigme actuellement exploré par la recherche et les entreprises
Adaptation contextuelle (contextual adaptation) : cette IA serait capable de décrire et de catégoriser mais surtout d’expliquerdes phénomènes complexes et comment elle prend des decisions. La DARPA estime qu’on n’y est pas du tout.
Source : https://www.darpa.mil/about-us/darpa-perspective-on-ai
Photo : Taton Moïse
Forme historique d’intelligence artificielle, paradigme de l’informatique depuis Von Neumann.
Forces : raisonnement, perception
Faiblesses : apprentissage, abstraction
Fait d’arme notable : Deep Blue vs Gary Kasparov, 10 février 1996
Source : https://www.darpa.mil/about-us/darpa-perspective-on-ai
Source : https://en.wikipedia.org/wiki/Deep_Blue_(chess_computer)
Citations :
Deep Blue won its first game against a world champion on 10 February 1996, when it defeated Garry Kasparov in game one of a six-game match. However, Kasparov won three and drew two of the following five games, defeating Deep Blue by a score of 4–2. Deep Blue was then heavily upgraded, and played Kasparov again in May 1997. Deep Blue won game six, therefore winning the six-game rematch 3½–2½ and becoming the first computer system to defeat a reigning world champion in a match under standard chess tournament time controls. (…) Development for Deep Blue began in 1985 with the ChipTest project at Carnegie Mellon University. (…) Grandmaster Joel Benjamin was also part of the development team.
Photo : Luiz Hanfilaque
Deep Blue, with its capability of evaluating 200 million positions per second, was the fastest computer to face a world chess champion. Modern chess programs like Houdini, Rybka, Deep Fritz or Deep Junior are more efficient than the programs during Deep Blue's era. In a November 2006 match between Deep Fritz and world chess champion Vladimir Kramnik, the program ran on a computer system containing a dual-core Intel Xeon 5160 CPU, capable of evaluating only 8 million positions per second, but searching to an average depth of 17 to 18 plies in the middlegame thanks to heuristics; it won 4–2.
DARPA Autonomous Vehicle Grand Challenge (2000 – 2004) : parcourir 132 miles en moins de dix heures.
En 2004 : 0 circuit complété, meilleur score : 7,5 miles
En 2005 : 5 participants finissent le parcours (sur 195), meilleur temps pour Stanford (6h53)
Sur le challenge, lire: https://www.darpa.mil/news-events/2014-03-13
Image : domaine public, https://en.wikipedia.org/wiki/File:ElementBlack2.jpg
Référence du panda et du bébé : https://www.darpa.mil/about-us/darpa-perspective-on-ai
Seconde photo : https://cvdazzle.com/
Il s’agit d’une résurgence du camouflage disruptif (razzle dazzle) de la première guerre mondiale : https://en.wikipedia.org/wiki/Dazzle_camouflage
Photo : sven tillack
Références :
https://www.autoblog.com/2018/01/23/tesla-autopilot-crash-fire-truck-ntsb/ (2018)
https://motherboard.vice.com/en_us/article/bjye8a/reddit-fake-porn-app-daisy-ridley. Comptez à peu près 350 photos et six heures d’entraînement pour des résultats convaincants (2018)
https://techcrunch.com/2015/08/22/artificial-intelligence-legal-responsibility-and-civil-rights/ (2015)
https://www.wired.com/story/face-swap-porn-legal-limbo/
Référence : https://www.darpa.mil/about-us/darpa-perspective-on-ai
Citation : systems construct contextual explanatory models for classes of real world phenomena
Décision + explication :
Training Data
Learning Process
Explainable Model
Explanation Interface
Photo : Sebastian Kanczok