Comment planter son projet data ? Par Thomas GERBAUD PhD OceanData.io
7 Jun 2017•0 j'aime•234 vues
Télécharger pour lire hors ligne
Signaler
Business
Loin des buzzwords et de la noyade conceptuelle, Thomas nous livre un point précis sur la situation des technologies et des marché. Il enchaîne sur une approche raisonnée des outils et des déclinaisons profitables de l'usage de la big data
Comment planter son projet data ? Par Thomas GERBAUD PhD OceanData.io
1. — Shake '17, 11/05/17
Dr Thomas Gerbaud
propulsé par OceanData.io
PLANTER
SON PROJET
QUELQUES
REGLES
SIMPLES
#DATA
“Big Data is like teenage sex:
everyone talks about it,
nobody really knows how to do it,
everyone thinks everyone else is doing it,
so everyone claims they are doing it !”
— Dan Ariely, Duke University (2013)
2. Les BigData désignent des ensembles de données qui
deviennent tellement volumineux qu'ils en sont difficiles à
appréhender avec des outils classiques de gestion de base
de données ou de gestion de l'information.
3. Mouvement global et englobant qui recouvre des réalités très
diverses, et qui fait s’interpénétrer des mondes différents.
Mot-valise qui recouvre une réalité objective (==mesurable) et
subjective (==trop de données). Il apparait quand la masse de
données à traiter par les outils classiques devient problématique
6. Organiser le désordre ?
La #data ? Quatre types d’acteurs
● ceux qui parlent;
● ceux qui vendent;
● ceux qui ont les besoins;
● ceux qui ont les données.
… médias, boites de communication,
boites de conseil & stratégie,
startups, institutionnels
… éditeurs de software,
d’infrastructure, de plateforme,
profils techniques
… entreprises classiques
… services publics
… profils opérationnels
… possesseurs de bases de
données historiques,
d’informations uniques.
7. I. data IT, IT data⊂ ⊄
II. Over-engineering
III. Un data scientist n'est pas la solution
8. data IT, IT data⊂ ⊄
Un projet data doit passer par une phase
où on ne sait pas ce que le programme va
fournir comme résultats.
Un projet data doit inclure une base
de données trop grosse pour être
visualisée de manière exhaustive et,
quelque part dans le code, des lignes
du genre model.fit, model.predict et
model.score.
Le reste n'est que littérature.
9. IT data, data IT⊂ ⊄
“Big data is not actually about the data.
The revolution is not that there’s more
data available. The revolution is that we
know what to do with it now. That’s
really the amazing thing.“
[...]
The revolution is not about the data. It’s
about the analytics that we can come up
with and that we now have to be able to
understand what these data say.”
— Gary King, Harvard (2016)
10. “Les modèles et algorithmes deviennent
l'infrastructure fondamentale pour la disruption
digitale de l’économie tout entière, à la fois en
tant qu’actifs stratégiques, en tant
qu’infrastructure décisive.”
“Tout converge pour montrer le rôle décisif que jouent les
technologies de modèles et algorithmes dans les bouleversements de
l’économie actuelle.”
“Au sein de ces usages digitaux en
rupture, l’actif technologique déterminant
est l’algorithmique.”
– BPI France (2015)
Over-engineering
11. Over-engineering
Projet data== projet IT + data science.
● des maths compliquées;
● des statistiques balaises;
● des algorithmes écrits par des chercheurs;
● des bases de données;
● des performances.
Utiliser ces outils ? :
● la peinture autour des libraires n'est pas toujours fraîche;
● le risque de raconter n'importe quoi "parce que l'algorithme l'a
dit" est grand;
● il faudra parler à des gens qui ont fait beaucoup trop de
maths ou d'informatique pour être sains d'esprit.
12. Un data scientist n'est pas la solution
"Arguing with an engineer is like fighting
a pig in mud. After the first few hours,
you realise they enjoy it"?
Un data scientist est un scientifique.
Donc quelqu'un aime les problèmes
techniques compliqués et qui voudra les
résoudre.
Comment les arrêter sans les frustrer?
Comment obtenir des solutions
perfectibles, temporaires, et
fonctionnelles ?
13. Un data scientist n'est pas la solution
“I keep saying the sexy job in the next ten
years will be statisticians. People think I’m
joking, but who would’ve guessed that
computer engineers would’ve been the sexy
job of the 1990s?”
— Hal Varian, Chief economist,
Google (2009)
14. — Shake '17, 11/05/17
PLANTER
SON PROJET
QUELQUES
REGLES
SIMPLES
#DATA
Thomas Gerbaud, Ph.D
http://OceanData.io
thomas@oceandata.io
15. Les GAFA ...
1480 G$ CAC 40
2875 G$ EURO STOXX 50
∑: 468G$ ∑: 2200+ G$ ∑: 469k
Google (Alphabet Inc.)
Larry Page, Sergey Brin – 1996
CA: 90G$ cap: 608 G$ empl: 70k
Mountain View, CA, USA
Apple Inc.
Steve Jobs et al (Tim Cook) – 1976
CA: 215G$ cap: 749 G$ empl: 115k
Cupertino, CA, USA
Facebook
Mark Zuckerberg et al – 2004
CA: 27G$ cap: 424 G$ empl: 15k
Menlo Park, CA, USA
Amazon
Jeff Bezos – 1994
CA: 136G$ cap: 435 G$ empl: 269k
Seattle, Washington, USA
Date: 27 Avril 2017
16. Blockchain & Bitcoin
Blockchain
1. You do not talk about Bitcoin
2. You do not talk about Bitcoin
3. It is a fully distributed database with no central authority
4. Instant, global transactional capability.
5. Control is enforced by quite strong cryptography..
6. Very strong potential for disruption
17. Apprentissage …
… supervisé
Mots de mathématiciens
Comment prendre des décisions adaptées,
personnalisées et sur-mesure ?
Comment représenter les données ? Quel point de
vue adopter ? Comment extraire de la
connaissance de grandes masses de données ?
Quelle connaissance extraire d’un ensemble de données,
partir d’un modèle de données ou de règles métiers ?
L’humain guide la machine.
Quelle connaissance extraire d’un ensemble de
données sans a priori ? La machine n’est pas guidée,
les mathématiques agissent seules.
Comment structurer, extraire, découvrir ?
Que peut-on anticiper, à partir de données brutes ou de
modèles de connaissances ? Avec quelle confiance ?
Statistiques
Modélisation
Apprentissage …
… non-supervisé
Recommendation
Profilage
Data-mining
Prédiction
18. Mots d’informaticiens
Langages Python/R/Scala + base de données + visualisations
+ outils spécialisés en machine learning et data processing
Intrinsèquement du sur-mesure.
Design pattern destiné à faciliter la création d’applications
distribuées (stockage/traitement) et échelonnables.
Google, 2004
Framework. Implémentation de MapReduce.
HDFS, Hbase; Hive, Pig; MS Azure, Amazon EC2
Apache, 2008
~Hadoop travaillant en mémoire vive + plateforme
incluant des outils d’analyse. Perfs x10-x100.
Berkeley (CA, USA)/Apache, 2014
not-only SQL : bases de données répondant à des besoins très
spécifiques, dont la gestion de très grosses bases de données.
Ex: MongoDB, Cassandra, Redis, ElasticSearch, CouchDB
Editeurs de plateforme de données basées sur Hadoop.
Sociétés privées, 2008/2011
Cloudera
HortonWorks
noSQL
Spark
Hadoop
MapReduce
19. ● médiatique. omniprésence d'internet & réseaux sociaux
● conceptuelle. client == user == data => valorisation
● technologique. forte offre logicielle & plateformes
TROIS RUPTURES
Would it take a long time to make the story it short ?
La #data a d'abord été un problème purement technique pour les nouveaux
acteurs du net (GAFA), qui ont du concevoir et bâtir des outils ad-hoc.
Ils en ont tiré une grande richesse commerciale et technique, qu'ils exploitent
depuis comme une rente de situation. La puissance financière des GAFA
devient dangereuse pour les acteurs classiques, qui, en réaction, se lancent
dans la #data pour ne pas disparaitre. En découle un impératif stratégique
d'exploitation des données.
En parallèle, les acteurs classiques disposant de beaucoup de données (bases
ou flux) s'interrogent sur de possibles pivots.
La question à résoudre pour les acteurs classiques est de savoir où positionner
le curseur entre, d'un côté, du business intelligence/analytics ou aide à la
décision et, de l'autre, véritable mutation.