La data n'a pas besoin d'être « big »
pour générer de la valeur
Fabienne AMADORI
ISIASOFT
famadori@isiasoft.c
om

Anne LAURENT
LIRMM (UM2 – CNRS)
laurent@lirmm.fr
Big Data,
l’un des plus grands défis informatiques de la
décennie

“Big data: The next frontier for innovation, competitio...
L’enjeu du Big Data,
Transformer les données en savoir
Théorie

Expérimentatio
n

Simulation
Données
http://research.microsoft.com/en-us/collaboration/fourthparadigm/
Les « autres » données,
Un gisement de valeurs

“Information has become one of the most valuable assets that
organizations...
Dans la suite de cette session…
T d’horizon
our
Approche, étapes clés, arbitrages et écueils à
éviter
T concernés par le b...
Réseaux de neurones

Régression logistique

Big Data

Business Intelligence
Data mining
Arbre de décision

2

Data Science...
Cognitif
Optimisation
Analyse prédictive
 Intuitif
 Evolutif

BI Reporting
 Quel est le meilleur choix ?
 La meilleure...
Data science, Data mining,
Exploration de données,….
Quelle corrélation entre bières et couches
pour bébé ?
Big data
« Petite » analyse lexicale
3V : Volume, Variété, Vélocité
3V+Valeur

3V+Visualisation
3V+Véracité
3V+…
Le calcul intensif
Un outil stratégique pour la science, l’industrie …
9. Data Mining

5. Text Mining / NLP

8. Data Ingestion

6. Visualization

10. Toolbox

4. Machine Learning
1. Fundamental...
Exploration des données…
Retour d’expérience sur un projet
Collecter
Consolider et nettoyer les données
Explorer

Découvrir et analyser
Réinjecter la connaissance dans les
process
Consolidation et nettoyage des
données
Hétérogénéité technique
Hétérogénéité fonctionnelle

Hétérogénéité des déploiements...
Hétérogénéité technique
Bases de données

Fichiers CSV, log…

Réseaux sociaux

Progiciels

Web services
Hétérogénéité fonctionnelle
R&D,
prototypage

Design,

SAV

Packaging,

Produit
Marketing,
Distribution

Marketing

Produc...
Connaissance fonctionnelle

REGPZCV

REGPATI

REGUPP

56

20091213

33

...

REGUCI

REGGEN

0

4

0,256

20090615

1

4

...
Validité des données
Consolidation et nettoyage des données
Design,

R&D,
prototypage

Packaging,
Marketing

Production

Marketing,
Distributio...
Hétérogéniété des déploiements
R&D,
prototypage

SAV

2010
2007

Marketing,
Distribution

Design,
Packaging,
Marketing

20...
De nombreuses stratégies, de nombreux algorithmes…..
Ranking strategies
InfoGain
ChiSquared

Algorithms
Neural Network
• M...
Réseau de Neurones
Color
Riboflavin

freshness
& Smell

Choline

Claims
Folic acid

Surface
Quality
Algorithme génétique
Entrainement
des réseaux
de neurones

1ère
génération

Nouvelle
génération

Mutation

Sélections des
...
Application spécifique développée
en WPF
Bilan du projet
Axes d’améliorations identifiés
Freins levés
Démarche à moindre coût
Synergie entre monde de l’entreprise ...
En synthèse
Enveloppe financière raisonnable
Démarche globale et impact sur l’organisation
Qualité des données
Compétences...
Not so Big data : 3V + Vous…
Une démarche sur mesure
Des questions ?

Vous avez d’autres questions ou vous souhaitez prolonger cet échange
ISIASOFT Stand 6 bis (espace exposan...
La data n’a pas besoin d’être « big » pour générer de la valeur
La data n’a pas besoin d’être « big » pour générer de la valeur
La data n’a pas besoin d’être « big » pour générer de la valeur
Prochain SlideShare
Chargement dans…5
×

La data n’a pas besoin d’être « big » pour générer de la valeur

1 031 vues

Publié le

Les entreprises sont de plus en plus nombreuses à s’intéresser au big data : Beaucoup y voit le graal qui leur permettra de sortir de la crise. Oui mais voilà, les Big Data entrent dans des critères de volume, véracité, variété et de vélocité (4V) bien précis et tellement importants (voire même hors norme) qu’elles ne concernent finalement qu’une très faible partie des projets d’exploitation de données. Faut-il pour autant exclure les entreprises ou les projets dont les cas d’usage n’entrent pas dans ces critères ? Nous allons démontrer dans le cadre de cette session et sur la base d’exemples concrets comment les données, même en volume limité et aussi dispersées soient-elle, renferment un gisement de valeurs considérable pour l’entreprise : à condition de respecter certains fondamentaux et prérequis pour pouvoir les faire parler. Retour d’expérience avec Anne LAURENT, directrice du centre HPC@LR à Montpellier, centre de compétences dévolu au calcul intensif (High Performance Computing) Session présentée par le partenaire : Isiasoft.

Speakers : Fabienne Amadori (Isiasoft), Anne Laurent (CNRS )

Publié dans : Technologie
0 commentaire
3 j’aime
Statistiques
Remarques
  • Soyez le premier à commenter

Aucun téléchargement
Vues
Nombre de vues
1 031
Sur SlideShare
0
Issues des intégrations
0
Intégrations
77
Actions
Partages
0
Téléchargements
35
Commentaires
0
J’aime
3
Intégrations 0
Aucune incorporation

Aucune remarque pour cette diapositive

La data n’a pas besoin d’être « big » pour générer de la valeur

  1. 1. La data n'a pas besoin d'être « big » pour générer de la valeur
  2. 2. Fabienne AMADORI ISIASOFT famadori@isiasoft.c om Anne LAURENT LIRMM (UM2 – CNRS) laurent@lirmm.fr
  3. 3. Big Data, l’un des plus grands défis informatiques de la décennie “Big data: The next frontier for innovation, competition, and productivity” (McKinsey Global Institute).
  4. 4. L’enjeu du Big Data, Transformer les données en savoir
  5. 5. Théorie Expérimentatio n Simulation Données http://research.microsoft.com/en-us/collaboration/fourthparadigm/
  6. 6. Les « autres » données, Un gisement de valeurs “Information has become one of the most valuable assets that organizations have.” (Gartner)
  7. 7. Dans la suite de cette session… T d’horizon our Approche, étapes clés, arbitrages et écueils à éviter T concernés par le bigdata ous
  8. 8. Réseaux de neurones Régression logistique Big Data Business Intelligence Data mining Arbre de décision 2 Data Science Machine learning Régression linéaire Data Visualisation
  9. 9. Cognitif Optimisation Analyse prédictive  Intuitif  Evolutif BI Reporting  Quel est le meilleur choix ?  La meilleure action  Qu’est-il arrivé ?  Quand? Combien ? …  Que va-t-il arriver ?  Quel va être l’impact ?
  10. 10. Data science, Data mining, Exploration de données,….
  11. 11. Quelle corrélation entre bières et couches pour bébé ?
  12. 12. Big data « Petite » analyse lexicale
  13. 13. 3V : Volume, Variété, Vélocité 3V+Valeur 3V+Visualisation 3V+Véracité 3V+…
  14. 14. Le calcul intensif Un outil stratégique pour la science, l’industrie …
  15. 15. 9. Data Mining 5. Text Mining / NLP 8. Data Ingestion 6. Visualization 10. Toolbox 4. Machine Learning 1. Fundamentals 7. BigData 2. Statistics 3. Programming http://nirvacana.com/thoughts/becoming-a-data-scientist/
  16. 16. Exploration des données… Retour d’expérience sur un projet
  17. 17. Collecter Consolider et nettoyer les données Explorer Découvrir et analyser Réinjecter la connaissance dans les process
  18. 18. Consolidation et nettoyage des données Hétérogénéité technique Hétérogénéité fonctionnelle Hétérogénéité des déploiements Véracité des données Connaissance fonctionnelle….
  19. 19. Hétérogénéité technique Bases de données Fichiers CSV, log… Réseaux sociaux Progiciels Web services
  20. 20. Hétérogénéité fonctionnelle R&D, prototypage Design, SAV Packaging, Produit Marketing, Distribution Marketing Production
  21. 21. Connaissance fonctionnelle REGPZCV REGPATI REGUPP 56 20091213 33 ... REGUCI REGGEN 0 4 0,256 20090615 1 4 0,358 … … … … … 42 20081114 1 2 0,199 …
  22. 22. Validité des données
  23. 23. Consolidation et nettoyage des données Design, R&D, prototypage Packaging, Marketing Production Marketing, Distribution Characteristics Formulation SAV Class Produit Na+ K+ Cl- Claims … … … … … AER234 0,4087429 0,5980998 0,6190223 No AAI254 0,3202395 0,598452 0,6179289 Yes AAI256 0,3506248 0,60179 0,6969146 No AAD472 0,3521515 0,6492974 0,5481292 No … … … … …
  24. 24. Hétérogéniété des déploiements R&D, prototypage SAV 2010 2007 Marketing, Distribution Design, Packaging, Marketing 2013 2001 2006 2010 Indicateurs qualité 2002 Production
  25. 25. De nombreuses stratégies, de nombreux algorithmes….. Ranking strategies InfoGain ChiSquared Algorithms Neural Network • MultiLayerPerceptron Filtered Decision Tree SymmetricalUncert • C4.5 ReliefF OneR Bayes Net
  26. 26. Réseau de Neurones Color Riboflavin freshness & Smell Choline Claims Folic acid Surface Quality
  27. 27. Algorithme génétique Entrainement des réseaux de neurones 1ère génération Nouvelle génération Mutation Sélections des meilleurs réseaux Héritage par recombinaisons
  28. 28. Application spécifique développée en WPF
  29. 29. Bilan du projet Axes d’améliorations identifiés Freins levés Démarche à moindre coût Synergie entre monde de l’entreprise et la recherche
  30. 30. En synthèse Enveloppe financière raisonnable Démarche globale et impact sur l’organisation Qualité des données Compétences requises
  31. 31. Not so Big data : 3V + Vous… Une démarche sur mesure
  32. 32. Des questions ? Vous avez d’autres questions ou vous souhaitez prolonger cet échange ISIASOFT Stand 6 bis (espace exposants) www.isiasoft.com

×