BIG DATA                 en Sciences et Industries de l’Environnement                                            Francois ...
´                                                Tracabilite                                                   ¸          ...
´Points cles     Vers une Science ultra-empirique?     Big Data pour la Recherche et l’Industrie : mode d’emploi          ...
´Points cles     Vers une Science ultra-empirique?     Big Data pour la Recherche et l’Industrie : mode d’emploi          ...
`L’ere du ”Data Scientist”                                    ´                  ´L’accumulation exponentielle de donnees ...
`L’ere du ”Data Scientist”                                    ´                  ´L’accumulation exponentielle de donnees ...
All models are wrong,     “    but some are useful.                                            ”   George BoxFR — Big Data...
Data Scientist             ´= nouveau metier?     Ce qui ne change pas                                ´             Le bes...
Data Scientist             ´= nouveau metier?     Ce qui ne change pas                                ´             Le bes...
Data Scientist             ´= nouveau metier?     Ce qui ne change pas                                ´             Le bes...
Data Scientist             ´= nouveau metier?     Ce qui ne change pas                                ´             Le bes...
Data Scientist             ´= nouveau metier?     Ce qui ne change pas                                ´             Le bes...
Data Scientist             ´= nouveau metier?     Ce qui ne change pas                                ´             Le bes...
Data Scientist             ´= nouveau metier?     Ce qui ne change pas                                ´             Le bes...
´Points cles     Vers une Science ultra-empirique?     Big Data pour la Recherche et l’Industrie : mode d’emploi          ...
´Definition             Big Data = gros volume (> 10 TB)                     Imagerie satellite 1-10 GB/jour               ...
´Definition             Big Data = gros volume (> 10 TB)                     Imagerie satellite 1-10 GB/jour               ...
´Definition             Big Data = gros volume (> 10 TB)                     Imagerie satellite 1-10 GB/jour               ...
´Definition             Big Data = gros volume (> 10 TB)                     Imagerie satellite 1-10 GB/jour               ...
´Definition             Big Data = gros volume (> 10 TB)                     Imagerie satellite 1-10 GB/jour               ...
´Definition             Big Data = gros volume (> 10 TB)                     Imagerie satellite 1-10 GB/jour               ...
´Definition             Big Data = gros volume (> 10 TB)                     Imagerie satellite 1-10 GB/jour               ...
´Definition             Big Data = gros volume (> 10 TB)                     Imagerie satellite 1-10 GB/jour               ...
´Definition             Big Data = gros volume (> 10 TB)                     Imagerie satellite 1-10 GB/jour               ...
´Definition             Big Data = gros volume (> 10 TB)                     Imagerie satellite 1-10 GB/jour               ...
Diagnostic Big Data                        `Docteur, ais-je un probleme Big Data?     Oui, si :                           ...
Diagnostic Big Data                        `Docteur, ais-je un probleme Big Data?     Oui, si :                           ...
Diagnostic Big Data                        `Docteur, ais-je un probleme Big Data?     Oui, si :                           ...
Diagnostic Big Data                        `Docteur, ais-je un probleme Big Data?     Oui, si :                           ...
Diagnostic Big Data                        `Docteur, ais-je un probleme Big Data?     Oui, si :                           ...
Diagnostic Big DataC’est grave, Docteur?              Tout ira bien,        “    je vais vous prescrire du DevOps et des c...
Solutions Big DataFR — Big Data Congress, Paris 2012 — 12/23
Solutions Big Data                                             DevFR — Big Data Congress, Paris 2012 — 12/23
Solutions Big Data                                               ´                                             Operations ...
Solutions Big Data                                               ´                                             Operations ...
Solutions Big Data                                               ´                                             Operations ...
Solutions Big Data      Hier              Noeuds de              stockage                ´    ´              peripheriques...
Solutions Big Data      Hier              Noeuds de              stockage                ´    ´              peripheriques...
Solutions Big Data      Hier              Noeuds de              stockage                ´    ´              peripheriques...
Solutions Big Data      Hier              Noeuds de              stockage                ´    ´              peripheriques...
Solutions Big Data     Aujourd’hui                                        ˆ    ´             Noeuds de stockage sur meme r...
Solutions Big Data     Aujourd’hui                                        ˆ    ´             Noeuds de stockage sur meme r...
Solutions Big Data     Aujourd’hui                                        ˆ    ´             Noeuds de stockage sur meme r...
Solutions Big Data     Aujourd’hui                                        ˆ    ´             Noeuds de stockage sur meme r...
Solutions Big Data     Aujourd’hui                                        ˆ    ´             Noeuds de stockage sur meme r...
Solutions Big Data     Aujourd’hui                                        ˆ    ´             Noeuds de stockage sur meme r...
Solutions Big Data     Pourquoi Hadoop?             Open source (fondation Apache, ouvert par Yahoo)                      ...
Solutions Big Data     Pourquoi Hadoop?             Open source (fondation Apache, ouvert par Yahoo)                      ...
Solutions Big Data     Pourquoi Hadoop?             Open source (fondation Apache, ouvert par Yahoo)                      ...
Solutions Big Data     Pourquoi Hadoop?             Open source (fondation Apache, ouvert par Yahoo)                      ...
Solutions Big Data     Pourquoi Hadoop?             Open source (fondation Apache, ouvert par Yahoo)                      ...
Solutions Big Data     Pourquoi Hadoop?             Open source (fondation Apache, ouvert par Yahoo)                      ...
Solutions Big Data     Pourquoi Hadoop?             Open source (fondation Apache, ouvert par Yahoo)                      ...
Solutions Big Data     Pourquoi Hadoop?                      `             Difficile a ”tuner” pour des jobs complexes     ...
Solutions Big Data     Pourquoi Hadoop?                      `             Difficile a ”tuner” pour des jobs complexes     ...
Solutions Big Data     Pourquoi Hadoop?                      `             Difficile a ”tuner” pour des jobs complexes     ...
Solutions Big Data     Pourquoi Hadoop?                      `             Difficile a ”tuner” pour des jobs complexes     ...
Solutions Big Data     Pourquoi Hadoop?                      `             Difficile a ”tuner” pour des jobs complexes     ...
Solutions Big Data     Pourquoi Hadoop?                      `             Difficile a ”tuner” pour des jobs complexes     ...
Solutions Big DataFR — Big Data Congress, Paris 2012 — 17/23
Solutions Big Data                                             HDFSFR — Big Data Congress, Paris 2012 — 17/23
Solutions Big Data                    Map Reduce                                             HDFSFR — Big Data Congress, P...
Solutions Big Data                    Map Reduce                      HBase                                             HD...
Solutions Big Data             Hive                    Map Reduce                      HBase                              ...
Solutions Big Data             Hive                   Pig                    Map Reduce                      HBase        ...
Solutions Big Data             Hive                   Pig       Mahout                    Map Reduce                      ...
Solutions Big Data                                                               Zookeeper             Hive               ...
´Points cles     Vers une Science ultra-empirique?     Big Data pour la Recherche et l’Industrie : mode d’emploi          ...
Hadoop-xyt                     ´    ´ou Hadoop et les donnees geographiques et temporelles     Besoin                     ...
Hadoop-xyt                     ´    ´ou Hadoop et les donnees geographiques et temporelles     Besoin                     ...
Hadoop-xyt                     ´    ´ou Hadoop et les donnees geographiques et temporelles     Besoin                     ...
Hadoop-xyt                     ´    ´ou Hadoop et les donnees geographiques et temporelles     Besoin                     ...
Hadoop-xyt                     ´    ´ou Hadoop et les donnees geographiques et temporelles     Besoin                     ...
Hadoop-xyt                     ´    ´ou Hadoop et les donnees geographiques et temporelles     Besoin                     ...
Hadoop-xyt                     ´    ´ou Hadoop et les donnees geographiques et temporelles     Besoin                     ...
Hadoop-xyt                     ´    ´ou Hadoop et les donnees geographiques et temporelles     Besoin                     ...
Hadoop-xyt     Traitement d’images             Extraction + tiling + rendering                                           `...
Hadoop-xyt     Traitement d’images             Extraction + tiling + rendering                                           `...
Hadoop-xyt     Traitement d’images             Extraction + tiling + rendering                                           `...
Hadoop-xyt     Traitement d’images             Extraction + tiling + rendering                                           `...
Hadoop-xyt     Traitement d’images             Extraction + tiling + rendering                                           `...
Hadoop-xyt     Traitement d’images             Extraction + tiling + rendering                                           `...
Hadoop-xyt     Traitement d’images             Extraction + tiling + rendering                                           `...
Hadoop-xyt ´                  ´Geolocalisation de vehiculesFR — Big Data Congress, Paris 2012 — 21/23
´                                                 Tracabilite                                                    ¸        ...
DatasioWe are Data Scientists     Data Mining · Prototypage · Algorithmie ·     Detection d’anomalies · Prediction · Machi...
Prochain SlideShare
Chargement dans…5
×

Datasio - Big Data Congress Paris 2012

1 720 vues

Publié le

These slides were presented at the Big Data Congress held in Paris on March 20-21st 2012. Concepts and uses cases of Big Data in geosciences were presented.

Publié dans : Technologie
0 commentaire
0 j’aime
Statistiques
Remarques
  • Soyez le premier à commenter

  • Soyez le premier à aimer ceci

Aucun téléchargement
Vues
Nombre de vues
1 720
Sur SlideShare
0
Issues des intégrations
0
Intégrations
296
Actions
Partages
0
Téléchargements
118
Commentaires
0
J’aime
0
Intégrations 0
Aucune incorporation

Aucune remarque pour cette diapositive

Datasio - Big Data Congress Paris 2012

  1. 1. BIG DATA en Sciences et Industries de l’Environnement Francois Royer ¸ www.datasio.com 21 mars 2012FR — Big Data Congress, Paris 2012 — 1/23
  2. 2. ´ Tracabilite ¸ ´ Oceanographie Transport terrestre Imagerie satellite ´ Transport aerien ´ ´ ´ Telemetrie - ArgosFR — Big Data Congress, Paris 2012 — 2/23
  3. 3. ´Points cles Vers une Science ultra-empirique? Big Data pour la Recherche et l’Industrie : mode d’emploi ´ ´ Hadoop et les donnees geographiques et temporellesFR — Big Data Congress, Paris 2012 — 3/23
  4. 4. ´Points cles Vers une Science ultra-empirique? Big Data pour la Recherche et l’Industrie : mode d’emploi ´ ´ Hadoop et les donnees geographiques et temporellesFR — Big Data Congress, Paris 2012 — 4/23
  5. 5. `L’ere du ”Data Scientist” ´ ´L’accumulation exponentielle de donnees transforme la demarche d’analyse 1960 E. Wigner, ”The Unreasonable Effectiveness of Mathematics in the Natural Sciences,” Comm. Pure and Applied Mathematics, vol. 13, no. 1, pp. 1–14. 2009 A. Halevy, P. Norvig, F. Pereira, ”The Unreasonable Effectiveness of Data,” IEEE Intelligent Systems, vol. 24, no. 2, pp. 8-12.FR — Big Data Congress, Paris 2012 — 5/23
  6. 6. `L’ere du ”Data Scientist” ´ ´L’accumulation exponentielle de donnees transforme la demarche d’analyse 1960 E. Wigner, ”The Unreasonable Effectiveness of Mathematics in the Natural Sciences,” Comm. Pure and Applied Mathematics, vol. 13, no. 1, pp. 1–14. 2009 A. Halevy, P. Norvig, F. Pereira, ”The Unreasonable Effectiveness of Data,” IEEE Intelligent Systems, vol. 24, no. 2, pp. 8-12.FR — Big Data Congress, Paris 2012 — 5/23
  7. 7. All models are wrong, “ but some are useful. ” George BoxFR — Big Data Congress, Paris 2012 — 6/23
  8. 8. Data Scientist ´= nouveau metier? Ce qui ne change pas ´ Le besoin en competences statistiques ´ ´ (Bayesiennes, frequentistes etc...) ´ La demarche de questionnement et de critique ´ Les protocoles de collecte de donnees Ce qui change ´ Le stockage et le traitement de donnees ´ ´ L’interaction entre modelisateurs, ingenieurs ` ´ systemes et bases de donnees et ... le clientFR — Big Data Congress, Paris 2012 — 7/23
  9. 9. Data Scientist ´= nouveau metier? Ce qui ne change pas ´ Le besoin en competences statistiques ´ ´ (Bayesiennes, frequentistes etc...) ´ La demarche de questionnement et de critique ´ Les protocoles de collecte de donnees Ce qui change ´ Le stockage et le traitement de donnees ´ ´ L’interaction entre modelisateurs, ingenieurs ` ´ systemes et bases de donnees et ... le clientFR — Big Data Congress, Paris 2012 — 7/23
  10. 10. Data Scientist ´= nouveau metier? Ce qui ne change pas ´ Le besoin en competences statistiques ´ ´ (Bayesiennes, frequentistes etc...) ´ La demarche de questionnement et de critique ´ Les protocoles de collecte de donnees Ce qui change ´ Le stockage et le traitement de donnees ´ ´ L’interaction entre modelisateurs, ingenieurs ` ´ systemes et bases de donnees et ... le clientFR — Big Data Congress, Paris 2012 — 7/23
  11. 11. Data Scientist ´= nouveau metier? Ce qui ne change pas ´ Le besoin en competences statistiques ´ ´ (Bayesiennes, frequentistes etc...) ´ La demarche de questionnement et de critique ´ Les protocoles de collecte de donnees Ce qui change ´ Le stockage et le traitement de donnees ´ ´ L’interaction entre modelisateurs, ingenieurs ` ´ systemes et bases de donnees et ... le clientFR — Big Data Congress, Paris 2012 — 7/23
  12. 12. Data Scientist ´= nouveau metier? Ce qui ne change pas ´ Le besoin en competences statistiques ´ ´ (Bayesiennes, frequentistes etc...) ´ La demarche de questionnement et de critique ´ Les protocoles de collecte de donnees Ce qui change ´ Le stockage et le traitement de donnees ´ ´ L’interaction entre modelisateurs, ingenieurs ` ´ systemes et bases de donnees et ... le clientFR — Big Data Congress, Paris 2012 — 7/23
  13. 13. Data Scientist ´= nouveau metier? Ce qui ne change pas ´ Le besoin en competences statistiques ´ ´ (Bayesiennes, frequentistes etc...) ´ La demarche de questionnement et de critique ´ Les protocoles de collecte de donnees Ce qui change ´ Le stockage et le traitement de donnees ´ ´ L’interaction entre modelisateurs, ingenieurs ` ´ systemes et bases de donnees et ... le clientFR — Big Data Congress, Paris 2012 — 7/23
  14. 14. Data Scientist ´= nouveau metier? Ce qui ne change pas ´ Le besoin en competences statistiques ´ ´ (Bayesiennes, frequentistes etc...) ´ La demarche de questionnement et de critique ´ Les protocoles de collecte de donnees Ce qui change ´ Le stockage et le traitement de donnees ´ ´ L’interaction entre modelisateurs, ingenieurs ` ´ systemes et bases de donnees et ... le clientFR — Big Data Congress, Paris 2012 — 7/23
  15. 15. ´Points cles Vers une Science ultra-empirique? Big Data pour la Recherche et l’Industrie : mode d’emploi ´ ´ Hadoop et les donnees geographiques et temporellesFR — Big Data Congress, Paris 2012 — 8/23
  16. 16. ´Definition Big Data = gros volume (> 10 TB) Imagerie satellite 1-10 GB/jour ` ´ ´ ´ Systemes geolocalises (vehicules, personnes) 100 MB/jour ` ´ ´ Modeles meteo 100 GB/jour Simulateurs (traffic routier etc...) 100 GB/run Big Data + Big Process ´ ´ ´ Donnees pre-traitees (GPS) Cout d’analyse - ˆ ´ Aggregation, contextualisation Cout d’analyse + ˆ Appels BD Cout d’analyse +++ ˆ Calculs en cascade Cout d’analyse +++ ˆFR — Big Data Congress, Paris 2012 — 9/23
  17. 17. ´Definition Big Data = gros volume (> 10 TB) Imagerie satellite 1-10 GB/jour ` ´ ´ ´ Systemes geolocalises (vehicules, personnes) 100 MB/jour ` ´ ´ Modeles meteo 100 GB/jour Simulateurs (traffic routier etc...) 100 GB/run Big Data + Big Process ´ ´ ´ Donnees pre-traitees (GPS) Cout d’analyse - ˆ ´ Aggregation, contextualisation Cout d’analyse + ˆ Appels BD Cout d’analyse +++ ˆ Calculs en cascade Cout d’analyse +++ ˆFR — Big Data Congress, Paris 2012 — 9/23
  18. 18. ´Definition Big Data = gros volume (> 10 TB) Imagerie satellite 1-10 GB/jour ` ´ ´ ´ Systemes geolocalises (vehicules, personnes) 100 MB/jour ` ´ ´ Modeles meteo 100 GB/jour Simulateurs (traffic routier etc...) 100 GB/run Big Data + Big Process ´ ´ ´ Donnees pre-traitees (GPS) Cout d’analyse - ˆ ´ Aggregation, contextualisation Cout d’analyse + ˆ Appels BD Cout d’analyse +++ ˆ Calculs en cascade Cout d’analyse +++ ˆFR — Big Data Congress, Paris 2012 — 9/23
  19. 19. ´Definition Big Data = gros volume (> 10 TB) Imagerie satellite 1-10 GB/jour ` ´ ´ ´ Systemes geolocalises (vehicules, personnes) 100 MB/jour ` ´ ´ Modeles meteo 100 GB/jour Simulateurs (traffic routier etc...) 100 GB/run Big Data + Big Process ´ ´ ´ Donnees pre-traitees (GPS) Cout d’analyse - ˆ ´ Aggregation, contextualisation Cout d’analyse + ˆ Appels BD Cout d’analyse +++ ˆ Calculs en cascade Cout d’analyse +++ ˆFR — Big Data Congress, Paris 2012 — 9/23
  20. 20. ´Definition Big Data = gros volume (> 10 TB) Imagerie satellite 1-10 GB/jour ` ´ ´ ´ Systemes geolocalises (vehicules, personnes) 100 MB/jour ` ´ ´ Modeles meteo 100 GB/jour Simulateurs (traffic routier etc...) 100 GB/run Big Data + Big Process ´ ´ ´ Donnees pre-traitees (GPS) Cout d’analyse - ˆ ´ Aggregation, contextualisation Cout d’analyse + ˆ Appels BD Cout d’analyse +++ ˆ Calculs en cascade Cout d’analyse +++ ˆFR — Big Data Congress, Paris 2012 — 9/23
  21. 21. ´Definition Big Data = gros volume (> 10 TB) Imagerie satellite 1-10 GB/jour ` ´ ´ ´ Systemes geolocalises (vehicules, personnes) 100 MB/jour ` ´ ´ Modeles meteo 100 GB/jour Simulateurs (traffic routier etc...) 100 GB/run Big Data + Big Process ´ ´ ´ Donnees pre-traitees (GPS) Cout d’analyse - ˆ ´ Aggregation, contextualisation Cout d’analyse + ˆ Appels BD Cout d’analyse +++ ˆ Calculs en cascade Cout d’analyse +++ ˆFR — Big Data Congress, Paris 2012 — 9/23
  22. 22. ´Definition Big Data = gros volume (> 10 TB) Imagerie satellite 1-10 GB/jour ` ´ ´ ´ Systemes geolocalises (vehicules, personnes) 100 MB/jour ` ´ ´ Modeles meteo 100 GB/jour Simulateurs (traffic routier etc...) 100 GB/run Big Data + Big Process ´ ´ ´ Donnees pre-traitees (GPS) Cout d’analyse - ˆ ´ Aggregation, contextualisation Cout d’analyse + ˆ Appels BD Cout d’analyse +++ ˆ Calculs en cascade Cout d’analyse +++ ˆFR — Big Data Congress, Paris 2012 — 9/23
  23. 23. ´Definition Big Data = gros volume (> 10 TB) Imagerie satellite 1-10 GB/jour ` ´ ´ ´ Systemes geolocalises (vehicules, personnes) 100 MB/jour ` ´ ´ Modeles meteo 100 GB/jour Simulateurs (traffic routier etc...) 100 GB/run Big Data + Big Process ´ ´ ´ Donnees pre-traitees (GPS) Cout d’analyse - ˆ ´ Aggregation, contextualisation Cout d’analyse + ˆ Appels BD Cout d’analyse +++ ˆ Calculs en cascade Cout d’analyse +++ ˆFR — Big Data Congress, Paris 2012 — 9/23
  24. 24. ´Definition Big Data = gros volume (> 10 TB) Imagerie satellite 1-10 GB/jour ` ´ ´ ´ Systemes geolocalises (vehicules, personnes) 100 MB/jour ` ´ ´ Modeles meteo 100 GB/jour Simulateurs (traffic routier etc...) 100 GB/run Big Data + Big Process ´ ´ ´ Donnees pre-traitees (GPS) Cout d’analyse - ˆ ´ Aggregation, contextualisation Cout d’analyse + ˆ Appels BD Cout d’analyse +++ ˆ Calculs en cascade Cout d’analyse +++ ˆFR — Big Data Congress, Paris 2012 — 9/23
  25. 25. ´Definition Big Data = gros volume (> 10 TB) Imagerie satellite 1-10 GB/jour ` ´ ´ ´ Systemes geolocalises (vehicules, personnes) 100 MB/jour ` ´ ´ Modeles meteo 100 GB/jour Simulateurs (traffic routier etc...) 100 GB/run Big Data + Big Process ´ ´ ´ Donnees pre-traitees (GPS) Cout d’analyse - ˆ ´ Aggregation, contextualisation Cout d’analyse + ˆ Appels BD Cout d’analyse +++ ˆ Calculs en cascade Cout d’analyse +++ ˆFR — Big Data Congress, Paris 2012 — 9/23
  26. 26. Diagnostic Big Data `Docteur, ais-je un probleme Big Data? Oui, si : ´ Vous avez un reseau d’observation autonome ´ ´ (capteurs meteo, RFID, GPS, balises Argos, ´ ´ ` smartphones, telemetres, instruments sur satellites...) ´ ´ Vos donnees dependent d’une communaute ´ ´ ´ d’utilisateurs ou d’individus instrumentes (etude de la ´ ´ mobilite humaine, ecologie terrestre et marine etc... ) Votre budget, programme de recherche ou business ´ plan prevoit de ”mesurer d’abord, traiter ensuite” ` Ces systemes de collecte produisent des flots de ´ donnees plus vite que vous ne pouvez les traiterFR — Big Data Congress, Paris 2012 — 10/23
  27. 27. Diagnostic Big Data `Docteur, ais-je un probleme Big Data? Oui, si : ´ Vous avez un reseau d’observation autonome ´ ´ (capteurs meteo, RFID, GPS, balises Argos, ´ ´ ` smartphones, telemetres, instruments sur satellites...) ´ ´ Vos donnees dependent d’une communaute ´ ´ ´ d’utilisateurs ou d’individus instrumentes (etude de la ´ ´ mobilite humaine, ecologie terrestre et marine etc... ) Votre budget, programme de recherche ou business ´ plan prevoit de ”mesurer d’abord, traiter ensuite” ` Ces systemes de collecte produisent des flots de ´ donnees plus vite que vous ne pouvez les traiterFR — Big Data Congress, Paris 2012 — 10/23
  28. 28. Diagnostic Big Data `Docteur, ais-je un probleme Big Data? Oui, si : ´ Vous avez un reseau d’observation autonome ´ ´ (capteurs meteo, RFID, GPS, balises Argos, ´ ´ ` smartphones, telemetres, instruments sur satellites...) ´ ´ Vos donnees dependent d’une communaute ´ ´ ´ d’utilisateurs ou d’individus instrumentes (etude de la ´ ´ mobilite humaine, ecologie terrestre et marine etc... ) Votre budget, programme de recherche ou business ´ plan prevoit de ”mesurer d’abord, traiter ensuite” ` Ces systemes de collecte produisent des flots de ´ donnees plus vite que vous ne pouvez les traiterFR — Big Data Congress, Paris 2012 — 10/23
  29. 29. Diagnostic Big Data `Docteur, ais-je un probleme Big Data? Oui, si : ´ Vous avez un reseau d’observation autonome ´ ´ (capteurs meteo, RFID, GPS, balises Argos, ´ ´ ` smartphones, telemetres, instruments sur satellites...) ´ ´ Vos donnees dependent d’une communaute ´ ´ ´ d’utilisateurs ou d’individus instrumentes (etude de la ´ ´ mobilite humaine, ecologie terrestre et marine etc... ) Votre budget, programme de recherche ou business ´ plan prevoit de ”mesurer d’abord, traiter ensuite” ` Ces systemes de collecte produisent des flots de ´ donnees plus vite que vous ne pouvez les traiterFR — Big Data Congress, Paris 2012 — 10/23
  30. 30. Diagnostic Big Data `Docteur, ais-je un probleme Big Data? Oui, si : ´ Vous avez un reseau d’observation autonome ´ ´ (capteurs meteo, RFID, GPS, balises Argos, ´ ´ ` smartphones, telemetres, instruments sur satellites...) ´ ´ Vos donnees dependent d’une communaute ´ ´ ´ d’utilisateurs ou d’individus instrumentes (etude de la ´ ´ mobilite humaine, ecologie terrestre et marine etc... ) Votre budget, programme de recherche ou business ´ plan prevoit de ”mesurer d’abord, traiter ensuite” ` Ces systemes de collecte produisent des flots de ´ donnees plus vite que vous ne pouvez les traiterFR — Big Data Congress, Paris 2012 — 10/23
  31. 31. Diagnostic Big DataC’est grave, Docteur? Tout ira bien, “ je vais vous prescrire du DevOps et des calculs ´ distribues. ”FR — Big Data Congress, Paris 2012 — 11/23
  32. 32. Solutions Big DataFR — Big Data Congress, Paris 2012 — 12/23
  33. 33. Solutions Big Data DevFR — Big Data Congress, Paris 2012 — 12/23
  34. 34. Solutions Big Data ´ Operations DevFR — Big Data Congress, Paris 2012 — 12/23
  35. 35. Solutions Big Data ´ Operations QA DevFR — Big Data Congress, Paris 2012 — 12/23
  36. 36. Solutions Big Data ´ Operations DevOps QA DevFR — Big Data Congress, Paris 2012 — 12/23
  37. 37. Solutions Big Data Hier Noeuds de stockage ´ ´ peripheriques Stockage sur plusieurs niveaux ”chaud”/”froid” Supercalculateur au centre Data -> CodeFR — Big Data Congress, Paris 2012 — 13/23
  38. 38. Solutions Big Data Hier Noeuds de stockage ´ ´ peripheriques Stockage sur plusieurs niveaux ”chaud”/”froid” Supercalculateur au centre Data -> CodeFR — Big Data Congress, Paris 2012 — 13/23
  39. 39. Solutions Big Data Hier Noeuds de stockage ´ ´ peripheriques Stockage sur plusieurs niveaux ”chaud”/”froid” Supercalculateur au centre Data -> CodeFR — Big Data Congress, Paris 2012 — 13/23
  40. 40. Solutions Big Data Hier Noeuds de stockage ´ ´ peripheriques Stockage sur plusieurs niveaux ”chaud”/”froid” Supercalculateur au centre Data -> CodeFR — Big Data Congress, Paris 2012 — 13/23
  41. 41. Solutions Big Data Aujourd’hui ˆ ´ Noeuds de stockage sur meme reseau GB ´ Materiel milieu de gamme (100 - 1000 CPUs) ` ´ Systeme de fichiers distribues (DFS) ´ Gestion des jobs et donnees par des Master Nodes Code -> DataFR — Big Data Congress, Paris 2012 — 14/23
  42. 42. Solutions Big Data Aujourd’hui ˆ ´ Noeuds de stockage sur meme reseau GB ´ Materiel milieu de gamme (100 - 1000 CPUs) ` ´ Systeme de fichiers distribues (DFS) ´ Gestion des jobs et donnees par des Master Nodes Code -> DataFR — Big Data Congress, Paris 2012 — 14/23
  43. 43. Solutions Big Data Aujourd’hui ˆ ´ Noeuds de stockage sur meme reseau GB ´ Materiel milieu de gamme (100 - 1000 CPUs) ` ´ Systeme de fichiers distribues (DFS) ´ Gestion des jobs et donnees par des Master Nodes Code -> DataFR — Big Data Congress, Paris 2012 — 14/23
  44. 44. Solutions Big Data Aujourd’hui ˆ ´ Noeuds de stockage sur meme reseau GB ´ Materiel milieu de gamme (100 - 1000 CPUs) ` ´ Systeme de fichiers distribues (DFS) ´ Gestion des jobs et donnees par des Master Nodes Code -> DataFR — Big Data Congress, Paris 2012 — 14/23
  45. 45. Solutions Big Data Aujourd’hui ˆ ´ Noeuds de stockage sur meme reseau GB ´ Materiel milieu de gamme (100 - 1000 CPUs) ` ´ Systeme de fichiers distribues (DFS) ´ Gestion des jobs et donnees par des Master Nodes Code -> DataFR — Big Data Congress, Paris 2012 — 14/23
  46. 46. Solutions Big Data Aujourd’hui ˆ ´ Noeuds de stockage sur meme reseau GB ´ Materiel milieu de gamme (100 - 1000 CPUs) ` ´ Systeme de fichiers distribues (DFS) ´ Gestion des jobs et donnees par des Master Nodes Code -> DataFR — Big Data Congress, Paris 2012 — 14/23
  47. 47. Solutions Big Data Pourquoi Hadoop? Open source (fondation Apache, ouvert par Yahoo) ´ Projet en maturation, communaute active ´ ˆ ´ Parallelisation de taches et donnees robuste ´ Standard de facto en analyse de donnees massives ´ ´ Bonne interoperabilite avec les data warehouse et BDs existantes (ETL, Hive, Sqoop) Offres commerciales (support, packaging, ´ integration: IBM, Cloudera, AWS...)FR — Big Data Congress, Paris 2012 — 15/23
  48. 48. Solutions Big Data Pourquoi Hadoop? Open source (fondation Apache, ouvert par Yahoo) ´ Projet en maturation, communaute active ´ ˆ ´ Parallelisation de taches et donnees robuste ´ Standard de facto en analyse de donnees massives ´ ´ Bonne interoperabilite avec les data warehouse et BDs existantes (ETL, Hive, Sqoop) Offres commerciales (support, packaging, ´ integration: IBM, Cloudera, AWS...)FR — Big Data Congress, Paris 2012 — 15/23
  49. 49. Solutions Big Data Pourquoi Hadoop? Open source (fondation Apache, ouvert par Yahoo) ´ Projet en maturation, communaute active ´ ˆ ´ Parallelisation de taches et donnees robuste ´ Standard de facto en analyse de donnees massives ´ ´ Bonne interoperabilite avec les data warehouse et BDs existantes (ETL, Hive, Sqoop) Offres commerciales (support, packaging, ´ integration: IBM, Cloudera, AWS...)FR — Big Data Congress, Paris 2012 — 15/23
  50. 50. Solutions Big Data Pourquoi Hadoop? Open source (fondation Apache, ouvert par Yahoo) ´ Projet en maturation, communaute active ´ ˆ ´ Parallelisation de taches et donnees robuste ´ Standard de facto en analyse de donnees massives ´ ´ Bonne interoperabilite avec les data warehouse et BDs existantes (ETL, Hive, Sqoop) Offres commerciales (support, packaging, ´ integration: IBM, Cloudera, AWS...)FR — Big Data Congress, Paris 2012 — 15/23
  51. 51. Solutions Big Data Pourquoi Hadoop? Open source (fondation Apache, ouvert par Yahoo) ´ Projet en maturation, communaute active ´ ˆ ´ Parallelisation de taches et donnees robuste ´ Standard de facto en analyse de donnees massives ´ ´ Bonne interoperabilite avec les data warehouse et BDs existantes (ETL, Hive, Sqoop) Offres commerciales (support, packaging, ´ integration: IBM, Cloudera, AWS...)FR — Big Data Congress, Paris 2012 — 15/23
  52. 52. Solutions Big Data Pourquoi Hadoop? Open source (fondation Apache, ouvert par Yahoo) ´ Projet en maturation, communaute active ´ ˆ ´ Parallelisation de taches et donnees robuste ´ Standard de facto en analyse de donnees massives ´ ´ Bonne interoperabilite avec les data warehouse et BDs existantes (ETL, Hive, Sqoop) Offres commerciales (support, packaging, ´ integration: IBM, Cloudera, AWS...)FR — Big Data Congress, Paris 2012 — 15/23
  53. 53. Solutions Big Data Pourquoi Hadoop? Open source (fondation Apache, ouvert par Yahoo) ´ Projet en maturation, communaute active ´ ˆ ´ Parallelisation de taches et donnees robuste ´ Standard de facto en analyse de donnees massives ´ ´ Bonne interoperabilite avec les data warehouse et BDs existantes (ETL, Hive, Sqoop) Offres commerciales (support, packaging, ´ integration: IBM, Cloudera, AWS...)FR — Big Data Congress, Paris 2012 — 15/23
  54. 54. Solutions Big Data Pourquoi Hadoop? ` Difficile a ”tuner” pour des jobs complexes Encore confidentiel en France (cf. groupe Hadoop France sur LinkedIn) Difficile de formuler certains algorithmes sous forme map-reduce ´ Embauche et formation de developpeurs et analystes Autres alternatives disponibles (BSP, Storm, Disco...)FR — Big Data Congress, Paris 2012 — 16/23
  55. 55. Solutions Big Data Pourquoi Hadoop? ` Difficile a ”tuner” pour des jobs complexes Encore confidentiel en France (cf. groupe Hadoop France sur LinkedIn) Difficile de formuler certains algorithmes sous forme map-reduce ´ Embauche et formation de developpeurs et analystes Autres alternatives disponibles (BSP, Storm, Disco...)FR — Big Data Congress, Paris 2012 — 16/23
  56. 56. Solutions Big Data Pourquoi Hadoop? ` Difficile a ”tuner” pour des jobs complexes Encore confidentiel en France (cf. groupe Hadoop France sur LinkedIn) Difficile de formuler certains algorithmes sous forme map-reduce ´ Embauche et formation de developpeurs et analystes Autres alternatives disponibles (BSP, Storm, Disco...)FR — Big Data Congress, Paris 2012 — 16/23
  57. 57. Solutions Big Data Pourquoi Hadoop? ` Difficile a ”tuner” pour des jobs complexes Encore confidentiel en France (cf. groupe Hadoop France sur LinkedIn) Difficile de formuler certains algorithmes sous forme map-reduce ´ Embauche et formation de developpeurs et analystes Autres alternatives disponibles (BSP, Storm, Disco...)FR — Big Data Congress, Paris 2012 — 16/23
  58. 58. Solutions Big Data Pourquoi Hadoop? ` Difficile a ”tuner” pour des jobs complexes Encore confidentiel en France (cf. groupe Hadoop France sur LinkedIn) Difficile de formuler certains algorithmes sous forme map-reduce ´ Embauche et formation de developpeurs et analystes Autres alternatives disponibles (BSP, Storm, Disco...)FR — Big Data Congress, Paris 2012 — 16/23
  59. 59. Solutions Big Data Pourquoi Hadoop? ` Difficile a ”tuner” pour des jobs complexes Encore confidentiel en France (cf. groupe Hadoop France sur LinkedIn) Difficile de formuler certains algorithmes sous forme map-reduce ´ Embauche et formation de developpeurs et analystes Autres alternatives disponibles (BSP, Storm, Disco...)FR — Big Data Congress, Paris 2012 — 16/23
  60. 60. Solutions Big DataFR — Big Data Congress, Paris 2012 — 17/23
  61. 61. Solutions Big Data HDFSFR — Big Data Congress, Paris 2012 — 17/23
  62. 62. Solutions Big Data Map Reduce HDFSFR — Big Data Congress, Paris 2012 — 17/23
  63. 63. Solutions Big Data Map Reduce HBase HDFSFR — Big Data Congress, Paris 2012 — 17/23
  64. 64. Solutions Big Data Hive Map Reduce HBase HDFSFR — Big Data Congress, Paris 2012 — 17/23
  65. 65. Solutions Big Data Hive Pig Map Reduce HBase HDFSFR — Big Data Congress, Paris 2012 — 17/23
  66. 66. Solutions Big Data Hive Pig Mahout Map Reduce HBase HDFSFR — Big Data Congress, Paris 2012 — 17/23
  67. 67. Solutions Big Data Zookeeper Hive Pig Mahout Map Reduce HBase HDFSFR — Big Data Congress, Paris 2012 — 17/23
  68. 68. ´Points cles Vers une Science ultra-empirique? Big Data pour la Recherche et l’Industrie : mode d’emploi ´ ´ Hadoop et les donnees geographiques et temporellesFR — Big Data Congress, Paris 2012 — 18/23
  69. 69. Hadoop-xyt ´ ´ou Hadoop et les donnees geographiques et temporelles Besoin ´ retraitement et fouille de donnees historiques ´ ´ (geographiques et series temporelles) ´ ´ ´ Accelerer la decouverte d’anomalies et l’extraction de ´ valeur ajoutee ´ Problematique ´ ` ´ ´ Donnees tres structurees - solution competitive? ´ ´ ´ ´ Donnees correlees = pb du traitement independant? ´ ´ Donnees stockees en fichiers binaires - distribution? ´ ` ´ Algorithmes metier a reutiliser - interface Java?FR — Big Data Congress, Paris 2012 — 19/23
  70. 70. Hadoop-xyt ´ ´ou Hadoop et les donnees geographiques et temporelles Besoin ´ retraitement et fouille de donnees historiques ´ ´ (geographiques et series temporelles) ´ ´ ´ Accelerer la decouverte d’anomalies et l’extraction de ´ valeur ajoutee ´ Problematique ´ ` ´ ´ Donnees tres structurees - solution competitive? ´ ´ ´ ´ Donnees correlees = pb du traitement independant? ´ ´ Donnees stockees en fichiers binaires - distribution? ´ ` ´ Algorithmes metier a reutiliser - interface Java?FR — Big Data Congress, Paris 2012 — 19/23
  71. 71. Hadoop-xyt ´ ´ou Hadoop et les donnees geographiques et temporelles Besoin ´ retraitement et fouille de donnees historiques ´ ´ (geographiques et series temporelles) ´ ´ ´ Accelerer la decouverte d’anomalies et l’extraction de ´ valeur ajoutee ´ Problematique ´ ` ´ ´ Donnees tres structurees - solution competitive? ´ ´ ´ ´ Donnees correlees = pb du traitement independant? ´ ´ Donnees stockees en fichiers binaires - distribution? ´ ` ´ Algorithmes metier a reutiliser - interface Java?FR — Big Data Congress, Paris 2012 — 19/23
  72. 72. Hadoop-xyt ´ ´ou Hadoop et les donnees geographiques et temporelles Besoin ´ retraitement et fouille de donnees historiques ´ ´ (geographiques et series temporelles) ´ ´ ´ Accelerer la decouverte d’anomalies et l’extraction de ´ valeur ajoutee ´ Problematique ´ ` ´ ´ Donnees tres structurees - solution competitive? ´ ´ ´ ´ Donnees correlees = pb du traitement independant? ´ ´ Donnees stockees en fichiers binaires - distribution? ´ ` ´ Algorithmes metier a reutiliser - interface Java?FR — Big Data Congress, Paris 2012 — 19/23
  73. 73. Hadoop-xyt ´ ´ou Hadoop et les donnees geographiques et temporelles Besoin ´ retraitement et fouille de donnees historiques ´ ´ (geographiques et series temporelles) ´ ´ ´ Accelerer la decouverte d’anomalies et l’extraction de ´ valeur ajoutee ´ Problematique ´ ` ´ ´ Donnees tres structurees - solution competitive? ´ ´ ´ ´ Donnees correlees = pb du traitement independant? ´ ´ Donnees stockees en fichiers binaires - distribution? ´ ` ´ Algorithmes metier a reutiliser - interface Java?FR — Big Data Congress, Paris 2012 — 19/23
  74. 74. Hadoop-xyt ´ ´ou Hadoop et les donnees geographiques et temporelles Besoin ´ retraitement et fouille de donnees historiques ´ ´ (geographiques et series temporelles) ´ ´ ´ Accelerer la decouverte d’anomalies et l’extraction de ´ valeur ajoutee ´ Problematique ´ ` ´ ´ Donnees tres structurees - solution competitive? ´ ´ ´ ´ Donnees correlees = pb du traitement independant? ´ ´ Donnees stockees en fichiers binaires - distribution? ´ ` ´ Algorithmes metier a reutiliser - interface Java?FR — Big Data Congress, Paris 2012 — 19/23
  75. 75. Hadoop-xyt ´ ´ou Hadoop et les donnees geographiques et temporelles Besoin ´ retraitement et fouille de donnees historiques ´ ´ (geographiques et series temporelles) ´ ´ ´ Accelerer la decouverte d’anomalies et l’extraction de ´ valeur ajoutee ´ Problematique ´ ` ´ ´ Donnees tres structurees - solution competitive? ´ ´ ´ ´ Donnees correlees = pb du traitement independant? ´ ´ Donnees stockees en fichiers binaires - distribution? ´ ` ´ Algorithmes metier a reutiliser - interface Java?FR — Big Data Congress, Paris 2012 — 19/23
  76. 76. Hadoop-xyt ´ ´ou Hadoop et les donnees geographiques et temporelles Besoin ´ retraitement et fouille de donnees historiques ´ ´ (geographiques et series temporelles) ´ ´ ´ Accelerer la decouverte d’anomalies et l’extraction de ´ valeur ajoutee ´ Problematique ´ ` ´ ´ Donnees tres structurees - solution competitive? ´ ´ ´ ´ Donnees correlees = pb du traitement independant? ´ ´ Donnees stockees en fichiers binaires - distribution? ´ ` ´ Algorithmes metier a reutiliser - interface Java?FR — Big Data Congress, Paris 2012 — 19/23
  77. 77. Hadoop-xyt Traitement d’images Extraction + tiling + rendering ` Calculs massivement paralleles = gain de temps +++FR — Big Data Congress, Paris 2012 — 20/23
  78. 78. Hadoop-xyt Traitement d’images Extraction + tiling + rendering ` Calculs massivement paralleles = gain de temps +++FR — Big Data Congress, Paris 2012 — 20/23
  79. 79. Hadoop-xyt Traitement d’images Extraction + tiling + rendering ` Calculs massivement paralleles = gain de temps +++FR — Big Data Congress, Paris 2012 — 20/23
  80. 80. Hadoop-xyt Traitement d’images Extraction + tiling + rendering ` Calculs massivement paralleles = gain de temps +++FR — Big Data Congress, Paris 2012 — 20/23
  81. 81. Hadoop-xyt Traitement d’images Extraction + tiling + rendering ` Calculs massivement paralleles = gain de temps +++FR — Big Data Congress, Paris 2012 — 20/23
  82. 82. Hadoop-xyt Traitement d’images Extraction + tiling + rendering ` Calculs massivement paralleles = gain de temps +++FR — Big Data Congress, Paris 2012 — 20/23
  83. 83. Hadoop-xyt Traitement d’images Extraction + tiling + rendering ` Calculs massivement paralleles = gain de temps +++FR — Big Data Congress, Paris 2012 — 20/23
  84. 84. Hadoop-xyt ´ ´Geolocalisation de vehiculesFR — Big Data Congress, Paris 2012 — 21/23
  85. 85. ´ Tracabilite ¸ ´ Oceanographie Transport terrestre Imagerie satellite ´ Transport aerien ´ ´ ´ Telemetrie - ArgosFR — Big Data Congress, Paris 2012 — 22/23
  86. 86. DatasioWe are Data Scientists Data Mining · Prototypage · Algorithmie · Detection d’anomalies · Prediction · Machine ´ ´ Learning · Spatial data · Time series Francois Royer ¸ froyer@datasio.com www.datasio.comFR — Big Data Congress, Paris 2012 — 23/23

×