SlideShare une entreprise Scribd logo
BIG DATA
                 en Sciences et Industries de l’Environnement


                                            Francois Royer
                                                ¸

                                             www.datasio.com


                                            21 mars 2012




FR — Big Data Congress, Paris 2012 — 1/23
´
                                                Tracabilite
                                                   ¸               ´
                                                                 Oceanographie
    Transport terrestre




                                                                 Imagerie satellite
                ´
     Transport aerien                        ´ ´ ´
                                            Telemetrie - Argos
FR — Big Data Congress, Paris 2012 — 2/23
´
Points cles

     Vers une Science ultra-empirique?

     Big Data pour la Recherche et l’Industrie : mode d’emploi

                       ´    ´
     Hadoop et les donnees geographiques et temporelles




FR — Big Data Congress, Paris 2012 — 3/23
´
Points cles

     Vers une Science ultra-empirique?

     Big Data pour la Recherche et l’Industrie : mode d’emploi

                       ´    ´
     Hadoop et les donnees geographiques et temporelles




FR — Big Data Congress, Paris 2012 — 4/23
`
L’ere du ”Data Scientist”
                                    ´                  ´
L’accumulation exponentielle de donnees transforme la demarche d’analyse



     1960
     E. Wigner, ”The Unreasonable Effectiveness of
     Mathematics in the Natural Sciences,” Comm. Pure and
     Applied Mathematics, vol. 13, no. 1, pp. 1–14.

     2009
     A. Halevy, P. Norvig, F. Pereira, ”The Unreasonable
     Effectiveness of Data,” IEEE Intelligent Systems, vol. 24,
     no. 2, pp. 8-12.




FR — Big Data Congress, Paris 2012 — 5/23
`
L’ere du ”Data Scientist”
                                    ´                  ´
L’accumulation exponentielle de donnees transforme la demarche d’analyse



     1960
     E. Wigner, ”The Unreasonable Effectiveness of
     Mathematics in the Natural Sciences,” Comm. Pure and
     Applied Mathematics, vol. 13, no. 1, pp. 1–14.

     2009
     A. Halevy, P. Norvig, F. Pereira, ”The Unreasonable
     Effectiveness of Data,” IEEE Intelligent Systems, vol. 24,
     no. 2, pp. 8-12.




FR — Big Data Congress, Paris 2012 — 5/23
All models are wrong,
     “    but some are useful.
                                            ”   George Box




FR — Big Data Congress, Paris 2012 — 6/23
Data Scientist
             ´
= nouveau metier?
     Ce qui ne change pas
                                ´
             Le besoin en competences statistiques
                 ´           ´
             (Bayesiennes, frequentistes etc...)
                 ´
             La demarche de questionnement et de critique
                                                 ´
             Les protocoles de collecte de donnees

     Ce qui change
                                                   ´
             Le stockage et le traitement de donnees
                                     ´             ´
             L’interaction entre modelisateurs, ingenieurs
                  `                       ´
             systemes et bases de donnees et ... le client

FR — Big Data Congress, Paris 2012 — 7/23
Data Scientist
             ´
= nouveau metier?
     Ce qui ne change pas
                                ´
             Le besoin en competences statistiques
                 ´           ´
             (Bayesiennes, frequentistes etc...)
                 ´
             La demarche de questionnement et de critique
                                                 ´
             Les protocoles de collecte de donnees

     Ce qui change
                                                   ´
             Le stockage et le traitement de donnees
                                     ´             ´
             L’interaction entre modelisateurs, ingenieurs
                  `                       ´
             systemes et bases de donnees et ... le client

FR — Big Data Congress, Paris 2012 — 7/23
Data Scientist
             ´
= nouveau metier?
     Ce qui ne change pas
                                ´
             Le besoin en competences statistiques
                 ´           ´
             (Bayesiennes, frequentistes etc...)
                 ´
             La demarche de questionnement et de critique
                                                 ´
             Les protocoles de collecte de donnees

     Ce qui change
                                                   ´
             Le stockage et le traitement de donnees
                                     ´             ´
             L’interaction entre modelisateurs, ingenieurs
                  `                       ´
             systemes et bases de donnees et ... le client

FR — Big Data Congress, Paris 2012 — 7/23
Data Scientist
             ´
= nouveau metier?
     Ce qui ne change pas
                                ´
             Le besoin en competences statistiques
                 ´           ´
             (Bayesiennes, frequentistes etc...)
                 ´
             La demarche de questionnement et de critique
                                                 ´
             Les protocoles de collecte de donnees

     Ce qui change
                                                   ´
             Le stockage et le traitement de donnees
                                     ´             ´
             L’interaction entre modelisateurs, ingenieurs
                  `                       ´
             systemes et bases de donnees et ... le client

FR — Big Data Congress, Paris 2012 — 7/23
Data Scientist
             ´
= nouveau metier?
     Ce qui ne change pas
                                ´
             Le besoin en competences statistiques
                 ´           ´
             (Bayesiennes, frequentistes etc...)
                 ´
             La demarche de questionnement et de critique
                                                 ´
             Les protocoles de collecte de donnees

     Ce qui change
                                                   ´
             Le stockage et le traitement de donnees
                                     ´             ´
             L’interaction entre modelisateurs, ingenieurs
                  `                       ´
             systemes et bases de donnees et ... le client

FR — Big Data Congress, Paris 2012 — 7/23
Data Scientist
             ´
= nouveau metier?
     Ce qui ne change pas
                                ´
             Le besoin en competences statistiques
                 ´           ´
             (Bayesiennes, frequentistes etc...)
                 ´
             La demarche de questionnement et de critique
                                                 ´
             Les protocoles de collecte de donnees

     Ce qui change
                                                   ´
             Le stockage et le traitement de donnees
                                     ´             ´
             L’interaction entre modelisateurs, ingenieurs
                  `                       ´
             systemes et bases de donnees et ... le client

FR — Big Data Congress, Paris 2012 — 7/23
Data Scientist
             ´
= nouveau metier?
     Ce qui ne change pas
                                ´
             Le besoin en competences statistiques
                 ´           ´
             (Bayesiennes, frequentistes etc...)
                 ´
             La demarche de questionnement et de critique
                                                 ´
             Les protocoles de collecte de donnees

     Ce qui change
                                                   ´
             Le stockage et le traitement de donnees
                                     ´             ´
             L’interaction entre modelisateurs, ingenieurs
                  `                       ´
             systemes et bases de donnees et ... le client

FR — Big Data Congress, Paris 2012 — 7/23
´
Points cles

     Vers une Science ultra-empirique?

     Big Data pour la Recherche et l’Industrie : mode d’emploi

                       ´    ´
     Hadoop et les donnees geographiques et temporelles




FR — Big Data Congress, Paris 2012 — 8/23
´
Definition
             Big Data = gros volume (> 10 TB)
                     Imagerie satellite 1-10 GB/jour
                         `       ´         ´    ´
                     Systemes geolocalises (vehicules, personnes) 100
                     MB/jour
                         `      ´ ´
                     Modeles meteo 100 GB/jour
                     Simulateurs (traffic routier etc...) 100 GB/run

             Big Data + Big Process
                          ´      ´    ´
                     Donnees pre-traitees (GPS) Cout d’analyse -
                                                     ˆ
                         ´
                     Aggregation, contextualisation Cout d’analyse +
                                                       ˆ
                     Appels BD Cout d’analyse +++
                                   ˆ
                     Calculs en cascade Cout d’analyse +++
                                            ˆ



FR — Big Data Congress, Paris 2012 — 9/23
´
Definition
             Big Data = gros volume (> 10 TB)
                     Imagerie satellite 1-10 GB/jour
                         `       ´         ´    ´
                     Systemes geolocalises (vehicules, personnes) 100
                     MB/jour
                         `      ´ ´
                     Modeles meteo 100 GB/jour
                     Simulateurs (traffic routier etc...) 100 GB/run

             Big Data + Big Process
                          ´      ´    ´
                     Donnees pre-traitees (GPS) Cout d’analyse -
                                                     ˆ
                         ´
                     Aggregation, contextualisation Cout d’analyse +
                                                       ˆ
                     Appels BD Cout d’analyse +++
                                   ˆ
                     Calculs en cascade Cout d’analyse +++
                                            ˆ



FR — Big Data Congress, Paris 2012 — 9/23
´
Definition
             Big Data = gros volume (> 10 TB)
                     Imagerie satellite 1-10 GB/jour
                         `       ´         ´    ´
                     Systemes geolocalises (vehicules, personnes) 100
                     MB/jour
                         `      ´ ´
                     Modeles meteo 100 GB/jour
                     Simulateurs (traffic routier etc...) 100 GB/run

             Big Data + Big Process
                          ´      ´    ´
                     Donnees pre-traitees (GPS) Cout d’analyse -
                                                     ˆ
                         ´
                     Aggregation, contextualisation Cout d’analyse +
                                                       ˆ
                     Appels BD Cout d’analyse +++
                                   ˆ
                     Calculs en cascade Cout d’analyse +++
                                            ˆ



FR — Big Data Congress, Paris 2012 — 9/23
´
Definition
             Big Data = gros volume (> 10 TB)
                     Imagerie satellite 1-10 GB/jour
                         `       ´         ´    ´
                     Systemes geolocalises (vehicules, personnes) 100
                     MB/jour
                         `      ´ ´
                     Modeles meteo 100 GB/jour
                     Simulateurs (traffic routier etc...) 100 GB/run

             Big Data + Big Process
                          ´      ´    ´
                     Donnees pre-traitees (GPS) Cout d’analyse -
                                                     ˆ
                         ´
                     Aggregation, contextualisation Cout d’analyse +
                                                       ˆ
                     Appels BD Cout d’analyse +++
                                   ˆ
                     Calculs en cascade Cout d’analyse +++
                                            ˆ



FR — Big Data Congress, Paris 2012 — 9/23
´
Definition
             Big Data = gros volume (> 10 TB)
                     Imagerie satellite 1-10 GB/jour
                         `       ´         ´    ´
                     Systemes geolocalises (vehicules, personnes) 100
                     MB/jour
                         `      ´ ´
                     Modeles meteo 100 GB/jour
                     Simulateurs (traffic routier etc...) 100 GB/run

             Big Data + Big Process
                          ´      ´    ´
                     Donnees pre-traitees (GPS) Cout d’analyse -
                                                     ˆ
                         ´
                     Aggregation, contextualisation Cout d’analyse +
                                                       ˆ
                     Appels BD Cout d’analyse +++
                                   ˆ
                     Calculs en cascade Cout d’analyse +++
                                            ˆ



FR — Big Data Congress, Paris 2012 — 9/23
´
Definition
             Big Data = gros volume (> 10 TB)
                     Imagerie satellite 1-10 GB/jour
                         `       ´         ´    ´
                     Systemes geolocalises (vehicules, personnes) 100
                     MB/jour
                         `      ´ ´
                     Modeles meteo 100 GB/jour
                     Simulateurs (traffic routier etc...) 100 GB/run

             Big Data + Big Process
                          ´      ´    ´
                     Donnees pre-traitees (GPS) Cout d’analyse -
                                                     ˆ
                         ´
                     Aggregation, contextualisation Cout d’analyse +
                                                       ˆ
                     Appels BD Cout d’analyse +++
                                   ˆ
                     Calculs en cascade Cout d’analyse +++
                                            ˆ



FR — Big Data Congress, Paris 2012 — 9/23
´
Definition
             Big Data = gros volume (> 10 TB)
                     Imagerie satellite 1-10 GB/jour
                         `       ´         ´    ´
                     Systemes geolocalises (vehicules, personnes) 100
                     MB/jour
                         `      ´ ´
                     Modeles meteo 100 GB/jour
                     Simulateurs (traffic routier etc...) 100 GB/run

             Big Data + Big Process
                          ´      ´    ´
                     Donnees pre-traitees (GPS) Cout d’analyse -
                                                     ˆ
                         ´
                     Aggregation, contextualisation Cout d’analyse +
                                                       ˆ
                     Appels BD Cout d’analyse +++
                                   ˆ
                     Calculs en cascade Cout d’analyse +++
                                            ˆ



FR — Big Data Congress, Paris 2012 — 9/23
´
Definition
             Big Data = gros volume (> 10 TB)
                     Imagerie satellite 1-10 GB/jour
                         `       ´         ´    ´
                     Systemes geolocalises (vehicules, personnes) 100
                     MB/jour
                         `      ´ ´
                     Modeles meteo 100 GB/jour
                     Simulateurs (traffic routier etc...) 100 GB/run

             Big Data + Big Process
                          ´      ´    ´
                     Donnees pre-traitees (GPS) Cout d’analyse -
                                                     ˆ
                         ´
                     Aggregation, contextualisation Cout d’analyse +
                                                       ˆ
                     Appels BD Cout d’analyse +++
                                   ˆ
                     Calculs en cascade Cout d’analyse +++
                                            ˆ



FR — Big Data Congress, Paris 2012 — 9/23
´
Definition
             Big Data = gros volume (> 10 TB)
                     Imagerie satellite 1-10 GB/jour
                         `       ´         ´    ´
                     Systemes geolocalises (vehicules, personnes) 100
                     MB/jour
                         `      ´ ´
                     Modeles meteo 100 GB/jour
                     Simulateurs (traffic routier etc...) 100 GB/run

             Big Data + Big Process
                          ´      ´    ´
                     Donnees pre-traitees (GPS) Cout d’analyse -
                                                     ˆ
                         ´
                     Aggregation, contextualisation Cout d’analyse +
                                                       ˆ
                     Appels BD Cout d’analyse +++
                                   ˆ
                     Calculs en cascade Cout d’analyse +++
                                            ˆ



FR — Big Data Congress, Paris 2012 — 9/23
´
Definition
             Big Data = gros volume (> 10 TB)
                     Imagerie satellite 1-10 GB/jour
                         `       ´         ´    ´
                     Systemes geolocalises (vehicules, personnes) 100
                     MB/jour
                         `      ´ ´
                     Modeles meteo 100 GB/jour
                     Simulateurs (traffic routier etc...) 100 GB/run

             Big Data + Big Process
                          ´      ´    ´
                     Donnees pre-traitees (GPS) Cout d’analyse -
                                                     ˆ
                         ´
                     Aggregation, contextualisation Cout d’analyse +
                                                       ˆ
                     Appels BD Cout d’analyse +++
                                   ˆ
                     Calculs en cascade Cout d’analyse +++
                                            ˆ



FR — Big Data Congress, Paris 2012 — 9/23
Diagnostic Big Data
                        `
Docteur, ais-je un probleme Big Data?

     Oui, si :
                                ´
             Vous avez un reseau d’observation autonome
                            ´ ´
             (capteurs meteo, RFID, GPS, balises Argos,
                                ´ ´ `
             smartphones, telemetres, instruments sur
             satellites...)
                          ´     ´
             Vos donnees dependent d’une communaute       ´
                                                     ´ ´
             d’utilisateurs ou d’individus instrumentes (etude de la
                      ´            ´
             mobilite humaine, ecologie terrestre et marine etc... )
             Votre budget, programme de recherche ou business
                       ´
             plan prevoit de ”mesurer d’abord, traiter ensuite”
                         `
             Ces systemes de collecte produisent des flots de
                    ´
             donnees plus vite que vous ne pouvez les traiter

FR — Big Data Congress, Paris 2012 — 10/23
Diagnostic Big Data
                        `
Docteur, ais-je un probleme Big Data?

     Oui, si :
                                ´
             Vous avez un reseau d’observation autonome
                            ´ ´
             (capteurs meteo, RFID, GPS, balises Argos,
                                ´ ´ `
             smartphones, telemetres, instruments sur
             satellites...)
                          ´     ´
             Vos donnees dependent d’une communaute       ´
                                                     ´ ´
             d’utilisateurs ou d’individus instrumentes (etude de la
                      ´            ´
             mobilite humaine, ecologie terrestre et marine etc... )
             Votre budget, programme de recherche ou business
                       ´
             plan prevoit de ”mesurer d’abord, traiter ensuite”
                         `
             Ces systemes de collecte produisent des flots de
                    ´
             donnees plus vite que vous ne pouvez les traiter

FR — Big Data Congress, Paris 2012 — 10/23
Diagnostic Big Data
                        `
Docteur, ais-je un probleme Big Data?

     Oui, si :
                                ´
             Vous avez un reseau d’observation autonome
                            ´ ´
             (capteurs meteo, RFID, GPS, balises Argos,
                                ´ ´ `
             smartphones, telemetres, instruments sur
             satellites...)
                          ´     ´
             Vos donnees dependent d’une communaute       ´
                                                     ´ ´
             d’utilisateurs ou d’individus instrumentes (etude de la
                      ´            ´
             mobilite humaine, ecologie terrestre et marine etc... )
             Votre budget, programme de recherche ou business
                       ´
             plan prevoit de ”mesurer d’abord, traiter ensuite”
                         `
             Ces systemes de collecte produisent des flots de
                    ´
             donnees plus vite que vous ne pouvez les traiter

FR — Big Data Congress, Paris 2012 — 10/23
Diagnostic Big Data
                        `
Docteur, ais-je un probleme Big Data?

     Oui, si :
                                ´
             Vous avez un reseau d’observation autonome
                            ´ ´
             (capteurs meteo, RFID, GPS, balises Argos,
                                ´ ´ `
             smartphones, telemetres, instruments sur
             satellites...)
                          ´     ´
             Vos donnees dependent d’une communaute       ´
                                                     ´ ´
             d’utilisateurs ou d’individus instrumentes (etude de la
                      ´            ´
             mobilite humaine, ecologie terrestre et marine etc... )
             Votre budget, programme de recherche ou business
                       ´
             plan prevoit de ”mesurer d’abord, traiter ensuite”
                         `
             Ces systemes de collecte produisent des flots de
                    ´
             donnees plus vite que vous ne pouvez les traiter

FR — Big Data Congress, Paris 2012 — 10/23
Diagnostic Big Data
                        `
Docteur, ais-je un probleme Big Data?

     Oui, si :
                                ´
             Vous avez un reseau d’observation autonome
                            ´ ´
             (capteurs meteo, RFID, GPS, balises Argos,
                                ´ ´ `
             smartphones, telemetres, instruments sur
             satellites...)
                          ´     ´
             Vos donnees dependent d’une communaute       ´
                                                     ´ ´
             d’utilisateurs ou d’individus instrumentes (etude de la
                      ´            ´
             mobilite humaine, ecologie terrestre et marine etc... )
             Votre budget, programme de recherche ou business
                       ´
             plan prevoit de ”mesurer d’abord, traiter ensuite”
                         `
             Ces systemes de collecte produisent des flots de
                    ´
             donnees plus vite que vous ne pouvez les traiter

FR — Big Data Congress, Paris 2012 — 10/23
Diagnostic Big Data
C’est grave, Docteur?




              Tout ira bien,
        “    je vais vous prescrire du DevOps et des calculs
                      ´
             distribues.
                                 ”

FR — Big Data Congress, Paris 2012 — 11/23
Solutions Big Data




FR — Big Data Congress, Paris 2012 — 12/23
Solutions Big Data




                                             Dev




FR — Big Data Congress, Paris 2012 — 12/23
Solutions Big Data

                                               ´
                                             Operations




                                                          Dev




FR — Big Data Congress, Paris 2012 — 12/23
Solutions Big Data

                                               ´
                                             Operations




                                   QA                     Dev




FR — Big Data Congress, Paris 2012 — 12/23
Solutions Big Data

                                               ´
                                             Operations



                                              DevOps

                                   QA                     Dev




FR — Big Data Congress, Paris 2012 — 12/23
Solutions Big Data

      Hier
              Noeuds de
              stockage
                ´    ´
              peripheriques
              Stockage sur
              plusieurs niveaux
              ”chaud”/”froid”
              Supercalculateur
              au centre
              Data -> Code


FR — Big Data Congress, Paris 2012 — 13/23
Solutions Big Data

      Hier
              Noeuds de
              stockage
                ´    ´
              peripheriques
              Stockage sur
              plusieurs niveaux
              ”chaud”/”froid”
              Supercalculateur
              au centre
              Data -> Code


FR — Big Data Congress, Paris 2012 — 13/23
Solutions Big Data

      Hier
              Noeuds de
              stockage
                ´    ´
              peripheriques
              Stockage sur
              plusieurs niveaux
              ”chaud”/”froid”
              Supercalculateur
              au centre
              Data -> Code


FR — Big Data Congress, Paris 2012 — 13/23
Solutions Big Data

      Hier
              Noeuds de
              stockage
                ´    ´
              peripheriques
              Stockage sur
              plusieurs niveaux
              ”chaud”/”froid”
              Supercalculateur
              au centre
              Data -> Code


FR — Big Data Congress, Paris 2012 — 13/23
Solutions Big Data


     Aujourd’hui
                                        ˆ    ´
             Noeuds de stockage sur meme reseau GB
                ´
             Materiel milieu de gamme (100 - 1000 CPUs)
                 `                        ´
             Systeme de fichiers distribues (DFS)
                                      ´
             Gestion des jobs et donnees par des Master Nodes
             Code -> Data




FR — Big Data Congress, Paris 2012 — 14/23
Solutions Big Data


     Aujourd’hui
                                        ˆ    ´
             Noeuds de stockage sur meme reseau GB
                ´
             Materiel milieu de gamme (100 - 1000 CPUs)
                 `                        ´
             Systeme de fichiers distribues (DFS)
                                      ´
             Gestion des jobs et donnees par des Master Nodes
             Code -> Data




FR — Big Data Congress, Paris 2012 — 14/23
Solutions Big Data


     Aujourd’hui
                                        ˆ    ´
             Noeuds de stockage sur meme reseau GB
                ´
             Materiel milieu de gamme (100 - 1000 CPUs)
                 `                        ´
             Systeme de fichiers distribues (DFS)
                                      ´
             Gestion des jobs et donnees par des Master Nodes
             Code -> Data




FR — Big Data Congress, Paris 2012 — 14/23
Solutions Big Data


     Aujourd’hui
                                        ˆ    ´
             Noeuds de stockage sur meme reseau GB
                ´
             Materiel milieu de gamme (100 - 1000 CPUs)
                 `                        ´
             Systeme de fichiers distribues (DFS)
                                      ´
             Gestion des jobs et donnees par des Master Nodes
             Code -> Data




FR — Big Data Congress, Paris 2012 — 14/23
Solutions Big Data


     Aujourd’hui
                                        ˆ    ´
             Noeuds de stockage sur meme reseau GB
                ´
             Materiel milieu de gamme (100 - 1000 CPUs)
                 `                        ´
             Systeme de fichiers distribues (DFS)
                                      ´
             Gestion des jobs et donnees par des Master Nodes
             Code -> Data




FR — Big Data Congress, Paris 2012 — 14/23
Solutions Big Data


     Aujourd’hui
                                        ˆ    ´
             Noeuds de stockage sur meme reseau GB
                ´
             Materiel milieu de gamme (100 - 1000 CPUs)
                 `                        ´
             Systeme de fichiers distribues (DFS)
                                      ´
             Gestion des jobs et donnees par des Master Nodes
             Code -> Data




FR — Big Data Congress, Paris 2012 — 14/23
Solutions Big Data

     Pourquoi Hadoop?
             Open source (fondation Apache, ouvert par Yahoo)
                                                ´
             Projet en maturation, communaute active
                   ´             ˆ            ´
             Parallelisation de taches et donnees robuste
                                                    ´
             Standard de facto en analyse de donnees massives
                             ´     ´
             Bonne interoperabilite avec les data warehouse et
             BDs existantes (ETL, Hive, Sqoop)
             Offres commerciales (support, packaging,
                ´
             integration: IBM, Cloudera, AWS...)

FR — Big Data Congress, Paris 2012 — 15/23
Solutions Big Data

     Pourquoi Hadoop?
             Open source (fondation Apache, ouvert par Yahoo)
                                                ´
             Projet en maturation, communaute active
                   ´             ˆ            ´
             Parallelisation de taches et donnees robuste
                                                    ´
             Standard de facto en analyse de donnees massives
                             ´     ´
             Bonne interoperabilite avec les data warehouse et
             BDs existantes (ETL, Hive, Sqoop)
             Offres commerciales (support, packaging,
                ´
             integration: IBM, Cloudera, AWS...)

FR — Big Data Congress, Paris 2012 — 15/23
Solutions Big Data

     Pourquoi Hadoop?
             Open source (fondation Apache, ouvert par Yahoo)
                                                ´
             Projet en maturation, communaute active
                   ´             ˆ            ´
             Parallelisation de taches et donnees robuste
                                                    ´
             Standard de facto en analyse de donnees massives
                             ´     ´
             Bonne interoperabilite avec les data warehouse et
             BDs existantes (ETL, Hive, Sqoop)
             Offres commerciales (support, packaging,
                ´
             integration: IBM, Cloudera, AWS...)

FR — Big Data Congress, Paris 2012 — 15/23
Solutions Big Data

     Pourquoi Hadoop?
             Open source (fondation Apache, ouvert par Yahoo)
                                                ´
             Projet en maturation, communaute active
                   ´             ˆ            ´
             Parallelisation de taches et donnees robuste
                                                    ´
             Standard de facto en analyse de donnees massives
                             ´     ´
             Bonne interoperabilite avec les data warehouse et
             BDs existantes (ETL, Hive, Sqoop)
             Offres commerciales (support, packaging,
                ´
             integration: IBM, Cloudera, AWS...)

FR — Big Data Congress, Paris 2012 — 15/23
Solutions Big Data

     Pourquoi Hadoop?
             Open source (fondation Apache, ouvert par Yahoo)
                                                ´
             Projet en maturation, communaute active
                   ´             ˆ            ´
             Parallelisation de taches et donnees robuste
                                                    ´
             Standard de facto en analyse de donnees massives
                             ´     ´
             Bonne interoperabilite avec les data warehouse et
             BDs existantes (ETL, Hive, Sqoop)
             Offres commerciales (support, packaging,
                ´
             integration: IBM, Cloudera, AWS...)

FR — Big Data Congress, Paris 2012 — 15/23
Solutions Big Data

     Pourquoi Hadoop?
             Open source (fondation Apache, ouvert par Yahoo)
                                                ´
             Projet en maturation, communaute active
                   ´             ˆ            ´
             Parallelisation de taches et donnees robuste
                                                    ´
             Standard de facto en analyse de donnees massives
                             ´     ´
             Bonne interoperabilite avec les data warehouse et
             BDs existantes (ETL, Hive, Sqoop)
             Offres commerciales (support, packaging,
                ´
             integration: IBM, Cloudera, AWS...)

FR — Big Data Congress, Paris 2012 — 15/23
Solutions Big Data

     Pourquoi Hadoop?
             Open source (fondation Apache, ouvert par Yahoo)
                                                ´
             Projet en maturation, communaute active
                   ´             ˆ            ´
             Parallelisation de taches et donnees robuste
                                                    ´
             Standard de facto en analyse de donnees massives
                             ´     ´
             Bonne interoperabilite avec les data warehouse et
             BDs existantes (ETL, Hive, Sqoop)
             Offres commerciales (support, packaging,
                ´
             integration: IBM, Cloudera, AWS...)

FR — Big Data Congress, Paris 2012 — 15/23
Solutions Big Data


     Pourquoi Hadoop?
                      `
             Difficile a ”tuner” pour des jobs complexes
             Encore confidentiel en France (cf. groupe Hadoop
             France sur LinkedIn)
             Difficile de formuler certains algorithmes sous forme
             map-reduce
                                           ´
             Embauche et formation de developpeurs et analystes
             Autres alternatives disponibles (BSP, Storm, Disco...)


FR — Big Data Congress, Paris 2012 — 16/23
Solutions Big Data


     Pourquoi Hadoop?
                      `
             Difficile a ”tuner” pour des jobs complexes
             Encore confidentiel en France (cf. groupe Hadoop
             France sur LinkedIn)
             Difficile de formuler certains algorithmes sous forme
             map-reduce
                                           ´
             Embauche et formation de developpeurs et analystes
             Autres alternatives disponibles (BSP, Storm, Disco...)


FR — Big Data Congress, Paris 2012 — 16/23
Solutions Big Data


     Pourquoi Hadoop?
                      `
             Difficile a ”tuner” pour des jobs complexes
             Encore confidentiel en France (cf. groupe Hadoop
             France sur LinkedIn)
             Difficile de formuler certains algorithmes sous forme
             map-reduce
                                           ´
             Embauche et formation de developpeurs et analystes
             Autres alternatives disponibles (BSP, Storm, Disco...)


FR — Big Data Congress, Paris 2012 — 16/23
Solutions Big Data


     Pourquoi Hadoop?
                      `
             Difficile a ”tuner” pour des jobs complexes
             Encore confidentiel en France (cf. groupe Hadoop
             France sur LinkedIn)
             Difficile de formuler certains algorithmes sous forme
             map-reduce
                                           ´
             Embauche et formation de developpeurs et analystes
             Autres alternatives disponibles (BSP, Storm, Disco...)


FR — Big Data Congress, Paris 2012 — 16/23
Solutions Big Data


     Pourquoi Hadoop?
                      `
             Difficile a ”tuner” pour des jobs complexes
             Encore confidentiel en France (cf. groupe Hadoop
             France sur LinkedIn)
             Difficile de formuler certains algorithmes sous forme
             map-reduce
                                           ´
             Embauche et formation de developpeurs et analystes
             Autres alternatives disponibles (BSP, Storm, Disco...)


FR — Big Data Congress, Paris 2012 — 16/23
Solutions Big Data


     Pourquoi Hadoop?
                      `
             Difficile a ”tuner” pour des jobs complexes
             Encore confidentiel en France (cf. groupe Hadoop
             France sur LinkedIn)
             Difficile de formuler certains algorithmes sous forme
             map-reduce
                                           ´
             Embauche et formation de developpeurs et analystes
             Autres alternatives disponibles (BSP, Storm, Disco...)


FR — Big Data Congress, Paris 2012 — 16/23
Solutions Big Data




FR — Big Data Congress, Paris 2012 — 17/23
Solutions Big Data


                                             HDFS




FR — Big Data Congress, Paris 2012 — 17/23
Solutions Big Data

                    Map Reduce

                                             HDFS




FR — Big Data Congress, Paris 2012 — 17/23
Solutions Big Data

                    Map Reduce                      HBase

                                             HDFS




FR — Big Data Congress, Paris 2012 — 17/23
Solutions Big Data

             Hive

                    Map Reduce                      HBase

                                             HDFS




FR — Big Data Congress, Paris 2012 — 17/23
Solutions Big Data

             Hive                   Pig

                    Map Reduce                      HBase

                                             HDFS




FR — Big Data Congress, Paris 2012 — 17/23
Solutions Big Data

             Hive                   Pig       Mahout

                    Map Reduce                         HBase

                                             HDFS




FR — Big Data Congress, Paris 2012 — 17/23
Solutions Big Data




                                                               Zookeeper
             Hive                   Pig       Mahout

                    Map Reduce                         HBase

                                             HDFS




FR — Big Data Congress, Paris 2012 — 17/23
´
Points cles

     Vers une Science ultra-empirique?

     Big Data pour la Recherche et l’Industrie : mode d’emploi

                       ´    ´
     Hadoop et les donnees geographiques et temporelles




FR — Big Data Congress, Paris 2012 — 18/23
Hadoop-xyt
                     ´    ´
ou Hadoop et les donnees geographiques et temporelles

     Besoin
                                            ´
             retraitement et fouille de donnees historiques
               ´                   ´
             (geographiques et series temporelles)
                  ´ ´      ´
             Accelerer la decouverte d’anomalies et l’extraction de
                         ´
             valeur ajoutee

          ´
     Problematique
                   ´   `           ´                     ´
             Donnees tres structurees - solution competitive?
                   ´      ´ ´                             ´
             Donnees correlees = pb du traitement independant?
                   ´        ´
             Donnees stockees en fichiers binaires - distribution?
                           ´    ` ´
             Algorithmes metier a reutiliser - interface Java?

FR — Big Data Congress, Paris 2012 — 19/23
Hadoop-xyt
                     ´    ´
ou Hadoop et les donnees geographiques et temporelles

     Besoin
                                            ´
             retraitement et fouille de donnees historiques
               ´                   ´
             (geographiques et series temporelles)
                  ´ ´      ´
             Accelerer la decouverte d’anomalies et l’extraction de
                         ´
             valeur ajoutee

          ´
     Problematique
                   ´   `           ´                     ´
             Donnees tres structurees - solution competitive?
                   ´      ´ ´                             ´
             Donnees correlees = pb du traitement independant?
                   ´        ´
             Donnees stockees en fichiers binaires - distribution?
                           ´    ` ´
             Algorithmes metier a reutiliser - interface Java?

FR — Big Data Congress, Paris 2012 — 19/23
Hadoop-xyt
                     ´    ´
ou Hadoop et les donnees geographiques et temporelles

     Besoin
                                            ´
             retraitement et fouille de donnees historiques
               ´                   ´
             (geographiques et series temporelles)
                  ´ ´      ´
             Accelerer la decouverte d’anomalies et l’extraction de
                         ´
             valeur ajoutee

          ´
     Problematique
                   ´   `           ´                     ´
             Donnees tres structurees - solution competitive?
                   ´      ´ ´                             ´
             Donnees correlees = pb du traitement independant?
                   ´        ´
             Donnees stockees en fichiers binaires - distribution?
                           ´    ` ´
             Algorithmes metier a reutiliser - interface Java?

FR — Big Data Congress, Paris 2012 — 19/23
Hadoop-xyt
                     ´    ´
ou Hadoop et les donnees geographiques et temporelles

     Besoin
                                            ´
             retraitement et fouille de donnees historiques
               ´                   ´
             (geographiques et series temporelles)
                  ´ ´      ´
             Accelerer la decouverte d’anomalies et l’extraction de
                         ´
             valeur ajoutee

          ´
     Problematique
                   ´   `           ´                     ´
             Donnees tres structurees - solution competitive?
                   ´      ´ ´                             ´
             Donnees correlees = pb du traitement independant?
                   ´        ´
             Donnees stockees en fichiers binaires - distribution?
                           ´    ` ´
             Algorithmes metier a reutiliser - interface Java?

FR — Big Data Congress, Paris 2012 — 19/23
Hadoop-xyt
                     ´    ´
ou Hadoop et les donnees geographiques et temporelles

     Besoin
                                            ´
             retraitement et fouille de donnees historiques
               ´                   ´
             (geographiques et series temporelles)
                  ´ ´      ´
             Accelerer la decouverte d’anomalies et l’extraction de
                         ´
             valeur ajoutee

          ´
     Problematique
                   ´   `           ´                     ´
             Donnees tres structurees - solution competitive?
                   ´      ´ ´                             ´
             Donnees correlees = pb du traitement independant?
                   ´        ´
             Donnees stockees en fichiers binaires - distribution?
                           ´    ` ´
             Algorithmes metier a reutiliser - interface Java?

FR — Big Data Congress, Paris 2012 — 19/23
Hadoop-xyt
                     ´    ´
ou Hadoop et les donnees geographiques et temporelles

     Besoin
                                            ´
             retraitement et fouille de donnees historiques
               ´                   ´
             (geographiques et series temporelles)
                  ´ ´      ´
             Accelerer la decouverte d’anomalies et l’extraction de
                         ´
             valeur ajoutee

          ´
     Problematique
                   ´   `           ´                     ´
             Donnees tres structurees - solution competitive?
                   ´      ´ ´                             ´
             Donnees correlees = pb du traitement independant?
                   ´        ´
             Donnees stockees en fichiers binaires - distribution?
                           ´    ` ´
             Algorithmes metier a reutiliser - interface Java?

FR — Big Data Congress, Paris 2012 — 19/23
Hadoop-xyt
                     ´    ´
ou Hadoop et les donnees geographiques et temporelles

     Besoin
                                            ´
             retraitement et fouille de donnees historiques
               ´                   ´
             (geographiques et series temporelles)
                  ´ ´      ´
             Accelerer la decouverte d’anomalies et l’extraction de
                         ´
             valeur ajoutee

          ´
     Problematique
                   ´   `           ´                     ´
             Donnees tres structurees - solution competitive?
                   ´      ´ ´                             ´
             Donnees correlees = pb du traitement independant?
                   ´        ´
             Donnees stockees en fichiers binaires - distribution?
                           ´    ` ´
             Algorithmes metier a reutiliser - interface Java?

FR — Big Data Congress, Paris 2012 — 19/23
Hadoop-xyt
                     ´    ´
ou Hadoop et les donnees geographiques et temporelles

     Besoin
                                            ´
             retraitement et fouille de donnees historiques
               ´                   ´
             (geographiques et series temporelles)
                  ´ ´      ´
             Accelerer la decouverte d’anomalies et l’extraction de
                         ´
             valeur ajoutee

          ´
     Problematique
                   ´   `           ´                     ´
             Donnees tres structurees - solution competitive?
                   ´      ´ ´                             ´
             Donnees correlees = pb du traitement independant?
                   ´        ´
             Donnees stockees en fichiers binaires - distribution?
                           ´    ` ´
             Algorithmes metier a reutiliser - interface Java?

FR — Big Data Congress, Paris 2012 — 19/23
Hadoop-xyt
     Traitement d’images
             Extraction + tiling + rendering
                                           `
             Calculs massivement paralleles = gain de temps +++




FR — Big Data Congress, Paris 2012 — 20/23
Hadoop-xyt
     Traitement d’images
             Extraction + tiling + rendering
                                           `
             Calculs massivement paralleles = gain de temps +++




FR — Big Data Congress, Paris 2012 — 20/23
Hadoop-xyt
     Traitement d’images
             Extraction + tiling + rendering
                                           `
             Calculs massivement paralleles = gain de temps +++




FR — Big Data Congress, Paris 2012 — 20/23
Hadoop-xyt
     Traitement d’images
             Extraction + tiling + rendering
                                           `
             Calculs massivement paralleles = gain de temps +++




FR — Big Data Congress, Paris 2012 — 20/23
Hadoop-xyt
     Traitement d’images
             Extraction + tiling + rendering
                                           `
             Calculs massivement paralleles = gain de temps +++




FR — Big Data Congress, Paris 2012 — 20/23
Hadoop-xyt
     Traitement d’images
             Extraction + tiling + rendering
                                           `
             Calculs massivement paralleles = gain de temps +++




FR — Big Data Congress, Paris 2012 — 20/23
Hadoop-xyt
     Traitement d’images
             Extraction + tiling + rendering
                                           `
             Calculs massivement paralleles = gain de temps +++




FR — Big Data Congress, Paris 2012 — 20/23
Hadoop-xyt
 ´                  ´
Geolocalisation de vehicules




FR — Big Data Congress, Paris 2012 — 21/23
´
                                                 Tracabilite
                                                    ¸               ´
                                                                  Oceanographie
   Transport terrestre




                                                                  Imagerie satellite
                ´
     Transport aerien                         ´ ´ ´
                                             Telemetrie - Argos
FR — Big Data Congress, Paris 2012 — 22/23
Datasio
We are Data Scientists

     Data Mining · Prototypage · Algorithmie ·
     Detection d’anomalies · Prediction · Machine
      ´                          ´
     Learning · Spatial data · Time series




                                             Francois Royer
                                                 ¸
                                              froyer@datasio.com
                                                 www.datasio.com

FR — Big Data Congress, Paris 2012 — 23/23

Contenu connexe

Tendances

Big Data Des méandres des outils au potentiel business
Big Data   Des méandres des outils au potentiel businessBig Data   Des méandres des outils au potentiel business
Big Data Des méandres des outils au potentiel business
Mouhsine LAKHDISSI
 
Cours Big Data Chap1
Cours Big Data Chap1Cours Big Data Chap1
Cours Big Data Chap1
Amal Abid
 
Big data - Cours d'introduction l Data-business
Big data - Cours d'introduction l Data-businessBig data - Cours d'introduction l Data-business
Big data - Cours d'introduction l Data-business
Vincent de Stoecklin
 
Conférence big data
Conférence big dataConférence big data
Conférence big data
Stéphane Traumat
 
La valeur des Big Data sera dans leurs usages
La valeur des Big Data sera dans leurs usagesLa valeur des Big Data sera dans leurs usages
La valeur des Big Data sera dans leurs usagesSAS FRANCE
 
Big Data... Big Analytics à travers les âges, les industries et les technologies
Big Data... Big Analytics à travers les âges, les industries et les technologiesBig Data... Big Analytics à travers les âges, les industries et les technologies
Big Data... Big Analytics à travers les âges, les industries et les technologies
Hassan Lâasri
 
Big data en (ré)assurance régis delayet
Big data en (ré)assurance   régis delayetBig data en (ré)assurance   régis delayet
Big data en (ré)assurance régis delayet
Kezhan SHI
 
Big Data, kesako ?
Big Data, kesako ?Big Data, kesako ?
Big Data, kesako ?
Christophe Aran
 
L'utilisation du Big Data en entreprise
L'utilisation du Big Data en entrepriseL'utilisation du Big Data en entreprise
L'utilisation du Big Data en entreprise
Mathieu Lahaye
 
Formation professionnelle "Big data : concepts et enjeux"
Formation professionnelle "Big data : concepts et enjeux"Formation professionnelle "Big data : concepts et enjeux"
Formation professionnelle "Big data : concepts et enjeux"
Philippe METAYER
 
Chapitre1 introduction
Chapitre1 introductionChapitre1 introduction
Chapitre1 introduction
Mouna Torjmen
 
Livre blanc "Big Data" de l'EBG
Livre blanc "Big Data" de l'EBGLivre blanc "Big Data" de l'EBG
Livre blanc "Big Data" de l'EBG
Margarita Zlatkova
 
Les enjeux du Big Data pour l'Entreprise - These professionnelle -Touria Engo...
Les enjeux du Big Data pour l'Entreprise - These professionnelle -Touria Engo...Les enjeux du Big Data pour l'Entreprise - These professionnelle -Touria Engo...
Les enjeux du Big Data pour l'Entreprise - These professionnelle -Touria Engo...
Touria Engohan
 
Atelier 2AM / BIG DATA LAB by Groupe CARTEGIE
Atelier 2AM / BIG DATA LAB by Groupe CARTEGIEAtelier 2AM / BIG DATA LAB by Groupe CARTEGIE
Atelier 2AM / BIG DATA LAB by Groupe CARTEGIE
Groupe IDAIA
 
Présentation Big Data DFCG
Présentation Big Data DFCGPrésentation Big Data DFCG
Présentation Big Data DFCG
Micropole Group
 
Programme Big Data
Programme Big DataProgramme Big Data
Analyse spatiale en Big data
Analyse spatiale en Big dataAnalyse spatiale en Big data
Analyse spatiale en Big data
Soufiane ElATEF✔️
 
La Big Data et ses applications
La Big Data et ses applicationsLa Big Data et ses applications
La Big Data et ses applications
Affinity Engine
 
BIG DATA
BIG DATABIG DATA
BIG DATA
laurence allard
 

Tendances (20)

Big Data Des méandres des outils au potentiel business
Big Data   Des méandres des outils au potentiel businessBig Data   Des méandres des outils au potentiel business
Big Data Des méandres des outils au potentiel business
 
Cours Big Data Chap1
Cours Big Data Chap1Cours Big Data Chap1
Cours Big Data Chap1
 
I love BIG DATA
I love BIG DATAI love BIG DATA
I love BIG DATA
 
Big data - Cours d'introduction l Data-business
Big data - Cours d'introduction l Data-businessBig data - Cours d'introduction l Data-business
Big data - Cours d'introduction l Data-business
 
Conférence big data
Conférence big dataConférence big data
Conférence big data
 
La valeur des Big Data sera dans leurs usages
La valeur des Big Data sera dans leurs usagesLa valeur des Big Data sera dans leurs usages
La valeur des Big Data sera dans leurs usages
 
Big Data... Big Analytics à travers les âges, les industries et les technologies
Big Data... Big Analytics à travers les âges, les industries et les technologiesBig Data... Big Analytics à travers les âges, les industries et les technologies
Big Data... Big Analytics à travers les âges, les industries et les technologies
 
Big data en (ré)assurance régis delayet
Big data en (ré)assurance   régis delayetBig data en (ré)assurance   régis delayet
Big data en (ré)assurance régis delayet
 
Big Data, kesako ?
Big Data, kesako ?Big Data, kesako ?
Big Data, kesako ?
 
L'utilisation du Big Data en entreprise
L'utilisation du Big Data en entrepriseL'utilisation du Big Data en entreprise
L'utilisation du Big Data en entreprise
 
Formation professionnelle "Big data : concepts et enjeux"
Formation professionnelle "Big data : concepts et enjeux"Formation professionnelle "Big data : concepts et enjeux"
Formation professionnelle "Big data : concepts et enjeux"
 
Chapitre1 introduction
Chapitre1 introductionChapitre1 introduction
Chapitre1 introduction
 
Livre blanc "Big Data" de l'EBG
Livre blanc "Big Data" de l'EBGLivre blanc "Big Data" de l'EBG
Livre blanc "Big Data" de l'EBG
 
Les enjeux du Big Data pour l'Entreprise - These professionnelle -Touria Engo...
Les enjeux du Big Data pour l'Entreprise - These professionnelle -Touria Engo...Les enjeux du Big Data pour l'Entreprise - These professionnelle -Touria Engo...
Les enjeux du Big Data pour l'Entreprise - These professionnelle -Touria Engo...
 
Atelier 2AM / BIG DATA LAB by Groupe CARTEGIE
Atelier 2AM / BIG DATA LAB by Groupe CARTEGIEAtelier 2AM / BIG DATA LAB by Groupe CARTEGIE
Atelier 2AM / BIG DATA LAB by Groupe CARTEGIE
 
Présentation Big Data DFCG
Présentation Big Data DFCGPrésentation Big Data DFCG
Présentation Big Data DFCG
 
Programme Big Data
Programme Big DataProgramme Big Data
Programme Big Data
 
Analyse spatiale en Big data
Analyse spatiale en Big dataAnalyse spatiale en Big data
Analyse spatiale en Big data
 
La Big Data et ses applications
La Big Data et ses applicationsLa Big Data et ses applications
La Big Data et ses applications
 
BIG DATA
BIG DATABIG DATA
BIG DATA
 

En vedette

BIG DATA - Cloud Computing
BIG DATA - Cloud ComputingBIG DATA - Cloud Computing
BIG DATA - Cloud Computing
senejug
 
Big Data : concepts, cas d'usage et tendances
Big Data : concepts, cas d'usage et tendancesBig Data : concepts, cas d'usage et tendances
Big Data : concepts, cas d'usage et tendances
Jean-Michel Franco
 
Azure Data Lake, le Big Data 2.0 - SQL Saturday Montreal 2017
Azure Data Lake, le Big Data 2.0 - SQL Saturday Montreal 2017Azure Data Lake, le Big Data 2.0 - SQL Saturday Montreal 2017
Azure Data Lake, le Big Data 2.0 - SQL Saturday Montreal 2017
Jean-Pierre Riehl
 
BigData_Chp1: Introduction à la Big Data
BigData_Chp1: Introduction à la Big DataBigData_Chp1: Introduction à la Big Data
BigData_Chp1: Introduction à la Big Data
Lilia Sfaxi
 
Business & Decision - Atteignez le ROI2 sur vos projets Data - Congrès Big Da...
Business & Decision - Atteignez le ROI2 sur vos projets Data - Congrès Big Da...Business & Decision - Atteignez le ROI2 sur vos projets Data - Congrès Big Da...
Business & Decision - Atteignez le ROI2 sur vos projets Data - Congrès Big Da...
Business & Decision
 
BigData_Chp4: NOSQL
BigData_Chp4: NOSQLBigData_Chp4: NOSQL
BigData_Chp4: NOSQL
Lilia Sfaxi
 
Big Data: Concepts, techniques et démonstration de Apache Hadoop
Big Data: Concepts, techniques et démonstration de Apache HadoopBig Data: Concepts, techniques et démonstration de Apache Hadoop
Big Data: Concepts, techniques et démonstration de Apache Hadoop
hajlaoui jaleleddine
 
Soft Computing & IBM : Digital, Big Data & DMP
Soft Computing & IBM : Digital, Big Data & DMPSoft Computing & IBM : Digital, Big Data & DMP
Soft Computing & IBM : Digital, Big Data & DMP
Soft Computing
 
Présentation pfe Big Data Hachem SELMI et Ahmed DRIDI
Présentation pfe Big Data Hachem SELMI et Ahmed DRIDIPrésentation pfe Big Data Hachem SELMI et Ahmed DRIDI
Présentation pfe Big Data Hachem SELMI et Ahmed DRIDI
HaShem Selmi
 
Big data ppt
Big  data pptBig  data ppt
Big data ppt
Nasrin Hussain
 

En vedette (10)

BIG DATA - Cloud Computing
BIG DATA - Cloud ComputingBIG DATA - Cloud Computing
BIG DATA - Cloud Computing
 
Big Data : concepts, cas d'usage et tendances
Big Data : concepts, cas d'usage et tendancesBig Data : concepts, cas d'usage et tendances
Big Data : concepts, cas d'usage et tendances
 
Azure Data Lake, le Big Data 2.0 - SQL Saturday Montreal 2017
Azure Data Lake, le Big Data 2.0 - SQL Saturday Montreal 2017Azure Data Lake, le Big Data 2.0 - SQL Saturday Montreal 2017
Azure Data Lake, le Big Data 2.0 - SQL Saturday Montreal 2017
 
BigData_Chp1: Introduction à la Big Data
BigData_Chp1: Introduction à la Big DataBigData_Chp1: Introduction à la Big Data
BigData_Chp1: Introduction à la Big Data
 
Business & Decision - Atteignez le ROI2 sur vos projets Data - Congrès Big Da...
Business & Decision - Atteignez le ROI2 sur vos projets Data - Congrès Big Da...Business & Decision - Atteignez le ROI2 sur vos projets Data - Congrès Big Da...
Business & Decision - Atteignez le ROI2 sur vos projets Data - Congrès Big Da...
 
BigData_Chp4: NOSQL
BigData_Chp4: NOSQLBigData_Chp4: NOSQL
BigData_Chp4: NOSQL
 
Big Data: Concepts, techniques et démonstration de Apache Hadoop
Big Data: Concepts, techniques et démonstration de Apache HadoopBig Data: Concepts, techniques et démonstration de Apache Hadoop
Big Data: Concepts, techniques et démonstration de Apache Hadoop
 
Soft Computing & IBM : Digital, Big Data & DMP
Soft Computing & IBM : Digital, Big Data & DMPSoft Computing & IBM : Digital, Big Data & DMP
Soft Computing & IBM : Digital, Big Data & DMP
 
Présentation pfe Big Data Hachem SELMI et Ahmed DRIDI
Présentation pfe Big Data Hachem SELMI et Ahmed DRIDIPrésentation pfe Big Data Hachem SELMI et Ahmed DRIDI
Présentation pfe Big Data Hachem SELMI et Ahmed DRIDI
 
Big data ppt
Big  data pptBig  data ppt
Big data ppt
 

Similaire à Datasio - Big Data Congress Paris 2012

Big Analytics : les usages avant tout
Big Analytics : les usages avant toutBig Analytics : les usages avant tout
Big Analytics : les usages avant toutSAS FRANCE
 
La data n’a pas besoin d’être « big » pour générer de la valeur
La data n’a pas besoin d’être « big » pour générer de la valeurLa data n’a pas besoin d’être « big » pour générer de la valeur
La data n’a pas besoin d’être « big » pour générer de la valeur
Microsoft Ideas
 
Compte-rendu de session
Compte-rendu de sessionCompte-rendu de session
Compte-rendu de session
kmichel69
 
Introduction au Big data
Introduction au Big data Introduction au Big data
Introduction au Big data
fatimabenjelloun1
 
Le Data Engineer qui veut se faire aussi gros que le Data Scientist
Le Data Engineer qui veut se faire aussi gros que le Data ScientistLe Data Engineer qui veut se faire aussi gros que le Data Scientist
Le Data Engineer qui veut se faire aussi gros que le Data Scientist
Bachir Aitmbarek
 
Présentation Dataveyes journalisme de donnees
Présentation Dataveyes  journalisme de donneesPrésentation Dataveyes  journalisme de donnees
Présentation Dataveyes journalisme de donnees
liberTIC
 
Matinée Découverte Big Data & Data Science - 24012017
Matinée Découverte Big Data & Data Science - 24012017Matinée Découverte Big Data & Data Science - 24012017
Matinée Découverte Big Data & Data Science - 24012017
Micropole Group
 
Séminaire BIG DATA, SYNTHÈSE - ORSYS Formation
Séminaire BIG DATA, SYNTHÈSE - ORSYS FormationSéminaire BIG DATA, SYNTHÈSE - ORSYS Formation
Séminaire BIG DATA, SYNTHÈSE - ORSYS Formation
ORSYS
 
Bluemix Paris Meetup : Big data et Analytics - 15 avril 2015
Bluemix Paris Meetup :  Big data et Analytics - 15 avril 2015Bluemix Paris Meetup :  Big data et Analytics - 15 avril 2015
Bluemix Paris Meetup : Big data et Analytics - 15 avril 2015IBM France Lab
 
Webinaire Business&Decision - Trifacta
Webinaire  Business&Decision - TrifactaWebinaire  Business&Decision - Trifacta
Webinaire Business&Decision - Trifacta
Victor Coustenoble
 
AGMQ 2011 : Les données libres et le territoire
AGMQ 2011 : Les données libres et le territoireAGMQ 2011 : Les données libres et le territoire
AGMQ 2011 : Les données libres et le territoire
noucher
 
Quel est l'avenir des stratégies de données?
Quel est l'avenir des stratégies de données?Quel est l'avenir des stratégies de données?
Quel est l'avenir des stratégies de données?
Denodo
 
Colloque IMT -04/04/2019- L'IA au cœur des mutations industrielles - Introduc...
Colloque IMT -04/04/2019- L'IA au cœur des mutations industrielles - Introduc...Colloque IMT -04/04/2019- L'IA au cœur des mutations industrielles - Introduc...
Colloque IMT -04/04/2019- L'IA au cœur des mutations industrielles - Introduc...
I MT
 
Comment planter son projet data ? Par Thomas GERBAUD PhD OceanData.io
Comment planter son projet data ? Par Thomas GERBAUD PhD OceanData.ioComment planter son projet data ? Par Thomas GERBAUD PhD OceanData.io
Comment planter son projet data ? Par Thomas GERBAUD PhD OceanData.io
Hervé Bourdon
 
Introduction au datamining partiel 1.pdf
Introduction au datamining partiel 1.pdfIntroduction au datamining partiel 1.pdf
Introduction au datamining partiel 1.pdf
amarasidibeavm
 
2014 Présentation pour la soutenance du probatoire "Big Data"de galsungen
2014 Présentation pour la soutenance du probatoire "Big Data"de galsungen2014 Présentation pour la soutenance du probatoire "Big Data"de galsungen
2014 Présentation pour la soutenance du probatoire "Big Data"de galsungen
Galsungen
 
Mc jacquemot piv2017_c
Mc jacquemot piv2017_cMc jacquemot piv2017_c
Mc jacquemot piv2017_c
Bertrand Tavitian
 
Analytics & Machine Learning avec la Data Virtualization
Analytics & Machine Learning avec la Data VirtualizationAnalytics & Machine Learning avec la Data Virtualization
Analytics & Machine Learning avec la Data Virtualization
Denodo
 
Gestion et implantation de la sécurité dans les projets d\'intelligence d\'af...
Gestion et implantation de la sécurité dans les projets d\'intelligence d\'af...Gestion et implantation de la sécurité dans les projets d\'intelligence d\'af...
Gestion et implantation de la sécurité dans les projets d\'intelligence d\'af...
Youssef Loudiyi
 
Assurtech : Big Data & Plateformes
Assurtech : Big Data & PlateformesAssurtech : Big Data & Plateformes
Assurtech : Big Data & Plateformes
Serrerom
 

Similaire à Datasio - Big Data Congress Paris 2012 (20)

Big Analytics : les usages avant tout
Big Analytics : les usages avant toutBig Analytics : les usages avant tout
Big Analytics : les usages avant tout
 
La data n’a pas besoin d’être « big » pour générer de la valeur
La data n’a pas besoin d’être « big » pour générer de la valeurLa data n’a pas besoin d’être « big » pour générer de la valeur
La data n’a pas besoin d’être « big » pour générer de la valeur
 
Compte-rendu de session
Compte-rendu de sessionCompte-rendu de session
Compte-rendu de session
 
Introduction au Big data
Introduction au Big data Introduction au Big data
Introduction au Big data
 
Le Data Engineer qui veut se faire aussi gros que le Data Scientist
Le Data Engineer qui veut se faire aussi gros que le Data ScientistLe Data Engineer qui veut se faire aussi gros que le Data Scientist
Le Data Engineer qui veut se faire aussi gros que le Data Scientist
 
Présentation Dataveyes journalisme de donnees
Présentation Dataveyes  journalisme de donneesPrésentation Dataveyes  journalisme de donnees
Présentation Dataveyes journalisme de donnees
 
Matinée Découverte Big Data & Data Science - 24012017
Matinée Découverte Big Data & Data Science - 24012017Matinée Découverte Big Data & Data Science - 24012017
Matinée Découverte Big Data & Data Science - 24012017
 
Séminaire BIG DATA, SYNTHÈSE - ORSYS Formation
Séminaire BIG DATA, SYNTHÈSE - ORSYS FormationSéminaire BIG DATA, SYNTHÈSE - ORSYS Formation
Séminaire BIG DATA, SYNTHÈSE - ORSYS Formation
 
Bluemix Paris Meetup : Big data et Analytics - 15 avril 2015
Bluemix Paris Meetup :  Big data et Analytics - 15 avril 2015Bluemix Paris Meetup :  Big data et Analytics - 15 avril 2015
Bluemix Paris Meetup : Big data et Analytics - 15 avril 2015
 
Webinaire Business&Decision - Trifacta
Webinaire  Business&Decision - TrifactaWebinaire  Business&Decision - Trifacta
Webinaire Business&Decision - Trifacta
 
AGMQ 2011 : Les données libres et le territoire
AGMQ 2011 : Les données libres et le territoireAGMQ 2011 : Les données libres et le territoire
AGMQ 2011 : Les données libres et le territoire
 
Quel est l'avenir des stratégies de données?
Quel est l'avenir des stratégies de données?Quel est l'avenir des stratégies de données?
Quel est l'avenir des stratégies de données?
 
Colloque IMT -04/04/2019- L'IA au cœur des mutations industrielles - Introduc...
Colloque IMT -04/04/2019- L'IA au cœur des mutations industrielles - Introduc...Colloque IMT -04/04/2019- L'IA au cœur des mutations industrielles - Introduc...
Colloque IMT -04/04/2019- L'IA au cœur des mutations industrielles - Introduc...
 
Comment planter son projet data ? Par Thomas GERBAUD PhD OceanData.io
Comment planter son projet data ? Par Thomas GERBAUD PhD OceanData.ioComment planter son projet data ? Par Thomas GERBAUD PhD OceanData.io
Comment planter son projet data ? Par Thomas GERBAUD PhD OceanData.io
 
Introduction au datamining partiel 1.pdf
Introduction au datamining partiel 1.pdfIntroduction au datamining partiel 1.pdf
Introduction au datamining partiel 1.pdf
 
2014 Présentation pour la soutenance du probatoire "Big Data"de galsungen
2014 Présentation pour la soutenance du probatoire "Big Data"de galsungen2014 Présentation pour la soutenance du probatoire "Big Data"de galsungen
2014 Présentation pour la soutenance du probatoire "Big Data"de galsungen
 
Mc jacquemot piv2017_c
Mc jacquemot piv2017_cMc jacquemot piv2017_c
Mc jacquemot piv2017_c
 
Analytics & Machine Learning avec la Data Virtualization
Analytics & Machine Learning avec la Data VirtualizationAnalytics & Machine Learning avec la Data Virtualization
Analytics & Machine Learning avec la Data Virtualization
 
Gestion et implantation de la sécurité dans les projets d\'intelligence d\'af...
Gestion et implantation de la sécurité dans les projets d\'intelligence d\'af...Gestion et implantation de la sécurité dans les projets d\'intelligence d\'af...
Gestion et implantation de la sécurité dans les projets d\'intelligence d\'af...
 
Assurtech : Big Data & Plateformes
Assurtech : Big Data & PlateformesAssurtech : Big Data & Plateformes
Assurtech : Big Data & Plateformes
 

Datasio - Big Data Congress Paris 2012

  • 1. BIG DATA en Sciences et Industries de l’Environnement Francois Royer ¸ www.datasio.com 21 mars 2012 FR — Big Data Congress, Paris 2012 — 1/23
  • 2. ´ Tracabilite ¸ ´ Oceanographie Transport terrestre Imagerie satellite ´ Transport aerien ´ ´ ´ Telemetrie - Argos FR — Big Data Congress, Paris 2012 — 2/23
  • 3. ´ Points cles Vers une Science ultra-empirique? Big Data pour la Recherche et l’Industrie : mode d’emploi ´ ´ Hadoop et les donnees geographiques et temporelles FR — Big Data Congress, Paris 2012 — 3/23
  • 4. ´ Points cles Vers une Science ultra-empirique? Big Data pour la Recherche et l’Industrie : mode d’emploi ´ ´ Hadoop et les donnees geographiques et temporelles FR — Big Data Congress, Paris 2012 — 4/23
  • 5. ` L’ere du ”Data Scientist” ´ ´ L’accumulation exponentielle de donnees transforme la demarche d’analyse 1960 E. Wigner, ”The Unreasonable Effectiveness of Mathematics in the Natural Sciences,” Comm. Pure and Applied Mathematics, vol. 13, no. 1, pp. 1–14. 2009 A. Halevy, P. Norvig, F. Pereira, ”The Unreasonable Effectiveness of Data,” IEEE Intelligent Systems, vol. 24, no. 2, pp. 8-12. FR — Big Data Congress, Paris 2012 — 5/23
  • 6. ` L’ere du ”Data Scientist” ´ ´ L’accumulation exponentielle de donnees transforme la demarche d’analyse 1960 E. Wigner, ”The Unreasonable Effectiveness of Mathematics in the Natural Sciences,” Comm. Pure and Applied Mathematics, vol. 13, no. 1, pp. 1–14. 2009 A. Halevy, P. Norvig, F. Pereira, ”The Unreasonable Effectiveness of Data,” IEEE Intelligent Systems, vol. 24, no. 2, pp. 8-12. FR — Big Data Congress, Paris 2012 — 5/23
  • 7. All models are wrong, “ but some are useful. ” George Box FR — Big Data Congress, Paris 2012 — 6/23
  • 8. Data Scientist ´ = nouveau metier? Ce qui ne change pas ´ Le besoin en competences statistiques ´ ´ (Bayesiennes, frequentistes etc...) ´ La demarche de questionnement et de critique ´ Les protocoles de collecte de donnees Ce qui change ´ Le stockage et le traitement de donnees ´ ´ L’interaction entre modelisateurs, ingenieurs ` ´ systemes et bases de donnees et ... le client FR — Big Data Congress, Paris 2012 — 7/23
  • 9. Data Scientist ´ = nouveau metier? Ce qui ne change pas ´ Le besoin en competences statistiques ´ ´ (Bayesiennes, frequentistes etc...) ´ La demarche de questionnement et de critique ´ Les protocoles de collecte de donnees Ce qui change ´ Le stockage et le traitement de donnees ´ ´ L’interaction entre modelisateurs, ingenieurs ` ´ systemes et bases de donnees et ... le client FR — Big Data Congress, Paris 2012 — 7/23
  • 10. Data Scientist ´ = nouveau metier? Ce qui ne change pas ´ Le besoin en competences statistiques ´ ´ (Bayesiennes, frequentistes etc...) ´ La demarche de questionnement et de critique ´ Les protocoles de collecte de donnees Ce qui change ´ Le stockage et le traitement de donnees ´ ´ L’interaction entre modelisateurs, ingenieurs ` ´ systemes et bases de donnees et ... le client FR — Big Data Congress, Paris 2012 — 7/23
  • 11. Data Scientist ´ = nouveau metier? Ce qui ne change pas ´ Le besoin en competences statistiques ´ ´ (Bayesiennes, frequentistes etc...) ´ La demarche de questionnement et de critique ´ Les protocoles de collecte de donnees Ce qui change ´ Le stockage et le traitement de donnees ´ ´ L’interaction entre modelisateurs, ingenieurs ` ´ systemes et bases de donnees et ... le client FR — Big Data Congress, Paris 2012 — 7/23
  • 12. Data Scientist ´ = nouveau metier? Ce qui ne change pas ´ Le besoin en competences statistiques ´ ´ (Bayesiennes, frequentistes etc...) ´ La demarche de questionnement et de critique ´ Les protocoles de collecte de donnees Ce qui change ´ Le stockage et le traitement de donnees ´ ´ L’interaction entre modelisateurs, ingenieurs ` ´ systemes et bases de donnees et ... le client FR — Big Data Congress, Paris 2012 — 7/23
  • 13. Data Scientist ´ = nouveau metier? Ce qui ne change pas ´ Le besoin en competences statistiques ´ ´ (Bayesiennes, frequentistes etc...) ´ La demarche de questionnement et de critique ´ Les protocoles de collecte de donnees Ce qui change ´ Le stockage et le traitement de donnees ´ ´ L’interaction entre modelisateurs, ingenieurs ` ´ systemes et bases de donnees et ... le client FR — Big Data Congress, Paris 2012 — 7/23
  • 14. Data Scientist ´ = nouveau metier? Ce qui ne change pas ´ Le besoin en competences statistiques ´ ´ (Bayesiennes, frequentistes etc...) ´ La demarche de questionnement et de critique ´ Les protocoles de collecte de donnees Ce qui change ´ Le stockage et le traitement de donnees ´ ´ L’interaction entre modelisateurs, ingenieurs ` ´ systemes et bases de donnees et ... le client FR — Big Data Congress, Paris 2012 — 7/23
  • 15. ´ Points cles Vers une Science ultra-empirique? Big Data pour la Recherche et l’Industrie : mode d’emploi ´ ´ Hadoop et les donnees geographiques et temporelles FR — Big Data Congress, Paris 2012 — 8/23
  • 16. ´ Definition Big Data = gros volume (> 10 TB) Imagerie satellite 1-10 GB/jour ` ´ ´ ´ Systemes geolocalises (vehicules, personnes) 100 MB/jour ` ´ ´ Modeles meteo 100 GB/jour Simulateurs (traffic routier etc...) 100 GB/run Big Data + Big Process ´ ´ ´ Donnees pre-traitees (GPS) Cout d’analyse - ˆ ´ Aggregation, contextualisation Cout d’analyse + ˆ Appels BD Cout d’analyse +++ ˆ Calculs en cascade Cout d’analyse +++ ˆ FR — Big Data Congress, Paris 2012 — 9/23
  • 17. ´ Definition Big Data = gros volume (> 10 TB) Imagerie satellite 1-10 GB/jour ` ´ ´ ´ Systemes geolocalises (vehicules, personnes) 100 MB/jour ` ´ ´ Modeles meteo 100 GB/jour Simulateurs (traffic routier etc...) 100 GB/run Big Data + Big Process ´ ´ ´ Donnees pre-traitees (GPS) Cout d’analyse - ˆ ´ Aggregation, contextualisation Cout d’analyse + ˆ Appels BD Cout d’analyse +++ ˆ Calculs en cascade Cout d’analyse +++ ˆ FR — Big Data Congress, Paris 2012 — 9/23
  • 18. ´ Definition Big Data = gros volume (> 10 TB) Imagerie satellite 1-10 GB/jour ` ´ ´ ´ Systemes geolocalises (vehicules, personnes) 100 MB/jour ` ´ ´ Modeles meteo 100 GB/jour Simulateurs (traffic routier etc...) 100 GB/run Big Data + Big Process ´ ´ ´ Donnees pre-traitees (GPS) Cout d’analyse - ˆ ´ Aggregation, contextualisation Cout d’analyse + ˆ Appels BD Cout d’analyse +++ ˆ Calculs en cascade Cout d’analyse +++ ˆ FR — Big Data Congress, Paris 2012 — 9/23
  • 19. ´ Definition Big Data = gros volume (> 10 TB) Imagerie satellite 1-10 GB/jour ` ´ ´ ´ Systemes geolocalises (vehicules, personnes) 100 MB/jour ` ´ ´ Modeles meteo 100 GB/jour Simulateurs (traffic routier etc...) 100 GB/run Big Data + Big Process ´ ´ ´ Donnees pre-traitees (GPS) Cout d’analyse - ˆ ´ Aggregation, contextualisation Cout d’analyse + ˆ Appels BD Cout d’analyse +++ ˆ Calculs en cascade Cout d’analyse +++ ˆ FR — Big Data Congress, Paris 2012 — 9/23
  • 20. ´ Definition Big Data = gros volume (> 10 TB) Imagerie satellite 1-10 GB/jour ` ´ ´ ´ Systemes geolocalises (vehicules, personnes) 100 MB/jour ` ´ ´ Modeles meteo 100 GB/jour Simulateurs (traffic routier etc...) 100 GB/run Big Data + Big Process ´ ´ ´ Donnees pre-traitees (GPS) Cout d’analyse - ˆ ´ Aggregation, contextualisation Cout d’analyse + ˆ Appels BD Cout d’analyse +++ ˆ Calculs en cascade Cout d’analyse +++ ˆ FR — Big Data Congress, Paris 2012 — 9/23
  • 21. ´ Definition Big Data = gros volume (> 10 TB) Imagerie satellite 1-10 GB/jour ` ´ ´ ´ Systemes geolocalises (vehicules, personnes) 100 MB/jour ` ´ ´ Modeles meteo 100 GB/jour Simulateurs (traffic routier etc...) 100 GB/run Big Data + Big Process ´ ´ ´ Donnees pre-traitees (GPS) Cout d’analyse - ˆ ´ Aggregation, contextualisation Cout d’analyse + ˆ Appels BD Cout d’analyse +++ ˆ Calculs en cascade Cout d’analyse +++ ˆ FR — Big Data Congress, Paris 2012 — 9/23
  • 22. ´ Definition Big Data = gros volume (> 10 TB) Imagerie satellite 1-10 GB/jour ` ´ ´ ´ Systemes geolocalises (vehicules, personnes) 100 MB/jour ` ´ ´ Modeles meteo 100 GB/jour Simulateurs (traffic routier etc...) 100 GB/run Big Data + Big Process ´ ´ ´ Donnees pre-traitees (GPS) Cout d’analyse - ˆ ´ Aggregation, contextualisation Cout d’analyse + ˆ Appels BD Cout d’analyse +++ ˆ Calculs en cascade Cout d’analyse +++ ˆ FR — Big Data Congress, Paris 2012 — 9/23
  • 23. ´ Definition Big Data = gros volume (> 10 TB) Imagerie satellite 1-10 GB/jour ` ´ ´ ´ Systemes geolocalises (vehicules, personnes) 100 MB/jour ` ´ ´ Modeles meteo 100 GB/jour Simulateurs (traffic routier etc...) 100 GB/run Big Data + Big Process ´ ´ ´ Donnees pre-traitees (GPS) Cout d’analyse - ˆ ´ Aggregation, contextualisation Cout d’analyse + ˆ Appels BD Cout d’analyse +++ ˆ Calculs en cascade Cout d’analyse +++ ˆ FR — Big Data Congress, Paris 2012 — 9/23
  • 24. ´ Definition Big Data = gros volume (> 10 TB) Imagerie satellite 1-10 GB/jour ` ´ ´ ´ Systemes geolocalises (vehicules, personnes) 100 MB/jour ` ´ ´ Modeles meteo 100 GB/jour Simulateurs (traffic routier etc...) 100 GB/run Big Data + Big Process ´ ´ ´ Donnees pre-traitees (GPS) Cout d’analyse - ˆ ´ Aggregation, contextualisation Cout d’analyse + ˆ Appels BD Cout d’analyse +++ ˆ Calculs en cascade Cout d’analyse +++ ˆ FR — Big Data Congress, Paris 2012 — 9/23
  • 25. ´ Definition Big Data = gros volume (> 10 TB) Imagerie satellite 1-10 GB/jour ` ´ ´ ´ Systemes geolocalises (vehicules, personnes) 100 MB/jour ` ´ ´ Modeles meteo 100 GB/jour Simulateurs (traffic routier etc...) 100 GB/run Big Data + Big Process ´ ´ ´ Donnees pre-traitees (GPS) Cout d’analyse - ˆ ´ Aggregation, contextualisation Cout d’analyse + ˆ Appels BD Cout d’analyse +++ ˆ Calculs en cascade Cout d’analyse +++ ˆ FR — Big Data Congress, Paris 2012 — 9/23
  • 26. Diagnostic Big Data ` Docteur, ais-je un probleme Big Data? Oui, si : ´ Vous avez un reseau d’observation autonome ´ ´ (capteurs meteo, RFID, GPS, balises Argos, ´ ´ ` smartphones, telemetres, instruments sur satellites...) ´ ´ Vos donnees dependent d’une communaute ´ ´ ´ d’utilisateurs ou d’individus instrumentes (etude de la ´ ´ mobilite humaine, ecologie terrestre et marine etc... ) Votre budget, programme de recherche ou business ´ plan prevoit de ”mesurer d’abord, traiter ensuite” ` Ces systemes de collecte produisent des flots de ´ donnees plus vite que vous ne pouvez les traiter FR — Big Data Congress, Paris 2012 — 10/23
  • 27. Diagnostic Big Data ` Docteur, ais-je un probleme Big Data? Oui, si : ´ Vous avez un reseau d’observation autonome ´ ´ (capteurs meteo, RFID, GPS, balises Argos, ´ ´ ` smartphones, telemetres, instruments sur satellites...) ´ ´ Vos donnees dependent d’une communaute ´ ´ ´ d’utilisateurs ou d’individus instrumentes (etude de la ´ ´ mobilite humaine, ecologie terrestre et marine etc... ) Votre budget, programme de recherche ou business ´ plan prevoit de ”mesurer d’abord, traiter ensuite” ` Ces systemes de collecte produisent des flots de ´ donnees plus vite que vous ne pouvez les traiter FR — Big Data Congress, Paris 2012 — 10/23
  • 28. Diagnostic Big Data ` Docteur, ais-je un probleme Big Data? Oui, si : ´ Vous avez un reseau d’observation autonome ´ ´ (capteurs meteo, RFID, GPS, balises Argos, ´ ´ ` smartphones, telemetres, instruments sur satellites...) ´ ´ Vos donnees dependent d’une communaute ´ ´ ´ d’utilisateurs ou d’individus instrumentes (etude de la ´ ´ mobilite humaine, ecologie terrestre et marine etc... ) Votre budget, programme de recherche ou business ´ plan prevoit de ”mesurer d’abord, traiter ensuite” ` Ces systemes de collecte produisent des flots de ´ donnees plus vite que vous ne pouvez les traiter FR — Big Data Congress, Paris 2012 — 10/23
  • 29. Diagnostic Big Data ` Docteur, ais-je un probleme Big Data? Oui, si : ´ Vous avez un reseau d’observation autonome ´ ´ (capteurs meteo, RFID, GPS, balises Argos, ´ ´ ` smartphones, telemetres, instruments sur satellites...) ´ ´ Vos donnees dependent d’une communaute ´ ´ ´ d’utilisateurs ou d’individus instrumentes (etude de la ´ ´ mobilite humaine, ecologie terrestre et marine etc... ) Votre budget, programme de recherche ou business ´ plan prevoit de ”mesurer d’abord, traiter ensuite” ` Ces systemes de collecte produisent des flots de ´ donnees plus vite que vous ne pouvez les traiter FR — Big Data Congress, Paris 2012 — 10/23
  • 30. Diagnostic Big Data ` Docteur, ais-je un probleme Big Data? Oui, si : ´ Vous avez un reseau d’observation autonome ´ ´ (capteurs meteo, RFID, GPS, balises Argos, ´ ´ ` smartphones, telemetres, instruments sur satellites...) ´ ´ Vos donnees dependent d’une communaute ´ ´ ´ d’utilisateurs ou d’individus instrumentes (etude de la ´ ´ mobilite humaine, ecologie terrestre et marine etc... ) Votre budget, programme de recherche ou business ´ plan prevoit de ”mesurer d’abord, traiter ensuite” ` Ces systemes de collecte produisent des flots de ´ donnees plus vite que vous ne pouvez les traiter FR — Big Data Congress, Paris 2012 — 10/23
  • 31. Diagnostic Big Data C’est grave, Docteur? Tout ira bien, “ je vais vous prescrire du DevOps et des calculs ´ distribues. ” FR — Big Data Congress, Paris 2012 — 11/23
  • 32. Solutions Big Data FR — Big Data Congress, Paris 2012 — 12/23
  • 33. Solutions Big Data Dev FR — Big Data Congress, Paris 2012 — 12/23
  • 34. Solutions Big Data ´ Operations Dev FR — Big Data Congress, Paris 2012 — 12/23
  • 35. Solutions Big Data ´ Operations QA Dev FR — Big Data Congress, Paris 2012 — 12/23
  • 36. Solutions Big Data ´ Operations DevOps QA Dev FR — Big Data Congress, Paris 2012 — 12/23
  • 37. Solutions Big Data Hier Noeuds de stockage ´ ´ peripheriques Stockage sur plusieurs niveaux ”chaud”/”froid” Supercalculateur au centre Data -> Code FR — Big Data Congress, Paris 2012 — 13/23
  • 38. Solutions Big Data Hier Noeuds de stockage ´ ´ peripheriques Stockage sur plusieurs niveaux ”chaud”/”froid” Supercalculateur au centre Data -> Code FR — Big Data Congress, Paris 2012 — 13/23
  • 39. Solutions Big Data Hier Noeuds de stockage ´ ´ peripheriques Stockage sur plusieurs niveaux ”chaud”/”froid” Supercalculateur au centre Data -> Code FR — Big Data Congress, Paris 2012 — 13/23
  • 40. Solutions Big Data Hier Noeuds de stockage ´ ´ peripheriques Stockage sur plusieurs niveaux ”chaud”/”froid” Supercalculateur au centre Data -> Code FR — Big Data Congress, Paris 2012 — 13/23
  • 41. Solutions Big Data Aujourd’hui ˆ ´ Noeuds de stockage sur meme reseau GB ´ Materiel milieu de gamme (100 - 1000 CPUs) ` ´ Systeme de fichiers distribues (DFS) ´ Gestion des jobs et donnees par des Master Nodes Code -> Data FR — Big Data Congress, Paris 2012 — 14/23
  • 42. Solutions Big Data Aujourd’hui ˆ ´ Noeuds de stockage sur meme reseau GB ´ Materiel milieu de gamme (100 - 1000 CPUs) ` ´ Systeme de fichiers distribues (DFS) ´ Gestion des jobs et donnees par des Master Nodes Code -> Data FR — Big Data Congress, Paris 2012 — 14/23
  • 43. Solutions Big Data Aujourd’hui ˆ ´ Noeuds de stockage sur meme reseau GB ´ Materiel milieu de gamme (100 - 1000 CPUs) ` ´ Systeme de fichiers distribues (DFS) ´ Gestion des jobs et donnees par des Master Nodes Code -> Data FR — Big Data Congress, Paris 2012 — 14/23
  • 44. Solutions Big Data Aujourd’hui ˆ ´ Noeuds de stockage sur meme reseau GB ´ Materiel milieu de gamme (100 - 1000 CPUs) ` ´ Systeme de fichiers distribues (DFS) ´ Gestion des jobs et donnees par des Master Nodes Code -> Data FR — Big Data Congress, Paris 2012 — 14/23
  • 45. Solutions Big Data Aujourd’hui ˆ ´ Noeuds de stockage sur meme reseau GB ´ Materiel milieu de gamme (100 - 1000 CPUs) ` ´ Systeme de fichiers distribues (DFS) ´ Gestion des jobs et donnees par des Master Nodes Code -> Data FR — Big Data Congress, Paris 2012 — 14/23
  • 46. Solutions Big Data Aujourd’hui ˆ ´ Noeuds de stockage sur meme reseau GB ´ Materiel milieu de gamme (100 - 1000 CPUs) ` ´ Systeme de fichiers distribues (DFS) ´ Gestion des jobs et donnees par des Master Nodes Code -> Data FR — Big Data Congress, Paris 2012 — 14/23
  • 47. Solutions Big Data Pourquoi Hadoop? Open source (fondation Apache, ouvert par Yahoo) ´ Projet en maturation, communaute active ´ ˆ ´ Parallelisation de taches et donnees robuste ´ Standard de facto en analyse de donnees massives ´ ´ Bonne interoperabilite avec les data warehouse et BDs existantes (ETL, Hive, Sqoop) Offres commerciales (support, packaging, ´ integration: IBM, Cloudera, AWS...) FR — Big Data Congress, Paris 2012 — 15/23
  • 48. Solutions Big Data Pourquoi Hadoop? Open source (fondation Apache, ouvert par Yahoo) ´ Projet en maturation, communaute active ´ ˆ ´ Parallelisation de taches et donnees robuste ´ Standard de facto en analyse de donnees massives ´ ´ Bonne interoperabilite avec les data warehouse et BDs existantes (ETL, Hive, Sqoop) Offres commerciales (support, packaging, ´ integration: IBM, Cloudera, AWS...) FR — Big Data Congress, Paris 2012 — 15/23
  • 49. Solutions Big Data Pourquoi Hadoop? Open source (fondation Apache, ouvert par Yahoo) ´ Projet en maturation, communaute active ´ ˆ ´ Parallelisation de taches et donnees robuste ´ Standard de facto en analyse de donnees massives ´ ´ Bonne interoperabilite avec les data warehouse et BDs existantes (ETL, Hive, Sqoop) Offres commerciales (support, packaging, ´ integration: IBM, Cloudera, AWS...) FR — Big Data Congress, Paris 2012 — 15/23
  • 50. Solutions Big Data Pourquoi Hadoop? Open source (fondation Apache, ouvert par Yahoo) ´ Projet en maturation, communaute active ´ ˆ ´ Parallelisation de taches et donnees robuste ´ Standard de facto en analyse de donnees massives ´ ´ Bonne interoperabilite avec les data warehouse et BDs existantes (ETL, Hive, Sqoop) Offres commerciales (support, packaging, ´ integration: IBM, Cloudera, AWS...) FR — Big Data Congress, Paris 2012 — 15/23
  • 51. Solutions Big Data Pourquoi Hadoop? Open source (fondation Apache, ouvert par Yahoo) ´ Projet en maturation, communaute active ´ ˆ ´ Parallelisation de taches et donnees robuste ´ Standard de facto en analyse de donnees massives ´ ´ Bonne interoperabilite avec les data warehouse et BDs existantes (ETL, Hive, Sqoop) Offres commerciales (support, packaging, ´ integration: IBM, Cloudera, AWS...) FR — Big Data Congress, Paris 2012 — 15/23
  • 52. Solutions Big Data Pourquoi Hadoop? Open source (fondation Apache, ouvert par Yahoo) ´ Projet en maturation, communaute active ´ ˆ ´ Parallelisation de taches et donnees robuste ´ Standard de facto en analyse de donnees massives ´ ´ Bonne interoperabilite avec les data warehouse et BDs existantes (ETL, Hive, Sqoop) Offres commerciales (support, packaging, ´ integration: IBM, Cloudera, AWS...) FR — Big Data Congress, Paris 2012 — 15/23
  • 53. Solutions Big Data Pourquoi Hadoop? Open source (fondation Apache, ouvert par Yahoo) ´ Projet en maturation, communaute active ´ ˆ ´ Parallelisation de taches et donnees robuste ´ Standard de facto en analyse de donnees massives ´ ´ Bonne interoperabilite avec les data warehouse et BDs existantes (ETL, Hive, Sqoop) Offres commerciales (support, packaging, ´ integration: IBM, Cloudera, AWS...) FR — Big Data Congress, Paris 2012 — 15/23
  • 54. Solutions Big Data Pourquoi Hadoop? ` Difficile a ”tuner” pour des jobs complexes Encore confidentiel en France (cf. groupe Hadoop France sur LinkedIn) Difficile de formuler certains algorithmes sous forme map-reduce ´ Embauche et formation de developpeurs et analystes Autres alternatives disponibles (BSP, Storm, Disco...) FR — Big Data Congress, Paris 2012 — 16/23
  • 55. Solutions Big Data Pourquoi Hadoop? ` Difficile a ”tuner” pour des jobs complexes Encore confidentiel en France (cf. groupe Hadoop France sur LinkedIn) Difficile de formuler certains algorithmes sous forme map-reduce ´ Embauche et formation de developpeurs et analystes Autres alternatives disponibles (BSP, Storm, Disco...) FR — Big Data Congress, Paris 2012 — 16/23
  • 56. Solutions Big Data Pourquoi Hadoop? ` Difficile a ”tuner” pour des jobs complexes Encore confidentiel en France (cf. groupe Hadoop France sur LinkedIn) Difficile de formuler certains algorithmes sous forme map-reduce ´ Embauche et formation de developpeurs et analystes Autres alternatives disponibles (BSP, Storm, Disco...) FR — Big Data Congress, Paris 2012 — 16/23
  • 57. Solutions Big Data Pourquoi Hadoop? ` Difficile a ”tuner” pour des jobs complexes Encore confidentiel en France (cf. groupe Hadoop France sur LinkedIn) Difficile de formuler certains algorithmes sous forme map-reduce ´ Embauche et formation de developpeurs et analystes Autres alternatives disponibles (BSP, Storm, Disco...) FR — Big Data Congress, Paris 2012 — 16/23
  • 58. Solutions Big Data Pourquoi Hadoop? ` Difficile a ”tuner” pour des jobs complexes Encore confidentiel en France (cf. groupe Hadoop France sur LinkedIn) Difficile de formuler certains algorithmes sous forme map-reduce ´ Embauche et formation de developpeurs et analystes Autres alternatives disponibles (BSP, Storm, Disco...) FR — Big Data Congress, Paris 2012 — 16/23
  • 59. Solutions Big Data Pourquoi Hadoop? ` Difficile a ”tuner” pour des jobs complexes Encore confidentiel en France (cf. groupe Hadoop France sur LinkedIn) Difficile de formuler certains algorithmes sous forme map-reduce ´ Embauche et formation de developpeurs et analystes Autres alternatives disponibles (BSP, Storm, Disco...) FR — Big Data Congress, Paris 2012 — 16/23
  • 60. Solutions Big Data FR — Big Data Congress, Paris 2012 — 17/23
  • 61. Solutions Big Data HDFS FR — Big Data Congress, Paris 2012 — 17/23
  • 62. Solutions Big Data Map Reduce HDFS FR — Big Data Congress, Paris 2012 — 17/23
  • 63. Solutions Big Data Map Reduce HBase HDFS FR — Big Data Congress, Paris 2012 — 17/23
  • 64. Solutions Big Data Hive Map Reduce HBase HDFS FR — Big Data Congress, Paris 2012 — 17/23
  • 65. Solutions Big Data Hive Pig Map Reduce HBase HDFS FR — Big Data Congress, Paris 2012 — 17/23
  • 66. Solutions Big Data Hive Pig Mahout Map Reduce HBase HDFS FR — Big Data Congress, Paris 2012 — 17/23
  • 67. Solutions Big Data Zookeeper Hive Pig Mahout Map Reduce HBase HDFS FR — Big Data Congress, Paris 2012 — 17/23
  • 68. ´ Points cles Vers une Science ultra-empirique? Big Data pour la Recherche et l’Industrie : mode d’emploi ´ ´ Hadoop et les donnees geographiques et temporelles FR — Big Data Congress, Paris 2012 — 18/23
  • 69. Hadoop-xyt ´ ´ ou Hadoop et les donnees geographiques et temporelles Besoin ´ retraitement et fouille de donnees historiques ´ ´ (geographiques et series temporelles) ´ ´ ´ Accelerer la decouverte d’anomalies et l’extraction de ´ valeur ajoutee ´ Problematique ´ ` ´ ´ Donnees tres structurees - solution competitive? ´ ´ ´ ´ Donnees correlees = pb du traitement independant? ´ ´ Donnees stockees en fichiers binaires - distribution? ´ ` ´ Algorithmes metier a reutiliser - interface Java? FR — Big Data Congress, Paris 2012 — 19/23
  • 70. Hadoop-xyt ´ ´ ou Hadoop et les donnees geographiques et temporelles Besoin ´ retraitement et fouille de donnees historiques ´ ´ (geographiques et series temporelles) ´ ´ ´ Accelerer la decouverte d’anomalies et l’extraction de ´ valeur ajoutee ´ Problematique ´ ` ´ ´ Donnees tres structurees - solution competitive? ´ ´ ´ ´ Donnees correlees = pb du traitement independant? ´ ´ Donnees stockees en fichiers binaires - distribution? ´ ` ´ Algorithmes metier a reutiliser - interface Java? FR — Big Data Congress, Paris 2012 — 19/23
  • 71. Hadoop-xyt ´ ´ ou Hadoop et les donnees geographiques et temporelles Besoin ´ retraitement et fouille de donnees historiques ´ ´ (geographiques et series temporelles) ´ ´ ´ Accelerer la decouverte d’anomalies et l’extraction de ´ valeur ajoutee ´ Problematique ´ ` ´ ´ Donnees tres structurees - solution competitive? ´ ´ ´ ´ Donnees correlees = pb du traitement independant? ´ ´ Donnees stockees en fichiers binaires - distribution? ´ ` ´ Algorithmes metier a reutiliser - interface Java? FR — Big Data Congress, Paris 2012 — 19/23
  • 72. Hadoop-xyt ´ ´ ou Hadoop et les donnees geographiques et temporelles Besoin ´ retraitement et fouille de donnees historiques ´ ´ (geographiques et series temporelles) ´ ´ ´ Accelerer la decouverte d’anomalies et l’extraction de ´ valeur ajoutee ´ Problematique ´ ` ´ ´ Donnees tres structurees - solution competitive? ´ ´ ´ ´ Donnees correlees = pb du traitement independant? ´ ´ Donnees stockees en fichiers binaires - distribution? ´ ` ´ Algorithmes metier a reutiliser - interface Java? FR — Big Data Congress, Paris 2012 — 19/23
  • 73. Hadoop-xyt ´ ´ ou Hadoop et les donnees geographiques et temporelles Besoin ´ retraitement et fouille de donnees historiques ´ ´ (geographiques et series temporelles) ´ ´ ´ Accelerer la decouverte d’anomalies et l’extraction de ´ valeur ajoutee ´ Problematique ´ ` ´ ´ Donnees tres structurees - solution competitive? ´ ´ ´ ´ Donnees correlees = pb du traitement independant? ´ ´ Donnees stockees en fichiers binaires - distribution? ´ ` ´ Algorithmes metier a reutiliser - interface Java? FR — Big Data Congress, Paris 2012 — 19/23
  • 74. Hadoop-xyt ´ ´ ou Hadoop et les donnees geographiques et temporelles Besoin ´ retraitement et fouille de donnees historiques ´ ´ (geographiques et series temporelles) ´ ´ ´ Accelerer la decouverte d’anomalies et l’extraction de ´ valeur ajoutee ´ Problematique ´ ` ´ ´ Donnees tres structurees - solution competitive? ´ ´ ´ ´ Donnees correlees = pb du traitement independant? ´ ´ Donnees stockees en fichiers binaires - distribution? ´ ` ´ Algorithmes metier a reutiliser - interface Java? FR — Big Data Congress, Paris 2012 — 19/23
  • 75. Hadoop-xyt ´ ´ ou Hadoop et les donnees geographiques et temporelles Besoin ´ retraitement et fouille de donnees historiques ´ ´ (geographiques et series temporelles) ´ ´ ´ Accelerer la decouverte d’anomalies et l’extraction de ´ valeur ajoutee ´ Problematique ´ ` ´ ´ Donnees tres structurees - solution competitive? ´ ´ ´ ´ Donnees correlees = pb du traitement independant? ´ ´ Donnees stockees en fichiers binaires - distribution? ´ ` ´ Algorithmes metier a reutiliser - interface Java? FR — Big Data Congress, Paris 2012 — 19/23
  • 76. Hadoop-xyt ´ ´ ou Hadoop et les donnees geographiques et temporelles Besoin ´ retraitement et fouille de donnees historiques ´ ´ (geographiques et series temporelles) ´ ´ ´ Accelerer la decouverte d’anomalies et l’extraction de ´ valeur ajoutee ´ Problematique ´ ` ´ ´ Donnees tres structurees - solution competitive? ´ ´ ´ ´ Donnees correlees = pb du traitement independant? ´ ´ Donnees stockees en fichiers binaires - distribution? ´ ` ´ Algorithmes metier a reutiliser - interface Java? FR — Big Data Congress, Paris 2012 — 19/23
  • 77. Hadoop-xyt Traitement d’images Extraction + tiling + rendering ` Calculs massivement paralleles = gain de temps +++ FR — Big Data Congress, Paris 2012 — 20/23
  • 78. Hadoop-xyt Traitement d’images Extraction + tiling + rendering ` Calculs massivement paralleles = gain de temps +++ FR — Big Data Congress, Paris 2012 — 20/23
  • 79. Hadoop-xyt Traitement d’images Extraction + tiling + rendering ` Calculs massivement paralleles = gain de temps +++ FR — Big Data Congress, Paris 2012 — 20/23
  • 80. Hadoop-xyt Traitement d’images Extraction + tiling + rendering ` Calculs massivement paralleles = gain de temps +++ FR — Big Data Congress, Paris 2012 — 20/23
  • 81. Hadoop-xyt Traitement d’images Extraction + tiling + rendering ` Calculs massivement paralleles = gain de temps +++ FR — Big Data Congress, Paris 2012 — 20/23
  • 82. Hadoop-xyt Traitement d’images Extraction + tiling + rendering ` Calculs massivement paralleles = gain de temps +++ FR — Big Data Congress, Paris 2012 — 20/23
  • 83. Hadoop-xyt Traitement d’images Extraction + tiling + rendering ` Calculs massivement paralleles = gain de temps +++ FR — Big Data Congress, Paris 2012 — 20/23
  • 84. Hadoop-xyt ´ ´ Geolocalisation de vehicules FR — Big Data Congress, Paris 2012 — 21/23
  • 85. ´ Tracabilite ¸ ´ Oceanographie Transport terrestre Imagerie satellite ´ Transport aerien ´ ´ ´ Telemetrie - Argos FR — Big Data Congress, Paris 2012 — 22/23
  • 86. Datasio We are Data Scientists Data Mining · Prototypage · Algorithmie · Detection d’anomalies · Prediction · Machine ´ ´ Learning · Spatial data · Time series Francois Royer ¸ froyer@datasio.com www.datasio.com FR — Big Data Congress, Paris 2012 — 23/23