Big Data

                   Détails d’une mise en œuvre
Hervé Desaunois
 Responsable IT
Méthodologie    Cas d’utilisation Valtech




Architecture!   Tendance Big Data
Sommaire

Méthodologie


      Ò  Présentation
      Ò  Cas d’utilisation
      Ò  Architecture
      Ò  Cas Pratique
      Ò  Conclusion
      Ò  Références
      Ò  Annexes




                              3
Big Data / Méthodologie


La mise en place d’une démarche Big Data est toujours
composée de trois étapes :

   Ò  Collecter, stocker les données.

   Ò  Analyser, explorer, corréler, agréger les données.

   Ò  Visualiser, exploiter.
Architecture
Architecture Big Data
                                                                BUSINESS
 LES DONNEES
  COLLECTER




                                Audio,      Docs,                       Social,        Capteurs,
                                                        Web logs,                                   Spatial,
                                Vidéo,      Texte,                      Graphs,         Graphs,                      Autres
                                                         Clicks,                                     GPS
                                Image        XML                         RSS,            RSS,
   STOCKAGE & ORGANISATION




                                    Base de données                 Distributed File
                                    Orientée colonne                                                 Base de
                                                                        System
                                         NoSQL                                                     données SQL
   EXTRACTION




                                                       Map Reduce                                              SQL
VISUALISER

ANALYSER




                                           Analytiques , Business Intelligent
    &
Architecture Big Data
                                                                BUSINESS
 LES DONNEES
  COLLECTER




                                Audio,       Docs,                      Social,      Capteurs,
                                                        Web logs,                                 Spatial,
                                Vidéo,       Texte,                     Graphs,       Graphs,                      Autres
                                                         Clicks,                                   GPS
                                Image         XML                        RSS,          RSS,
   STOCKAGE & ORGANISATION




                                    HBase, Big Table,               HDFS, GFS, S3,
                                      Cassandra,                                                 Oracle, DB2,
                                                                          …
                                     DynamoDB, …                                                  MySQL, …
   EXTRACTION




                                                                                                             SQL
VISUALISER

ANALYSER
    &
Cas d’utilisation Valtech eReputation
Sommaire

Itération I


        Ò  Présentation
        Ò  Cas d’utilisation
        Ò  Architecture
        Ò  Cas Pratique
        Ò  Conclusion
        Ò  Références
        Ò  Annexes




                                9
Cas d’utilisation Valtech eReputation

                        ERM
                     MapReduce




                S3
  DynamoDB



                                 eReputation
                                   Server




                                                Histogramme
                                               Client RIA GWT
Collecter les données


             Connecteurs Web Service




   Web Service / Rest      Web Service / Rest    Web Service / Rest
Google Custom Search API   Twitter Search API   Facebook Search API
Stockage


     Base de données Orientée
             Colonne
Organisation




   Modèle de données – Attributs, éléments et tables
Organisation




  Modèle de données – Attributs, éléments et tables
Extraction



      Amazon Elastic MapReduce
Analyser


    Stocker les réponses sur S3
Analyser


  Visualisation du résultat sur S3
Visualiser

             Client RIA GWT
Démo eReputation Valtech
BIG DATA Complexité




 Big Data                                         Big Data
                                              Self Intelligent ?



                                                Data
                                              Scientist


            Big Data + Business Intelligent = ROI
Sommaire

Itération II


        Ò  Présentation
        Ò  Cas d’utilisation
        Ò  Architecture
        Ò  Cas Pratique
        Ò  Conclusion
        Ò  Références
        Ò  Annexes




                                21
Cas d’utilisation Valtech eReputation

                         MapReduce




                                       New
                                      SaaS

                    S3
  DynamoDB

                                                   New
                                     eReputation
                                       Server




New           New
Aujourd'hui

• Volumes de données importants (Tera, Peta, ..)

• De l’infiniment petit (génomique) à l’infiniment grand (astrophysique)

• Du plus quotidien (reconnaissance de l’écriture manuscrite sur les enveloppes) au
moins quotidien (aide au pilotage aéronautique)

• Du plus ouvert (e-commerce) au plus sécuritaire (détection de la fraude dans la
téléphonie mobile ou les cartes bancaires)

• Du plus industriel (contrôle qualité…) au plus théorique (sciences humaines,
biologie…)

• Du plus alimentaire (agronomie et agroalimentaire) au plus divertissant (prévisions
d’audience TV)

• Systèmes d’aide à la décision plus ou moins automatiques


                                              © Stéphane Tufféry
Machine Learning



  L'apprentissage automatique (machine learning en
  anglais), un des champs d'étude de l'intelligence artificielle,
  est la discipline scientifique concernée par le développement,
  l'analyse et l'implémentation de méthodes automatisables qui
  permettent à une machine (au sens large) d'évoluer grâce à
  un processus d'apprentissage, et ainsi de remplir des tâches
  qu'il est difficile ou impossible de remplir par des
  moyens algorithmiques plus classiques.
Analyse - Algorithme Machine Learning




   Recommandation

   Classification
   Cluster
Analyse sémantique



 Natural Language Processing




                  Utilisation d’une solution
                              de
     ”Catégorisation de document – Machine learning”
Analyse sémantique


   Natural Language Processing

Catégorisation : Expertise java

Ò  26 mai 2008 – Grâce à son expertise Java, Valtech Technology s'associe avec
    Talend pour améliorer l'agilité des systèmes d'information de ses clients.
Ò  Cédric Bertrand, Consultant confirmé JAVA/J2EE, Valtech de Paris (Ile-de-France).
Ò  Valtech Agency propose une triple maîtrise dans les domaines du conseil, ... Des
    compétences de développement Java, ..
Ò  Valtech: conseil en management, en technologies. Conseil et projets ebusiness,
    agence web, Offshore, Formation nouvelles technologies, objet, Java EE
Ò  Au travers du déroulement itératif d'un projet, vous utiliserez des techniques moins
    connues de programmation Java comme la gestion poussée des Threads
Analyser


       Algorithme de clusters
              K-Means
Data Scientist



     L’intelligence des données
     Web Mining & Text Mining
Analyser -

       Algorithme Data Mining
Tendance Big Data
Gartner talk

« D'ici 2015, 4,4 millions d'emplois informatiques seront créés dans
le monde pour soutenir le Big Data, dont 1,9 millions aux Etat-
Unis », a déclaré Peter Sondergaard, senior vice-président et
responsable mondial de la recherche chez Gartner.




                      Wanted
                   « Data Scientist »
                  100 000 to 500 000 $
Valtech Web Scientiste



     L’intelligence des données
     Web Mining & Text Mining
Big Data tendance Cloud
Big Data full solution
Thank you
Tarification!


Ò  ERM :
    http://aws.amazon.com/fr/elasticmapreduce/#pricing
Ò  DynamoDB :
    http://aws.amazon.com/fr/dynamodb/#pricing
Ò  S3 : http://aws.amazon.com/fr/s3/pricing/
Ò  EC2 : http://aws.amazon.com/fr/ec2/pricing/

Valtech - Big Data : Détails d’une mise en œuvre

  • 1.
    Big Data Détails d’une mise en œuvre Hervé Desaunois Responsable IT
  • 2.
    Méthodologie Cas d’utilisation Valtech Architecture! Tendance Big Data
  • 3.
    Sommaire Méthodologie Ò  Présentation Ò  Cas d’utilisation Ò  Architecture Ò  Cas Pratique Ò  Conclusion Ò  Références Ò  Annexes 3
  • 4.
    Big Data /Méthodologie La mise en place d’une démarche Big Data est toujours composée de trois étapes : Ò  Collecter, stocker les données. Ò  Analyser, explorer, corréler, agréger les données. Ò  Visualiser, exploiter.
  • 5.
  • 6.
    Architecture Big Data BUSINESS LES DONNEES COLLECTER Audio, Docs, Social, Capteurs, Web logs, Spatial, Vidéo, Texte, Graphs, Graphs, Autres Clicks, GPS Image XML RSS, RSS, STOCKAGE & ORGANISATION Base de données Distributed File Orientée colonne Base de System NoSQL données SQL EXTRACTION Map Reduce SQL VISUALISER ANALYSER Analytiques , Business Intelligent &
  • 7.
    Architecture Big Data BUSINESS LES DONNEES COLLECTER Audio, Docs, Social, Capteurs, Web logs, Spatial, Vidéo, Texte, Graphs, Graphs, Autres Clicks, GPS Image XML RSS, RSS, STOCKAGE & ORGANISATION HBase, Big Table, HDFS, GFS, S3, Cassandra, Oracle, DB2, … DynamoDB, … MySQL, … EXTRACTION SQL VISUALISER ANALYSER &
  • 8.
  • 9.
    Sommaire Itération I Ò  Présentation Ò  Cas d’utilisation Ò  Architecture Ò  Cas Pratique Ò  Conclusion Ò  Références Ò  Annexes 9
  • 10.
    Cas d’utilisation ValtecheReputation ERM MapReduce S3 DynamoDB eReputation Server Histogramme Client RIA GWT
  • 11.
    Collecter les données Connecteurs Web Service Web Service / Rest Web Service / Rest Web Service / Rest Google Custom Search API Twitter Search API Facebook Search API
  • 12.
    Stockage Base de données Orientée Colonne
  • 13.
    Organisation Modèle de données – Attributs, éléments et tables
  • 14.
    Organisation Modèlede données – Attributs, éléments et tables
  • 15.
    Extraction Amazon Elastic MapReduce
  • 16.
    Analyser Stocker les réponses sur S3
  • 17.
    Analyser Visualisationdu résultat sur S3
  • 18.
    Visualiser Client RIA GWT
  • 19.
  • 20.
    BIG DATA Complexité Big Data Big Data Self Intelligent ? Data Scientist Big Data + Business Intelligent = ROI
  • 21.
    Sommaire Itération II Ò  Présentation Ò  Cas d’utilisation Ò  Architecture Ò  Cas Pratique Ò  Conclusion Ò  Références Ò  Annexes 21
  • 22.
    Cas d’utilisation ValtecheReputation MapReduce New SaaS S3 DynamoDB New eReputation Server New New
  • 23.
    Aujourd'hui • Volumes de donnéesimportants (Tera, Peta, ..) • De l’infiniment petit (génomique) à l’infiniment grand (astrophysique) • Du plus quotidien (reconnaissance de l’écriture manuscrite sur les enveloppes) au moins quotidien (aide au pilotage aéronautique) • Du plus ouvert (e-commerce) au plus sécuritaire (détection de la fraude dans la téléphonie mobile ou les cartes bancaires) • Du plus industriel (contrôle qualité…) au plus théorique (sciences humaines, biologie…) • Du plus alimentaire (agronomie et agroalimentaire) au plus divertissant (prévisions d’audience TV) • Systèmes d’aide à la décision plus ou moins automatiques © Stéphane Tufféry
  • 24.
    Machine Learning L'apprentissage automatique (machine learning en anglais), un des champs d'étude de l'intelligence artificielle, est la discipline scientifique concernée par le développement, l'analyse et l'implémentation de méthodes automatisables qui permettent à une machine (au sens large) d'évoluer grâce à un processus d'apprentissage, et ainsi de remplir des tâches qu'il est difficile ou impossible de remplir par des moyens algorithmiques plus classiques.
  • 25.
    Analyse - AlgorithmeMachine Learning Recommandation Classification Cluster
  • 26.
    Analyse sémantique NaturalLanguage Processing Utilisation d’une solution de ”Catégorisation de document – Machine learning”
  • 27.
    Analyse sémantique Natural Language Processing Catégorisation : Expertise java Ò  26 mai 2008 – Grâce à son expertise Java, Valtech Technology s'associe avec Talend pour améliorer l'agilité des systèmes d'information de ses clients. Ò  Cédric Bertrand, Consultant confirmé JAVA/J2EE, Valtech de Paris (Ile-de-France). Ò  Valtech Agency propose une triple maîtrise dans les domaines du conseil, ... Des compétences de développement Java, .. Ò  Valtech: conseil en management, en technologies. Conseil et projets ebusiness, agence web, Offshore, Formation nouvelles technologies, objet, Java EE Ò  Au travers du déroulement itératif d'un projet, vous utiliserez des techniques moins connues de programmation Java comme la gestion poussée des Threads
  • 28.
    Analyser Algorithme de clusters K-Means
  • 29.
    Data Scientist L’intelligence des données Web Mining & Text Mining
  • 30.
    Analyser - Algorithme Data Mining
  • 31.
  • 32.
    Gartner talk « D'ici2015, 4,4 millions d'emplois informatiques seront créés dans le monde pour soutenir le Big Data, dont 1,9 millions aux Etat- Unis », a déclaré Peter Sondergaard, senior vice-président et responsable mondial de la recherche chez Gartner. Wanted « Data Scientist » 100 000 to 500 000 $
  • 33.
    Valtech Web Scientiste L’intelligence des données Web Mining & Text Mining
  • 34.
  • 35.
    Big Data fullsolution
  • 36.
  • 37.
    Tarification! Ò  ERM : http://aws.amazon.com/fr/elasticmapreduce/#pricing Ò  DynamoDB : http://aws.amazon.com/fr/dynamodb/#pricing Ò  S3 : http://aws.amazon.com/fr/s3/pricing/ Ò  EC2 : http://aws.amazon.com/fr/ec2/pricing/