Big Data
Charles Huot
Vice-Président
ADBS
12 février 2013
Qui est l’Aproged ?
• Association professionnelle créée en 1993
• Une centaine d’adhérents représentant les professionnels...
Livres blancs Aproged
V1 en janv 2012 V2 en oct 2012
Livres blancs Aproged
Document et Cloud
Juin 2012
Livres blancs Aproged
Content Analytics
Janvier 2013
Livres blancs Aproged
E-réputation et B2B
Février 2013
Références Big Data
• Big data, exploiter de grands volumes de données : quels
sont les enjeux pour les acteurs du marché ...
IDC: « Worldwide Big Data Taxonomy, 2011 »
Cap Gemini: « The Deciding Factor: Big Data & Decison Making »
McKinsey Global Institute: « Big data: The next Frontier for innovation, competition,
and productivity
« Nation’s most pressing challenges »
« Investissements d’Avenir »
Agenda de la formation APROGED
• Qu’est ce que le Big Data ? Exemples avec les données des réseaux
sociaux (Facebook, Twit...
Big Data et ADBS
• l’état de l’art technologique (de quoi on
parle ?)
• aux Enjeux :
– (r)évolution des traitements inform...
Désigne les masses de
données auxquelles sont
confrontés les acteurs du
secteur privé comme du
secteur public et qu’ils
ve...
Beaucoup plus de données
Vraiment beaucoup plus
Des puces RFID
pour tracer les vaches
Des capteurs sur
les réacteurs
d’avion
Des capteurs pour
suivre la
circulation
Accumuler des
données sur l’univers
Génome
Décrire les génomes
Concevoir ensemble
Jouer, acheter,
communiquer et
laisser des traces
numériques
Parler de soi et
des autres
Les ordres de grandeur
• Le volume de Big Data croît de 60% chaque année
• La valeur des données a dépassé celle du hardwa...
Big Data Projet technique
Ecosystème
http://gigaom.com/cloud/whos-connected-to-whom-in-hadoop-world-infographic/
Traitement de logs Applications verticales Business intelligence Analyse et visualisation
Analyse d’infrastructure Infra. ...
Data
data data data data data
data data data data data
data data data data data
data data data data data
data data data da...
Stockage
Traitement
La librairie Apache Hadoop permet de traiter de larges ensembles de données
de manière distribuée au t...
Gestion de fichiers
Hadoop Distributed File System HDFS
Map Reduce
Hadoop MapReduce
Traitement
graphes…
Giraph
Langages
Pi...
DataViz et BigData
des résultats visualisables, compréhensibles, interprétables
http://panneaux.expoviz.fr/post/24461221952/5-1-2
PHOTOGRAPHIER PARIS
LE CHOIX DES TOURISTES, CELUI DES HABITANTS
http://youtu.be/Ncon_z67VQs
Twitter Adoption
BigData & Applications
Une surabondance d’application à gérer!
Number&complexityof
technologies/datasources
Time Frame
eCommerce
Smarter
Planet
e...
L’offre, la proposition de valeur
• Les applications de traitement des logs
– IP-Label (la qualité perçue), Wallix, Splunk...
Les segments de clientèle visés
Les segments de clientèle visés
• Santé
– Chaque hôpital : 150 TB  650 TB en 2015 (imagerie médicale, données)
• Service ...
Time Line
client
Contrats
CRM
Collecter
Stocker
Extraire
Formaliser
Codifier
Réconcilier
Enrichir
Agréger
Organiser
Indexe...
La télévision et Twitter
R O I
Du ROI au ROD
Machines / Réseaux / Software BIG DATA
Volumes Efficacité
Return On Investment
R
Return On Data
O D
DÉFINITION : BUSINESS MODEL
Selon une définition actuelle qui fait
consensus, il s’agit d’un « outil » qui décrit
la façon...
Les segments
de clientèle
Les parte-
naires clefs
La structure
de coûts
Les flux de
revenus
Les canaux
de distribution
Les...
L’offre
Les canaux de
distribution
Les relations avec
le client
Les segments de
clientèle
Les flux de revenusLa structure ...
• Gratuité et applications et services spécialisés
• Gratuité et publicités
• Abonnement à des API
• Abonnement à d’autres...
BigData & Emploi
Une variété de talents
Source: McKinsey Global Institute: Big Data: The next frontier for innovation, competition and prod...
Une variété de talents
• Spécialistes en source de données
– Sources ouvertes
– Sources payantes
– Sources internes
• Term...
BigData & Science
Masses de Données Scientifiques: Enjeux et Perspectives
Les données : une matière première et des produits à forte
valeur ajoutée
• Commerce et les affaires
– SI d’entreprise, tr...
Une petite idée des volumes de données
!"#$%&' ($) ' ("*
Volume Exemple
1 gigabyte: 109
Information known in the human gen...
Caractéristiques
• Des recherches principalement tirées par
– Des applications industrielles
– L’émergence de nouvelles te...
Les grands verrous dans la gestion des masses de données
1. La virtualisation du stockage et de l’accès (Cloud).
2. L’inté...
Défi 1 : Stockage à grande échelle (Cloud)
• Bénéfices du Cloud
– Pas d’infrastructure à acquérir ni à gérer
• « Pay as yo...
Défi 2 : Analyse complexe à grande échelle
• Analyse en temps réel de flots continus de données
émanant de différentes sou...
Défi 3 : la gestion de flots d’événements
• Capture d’événements
– Politique de détection et de composition (requêtes sur ...
Défi 4 : La visualisation des masses de données
• Besoins
– Navigation intuitive/contextuelle
• desktop intelligent, résea...
Défi 5 : La préservation des données
• Comment préserver les données à durée de vie illimité?
– connaissances scientifique...
www.aproged.org
Merci
de votre
attention
Big Data, Charles Huot, Aproged,février 2013
Big Data, Charles Huot, Aproged,février 2013
Big Data, Charles Huot, Aproged,février 2013
Big Data, Charles Huot, Aproged,février 2013
Big Data, Charles Huot, Aproged,février 2013
Prochain SlideShare
Chargement dans…5
×

Big Data, Charles Huot, Aproged,février 2013

3 621 vues

Publié le

0 commentaire
2 j’aime
Statistiques
Remarques
  • Soyez le premier à commenter

Aucun téléchargement
Vues
Nombre de vues
3 621
Sur SlideShare
0
Issues des intégrations
0
Intégrations
1 461
Actions
Partages
0
Téléchargements
90
Commentaires
0
J’aime
2
Intégrations 0
Aucune incorporation

Aucune remarque pour cette diapositive

Big Data, Charles Huot, Aproged,février 2013

  1. 1. Big Data Charles Huot Vice-Président ADBS 12 février 2013
  2. 2. Qui est l’Aproged ? • Association professionnelle créée en 1993 • Une centaine d’adhérents représentant les professionnels de la valorisation des contenus numériques (indexation, linguistique, moteurs de recherche, sémantique, dématérialisation, gestion de contenu et de document, archivage, capture, éditique, workflow… ). • Au cœur de la réflexion sur la gestion et l’optimisation des contenus et des documents numériques • Rôle déterminant en matière d’information et d’études, de formation et de normalisation. • Fondateur du Forum des Acteurs du Numérique devenu en 2012 le Congrès national de la Valorisation des Contenus numériques
  3. 3. Livres blancs Aproged V1 en janv 2012 V2 en oct 2012
  4. 4. Livres blancs Aproged Document et Cloud Juin 2012
  5. 5. Livres blancs Aproged Content Analytics Janvier 2013
  6. 6. Livres blancs Aproged E-réputation et B2B Février 2013
  7. 7. Références Big Data • Big data, exploiter de grands volumes de données : quels sont les enjeux pour les acteurs du marché de l’information et de la connaissance ? (3 juillet 2012) Compte rendu Vivien Mann bientôt en ligne, • Jean DELAHOUSSE (Jean DELAHOUSSE Conseil) « Introduction au Big Data » • Gabriel KEPEKLIAN & Grégoire WIBAUX (ATOS) « Quels modèles économique pour le Big Data » • Daniel TERRUGI (INA) « Big Data, exploiter de grands volumes de donnée » • Mark ASCH (INSMI-CNRS) « L’exploitation des données scientifiques »
  8. 8. IDC: « Worldwide Big Data Taxonomy, 2011 »
  9. 9. Cap Gemini: « The Deciding Factor: Big Data & Decison Making »
  10. 10. McKinsey Global Institute: « Big data: The next Frontier for innovation, competition, and productivity
  11. 11. « Nation’s most pressing challenges »
  12. 12. « Investissements d’Avenir »
  13. 13. Agenda de la formation APROGED • Qu’est ce que le Big Data ? Exemples avec les données des réseaux sociaux (Facebook, Twitter …), l’Internet des objets (données des compteurs etc. …), l’Open Data, les données de géolocalisation etc. … • Technologies et métriques du Big Data – ce qu’on peut obtenir du Big Data - les technologies de stockage – les méthodes d’analyse de l’information – les techniques de visualisation – les techniques de restitution – • Les modèles économiques du Big Data, les acteurs - le rôle de l’Etat en France, en Europe, aux Etats-Unis – les projets soutenus par l’Etat français en 2013 après appel à projets – la valeur ajoutée apportée par le traitement – la valeur ajoutée apportée par le service – le modèle publicitaire • Aspects juridiques du projet – la propriété intellectuelle – le savoir- faire – Informatique et libertés (Cnil) – la Charte Ethique du Big Data de l’Aproged – Les contrats et les bonnes clauses
  14. 14. Big Data et ADBS • l’état de l’art technologique (de quoi on parle ?) • aux Enjeux : – (r)évolution des traitements informatiques – Principaux champs d’application – Enjeux en terme de gisement d’activité et d’emplois potentiels.
  15. 15. Désigne les masses de données auxquelles sont confrontés les acteurs du secteur privé comme du secteur public et qu’ils veulent/peuvent exploiter pour générer des nouveaux business et/ou être plus efficaces. Le Big Data : lieu d’innovation
  16. 16. Beaucoup plus de données Vraiment beaucoup plus
  17. 17. Des puces RFID pour tracer les vaches
  18. 18. Des capteurs sur les réacteurs d’avion
  19. 19. Des capteurs pour suivre la circulation
  20. 20. Accumuler des données sur l’univers
  21. 21. Génome Décrire les génomes
  22. 22. Concevoir ensemble
  23. 23. Jouer, acheter, communiquer et laisser des traces numériques
  24. 24. Parler de soi et des autres
  25. 25. Les ordres de grandeur • Le volume de Big Data croît de 60% chaque année • La valeur des données a dépassé celle du hardware 2015 20 Zetta (1021) 2030 1 Yotta (1024)
  26. 26. Big Data Projet technique
  27. 27. Ecosystème http://gigaom.com/cloud/whos-connected-to-whom-in-hadoop-world-infographic/
  28. 28. Traitement de logs Applications verticales Business intelligence Analyse et visualisation Analyse d’infrastructure Infra. opérationnelle Infra. as a Service Structuration Fournisseurs de données Technologies Petit aperçu du paysage
  29. 29. Data data data data data data data data data data data data data data data data data data data data data data data data data data data data data data data data data data data data data data data data data Compute Cluster DFS Block 1 DFS Block 1 DFS Block 1 DFS Block 2 DFS Block 2 DFS Block 2 DFS Block 3 DFS Block 3 Map Map Map Results data data data data data data data data data data data data data data data data data data data data data data data data data data data data data data data data data data data data data data data data Reduce Overview Image courtesy of the Apache Software Foundation
  30. 30. Stockage Traitement La librairie Apache Hadoop permet de traiter de larges ensembles de données de manière distribuée au travers de grappes d’ordinateurs en utilisant un modèle de programmation simple Hadoop Distributed File System
  31. 31. Gestion de fichiers Hadoop Distributed File System HDFS Map Reduce Hadoop MapReduce Traitement graphes… Giraph Langages Pig, Hive, Crunch, Sqoop ComposantsCoordination ...Zookeeper SGBDNoSql Hbase
  32. 32. DataViz et BigData des résultats visualisables, compréhensibles, interprétables
  33. 33. http://panneaux.expoviz.fr/post/24461221952/5-1-2 PHOTOGRAPHIER PARIS LE CHOIX DES TOURISTES, CELUI DES HABITANTS
  34. 34. http://youtu.be/Ncon_z67VQs Twitter Adoption
  35. 35. BigData & Applications
  36. 36. Une surabondance d’application à gérer! Number&complexityof technologies/datasources Time Frame eCommerce Smarter Planet eDiscovery Decision support Alerting Watson Predictions Historic Relationship Detection Pattern Detection Find influencers Brand management Climate Modeling And Prediction Investment Trend Detection Reputation management Voice of Customer Gov’t Intelligence Apps Log Analysis Future(Predict) Ad targeting Churn detection Find drug interactions Fraud Detection Source: IDC, Big Data and the information advantage Sue Feldman Sentiment extraction
  37. 37. L’offre, la proposition de valeur • Les applications de traitement des logs – IP-Label (la qualité perçue), Wallix, Splunk, Loggly, SumoLogic, … • Les applications verticales – BloomReach (big data marketing), … • Business intelligence – Oracle, SAP, BO, Cognos, SAS, GoodData, … • Analyse et visualisation – Pikko, GreenPlum, Palantir, Visual.ly, … • Fournisseurs de données – GNIP, INRIX, DataSift • Analyse d’infrastructure – Hortonworks, Cloudera, MapR,… • Infrastructure opérationnelle – CouchBase, Teradata, 10gen, … • Infrastructure as a Service – Amazon web services, Infochimps, WindowsAzure, … • Bases de données structurées – Oracle, MySQL, SQLServer, … • Technologies – Hadoop, HiBase, Cassandra, …
  38. 38. Les segments de clientèle visés
  39. 39. Les segments de clientèle visés • Santé – Chaque hôpital : 150 TB  650 TB en 2015 (imagerie médicale, données) • Service client – Il y a 4 ans 59% des clients quittaient leurs fournisseurs s’ils avaient une mauvaise prestation, aujourd’hui on est passé à 86% • Assurances, administrations – Elles font face à des fraudes en quantité croissante • Services financiers – L’information financière : par ex. le Dow Jones = 19.000 news par jour • Grandes distributions – Les ventes ratées pour défaut en stock représentent 170 M$ aux USA – L’analyse des tickets de caisse • Télécommunication – 5 milliards d’abonnés au portable qui attendent des services personnalisés • Ministères – La population de chaque pays, … • Bibliothèques – La pérennisation des fonds, des archives, … • Etc.
  40. 40. Time Line client Contrats CRM Collecter Stocker Extraire Formaliser Codifier Réconcilier Enrichir Agréger Organiser Indexer Donner accès Filtrer Représenter Action Affiner profil client Tableau de bord produits & processus CRM Marketing Comprendre, prévoir, agir
  41. 41. La télévision et Twitter
  42. 42. R O I Du ROI au ROD Machines / Réseaux / Software BIG DATA Volumes Efficacité Return On Investment R Return On Data O D
  43. 43. DÉFINITION : BUSINESS MODEL Selon une définition actuelle qui fait consensus, il s’agit d’un « outil » qui décrit la façon de créer, délivrer et capturer de la valeur pour un acteur économique ou un écosystème économique.
  44. 44. Les segments de clientèle Les parte- naires clefs La structure de coûts Les flux de revenus Les canaux de distribution Les relations avec le client Les activités clefs Les ressources clefs Les propositions de valeur
  45. 45. L’offre Les canaux de distribution Les relations avec le client Les segments de clientèle Les flux de revenusLa structure de coûts Les activités clefs Le réseau de partenaires Les ressources clefs La matrice du Business Model Collecter Traiter des log Appli verticales Analyser Visualiser Interpréter Structurer Stocker Administration Média Industrie Banque Santé Distribution … Self-service Formation Support Débit Performance Espace Conseil Calcul Stockage B2B A2B Hébergeur Datacenter HPC Constructeur Opérateur Cloud Maintenance de la plateforme Abonnement Développement Exploitation Valorisation des données Ventes / reventes Lot / transaction PI, Licences, loyers
  46. 46. • Gratuité et applications et services spécialisés • Gratuité et publicités • Abonnement à des API • Abonnement à d’autres fonctions • Vente de data de qualité (premium) Des business model classiques web Source : datamarket.com
  47. 47. BigData & Emploi
  48. 48. Une variété de talents Source: McKinsey Global Institute: Big Data: The next frontier for innovation, competition and productivity (June 2011)
  49. 49. Une variété de talents • Spécialistes en source de données – Sources ouvertes – Sources payantes – Sources internes • Terminologues – Gestionnaire de terminologie, lexiques métiers, des ontologies – Expertise métier – Web Semantique • Documentalistes et experts en Système d’information documentaire – Gestion électronique des documents – Moteurs de recherche – Text Mining – Visualisation de données – Reporting
  50. 50. BigData & Science Masses de Données Scientifiques: Enjeux et Perspectives
  51. 51. Les données : une matière première et des produits à forte valeur ajoutée • Commerce et les affaires – SI d’entreprise, transactions commerciales, systèmes de réservation, … • Loisirs – Musique, vidéo, jeux, réseaux sociaux… • Sciences – Astronomie, physique et énergie, génome, … • Médecine – Dossier médical, sécurité sociale, imagérie • Environnement – Climat, dév durable, pollution, alimentation,… • Humanités et Sciences Sociales – Numérisation du savoir (littérature, histoire,…), interactions dans les réseaux sociaux, données archéologiques… BD et fichiers d’entreprises Données WEB et Réseaux Sociaux Données de Capteurs Données d’expériences scientifiques
  52. 52. Une petite idée des volumes de données !"#$%&' ($) ' ("* Volume Exemple 1 gigabyte: 109 Information known in the human genome 1 terabyte:1012 Annual world literature production 1 petabyte: 1015 All US academic research libraries 1 exabyte: 1018 Two thirds of annual world production of information Source: http://www.jisc.ac.uk/publications/briefingpapers/2004/pub_datadeluge.aspx
  53. 53. Caractéristiques • Des recherches principalement tirées par – Des applications industrielles – L’émergence de nouvelles technologies – L’émergence de nouveaux usages • Une recherche dominée (ou presque) par des labos industriels – Nombreuses « success stories » – Des laboratoires industriels de pointe • IBM, Oracle, Microsoft, Sun, AT&T, Bell Labs, Google, Yahoo! – Une grande perméabilité entre monde académique et monde industriel (en particulier aux US, moins en Europe)
  54. 54. Les grands verrous dans la gestion des masses de données 1. La virtualisation du stockage et de l’accès (Cloud). 2. L’intégration de données. 3. La gestion d’événements et de flots de données. 4. L’analyse complexe à grande échelle. 5. La qualité et protection des données. 6. La visualisation/navigation des masses de données. 7. La préservation des données.
  55. 55. Défi 1 : Stockage à grande échelle (Cloud) • Bénéfices du Cloud – Pas d’infrastructure à acquérir ni à gérer • « Pay as you go » – Stockage massif de données (à moindre coût) • Coûts de stockage et d’utilisation réduits – Accès anytime – anywhere via Internet • Ex: iCloud (Apple) – Qualité de service • Disponibilité, sécurité – Elasticité • absorbe facilement les charges lourdes ou soudaines • Challenges du Cloud – Indexation intelligente (sémantique) – Sécurité et Confidentialité (privacy) – Calcul haute performance (//) – Cohérence et qualité des données D C Time R D C R
  56. 56. Défi 2 : Analyse complexe à grande échelle • Analyse en temps réel de flots continus de données émanant de différentes sources – Ex: Découvrir et comprendre les patterns caractéristiques du comportement des clients/utilisateurs • Réaction en temps réel à des événements d’alerte – Ex: attaques sur le réseau • Requêtes multidimensionnelles sur des grands ensembles de données – Découvrir et comprendre des patterns en analysant le comportement d’une population – Découvrir des corrélations entre phénomènes Divy Agrawal et al , VLDB Tutorial’2010
  57. 57. Défi 3 : la gestion de flots d’événements • Capture d’événements – Politique de détection et de composition (requêtes sur les évnts) – Introduction d’incertitude sur l’arrivée des événements et sur le contenu de leurs messages – Détection / simulation d’événements rares • Réaction aux événements – Politique de déclenchement, consommation, exécution (optimisation) – Couplage transactionnel – Analyse : confluence, terminaison • Bufferisation – Taille des fenêtres temporelles – Stratégies de glissement • Historisation – Stockage massif – Indexation – Analyse complexe (analyse de séquences, motifs fréquents,…) Cible : intelligence ambiante, réseaux sociaux, surveillance temps réel, robotique, bioinformatique .
  58. 58. Défi 4 : La visualisation des masses de données • Besoins – Navigation intuitive/contextuelle • desktop intelligent, réseaux sociaux, contenus MM – Visualisation de phénomènes non perceptibles • Génome, trou noir – Analyse visuelle • Découverte de connaissances • Challenges – Invention de nouvelles métaphores graphiques – Algorithmes de graphes performants (//) • Optimisation de la visulaisation de grands graphes – Clusterisation et stats de graphes – Adaptation aux terminaux /équipements
  59. 59. Défi 5 : La préservation des données • Comment préserver les données à durée de vie illimité? – connaissances scientifiques – produits culturelles – connaissances archéologiques et environnementales – connaissances sociales (recensements) • Comment préserver les données à durée de vie longue mais limitée – patrimoine informationnel des entreprises – Données personnelles (stockées dans les disques privés ou publiés sur le Web) – Données publiques (fichiers sécu, police, …) • Quel coût pour la préservation des données – Coût de conversion des données (formats) – Coût pour la migration des technologies – Coût de maintien des technologies de niche • Quelle stratégie pour les données gérées dans le Cloud ? Accroissement de l’hétérogénéité des MDD Plus grandes difficultés pour leur intégration et leur exploitation
  60. 60. www.aproged.org Merci de votre attention

×