CONSERVATOIRE NATIONAL DES ARTS ET METIERS
CENTRE REGIONAL DE RHONE-ALPES
---
Mémoire présenté en vue d’obtenir
UE « Infor...
Plan
• Définition : qu’est ce que le Big Data
• Solutions techniques : Hadoop…
• Open Data / Données ouvertes
• Risques du...
3 / 20
Qu’est ce que le Big Data ?
• Grosses données / Données de masse
• Multiplication et démocratisation technologies
•...
4 / 20
Les 3 V (Gartner)
• Volume
Quantité de données produites. En forte expansion.
Exprimé en octets (tera, zetta…)
• Va...
5 / 20
Vers 5 V ?
• Valeur
Valeur qu’on va donner aux données qu’elle soit
monétaire ou intrinsèque.
• Véracité / Validité...
6 / 20
Technologies
• Pas une solution précise mais une réflexion
– Que souhaite t’on obtenir ?
– Que souhaite t’on réalis...
7 / 20
Paysage du Big Data
Plan Définition
Open
Data
Risques Usages Bilan
Solutions
techniques
Législation
8 / 20
Hadoop
Plan Définition
Open
Data
Risques Usages Bilan
Solutions
techniques
Législation
Source : JDN – journaldunet....
9 / 20
3 catégories de logiciels
• Stockage
Baies SAN (Storage Area Network), SSD (Solid-State Drive), Clusters
(grappes d...
10 / 20
Open Data / Données ouvertes
• Donnée numérique
– Diffusion structurée
– Méthodologie, licence
– Libre accès et ré...
11 / 20
Risques
• Identification indirecte
– Granularité des données, anonymisation
– MIT : Unique in the crowd
• Sécurité...
12 / 20
Usages généraux
• SIG (Cartographie)
• Prévisions politiques, sportives, météorologique
• Marketing & publicité
• ...
13 / 20
Usages en médecine
• Epidémiologie & Ecoépidémiologie
• Séquençage génétique
• Analyse imagerie médicale
• Recherc...
14 / 20
Usages en Smart Cities (Villes intelligentes)
• Extension Domotique, Ubiquitous computing
– Multiplication capteur...
15 / 20
Usages en Smart Cities : Lyon
• Portail Smart Data
• Onlymoov : diffusion conditions de circulation en temps réel....
16 / 20
Usages en Smart Cities : Abidjan 1/2
– But : optimisation transports publics
– Données :
• Orange
• 2,5 milliards ...
17 / 20
Usages en Smart Cities : Abidjan 2/2
Comment :
• Utilisation base de données appels téléphoniques.
Matrice des flu...
18 / 20
Législation et vie privée
• En France
– Loi informatique et liberté
– CNIL
• Données étrangers
– Exemple : « Patri...
Bilan et perspectives
• Débouchés très variés
• Explosion des données (informatique ubiquitaire, domotique, internet des
o...
Merci de votre attention.
20 / 20
Plan Histoire Procédés Matières Economie Législation BilanImprimante
Annexes
Différence Big Data / Business
Intelligence (BI)
• Différence par rapport aux données et à leur
utilisation
– BI : analyse...
Octet
Nom Symbole Valeur Mésusage
Kilooctet ko 103 210
Mégaoctet Mo 106 220
Gigaoctet Go 109 230
Téraoctet To 1012 240
Pét...
Bases de données NoSQL
• Paradigme clé/valeur
– Redis, Riak, Voldemort…
• Bases documentaires
– MongoDB, CouchDB, Terrasto...
NoSQL : Paradigme clé/valeur
• Hashmap distribuée
• Simple couple Clé / valeur
• Valeur :
– chaîne caractères,
– objet sér...
NoSQL : Bases documentaires
• Basé sur clé/valeur
• Document type JSON, XML
• Une clé retourne informations structurées
hi...
NoSQL : Bases orientées colonnes
• Similaire table d’un SGBDR
• Différence : nombre de colonnes dynamique
• Nombre de colo...
NoSQL : Paradigme graphe
• Modèle sur théorie des graphes
• Notion de nœuds, relations, propriétés
rattachées
• Facilite r...
Hadoop (Fondation Apache)
• Principaux
– Hadoop Common (utilitaires communs)
– Hadoop Distributed File System (HDFS) (syst...
Qualité Open Data 1/2
• Complète
• Primaire
• Opportune
• Accessible
• Exploitable
• Non discriminative
• Non-propriétaire...
Qualité Open Data 2/2
Données non filtrées
Données disponibles de manière structurées
Données librement exploitables
Donné...
Déclaration Universelle des droits de
l’homme
• Article XIV
Tous les Citoyens ont le droit de constater, par eux-mêmes ou ...
Prochain SlideShare
Chargement dans…5
×

2014 Présentation pour la soutenance du probatoire "Big Data"de galsungen

3 652 vues

Publié le

Document support/illustration pour la soutenance du probatoire de Galsungen sur les Big Data en médecin et smartcities.

Publié dans : Technologie
0 commentaire
0 j’aime
Statistiques
Remarques
  • Soyez le premier à commenter

  • Soyez le premier à aimer ceci

Aucun téléchargement
Vues
Nombre de vues
3 652
Sur SlideShare
0
Issues des intégrations
0
Intégrations
1 719
Actions
Partages
0
Téléchargements
47
Commentaires
0
J’aime
0
Intégrations 0
Aucune incorporation

Aucune remarque pour cette diapositive

2014 Présentation pour la soutenance du probatoire "Big Data"de galsungen

  1. 1. CONSERVATOIRE NATIONAL DES ARTS ET METIERS CENTRE REGIONAL DE RHONE-ALPES --- Mémoire présenté en vue d’obtenir UE « Information et communication pour ingénieur » Spécialité : INFORMATIQUE --- Par Galsungen --- Big Data en médecine, en smart cities… Principes, utilités, exemples et solutions Soutenu le 10 juin 2014 --- JURY PRESIDENT [Civilité Prénom NOM Fonction] MEMBRES [Civilité Prénom NOM Fonction] [Civilité Prénom NOM Fonction]
  2. 2. Plan • Définition : qu’est ce que le Big Data • Solutions techniques : Hadoop… • Open Data / Données ouvertes • Risques du Big Data • Usages – En général et en médecine – Smartcities / Villes intelligentes • Législation et vie privée • Bilan et perspectives 2 / 20 Plan Définition Open Data Risques Usages Bilan Solutions techniques Législation
  3. 3. 3 / 20 Qu’est ce que le Big Data ? • Grosses données / Données de masse • Multiplication et démocratisation technologies • Evolution moyens de stockage • Nouvelle richesse • Souvent faible densité information – Données massives mais simples – Objectif : analyse, statistique, synthèse. • Expansion des données (3V : volume, variété, vélocité) Plan Définition Open Data Risques Usages Bilan Solutions techniques Législation
  4. 4. 4 / 20 Les 3 V (Gartner) • Volume Quantité de données produites. En forte expansion. Exprimé en octets (tera, zetta…) • Variété Nombreux formats (texte, image, audio, vidéo…). Données structurées et non structurées. • Vélocité Fréquence de génération, capture et partage des données Plan Définition Open Data Risques Usages Bilan Solutions techniques Législation
  5. 5. 5 / 20 Vers 5 V ? • Valeur Valeur qu’on va donner aux données qu’elle soit monétaire ou intrinsèque. • Véracité / Validité Les données sont-elles valides ? Sont-elles pertinentes ? Précises ? - - ou - - • Visibilité (à la place de la validité) Vision qu’on a des données. Compréhension de ces dernières. Plan Définition Open Data Risques Usages Bilan Solutions techniques Législation
  6. 6. 6 / 20 Technologies • Pas une solution précise mais une réflexion – Que souhaite t’on obtenir ? – Que souhaite t’on réaliser ? – Comment y parvenir ? • Des boites à outils communes Plan Définition Open Data Risques Usages Bilan Solutions techniques Législation
  7. 7. 7 / 20 Paysage du Big Data Plan Définition Open Data Risques Usages Bilan Solutions techniques Législation
  8. 8. 8 / 20 Hadoop Plan Définition Open Data Risques Usages Bilan Solutions techniques Législation Source : JDN – journaldunet.com
  9. 9. 9 / 20 3 catégories de logiciels • Stockage Baies SAN (Storage Area Network), SSD (Solid-State Drive), Clusters (grappes de serveurs)… Bases de données NoSQL • Traitement & calcul – Clusters, Cloud, cartes graphiques (General-purpose Processing Graphics Processing Units)… • Analyse – Mahout, MLPACK… Plan Définition Open Data Risques Usages Bilan Solutions techniques Législation
  10. 10. 10 / 20 Open Data / Données ouvertes • Donnée numérique – Diffusion structurée – Méthodologie, licence – Libre accès et réutilisation. • Des lois pour appuyer cette ouverture – Transparence gouvernements, politiques – Evolution de l’article XV de la déclaration universelle des droits de l’homme • Echelles de qualité – Fondation Sunlight – Tim Berners-Lee • « Open Science data » Plan Définition Open Data Risques Usages Bilan Solutions techniques Législation
  11. 11. 11 / 20 Risques • Identification indirecte – Granularité des données, anonymisation – MIT : Unique in the crowd • Sécurité des données – pérennité : durée de vie des stockages ? Datacenters ? – Ethique : respect des règles par les administrateurs • Fraicheur des données Plan Définition Open Data Risques Usages Bilan Solutions techniques Législation
  12. 12. 12 / 20 Usages généraux • SIG (Cartographie) • Prévisions politiques, sportives, météorologique • Marketing & publicité • Segmentation, ciblage de populations, clientèles • Sciences (astronomie, cosmologie, climatologie…) • Autres… Plan Définition Open Data Risques Usages Bilan Solutions techniques Législation
  13. 13. 13 / 20 Usages en médecine • Epidémiologie & Ecoépidémiologie • Séquençage génétique • Analyse imagerie médicale • Recherche Plan Définition Open Data Risques Usages Bilan Solutions techniques Législation Source : OpenHealth.fr Evolution des allergies en France
  14. 14. 14 / 20 Usages en Smart Cities (Villes intelligentes) • Extension Domotique, Ubiquitous computing – Multiplication capteurs, caméras… • Exploitation données recueillies – Analyser l’existant – Suggestions d’évolutions • Usages très variés – Optimisation des transports – Optimisation, gestion des réseaux (eau, gaz, communication…) – Gestion des énergies (smartgrid…) – Optimisation de la sécurité (aide aux forces de l’ordre…) – Transparence des données – … Plan Définition Open Data Risques Usages Bilan Solutions techniques Législation
  15. 15. 15 / 20 Usages en Smart Cities : Lyon • Portail Smart Data • Onlymoov : diffusion conditions de circulation en temps réel. • Onlymod : optimisation des transports avec prévision à une heure. Plan Définition Open Data Risques Usages Bilan Solutions techniques Législation Source : onlymoov.com
  16. 16. 16 / 20 Usages en Smart Cities : Abidjan 1/2 – But : optimisation transports publics – Données : • Orange • 2,5 milliards d’échanges enregistrés entre 5 millions d’utilisateurs (appels – sms) sur 2012 • Etude sur 500 000 téléphones sur 5 mois • 50 000 utilisateurs changés toutes les 2 semaines Plan Définition Open Data Risques Usages Bilan Solutions techniques Législation
  17. 17. 17 / 20 Usages en Smart Cities : Abidjan 2/2 Comment : • Utilisation base de données appels téléphoniques. Matrice des flux de déplacements. • Comparaison avec réseau en place. Plan Définition Open Data Risques Usages Bilan Solutions techniques Législation Source : La Recherche n°482 Cartes pour l’année 2012
  18. 18. 18 / 20 Législation et vie privée • En France – Loi informatique et liberté – CNIL • Données étrangers – Exemple : « Patriot Act » américain • Jugement cours européenne : jurisprudence – ressortissant espagnol contre Google (Avril) – Proposition d’un un outil (formulaire) de suppression des liens par Google (30.05.14) Plan Définition Open Data Risques Usages Bilan Solutions techniques Législation
  19. 19. Bilan et perspectives • Débouchés très variés • Explosion des données (informatique ubiquitaire, domotique, internet des objets) • Nouveaux métiers : analyste des données « data scientist » (mathématiques, statistiques, une culture informatique & « métier ») • Evolution continue pour une offre plus mature, plus vaste : – interface graphique Hadoop – PostgreSQL : volet NoSQL – MySQL Fabric par Oracle (scalabilité) • Attention : – qualité des données (stockage, persistance, sécurité, fraîcheur) – vie privée 19 / 20 Plan Définition Open Data Risques Usages Bilan Solutions techniques Législation
  20. 20. Merci de votre attention. 20 / 20 Plan Histoire Procédés Matières Economie Législation BilanImprimante
  21. 21. Annexes
  22. 22. Différence Big Data / Business Intelligence (BI) • Différence par rapport aux données et à leur utilisation – BI : analyse de données à forte densité d’information pour mesurer, détecter des tendances. Pilotage d’activité à l’aide d’indicateurs. Aide à la décision. – Big Data : analyse données à faible densité d’information mais avec un très grand volume. Capacités prédictives.
  23. 23. Octet Nom Symbole Valeur Mésusage Kilooctet ko 103 210 Mégaoctet Mo 106 220 Gigaoctet Go 109 230 Téraoctet To 1012 240 Pétaoctet Po 1015 Exaoctet Eo 1018 Zettaoctet Zo 1021 yottaoctet Yo 1024
  24. 24. Bases de données NoSQL • Paradigme clé/valeur – Redis, Riak, Voldemort… • Bases documentaires – MongoDB, CouchDB, Terrastore… • Bases orientées colonnes – Cassandra, Amazon SimpleDB, Google BigTable, Hbase… • Paradigme graphe – Neo4j, OrientDB…
  25. 25. NoSQL : Paradigme clé/valeur • Hashmap distribuée • Simple couple Clé / valeur • Valeur : – chaîne caractères, – objet sérialisé… • Applicatif remplace SQL • Requêtes PUT, GET, DELETE • Exemples : Redis, Riak, Voldemort (LinkedIn)
  26. 26. NoSQL : Bases documentaires • Basé sur clé/valeur • Document type JSON, XML • Une clé retourne informations structurées hiérarchiquement • Evite de faire plusieurs jointures • Exemples : CouchDB (Hadoop), RavenDB (.NET/Windows), MongoDB
  27. 27. NoSQL : Bases orientées colonnes • Similaire table d’un SGBDR • Différence : nombre de colonnes dynamique • Nombre de colonnes varie donc entre deux enregistrements (pas de valeur NULL) • Exemples : Hbase (BigTable de Google), Cassandra (Hadoop, Amazon)
  28. 28. NoSQL : Paradigme graphe • Modèle sur théorie des graphes • Notion de nœuds, relations, propriétés rattachées • Facilite représentation monde réel • Adapté réseaux sociaux • Exemple : Neo4J
  29. 29. Hadoop (Fondation Apache) • Principaux – Hadoop Common (utilitaires communs) – Hadoop Distributed File System (HDFS) (système de fichiers distribués) – Hadoop YARN (framework d’ordonnancement et de gestion de cluster) – Hadoop MapReduce (« YARN-based » système de traitements parallèles de larges jeux de données) • Autres – Ambari (outil web de gestion et management de clusters Apache Hadoop) – Avro (système de sérialisation des données) – Cassandra (Base de données scalable multi-maitres) – Chukwa (Système de collections de données pour gérer de larges systèmes distribués) – HBase (Base de données distribuée, scalable acceptant structuration de large jeux de données) – Hive (entrepôt de données) – Mahout (librairie de « data mining » et de « machine learning ») – Pig (langage pour flot de données et framework pour calcul parallèle) – Spark (moteur de calcul) – Tez (framework de programmation de flux de données basé sur YARN) – ZooKeeper (service de coordination pour applications distribuées) – …
  30. 30. Qualité Open Data 1/2 • Complète • Primaire • Opportune • Accessible • Exploitable • Non discriminative • Non-propriétaire • Libre de droits • Permanente • Gratuite Les 10 critères de la Sunlight Foundation :
  31. 31. Qualité Open Data 2/2 Données non filtrées Données disponibles de manière structurées Données librement exploitables Données identifiées par des URL Données liées à d’autres données pour les contextualiser et les enrichir Echelle de Time Berners-Lee :
  32. 32. Déclaration Universelle des droits de l’homme • Article XIV Tous les Citoyens ont le droit de constater, par eux-mêmes ou par leurs Représentants, la nécessité de la contribution publique, de la consentir librement, d’en suivre l’emploi et d’en déterminer la quotité, l’assiette, le recouvrement et la durée. • Article XV La Société a le droit de demander compte à tout Agent public de son administration. • Article XVI Toute Société dans laquelle la garantie des Droits n’est pas assurée, ni la séparation des Pouvoirs déterminée, n’a point de Constitution. • Article XVII La propriété étant un droit inviolable et sacré, nul ne peut en être privé, si ce n’est lorsque la nécessité publique, légalement constatée, l’exige évidemment, et sous la condition d’une juste et préalable indemnité.

×