SlideShare une entreprise Scribd logo
1  sur  32
CONSERVATOIRE NATIONAL DES ARTS ET METIERS
CENTRE REGIONAL DE RHONE-ALPES
---
Mémoire présenté en vue d’obtenir
UE « Information et communication pour ingénieur »
Spécialité : INFORMATIQUE
---
Par
Galsungen
---
Big Data en médecine, en smart cities…
Principes, utilités, exemples et solutions
Soutenu le 10 juin 2014
---
JURY
PRESIDENT [Civilité Prénom NOM Fonction]
MEMBRES [Civilité Prénom NOM Fonction]
[Civilité Prénom NOM Fonction]
Plan
• Définition : qu’est ce que le Big Data
• Solutions techniques : Hadoop…
• Open Data / Données ouvertes
• Risques du Big Data
• Usages
– En général et en médecine
– Smartcities / Villes intelligentes
• Législation et vie privée
• Bilan et perspectives
2 / 20
Plan Définition
Open
Data
Risques Usages Bilan
Solutions
techniques
Législation
3 / 20
Qu’est ce que le Big Data ?
• Grosses données / Données de masse
• Multiplication et démocratisation technologies
• Evolution moyens de stockage
• Nouvelle richesse
• Souvent faible densité information
– Données massives mais simples
– Objectif : analyse, statistique, synthèse.
• Expansion des données (3V : volume, variété,
vélocité)
Plan Définition
Open
Data
Risques Usages Bilan
Solutions
techniques
Législation
4 / 20
Les 3 V (Gartner)
• Volume
Quantité de données produites. En forte expansion.
Exprimé en octets (tera, zetta…)
• Variété
Nombreux formats (texte, image, audio, vidéo…).
Données structurées et non structurées.
• Vélocité
Fréquence de génération, capture et partage des
données
Plan Définition
Open
Data
Risques Usages Bilan
Solutions
techniques
Législation
5 / 20
Vers 5 V ?
• Valeur
Valeur qu’on va donner aux données qu’elle soit
monétaire ou intrinsèque.
• Véracité / Validité
Les données sont-elles valides ? Sont-elles pertinentes ?
Précises ?
- - ou - -
• Visibilité (à la place de la validité)
Vision qu’on a des données. Compréhension de ces
dernières.
Plan Définition
Open
Data
Risques Usages Bilan
Solutions
techniques
Législation
6 / 20
Technologies
• Pas une solution précise mais une réflexion
– Que souhaite t’on obtenir ?
– Que souhaite t’on réaliser ?
– Comment y parvenir ?
• Des boites à outils communes
Plan Définition
Open
Data
Risques Usages Bilan
Solutions
techniques
Législation
7 / 20
Paysage du Big Data
Plan Définition
Open
Data
Risques Usages Bilan
Solutions
techniques
Législation
8 / 20
Hadoop
Plan Définition
Open
Data
Risques Usages Bilan
Solutions
techniques
Législation
Source : JDN – journaldunet.com
9 / 20
3 catégories de logiciels
• Stockage
Baies SAN (Storage Area Network), SSD (Solid-State Drive), Clusters
(grappes de serveurs)…
Bases de données NoSQL
• Traitement & calcul
– Clusters, Cloud, cartes graphiques (General-purpose
Processing Graphics Processing Units)…
• Analyse
– Mahout, MLPACK…
Plan Définition
Open
Data
Risques Usages Bilan
Solutions
techniques
Législation
10 / 20
Open Data / Données ouvertes
• Donnée numérique
– Diffusion structurée
– Méthodologie, licence
– Libre accès et réutilisation.
• Des lois pour appuyer cette ouverture
– Transparence gouvernements, politiques
– Evolution de l’article XV de la déclaration universelle
des droits de l’homme
• Echelles de qualité
– Fondation Sunlight
– Tim Berners-Lee
• « Open Science data »
Plan Définition
Open
Data
Risques Usages Bilan
Solutions
techniques
Législation
11 / 20
Risques
• Identification indirecte
– Granularité des données, anonymisation
– MIT : Unique in the crowd
• Sécurité des données
– pérennité : durée de vie des stockages ?
Datacenters ?
– Ethique : respect des règles par les
administrateurs
• Fraicheur des données
Plan Définition
Open
Data
Risques Usages Bilan
Solutions
techniques
Législation
12 / 20
Usages généraux
• SIG (Cartographie)
• Prévisions politiques, sportives, météorologique
• Marketing & publicité
• Segmentation, ciblage de populations, clientèles
• Sciences (astronomie, cosmologie, climatologie…)
• Autres…
Plan Définition
Open
Data
Risques Usages Bilan
Solutions
techniques
Législation
13 / 20
Usages en médecine
• Epidémiologie & Ecoépidémiologie
• Séquençage génétique
• Analyse imagerie médicale
• Recherche
Plan Définition
Open
Data
Risques Usages Bilan
Solutions
techniques
Législation
Source : OpenHealth.fr
Evolution des allergies en France
14 / 20
Usages en Smart Cities (Villes intelligentes)
• Extension Domotique, Ubiquitous computing
– Multiplication capteurs, caméras…
• Exploitation données recueillies
– Analyser l’existant
– Suggestions d’évolutions
• Usages très variés
– Optimisation des transports
– Optimisation, gestion des réseaux (eau, gaz, communication…)
– Gestion des énergies (smartgrid…)
– Optimisation de la sécurité (aide aux forces de l’ordre…)
– Transparence des données
– …
Plan Définition
Open
Data
Risques Usages Bilan
Solutions
techniques
Législation
15 / 20
Usages en Smart Cities : Lyon
• Portail Smart Data
• Onlymoov : diffusion conditions de circulation en temps réel.
• Onlymod : optimisation des transports avec prévision à une
heure.
Plan Définition
Open
Data
Risques Usages Bilan
Solutions
techniques
Législation
Source : onlymoov.com
16 / 20
Usages en Smart Cities : Abidjan 1/2
– But : optimisation transports publics
– Données :
• Orange
• 2,5 milliards d’échanges enregistrés entre 5 millions
d’utilisateurs (appels – sms) sur 2012
• Etude sur 500 000 téléphones sur 5 mois
• 50 000 utilisateurs changés toutes les 2 semaines
Plan Définition
Open
Data
Risques Usages Bilan
Solutions
techniques
Législation
17 / 20
Usages en Smart Cities : Abidjan 2/2
Comment :
• Utilisation base de données appels téléphoniques.
Matrice des flux de déplacements.
• Comparaison avec réseau en place.
Plan Définition
Open
Data
Risques Usages Bilan
Solutions
techniques
Législation
Source : La Recherche n°482
Cartes pour l’année 2012
18 / 20
Législation et vie privée
• En France
– Loi informatique et liberté
– CNIL
• Données étrangers
– Exemple : « Patriot Act » américain
• Jugement cours européenne : jurisprudence
– ressortissant espagnol contre Google (Avril)
– Proposition d’un un outil (formulaire) de
suppression des liens par Google (30.05.14)
Plan Définition
Open
Data
Risques Usages Bilan
Solutions
techniques
Législation
Bilan et perspectives
• Débouchés très variés
• Explosion des données (informatique ubiquitaire, domotique, internet des
objets)
• Nouveaux métiers : analyste des données « data scientist »
(mathématiques, statistiques, une culture informatique & « métier »)
• Evolution continue pour une offre plus mature, plus vaste :
– interface graphique Hadoop
– PostgreSQL : volet NoSQL
– MySQL Fabric par Oracle (scalabilité)
• Attention :
– qualité des données (stockage, persistance, sécurité, fraîcheur)
– vie privée
19 / 20
Plan Définition
Open
Data
Risques Usages Bilan
Solutions
techniques
Législation
Merci de votre attention.
20 / 20
Plan Histoire Procédés Matières Economie Législation BilanImprimante
Annexes
Différence Big Data / Business
Intelligence (BI)
• Différence par rapport aux données et à leur
utilisation
– BI : analyse de données à forte densité
d’information pour mesurer, détecter des
tendances. Pilotage d’activité à l’aide
d’indicateurs. Aide à la décision.
– Big Data : analyse données à faible densité
d’information mais avec un très grand volume.
Capacités prédictives.
Octet
Nom Symbole Valeur Mésusage
Kilooctet ko 103 210
Mégaoctet Mo 106 220
Gigaoctet Go 109 230
Téraoctet To 1012 240
Pétaoctet Po 1015
Exaoctet Eo 1018
Zettaoctet Zo 1021
yottaoctet Yo 1024
Bases de données NoSQL
• Paradigme clé/valeur
– Redis, Riak, Voldemort…
• Bases documentaires
– MongoDB, CouchDB, Terrastore…
• Bases orientées colonnes
– Cassandra, Amazon SimpleDB, Google BigTable,
Hbase…
• Paradigme graphe
– Neo4j, OrientDB…
NoSQL : Paradigme clé/valeur
• Hashmap distribuée
• Simple couple Clé / valeur
• Valeur :
– chaîne caractères,
– objet sérialisé…
• Applicatif remplace SQL
• Requêtes PUT, GET, DELETE
• Exemples : Redis, Riak, Voldemort (LinkedIn)
NoSQL : Bases documentaires
• Basé sur clé/valeur
• Document type JSON, XML
• Une clé retourne informations structurées
hiérarchiquement
• Evite de faire plusieurs jointures
• Exemples : CouchDB (Hadoop), RavenDB
(.NET/Windows), MongoDB
NoSQL : Bases orientées colonnes
• Similaire table d’un SGBDR
• Différence : nombre de colonnes dynamique
• Nombre de colonnes varie donc entre deux
enregistrements (pas de valeur NULL)
• Exemples : Hbase (BigTable de Google),
Cassandra (Hadoop, Amazon)
NoSQL : Paradigme graphe
• Modèle sur théorie des graphes
• Notion de nœuds, relations, propriétés
rattachées
• Facilite représentation monde réel
• Adapté réseaux sociaux
• Exemple : Neo4J
Hadoop (Fondation Apache)
• Principaux
– Hadoop Common (utilitaires communs)
– Hadoop Distributed File System (HDFS) (système de fichiers distribués)
– Hadoop YARN (framework d’ordonnancement et de gestion de cluster)
– Hadoop MapReduce (« YARN-based » système de traitements parallèles de larges jeux de
données)
• Autres
– Ambari (outil web de gestion et management de clusters Apache Hadoop)
– Avro (système de sérialisation des données)
– Cassandra (Base de données scalable multi-maitres)
– Chukwa (Système de collections de données pour gérer de larges systèmes
distribués)
– HBase (Base de données distribuée, scalable acceptant structuration de large jeux
de données)
– Hive (entrepôt de données)
– Mahout (librairie de « data mining » et de « machine learning »)
– Pig (langage pour flot de données et framework pour calcul parallèle)
– Spark (moteur de calcul)
– Tez (framework de programmation de flux de données basé sur YARN)
– ZooKeeper (service de coordination pour applications distribuées)
– …
Qualité Open Data 1/2
• Complète
• Primaire
• Opportune
• Accessible
• Exploitable
• Non discriminative
• Non-propriétaire
• Libre de droits
• Permanente
• Gratuite
Les 10 critères de la Sunlight Foundation :
Qualité Open Data 2/2
Données non filtrées
Données disponibles de manière structurées
Données librement exploitables
Données identifiées par des URL
Données liées à d’autres données pour les
contextualiser et les enrichir
Echelle de Time Berners-Lee :
Déclaration Universelle des droits de
l’homme
• Article XIV
Tous les Citoyens ont le droit de constater, par eux-mêmes ou par leurs
Représentants, la nécessité de la contribution publique, de la consentir
librement, d’en suivre l’emploi et d’en déterminer la quotité, l’assiette, le
recouvrement et la durée.
• Article XV
La Société a le droit de demander compte à tout Agent public
de son administration.
• Article XVI
Toute Société dans laquelle la garantie des Droits n’est pas assurée, ni la
séparation des Pouvoirs déterminée, n’a point de Constitution.
• Article XVII
La propriété étant un droit inviolable et sacré, nul ne peut en être privé, si
ce n’est lorsque la nécessité publique, légalement constatée, l’exige
évidemment, et sous la condition d’une juste et préalable indemnité.

Contenu connexe

Tendances

Valtech - Du BI au Big Data, une révolution dans l’entreprise
Valtech - Du BI au Big Data, une révolution dans l’entrepriseValtech - Du BI au Big Data, une révolution dans l’entreprise
Valtech - Du BI au Big Data, une révolution dans l’entrepriseValtech
 
Cours Big Data Chap1
Cours Big Data Chap1Cours Big Data Chap1
Cours Big Data Chap1Amal Abid
 
Le Big Data transforme en profondeur le monde de la Banque et de l’Assurance
Le Big Data transforme en profondeur le monde de la Banque et de l’AssuranceLe Big Data transforme en profondeur le monde de la Banque et de l’Assurance
Le Big Data transforme en profondeur le monde de la Banque et de l’AssuranceAbdessatar Hammedi
 
Point de Vue Sopra Consulting sur le Big Data
Point de Vue Sopra Consulting sur le Big DataPoint de Vue Sopra Consulting sur le Big Data
Point de Vue Sopra Consulting sur le Big DataNicolas Peene
 
Baina bigdata introduction 2016
Baina bigdata introduction 2016Baina bigdata introduction 2016
Baina bigdata introduction 2016Karim Baïna
 
BIG DATA - Les données au service de la business intelligence
BIG DATA - Les données au service de la business intelligenceBIG DATA - Les données au service de la business intelligence
BIG DATA - Les données au service de la business intelligenceJulien DEMAUGÉ-BOST
 
Big data analytics focus technique et nouvelles perspectives pour les actuaires
Big data analytics focus technique et nouvelles perspectives pour les actuairesBig data analytics focus technique et nouvelles perspectives pour les actuaires
Big data analytics focus technique et nouvelles perspectives pour les actuairesKezhan SHI
 
Datasio - Big Data Congress Paris 2012
Datasio - Big Data Congress Paris 2012Datasio - Big Data Congress Paris 2012
Datasio - Big Data Congress Paris 2012datasio
 
Big data - Cours d'introduction l Data-business
Big data - Cours d'introduction l Data-businessBig data - Cours d'introduction l Data-business
Big data - Cours d'introduction l Data-businessVincent de Stoecklin
 
Big data démystifié td2014
Big data démystifié td2014Big data démystifié td2014
Big data démystifié td2014Romain Casteres
 
Présentation Big Data DFCG
Présentation Big Data DFCGPrésentation Big Data DFCG
Présentation Big Data DFCGMicropole Group
 
La valeur des Big Data sera dans leurs usages
La valeur des Big Data sera dans leurs usagesLa valeur des Big Data sera dans leurs usages
La valeur des Big Data sera dans leurs usagesSAS FRANCE
 
Chapitre1 introduction
Chapitre1 introductionChapitre1 introduction
Chapitre1 introductionMouna Torjmen
 
Les enjeux du Big Data pour l'Entreprise - These professionnelle -Touria Engo...
Les enjeux du Big Data pour l'Entreprise - These professionnelle -Touria Engo...Les enjeux du Big Data pour l'Entreprise - These professionnelle -Touria Engo...
Les enjeux du Big Data pour l'Entreprise - These professionnelle -Touria Engo...Touria Engohan
 
Big data en (ré)assurance régis delayet
Big data en (ré)assurance   régis delayetBig data en (ré)assurance   régis delayet
Big data en (ré)assurance régis delayetKezhan SHI
 

Tendances (20)

Valtech - Du BI au Big Data, une révolution dans l’entreprise
Valtech - Du BI au Big Data, une révolution dans l’entrepriseValtech - Du BI au Big Data, une révolution dans l’entreprise
Valtech - Du BI au Big Data, une révolution dans l’entreprise
 
Etude sur le Big Data
Etude sur le Big DataEtude sur le Big Data
Etude sur le Big Data
 
Cours Big Data Chap1
Cours Big Data Chap1Cours Big Data Chap1
Cours Big Data Chap1
 
Big data
Big dataBig data
Big data
 
Le Big Data transforme en profondeur le monde de la Banque et de l’Assurance
Le Big Data transforme en profondeur le monde de la Banque et de l’AssuranceLe Big Data transforme en profondeur le monde de la Banque et de l’Assurance
Le Big Data transforme en profondeur le monde de la Banque et de l’Assurance
 
Point de Vue Sopra Consulting sur le Big Data
Point de Vue Sopra Consulting sur le Big DataPoint de Vue Sopra Consulting sur le Big Data
Point de Vue Sopra Consulting sur le Big Data
 
Baina bigdata introduction 2016
Baina bigdata introduction 2016Baina bigdata introduction 2016
Baina bigdata introduction 2016
 
BIG DATA - Les données au service de la business intelligence
BIG DATA - Les données au service de la business intelligenceBIG DATA - Les données au service de la business intelligence
BIG DATA - Les données au service de la business intelligence
 
Big data analytics focus technique et nouvelles perspectives pour les actuaires
Big data analytics focus technique et nouvelles perspectives pour les actuairesBig data analytics focus technique et nouvelles perspectives pour les actuaires
Big data analytics focus technique et nouvelles perspectives pour les actuaires
 
Datasio - Big Data Congress Paris 2012
Datasio - Big Data Congress Paris 2012Datasio - Big Data Congress Paris 2012
Datasio - Big Data Congress Paris 2012
 
Big data - Cours d'introduction l Data-business
Big data - Cours d'introduction l Data-businessBig data - Cours d'introduction l Data-business
Big data - Cours d'introduction l Data-business
 
Big data démystifié td2014
Big data démystifié td2014Big data démystifié td2014
Big data démystifié td2014
 
Technologies pour le Big Data
Technologies pour le Big DataTechnologies pour le Big Data
Technologies pour le Big Data
 
Présentation Big Data DFCG
Présentation Big Data DFCGPrésentation Big Data DFCG
Présentation Big Data DFCG
 
Analyse spatiale en Big data
Analyse spatiale en Big dataAnalyse spatiale en Big data
Analyse spatiale en Big data
 
La valeur des Big Data sera dans leurs usages
La valeur des Big Data sera dans leurs usagesLa valeur des Big Data sera dans leurs usages
La valeur des Big Data sera dans leurs usages
 
Chapitre1 introduction
Chapitre1 introductionChapitre1 introduction
Chapitre1 introduction
 
Les enjeux du Big Data pour l'Entreprise - These professionnelle -Touria Engo...
Les enjeux du Big Data pour l'Entreprise - These professionnelle -Touria Engo...Les enjeux du Big Data pour l'Entreprise - These professionnelle -Touria Engo...
Les enjeux du Big Data pour l'Entreprise - These professionnelle -Touria Engo...
 
Big data en (ré)assurance régis delayet
Big data en (ré)assurance   régis delayetBig data en (ré)assurance   régis delayet
Big data en (ré)assurance régis delayet
 
I love BIG DATA
I love BIG DATAI love BIG DATA
I love BIG DATA
 

En vedette

Présentation de soutenance du dossier sur l'impression 3D par Galsungen (CNAM...
Présentation de soutenance du dossier sur l'impression 3D par Galsungen (CNAM...Présentation de soutenance du dossier sur l'impression 3D par Galsungen (CNAM...
Présentation de soutenance du dossier sur l'impression 3D par Galsungen (CNAM...Galsungen
 
Soutenance mémoire d'ingénieur CNAM de Gaël Duperrey sur la BCI
Soutenance mémoire d'ingénieur CNAM de Gaël Duperrey sur la BCISoutenance mémoire d'ingénieur CNAM de Gaël Duperrey sur la BCI
Soutenance mémoire d'ingénieur CNAM de Gaël Duperrey sur la BCIGalsungen
 
Exposé imprimante 3 d
Exposé imprimante 3 dExposé imprimante 3 d
Exposé imprimante 3 ddihiaselma
 
Tout sur l'impression 3D
Tout sur l'impression 3DTout sur l'impression 3D
Tout sur l'impression 3DPricitive
 
Introduction à l'impression 3D | 3dilla.com
Introduction à l'impression 3D | 3dilla.comIntroduction à l'impression 3D | 3dilla.com
Introduction à l'impression 3D | 3dilla.com3dilla
 
[Paris 3DPrintShow] Impression 3D : Quels changements pour les consommateurs,...
[Paris 3DPrintShow] Impression 3D : Quels changements pour les consommateurs,...[Paris 3DPrintShow] Impression 3D : Quels changements pour les consommateurs,...
[Paris 3DPrintShow] Impression 3D : Quels changements pour les consommateurs,...Thierry Rayna
 
Impression 3D "La révolution est en marche" (Morning Lab)
Impression 3D "La révolution est en marche" (Morning Lab)Impression 3D "La révolution est en marche" (Morning Lab)
Impression 3D "La révolution est en marche" (Morning Lab)Agence Travailassocié
 
Impression 3D, Fab Lab : Start-ups, concrétisez vos idées ! - ICPS 3D
Impression 3D, Fab Lab : Start-ups, concrétisez vos idées ! - ICPS 3DImpression 3D, Fab Lab : Start-ups, concrétisez vos idées ! - ICPS 3D
Impression 3D, Fab Lab : Start-ups, concrétisez vos idées ! - ICPS 3DYannick Bonnet
 
Jn7 bat bd-fsitedelta-09032015
Jn7 bat bd-fsitedelta-09032015Jn7 bat bd-fsitedelta-09032015
Jn7 bat bd-fsitedelta-09032015PHIL-DELTA
 
Tobeca, l'imprimante 3D Opensource
Tobeca, l'imprimante 3D OpensourceTobeca, l'imprimante 3D Opensource
Tobeca, l'imprimante 3D OpensourceMaker Faire Paris
 
Conférence sur les bots et la relation client
Conférence sur les bots et la relation clientConférence sur les bots et la relation client
Conférence sur les bots et la relation clientConversationnel
 
Atelier hadoop-single-sign-on
Atelier hadoop-single-sign-onAtelier hadoop-single-sign-on
Atelier hadoop-single-sign-onsahar dridi
 
Avec Hadoop, Excel et… 1€, réalisez votre premier Mobile BigData Tracker en m...
Avec Hadoop, Excel et… 1€, réalisez votre premier Mobile BigData Tracker en m...Avec Hadoop, Excel et… 1€, réalisez votre premier Mobile BigData Tracker en m...
Avec Hadoop, Excel et… 1€, réalisez votre premier Mobile BigData Tracker en m...Microsoft
 
Hadoop live online training
Hadoop live online trainingHadoop live online training
Hadoop live online trainingHarika583
 
Presentation2 essai
Presentation2 essaiPresentation2 essai
Presentation2 essaiXsomeone
 
Présentation opendata christiangendreau
Présentation opendata christiangendreauPrésentation opendata christiangendreau
Présentation opendata christiangendreaumontrealouvert
 

En vedette (20)

Présentation de soutenance du dossier sur l'impression 3D par Galsungen (CNAM...
Présentation de soutenance du dossier sur l'impression 3D par Galsungen (CNAM...Présentation de soutenance du dossier sur l'impression 3D par Galsungen (CNAM...
Présentation de soutenance du dossier sur l'impression 3D par Galsungen (CNAM...
 
Soutenance mémoire d'ingénieur CNAM de Gaël Duperrey sur la BCI
Soutenance mémoire d'ingénieur CNAM de Gaël Duperrey sur la BCISoutenance mémoire d'ingénieur CNAM de Gaël Duperrey sur la BCI
Soutenance mémoire d'ingénieur CNAM de Gaël Duperrey sur la BCI
 
Exposé imprimante 3 d
Exposé imprimante 3 dExposé imprimante 3 d
Exposé imprimante 3 d
 
Tout sur l'impression 3D
Tout sur l'impression 3DTout sur l'impression 3D
Tout sur l'impression 3D
 
Introduction à l'impression 3D | 3dilla.com
Introduction à l'impression 3D | 3dilla.comIntroduction à l'impression 3D | 3dilla.com
Introduction à l'impression 3D | 3dilla.com
 
[Paris 3DPrintShow] Impression 3D : Quels changements pour les consommateurs,...
[Paris 3DPrintShow] Impression 3D : Quels changements pour les consommateurs,...[Paris 3DPrintShow] Impression 3D : Quels changements pour les consommateurs,...
[Paris 3DPrintShow] Impression 3D : Quels changements pour les consommateurs,...
 
Imprimante 3d presentation
Imprimante 3d presentationImprimante 3d presentation
Imprimante 3d presentation
 
Impression 3D "La révolution est en marche" (Morning Lab)
Impression 3D "La révolution est en marche" (Morning Lab)Impression 3D "La révolution est en marche" (Morning Lab)
Impression 3D "La révolution est en marche" (Morning Lab)
 
L'impression 3D et ses nouvelles perspectives métiers
L'impression 3D et ses nouvelles perspectives métiersL'impression 3D et ses nouvelles perspectives métiers
L'impression 3D et ses nouvelles perspectives métiers
 
La data
La dataLa data
La data
 
Big data and Hadoop
Big data and HadoopBig data and Hadoop
Big data and Hadoop
 
Impression 3D, Fab Lab : Start-ups, concrétisez vos idées ! - ICPS 3D
Impression 3D, Fab Lab : Start-ups, concrétisez vos idées ! - ICPS 3DImpression 3D, Fab Lab : Start-ups, concrétisez vos idées ! - ICPS 3D
Impression 3D, Fab Lab : Start-ups, concrétisez vos idées ! - ICPS 3D
 
Jn7 bat bd-fsitedelta-09032015
Jn7 bat bd-fsitedelta-09032015Jn7 bat bd-fsitedelta-09032015
Jn7 bat bd-fsitedelta-09032015
 
Tobeca, l'imprimante 3D Opensource
Tobeca, l'imprimante 3D OpensourceTobeca, l'imprimante 3D Opensource
Tobeca, l'imprimante 3D Opensource
 
Conférence sur les bots et la relation client
Conférence sur les bots et la relation clientConférence sur les bots et la relation client
Conférence sur les bots et la relation client
 
Atelier hadoop-single-sign-on
Atelier hadoop-single-sign-onAtelier hadoop-single-sign-on
Atelier hadoop-single-sign-on
 
Avec Hadoop, Excel et… 1€, réalisez votre premier Mobile BigData Tracker en m...
Avec Hadoop, Excel et… 1€, réalisez votre premier Mobile BigData Tracker en m...Avec Hadoop, Excel et… 1€, réalisez votre premier Mobile BigData Tracker en m...
Avec Hadoop, Excel et… 1€, réalisez votre premier Mobile BigData Tracker en m...
 
Hadoop live online training
Hadoop live online trainingHadoop live online training
Hadoop live online training
 
Presentation2 essai
Presentation2 essaiPresentation2 essai
Presentation2 essai
 
Présentation opendata christiangendreau
Présentation opendata christiangendreauPrésentation opendata christiangendreau
Présentation opendata christiangendreau
 

Similaire à 2014 Présentation pour la soutenance du probatoire "Big Data"de galsungen

OpenDataSoft - Les plateformes ouvertes de données, nouveau levier de l'innov...
OpenDataSoft - Les plateformes ouvertes de données, nouveau levier de l'innov...OpenDataSoft - Les plateformes ouvertes de données, nouveau levier de l'innov...
OpenDataSoft - Les plateformes ouvertes de données, nouveau levier de l'innov...OpenDataSoft
 
Vision et poc EDFsur les enjeux big data
Vision et poc EDFsur les enjeux big dataVision et poc EDFsur les enjeux big data
Vision et poc EDFsur les enjeux big dataBruno Patin
 
Réflexions sur les missions et les compétences liées à une démarche data terr...
Réflexions sur les missions et les compétences liées à une démarche data terr...Réflexions sur les missions et les compétences liées à une démarche data terr...
Réflexions sur les missions et les compétences liées à une démarche data terr...Mairie de Paris
 
Big Data Des méandres des outils au potentiel business
Big Data   Des méandres des outils au potentiel businessBig Data   Des méandres des outils au potentiel business
Big Data Des méandres des outils au potentiel businessMouhsine LAKHDISSI
 
Conférence Open Data La Gazette juin 2016
Conférence Open Data La Gazette juin 2016Conférence Open Data La Gazette juin 2016
Conférence Open Data La Gazette juin 2016Mairie de Paris
 
Open data et gouvernance des organisations par www.opendatasoft.com
Open data et gouvernance des organisations par www.opendatasoft.comOpen data et gouvernance des organisations par www.opendatasoft.com
Open data et gouvernance des organisations par www.opendatasoft.comOpenDataSoft
 
EXL Group - Offre Data Science
EXL Group - Offre Data ScienceEXL Group - Offre Data Science
EXL Group - Offre Data ScienceAshraf Grioute
 
AGMQ 2011 : Les données libres et le territoire
AGMQ 2011 : Les données libres et le territoireAGMQ 2011 : Les données libres et le territoire
AGMQ 2011 : Les données libres et le territoirenoucher
 
Du Big Data vers le SMART Data : Scénario d'un processus
Du Big Data vers le SMART Data : Scénario d'un processusDu Big Data vers le SMART Data : Scénario d'un processus
Du Big Data vers le SMART Data : Scénario d'un processusCHAKER ALLAOUI
 
Baina bigdata le futur eldorado
Baina bigdata le futur eldoradoBaina bigdata le futur eldorado
Baina bigdata le futur eldoradoKarim Baïna
 
La Banque de demain : Chapitre 4
La Banque de demain : Chapitre 4 La Banque de demain : Chapitre 4
La Banque de demain : Chapitre 4 OCTO Technology
 
Séminaire BIG DATA, SYNTHÈSE - ORSYS Formation
Séminaire BIG DATA, SYNTHÈSE - ORSYS FormationSéminaire BIG DATA, SYNTHÈSE - ORSYS Formation
Séminaire BIG DATA, SYNTHÈSE - ORSYS FormationORSYS
 
Big data et open data
Big data et open dataBig data et open data
Big data et open dataBart Hanssens
 
Ecosystème Big Data
Ecosystème Big DataEcosystème Big Data
Ecosystème Big DataIdriss22
 

Similaire à 2014 Présentation pour la soutenance du probatoire "Big Data"de galsungen (20)

OpenDataSoft - Les plateformes ouvertes de données, nouveau levier de l'innov...
OpenDataSoft - Les plateformes ouvertes de données, nouveau levier de l'innov...OpenDataSoft - Les plateformes ouvertes de données, nouveau levier de l'innov...
OpenDataSoft - Les plateformes ouvertes de données, nouveau levier de l'innov...
 
Big data
Big dataBig data
Big data
 
Vision et poc EDFsur les enjeux big data
Vision et poc EDFsur les enjeux big dataVision et poc EDFsur les enjeux big data
Vision et poc EDFsur les enjeux big data
 
Réflexions sur les missions et les compétences liées à une démarche data terr...
Réflexions sur les missions et les compétences liées à une démarche data terr...Réflexions sur les missions et les compétences liées à une démarche data terr...
Réflexions sur les missions et les compétences liées à une démarche data terr...
 
Big Data Des méandres des outils au potentiel business
Big Data   Des méandres des outils au potentiel businessBig Data   Des méandres des outils au potentiel business
Big Data Des méandres des outils au potentiel business
 
Big data
Big dataBig data
Big data
 
Bigdata opensource
Bigdata opensourceBigdata opensource
Bigdata opensource
 
Conférence Open Data La Gazette juin 2016
Conférence Open Data La Gazette juin 2016Conférence Open Data La Gazette juin 2016
Conférence Open Data La Gazette juin 2016
 
Open data et gouvernance des organisations par www.opendatasoft.com
Open data et gouvernance des organisations par www.opendatasoft.comOpen data et gouvernance des organisations par www.opendatasoft.com
Open data et gouvernance des organisations par www.opendatasoft.com
 
EXL Group - Offre Data Science
EXL Group - Offre Data ScienceEXL Group - Offre Data Science
EXL Group - Offre Data Science
 
AGMQ 2011 : Les données libres et le territoire
AGMQ 2011 : Les données libres et le territoireAGMQ 2011 : Les données libres et le territoire
AGMQ 2011 : Les données libres et le territoire
 
Du Big Data vers le SMART Data : Scénario d'un processus
Du Big Data vers le SMART Data : Scénario d'un processusDu Big Data vers le SMART Data : Scénario d'un processus
Du Big Data vers le SMART Data : Scénario d'un processus
 
Big data
Big dataBig data
Big data
 
Big data
Big dataBig data
Big data
 
Baina bigdata le futur eldorado
Baina bigdata le futur eldoradoBaina bigdata le futur eldorado
Baina bigdata le futur eldorado
 
La Banque de demain : Chapitre 4
La Banque de demain : Chapitre 4 La Banque de demain : Chapitre 4
La Banque de demain : Chapitre 4
 
Séminaire BIG DATA, SYNTHÈSE - ORSYS Formation
Séminaire BIG DATA, SYNTHÈSE - ORSYS FormationSéminaire BIG DATA, SYNTHÈSE - ORSYS Formation
Séminaire BIG DATA, SYNTHÈSE - ORSYS Formation
 
Introduction au Big data
Introduction au Big data Introduction au Big data
Introduction au Big data
 
Big data et open data
Big data et open dataBig data et open data
Big data et open data
 
Ecosystème Big Data
Ecosystème Big DataEcosystème Big Data
Ecosystème Big Data
 

2014 Présentation pour la soutenance du probatoire "Big Data"de galsungen

  • 1. CONSERVATOIRE NATIONAL DES ARTS ET METIERS CENTRE REGIONAL DE RHONE-ALPES --- Mémoire présenté en vue d’obtenir UE « Information et communication pour ingénieur » Spécialité : INFORMATIQUE --- Par Galsungen --- Big Data en médecine, en smart cities… Principes, utilités, exemples et solutions Soutenu le 10 juin 2014 --- JURY PRESIDENT [Civilité Prénom NOM Fonction] MEMBRES [Civilité Prénom NOM Fonction] [Civilité Prénom NOM Fonction]
  • 2. Plan • Définition : qu’est ce que le Big Data • Solutions techniques : Hadoop… • Open Data / Données ouvertes • Risques du Big Data • Usages – En général et en médecine – Smartcities / Villes intelligentes • Législation et vie privée • Bilan et perspectives 2 / 20 Plan Définition Open Data Risques Usages Bilan Solutions techniques Législation
  • 3. 3 / 20 Qu’est ce que le Big Data ? • Grosses données / Données de masse • Multiplication et démocratisation technologies • Evolution moyens de stockage • Nouvelle richesse • Souvent faible densité information – Données massives mais simples – Objectif : analyse, statistique, synthèse. • Expansion des données (3V : volume, variété, vélocité) Plan Définition Open Data Risques Usages Bilan Solutions techniques Législation
  • 4. 4 / 20 Les 3 V (Gartner) • Volume Quantité de données produites. En forte expansion. Exprimé en octets (tera, zetta…) • Variété Nombreux formats (texte, image, audio, vidéo…). Données structurées et non structurées. • Vélocité Fréquence de génération, capture et partage des données Plan Définition Open Data Risques Usages Bilan Solutions techniques Législation
  • 5. 5 / 20 Vers 5 V ? • Valeur Valeur qu’on va donner aux données qu’elle soit monétaire ou intrinsèque. • Véracité / Validité Les données sont-elles valides ? Sont-elles pertinentes ? Précises ? - - ou - - • Visibilité (à la place de la validité) Vision qu’on a des données. Compréhension de ces dernières. Plan Définition Open Data Risques Usages Bilan Solutions techniques Législation
  • 6. 6 / 20 Technologies • Pas une solution précise mais une réflexion – Que souhaite t’on obtenir ? – Que souhaite t’on réaliser ? – Comment y parvenir ? • Des boites à outils communes Plan Définition Open Data Risques Usages Bilan Solutions techniques Législation
  • 7. 7 / 20 Paysage du Big Data Plan Définition Open Data Risques Usages Bilan Solutions techniques Législation
  • 8. 8 / 20 Hadoop Plan Définition Open Data Risques Usages Bilan Solutions techniques Législation Source : JDN – journaldunet.com
  • 9. 9 / 20 3 catégories de logiciels • Stockage Baies SAN (Storage Area Network), SSD (Solid-State Drive), Clusters (grappes de serveurs)… Bases de données NoSQL • Traitement & calcul – Clusters, Cloud, cartes graphiques (General-purpose Processing Graphics Processing Units)… • Analyse – Mahout, MLPACK… Plan Définition Open Data Risques Usages Bilan Solutions techniques Législation
  • 10. 10 / 20 Open Data / Données ouvertes • Donnée numérique – Diffusion structurée – Méthodologie, licence – Libre accès et réutilisation. • Des lois pour appuyer cette ouverture – Transparence gouvernements, politiques – Evolution de l’article XV de la déclaration universelle des droits de l’homme • Echelles de qualité – Fondation Sunlight – Tim Berners-Lee • « Open Science data » Plan Définition Open Data Risques Usages Bilan Solutions techniques Législation
  • 11. 11 / 20 Risques • Identification indirecte – Granularité des données, anonymisation – MIT : Unique in the crowd • Sécurité des données – pérennité : durée de vie des stockages ? Datacenters ? – Ethique : respect des règles par les administrateurs • Fraicheur des données Plan Définition Open Data Risques Usages Bilan Solutions techniques Législation
  • 12. 12 / 20 Usages généraux • SIG (Cartographie) • Prévisions politiques, sportives, météorologique • Marketing & publicité • Segmentation, ciblage de populations, clientèles • Sciences (astronomie, cosmologie, climatologie…) • Autres… Plan Définition Open Data Risques Usages Bilan Solutions techniques Législation
  • 13. 13 / 20 Usages en médecine • Epidémiologie & Ecoépidémiologie • Séquençage génétique • Analyse imagerie médicale • Recherche Plan Définition Open Data Risques Usages Bilan Solutions techniques Législation Source : OpenHealth.fr Evolution des allergies en France
  • 14. 14 / 20 Usages en Smart Cities (Villes intelligentes) • Extension Domotique, Ubiquitous computing – Multiplication capteurs, caméras… • Exploitation données recueillies – Analyser l’existant – Suggestions d’évolutions • Usages très variés – Optimisation des transports – Optimisation, gestion des réseaux (eau, gaz, communication…) – Gestion des énergies (smartgrid…) – Optimisation de la sécurité (aide aux forces de l’ordre…) – Transparence des données – … Plan Définition Open Data Risques Usages Bilan Solutions techniques Législation
  • 15. 15 / 20 Usages en Smart Cities : Lyon • Portail Smart Data • Onlymoov : diffusion conditions de circulation en temps réel. • Onlymod : optimisation des transports avec prévision à une heure. Plan Définition Open Data Risques Usages Bilan Solutions techniques Législation Source : onlymoov.com
  • 16. 16 / 20 Usages en Smart Cities : Abidjan 1/2 – But : optimisation transports publics – Données : • Orange • 2,5 milliards d’échanges enregistrés entre 5 millions d’utilisateurs (appels – sms) sur 2012 • Etude sur 500 000 téléphones sur 5 mois • 50 000 utilisateurs changés toutes les 2 semaines Plan Définition Open Data Risques Usages Bilan Solutions techniques Législation
  • 17. 17 / 20 Usages en Smart Cities : Abidjan 2/2 Comment : • Utilisation base de données appels téléphoniques. Matrice des flux de déplacements. • Comparaison avec réseau en place. Plan Définition Open Data Risques Usages Bilan Solutions techniques Législation Source : La Recherche n°482 Cartes pour l’année 2012
  • 18. 18 / 20 Législation et vie privée • En France – Loi informatique et liberté – CNIL • Données étrangers – Exemple : « Patriot Act » américain • Jugement cours européenne : jurisprudence – ressortissant espagnol contre Google (Avril) – Proposition d’un un outil (formulaire) de suppression des liens par Google (30.05.14) Plan Définition Open Data Risques Usages Bilan Solutions techniques Législation
  • 19. Bilan et perspectives • Débouchés très variés • Explosion des données (informatique ubiquitaire, domotique, internet des objets) • Nouveaux métiers : analyste des données « data scientist » (mathématiques, statistiques, une culture informatique & « métier ») • Evolution continue pour une offre plus mature, plus vaste : – interface graphique Hadoop – PostgreSQL : volet NoSQL – MySQL Fabric par Oracle (scalabilité) • Attention : – qualité des données (stockage, persistance, sécurité, fraîcheur) – vie privée 19 / 20 Plan Définition Open Data Risques Usages Bilan Solutions techniques Législation
  • 20. Merci de votre attention. 20 / 20 Plan Histoire Procédés Matières Economie Législation BilanImprimante
  • 22. Différence Big Data / Business Intelligence (BI) • Différence par rapport aux données et à leur utilisation – BI : analyse de données à forte densité d’information pour mesurer, détecter des tendances. Pilotage d’activité à l’aide d’indicateurs. Aide à la décision. – Big Data : analyse données à faible densité d’information mais avec un très grand volume. Capacités prédictives.
  • 23. Octet Nom Symbole Valeur Mésusage Kilooctet ko 103 210 Mégaoctet Mo 106 220 Gigaoctet Go 109 230 Téraoctet To 1012 240 Pétaoctet Po 1015 Exaoctet Eo 1018 Zettaoctet Zo 1021 yottaoctet Yo 1024
  • 24. Bases de données NoSQL • Paradigme clé/valeur – Redis, Riak, Voldemort… • Bases documentaires – MongoDB, CouchDB, Terrastore… • Bases orientées colonnes – Cassandra, Amazon SimpleDB, Google BigTable, Hbase… • Paradigme graphe – Neo4j, OrientDB…
  • 25. NoSQL : Paradigme clé/valeur • Hashmap distribuée • Simple couple Clé / valeur • Valeur : – chaîne caractères, – objet sérialisé… • Applicatif remplace SQL • Requêtes PUT, GET, DELETE • Exemples : Redis, Riak, Voldemort (LinkedIn)
  • 26. NoSQL : Bases documentaires • Basé sur clé/valeur • Document type JSON, XML • Une clé retourne informations structurées hiérarchiquement • Evite de faire plusieurs jointures • Exemples : CouchDB (Hadoop), RavenDB (.NET/Windows), MongoDB
  • 27. NoSQL : Bases orientées colonnes • Similaire table d’un SGBDR • Différence : nombre de colonnes dynamique • Nombre de colonnes varie donc entre deux enregistrements (pas de valeur NULL) • Exemples : Hbase (BigTable de Google), Cassandra (Hadoop, Amazon)
  • 28. NoSQL : Paradigme graphe • Modèle sur théorie des graphes • Notion de nœuds, relations, propriétés rattachées • Facilite représentation monde réel • Adapté réseaux sociaux • Exemple : Neo4J
  • 29. Hadoop (Fondation Apache) • Principaux – Hadoop Common (utilitaires communs) – Hadoop Distributed File System (HDFS) (système de fichiers distribués) – Hadoop YARN (framework d’ordonnancement et de gestion de cluster) – Hadoop MapReduce (« YARN-based » système de traitements parallèles de larges jeux de données) • Autres – Ambari (outil web de gestion et management de clusters Apache Hadoop) – Avro (système de sérialisation des données) – Cassandra (Base de données scalable multi-maitres) – Chukwa (Système de collections de données pour gérer de larges systèmes distribués) – HBase (Base de données distribuée, scalable acceptant structuration de large jeux de données) – Hive (entrepôt de données) – Mahout (librairie de « data mining » et de « machine learning ») – Pig (langage pour flot de données et framework pour calcul parallèle) – Spark (moteur de calcul) – Tez (framework de programmation de flux de données basé sur YARN) – ZooKeeper (service de coordination pour applications distribuées) – …
  • 30. Qualité Open Data 1/2 • Complète • Primaire • Opportune • Accessible • Exploitable • Non discriminative • Non-propriétaire • Libre de droits • Permanente • Gratuite Les 10 critères de la Sunlight Foundation :
  • 31. Qualité Open Data 2/2 Données non filtrées Données disponibles de manière structurées Données librement exploitables Données identifiées par des URL Données liées à d’autres données pour les contextualiser et les enrichir Echelle de Time Berners-Lee :
  • 32. Déclaration Universelle des droits de l’homme • Article XIV Tous les Citoyens ont le droit de constater, par eux-mêmes ou par leurs Représentants, la nécessité de la contribution publique, de la consentir librement, d’en suivre l’emploi et d’en déterminer la quotité, l’assiette, le recouvrement et la durée. • Article XV La Société a le droit de demander compte à tout Agent public de son administration. • Article XVI Toute Société dans laquelle la garantie des Droits n’est pas assurée, ni la séparation des Pouvoirs déterminée, n’a point de Constitution. • Article XVII La propriété étant un droit inviolable et sacré, nul ne peut en être privé, si ce n’est lorsque la nécessité publique, légalement constatée, l’exige évidemment, et sous la condition d’une juste et préalable indemnité.