SlideShare une entreprise Scribd logo
1  sur  16
CHP1 :
INTRODUCTION
Approche et Vocabulaire
Youssef CHOUNI
Slide 1
2
Introduction aux Big Data
• Chaque jour, nous générons 2,5 trillions d’octets de
données
• 90% des données dans le monde ont été créées au
cours des deux dernières années
• 90% des données générées sont non structurées
• Source:
 Capteurs utilisés pour collecter les informations climatiques
 Messages sur les médias sociaux
 Images numériques et vidéos publiées en ligne
 Enregistrements transactionnels d’achat en ligne
 Signaux GPS de téléphones mobiles
 …
• Données appelées Big Data ou Données Massives
3
• Chefs d’entreprise prennent fréquemment des
décisions basées sur des informations en
lesquelles ils n’ont pas confiance, ou qu’ils
n’ont pas
• Chefs d’entreprise disent qu’ils n’ont pas
accès aux informations dont ils ont besoin
pour faire leur
travail
• Des DSI (Directeurs des SI) citent : «
L’informatique décisionnelle et analytique »
commefaisant partie de leurs plans pour
améliorer leur compétitivité
• Des PDG ont besoin d’améliorer la capture et
la compréhension des informations pour
prendre des décisions plus rapidement
1/3
1/ 2
83%
60%
Introduction aux Big Data
• Sources multiples: sites, bases de données,
téléphones, serveurs:
 Détecter les sentiments et réactions des clients
 Détecter les conditions critiques ou potentiellement
mortelles dans les hôpitaux , et à temps pour intervenir
 Prédire des modèles météorologiques pour planifier l’usage
optimal des éoliennes
 Prendre des décisions risquées basées sur des données
transactionnelles en temps réel
 Identifier les criminels et les menaces à partir de vidéos,
sons et flux de données
 Étudier les réactions des étudiants pendant un cour, prédire
ceux qui vont réussir, d’après les statistiques et modèles
réunis au long des années
(domaine Big Data in Education)
INTRODUCTION AUX BIG DATA
4
• Réunir un grand volume de données variées pour
trouver de nouvelles idées
• Capturer des données créées rapidement
• Sauvegarder toutes ces données
• Traiter ces données et les utiliser
INTRODUCTION AUX BIG DATA
5
• Extraction d’informations et décisions à partir
de données, caractérisées par les 5 V:
 Volume (Volume)
 Variété (Variety)
 Vitesse (Velocity)
 Véracité (Veracity)
 Valeur (Value)
INTRODUCTION AUX BIG DATA
6
5 Vs du
BigData
Volume Vitesse
Valeur
Variété
Véracité
- Téraoctets
- Enreg. / Archives
- Transactions
- Tables, fichiers
- Batch
- Temps réél
- Processus
- Flot dedonnées
- Statistiques
- Évènements
- Corrélations
- Hypothétiques
- Confiance
- Authenticité
- Origine, réputation
- Disponibilité
- Responsabilité
- Structurées
- Non structurées
- Multi-facteur
- Probabilistes
7
• Le prix de stockage des données a beaucoup diminué ces
30 dernières années:
 De $100,000 / Go (1980)
 À $0.10 / Go (2013)
• Les lieux de stockage fiables (comme des SAN: Storage
Area Network) ou réseaux de stockage peuvent être très
coûteux
 Choisir de ne stocker que certaines données, j
ugées sensibles
 Perte de données, pouvant être très utiles, comme
les logs
• Comment déterminer les données qui méritent d’être
stockées?
 Transactio ns? Logs? Métier? Utilisateur?
Capteurs? Médicales? Sociales?
 Aucune donnée n’est inutile. Certaines n’ont juste pas
encore servi.
• Problèmes:
 Comment stocker les données dans un endroit
fiable, qui soit moins cher
 Comment parcourir ces données et en
extraire des info rmations facilement et
rapidement?
Introduction aux Big Data
- ²
Volume Vitesse
Valeur
Variété
Véracité
- Téraoctets
- Enreg. / Archives
- Transactions
- Tables, fichiers
- Batch
- Temps réél
- Processus
- Flot dedonnées
- Statistiques
- Évènements
- Corrélations
- Hypothétiques
- Confiance
- Authenticité
- Origine, réputation
- Disponibilité
- Responsabilité
- Structurées
- Non structurées
- Multi-facteur
- Probabilistes
8
• Pour un stockage dans des bases de données ou dans des
entrepôts de données, les données doivent respecter un
format prédéfini.
• La plupart des données existantes sont non- structurées
ou semi-structurées
• Données sous plusieurs formats et types
• On veut tout stocker:
 Exemple: pour une discussion dans un centre
d’appel, on peut la stocker sous forme textuelle
pour son contenu, comme on peut stocker
l’enregistrement en entier, pour interpréter le ton de
voix du client
• Certaines données peuvent paraître obsolètes, mais sont
utiles pour certaines décisions:
 Exemple: Pour le transport de marchandise, on a
tendance à choisir le camion le plus proche. Mais
parfois, ce n’est pas la meilleure solution. D’autres
problèmes peuvent intervenir.
 Besoin de : Données GPS, Plan de livraison du
camion, Circulation, Chargement du camion, Niveau
d’essence…
Introduction aux Big Data
5 Vs du
BigData
Volume Vitesse
Valeur
Véracité
- Téraoctets
- Enreg. / Archives
- Transactions
- Tables, fichiers
- Batch
- Temps réél
- Processus
- Flot dedonnées
- Statistiques
- Évènements
- Corrélations
- Hypothétiques
- Confiance
- Authenticité
- Origine, réputation
- Disponibilité
- Responsabilité
- Structurées
- Non structurées
- Multi-facteur
- Probabilistes
Vitesse
Valeur
Volume
Véracité
9
• Rapidité d’arrivée des données
• Vitesse de traitement
• Les données doivent être stockées
à l’arrivée, parfois même des
Teraoctets par jour
 Sinon, risque de perte
d’informations
• Exemple
 Il ne suffit pas de savoir quel
article un client a acheté ou
réservé
 Si si on sait que vous avez
passé plus de 5mn à consulter
un article dans une boutique
d’achat en ligne, il est possible
de vous envoyer un email dès
que cet article est soldé.
Introduction aux Big Data
- 5 Vs du
Big
Data
Volume Vitesse
Valeur
Variété
Véracité
- Téraoctets
- Enreg. / Archives
- Transactions
- Tables, fichiers
- Batch
- Temps réél
- Processus
- Flot dedonnées
- Statistiques
- Évènements
- Corrélations
- Hypothétiques
- Confiance
- Authenticité
- Origine, réputation
- Disponibilité
- Responsabilité
- Structurées
- Non structurées
- Multi-facteur
- Probabilistes
Valeur
Variété
Véracité
Volume
10
• Cela fait référence au désordre ou la
fiabilité des données. Avec
l’augmentation de la quantité, la
qualité et précision se
perdent (abréviations, typos,
déformations, source peu fiable…)
• Les solutions Big Data doivent remédier
à cela en se référant au volume des
données existantes
• Nécessité d’une (très) grande
rigueur dans l’organisation de la
collecte et le recoupement,
croisement, enrichissement des
données pour lever l’incertitude et
la nature imprévisible des données
introduites dans les modèles mais
aussi pour respecter le cadre légal
pour créer la confiance et garantir la
sécurité et l’intégrité des données.
Introduction aux Big Data
5 Vs du
BigData
Volume Vitesse
Valeur
Variété
Véracité
- Téraoctets
- Enreg. / Archives
- Transactions
- Tables, fichiers
- Batch
- Temps réél
- Processus
- Flot dedonnées
- Statistiques
- Évènements
- Corrélations
- Hypothétiques
- Confiance
- Authenticité
- Origine, réputation
- Disponibilité
- Responsabilité
- Structurées
- Non structurées
- Multi-facteur
- Probabilistes
Valeur
Variété
Volume Vitesse
• Le V le plus important
• Il faut transformer toutes les
données en valeurs
exploitables: les données
sans valeur sont inutiles
• Atteindre des objectifs
stratégiques de création de
valeur pour les clients et
pour l’entreprise dans tous
les domaines d’activité
INTRODUCTION AUX BIG DATA
11
5 Vs du
BigData
Volume Vitesse
Valeur
Variété
Véracité
- Téraoctets
- Enreg. / Archives
- Transactions
- Tables, fichiers
- Batch
- Temps réél
- Processus
- Flot dedonnées
- Statistiques
- Évènements
- Corrélations
- Hypothétiques
- Confiance
- Authenticité
- Origine, réputation
- Disponibilité
- Responsabilité
- Structurées
- Non structurées
- Multi-facteur
- Probabilistes
Vitesse
Variété
Volume
Véracité
Valeur
12
Introduction aux Big Data
De nouvelles exigences
nécessitent une nouvelle
conception et construction
Les besoins métier guident la conception de la solution
Le responsable métier définit
les besoins : Quelles
questions doit-on poser?
IT conçoit une solution avec un
ensemble de structures et
fonctionnalités
Le responsable métier exécute les
requêtes pour répondre aux
questions – encore et encore
• Appropriée pour:
 Des données structurées
 Opérations et processus répétitifs
 Sources relativement stables
 Besoins bien compris et bien cadrés
INTRODUCTION AUX BIG DATA
13
14
IntroductionauxBigData
Les sources d’information guident la découverte créative
Le responsable métier et IT
identifient les sources de données
disponibles
Denouvelles idées conduisent à
l’intégration de technologies
traditionnelles
IT fournit une plateforme
qui permet une
exploration créative de
toutes les données
disponibles
Le responsable métier détermine
les questions à poser en
explorant les données et
relations entre elles
• La question n’est pas :
 Dois-je choisir entre
l’approche classique et
l’approche Big Data?
• Mais plutôt:
 Comment les faire
fonctionner
ensemble?
INTRODUCTION AUX BIG DATA
15
Entrepôt de Données Plateforme Big Data
Sources Traditionnelles
Nouvelles Sources
Approche Big Data
Analyse Itérative et Exploratoire
Responsables Métier
Déterminent quelles
questions poser
APPROCHE BIG DATA VS APPROCHE TRADITIONNELLE
16
Responsables IT
Structurent les données
pour répondre à ces
questions
Responsables IT
Fournissent une
plateforme pour
permettre la
découverte créative
Responsables Métier
Explorent la plateforme
pour déterminer
quelles
questions poser
Introduction aux Big Data
Approche Traditionnelle
Analyse Structurée et Répétée

Contenu connexe

Similaire à introduction bigdata

CustoQuestion #19: Le DataLake
CustoQuestion #19: Le DataLakeCustoQuestion #19: Le DataLake
CustoQuestion #19: Le DataLakeFreedelity
 
Workshop - Monétisation de la Donnée : Process & Exemples
Workshop - Monétisation de la Donnée : Process & ExemplesWorkshop - Monétisation de la Donnée : Process & Exemples
Workshop - Monétisation de la Donnée : Process & ExemplesConverteo
 
Business intelligence pour startups
Business intelligence pour startupsBusiness intelligence pour startups
Business intelligence pour startupsSébastien Derivaux
 
La Banque de demain : Chapitre 4
La Banque de demain : Chapitre 4 La Banque de demain : Chapitre 4
La Banque de demain : Chapitre 4 OCTO Technology
 
Livre Blanc : comprendre les data-lakes
Livre Blanc : comprendre les data-lakesLivre Blanc : comprendre les data-lakes
Livre Blanc : comprendre les data-lakesConverteo
 
webinar180520171-jhkkjh170518113247.pptx
webinar180520171-jhkkjh170518113247.pptxwebinar180520171-jhkkjh170518113247.pptx
webinar180520171-jhkkjh170518113247.pptxJabirArif
 
Quel est l'avenir des stratégies de données?
Quel est l'avenir des stratégies de données?Quel est l'avenir des stratégies de données?
Quel est l'avenir des stratégies de données?Denodo
 
L'utilisation du Big Data en entreprise
L'utilisation du Big Data en entrepriseL'utilisation du Big Data en entreprise
L'utilisation du Big Data en entrepriseMathieu Lahaye
 
Big Data Des méandres des outils au potentiel business
Big Data   Des méandres des outils au potentiel businessBig Data   Des méandres des outils au potentiel business
Big Data Des méandres des outils au potentiel businessMouhsine LAKHDISSI
 
Introduction à la BIG DATA et l'Intelligence Artificielle
Introduction à la BIG DATA et l'Intelligence ArtificielleIntroduction à la BIG DATA et l'Intelligence Artificielle
Introduction à la BIG DATA et l'Intelligence ArtificielleMedhi Corneille Famibelle*
 
Introduction à la big data v3
Introduction à la big data v3 Introduction à la big data v3
Introduction à la big data v3 Mehdi TAZI
 
Point de vue expert: la stratégie “ comptoir des données”
Point de vue expert: la stratégie “ comptoir des données”Point de vue expert: la stratégie “ comptoir des données”
Point de vue expert: la stratégie “ comptoir des données”Denodo
 
IBM : Gouvernance de l\'Information - Principes & Mise en oeuvre
IBM : Gouvernance de l\'Information - Principes & Mise en oeuvreIBM : Gouvernance de l\'Information - Principes & Mise en oeuvre
IBM : Gouvernance de l\'Information - Principes & Mise en oeuvreNicolas Desachy
 
La qualité des données à l’ère du Big Data
La qualité des données à l’ère du Big DataLa qualité des données à l’ère du Big Data
La qualité des données à l’ère du Big DataPrecisely
 
RGPD : comment la virtualisation des données vous garantit conformité, gouver...
RGPD : comment la virtualisation des données vous garantit conformité, gouver...RGPD : comment la virtualisation des données vous garantit conformité, gouver...
RGPD : comment la virtualisation des données vous garantit conformité, gouver...Denodo
 
Enterprise Data Hub - La Clé de la Transformation de la Gestion de Données d'...
Enterprise Data Hub - La Clé de la Transformation de la Gestion de Données d'...Enterprise Data Hub - La Clé de la Transformation de la Gestion de Données d'...
Enterprise Data Hub - La Clé de la Transformation de la Gestion de Données d'...Excelerate Systems
 

Similaire à introduction bigdata (20)

CustoQuestion #19: Le DataLake
CustoQuestion #19: Le DataLakeCustoQuestion #19: Le DataLake
CustoQuestion #19: Le DataLake
 
Workshop - Monétisation de la Donnée : Process & Exemples
Workshop - Monétisation de la Donnée : Process & ExemplesWorkshop - Monétisation de la Donnée : Process & Exemples
Workshop - Monétisation de la Donnée : Process & Exemples
 
Business intelligence pour startups
Business intelligence pour startupsBusiness intelligence pour startups
Business intelligence pour startups
 
La Banque de demain : Chapitre 4
La Banque de demain : Chapitre 4 La Banque de demain : Chapitre 4
La Banque de demain : Chapitre 4
 
Livre Blanc : comprendre les data-lakes
Livre Blanc : comprendre les data-lakesLivre Blanc : comprendre les data-lakes
Livre Blanc : comprendre les data-lakes
 
webinar180520171-jhkkjh170518113247.pptx
webinar180520171-jhkkjh170518113247.pptxwebinar180520171-jhkkjh170518113247.pptx
webinar180520171-jhkkjh170518113247.pptx
 
Quel est l'avenir des stratégies de données?
Quel est l'avenir des stratégies de données?Quel est l'avenir des stratégies de données?
Quel est l'avenir des stratégies de données?
 
Etude sur le Big Data
Etude sur le Big DataEtude sur le Big Data
Etude sur le Big Data
 
Parcours Big Data @ Cetic (6 mai 2014)
Parcours Big Data @ Cetic (6 mai 2014)Parcours Big Data @ Cetic (6 mai 2014)
Parcours Big Data @ Cetic (6 mai 2014)
 
L'utilisation du Big Data en entreprise
L'utilisation du Big Data en entrepriseL'utilisation du Big Data en entreprise
L'utilisation du Big Data en entreprise
 
Big Data Des méandres des outils au potentiel business
Big Data   Des méandres des outils au potentiel businessBig Data   Des méandres des outils au potentiel business
Big Data Des méandres des outils au potentiel business
 
IBM Data lake
IBM Data lakeIBM Data lake
IBM Data lake
 
Introduction à la BIG DATA et l'Intelligence Artificielle
Introduction à la BIG DATA et l'Intelligence ArtificielleIntroduction à la BIG DATA et l'Intelligence Artificielle
Introduction à la BIG DATA et l'Intelligence Artificielle
 
Introduction à la big data v3
Introduction à la big data v3 Introduction à la big data v3
Introduction à la big data v3
 
Point de vue expert: la stratégie “ comptoir des données”
Point de vue expert: la stratégie “ comptoir des données”Point de vue expert: la stratégie “ comptoir des données”
Point de vue expert: la stratégie “ comptoir des données”
 
Partie2BI-DW2019
Partie2BI-DW2019Partie2BI-DW2019
Partie2BI-DW2019
 
IBM : Gouvernance de l\'Information - Principes & Mise en oeuvre
IBM : Gouvernance de l\'Information - Principes & Mise en oeuvreIBM : Gouvernance de l\'Information - Principes & Mise en oeuvre
IBM : Gouvernance de l\'Information - Principes & Mise en oeuvre
 
La qualité des données à l’ère du Big Data
La qualité des données à l’ère du Big DataLa qualité des données à l’ère du Big Data
La qualité des données à l’ère du Big Data
 
RGPD : comment la virtualisation des données vous garantit conformité, gouver...
RGPD : comment la virtualisation des données vous garantit conformité, gouver...RGPD : comment la virtualisation des données vous garantit conformité, gouver...
RGPD : comment la virtualisation des données vous garantit conformité, gouver...
 
Enterprise Data Hub - La Clé de la Transformation de la Gestion de Données d'...
Enterprise Data Hub - La Clé de la Transformation de la Gestion de Données d'...Enterprise Data Hub - La Clé de la Transformation de la Gestion de Données d'...
Enterprise Data Hub - La Clé de la Transformation de la Gestion de Données d'...
 

Dernier

SciencesPo_Aix_InnovationPédagogique_Atelier_EtudiantActeur.pdf
SciencesPo_Aix_InnovationPédagogique_Atelier_EtudiantActeur.pdfSciencesPo_Aix_InnovationPédagogique_Atelier_EtudiantActeur.pdf
SciencesPo_Aix_InnovationPédagogique_Atelier_EtudiantActeur.pdfSKennel
 
Saint Georges, martyr, et la lègend du dragon.pptx
Saint Georges, martyr, et la lègend du dragon.pptxSaint Georges, martyr, et la lègend du dragon.pptx
Saint Georges, martyr, et la lègend du dragon.pptxMartin M Flynn
 
LA MONTÉE DE L'ÉDUCATION DANS LE MONDE DE LA PRÉHISTOIRE À L'ÈRE CONTEMPORAIN...
LA MONTÉE DE L'ÉDUCATION DANS LE MONDE DE LA PRÉHISTOIRE À L'ÈRE CONTEMPORAIN...LA MONTÉE DE L'ÉDUCATION DANS LE MONDE DE LA PRÉHISTOIRE À L'ÈRE CONTEMPORAIN...
LA MONTÉE DE L'ÉDUCATION DANS LE MONDE DE LA PRÉHISTOIRE À L'ÈRE CONTEMPORAIN...Faga1939
 
SciencesPo_Aix_InnovationPédagogique_Bilan.pdf
SciencesPo_Aix_InnovationPédagogique_Bilan.pdfSciencesPo_Aix_InnovationPédagogique_Bilan.pdf
SciencesPo_Aix_InnovationPédagogique_Bilan.pdfSKennel
 
SciencesPo_Aix_InnovationPédagogique_Atelier_IA.pdf
SciencesPo_Aix_InnovationPédagogique_Atelier_IA.pdfSciencesPo_Aix_InnovationPédagogique_Atelier_IA.pdf
SciencesPo_Aix_InnovationPédagogique_Atelier_IA.pdfSKennel
 
Principe de fonctionnement d'un moteur 4 temps
Principe de fonctionnement d'un moteur 4 tempsPrincipe de fonctionnement d'un moteur 4 temps
Principe de fonctionnement d'un moteur 4 tempsRajiAbdelghani
 
Presentation de la plateforme Moodle - avril 2024
Presentation de la plateforme Moodle - avril 2024Presentation de la plateforme Moodle - avril 2024
Presentation de la plateforme Moodle - avril 2024Gilles Le Page
 
Zotero avancé - support de formation doctorants SHS 2024
Zotero avancé - support de formation doctorants SHS 2024Zotero avancé - support de formation doctorants SHS 2024
Zotero avancé - support de formation doctorants SHS 2024Alain Marois
 
A3iFormations, organisme de formations certifié qualiopi.
A3iFormations, organisme de formations certifié qualiopi.A3iFormations, organisme de formations certifié qualiopi.
A3iFormations, organisme de formations certifié qualiopi.Franck Apolis
 
Annie Ernaux Extérieurs. pptx. Exposition basée sur un livre .
Annie   Ernaux  Extérieurs. pptx. Exposition basée sur un livre .Annie   Ernaux  Extérieurs. pptx. Exposition basée sur un livre .
Annie Ernaux Extérieurs. pptx. Exposition basée sur un livre .Txaruka
 
Cours SE Le système Linux : La ligne de commande bash - IG IPSET
Cours SE Le système Linux : La ligne de commande bash - IG IPSETCours SE Le système Linux : La ligne de commande bash - IG IPSET
Cours SE Le système Linux : La ligne de commande bash - IG IPSETMedBechir
 
Le Lean sur une ligne de production : Formation et mise en application directe
Le Lean sur une ligne de production : Formation et mise en application directeLe Lean sur une ligne de production : Formation et mise en application directe
Le Lean sur une ligne de production : Formation et mise en application directeXL Groupe
 
SciencesPo_Aix_InnovationPédagogique_Conférence_SK.pdf
SciencesPo_Aix_InnovationPédagogique_Conférence_SK.pdfSciencesPo_Aix_InnovationPédagogique_Conférence_SK.pdf
SciencesPo_Aix_InnovationPédagogique_Conférence_SK.pdfSKennel
 
Evaluation du systeme d'Education. Marocpptx
Evaluation du systeme d'Education. MarocpptxEvaluation du systeme d'Education. Marocpptx
Evaluation du systeme d'Education. MarocpptxAsmaa105193
 
Fondation Louis Vuitton. pptx
Fondation      Louis      Vuitton.   pptxFondation      Louis      Vuitton.   pptx
Fondation Louis Vuitton. pptxTxaruka
 
SciencesPo_Aix_InnovationPédagogique_Atelier_FormationRecherche.pdf
SciencesPo_Aix_InnovationPédagogique_Atelier_FormationRecherche.pdfSciencesPo_Aix_InnovationPédagogique_Atelier_FormationRecherche.pdf
SciencesPo_Aix_InnovationPédagogique_Atelier_FormationRecherche.pdfSKennel
 
systeme expert_systeme expert_systeme expert
systeme expert_systeme expert_systeme expertsysteme expert_systeme expert_systeme expert
systeme expert_systeme expert_systeme expertChristianMbip
 
Présentation_ Didactique 1_SVT (S4) complet.pptx
Présentation_ Didactique 1_SVT (S4) complet.pptxPrésentation_ Didactique 1_SVT (S4) complet.pptx
Présentation_ Didactique 1_SVT (S4) complet.pptxrababouerdighi
 

Dernier (20)

SciencesPo_Aix_InnovationPédagogique_Atelier_EtudiantActeur.pdf
SciencesPo_Aix_InnovationPédagogique_Atelier_EtudiantActeur.pdfSciencesPo_Aix_InnovationPédagogique_Atelier_EtudiantActeur.pdf
SciencesPo_Aix_InnovationPédagogique_Atelier_EtudiantActeur.pdf
 
Saint Georges, martyr, et la lègend du dragon.pptx
Saint Georges, martyr, et la lègend du dragon.pptxSaint Georges, martyr, et la lègend du dragon.pptx
Saint Georges, martyr, et la lègend du dragon.pptx
 
LA MONTÉE DE L'ÉDUCATION DANS LE MONDE DE LA PRÉHISTOIRE À L'ÈRE CONTEMPORAIN...
LA MONTÉE DE L'ÉDUCATION DANS LE MONDE DE LA PRÉHISTOIRE À L'ÈRE CONTEMPORAIN...LA MONTÉE DE L'ÉDUCATION DANS LE MONDE DE LA PRÉHISTOIRE À L'ÈRE CONTEMPORAIN...
LA MONTÉE DE L'ÉDUCATION DANS LE MONDE DE LA PRÉHISTOIRE À L'ÈRE CONTEMPORAIN...
 
SciencesPo_Aix_InnovationPédagogique_Bilan.pdf
SciencesPo_Aix_InnovationPédagogique_Bilan.pdfSciencesPo_Aix_InnovationPédagogique_Bilan.pdf
SciencesPo_Aix_InnovationPédagogique_Bilan.pdf
 
SciencesPo_Aix_InnovationPédagogique_Atelier_IA.pdf
SciencesPo_Aix_InnovationPédagogique_Atelier_IA.pdfSciencesPo_Aix_InnovationPédagogique_Atelier_IA.pdf
SciencesPo_Aix_InnovationPédagogique_Atelier_IA.pdf
 
Principe de fonctionnement d'un moteur 4 temps
Principe de fonctionnement d'un moteur 4 tempsPrincipe de fonctionnement d'un moteur 4 temps
Principe de fonctionnement d'un moteur 4 temps
 
Presentation de la plateforme Moodle - avril 2024
Presentation de la plateforme Moodle - avril 2024Presentation de la plateforme Moodle - avril 2024
Presentation de la plateforme Moodle - avril 2024
 
DO PALÁCIO À ASSEMBLEIA .
DO PALÁCIO À ASSEMBLEIA                 .DO PALÁCIO À ASSEMBLEIA                 .
DO PALÁCIO À ASSEMBLEIA .
 
Zotero avancé - support de formation doctorants SHS 2024
Zotero avancé - support de formation doctorants SHS 2024Zotero avancé - support de formation doctorants SHS 2024
Zotero avancé - support de formation doctorants SHS 2024
 
A3iFormations, organisme de formations certifié qualiopi.
A3iFormations, organisme de formations certifié qualiopi.A3iFormations, organisme de formations certifié qualiopi.
A3iFormations, organisme de formations certifié qualiopi.
 
Annie Ernaux Extérieurs. pptx. Exposition basée sur un livre .
Annie   Ernaux  Extérieurs. pptx. Exposition basée sur un livre .Annie   Ernaux  Extérieurs. pptx. Exposition basée sur un livre .
Annie Ernaux Extérieurs. pptx. Exposition basée sur un livre .
 
Cours SE Le système Linux : La ligne de commande bash - IG IPSET
Cours SE Le système Linux : La ligne de commande bash - IG IPSETCours SE Le système Linux : La ligne de commande bash - IG IPSET
Cours SE Le système Linux : La ligne de commande bash - IG IPSET
 
Le Lean sur une ligne de production : Formation et mise en application directe
Le Lean sur une ligne de production : Formation et mise en application directeLe Lean sur une ligne de production : Formation et mise en application directe
Le Lean sur une ligne de production : Formation et mise en application directe
 
Pâques de Sainte Marie-Euphrasie Pelletier
Pâques de Sainte Marie-Euphrasie PelletierPâques de Sainte Marie-Euphrasie Pelletier
Pâques de Sainte Marie-Euphrasie Pelletier
 
SciencesPo_Aix_InnovationPédagogique_Conférence_SK.pdf
SciencesPo_Aix_InnovationPédagogique_Conférence_SK.pdfSciencesPo_Aix_InnovationPédagogique_Conférence_SK.pdf
SciencesPo_Aix_InnovationPédagogique_Conférence_SK.pdf
 
Evaluation du systeme d'Education. Marocpptx
Evaluation du systeme d'Education. MarocpptxEvaluation du systeme d'Education. Marocpptx
Evaluation du systeme d'Education. Marocpptx
 
Fondation Louis Vuitton. pptx
Fondation      Louis      Vuitton.   pptxFondation      Louis      Vuitton.   pptx
Fondation Louis Vuitton. pptx
 
SciencesPo_Aix_InnovationPédagogique_Atelier_FormationRecherche.pdf
SciencesPo_Aix_InnovationPédagogique_Atelier_FormationRecherche.pdfSciencesPo_Aix_InnovationPédagogique_Atelier_FormationRecherche.pdf
SciencesPo_Aix_InnovationPédagogique_Atelier_FormationRecherche.pdf
 
systeme expert_systeme expert_systeme expert
systeme expert_systeme expert_systeme expertsysteme expert_systeme expert_systeme expert
systeme expert_systeme expert_systeme expert
 
Présentation_ Didactique 1_SVT (S4) complet.pptx
Présentation_ Didactique 1_SVT (S4) complet.pptxPrésentation_ Didactique 1_SVT (S4) complet.pptx
Présentation_ Didactique 1_SVT (S4) complet.pptx
 

introduction bigdata

  • 1. CHP1 : INTRODUCTION Approche et Vocabulaire Youssef CHOUNI Slide 1
  • 2. 2 Introduction aux Big Data • Chaque jour, nous générons 2,5 trillions d’octets de données • 90% des données dans le monde ont été créées au cours des deux dernières années • 90% des données générées sont non structurées • Source:  Capteurs utilisés pour collecter les informations climatiques  Messages sur les médias sociaux  Images numériques et vidéos publiées en ligne  Enregistrements transactionnels d’achat en ligne  Signaux GPS de téléphones mobiles  … • Données appelées Big Data ou Données Massives
  • 3. 3 • Chefs d’entreprise prennent fréquemment des décisions basées sur des informations en lesquelles ils n’ont pas confiance, ou qu’ils n’ont pas • Chefs d’entreprise disent qu’ils n’ont pas accès aux informations dont ils ont besoin pour faire leur travail • Des DSI (Directeurs des SI) citent : « L’informatique décisionnelle et analytique » commefaisant partie de leurs plans pour améliorer leur compétitivité • Des PDG ont besoin d’améliorer la capture et la compréhension des informations pour prendre des décisions plus rapidement 1/3 1/ 2 83% 60% Introduction aux Big Data
  • 4. • Sources multiples: sites, bases de données, téléphones, serveurs:  Détecter les sentiments et réactions des clients  Détecter les conditions critiques ou potentiellement mortelles dans les hôpitaux , et à temps pour intervenir  Prédire des modèles météorologiques pour planifier l’usage optimal des éoliennes  Prendre des décisions risquées basées sur des données transactionnelles en temps réel  Identifier les criminels et les menaces à partir de vidéos, sons et flux de données  Étudier les réactions des étudiants pendant un cour, prédire ceux qui vont réussir, d’après les statistiques et modèles réunis au long des années (domaine Big Data in Education) INTRODUCTION AUX BIG DATA 4
  • 5. • Réunir un grand volume de données variées pour trouver de nouvelles idées • Capturer des données créées rapidement • Sauvegarder toutes ces données • Traiter ces données et les utiliser INTRODUCTION AUX BIG DATA 5
  • 6. • Extraction d’informations et décisions à partir de données, caractérisées par les 5 V:  Volume (Volume)  Variété (Variety)  Vitesse (Velocity)  Véracité (Veracity)  Valeur (Value) INTRODUCTION AUX BIG DATA 6 5 Vs du BigData Volume Vitesse Valeur Variété Véracité - Téraoctets - Enreg. / Archives - Transactions - Tables, fichiers - Batch - Temps réél - Processus - Flot dedonnées - Statistiques - Évènements - Corrélations - Hypothétiques - Confiance - Authenticité - Origine, réputation - Disponibilité - Responsabilité - Structurées - Non structurées - Multi-facteur - Probabilistes
  • 7. 7 • Le prix de stockage des données a beaucoup diminué ces 30 dernières années:  De $100,000 / Go (1980)  À $0.10 / Go (2013) • Les lieux de stockage fiables (comme des SAN: Storage Area Network) ou réseaux de stockage peuvent être très coûteux  Choisir de ne stocker que certaines données, j ugées sensibles  Perte de données, pouvant être très utiles, comme les logs • Comment déterminer les données qui méritent d’être stockées?  Transactio ns? Logs? Métier? Utilisateur? Capteurs? Médicales? Sociales?  Aucune donnée n’est inutile. Certaines n’ont juste pas encore servi. • Problèmes:  Comment stocker les données dans un endroit fiable, qui soit moins cher  Comment parcourir ces données et en extraire des info rmations facilement et rapidement? Introduction aux Big Data - ² Volume Vitesse Valeur Variété Véracité - Téraoctets - Enreg. / Archives - Transactions - Tables, fichiers - Batch - Temps réél - Processus - Flot dedonnées - Statistiques - Évènements - Corrélations - Hypothétiques - Confiance - Authenticité - Origine, réputation - Disponibilité - Responsabilité - Structurées - Non structurées - Multi-facteur - Probabilistes
  • 8. 8 • Pour un stockage dans des bases de données ou dans des entrepôts de données, les données doivent respecter un format prédéfini. • La plupart des données existantes sont non- structurées ou semi-structurées • Données sous plusieurs formats et types • On veut tout stocker:  Exemple: pour une discussion dans un centre d’appel, on peut la stocker sous forme textuelle pour son contenu, comme on peut stocker l’enregistrement en entier, pour interpréter le ton de voix du client • Certaines données peuvent paraître obsolètes, mais sont utiles pour certaines décisions:  Exemple: Pour le transport de marchandise, on a tendance à choisir le camion le plus proche. Mais parfois, ce n’est pas la meilleure solution. D’autres problèmes peuvent intervenir.  Besoin de : Données GPS, Plan de livraison du camion, Circulation, Chargement du camion, Niveau d’essence… Introduction aux Big Data 5 Vs du BigData Volume Vitesse Valeur Véracité - Téraoctets - Enreg. / Archives - Transactions - Tables, fichiers - Batch - Temps réél - Processus - Flot dedonnées - Statistiques - Évènements - Corrélations - Hypothétiques - Confiance - Authenticité - Origine, réputation - Disponibilité - Responsabilité - Structurées - Non structurées - Multi-facteur - Probabilistes Vitesse Valeur Volume Véracité
  • 9. 9 • Rapidité d’arrivée des données • Vitesse de traitement • Les données doivent être stockées à l’arrivée, parfois même des Teraoctets par jour  Sinon, risque de perte d’informations • Exemple  Il ne suffit pas de savoir quel article un client a acheté ou réservé  Si si on sait que vous avez passé plus de 5mn à consulter un article dans une boutique d’achat en ligne, il est possible de vous envoyer un email dès que cet article est soldé. Introduction aux Big Data - 5 Vs du Big Data Volume Vitesse Valeur Variété Véracité - Téraoctets - Enreg. / Archives - Transactions - Tables, fichiers - Batch - Temps réél - Processus - Flot dedonnées - Statistiques - Évènements - Corrélations - Hypothétiques - Confiance - Authenticité - Origine, réputation - Disponibilité - Responsabilité - Structurées - Non structurées - Multi-facteur - Probabilistes Valeur Variété Véracité Volume
  • 10. 10 • Cela fait référence au désordre ou la fiabilité des données. Avec l’augmentation de la quantité, la qualité et précision se perdent (abréviations, typos, déformations, source peu fiable…) • Les solutions Big Data doivent remédier à cela en se référant au volume des données existantes • Nécessité d’une (très) grande rigueur dans l’organisation de la collecte et le recoupement, croisement, enrichissement des données pour lever l’incertitude et la nature imprévisible des données introduites dans les modèles mais aussi pour respecter le cadre légal pour créer la confiance et garantir la sécurité et l’intégrité des données. Introduction aux Big Data 5 Vs du BigData Volume Vitesse Valeur Variété Véracité - Téraoctets - Enreg. / Archives - Transactions - Tables, fichiers - Batch - Temps réél - Processus - Flot dedonnées - Statistiques - Évènements - Corrélations - Hypothétiques - Confiance - Authenticité - Origine, réputation - Disponibilité - Responsabilité - Structurées - Non structurées - Multi-facteur - Probabilistes Valeur Variété Volume Vitesse
  • 11. • Le V le plus important • Il faut transformer toutes les données en valeurs exploitables: les données sans valeur sont inutiles • Atteindre des objectifs stratégiques de création de valeur pour les clients et pour l’entreprise dans tous les domaines d’activité INTRODUCTION AUX BIG DATA 11 5 Vs du BigData Volume Vitesse Valeur Variété Véracité - Téraoctets - Enreg. / Archives - Transactions - Tables, fichiers - Batch - Temps réél - Processus - Flot dedonnées - Statistiques - Évènements - Corrélations - Hypothétiques - Confiance - Authenticité - Origine, réputation - Disponibilité - Responsabilité - Structurées - Non structurées - Multi-facteur - Probabilistes Vitesse Variété Volume Véracité Valeur
  • 12. 12 Introduction aux Big Data De nouvelles exigences nécessitent une nouvelle conception et construction Les besoins métier guident la conception de la solution Le responsable métier définit les besoins : Quelles questions doit-on poser? IT conçoit une solution avec un ensemble de structures et fonctionnalités Le responsable métier exécute les requêtes pour répondre aux questions – encore et encore
  • 13. • Appropriée pour:  Des données structurées  Opérations et processus répétitifs  Sources relativement stables  Besoins bien compris et bien cadrés INTRODUCTION AUX BIG DATA 13
  • 14. 14 IntroductionauxBigData Les sources d’information guident la découverte créative Le responsable métier et IT identifient les sources de données disponibles Denouvelles idées conduisent à l’intégration de technologies traditionnelles IT fournit une plateforme qui permet une exploration créative de toutes les données disponibles Le responsable métier détermine les questions à poser en explorant les données et relations entre elles
  • 15. • La question n’est pas :  Dois-je choisir entre l’approche classique et l’approche Big Data? • Mais plutôt:  Comment les faire fonctionner ensemble? INTRODUCTION AUX BIG DATA 15 Entrepôt de Données Plateforme Big Data Sources Traditionnelles Nouvelles Sources
  • 16. Approche Big Data Analyse Itérative et Exploratoire Responsables Métier Déterminent quelles questions poser APPROCHE BIG DATA VS APPROCHE TRADITIONNELLE 16 Responsables IT Structurent les données pour répondre à ces questions Responsables IT Fournissent une plateforme pour permettre la découverte créative Responsables Métier Explorent la plateforme pour déterminer quelles questions poser Introduction aux Big Data Approche Traditionnelle Analyse Structurée et Répétée