SlideShare une entreprise Scribd logo
PROJET DE FIN D’ETUDE
SOCIAL NETWORK ANALYSIS
UTILIZING BIG DATA TECHNOLOGY
Présenté par :
ALILAT IMAD
Sujet proposé par :
M. LAIDDOUDI
Devant le jury :
Mr. AYACHE Président
Mme. CHENAIT Membre
2016
-
2017
PLAN
• Introduction Générale
• Etude de l’existant
• Big Data et Hadoop
• Processus du travail
• Implémentation
• Conclusion générale
Introduction générale
Introduction générale
Concurrence
Données
Comment
gagner en
productivité ?
Comment
favoriser la
prise de
décision?
• Traiter des données structurées
• Automatiser les différents traitements
• Représenter graphiquement les données.
1
Comment
permettre un
accès rapide aux
informations
?
Informatique décisionnelle
Comment
restituer c’est
données
Comment
lancer des
calcules
intensifs de
traitements
Comment gérer et
collecter les
nouvelles masse
de données
Etude de l’existant
 Service d’accueil
 Description d’activité (flux)
 Critiques
Service d’accueil
3
E2E Performance Managment
Quality
AccessNetwork
Benchmarking
& measurment
Complaint
management
Team
IT Complaint
Technical
COmplaint
Quality Core
Network
PS Quality
Team
CS Quality
Team
Etude de l’existant
OPTIMISATION RADIO TRAFIC
NOC
Description d’activité (flux)
Sources de données
4
Requêtage
Base de données
Reporting
ETL
Tableau de bord
Etude de l’existant
Critiques
5
LIMITE
VOLUMÉTRIQUE COÛT
BAISSE DE
PERFORMANCE
LENTEUR ET
COMPLEXITE
Etude de l’existant
BIG DATA & HADOOP
Le Big Data fait référence à l'explosion des données (Le
Volume, la Vitesse et la Variété) et aux nouvelles solutions
proposées pour gérer cette volumétrie par la capacité à
stocker, explorer, et analyser ces données .
BIG DATA
Définition 7
Big Data et Hadoop
VARIETE
VELOCITE
VOLUME
8
 Variété des sources
• Données internes : ( les emails, les documents, les bases de données)
• Données comportementales clients (géolocalisation, réseaux sociaux, …)
• Données Machine-To-Machine.
La Variété
 Variété des contenus
• Données structurées : informations que l’on trouve dans les base de données
• Données semi-structurées : contenu composé d’éléments s’adressant à un humain à
d’éléments s’adressant à une machine (emails, page web)
• Données non-structurées : audio, vidéo et enregistrement vocal
 Le traitement intensif sur les données
• la vitesse d’analyse des données à été multipliée, grâce aux innovations dans les
infrastructures matériels et dans le domaine du traitement de données.
La Vélocité
 Exemples d’utilisation
• Gestion du risque financier (banques, fonds d’investissement)
• Déclenchement d’action marketing en temps réel
• Optimisation des alertes sur les risques matériels
 Quelques chiffres
• 45 milliards d'objets connectés en 2015.
• 4.4 millions de métiers liés au Big Data seront créées d'ici à 2017.
• 204 millions d'emails, 1.8 million de Likes et 278 000 Tweets sont générés chaque
minute.
Le Volume
BIG DATA
Les 3V
Big Data et Hadoop
Hadoop est capable de stocker et traiter de manière
efficace un grand nombre de donnés, en reliant plusieurs
serveurs entre eux pour travailler en parallèle.
HADOOP
Définition 9
Big Data et Hadoop
HADOOP
HDFS
 Système de fichiers distribué :
C'est-à-dire que chaque machine composant le cluster Hadoop va héberger
une partie des fichiers. Il a été conçu pour stocker de très gros volumes de
données sur un grand nombre de machines.
 Caractéristique :
• HDFS fournit un système de réplications des blocs
10
Big Data et Hadoop
HADOOP
MapReduce
MapReduce:
Map/Reduce permet de distribuer les algorithmes de traitements au cœur de
la donnée pour augmenter la vitesse de traitement des données. Il est conçu
pour le traitement parallèle des données massives par un cluster de serveurs
pas chers, non exigeant sur la cohérence de données.
11
Big Data et Hadoop
Processus de travail
 Démarches du Projet
 Préparation de l'environnement
Démarche du Projet
Phase II
Phase III
ETL
La collecte des données sur HDFS
13
La transformation des données via HIVE
Chargement de données
Interface d'authentification
Interface de visualisation des rapports
Visualisation détaillée des rapports
Processus de travail
Phase I
Réalisation d’une plate-forme de
Démonstration distribuée
Installation de CentOS
Installation de Hortonworks Data Plate-forme
Déploiement d’un cluster (1maître et 3 nœuds)
Visualisation graphique
Préparation de l’environnement
14
Architecture
Processus de travail
 Nœuds esclaves
 Définition des IP statiques
 Mise à jour du Fichier hôtes
 Nœud maître
 Test de connections
 Mise à jour du système
 Définition du Hostname
 cloner 3 machines virtuelles
 Installation des composants Hadoop
15
Processus de travail
Préparation de l’environnement
Installation
Implémentation
 Présentation de la partie Reporting
 Outils et technologies utilisés
 Présentation de la partie ETL
 Architecture
schéma de fonctionnement
Données structurées
• Reporting
• Analyse
• Tableaux de
bord
Partie traitement
Prisededécisionparlestechniciens
Injecter
HORTONWORKS DATA PLATFORME
Production Environnement Décisionnel Distribué
HDFS Représenter
17Architecture
Collecter Intégrer Traitement parallèle
MAPREDEUCE
Restituer
• Raffiner
• Nettoyer
• Transformer
• Charger
Données
Semi-structurées
Reporting
Implémentation
Outils et technologies utilisés
18
Implémentation
Partie traitement
ETL
19
Les Journaux de navigation web : c'est une piste d'information laissée
par un utilisateur en visitant un site Web. Il est généralement capturé dans
des fichiers journaux semi-structurés.
- Quel est le chemin le plus efficace pour un visiteur du site à la
recherche d'un produit pour l'acheter ?
- Quels produits les visiteurs ont tendance à acheter ensemble, et quels
sont les produits susceptibles d'être acheté à l'avenir ?
- Où devrait dépenser l'entreprise de nouvelles ressources ?
Implémentation
20
Partie traitement
ETL
Implémentation
21
Page d’authentificationPage authentification
Partie Reporting
Implémentation
22
Tableau de bord
Partie Reporting
Implémentation
23
Tableau de bord
Partie Reporting
Implémentation
20
• Apprendre un nouveau métier .
• Familiarisation avec les outils Hadoop,
MapReduce, Hive, Pig et ZoomData
• Gestion et organisation de travail.
• domaine du décisionnel.
• Avoir une meilleure vision sur le monde de travail .
• Patience et détermination.
• Responsabilité.
• Communication.
• savoir-faire.
Conclusion
MERCI pour votre Attention 

Contenu connexe

Similaire à Social Network Analysis Utilizing Big Data Technology

Enterprise Data Hub - La Clé de la Transformation de la Gestion de Données d'...
Enterprise Data Hub - La Clé de la Transformation de la Gestion de Données d'...Enterprise Data Hub - La Clé de la Transformation de la Gestion de Données d'...
Enterprise Data Hub - La Clé de la Transformation de la Gestion de Données d'...
Excelerate Systems
 
Big data
Big dataBig data
Distributed programing (hadoop && java) version finale.pptx
Distributed programing  (hadoop && java) version finale.pptxDistributed programing  (hadoop && java) version finale.pptx
Distributed programing (hadoop && java) version finale.pptx
Ahmed rebai
 
Discovery Session France: Atelier découverte de la Data Virtualization
Discovery Session France: Atelier découverte de la Data VirtualizationDiscovery Session France: Atelier découverte de la Data Virtualization
Discovery Session France: Atelier découverte de la Data Virtualization
Denodo
 
20160216 - From BigData to BigProcessing
20160216 - From BigData to BigProcessing20160216 - From BigData to BigProcessing
20160216 - From BigData to BigProcessing
Pierre-Marie Brunet
 
Track 2 - Atelier 1 - Big data analytics présenté avec Intel
Track 2 - Atelier 1 - Big data analytics présenté avec IntelTrack 2 - Atelier 1 - Big data analytics présenté avec Intel
Track 2 - Atelier 1 - Big data analytics présenté avec Intel
Amazon Web Services
 
Big Data : SQL, NoSQL ? Pourquoi faire un choix ?
Big Data : SQL, NoSQL ? Pourquoi faire un choix ?Big Data : SQL, NoSQL ? Pourquoi faire un choix ?
Big Data : SQL, NoSQL ? Pourquoi faire un choix ?
Microsoft Décideurs IT
 
Hug france - Administration Hadoop et retour d’expérience BI avec Impala, lim...
Hug france - Administration Hadoop et retour d’expérience BI avec Impala, lim...Hug france - Administration Hadoop et retour d’expérience BI avec Impala, lim...
Hug france - Administration Hadoop et retour d’expérience BI avec Impala, lim...
Modern Data Stack France
 
Ecosystème Big Data
Ecosystème Big DataEcosystème Big Data
Ecosystème Big Data
Idriss22
 
Azure Camp 9 Décembre 2014 - slides session développeurs IOT Big Data
Azure Camp 9 Décembre 2014 - slides session développeurs IOT Big DataAzure Camp 9 Décembre 2014 - slides session développeurs IOT Big Data
Azure Camp 9 Décembre 2014 - slides session développeurs IOT Big Data
Microsoft
 
Session en ligne: Découverte du Logical Data Fabric & Data Virtualization
Session en ligne: Découverte du Logical Data Fabric & Data VirtualizationSession en ligne: Découverte du Logical Data Fabric & Data Virtualization
Session en ligne: Découverte du Logical Data Fabric & Data Virtualization
Denodo
 
INFORMATION BUILDERS - Comment integrer les big data a votre SI - Data foru...
INFORMATION BUILDERS -  Comment integrer les big data a votre SI -  Data foru...INFORMATION BUILDERS -  Comment integrer les big data a votre SI -  Data foru...
INFORMATION BUILDERS - Comment integrer les big data a votre SI - Data foru...
Micropole Group
 
Oxalide MorningTech #1 - BigData
Oxalide MorningTech #1 - BigDataOxalide MorningTech #1 - BigData
Oxalide MorningTech #1 - BigData
Ludovic Piot
 
Quel hadoop (#quelhadoop)
Quel hadoop (#quelhadoop)Quel hadoop (#quelhadoop)
Quel hadoop (#quelhadoop)
Romain Broussard
 
Spad big data - sfds - 2016
Spad   big data - sfds - 2016Spad   big data - sfds - 2016
Spad big data - sfds - 2016
Julien BLAIZE
 
La Duck Conf 2018 : "Superbe maison d'architecte avec vue sur le lac"
La Duck Conf 2018 : "Superbe maison d'architecte avec vue sur le lac"La Duck Conf 2018 : "Superbe maison d'architecte avec vue sur le lac"
La Duck Conf 2018 : "Superbe maison d'architecte avec vue sur le lac"
OCTO Technology
 
Livre blanc data-lakes converteo 2018
Livre blanc data-lakes converteo 2018Livre blanc data-lakes converteo 2018
Livre blanc data-lakes converteo 2018
Converteo
 
HADOOP + R
HADOOP + RHADOOP + R
HADOOP + R
Cdiscount
 
SAS Forum Soft Computing Théâtre
SAS Forum Soft Computing ThéâtreSAS Forum Soft Computing Théâtre
SAS Forum Soft Computing Théâtre
Soft Computing
 
Propostion un Iaas
Propostion un IaasPropostion un Iaas
Propostion un Iaas
yacine sebihi
 

Similaire à Social Network Analysis Utilizing Big Data Technology (20)

Enterprise Data Hub - La Clé de la Transformation de la Gestion de Données d'...
Enterprise Data Hub - La Clé de la Transformation de la Gestion de Données d'...Enterprise Data Hub - La Clé de la Transformation de la Gestion de Données d'...
Enterprise Data Hub - La Clé de la Transformation de la Gestion de Données d'...
 
Big data
Big dataBig data
Big data
 
Distributed programing (hadoop && java) version finale.pptx
Distributed programing  (hadoop && java) version finale.pptxDistributed programing  (hadoop && java) version finale.pptx
Distributed programing (hadoop && java) version finale.pptx
 
Discovery Session France: Atelier découverte de la Data Virtualization
Discovery Session France: Atelier découverte de la Data VirtualizationDiscovery Session France: Atelier découverte de la Data Virtualization
Discovery Session France: Atelier découverte de la Data Virtualization
 
20160216 - From BigData to BigProcessing
20160216 - From BigData to BigProcessing20160216 - From BigData to BigProcessing
20160216 - From BigData to BigProcessing
 
Track 2 - Atelier 1 - Big data analytics présenté avec Intel
Track 2 - Atelier 1 - Big data analytics présenté avec IntelTrack 2 - Atelier 1 - Big data analytics présenté avec Intel
Track 2 - Atelier 1 - Big data analytics présenté avec Intel
 
Big Data : SQL, NoSQL ? Pourquoi faire un choix ?
Big Data : SQL, NoSQL ? Pourquoi faire un choix ?Big Data : SQL, NoSQL ? Pourquoi faire un choix ?
Big Data : SQL, NoSQL ? Pourquoi faire un choix ?
 
Hug france - Administration Hadoop et retour d’expérience BI avec Impala, lim...
Hug france - Administration Hadoop et retour d’expérience BI avec Impala, lim...Hug france - Administration Hadoop et retour d’expérience BI avec Impala, lim...
Hug france - Administration Hadoop et retour d’expérience BI avec Impala, lim...
 
Ecosystème Big Data
Ecosystème Big DataEcosystème Big Data
Ecosystème Big Data
 
Azure Camp 9 Décembre 2014 - slides session développeurs IOT Big Data
Azure Camp 9 Décembre 2014 - slides session développeurs IOT Big DataAzure Camp 9 Décembre 2014 - slides session développeurs IOT Big Data
Azure Camp 9 Décembre 2014 - slides session développeurs IOT Big Data
 
Session en ligne: Découverte du Logical Data Fabric & Data Virtualization
Session en ligne: Découverte du Logical Data Fabric & Data VirtualizationSession en ligne: Découverte du Logical Data Fabric & Data Virtualization
Session en ligne: Découverte du Logical Data Fabric & Data Virtualization
 
INFORMATION BUILDERS - Comment integrer les big data a votre SI - Data foru...
INFORMATION BUILDERS -  Comment integrer les big data a votre SI -  Data foru...INFORMATION BUILDERS -  Comment integrer les big data a votre SI -  Data foru...
INFORMATION BUILDERS - Comment integrer les big data a votre SI - Data foru...
 
Oxalide MorningTech #1 - BigData
Oxalide MorningTech #1 - BigDataOxalide MorningTech #1 - BigData
Oxalide MorningTech #1 - BigData
 
Quel hadoop (#quelhadoop)
Quel hadoop (#quelhadoop)Quel hadoop (#quelhadoop)
Quel hadoop (#quelhadoop)
 
Spad big data - sfds - 2016
Spad   big data - sfds - 2016Spad   big data - sfds - 2016
Spad big data - sfds - 2016
 
La Duck Conf 2018 : "Superbe maison d'architecte avec vue sur le lac"
La Duck Conf 2018 : "Superbe maison d'architecte avec vue sur le lac"La Duck Conf 2018 : "Superbe maison d'architecte avec vue sur le lac"
La Duck Conf 2018 : "Superbe maison d'architecte avec vue sur le lac"
 
Livre blanc data-lakes converteo 2018
Livre blanc data-lakes converteo 2018Livre blanc data-lakes converteo 2018
Livre blanc data-lakes converteo 2018
 
HADOOP + R
HADOOP + RHADOOP + R
HADOOP + R
 
SAS Forum Soft Computing Théâtre
SAS Forum Soft Computing ThéâtreSAS Forum Soft Computing Théâtre
SAS Forum Soft Computing Théâtre
 
Propostion un Iaas
Propostion un IaasPropostion un Iaas
Propostion un Iaas
 

Social Network Analysis Utilizing Big Data Technology

  • 1. PROJET DE FIN D’ETUDE SOCIAL NETWORK ANALYSIS UTILIZING BIG DATA TECHNOLOGY Présenté par : ALILAT IMAD Sujet proposé par : M. LAIDDOUDI Devant le jury : Mr. AYACHE Président Mme. CHENAIT Membre 2016 - 2017
  • 2. PLAN • Introduction Générale • Etude de l’existant • Big Data et Hadoop • Processus du travail • Implémentation • Conclusion générale
  • 4. Introduction générale Concurrence Données Comment gagner en productivité ? Comment favoriser la prise de décision? • Traiter des données structurées • Automatiser les différents traitements • Représenter graphiquement les données. 1 Comment permettre un accès rapide aux informations ? Informatique décisionnelle Comment restituer c’est données Comment lancer des calcules intensifs de traitements Comment gérer et collecter les nouvelles masse de données
  • 5. Etude de l’existant  Service d’accueil  Description d’activité (flux)  Critiques
  • 6. Service d’accueil 3 E2E Performance Managment Quality AccessNetwork Benchmarking & measurment Complaint management Team IT Complaint Technical COmplaint Quality Core Network PS Quality Team CS Quality Team Etude de l’existant
  • 7. OPTIMISATION RADIO TRAFIC NOC Description d’activité (flux) Sources de données 4 Requêtage Base de données Reporting ETL Tableau de bord Etude de l’existant
  • 9. BIG DATA & HADOOP
  • 10. Le Big Data fait référence à l'explosion des données (Le Volume, la Vitesse et la Variété) et aux nouvelles solutions proposées pour gérer cette volumétrie par la capacité à stocker, explorer, et analyser ces données . BIG DATA Définition 7 Big Data et Hadoop
  • 11. VARIETE VELOCITE VOLUME 8  Variété des sources • Données internes : ( les emails, les documents, les bases de données) • Données comportementales clients (géolocalisation, réseaux sociaux, …) • Données Machine-To-Machine. La Variété  Variété des contenus • Données structurées : informations que l’on trouve dans les base de données • Données semi-structurées : contenu composé d’éléments s’adressant à un humain à d’éléments s’adressant à une machine (emails, page web) • Données non-structurées : audio, vidéo et enregistrement vocal  Le traitement intensif sur les données • la vitesse d’analyse des données à été multipliée, grâce aux innovations dans les infrastructures matériels et dans le domaine du traitement de données. La Vélocité  Exemples d’utilisation • Gestion du risque financier (banques, fonds d’investissement) • Déclenchement d’action marketing en temps réel • Optimisation des alertes sur les risques matériels  Quelques chiffres • 45 milliards d'objets connectés en 2015. • 4.4 millions de métiers liés au Big Data seront créées d'ici à 2017. • 204 millions d'emails, 1.8 million de Likes et 278 000 Tweets sont générés chaque minute. Le Volume BIG DATA Les 3V Big Data et Hadoop
  • 12. Hadoop est capable de stocker et traiter de manière efficace un grand nombre de donnés, en reliant plusieurs serveurs entre eux pour travailler en parallèle. HADOOP Définition 9 Big Data et Hadoop
  • 13. HADOOP HDFS  Système de fichiers distribué : C'est-à-dire que chaque machine composant le cluster Hadoop va héberger une partie des fichiers. Il a été conçu pour stocker de très gros volumes de données sur un grand nombre de machines.  Caractéristique : • HDFS fournit un système de réplications des blocs 10 Big Data et Hadoop
  • 14. HADOOP MapReduce MapReduce: Map/Reduce permet de distribuer les algorithmes de traitements au cœur de la donnée pour augmenter la vitesse de traitement des données. Il est conçu pour le traitement parallèle des données massives par un cluster de serveurs pas chers, non exigeant sur la cohérence de données. 11 Big Data et Hadoop
  • 15. Processus de travail  Démarches du Projet  Préparation de l'environnement
  • 16. Démarche du Projet Phase II Phase III ETL La collecte des données sur HDFS 13 La transformation des données via HIVE Chargement de données Interface d'authentification Interface de visualisation des rapports Visualisation détaillée des rapports Processus de travail Phase I Réalisation d’une plate-forme de Démonstration distribuée Installation de CentOS Installation de Hortonworks Data Plate-forme Déploiement d’un cluster (1maître et 3 nœuds) Visualisation graphique
  • 18.  Nœuds esclaves  Définition des IP statiques  Mise à jour du Fichier hôtes  Nœud maître  Test de connections  Mise à jour du système  Définition du Hostname  cloner 3 machines virtuelles  Installation des composants Hadoop 15 Processus de travail Préparation de l’environnement Installation
  • 19. Implémentation  Présentation de la partie Reporting  Outils et technologies utilisés  Présentation de la partie ETL  Architecture
  • 20. schéma de fonctionnement Données structurées • Reporting • Analyse • Tableaux de bord Partie traitement Prisededécisionparlestechniciens Injecter HORTONWORKS DATA PLATFORME Production Environnement Décisionnel Distribué HDFS Représenter 17Architecture Collecter Intégrer Traitement parallèle MAPREDEUCE Restituer • Raffiner • Nettoyer • Transformer • Charger Données Semi-structurées Reporting Implémentation
  • 21. Outils et technologies utilisés 18 Implémentation
  • 22. Partie traitement ETL 19 Les Journaux de navigation web : c'est une piste d'information laissée par un utilisateur en visitant un site Web. Il est généralement capturé dans des fichiers journaux semi-structurés. - Quel est le chemin le plus efficace pour un visiteur du site à la recherche d'un produit pour l'acheter ? - Quels produits les visiteurs ont tendance à acheter ensemble, et quels sont les produits susceptibles d'être acheté à l'avenir ? - Où devrait dépenser l'entreprise de nouvelles ressources ? Implémentation
  • 25. 22 Tableau de bord Partie Reporting Implémentation
  • 26. 23 Tableau de bord Partie Reporting Implémentation
  • 27. 20 • Apprendre un nouveau métier . • Familiarisation avec les outils Hadoop, MapReduce, Hive, Pig et ZoomData • Gestion et organisation de travail. • domaine du décisionnel. • Avoir une meilleure vision sur le monde de travail . • Patience et détermination. • Responsabilité. • Communication. • savoir-faire. Conclusion
  • 28. MERCI pour votre Attention 