PLAN
• Introduction Générale
• Etude de l’existant
• Big Data et Hadoop
• Processus du travail
• Implémentation
• Conclusion générale

Introduction générale
Concurrence
Données
Comment
gagner en
productivité ?
Comment
favoriser la
prise de
décision?
• Traiter des données structurées
• Automatiser les différents traitements
• Représenter graphiquement les données.
1
Comment
permettre un
accès rapide aux
informations
?
Informatique décisionnelle
Comment
restituer c’est
données
Comment
lancer des
calcules
intensifs de
traitements
Comment gérer et
collecter les
nouvelles masse
de données

Etude de l’existant
 Service d’accueil
 Description d’activité (flux)
 Critiques

Service d’accueil
3
E2E Performance Managment
Quality
AccessNetwork
Benchmarking
& measurment
Complaint
management
Team
IT Complaint
Technical
COmplaint
Quality Core
Network
PS Quality
Team
CS Quality
Team

OPTIMISATION RADIO TRAFIC
NOC
Description d’activité (flux)
Sources de données
4
Requêtage
Base de données
Reporting
ETL
Tableau de bord

Critiques
5
LIMITE
VOLUMÉTRIQUE COÛT
BAISSE DE
PERFORMANCE
LENTEUR ET
COMPLEXITE

Le Big Data fait référence à l'explosion des données (Le
Volume, la Vitesse et la Variété) et aux nouvelles solutions
proposées pour gérer cette volumétrie par la capacité à
stocker, explorer, et analyser ces données .
BIG DATA
Définition 7
Big Data et Hadoop

VARIETE
VELOCITE
VOLUME
8
 Variété des sources
• Données internes : ( les emails, les documents, les bases de données)
• Données comportementales clients (géolocalisation, réseaux sociaux, …)
• Données Machine-To-Machine.
La Variété
 Variété des contenus
• Données structurées : informations que l’on trouve dans les base de données
• Données semi-structurées : contenu composé d’éléments s’adressant à un humain à
d’éléments s’adressant à une machine (emails, page web)
• Données non-structurées : audio, vidéo et enregistrement vocal
 Le traitement intensif sur les données
• la vitesse d’analyse des données à été multipliée, grâce aux innovations dans les
infrastructures matériels et dans le domaine du traitement de données.
La Vélocité
 Exemples d’utilisation
• Gestion du risque financier (banques, fonds d’investissement)
• Déclenchement d’action marketing en temps réel
• Optimisation des alertes sur les risques matériels
 Quelques chiffres
• 45 milliards d'objets connectés en 2015.
• 4.4 millions de métiers liés au Big Data seront créées d'ici à 2017.
• 204 millions d'emails, 1.8 million de Likes et 278 000 Tweets sont générés chaque
minute.
Le Volume
BIG DATA
Les 3V
Big Data et Hadoop

Hadoop est capable de stocker et traiter de manière
efficace un grand nombre de donnés, en reliant plusieurs
serveurs entre eux pour travailler en parallèle.
HADOOP
Définition 9
Big Data et Hadoop

HADOOP
HDFS
 Système de fichiers distribué :
C'est-à-dire que chaque machine composant le cluster Hadoop va héberger
une partie des fichiers. Il a été conçu pour stocker de très gros volumes de
données sur un grand nombre de machines.
 Caractéristique :
• HDFS fournit un système de réplications des blocs
10
Big Data et Hadoop

HADOOP
MapReduce
MapReduce:
Map/Reduce permet de distribuer les algorithmes de traitements au cœur de
la donnée pour augmenter la vitesse de traitement des données. Il est conçu
pour le traitement parallèle des données massives par un cluster de serveurs
pas chers, non exigeant sur la cohérence de données.
11
Big Data et Hadoop

Processus de travail
 Démarches du Projet
 Préparation de l'environnement

Démarche du Projet
Phase II
Phase III
ETL
La collecte des données sur HDFS
13
La transformation des données via HIVE
Chargement de données
Interface d'authentification
Interface de visualisation des rapports
Visualisation détaillée des rapports
Phase I
Réalisation d’une plate-forme de
Démonstration distribuée
Installation de CentOS
Installation de Hortonworks Data Plate-forme
Déploiement d’un cluster (1maître et 3 nœuds)
Visualisation graphique

Préparation de l’environnement
14
Architecture

 Nœuds esclaves
 Définition des IP statiques
 Mise à jour du Fichier hôtes
 Nœud maître
 Test de connections
 Mise à jour du système
 Définition du Hostname
 cloner 3 machines virtuelles
 Installation des composants Hadoop
15
Préparation de l’environnement
Installation

Implémentation
 Présentation de la partie Reporting
 Outils et technologies utilisés
 Présentation de la partie ETL
 Architecture

schéma de fonctionnement
Données structurées
• Reporting
• Analyse
• Tableaux de
bord
Partie traitement
Prisededécisionparlestechniciens
Injecter
HORTONWORKS DATA PLATFORME
Production Environnement Décisionnel Distribué
HDFS Représenter
17Architecture
Collecter Intégrer Traitement parallèle
MAPREDEUCE
Restituer
• Raffiner
• Nettoyer
• Transformer
• Charger
Données
Semi-structurées
Reporting
Implémentation

Outils et technologies utilisés
18
Implémentation

Partie traitement
ETL
19
Les Journaux de navigation web : c'est une piste d'information laissée
par un utilisateur en visitant un site Web. Il est généralement capturé dans
des fichiers journaux semi-structurés.
- Quel est le chemin le plus efficace pour un visiteur du site à la
recherche d'un produit pour l'acheter ?
- Quels produits les visiteurs ont tendance à acheter ensemble, et quels
sont les produits susceptibles d'être acheté à l'avenir ?
- Où devrait dépenser l'entreprise de nouvelles ressources ?
Implémentation

20
Partie traitement
ETL
Implémentation

21
Page d’authentificationPage authentification
Partie Reporting
Implémentation

22
Tableau de bord
Partie Reporting
Implémentation

23
Tableau de bord
Partie Reporting
Implémentation

20
• Apprendre un nouveau métier .
• Familiarisation avec les outils Hadoop,
MapReduce, Hive, Pig et ZoomData
• Gestion et organisation de travail.
• domaine du décisionnel.
• Avoir une meilleure vision sur le monde de travail .
• Patience et détermination.
• Responsabilité.
• Communication.
• savoir-faire.
Conclusion

MERCI pour votre Attention 

Social Network Analysis Utilizing Big Data Technology

Recommandé

Recommandé

Contenu connexe

Similaire à Social Network Analysis Utilizing Big Data Technology

Similaire à Social Network Analysis Utilizing Big Data Technology (20)

Social Network Analysis Utilizing Big Data Technology