1. Implémentation d’une architecture Big Data pour
le traitement des données multimédias et
multimodales
Projet de fin d’études
En vue de l’obtention du Diplôme National d’Ingénieur en Informatique
Encadrant entreprise
AGREBI Saïd
Réalisé par
MNIF Ahmed
Encadrant esprit
HAMED Asma
2. Plan
Introduction
Cadre du projet
Extraction et collecte des données
Intégration et traitement des données
Visualisation et analyse des données
Architectures Globales
Conclusion et perspectives
2
3. Introduction
Cadre du projet
Extraction et collecte des données
Intégration et traitement des données
Visualisation et analyse des données
Architectures Globales
Conclusion et perspectives
3
5. Introduction
Explosion des données
Chaque 60 secondes :
98,000 comptes Twitter sont crées.
695,000 statuts Facebook.
698,445 recherches sur Google
11 millions messages instantanés
168 millions mails envoyés
5
6. Introduction
Big Data
Explosion du volume des données
Evolution des systèmes d’information des entreprises
variété et complexité des données
La nécessité d’une nouvelle technologie qui peut traiter un grand volume de
données.
6
Big Data
7. Introduction
Cadre du projet
Extraction et collecte des données
Intégration et traitement des données
Visualisation et analyse des données
Architectures Globales
Conclusion
7
8. Cadre du projet
Organisme d'accueil
Une startup composé d’une jeune équipe.
Démocratiser la Data science et le Big Data à l’échelle nationale et africaine.
8
9. Cadre du projet
Problématique
Stockage, Traitement et analyse des données distribuées.
Gestion des données en streaming.
Travail en collaboration.
9
Architecture Big Data
12. Introduction
Cadre du projet
Extraction et collecte des données
Intégration et traitement des données
Visualisation et analyse des données
Architectures Globales
Conclusion et perspectives
12
13. Extraction et collecte des données
13
Application Web Yobihealth
Destinée pour des utilisateurs (patients, médecin)
Créer et stocker des données de différents
Formats dans le domaine de
santé (texte, vidéos, images, audios..).
14. Extraction et collecte des données
14
Application Web Yobihealth
Technologies utilisées
Utilisateurs
Patients/Médecins
Partie Front-end
Angular
Partie Back-end
Spring boot
Stockage des
données
web Restful Spring Data
16. Extraction et collecte des données
16
Open Data
Produites par les collectivités ou les entreprises.
Diffusées sous licence ouverte.
Accessibles et réutilisables librement sans restriction technique ou juridique.
Web Fichiers CsvFichiers JsonFichiers Xml
17. Intégration et traitement des données
17
Ingestion des données
Processus d’importation des données à partir de la source, vers un système de
stockage ou un système de traitement des données.
Sources des
données
Ingestion des
données
Traitement des données
en temps réel
18. Introduction
Cadre du projet
Extraction et collecte des données
Intégration et traitement des données
Visualisation et analyse des données
Architectures Globales
Conclusion et perspectives
18
19. Intégration et traitement des données
19
Stockage des données
Yobihealth
Open Data
Base de données NoSql. Base de données NoSql
Système de fichier distribué (hdfs)
Data Lake
Stockage des données
Stockage des données
Indexation et recherche
des données
20. Intégration et traitement des données
20
Traitement des données
Spark Streaming pour traiter les
données générer par l’application
en temps réel
Des données
Des données traitées
21. Intégration et traitement des données
21
Analyse des données
Ensemble de bibliothèques écrite en python pour
la science des données.
Inclut Jupyter Notebook.
Script data science et charts
22. Intégration et traitement des données
22
Jupyter Hub
Des instances Jupyter Notebook engendré par Jupyter Hub
Jupyter Hub génère et gère des instances du serveur Jupyter Notebook.
On connecte au instances générées à
travers les navigateurs
Navigateur Navigateur Navigateur
23. Intégration et traitement des données
23
Apache Toree
Un noyau pour Jupyter Notebook offrant un accès interactif à Apache Spark.
Développé en utilisant le protocole de messagerie IPython et 0MQ.
24. Introduction
Cadre du projet
Extraction et collecte des données
Intégration et traitement des données
Visualisation et analyse des données
Architectures Globales
Conclusion et perspectives
24
25. Visualisation et analyse des données
25
Outil de visualisation de
données pour Elasticsearch
Rapport
Rapport
Rapport
bibliothèques de visualisation interactive écrites
en différents langages ( scala, r, python …)
26. Visualisation et analyse des données
26
Durée du sommeil moyenne pour Cinq
personnes depuis leur utilisation de
l’application
Pourcentage des personnes dans
chaque statu de santé concernant la
maladie de diabète
Application Yobihealth Open Data
27. Introduction
Cadre du projet
Extraction et collecte des données
Intégration et traitement des données
Visualisation et analyse des données
Architectures Globales
Conclusion et perspectives
27
30. Introduction
Cadre du projet
Extraction et collecte des données
Intégration et traitement des données
Visualisation et analyse des données
Architectures Globales
Conclusion et perspectives
30
31. Conclusion et perspectives
31
La découverte des nouvelles Technologies et connaissances.
Big Data , Virtualisation , base de données NoSql , développement Web
Vécue une expérience dans la vie professionnelle et vie d’entreprise.
Perspective
Autres cas d’usage que le domaine de la santé.