SlideShare une entreprise Scribd logo
1  sur  41
Télécharger pour lire hors ligne
Knowledge Discovery in Big Data
(Healthcare Application)
Wilfreid K. AGBO
wilfried.agbo@univ-sba.dz
Supervised by: Mrs. Samah BOUAMAMA
University Djillali Liabes of Sidi Bel Abbes
Department of Computer Science
Master 2 ISI
June 12, 2018
Wilfreid K. AGBO (UDL) Knowledge Discovery in Big Data June 12, 2018 1 / 26
Quotes
“There was 5 exabytes of information created between the dawn of
civilization through 2003,but that much information is now created
every 2 days, and the pace is increasing...People aren’t ready for
the technology revolution that’s going to happen to them.”
Eric Schmidt, former CEO of Google in 2010 at Lake Tahoe
Technomy Conference.
Wilfreid K. AGBO (UDL) Knowledge Discovery in Big Data June 12, 2018 2 / 26
Plan
1 Introduction
2 Problématiques et Solutions
3 Data Mining & Knowledge Discovery
4 Big Data et Data Mining en Healthcare
5 Notre Approche
6 DataSet
7 Conclusion
Wilfreid K. AGBO (UDL) Knowledge Discovery in Big Data June 12, 2018 3 / 26
Introduction
Introduction
Le monde est à l’ère du digital
La facilité d’acquisition des données ( capteurs, télescopes, cartes de
fidélité, traces sur les sites internet, simulations ...)
La baisse des prix des supports de stockage (Le prix du Go )
Social media explosion: 500M de tweets, 70M photos sur Instagram,
5M de videos sur Facebook [Grossman, 2015].
Internet of Things (IoT): Les objets connectés comme
smartphones,smartwatch, smartBasket, smartglass, glucomètre,
pacemaker . . .
2.5 quintillion bytes de données par jour (Data Explosion)
[Calude and Longo, 2017]
90% des données actuelles sont générées à partir seulement des deux
dernières années [Calude and Longo, 2017]
Ce phénomène de génération de trafic de données massifs est connu
sous le nom de Big Data
Wilfreid K. AGBO (UDL) Knowledge Discovery in Big Data June 12, 2018 4 / 26
Introduction
Introduction
Le monde est à l’ère du digital
La facilité d’acquisition des données ( capteurs, télescopes, cartes de
fidélité, traces sur les sites internet, simulations ...)
La baisse des prix des supports de stockage (Le prix du Go )
Social media explosion: 500M de tweets, 70M photos sur Instagram,
5M de videos sur Facebook [Grossman, 2015].
Internet of Things (IoT): Les objets connectés comme
smartphones,smartwatch, smartBasket, smartglass, glucomètre,
pacemaker . . .
2.5 quintillion bytes de données par jour (Data Explosion)
[Calude and Longo, 2017]
90% des données actuelles sont générées à partir seulement des deux
dernières années [Calude and Longo, 2017]
Ce phénomène de génération de trafic de données massifs est connu
sous le nom de Big Data
Wilfreid K. AGBO (UDL) Knowledge Discovery in Big Data June 12, 2018 4 / 26
Introduction
Introduction
Le monde est à l’ère du digital
La facilité d’acquisition des données ( capteurs, télescopes, cartes de
fidélité, traces sur les sites internet, simulations ...)
La baisse des prix des supports de stockage (Le prix du Go )
Social media explosion: 500M de tweets, 70M photos sur Instagram,
5M de videos sur Facebook [Grossman, 2015].
Internet of Things (IoT): Les objets connectés comme
smartphones,smartwatch, smartBasket, smartglass, glucomètre,
pacemaker . . .
2.5 quintillion bytes de données par jour (Data Explosion)
[Calude and Longo, 2017]
90% des données actuelles sont générées à partir seulement des deux
dernières années [Calude and Longo, 2017]
Ce phénomène de génération de trafic de données massifs est connu
sous le nom de Big Data
Wilfreid K. AGBO (UDL) Knowledge Discovery in Big Data June 12, 2018 4 / 26
Introduction
Introduction
Le monde est à l’ère du digital
La facilité d’acquisition des données ( capteurs, télescopes, cartes de
fidélité, traces sur les sites internet, simulations ...)
La baisse des prix des supports de stockage (Le prix du Go )
Social media explosion: 500M de tweets, 70M photos sur Instagram,
5M de videos sur Facebook [Grossman, 2015].
Internet of Things (IoT): Les objets connectés comme
smartphones,smartwatch, smartBasket, smartglass, glucomètre,
pacemaker . . .
2.5 quintillion bytes de données par jour (Data Explosion)
[Calude and Longo, 2017]
90% des données actuelles sont générées à partir seulement des deux
dernières années [Calude and Longo, 2017]
Ce phénomène de génération de trafic de données massifs est connu
sous le nom de Big Data
Wilfreid K. AGBO (UDL) Knowledge Discovery in Big Data June 12, 2018 4 / 26
Introduction
Introduction
Le monde est à l’ère du digital
La facilité d’acquisition des données ( capteurs, télescopes, cartes de
fidélité, traces sur les sites internet, simulations ...)
La baisse des prix des supports de stockage (Le prix du Go )
Social media explosion: 500M de tweets, 70M photos sur Instagram,
5M de videos sur Facebook [Grossman, 2015].
Internet of Things (IoT): Les objets connectés comme
smartphones,smartwatch, smartBasket, smartglass, glucomètre,
pacemaker . . .
2.5 quintillion bytes de données par jour (Data Explosion)
[Calude and Longo, 2017]
90% des données actuelles sont générées à partir seulement des deux
dernières années [Calude and Longo, 2017]
Ce phénomène de génération de trafic de données massifs est connu
sous le nom de Big Data
Wilfreid K. AGBO (UDL) Knowledge Discovery in Big Data June 12, 2018 4 / 26
Introduction
Introduction
Le monde est à l’ère du digital
La facilité d’acquisition des données ( capteurs, télescopes, cartes de
fidélité, traces sur les sites internet, simulations ...)
La baisse des prix des supports de stockage (Le prix du Go )
Social media explosion: 500M de tweets, 70M photos sur Instagram,
5M de videos sur Facebook [Grossman, 2015].
Internet of Things (IoT): Les objets connectés comme
smartphones,smartwatch, smartBasket, smartglass, glucomètre,
pacemaker . . .
2.5 quintillion bytes de données par jour (Data Explosion)
[Calude and Longo, 2017]
90% des données actuelles sont générées à partir seulement des deux
dernières années [Calude and Longo, 2017]
Ce phénomène de génération de trafic de données massifs est connu
sous le nom de Big Data
Wilfreid K. AGBO (UDL) Knowledge Discovery in Big Data June 12, 2018 4 / 26
Introduction
Introduction
Le monde est à l’ère du digital
La facilité d’acquisition des données ( capteurs, télescopes, cartes de
fidélité, traces sur les sites internet, simulations ...)
La baisse des prix des supports de stockage (Le prix du Go )
Social media explosion: 500M de tweets, 70M photos sur Instagram,
5M de videos sur Facebook [Grossman, 2015].
Internet of Things (IoT): Les objets connectés comme
smartphones,smartwatch, smartBasket, smartglass, glucomètre,
pacemaker . . .
2.5 quintillion bytes de données par jour (Data Explosion)
[Calude and Longo, 2017]
90% des données actuelles sont générées à partir seulement des deux
dernières années [Calude and Longo, 2017]
Ce phénomène de génération de trafic de données massifs est connu
sous le nom de Big Data
Wilfreid K. AGBO (UDL) Knowledge Discovery in Big Data June 12, 2018 4 / 26
Introduction
Introduction
Le monde est à l’ère du digital
La facilité d’acquisition des données ( capteurs, télescopes, cartes de
fidélité, traces sur les sites internet, simulations ...)
La baisse des prix des supports de stockage (Le prix du Go )
Social media explosion: 500M de tweets, 70M photos sur Instagram,
5M de videos sur Facebook [Grossman, 2015].
Internet of Things (IoT): Les objets connectés comme
smartphones,smartwatch, smartBasket, smartglass, glucomètre,
pacemaker . . .
2.5 quintillion bytes de données par jour (Data Explosion)
[Calude and Longo, 2017]
90% des données actuelles sont générées à partir seulement des deux
dernières années [Calude and Longo, 2017]
Ce phénomène de génération de trafic de données massifs est connu
sous le nom de Big Data
Wilfreid K. AGBO (UDL) Knowledge Discovery in Big Data June 12, 2018 4 / 26
Problématiques et Solutions
Problématiques et Solutions
Problématiques
Aujourd’hui les entreprises comme l’industrie du Healthcare, finances,
retails . . . coulent sous une énorme quantité de données, dû au progrès
de la Technologie.
Cependant un problème se pose: Comment stocker et traiter ces
méga-données en un temps raisonnable?
De plus les données proviennent de plusieurs sources, sous divers
formats et elles sont à l’état brut, dépourvu d’un quelconque sens:
Comment transformer et raffiner ces données en connaissances utiles
afin d’en faire une utilisation adéquate pour prendre une décision
intéressante?
Wilfreid K. AGBO (UDL) Knowledge Discovery in Big Data June 12, 2018 5 / 26
Problématiques et Solutions
Problématiques et Solutions
Problématiques
Aujourd’hui les entreprises comme l’industrie du Healthcare, finances,
retails . . . coulent sous une énorme quantité de données, dû au progrès
de la Technologie.
Cependant un problème se pose: Comment stocker et traiter ces
méga-données en un temps raisonnable?
De plus les données proviennent de plusieurs sources, sous divers
formats et elles sont à l’état brut, dépourvu d’un quelconque sens:
Comment transformer et raffiner ces données en connaissances utiles
afin d’en faire une utilisation adéquate pour prendre une décision
intéressante?
Wilfreid K. AGBO (UDL) Knowledge Discovery in Big Data June 12, 2018 5 / 26
Problématiques et Solutions
Problématiques et Solutions
Problématiques
Aujourd’hui les entreprises comme l’industrie du Healthcare, finances,
retails . . . coulent sous une énorme quantité de données, dû au progrès
de la Technologie.
Cependant un problème se pose: Comment stocker et traiter ces
méga-données en un temps raisonnable?
De plus les données proviennent de plusieurs sources, sous divers
formats et elles sont à l’état brut, dépourvu d’un quelconque sens:
Comment transformer et raffiner ces données en connaissances utiles
afin d’en faire une utilisation adéquate pour prendre une décision
intéressante?
Wilfreid K. AGBO (UDL) Knowledge Discovery in Big Data June 12, 2018 5 / 26
Problématiques et Solutions
Problématiques et Solutions
Problématiques
Aujourd’hui les entreprises comme l’industrie du Healthcare, finances,
retails . . . coulent sous une énorme quantité de données, dû au progrès
de la Technologie.
Cependant un problème se pose: Comment stocker et traiter ces
méga-données en un temps raisonnable?
De plus les données proviennent de plusieurs sources, sous divers
formats et elles sont à l’état brut, dépourvu d’un quelconque sens:
Comment transformer et raffiner ces données en connaissances utiles
afin d’en faire une utilisation adéquate pour prendre une décision
intéressante?
Wilfreid K. AGBO (UDL) Knowledge Discovery in Big Data June 12, 2018 5 / 26
Problématiques et Solutions
Problématiques et Solutions
Solutions
Pour Résoudre ces problèmes précédement cités, la solution idéale est
le Big Data Analytics. Une méthode dérivée du Big Data qui réflète les
défis des données très volumineuses, très non-structurées à évolution
rapide dont la gestion est difficile par les méthodes traditionnelles.
Elle consiste à appliquer un modèle d’extraction de connaissances basé
sur les techniques du Data Mining sur la Big Data.
Notre solution est d’utiliser le modèle KDD (Knowledge Discovery
in Databases) d’extraction de connaissances dans une Big Data
médicale en utilisant les outils adéquats au Big data (Apache
Hadoop,Mahout) et des algorithmes de Machine Learning non
supervisé comme le K-Means
Wilfreid K. AGBO (UDL) Knowledge Discovery in Big Data June 12, 2018 6 / 26
Problématiques et Solutions
Problématiques et Solutions
Solutions
Pour Résoudre ces problèmes précédement cités, la solution idéale est
le Big Data Analytics. Une méthode dérivée du Big Data qui réflète les
défis des données très volumineuses, très non-structurées à évolution
rapide dont la gestion est difficile par les méthodes traditionnelles.
Elle consiste à appliquer un modèle d’extraction de connaissances basé
sur les techniques du Data Mining sur la Big Data.
Notre solution est d’utiliser le modèle KDD (Knowledge Discovery
in Databases) d’extraction de connaissances dans une Big Data
médicale en utilisant les outils adéquats au Big data (Apache
Hadoop,Mahout) et des algorithmes de Machine Learning non
supervisé comme le K-Means
Wilfreid K. AGBO (UDL) Knowledge Discovery in Big Data June 12, 2018 6 / 26
Problématiques et Solutions
Problématiques et Solutions
Solutions
Pour Résoudre ces problèmes précédement cités, la solution idéale est
le Big Data Analytics. Une méthode dérivée du Big Data qui réflète les
défis des données très volumineuses, très non-structurées à évolution
rapide dont la gestion est difficile par les méthodes traditionnelles.
Elle consiste à appliquer un modèle d’extraction de connaissances basé
sur les techniques du Data Mining sur la Big Data.
Notre solution est d’utiliser le modèle KDD (Knowledge Discovery
in Databases) d’extraction de connaissances dans une Big Data
médicale en utilisant les outils adéquats au Big data (Apache
Hadoop,Mahout) et des algorithmes de Machine Learning non
supervisé comme le K-Means
Wilfreid K. AGBO (UDL) Knowledge Discovery in Big Data June 12, 2018 6 / 26
Problématiques et Solutions
Big Data
Data Analytics
• Internal
• External
• Multiple Formats
• Multiple Locations
• Multiple Applications
Big Data Sources
Big Data
Transformation
Big Data
Platofrm & Tools
Big data Analytics
Applications
Data Warehouse
Middleware
Extract
Transform
Load
Traditional Format,
CSV, Tables
Queries
Reports
OLAP
Data Mining
Big Data
Analytics
• Hadoop
• Map/Reduce
• Pig
• Hive
• Jaql
• Zookeeper
• Hbase
• Cassandra
• Onzie
• Avro
• Mahout
• Others
Transformed
Data
Raw
Data
Wilfreid K. AGBO (UDL) Knowledge Discovery in Big Data June 12, 2018 7 / 26
Data Mining & Knowledge Discovery
Data Mining & Knowledge Discovery
Le Data Mining consiste à analyser une quantité énorme de données et
à en extraire des informations utiles à des fins diverses
[Shafique and Qaiser, 2014].
Le terme Data Mining (DM) est fortement lié au concept de grande
base de données et revient à la définition de la recherche algorithmes
de modèles de connaissances [Martins et al., 2016]
La Knowledge Discovery in Database (KDD) est un processus
non-trivial,novateur,potentiellement utile et de compréhension de
modèles dans les données![Schmidt and Sun, 2016]
Le DM est aussi un sous-processus de KDD, qui consiste à identifier
des modèles intéressants grâce à l’application d’algorithmes
d’apprentissage automatique. [Schmidt and Sun, 2016]
Wilfreid K. AGBO (UDL) Knowledge Discovery in Big Data June 12, 2018 8 / 26
Data Mining & Knowledge Discovery
Data Mining & Knowledge Discovery
Le Data Mining consiste à analyser une quantité énorme de données et
à en extraire des informations utiles à des fins diverses
[Shafique and Qaiser, 2014].
Le terme Data Mining (DM) est fortement lié au concept de grande
base de données et revient à la définition de la recherche algorithmes
de modèles de connaissances [Martins et al., 2016]
La Knowledge Discovery in Database (KDD) est un processus
non-trivial,novateur,potentiellement utile et de compréhension de
modèles dans les données![Schmidt and Sun, 2016]
Le DM est aussi un sous-processus de KDD, qui consiste à identifier
des modèles intéressants grâce à l’application d’algorithmes
d’apprentissage automatique. [Schmidt and Sun, 2016]
Wilfreid K. AGBO (UDL) Knowledge Discovery in Big Data June 12, 2018 8 / 26
Data Mining & Knowledge Discovery
Data Mining & Knowledge Discovery
Le Data Mining consiste à analyser une quantité énorme de données et
à en extraire des informations utiles à des fins diverses
[Shafique and Qaiser, 2014].
Le terme Data Mining (DM) est fortement lié au concept de grande
base de données et revient à la définition de la recherche algorithmes
de modèles de connaissances [Martins et al., 2016]
La Knowledge Discovery in Database (KDD) est un processus
non-trivial,novateur,potentiellement utile et de compréhension de
modèles dans les données![Schmidt and Sun, 2016]
Le DM est aussi un sous-processus de KDD, qui consiste à identifier
des modèles intéressants grâce à l’application d’algorithmes
d’apprentissage automatique. [Schmidt and Sun, 2016]
Wilfreid K. AGBO (UDL) Knowledge Discovery in Big Data June 12, 2018 8 / 26
Data Mining & Knowledge Discovery
Data Mining & Knowledge Discovery
Le Data Mining consiste à analyser une quantité énorme de données et
à en extraire des informations utiles à des fins diverses
[Shafique and Qaiser, 2014].
Le terme Data Mining (DM) est fortement lié au concept de grande
base de données et revient à la définition de la recherche algorithmes
de modèles de connaissances [Martins et al., 2016]
La Knowledge Discovery in Database (KDD) est un processus
non-trivial,novateur,potentiellement utile et de compréhension de
modèles dans les données![Schmidt and Sun, 2016]
Le DM est aussi un sous-processus de KDD, qui consiste à identifier
des modèles intéressants grâce à l’application d’algorithmes
d’apprentissage automatique. [Schmidt and Sun, 2016]
Wilfreid K. AGBO (UDL) Knowledge Discovery in Big Data June 12, 2018 8 / 26
Data Mining & Knowledge Discovery
Data Mining & Knowledge Discovery
Principe du Data Mining (fig 2)
Model 1
Model 2
Model n
Dataset/Sample
ALGORITHM
Wilfreid K. AGBO (UDL) Knowledge Discovery in Big Data June 12, 2018 9 / 26
Data Mining & Knowledge Discovery
Data Mining & Knowledge Discovery
Les Modèles de DM (fig 3)
Figure: L’évolution des modèles
Wilfreid K. AGBO (UDL) Knowledge Discovery in Big Data June 12, 2018 10 / 26
Data Mining & Knowledge Discovery
Data Mining & Knowledge Discovery
Le Modèle KDD (fig 4) [Fayyal et Al, 1996]
Knowledge
Selection
Preprocessing
& Cleaning
Preprocessing
& Cleaning
Transformation
Data Mining
Interpretation /
Evaluation
Understanding
1. application domain
2. the goals of end-user
1. Manage Missing values
2. Outliers/noisy data
3. Correct inconsistent data
1. Dimension reduction
2. Data compression
3. Numerosity Reduction[]
1. Choose DM task: cl,re,as
2. Choose DM Algorithm
3. Employ DM Algorithm
1. Accuracy/Recall/Kappa
2. Support/Confidence
3. Similarity measures
1
3
6
5
4
Selecting
2
1. Lists/Trees
2. Semantic networks
3. Rules based represent.
4. Logic based rep.
7
Visualize/use
Disc. Knowledge
Wilfreid K. AGBO (UDL) Knowledge Discovery in Big Data June 12, 2018 11 / 26
Data Mining & Knowledge Discovery
Clustering avec KMeans
Étant donné un ensemble de points (x1, x2, ..., xn), on cherche à
partitionner les n points en k ensembles S = S1, S2, ..., Sk(k ≤ n)
1 Partitionner les objets en K ensembles non vide
2 Calculer le barycentre de chaque partition
3 Assigner à chaque objet le Cluster dont le barycentre est le plus proche
4 Répéter l’étape 2 jusqu’à ce qu’il n’ y ait plus de changements:
Wilfreid K. AGBO (UDL) Knowledge Discovery in Big Data June 12, 2018 12 / 26
Big Data et Data Mining en Healthcare
Big Data et Data Mining en Healthcare
Défini comme la prévention, le traitement et la prise en charge de la
maladie et la préservation du bien-être mental et physique grâce aux
services offerts par les professions médicales et paramédicales.
[Patel et al., 2011]
L’industrie du HC génère aujourd’hui une large quantité de données
complexes sur les patients, les ressources des hopitaux, les diagnostics,
Electronic Health Records (Données personnelles sur les patients),
Biomedical Databases, public health les équipements et gadgets
médicaux.
Wilfreid K. AGBO (UDL) Knowledge Discovery in Big Data June 12, 2018 13 / 26
Big Data et Data Mining en Healthcare
Big Data & Data Mining in Healthcare
Quel rôle le DM peut-il jouer?
Le rôle du DM
Cette énorme quantité de données est une clé pour le traitement et
l’analyse par la Knowledge Discovery en vue de réduire des frais et prendre
des décisions par exemple
Patients profiles analytics;
Genomic analytics;
Device Remote/Monitoring;
Research and Development [Raghupathi and Raghupathi, 2014];
. . .
Wilfreid K. AGBO (UDL) Knowledge Discovery in Big Data June 12, 2018 14 / 26
Notre Approche
Apache Hadoop
Wilfreid K. AGBO (UDL) Knowledge Discovery in Big Data June 12, 2018 15 / 26
Notre Approche
Apache Mahout
Framework de Apache conçu pour le ML distribué.
Classification
Clustering
Recommandation
Wilfreid K. AGBO (UDL) Knowledge Discovery in Big Data June 12, 2018 16 / 26
Notre Approche
La virtualisation par les Containers
Figure: VMs vs Containers
Wilfreid K. AGBO (UDL) Knowledge Discovery in Big Data June 12, 2018 17 / 26
Notre Approche
Difficultés
Matérielles (PC de 4Go de RAM Temps de chargement du DataSet
(40min))
Techniques (clé ssh, installation des clusters multinode Hadoop)
Wilfreid K. AGBO (UDL) Knowledge Discovery in Big Data June 12, 2018 18 / 26
Notre Approche
Map Reduce
Figure: MapReduce process
Wilfreid K. AGBO (UDL) Knowledge Discovery in Big Data June 12, 2018 19 / 26
Notre Approche
Clustering sous MapReduce
Figure: MapReduce process
Wilfreid K. AGBO (UDL) Knowledge Discovery in Big Data June 12, 2018 20 / 26
DataSet
DataSet
Provenance: Emrbots.org Auteur : [Kartoun, 2016]
La base numero 1 contient de 100 instances
La base numero 2 contient 10,000 instances
La base numero 3 contient 100,000 instances.
Wilfreid K. AGBO (UDL) Knowledge Discovery in Big Data June 12, 2018 21 / 26
Conclusion
Conclusion
En somme, Le Big Data est plus qu’une simple question de taille. C’est
l’occasion de trouver des idées sur des types de données et de contenu
nouveaux et émergents, d’extraire des connaissances extrêmement utiles
pour prendre des décisions de rendre votre entreprise plus agile et de
répondre à des questions qui étaient auparavant hors de votre portée.
Jusqu’à présent, il n’y avait aucun moyen pratique de récolter cette
opportunité. Aujourd’hui, beaucoup de sociétés optent pour le choix du Big
Data. Mais n’oublions pas que sans la partie analytique et extraction de
connaissance, Le Big Data ne servira à rien.
Wilfreid K. AGBO (UDL) Knowledge Discovery in Big Data June 12, 2018 22 / 26
Conclusion
Sélection par les méta-heuristique.
Echantillonnage, soit la Cross validation ou autre.
FuzzyKMeans, le Spectral KMeans, le Canopy Clustering et voir celui
qui est le plus performant.
Exécuter l’algorithme KMeans avec différentes mesures de distances
comme celle de Mahnhattan ou Euclidienne et voir les différences.
Exécuter l’algorithme KMeans avec différents nombre de Clusters K.
Augmenter le nombre de noeuds de Hadoop et voir le temps de
traitement.
Implémenter cet algorithme de Clustering sur un vrai Cluster Hadoop.
Extraire une connaissance palpable qui sera au profit du domaine de la
santé.
Wilfreid K. AGBO (UDL) Knowledge Discovery in Big Data June 12, 2018 23 / 26
Conclusion
Références I
Calude, C. S. and Longo, G. (2017).
The deluge of spurious correlations in big data.
Foundations of science, 22(3):595–612.
Grossman, L. (2015).
What’s this all about? the massive volume of data that humanity
generates is a new kind of problem. the solution is very old.
Time Magazine.
Kartoun, U. (2016).
A methodology to generate virtual patient repositories.
arXiv preprint arXiv:1608.00570.
Martins, S., Pesado, P., and García-Martínez, R. (2016).
Information mining projects management process.
In SEKE, pages 504–509.
Wilfreid K. AGBO (UDL) Knowledge Discovery in Big Data June 12, 2018 24 / 26
Conclusion
Références II
Patel, V. M., Ashrafian, H., Ahmed, K., Arora, S., Jiwan, S.,
Nicholson, J. K., Darzi, A., and Athanasiou, T. (2011).
How has healthcare research performance been assessed? a systematic
review.
Journal of the Royal Society of Medicine, 104(6):251–261.
Raghupathi, W. and Raghupathi, V. (2014).
Big data analytics in healthcare: promise and potential.
Health information science and systems, 2(1):3.
Schmidt, C. and Sun, W. N. (2016).
Synthesizing agile and knowledge discovery: Case study results.
Journal of Computer Information Systems, pages 1–9.
Wilfreid K. AGBO (UDL) Knowledge Discovery in Big Data June 12, 2018 25 / 26
Conclusion
Références III
Shafique, U. and Qaiser, H. (2014).
A comparative study of data mining process models (kdd, crisp-dm and
semma).
International Journal of Innovation and Scientific Research,
12(1):217–222.
Wilfreid K. AGBO (UDL) Knowledge Discovery in Big Data June 12, 2018 26 / 26

Contenu connexe

Tendances

Livre blanc "Big Data" de l'EBG
Livre blanc "Big Data" de l'EBGLivre blanc "Big Data" de l'EBG
Livre blanc "Big Data" de l'EBGMargarita Zlatkova
 
Présentation Big Data DFCG
Présentation Big Data DFCGPrésentation Big Data DFCG
Présentation Big Data DFCGMicropole Group
 
BIG DATA - Les données au service de la business intelligence
BIG DATA - Les données au service de la business intelligenceBIG DATA - Les données au service de la business intelligence
BIG DATA - Les données au service de la business intelligenceJulien DEMAUGÉ-BOST
 
Formation professionnelle "Big data : concepts et enjeux"
Formation professionnelle "Big data : concepts et enjeux"Formation professionnelle "Big data : concepts et enjeux"
Formation professionnelle "Big data : concepts et enjeux"Philippe METAYER
 
IA, IoT, Big Data : révolutions ou évolution ?
IA, IoT, Big Data : révolutions ou évolution ?IA, IoT, Big Data : révolutions ou évolution ?
IA, IoT, Big Data : révolutions ou évolution ?Romain Willmann
 
Big Data RenaissanceNumerique
Big Data RenaissanceNumeriqueBig Data RenaissanceNumerique
Big Data RenaissanceNumeriqueFanny Despouys
 
Comment planter son projet data ? Par Thomas GERBAUD PhD OceanData.io
Comment planter son projet data ? Par Thomas GERBAUD PhD OceanData.ioComment planter son projet data ? Par Thomas GERBAUD PhD OceanData.io
Comment planter son projet data ? Par Thomas GERBAUD PhD OceanData.ioHervé Bourdon
 
LIVRE BLANC - Les vrais chiffres du Big Data
LIVRE BLANC - Les vrais chiffres du Big DataLIVRE BLANC - Les vrais chiffres du Big Data
LIVRE BLANC - Les vrais chiffres du Big DataInetum
 
Open data territorial benjamin jean vf
Open data territorial   benjamin jean vfOpen data territorial   benjamin jean vf
Open data territorial benjamin jean vfADBS
 
OpenData - BigData - OpenSource : l'inévitable convergence
OpenData - BigData - OpenSource : l'inévitable convergenceOpenData - BigData - OpenSource : l'inévitable convergence
OpenData - BigData - OpenSource : l'inévitable convergenceExcelerate Systems
 

Tendances (16)

Livre blanc "Big Data" de l'EBG
Livre blanc "Big Data" de l'EBGLivre blanc "Big Data" de l'EBG
Livre blanc "Big Data" de l'EBG
 
Présentation Big Data DFCG
Présentation Big Data DFCGPrésentation Big Data DFCG
Présentation Big Data DFCG
 
BIG DATA - Les données au service de la business intelligence
BIG DATA - Les données au service de la business intelligenceBIG DATA - Les données au service de la business intelligence
BIG DATA - Les données au service de la business intelligence
 
Formation professionnelle "Big data : concepts et enjeux"
Formation professionnelle "Big data : concepts et enjeux"Formation professionnelle "Big data : concepts et enjeux"
Formation professionnelle "Big data : concepts et enjeux"
 
Analyse spatiale en Big data
Analyse spatiale en Big dataAnalyse spatiale en Big data
Analyse spatiale en Big data
 
IA, IoT, Big Data : révolutions ou évolution ?
IA, IoT, Big Data : révolutions ou évolution ?IA, IoT, Big Data : révolutions ou évolution ?
IA, IoT, Big Data : révolutions ou évolution ?
 
Big Data RenaissanceNumerique
Big Data RenaissanceNumeriqueBig Data RenaissanceNumerique
Big Data RenaissanceNumerique
 
Introduction au BIG DATA
Introduction au BIG DATAIntroduction au BIG DATA
Introduction au BIG DATA
 
Le Big Data
Le Big DataLe Big Data
Le Big Data
 
Comment planter son projet data ? Par Thomas GERBAUD PhD OceanData.io
Comment planter son projet data ? Par Thomas GERBAUD PhD OceanData.ioComment planter son projet data ? Par Thomas GERBAUD PhD OceanData.io
Comment planter son projet data ? Par Thomas GERBAUD PhD OceanData.io
 
Megatrends2018
Megatrends2018Megatrends2018
Megatrends2018
 
LIVRE BLANC - Les vrais chiffres du Big Data
LIVRE BLANC - Les vrais chiffres du Big DataLIVRE BLANC - Les vrais chiffres du Big Data
LIVRE BLANC - Les vrais chiffres du Big Data
 
Open data territorial benjamin jean vf
Open data territorial   benjamin jean vfOpen data territorial   benjamin jean vf
Open data territorial benjamin jean vf
 
OpenData - BigData - OpenSource : l'inévitable convergence
OpenData - BigData - OpenSource : l'inévitable convergenceOpenData - BigData - OpenSource : l'inévitable convergence
OpenData - BigData - OpenSource : l'inévitable convergence
 
Big Data
Big DataBig Data
Big Data
 
Big data
Big dataBig data
Big data
 

Similaire à WIlfreid K. AGBO - Knowledge Discovery in Big Data : Healthcare application (Djillali Liabès University)

Big data, l'accélération d'innovation
Big data, l'accélération d'innovationBig data, l'accélération d'innovation
Big data, l'accélération d'innovationLionel Martins
 
Central634_Dossier_completDV_001
Central634_Dossier_completDV_001Central634_Dossier_completDV_001
Central634_Dossier_completDV_001Bruno CAMBOUNET
 
Matinée Découverte Big Data & Data Science - 24012017
Matinée Découverte Big Data & Data Science - 24012017Matinée Découverte Big Data & Data Science - 24012017
Matinée Découverte Big Data & Data Science - 24012017Micropole Group
 
Big Data ete learning Analytics
Big Data ete learning AnalyticsBig Data ete learning Analytics
Big Data ete learning AnalyticsMokhtar Ben Henda
 
La Netscouade presque en direct de SXSW 2014
La Netscouade presque en direct de SXSW 2014La Netscouade presque en direct de SXSW 2014
La Netscouade presque en direct de SXSW 2014LaNetscouade
 
20150604 AFDIT Conf A Meillassoux BIG DATA VF
20150604 AFDIT Conf A Meillassoux BIG DATA VF20150604 AFDIT Conf A Meillassoux BIG DATA VF
20150604 AFDIT Conf A Meillassoux BIG DATA VFAndre Meillassoux
 
Etude AKOYA Big Data
Etude AKOYA Big DataEtude AKOYA Big Data
Etude AKOYA Big DataJocelyn Muret
 
Professional Branding - ECS Paris - 29/04/2019
Professional Branding - ECS Paris - 29/04/2019Professional Branding - ECS Paris - 29/04/2019
Professional Branding - ECS Paris - 29/04/2019Denys Malengreau
 
3 minutes pour comprendre ... le Big Data
3 minutes pour comprendre ... le Big Data3 minutes pour comprendre ... le Big Data
3 minutes pour comprendre ... le Big DataAlain KHEMILI
 
Livre blanc - Open Data : Quels enjeux et opportunités pour l'entreprise ?
Livre blanc - Open Data : Quels enjeux et opportunités pour l'entreprise ?Livre blanc - Open Data : Quels enjeux et opportunités pour l'entreprise ?
Livre blanc - Open Data : Quels enjeux et opportunités pour l'entreprise ?bluenove
 
Big data : quels enjeux et opportunités pour l'entreprise - livre blanc - Blu...
Big data : quels enjeux et opportunités pour l'entreprise - livre blanc - Blu...Big data : quels enjeux et opportunités pour l'entreprise - livre blanc - Blu...
Big data : quels enjeux et opportunités pour l'entreprise - livre blanc - Blu...Romain Fonnier
 
"Diego Kuonen, maître des «mégadonnées»"
"Diego Kuonen, maître des «mégadonnées»""Diego Kuonen, maître des «mégadonnées»"
"Diego Kuonen, maître des «mégadonnées»"Prof. Dr. Diego Kuonen
 
Big data et villes intelligentes
Big data et villes intelligentesBig data et villes intelligentes
Big data et villes intelligentesThibaut RIVOALAN
 
Web Conférence : Les tendances 2010 de la Silicon Valley. Quels impacts sur l...
Web Conférence : Les tendances 2010 de la Silicon Valley. Quels impacts sur l...Web Conférence : Les tendances 2010 de la Silicon Valley. Quels impacts sur l...
Web Conférence : Les tendances 2010 de la Silicon Valley. Quels impacts sur l...Interaction Healthcare
 
Big Data et objets connectés. Faire de la France un champion de la révolution...
Big Data et objets connectés. Faire de la France un champion de la révolution...Big Data et objets connectés. Faire de la France un champion de la révolution...
Big Data et objets connectés. Faire de la France un champion de la révolution...Hortense Billot
 
"Big Data et objets connectés" Rapport Institut Montaigne - Avril 2015
"Big Data et objets connectés" Rapport Institut Montaigne - Avril 2015"Big Data et objets connectés" Rapport Institut Montaigne - Avril 2015
"Big Data et objets connectés" Rapport Institut Montaigne - Avril 2015yann le gigan
 
Big Data et objets connectés. Faire de la France un champion de la révolution...
Big Data et objets connectés. Faire de la France un champion de la révolution...Big Data et objets connectés. Faire de la France un champion de la révolution...
Big Data et objets connectés. Faire de la France un champion de la révolution...Monimmeuble.com
 
Compte-rendu conférence "Green Economy : Nouveaux Business et Cross-fertilisa...
Compte-rendu conférence "Green Economy : Nouveaux Business et Cross-fertilisa...Compte-rendu conférence "Green Economy : Nouveaux Business et Cross-fertilisa...
Compte-rendu conférence "Green Economy : Nouveaux Business et Cross-fertilisa...IE-Club
 

Similaire à WIlfreid K. AGBO - Knowledge Discovery in Big Data : Healthcare application (Djillali Liabès University) (20)

2014-12-16-G9plus-LB-Big-Data
2014-12-16-G9plus-LB-Big-Data2014-12-16-G9plus-LB-Big-Data
2014-12-16-G9plus-LB-Big-Data
 
Big data, l'accélération d'innovation
Big data, l'accélération d'innovationBig data, l'accélération d'innovation
Big data, l'accélération d'innovation
 
Central634_Dossier_completDV_001
Central634_Dossier_completDV_001Central634_Dossier_completDV_001
Central634_Dossier_completDV_001
 
Matinée Découverte Big Data & Data Science - 24012017
Matinée Découverte Big Data & Data Science - 24012017Matinée Découverte Big Data & Data Science - 24012017
Matinée Découverte Big Data & Data Science - 24012017
 
Big Data ete learning Analytics
Big Data ete learning AnalyticsBig Data ete learning Analytics
Big Data ete learning Analytics
 
La Netscouade presque en direct de SXSW 2014
La Netscouade presque en direct de SXSW 2014La Netscouade presque en direct de SXSW 2014
La Netscouade presque en direct de SXSW 2014
 
20150604 AFDIT Conf A Meillassoux BIG DATA VF
20150604 AFDIT Conf A Meillassoux BIG DATA VF20150604 AFDIT Conf A Meillassoux BIG DATA VF
20150604 AFDIT Conf A Meillassoux BIG DATA VF
 
Technologies pour le Big Data
Technologies pour le Big DataTechnologies pour le Big Data
Technologies pour le Big Data
 
Etude AKOYA Big Data
Etude AKOYA Big DataEtude AKOYA Big Data
Etude AKOYA Big Data
 
Professional Branding - ECS Paris - 29/04/2019
Professional Branding - ECS Paris - 29/04/2019Professional Branding - ECS Paris - 29/04/2019
Professional Branding - ECS Paris - 29/04/2019
 
3 minutes pour comprendre ... le Big Data
3 minutes pour comprendre ... le Big Data3 minutes pour comprendre ... le Big Data
3 minutes pour comprendre ... le Big Data
 
Livre blanc - Open Data : Quels enjeux et opportunités pour l'entreprise ?
Livre blanc - Open Data : Quels enjeux et opportunités pour l'entreprise ?Livre blanc - Open Data : Quels enjeux et opportunités pour l'entreprise ?
Livre blanc - Open Data : Quels enjeux et opportunités pour l'entreprise ?
 
Big data : quels enjeux et opportunités pour l'entreprise - livre blanc - Blu...
Big data : quels enjeux et opportunités pour l'entreprise - livre blanc - Blu...Big data : quels enjeux et opportunités pour l'entreprise - livre blanc - Blu...
Big data : quels enjeux et opportunités pour l'entreprise - livre blanc - Blu...
 
"Diego Kuonen, maître des «mégadonnées»"
"Diego Kuonen, maître des «mégadonnées»""Diego Kuonen, maître des «mégadonnées»"
"Diego Kuonen, maître des «mégadonnées»"
 
Big data et villes intelligentes
Big data et villes intelligentesBig data et villes intelligentes
Big data et villes intelligentes
 
Web Conférence : Les tendances 2010 de la Silicon Valley. Quels impacts sur l...
Web Conférence : Les tendances 2010 de la Silicon Valley. Quels impacts sur l...Web Conférence : Les tendances 2010 de la Silicon Valley. Quels impacts sur l...
Web Conférence : Les tendances 2010 de la Silicon Valley. Quels impacts sur l...
 
Big Data et objets connectés. Faire de la France un champion de la révolution...
Big Data et objets connectés. Faire de la France un champion de la révolution...Big Data et objets connectés. Faire de la France un champion de la révolution...
Big Data et objets connectés. Faire de la France un champion de la révolution...
 
"Big Data et objets connectés" Rapport Institut Montaigne - Avril 2015
"Big Data et objets connectés" Rapport Institut Montaigne - Avril 2015"Big Data et objets connectés" Rapport Institut Montaigne - Avril 2015
"Big Data et objets connectés" Rapport Institut Montaigne - Avril 2015
 
Big Data et objets connectés. Faire de la France un champion de la révolution...
Big Data et objets connectés. Faire de la France un champion de la révolution...Big Data et objets connectés. Faire de la France un champion de la révolution...
Big Data et objets connectés. Faire de la France un champion de la révolution...
 
Compte-rendu conférence "Green Economy : Nouveaux Business et Cross-fertilisa...
Compte-rendu conférence "Green Economy : Nouveaux Business et Cross-fertilisa...Compte-rendu conférence "Green Economy : Nouveaux Business et Cross-fertilisa...
Compte-rendu conférence "Green Economy : Nouveaux Business et Cross-fertilisa...
 

Plus de Wilfreid AGBO

Groupwares (Exemple of Bitrix 24) - Wilfreid AGBO, Kamila TABET-DERRAZ, Asma ...
Groupwares (Exemple of Bitrix 24) - Wilfreid AGBO, Kamila TABET-DERRAZ, Asma ...Groupwares (Exemple of Bitrix 24) - Wilfreid AGBO, Kamila TABET-DERRAZ, Asma ...
Groupwares (Exemple of Bitrix 24) - Wilfreid AGBO, Kamila TABET-DERRAZ, Asma ...Wilfreid AGBO
 
Customer Relationship Management (how to get profits?) - Wilfreid K. AGBO
Customer Relationship Management (how to get profits?) - Wilfreid K. AGBOCustomer Relationship Management (how to get profits?) - Wilfreid K. AGBO
Customer Relationship Management (how to get profits?) - Wilfreid K. AGBOWilfreid AGBO
 
Wilfreid K. AGBO - Multi-Protocol Label Switching
Wilfreid K. AGBO - Multi-Protocol Label SwitchingWilfreid K. AGBO - Multi-Protocol Label Switching
Wilfreid K. AGBO - Multi-Protocol Label SwitchingWilfreid AGBO
 
Wilfreid K. AGBO et al. - Etude de marché pour un projet d'entreprise informa...
Wilfreid K. AGBO et al. - Etude de marché pour un projet d'entreprise informa...Wilfreid K. AGBO et al. - Etude de marché pour un projet d'entreprise informa...
Wilfreid K. AGBO et al. - Etude de marché pour un projet d'entreprise informa...Wilfreid AGBO
 
Wilfreid K. AGBO et Grégoire J. MONEYENGONO - Java thread
Wilfreid K. AGBO et Grégoire J. MONEYENGONO - Java threadWilfreid K. AGBO et Grégoire J. MONEYENGONO - Java thread
Wilfreid K. AGBO et Grégoire J. MONEYENGONO - Java threadWilfreid AGBO
 
WIlfried K. AGBO- Exposé sur la Cryptographie
WIlfried K. AGBO- Exposé sur la CryptographieWIlfried K. AGBO- Exposé sur la Cryptographie
WIlfried K. AGBO- Exposé sur la CryptographieWilfreid AGBO
 
Wilfreid AGBO et Gregoire J. MONEYENGONO - Présentation gestion de stocks
Wilfreid AGBO et Gregoire J. MONEYENGONO - Présentation gestion de stocks Wilfreid AGBO et Gregoire J. MONEYENGONO - Présentation gestion de stocks
Wilfreid AGBO et Gregoire J. MONEYENGONO - Présentation gestion de stocks Wilfreid AGBO
 

Plus de Wilfreid AGBO (7)

Groupwares (Exemple of Bitrix 24) - Wilfreid AGBO, Kamila TABET-DERRAZ, Asma ...
Groupwares (Exemple of Bitrix 24) - Wilfreid AGBO, Kamila TABET-DERRAZ, Asma ...Groupwares (Exemple of Bitrix 24) - Wilfreid AGBO, Kamila TABET-DERRAZ, Asma ...
Groupwares (Exemple of Bitrix 24) - Wilfreid AGBO, Kamila TABET-DERRAZ, Asma ...
 
Customer Relationship Management (how to get profits?) - Wilfreid K. AGBO
Customer Relationship Management (how to get profits?) - Wilfreid K. AGBOCustomer Relationship Management (how to get profits?) - Wilfreid K. AGBO
Customer Relationship Management (how to get profits?) - Wilfreid K. AGBO
 
Wilfreid K. AGBO - Multi-Protocol Label Switching
Wilfreid K. AGBO - Multi-Protocol Label SwitchingWilfreid K. AGBO - Multi-Protocol Label Switching
Wilfreid K. AGBO - Multi-Protocol Label Switching
 
Wilfreid K. AGBO et al. - Etude de marché pour un projet d'entreprise informa...
Wilfreid K. AGBO et al. - Etude de marché pour un projet d'entreprise informa...Wilfreid K. AGBO et al. - Etude de marché pour un projet d'entreprise informa...
Wilfreid K. AGBO et al. - Etude de marché pour un projet d'entreprise informa...
 
Wilfreid K. AGBO et Grégoire J. MONEYENGONO - Java thread
Wilfreid K. AGBO et Grégoire J. MONEYENGONO - Java threadWilfreid K. AGBO et Grégoire J. MONEYENGONO - Java thread
Wilfreid K. AGBO et Grégoire J. MONEYENGONO - Java thread
 
WIlfried K. AGBO- Exposé sur la Cryptographie
WIlfried K. AGBO- Exposé sur la CryptographieWIlfried K. AGBO- Exposé sur la Cryptographie
WIlfried K. AGBO- Exposé sur la Cryptographie
 
Wilfreid AGBO et Gregoire J. MONEYENGONO - Présentation gestion de stocks
Wilfreid AGBO et Gregoire J. MONEYENGONO - Présentation gestion de stocks Wilfreid AGBO et Gregoire J. MONEYENGONO - Présentation gestion de stocks
Wilfreid AGBO et Gregoire J. MONEYENGONO - Présentation gestion de stocks
 

WIlfreid K. AGBO - Knowledge Discovery in Big Data : Healthcare application (Djillali Liabès University)

  • 1. Knowledge Discovery in Big Data (Healthcare Application) Wilfreid K. AGBO wilfried.agbo@univ-sba.dz Supervised by: Mrs. Samah BOUAMAMA University Djillali Liabes of Sidi Bel Abbes Department of Computer Science Master 2 ISI June 12, 2018 Wilfreid K. AGBO (UDL) Knowledge Discovery in Big Data June 12, 2018 1 / 26
  • 2. Quotes “There was 5 exabytes of information created between the dawn of civilization through 2003,but that much information is now created every 2 days, and the pace is increasing...People aren’t ready for the technology revolution that’s going to happen to them.” Eric Schmidt, former CEO of Google in 2010 at Lake Tahoe Technomy Conference. Wilfreid K. AGBO (UDL) Knowledge Discovery in Big Data June 12, 2018 2 / 26
  • 3. Plan 1 Introduction 2 Problématiques et Solutions 3 Data Mining & Knowledge Discovery 4 Big Data et Data Mining en Healthcare 5 Notre Approche 6 DataSet 7 Conclusion Wilfreid K. AGBO (UDL) Knowledge Discovery in Big Data June 12, 2018 3 / 26
  • 4. Introduction Introduction Le monde est à l’ère du digital La facilité d’acquisition des données ( capteurs, télescopes, cartes de fidélité, traces sur les sites internet, simulations ...) La baisse des prix des supports de stockage (Le prix du Go ) Social media explosion: 500M de tweets, 70M photos sur Instagram, 5M de videos sur Facebook [Grossman, 2015]. Internet of Things (IoT): Les objets connectés comme smartphones,smartwatch, smartBasket, smartglass, glucomètre, pacemaker . . . 2.5 quintillion bytes de données par jour (Data Explosion) [Calude and Longo, 2017] 90% des données actuelles sont générées à partir seulement des deux dernières années [Calude and Longo, 2017] Ce phénomène de génération de trafic de données massifs est connu sous le nom de Big Data Wilfreid K. AGBO (UDL) Knowledge Discovery in Big Data June 12, 2018 4 / 26
  • 5. Introduction Introduction Le monde est à l’ère du digital La facilité d’acquisition des données ( capteurs, télescopes, cartes de fidélité, traces sur les sites internet, simulations ...) La baisse des prix des supports de stockage (Le prix du Go ) Social media explosion: 500M de tweets, 70M photos sur Instagram, 5M de videos sur Facebook [Grossman, 2015]. Internet of Things (IoT): Les objets connectés comme smartphones,smartwatch, smartBasket, smartglass, glucomètre, pacemaker . . . 2.5 quintillion bytes de données par jour (Data Explosion) [Calude and Longo, 2017] 90% des données actuelles sont générées à partir seulement des deux dernières années [Calude and Longo, 2017] Ce phénomène de génération de trafic de données massifs est connu sous le nom de Big Data Wilfreid K. AGBO (UDL) Knowledge Discovery in Big Data June 12, 2018 4 / 26
  • 6. Introduction Introduction Le monde est à l’ère du digital La facilité d’acquisition des données ( capteurs, télescopes, cartes de fidélité, traces sur les sites internet, simulations ...) La baisse des prix des supports de stockage (Le prix du Go ) Social media explosion: 500M de tweets, 70M photos sur Instagram, 5M de videos sur Facebook [Grossman, 2015]. Internet of Things (IoT): Les objets connectés comme smartphones,smartwatch, smartBasket, smartglass, glucomètre, pacemaker . . . 2.5 quintillion bytes de données par jour (Data Explosion) [Calude and Longo, 2017] 90% des données actuelles sont générées à partir seulement des deux dernières années [Calude and Longo, 2017] Ce phénomène de génération de trafic de données massifs est connu sous le nom de Big Data Wilfreid K. AGBO (UDL) Knowledge Discovery in Big Data June 12, 2018 4 / 26
  • 7. Introduction Introduction Le monde est à l’ère du digital La facilité d’acquisition des données ( capteurs, télescopes, cartes de fidélité, traces sur les sites internet, simulations ...) La baisse des prix des supports de stockage (Le prix du Go ) Social media explosion: 500M de tweets, 70M photos sur Instagram, 5M de videos sur Facebook [Grossman, 2015]. Internet of Things (IoT): Les objets connectés comme smartphones,smartwatch, smartBasket, smartglass, glucomètre, pacemaker . . . 2.5 quintillion bytes de données par jour (Data Explosion) [Calude and Longo, 2017] 90% des données actuelles sont générées à partir seulement des deux dernières années [Calude and Longo, 2017] Ce phénomène de génération de trafic de données massifs est connu sous le nom de Big Data Wilfreid K. AGBO (UDL) Knowledge Discovery in Big Data June 12, 2018 4 / 26
  • 8. Introduction Introduction Le monde est à l’ère du digital La facilité d’acquisition des données ( capteurs, télescopes, cartes de fidélité, traces sur les sites internet, simulations ...) La baisse des prix des supports de stockage (Le prix du Go ) Social media explosion: 500M de tweets, 70M photos sur Instagram, 5M de videos sur Facebook [Grossman, 2015]. Internet of Things (IoT): Les objets connectés comme smartphones,smartwatch, smartBasket, smartglass, glucomètre, pacemaker . . . 2.5 quintillion bytes de données par jour (Data Explosion) [Calude and Longo, 2017] 90% des données actuelles sont générées à partir seulement des deux dernières années [Calude and Longo, 2017] Ce phénomène de génération de trafic de données massifs est connu sous le nom de Big Data Wilfreid K. AGBO (UDL) Knowledge Discovery in Big Data June 12, 2018 4 / 26
  • 9. Introduction Introduction Le monde est à l’ère du digital La facilité d’acquisition des données ( capteurs, télescopes, cartes de fidélité, traces sur les sites internet, simulations ...) La baisse des prix des supports de stockage (Le prix du Go ) Social media explosion: 500M de tweets, 70M photos sur Instagram, 5M de videos sur Facebook [Grossman, 2015]. Internet of Things (IoT): Les objets connectés comme smartphones,smartwatch, smartBasket, smartglass, glucomètre, pacemaker . . . 2.5 quintillion bytes de données par jour (Data Explosion) [Calude and Longo, 2017] 90% des données actuelles sont générées à partir seulement des deux dernières années [Calude and Longo, 2017] Ce phénomène de génération de trafic de données massifs est connu sous le nom de Big Data Wilfreid K. AGBO (UDL) Knowledge Discovery in Big Data June 12, 2018 4 / 26
  • 10. Introduction Introduction Le monde est à l’ère du digital La facilité d’acquisition des données ( capteurs, télescopes, cartes de fidélité, traces sur les sites internet, simulations ...) La baisse des prix des supports de stockage (Le prix du Go ) Social media explosion: 500M de tweets, 70M photos sur Instagram, 5M de videos sur Facebook [Grossman, 2015]. Internet of Things (IoT): Les objets connectés comme smartphones,smartwatch, smartBasket, smartglass, glucomètre, pacemaker . . . 2.5 quintillion bytes de données par jour (Data Explosion) [Calude and Longo, 2017] 90% des données actuelles sont générées à partir seulement des deux dernières années [Calude and Longo, 2017] Ce phénomène de génération de trafic de données massifs est connu sous le nom de Big Data Wilfreid K. AGBO (UDL) Knowledge Discovery in Big Data June 12, 2018 4 / 26
  • 11. Introduction Introduction Le monde est à l’ère du digital La facilité d’acquisition des données ( capteurs, télescopes, cartes de fidélité, traces sur les sites internet, simulations ...) La baisse des prix des supports de stockage (Le prix du Go ) Social media explosion: 500M de tweets, 70M photos sur Instagram, 5M de videos sur Facebook [Grossman, 2015]. Internet of Things (IoT): Les objets connectés comme smartphones,smartwatch, smartBasket, smartglass, glucomètre, pacemaker . . . 2.5 quintillion bytes de données par jour (Data Explosion) [Calude and Longo, 2017] 90% des données actuelles sont générées à partir seulement des deux dernières années [Calude and Longo, 2017] Ce phénomène de génération de trafic de données massifs est connu sous le nom de Big Data Wilfreid K. AGBO (UDL) Knowledge Discovery in Big Data June 12, 2018 4 / 26
  • 12. Problématiques et Solutions Problématiques et Solutions Problématiques Aujourd’hui les entreprises comme l’industrie du Healthcare, finances, retails . . . coulent sous une énorme quantité de données, dû au progrès de la Technologie. Cependant un problème se pose: Comment stocker et traiter ces méga-données en un temps raisonnable? De plus les données proviennent de plusieurs sources, sous divers formats et elles sont à l’état brut, dépourvu d’un quelconque sens: Comment transformer et raffiner ces données en connaissances utiles afin d’en faire une utilisation adéquate pour prendre une décision intéressante? Wilfreid K. AGBO (UDL) Knowledge Discovery in Big Data June 12, 2018 5 / 26
  • 13. Problématiques et Solutions Problématiques et Solutions Problématiques Aujourd’hui les entreprises comme l’industrie du Healthcare, finances, retails . . . coulent sous une énorme quantité de données, dû au progrès de la Technologie. Cependant un problème se pose: Comment stocker et traiter ces méga-données en un temps raisonnable? De plus les données proviennent de plusieurs sources, sous divers formats et elles sont à l’état brut, dépourvu d’un quelconque sens: Comment transformer et raffiner ces données en connaissances utiles afin d’en faire une utilisation adéquate pour prendre une décision intéressante? Wilfreid K. AGBO (UDL) Knowledge Discovery in Big Data June 12, 2018 5 / 26
  • 14. Problématiques et Solutions Problématiques et Solutions Problématiques Aujourd’hui les entreprises comme l’industrie du Healthcare, finances, retails . . . coulent sous une énorme quantité de données, dû au progrès de la Technologie. Cependant un problème se pose: Comment stocker et traiter ces méga-données en un temps raisonnable? De plus les données proviennent de plusieurs sources, sous divers formats et elles sont à l’état brut, dépourvu d’un quelconque sens: Comment transformer et raffiner ces données en connaissances utiles afin d’en faire une utilisation adéquate pour prendre une décision intéressante? Wilfreid K. AGBO (UDL) Knowledge Discovery in Big Data June 12, 2018 5 / 26
  • 15. Problématiques et Solutions Problématiques et Solutions Problématiques Aujourd’hui les entreprises comme l’industrie du Healthcare, finances, retails . . . coulent sous une énorme quantité de données, dû au progrès de la Technologie. Cependant un problème se pose: Comment stocker et traiter ces méga-données en un temps raisonnable? De plus les données proviennent de plusieurs sources, sous divers formats et elles sont à l’état brut, dépourvu d’un quelconque sens: Comment transformer et raffiner ces données en connaissances utiles afin d’en faire une utilisation adéquate pour prendre une décision intéressante? Wilfreid K. AGBO (UDL) Knowledge Discovery in Big Data June 12, 2018 5 / 26
  • 16. Problématiques et Solutions Problématiques et Solutions Solutions Pour Résoudre ces problèmes précédement cités, la solution idéale est le Big Data Analytics. Une méthode dérivée du Big Data qui réflète les défis des données très volumineuses, très non-structurées à évolution rapide dont la gestion est difficile par les méthodes traditionnelles. Elle consiste à appliquer un modèle d’extraction de connaissances basé sur les techniques du Data Mining sur la Big Data. Notre solution est d’utiliser le modèle KDD (Knowledge Discovery in Databases) d’extraction de connaissances dans une Big Data médicale en utilisant les outils adéquats au Big data (Apache Hadoop,Mahout) et des algorithmes de Machine Learning non supervisé comme le K-Means Wilfreid K. AGBO (UDL) Knowledge Discovery in Big Data June 12, 2018 6 / 26
  • 17. Problématiques et Solutions Problématiques et Solutions Solutions Pour Résoudre ces problèmes précédement cités, la solution idéale est le Big Data Analytics. Une méthode dérivée du Big Data qui réflète les défis des données très volumineuses, très non-structurées à évolution rapide dont la gestion est difficile par les méthodes traditionnelles. Elle consiste à appliquer un modèle d’extraction de connaissances basé sur les techniques du Data Mining sur la Big Data. Notre solution est d’utiliser le modèle KDD (Knowledge Discovery in Databases) d’extraction de connaissances dans une Big Data médicale en utilisant les outils adéquats au Big data (Apache Hadoop,Mahout) et des algorithmes de Machine Learning non supervisé comme le K-Means Wilfreid K. AGBO (UDL) Knowledge Discovery in Big Data June 12, 2018 6 / 26
  • 18. Problématiques et Solutions Problématiques et Solutions Solutions Pour Résoudre ces problèmes précédement cités, la solution idéale est le Big Data Analytics. Une méthode dérivée du Big Data qui réflète les défis des données très volumineuses, très non-structurées à évolution rapide dont la gestion est difficile par les méthodes traditionnelles. Elle consiste à appliquer un modèle d’extraction de connaissances basé sur les techniques du Data Mining sur la Big Data. Notre solution est d’utiliser le modèle KDD (Knowledge Discovery in Databases) d’extraction de connaissances dans une Big Data médicale en utilisant les outils adéquats au Big data (Apache Hadoop,Mahout) et des algorithmes de Machine Learning non supervisé comme le K-Means Wilfreid K. AGBO (UDL) Knowledge Discovery in Big Data June 12, 2018 6 / 26
  • 19. Problématiques et Solutions Big Data Data Analytics • Internal • External • Multiple Formats • Multiple Locations • Multiple Applications Big Data Sources Big Data Transformation Big Data Platofrm & Tools Big data Analytics Applications Data Warehouse Middleware Extract Transform Load Traditional Format, CSV, Tables Queries Reports OLAP Data Mining Big Data Analytics • Hadoop • Map/Reduce • Pig • Hive • Jaql • Zookeeper • Hbase • Cassandra • Onzie • Avro • Mahout • Others Transformed Data Raw Data Wilfreid K. AGBO (UDL) Knowledge Discovery in Big Data June 12, 2018 7 / 26
  • 20. Data Mining & Knowledge Discovery Data Mining & Knowledge Discovery Le Data Mining consiste à analyser une quantité énorme de données et à en extraire des informations utiles à des fins diverses [Shafique and Qaiser, 2014]. Le terme Data Mining (DM) est fortement lié au concept de grande base de données et revient à la définition de la recherche algorithmes de modèles de connaissances [Martins et al., 2016] La Knowledge Discovery in Database (KDD) est un processus non-trivial,novateur,potentiellement utile et de compréhension de modèles dans les données![Schmidt and Sun, 2016] Le DM est aussi un sous-processus de KDD, qui consiste à identifier des modèles intéressants grâce à l’application d’algorithmes d’apprentissage automatique. [Schmidt and Sun, 2016] Wilfreid K. AGBO (UDL) Knowledge Discovery in Big Data June 12, 2018 8 / 26
  • 21. Data Mining & Knowledge Discovery Data Mining & Knowledge Discovery Le Data Mining consiste à analyser une quantité énorme de données et à en extraire des informations utiles à des fins diverses [Shafique and Qaiser, 2014]. Le terme Data Mining (DM) est fortement lié au concept de grande base de données et revient à la définition de la recherche algorithmes de modèles de connaissances [Martins et al., 2016] La Knowledge Discovery in Database (KDD) est un processus non-trivial,novateur,potentiellement utile et de compréhension de modèles dans les données![Schmidt and Sun, 2016] Le DM est aussi un sous-processus de KDD, qui consiste à identifier des modèles intéressants grâce à l’application d’algorithmes d’apprentissage automatique. [Schmidt and Sun, 2016] Wilfreid K. AGBO (UDL) Knowledge Discovery in Big Data June 12, 2018 8 / 26
  • 22. Data Mining & Knowledge Discovery Data Mining & Knowledge Discovery Le Data Mining consiste à analyser une quantité énorme de données et à en extraire des informations utiles à des fins diverses [Shafique and Qaiser, 2014]. Le terme Data Mining (DM) est fortement lié au concept de grande base de données et revient à la définition de la recherche algorithmes de modèles de connaissances [Martins et al., 2016] La Knowledge Discovery in Database (KDD) est un processus non-trivial,novateur,potentiellement utile et de compréhension de modèles dans les données![Schmidt and Sun, 2016] Le DM est aussi un sous-processus de KDD, qui consiste à identifier des modèles intéressants grâce à l’application d’algorithmes d’apprentissage automatique. [Schmidt and Sun, 2016] Wilfreid K. AGBO (UDL) Knowledge Discovery in Big Data June 12, 2018 8 / 26
  • 23. Data Mining & Knowledge Discovery Data Mining & Knowledge Discovery Le Data Mining consiste à analyser une quantité énorme de données et à en extraire des informations utiles à des fins diverses [Shafique and Qaiser, 2014]. Le terme Data Mining (DM) est fortement lié au concept de grande base de données et revient à la définition de la recherche algorithmes de modèles de connaissances [Martins et al., 2016] La Knowledge Discovery in Database (KDD) est un processus non-trivial,novateur,potentiellement utile et de compréhension de modèles dans les données![Schmidt and Sun, 2016] Le DM est aussi un sous-processus de KDD, qui consiste à identifier des modèles intéressants grâce à l’application d’algorithmes d’apprentissage automatique. [Schmidt and Sun, 2016] Wilfreid K. AGBO (UDL) Knowledge Discovery in Big Data June 12, 2018 8 / 26
  • 24. Data Mining & Knowledge Discovery Data Mining & Knowledge Discovery Principe du Data Mining (fig 2) Model 1 Model 2 Model n Dataset/Sample ALGORITHM Wilfreid K. AGBO (UDL) Knowledge Discovery in Big Data June 12, 2018 9 / 26
  • 25. Data Mining & Knowledge Discovery Data Mining & Knowledge Discovery Les Modèles de DM (fig 3) Figure: L’évolution des modèles Wilfreid K. AGBO (UDL) Knowledge Discovery in Big Data June 12, 2018 10 / 26
  • 26. Data Mining & Knowledge Discovery Data Mining & Knowledge Discovery Le Modèle KDD (fig 4) [Fayyal et Al, 1996] Knowledge Selection Preprocessing & Cleaning Preprocessing & Cleaning Transformation Data Mining Interpretation / Evaluation Understanding 1. application domain 2. the goals of end-user 1. Manage Missing values 2. Outliers/noisy data 3. Correct inconsistent data 1. Dimension reduction 2. Data compression 3. Numerosity Reduction[] 1. Choose DM task: cl,re,as 2. Choose DM Algorithm 3. Employ DM Algorithm 1. Accuracy/Recall/Kappa 2. Support/Confidence 3. Similarity measures 1 3 6 5 4 Selecting 2 1. Lists/Trees 2. Semantic networks 3. Rules based represent. 4. Logic based rep. 7 Visualize/use Disc. Knowledge Wilfreid K. AGBO (UDL) Knowledge Discovery in Big Data June 12, 2018 11 / 26
  • 27. Data Mining & Knowledge Discovery Clustering avec KMeans Étant donné un ensemble de points (x1, x2, ..., xn), on cherche à partitionner les n points en k ensembles S = S1, S2, ..., Sk(k ≤ n) 1 Partitionner les objets en K ensembles non vide 2 Calculer le barycentre de chaque partition 3 Assigner à chaque objet le Cluster dont le barycentre est le plus proche 4 Répéter l’étape 2 jusqu’à ce qu’il n’ y ait plus de changements: Wilfreid K. AGBO (UDL) Knowledge Discovery in Big Data June 12, 2018 12 / 26
  • 28. Big Data et Data Mining en Healthcare Big Data et Data Mining en Healthcare Défini comme la prévention, le traitement et la prise en charge de la maladie et la préservation du bien-être mental et physique grâce aux services offerts par les professions médicales et paramédicales. [Patel et al., 2011] L’industrie du HC génère aujourd’hui une large quantité de données complexes sur les patients, les ressources des hopitaux, les diagnostics, Electronic Health Records (Données personnelles sur les patients), Biomedical Databases, public health les équipements et gadgets médicaux. Wilfreid K. AGBO (UDL) Knowledge Discovery in Big Data June 12, 2018 13 / 26
  • 29. Big Data et Data Mining en Healthcare Big Data & Data Mining in Healthcare Quel rôle le DM peut-il jouer? Le rôle du DM Cette énorme quantité de données est une clé pour le traitement et l’analyse par la Knowledge Discovery en vue de réduire des frais et prendre des décisions par exemple Patients profiles analytics; Genomic analytics; Device Remote/Monitoring; Research and Development [Raghupathi and Raghupathi, 2014]; . . . Wilfreid K. AGBO (UDL) Knowledge Discovery in Big Data June 12, 2018 14 / 26
  • 30. Notre Approche Apache Hadoop Wilfreid K. AGBO (UDL) Knowledge Discovery in Big Data June 12, 2018 15 / 26
  • 31. Notre Approche Apache Mahout Framework de Apache conçu pour le ML distribué. Classification Clustering Recommandation Wilfreid K. AGBO (UDL) Knowledge Discovery in Big Data June 12, 2018 16 / 26
  • 32. Notre Approche La virtualisation par les Containers Figure: VMs vs Containers Wilfreid K. AGBO (UDL) Knowledge Discovery in Big Data June 12, 2018 17 / 26
  • 33. Notre Approche Difficultés Matérielles (PC de 4Go de RAM Temps de chargement du DataSet (40min)) Techniques (clé ssh, installation des clusters multinode Hadoop) Wilfreid K. AGBO (UDL) Knowledge Discovery in Big Data June 12, 2018 18 / 26
  • 34. Notre Approche Map Reduce Figure: MapReduce process Wilfreid K. AGBO (UDL) Knowledge Discovery in Big Data June 12, 2018 19 / 26
  • 35. Notre Approche Clustering sous MapReduce Figure: MapReduce process Wilfreid K. AGBO (UDL) Knowledge Discovery in Big Data June 12, 2018 20 / 26
  • 36. DataSet DataSet Provenance: Emrbots.org Auteur : [Kartoun, 2016] La base numero 1 contient de 100 instances La base numero 2 contient 10,000 instances La base numero 3 contient 100,000 instances. Wilfreid K. AGBO (UDL) Knowledge Discovery in Big Data June 12, 2018 21 / 26
  • 37. Conclusion Conclusion En somme, Le Big Data est plus qu’une simple question de taille. C’est l’occasion de trouver des idées sur des types de données et de contenu nouveaux et émergents, d’extraire des connaissances extrêmement utiles pour prendre des décisions de rendre votre entreprise plus agile et de répondre à des questions qui étaient auparavant hors de votre portée. Jusqu’à présent, il n’y avait aucun moyen pratique de récolter cette opportunité. Aujourd’hui, beaucoup de sociétés optent pour le choix du Big Data. Mais n’oublions pas que sans la partie analytique et extraction de connaissance, Le Big Data ne servira à rien. Wilfreid K. AGBO (UDL) Knowledge Discovery in Big Data June 12, 2018 22 / 26
  • 38. Conclusion Sélection par les méta-heuristique. Echantillonnage, soit la Cross validation ou autre. FuzzyKMeans, le Spectral KMeans, le Canopy Clustering et voir celui qui est le plus performant. Exécuter l’algorithme KMeans avec différentes mesures de distances comme celle de Mahnhattan ou Euclidienne et voir les différences. Exécuter l’algorithme KMeans avec différents nombre de Clusters K. Augmenter le nombre de noeuds de Hadoop et voir le temps de traitement. Implémenter cet algorithme de Clustering sur un vrai Cluster Hadoop. Extraire une connaissance palpable qui sera au profit du domaine de la santé. Wilfreid K. AGBO (UDL) Knowledge Discovery in Big Data June 12, 2018 23 / 26
  • 39. Conclusion Références I Calude, C. S. and Longo, G. (2017). The deluge of spurious correlations in big data. Foundations of science, 22(3):595–612. Grossman, L. (2015). What’s this all about? the massive volume of data that humanity generates is a new kind of problem. the solution is very old. Time Magazine. Kartoun, U. (2016). A methodology to generate virtual patient repositories. arXiv preprint arXiv:1608.00570. Martins, S., Pesado, P., and García-Martínez, R. (2016). Information mining projects management process. In SEKE, pages 504–509. Wilfreid K. AGBO (UDL) Knowledge Discovery in Big Data June 12, 2018 24 / 26
  • 40. Conclusion Références II Patel, V. M., Ashrafian, H., Ahmed, K., Arora, S., Jiwan, S., Nicholson, J. K., Darzi, A., and Athanasiou, T. (2011). How has healthcare research performance been assessed? a systematic review. Journal of the Royal Society of Medicine, 104(6):251–261. Raghupathi, W. and Raghupathi, V. (2014). Big data analytics in healthcare: promise and potential. Health information science and systems, 2(1):3. Schmidt, C. and Sun, W. N. (2016). Synthesizing agile and knowledge discovery: Case study results. Journal of Computer Information Systems, pages 1–9. Wilfreid K. AGBO (UDL) Knowledge Discovery in Big Data June 12, 2018 25 / 26
  • 41. Conclusion Références III Shafique, U. and Qaiser, H. (2014). A comparative study of data mining process models (kdd, crisp-dm and semma). International Journal of Innovation and Scientific Research, 12(1):217–222. Wilfreid K. AGBO (UDL) Knowledge Discovery in Big Data June 12, 2018 26 / 26