Ce document est un rapport sur mon travail pour l'application des algorithmes de 'Machine Learning' par RapidMiner sur une base de données de e-bay en Allemagne.
git: https://github.com/hannachiMajdi/Machine-learning-avec-RapidMiner
email: majdi_hannachi@outlook.fr
CNES - CCT SIL - Traitement et Manipulation de la donnée à l‘aide des technologies Big Data
Présentation du 30 Juin 2017
Les CCT sont des espaces d'échanges techniques mis en place par le CNES il y a 20 ans, dans le but de réunir différents acteurs industriels et public pour s'enrichir mutuellement.
Ce document est un rapport sur mon travail pour l'application des algorithmes de 'Machine Learning' par RapidMiner sur une base de données de e-bay en Allemagne.
git: https://github.com/hannachiMajdi/Machine-learning-avec-RapidMiner
email: majdi_hannachi@outlook.fr
CNES - CCT SIL - Traitement et Manipulation de la donnée à l‘aide des technologies Big Data
Présentation du 30 Juin 2017
Les CCT sont des espaces d'échanges techniques mis en place par le CNES il y a 20 ans, dans le but de réunir différents acteurs industriels et public pour s'enrichir mutuellement.
What is Big Data?
C'est quoi les big data? et comment ils ont naquis?
Big dat, manipulés comment? quelles sont leurs applications et leurs inconvénients actuels?
1-Problématique
2-Définition du Big Data
3-Big Data et 3V
4-Data wahrehouse VS Big Data
5-Domaines d’utilisations
6-Les techniques de traitement
7-Big Data et Aspect Mobile
8-Conclusion
Introduction au datamining, concepts et techniquesIsmail CHAIB
Face à l’importance grandissante que prend l’information, le datamining offre une solution pour maitriser la complexité et synthétiser les amas de données pour faire jaillir de la connaissance.
Cet exposé introduit la notion de datamining dans son ensemble à travers ses concepts et ses principes, et survole quelques techniques utilisées lors de ce processus.
Pour accéder aux fichiers nécessaires pour faire ce TP, visitez: https://drive.google.com/folderview?id=0Bz7DokLRQvx7M2JWZEt1VHdwSE0&usp=sharing
Pour plus de contenu, Visitez http://liliasfaxi.wix.com/liliasfaxi !
BigData_TP1: Initiation à Hadoop et Map-ReduceLilia Sfaxi
Pour accéder aux fichiers nécessaires pour faire ce TP, visitez: https://drive.google.com/folderview?id=0Bz7DokLRQvx7M2JWZEt1VHdwSE0&usp=sharing
Pour plus de contenu, Visitez http://liliasfaxi.wix.com/liliasfaxi !
Big Data : Hadoop
- Généralité
- Architecture HDFS
- Algorithme MapRduce
- Architecture YARN
- Hadoop v3.x vs Hadoopv2.x
Cours Big Data - Chap2 - GI3 - ENIS
Cours HBase et Base de Données Orientées Colonnes (HBase, Column Oriented Dat...Hatim CHAHDI
Ce cours introduit les bases de données orientées colonnes et leurs spécificités. Il détaille par la suite l'architecture d'HBase et explique les moyens nécessaires à sa mise en place et à son exploitation.
What is Big Data?
C'est quoi les big data? et comment ils ont naquis?
Big dat, manipulés comment? quelles sont leurs applications et leurs inconvénients actuels?
1-Problématique
2-Définition du Big Data
3-Big Data et 3V
4-Data wahrehouse VS Big Data
5-Domaines d’utilisations
6-Les techniques de traitement
7-Big Data et Aspect Mobile
8-Conclusion
Introduction au datamining, concepts et techniquesIsmail CHAIB
Face à l’importance grandissante que prend l’information, le datamining offre une solution pour maitriser la complexité et synthétiser les amas de données pour faire jaillir de la connaissance.
Cet exposé introduit la notion de datamining dans son ensemble à travers ses concepts et ses principes, et survole quelques techniques utilisées lors de ce processus.
Pour accéder aux fichiers nécessaires pour faire ce TP, visitez: https://drive.google.com/folderview?id=0Bz7DokLRQvx7M2JWZEt1VHdwSE0&usp=sharing
Pour plus de contenu, Visitez http://liliasfaxi.wix.com/liliasfaxi !
BigData_TP1: Initiation à Hadoop et Map-ReduceLilia Sfaxi
Pour accéder aux fichiers nécessaires pour faire ce TP, visitez: https://drive.google.com/folderview?id=0Bz7DokLRQvx7M2JWZEt1VHdwSE0&usp=sharing
Pour plus de contenu, Visitez http://liliasfaxi.wix.com/liliasfaxi !
Big Data : Hadoop
- Généralité
- Architecture HDFS
- Algorithme MapRduce
- Architecture YARN
- Hadoop v3.x vs Hadoopv2.x
Cours Big Data - Chap2 - GI3 - ENIS
Cours HBase et Base de Données Orientées Colonnes (HBase, Column Oriented Dat...Hatim CHAHDI
Ce cours introduit les bases de données orientées colonnes et leurs spécificités. Il détaille par la suite l'architecture d'HBase et explique les moyens nécessaires à sa mise en place et à son exploitation.
12. Repository , DataSet, Process
Repository:
Permet le stockage de plusieurs objets (dataSet , Process, mdéle de prédiction..)
correspond à un dossier sur l’ordinateur créé spécifiquement pour le travail Rapidminer
DataSet: ensemble de données
Process: une série d'opérateurs appliqués au DataSet pour l'analyser.
Normalize:La normalisation est utilisée pour mettre à l'échelle les valeurs afin qu'elles correspondent à une plage spécifique. L'ajustement de la plage de valeurs est très important lorsqu'il s'agit d'attributs d'unités et d'échelles différentes.
Scale by Weights: peut être utilisé pour mettre à l'échelle les attributs par des poids pré-calculés. Au lieu d'ajuster la plage de valeurs à une échelle commune, cet opérateur peut être utilisé pour donner encore plus de poids aux attributs importants.
De-Normalize: peut être utilisé pour rétablir une normalisation précédemment appliquée. Il nécessite le modèle de prétraitement renvoyé par un opérateur de normalisation.
Discretize by Binning: discrétise les attributs numériques sélectionnés en attributs nominaux.
Discretize by Frequency: crée des classes de manière à ce que le nombre de valeurs uniques dans tous les groupes soit (presque) égal.
Discretize by Size: crée des classes de manière à ce que chaque groupe possède une taille spécifiée par l'utilisateur
Outliers: les valeurs aberrantes
Split Validation: Cet opérateur effectue une validation simple, c'est-à-dire divise de façon aléatoire le ExampleSet en un ensemble d'apprentissage et un ensemble de tests et évalue le modèle. Cet opérateur effectue une validation de division afin d'estimer la performance d'un opérateur d'apprentissage (généralement sur des ensembles de données non-vus). Il est principalement utilisé pour estimer avec quelle précision un modèle (appris par un opérateur d'apprentissage particulier) fonctionnera dans la pratique.