12. Repository , DataSet, Process
Repository:
Permet le stockage de plusieurs objets (dataSet , Process, mdéle de prédiction..)
correspond à un dossier sur l’ordinateur créé spécifiquement pour le travail Rapidminer
DataSet: ensemble de données
Process: une série d'opérateurs appliqués au DataSet pour l'analyser.
Normalize:La normalisation est utilisée pour mettre à l'échelle les valeurs afin qu'elles correspondent à une plage spécifique. L'ajustement de la plage de valeurs est très important lorsqu'il s'agit d'attributs d'unités et d'échelles différentes.
Scale by Weights: peut être utilisé pour mettre à l'échelle les attributs par des poids pré-calculés. Au lieu d'ajuster la plage de valeurs à une échelle commune, cet opérateur peut être utilisé pour donner encore plus de poids aux attributs importants.
De-Normalize: peut être utilisé pour rétablir une normalisation précédemment appliquée. Il nécessite le modèle de prétraitement renvoyé par un opérateur de normalisation.
Discretize by Binning: discrétise les attributs numériques sélectionnés en attributs nominaux.
Discretize by Frequency: crée des classes de manière à ce que le nombre de valeurs uniques dans tous les groupes soit (presque) égal.
Discretize by Size: crée des classes de manière à ce que chaque groupe possède une taille spécifiée par l'utilisateur
Outliers: les valeurs aberrantes
Split Validation: Cet opérateur effectue une validation simple, c'est-à-dire divise de façon aléatoire le ExampleSet en un ensemble d'apprentissage et un ensemble de tests et évalue le modèle. Cet opérateur effectue une validation de division afin d'estimer la performance d'un opérateur d'apprentissage (généralement sur des ensembles de données non-vus). Il est principalement utilisé pour estimer avec quelle précision un modèle (appris par un opérateur d'apprentissage particulier) fonctionnera dans la pratique.