SlideShare une entreprise Scribd logo
1  sur  10
1
Objectif :
Le but du TP N2 est de traiter les données de la base de données afin d’extraire les caractéristiques nécessaires
pour la phase d’apprentissage. Pour cela on va se servir des bibliothèques sous python3 et algorithmes
adéquates pour assurer ces objectifs. Par la suite on va essayer différent modèle d’entraînement et choisir le plus
performant pour la problématique.
Manipulation :
On va exécuter les instructions notées dans la fiche de TP et visualiser le résultat et découvrir l’utilité de quelque
commandes et algorithmes.
 Importer la data base, visualisation,
information et description statistique :
TP2 Génie de Connaissance
Sahar BEN MABROUK
MP MATIS2
Faculté des sciences de Sfax
Dép. Des Mathématiques
On va se servir de la bibliothèques pandas qui
renferme des commandes convenables pour
importer, visualiser la base de données et avoir une
répartition statistique des informations et leurs
descriptions
La commande _____.head() permet de donner un
aperçu sur la base de données donc il s’agit des
informations les passagers de Titanic leurs id, âge,
sexe et s’ils ont survécu..
___.info() permet de donner des informations
concernant les colonnes de notre data base
La colonne ‘Name’ contient 891 composants et de
type ‘object’. L’espace mémoire de la data base est
83.7 KiloByte
2
 Tri des valeurs :
____.descibe() permet de calculer les
données statistiques des variables
On a visualisé les données en utilisant
l’histogramme ça facilite la lecture des
données par exemple : la plupart des
passagers sont âgés de 20 à 30 ans
On peut trier les éléments des colonnes dans l’ordre
croissant ou décroissant, ici on a ordonné les composants
de la colonne sexe d’une manière croissante et donc ceci
est imposé aux éléments des autres colonnes, on
3
 Corrélation :
On remarque que les éléments chaque colonne suivent
l’ordonnément de la colonne ‘Cabin’ dont ses éléments
sont descendants alphabétiquement. 20 éléments sont
visualisés
Comme on a un nombre énorme de caractéristiques on cherche à trouver une relation
mathématiquement dite corrélation entre ces données ceci est assuré par la commande
____.corr(). On voit une matrice carrée de diagonale 1 est symétrique . les variables ayant
une corrélation plus proche de -1 ou 1 sont corrélés : par exemple {Pclass,Fare} et
{SibSp,Parch}.
On peut se concentrer sur la corrélation de la variable
‘Survived ‘ avec les autres variables.
On constate que ‘survived’ et ‘Pclass’ sont corrélé de
valeur -0.3384.
Ceci est bien traduit si on revient aux données la
plupart de la classe 3 sont non survived 0
4
 Remplacement des valeurs :
En visualisant les valeurs de la colonne
Age on remarque qu’il y a des
données de types ‘NAN’ (valeurs
manquantes) et ne sont pas
numériques(réels) et donc ne peuvent
pas être manipulées dans le
programme d’entrainement, C’est
pourquoi on va les remplacer par la
moyenne d’âge
On a bien les valeurs NAN sont remplacés par 29.69
Et par suite les nombres d’élément de type réel dans la
colonne Age(vecteur) est transformé de 714 à 891
5
 Principle Component Analysis :
Ce principe consiste à réduire les caractéristiques et garder celles qui sont utiles . on va l’utiliser pour
transformer les données de Fare et Classes en un seul vecteur puisqu’ils sont corrélés( corr{Pclass, Fare} =
-0.549
On affecte les deux colonnes ‘Fare ‘ et ‘Pclasse’ dans la variable ‘l’ puis on applique le PCA , on obtient le
vecteur C qui est un mixage entre les deux vecteurs corrélés, chaque classe est représenté par sa moyenne.
6
Conversion en donnée logique utiles :
On ajoute le vecteur obtenu dans la position 0
On va se baser sur le vecteur
‘survived’ comme un vecteur vérité
terrain et le mettre dans var GT,
puis on va se débarrasser des
autres vecteurs par la commande
___.drop
On va convertir les données de la colonne ‘sexe’ en 0 et1(valeur logique), pour être utile dans le
programme d’apprentissage
Maintenant on va remplacer tous les valeurs NAN ,là où ils apparaissent dans chaque colonne,
par la médiane en se basant sur la fonction Imputer
7
On injecte les nouvelles valeurs dans la variable X : on obtient une nouvelle data
base ‘X’, qui dérive de la base ’data’, dont ses données sont tous réels
X est une base de données numériques dont
chaque vecteur est de longueur 891
Finalement on normalise les données des attribues en
se servant du module StandardScaler . DS la nouvelle
base de données numérique normalisée
8
 Base de données d’apprentissage
/ base de données de Test :
 Choix du modèle d’entrainement :
Maintenant on prépare les variables d’entrée de notre programme d’entraînement :
Donc on divise notre base de données prétraité en deux parties : l’une pour l’apprentissage et
l’autre pour le test. Sans oublier de préparer les matrices Target dont leur composantes sont 0 et
1
Division des données : 60% (parmi 891 exemplaires) pour l’apprentissage et 40% pour le
testeY_app vecteur Target, issue de
60% de GT
On va maintenant exécuter trois modèles d’apprentissage et calculer à chaque fois entre le résultat
obtenue et celle estimé
9
 Régression linéaire :
 Decision Tree Regressor :
 Random Forest Regressor :
10
La régression linéaire a la plus faible moyenne d’erreur 0.039 et le plus faible écart
type 0.024 entre les résultats et l’estimé . donc c’est la plus efficace

Contenu connexe

Similaire à TP2 Data Science:

Cours_D3SI_S5_Python for DS_MatPlotLib.pdf
Cours_D3SI_S5_Python for DS_MatPlotLib.pdfCours_D3SI_S5_Python for DS_MatPlotLib.pdf
Cours_D3SI_S5_Python for DS_MatPlotLib.pdfsaid350040
 
Les Structures de données
Les Structures de donnéesLes Structures de données
Les Structures de donnéesHichem Kemali
 
TP_Réseaux_de_neurones_Safae_ElOmari.pdf
TP_Réseaux_de_neurones_Safae_ElOmari.pdfTP_Réseaux_de_neurones_Safae_ElOmari.pdf
TP_Réseaux_de_neurones_Safae_ElOmari.pdfSafaeElOmari
 
Data Mining (Partie 2).pdf
Data Mining (Partie 2).pdfData Mining (Partie 2).pdf
Data Mining (Partie 2).pdfOuailChoukhairi
 
Ch2-Notions de base & actions élémentaires.pdf
Ch2-Notions de base & actions élémentaires.pdfCh2-Notions de base & actions élémentaires.pdf
Ch2-Notions de base & actions élémentaires.pdfFadouaBouafifSamoud
 
Cours complet Base de donne Bac
Cours complet Base de donne Bac Cours complet Base de donne Bac
Cours complet Base de donne Bac Amri Ossama
 
1 analyse-et-mesure-des-performances
1 analyse-et-mesure-des-performances1 analyse-et-mesure-des-performances
1 analyse-et-mesure-des-performancesm.a bensaaoud
 
Introduction à MATLAB et Simulink.pdf
Introduction à MATLAB et Simulink.pdfIntroduction à MATLAB et Simulink.pdf
Introduction à MATLAB et Simulink.pdfTarakBenslimane
 
Introduction à MATLAB et Simulink.pdf
Introduction à MATLAB et Simulink.pdfIntroduction à MATLAB et Simulink.pdf
Introduction à MATLAB et Simulink.pdfTarakBenslimane
 
Cours algorithmique et complexite complet
Cours algorithmique et complexite completCours algorithmique et complexite complet
Cours algorithmique et complexite completChahrawoods Dmz
 
Cours algorithmique et complexite
Cours algorithmique et complexite Cours algorithmique et complexite
Cours algorithmique et complexite Saddem Chikh
 
Cours algorithmique et complexite complet
Cours algorithmique et complexite completCours algorithmique et complexite complet
Cours algorithmique et complexite completChahrawoods Dmz
 

Similaire à TP2 Data Science: (20)

Cours_D3SI_S5_Python for DS_MatPlotLib.pdf
Cours_D3SI_S5_Python for DS_MatPlotLib.pdfCours_D3SI_S5_Python for DS_MatPlotLib.pdf
Cours_D3SI_S5_Python for DS_MatPlotLib.pdf
 
Les Structures de données
Les Structures de donnéesLes Structures de données
Les Structures de données
 
TP_Réseaux_de_neurones_Safae_ElOmari.pdf
TP_Réseaux_de_neurones_Safae_ElOmari.pdfTP_Réseaux_de_neurones_Safae_ElOmari.pdf
TP_Réseaux_de_neurones_Safae_ElOmari.pdf
 
Data Mining (Partie 2).pdf
Data Mining (Partie 2).pdfData Mining (Partie 2).pdf
Data Mining (Partie 2).pdf
 
Ch2-Notions de base & actions élémentaires.pdf
Ch2-Notions de base & actions élémentaires.pdfCh2-Notions de base & actions élémentaires.pdf
Ch2-Notions de base & actions élémentaires.pdf
 
Cours complet Base de donne Bac
Cours complet Base de donne Bac Cours complet Base de donne Bac
Cours complet Base de donne Bac
 
syntax-matlab.pdf
syntax-matlab.pdfsyntax-matlab.pdf
syntax-matlab.pdf
 
Serie
SerieSerie
Serie
 
STATISTIQUE-Cours
STATISTIQUE-CoursSTATISTIQUE-Cours
STATISTIQUE-Cours
 
Controle de gestion
Controle de gestionControle de gestion
Controle de gestion
 
Cours 01.pptx
Cours 01.pptxCours 01.pptx
Cours 01.pptx
 
Chapitre 1 rappel
Chapitre 1 rappelChapitre 1 rappel
Chapitre 1 rappel
 
1 analyse-et-mesure-des-performances
1 analyse-et-mesure-des-performances1 analyse-et-mesure-des-performances
1 analyse-et-mesure-des-performances
 
Introduction à MATLAB et Simulink.pdf
Introduction à MATLAB et Simulink.pdfIntroduction à MATLAB et Simulink.pdf
Introduction à MATLAB et Simulink.pdf
 
Introduction à MATLAB et Simulink.pdf
Introduction à MATLAB et Simulink.pdfIntroduction à MATLAB et Simulink.pdf
Introduction à MATLAB et Simulink.pdf
 
Introduction_R.pdf
Introduction_R.pdfIntroduction_R.pdf
Introduction_R.pdf
 
Cours algorithmique et complexite complet
Cours algorithmique et complexite completCours algorithmique et complexite complet
Cours algorithmique et complexite complet
 
Cours algorithmique et complexite
Cours algorithmique et complexite Cours algorithmique et complexite
Cours algorithmique et complexite
 
Cours algorithmique et complexite complet
Cours algorithmique et complexite completCours algorithmique et complexite complet
Cours algorithmique et complexite complet
 
Tp01
Tp01Tp01
Tp01
 

Plus de SaharBenMabrouk

S2 TP1 partie 2: traitement de signal numérique
S2 TP1 partie 2: traitement de signal numériqueS2 TP1 partie 2: traitement de signal numérique
S2 TP1 partie 2: traitement de signal numériqueSaharBenMabrouk
 
S2 TP5: traitement d'image: seuillage en basant sur l'histogramme
S2 TP5: traitement d'image: seuillage en basant sur l'histogrammeS2 TP5: traitement d'image: seuillage en basant sur l'histogramme
S2 TP5: traitement d'image: seuillage en basant sur l'histogrammeSaharBenMabrouk
 
S2 TP4: traitement d'image: transformer de Fourier d'une image et filtre usuels
S2 TP4: traitement d'image: transformer de Fourier d'une image et filtre usuelsS2 TP4: traitement d'image: transformer de Fourier d'une image et filtre usuels
S2 TP4: traitement d'image: transformer de Fourier d'une image et filtre usuelsSaharBenMabrouk
 
S2 TP3: traitement d'image: filtrage rehaussement de contour
S2 TP3: traitement d'image: filtrage rehaussement de contourS2 TP3: traitement d'image: filtrage rehaussement de contour
S2 TP3: traitement d'image: filtrage rehaussement de contourSaharBenMabrouk
 
S2TP4 : traitement d'image : les images couleurs
S2TP4 : traitement d'image : les images couleursS2TP4 : traitement d'image : les images couleurs
S2TP4 : traitement d'image : les images couleursSaharBenMabrouk
 
S1TP3.1: traitement d'image : histogramme
S1TP3.1: traitement d'image : histogramme S1TP3.1: traitement d'image : histogramme
S1TP3.1: traitement d'image : histogramme SaharBenMabrouk
 
Tp3 traitement image: morphologie: propriétés des opérateurs morphologiques
Tp3 traitement image: morphologie: propriétés des opérateurs morphologiquesTp3 traitement image: morphologie: propriétés des opérateurs morphologiques
Tp3 traitement image: morphologie: propriétés des opérateurs morphologiquesSaharBenMabrouk
 
TP2 traitement d'image: gradients morphologiques ouverture fermeture
TP2 traitement d'image: gradients morphologiques ouverture fermetureTP2 traitement d'image: gradients morphologiques ouverture fermeture
TP2 traitement d'image: gradients morphologiques ouverture fermetureSaharBenMabrouk
 

Plus de SaharBenMabrouk (8)

S2 TP1 partie 2: traitement de signal numérique
S2 TP1 partie 2: traitement de signal numériqueS2 TP1 partie 2: traitement de signal numérique
S2 TP1 partie 2: traitement de signal numérique
 
S2 TP5: traitement d'image: seuillage en basant sur l'histogramme
S2 TP5: traitement d'image: seuillage en basant sur l'histogrammeS2 TP5: traitement d'image: seuillage en basant sur l'histogramme
S2 TP5: traitement d'image: seuillage en basant sur l'histogramme
 
S2 TP4: traitement d'image: transformer de Fourier d'une image et filtre usuels
S2 TP4: traitement d'image: transformer de Fourier d'une image et filtre usuelsS2 TP4: traitement d'image: transformer de Fourier d'une image et filtre usuels
S2 TP4: traitement d'image: transformer de Fourier d'une image et filtre usuels
 
S2 TP3: traitement d'image: filtrage rehaussement de contour
S2 TP3: traitement d'image: filtrage rehaussement de contourS2 TP3: traitement d'image: filtrage rehaussement de contour
S2 TP3: traitement d'image: filtrage rehaussement de contour
 
S2TP4 : traitement d'image : les images couleurs
S2TP4 : traitement d'image : les images couleursS2TP4 : traitement d'image : les images couleurs
S2TP4 : traitement d'image : les images couleurs
 
S1TP3.1: traitement d'image : histogramme
S1TP3.1: traitement d'image : histogramme S1TP3.1: traitement d'image : histogramme
S1TP3.1: traitement d'image : histogramme
 
Tp3 traitement image: morphologie: propriétés des opérateurs morphologiques
Tp3 traitement image: morphologie: propriétés des opérateurs morphologiquesTp3 traitement image: morphologie: propriétés des opérateurs morphologiques
Tp3 traitement image: morphologie: propriétés des opérateurs morphologiques
 
TP2 traitement d'image: gradients morphologiques ouverture fermeture
TP2 traitement d'image: gradients morphologiques ouverture fermetureTP2 traitement d'image: gradients morphologiques ouverture fermeture
TP2 traitement d'image: gradients morphologiques ouverture fermeture
 

Dernier

GAL2024 - Changements climatiques et maladies émergentes
GAL2024 - Changements climatiques et maladies émergentesGAL2024 - Changements climatiques et maladies émergentes
GAL2024 - Changements climatiques et maladies émergentesInstitut de l'Elevage - Idele
 
conception d'un batiment r+4 comparative de defferente ariante de plancher
conception d'un  batiment  r+4 comparative de defferente ariante de plancherconception d'un  batiment  r+4 comparative de defferente ariante de plancher
conception d'un batiment r+4 comparative de defferente ariante de planchermansouriahlam
 
optimisation logistique MLT_231102_155827.pdf
optimisation logistique  MLT_231102_155827.pdfoptimisation logistique  MLT_231102_155827.pdf
optimisation logistique MLT_231102_155827.pdfSoukainaMounawir
 
GAL2024 - L'élevage laitier cultive la biodiversité
GAL2024 - L'élevage laitier cultive la biodiversitéGAL2024 - L'élevage laitier cultive la biodiversité
GAL2024 - L'élevage laitier cultive la biodiversitéInstitut de l'Elevage - Idele
 
firefly algoriyhm sac a dos step by step .pdf
firefly algoriyhm sac a dos step by step .pdffirefly algoriyhm sac a dos step by step .pdf
firefly algoriyhm sac a dos step by step .pdffirstjob4
 
GAL2024 - Consommations et productions d'énergies dans les exploitations lait...
GAL2024 - Consommations et productions d'énergies dans les exploitations lait...GAL2024 - Consommations et productions d'énergies dans les exploitations lait...
GAL2024 - Consommations et productions d'énergies dans les exploitations lait...Institut de l'Elevage - Idele
 
GAL2024 - Parcellaire des fermes laitières : en enjeu de compétitivité et de ...
GAL2024 - Parcellaire des fermes laitières : en enjeu de compétitivité et de ...GAL2024 - Parcellaire des fermes laitières : en enjeu de compétitivité et de ...
GAL2024 - Parcellaire des fermes laitières : en enjeu de compétitivité et de ...Institut de l'Elevage - Idele
 
GAL2024 - Méthane 2030 : une démarche collective française à destination de t...
GAL2024 - Méthane 2030 : une démarche collective française à destination de t...GAL2024 - Méthane 2030 : une démarche collective française à destination de t...
GAL2024 - Méthane 2030 : une démarche collective française à destination de t...Institut de l'Elevage - Idele
 
GAL2024 - Traite des vaches laitières : au coeur des stratégies d'évolution d...
GAL2024 - Traite des vaches laitières : au coeur des stratégies d'évolution d...GAL2024 - Traite des vaches laitières : au coeur des stratégies d'évolution d...
GAL2024 - Traite des vaches laitières : au coeur des stratégies d'évolution d...Institut de l'Elevage - Idele
 
Présentation_Soirée-Information_ Surverse_Thibert _30 avril 2024
Présentation_Soirée-Information_ Surverse_Thibert _30 avril 2024Présentation_Soirée-Information_ Surverse_Thibert _30 avril 2024
Présentation_Soirée-Information_ Surverse_Thibert _30 avril 2024Ville de Châteauguay
 
comprehension de DDMRP dans le domaine de gestion
comprehension de DDMRP dans le domaine de gestioncomprehension de DDMRP dans le domaine de gestion
comprehension de DDMRP dans le domaine de gestionyakinekaidouchi1
 
GAL2024 - Renouvellement des actifs : un enjeu pour la filière laitière franç...
GAL2024 - Renouvellement des actifs : un enjeu pour la filière laitière franç...GAL2024 - Renouvellement des actifs : un enjeu pour la filière laitière franç...
GAL2024 - Renouvellement des actifs : un enjeu pour la filière laitière franç...Institut de l'Elevage - Idele
 
GAL2024 - Situation laitière 2023-2024 : consommation, marchés, prix et revenus
GAL2024 - Situation laitière 2023-2024 : consommation, marchés, prix et revenusGAL2024 - Situation laitière 2023-2024 : consommation, marchés, prix et revenus
GAL2024 - Situation laitière 2023-2024 : consommation, marchés, prix et revenusInstitut de l'Elevage - Idele
 
GAL2024 - Décarbonation du secteur laitier : la filière s'engage
GAL2024 - Décarbonation du secteur laitier : la filière s'engageGAL2024 - Décarbonation du secteur laitier : la filière s'engage
GAL2024 - Décarbonation du secteur laitier : la filière s'engageInstitut de l'Elevage - Idele
 

Dernier (15)

GAL2024 - Changements climatiques et maladies émergentes
GAL2024 - Changements climatiques et maladies émergentesGAL2024 - Changements climatiques et maladies émergentes
GAL2024 - Changements climatiques et maladies émergentes
 
conception d'un batiment r+4 comparative de defferente ariante de plancher
conception d'un  batiment  r+4 comparative de defferente ariante de plancherconception d'un  batiment  r+4 comparative de defferente ariante de plancher
conception d'un batiment r+4 comparative de defferente ariante de plancher
 
optimisation logistique MLT_231102_155827.pdf
optimisation logistique  MLT_231102_155827.pdfoptimisation logistique  MLT_231102_155827.pdf
optimisation logistique MLT_231102_155827.pdf
 
GAL2024 - L'élevage laitier cultive la biodiversité
GAL2024 - L'élevage laitier cultive la biodiversitéGAL2024 - L'élevage laitier cultive la biodiversité
GAL2024 - L'élevage laitier cultive la biodiversité
 
firefly algoriyhm sac a dos step by step .pdf
firefly algoriyhm sac a dos step by step .pdffirefly algoriyhm sac a dos step by step .pdf
firefly algoriyhm sac a dos step by step .pdf
 
GAL2024 - Consommations et productions d'énergies dans les exploitations lait...
GAL2024 - Consommations et productions d'énergies dans les exploitations lait...GAL2024 - Consommations et productions d'énergies dans les exploitations lait...
GAL2024 - Consommations et productions d'énergies dans les exploitations lait...
 
GAL2024 - Parcellaire des fermes laitières : en enjeu de compétitivité et de ...
GAL2024 - Parcellaire des fermes laitières : en enjeu de compétitivité et de ...GAL2024 - Parcellaire des fermes laitières : en enjeu de compétitivité et de ...
GAL2024 - Parcellaire des fermes laitières : en enjeu de compétitivité et de ...
 
GAL2024 - Méthane 2030 : une démarche collective française à destination de t...
GAL2024 - Méthane 2030 : une démarche collective française à destination de t...GAL2024 - Méthane 2030 : une démarche collective française à destination de t...
GAL2024 - Méthane 2030 : une démarche collective française à destination de t...
 
GAL2024 - Traite des vaches laitières : au coeur des stratégies d'évolution d...
GAL2024 - Traite des vaches laitières : au coeur des stratégies d'évolution d...GAL2024 - Traite des vaches laitières : au coeur des stratégies d'évolution d...
GAL2024 - Traite des vaches laitières : au coeur des stratégies d'évolution d...
 
Présentation_Soirée-Information_ Surverse_Thibert _30 avril 2024
Présentation_Soirée-Information_ Surverse_Thibert _30 avril 2024Présentation_Soirée-Information_ Surverse_Thibert _30 avril 2024
Présentation_Soirée-Information_ Surverse_Thibert _30 avril 2024
 
JTC 2024 Bâtiment et Photovoltaïque.pdf
JTC 2024  Bâtiment et Photovoltaïque.pdfJTC 2024  Bâtiment et Photovoltaïque.pdf
JTC 2024 Bâtiment et Photovoltaïque.pdf
 
comprehension de DDMRP dans le domaine de gestion
comprehension de DDMRP dans le domaine de gestioncomprehension de DDMRP dans le domaine de gestion
comprehension de DDMRP dans le domaine de gestion
 
GAL2024 - Renouvellement des actifs : un enjeu pour la filière laitière franç...
GAL2024 - Renouvellement des actifs : un enjeu pour la filière laitière franç...GAL2024 - Renouvellement des actifs : un enjeu pour la filière laitière franç...
GAL2024 - Renouvellement des actifs : un enjeu pour la filière laitière franç...
 
GAL2024 - Situation laitière 2023-2024 : consommation, marchés, prix et revenus
GAL2024 - Situation laitière 2023-2024 : consommation, marchés, prix et revenusGAL2024 - Situation laitière 2023-2024 : consommation, marchés, prix et revenus
GAL2024 - Situation laitière 2023-2024 : consommation, marchés, prix et revenus
 
GAL2024 - Décarbonation du secteur laitier : la filière s'engage
GAL2024 - Décarbonation du secteur laitier : la filière s'engageGAL2024 - Décarbonation du secteur laitier : la filière s'engage
GAL2024 - Décarbonation du secteur laitier : la filière s'engage
 

TP2 Data Science:

  • 1. 1 Objectif : Le but du TP N2 est de traiter les données de la base de données afin d’extraire les caractéristiques nécessaires pour la phase d’apprentissage. Pour cela on va se servir des bibliothèques sous python3 et algorithmes adéquates pour assurer ces objectifs. Par la suite on va essayer différent modèle d’entraînement et choisir le plus performant pour la problématique. Manipulation : On va exécuter les instructions notées dans la fiche de TP et visualiser le résultat et découvrir l’utilité de quelque commandes et algorithmes.  Importer la data base, visualisation, information et description statistique : TP2 Génie de Connaissance Sahar BEN MABROUK MP MATIS2 Faculté des sciences de Sfax Dép. Des Mathématiques On va se servir de la bibliothèques pandas qui renferme des commandes convenables pour importer, visualiser la base de données et avoir une répartition statistique des informations et leurs descriptions La commande _____.head() permet de donner un aperçu sur la base de données donc il s’agit des informations les passagers de Titanic leurs id, âge, sexe et s’ils ont survécu.. ___.info() permet de donner des informations concernant les colonnes de notre data base La colonne ‘Name’ contient 891 composants et de type ‘object’. L’espace mémoire de la data base est 83.7 KiloByte
  • 2. 2  Tri des valeurs : ____.descibe() permet de calculer les données statistiques des variables On a visualisé les données en utilisant l’histogramme ça facilite la lecture des données par exemple : la plupart des passagers sont âgés de 20 à 30 ans On peut trier les éléments des colonnes dans l’ordre croissant ou décroissant, ici on a ordonné les composants de la colonne sexe d’une manière croissante et donc ceci est imposé aux éléments des autres colonnes, on
  • 3. 3  Corrélation : On remarque que les éléments chaque colonne suivent l’ordonnément de la colonne ‘Cabin’ dont ses éléments sont descendants alphabétiquement. 20 éléments sont visualisés Comme on a un nombre énorme de caractéristiques on cherche à trouver une relation mathématiquement dite corrélation entre ces données ceci est assuré par la commande ____.corr(). On voit une matrice carrée de diagonale 1 est symétrique . les variables ayant une corrélation plus proche de -1 ou 1 sont corrélés : par exemple {Pclass,Fare} et {SibSp,Parch}. On peut se concentrer sur la corrélation de la variable ‘Survived ‘ avec les autres variables. On constate que ‘survived’ et ‘Pclass’ sont corrélé de valeur -0.3384. Ceci est bien traduit si on revient aux données la plupart de la classe 3 sont non survived 0
  • 4. 4  Remplacement des valeurs : En visualisant les valeurs de la colonne Age on remarque qu’il y a des données de types ‘NAN’ (valeurs manquantes) et ne sont pas numériques(réels) et donc ne peuvent pas être manipulées dans le programme d’entrainement, C’est pourquoi on va les remplacer par la moyenne d’âge On a bien les valeurs NAN sont remplacés par 29.69 Et par suite les nombres d’élément de type réel dans la colonne Age(vecteur) est transformé de 714 à 891
  • 5. 5  Principle Component Analysis : Ce principe consiste à réduire les caractéristiques et garder celles qui sont utiles . on va l’utiliser pour transformer les données de Fare et Classes en un seul vecteur puisqu’ils sont corrélés( corr{Pclass, Fare} = -0.549 On affecte les deux colonnes ‘Fare ‘ et ‘Pclasse’ dans la variable ‘l’ puis on applique le PCA , on obtient le vecteur C qui est un mixage entre les deux vecteurs corrélés, chaque classe est représenté par sa moyenne.
  • 6. 6 Conversion en donnée logique utiles : On ajoute le vecteur obtenu dans la position 0 On va se baser sur le vecteur ‘survived’ comme un vecteur vérité terrain et le mettre dans var GT, puis on va se débarrasser des autres vecteurs par la commande ___.drop On va convertir les données de la colonne ‘sexe’ en 0 et1(valeur logique), pour être utile dans le programme d’apprentissage Maintenant on va remplacer tous les valeurs NAN ,là où ils apparaissent dans chaque colonne, par la médiane en se basant sur la fonction Imputer
  • 7. 7 On injecte les nouvelles valeurs dans la variable X : on obtient une nouvelle data base ‘X’, qui dérive de la base ’data’, dont ses données sont tous réels X est une base de données numériques dont chaque vecteur est de longueur 891 Finalement on normalise les données des attribues en se servant du module StandardScaler . DS la nouvelle base de données numérique normalisée
  • 8. 8  Base de données d’apprentissage / base de données de Test :  Choix du modèle d’entrainement : Maintenant on prépare les variables d’entrée de notre programme d’entraînement : Donc on divise notre base de données prétraité en deux parties : l’une pour l’apprentissage et l’autre pour le test. Sans oublier de préparer les matrices Target dont leur composantes sont 0 et 1 Division des données : 60% (parmi 891 exemplaires) pour l’apprentissage et 40% pour le testeY_app vecteur Target, issue de 60% de GT On va maintenant exécuter trois modèles d’apprentissage et calculer à chaque fois entre le résultat obtenue et celle estimé
  • 9. 9  Régression linéaire :  Decision Tree Regressor :  Random Forest Regressor :
  • 10. 10 La régression linéaire a la plus faible moyenne d’erreur 0.039 et le plus faible écart type 0.024 entre les résultats et l’estimé . donc c’est la plus efficace