**plan**
1)Introduction
2)Importation des données
3)Traitement et analyse des données
4)Modélisation et la comparaison des modèles
5)Amélioration d’un modèle
6)Conclusion
2. Modélisation et la comparaison des modèles
Introduction
01
Importation des données
02
Traitement et analyse des données
03
04
Plan
Conclusion
Amélioration d’un modèle
05
06
3. Le data mining désigne le
processus d’analyse de volumes
massifs de données et du Big
Data sous différents angles afin
d’identifier des relations entre les
data et de les transformer en
informations exploitables.
Introduction
1
4. Problématique
Dans les pays occidentaux , un individu sur 200 est
atteint d'un accident vasculaire cérébral chaque année.
En France en 2019, on dénombre chaque année plus de
140 000 nouveaux cas d’accidents vasculaires
cérébraux.
Les accidents vasculaire cérébral augmentent ces jours-
ci et nous ne connaissons pas leurs causes, ni les
personnes qui peuvent en tomber malades.
C’est pourquoi nous avons choisi d'analyser les données
d'un certain nombre de personnes pour connaître les
causes de cette maladie et qui peut tomber malade selon
l'âge et d'autres features.
2
6. Notre Dataset se compose de 12 colonnes pour un total de 5110 lignes et
chaque ligne des données fournit des informations pertinentes sur une personne, tel
que l'âge, le sexe, le statut tabagique, la survenue d'un accident vasculaire cérébral et
d'autres information.
4
21. Pour cet dataset particulier, avg_glucose_level
et l'âge sont les caractéristiques les plus
importantes pour déterminer si une personne
présente un risque élevé ou faible de subir un
stroke. Plus le taux de glucose dans le sang est
élevé, plus le risque d'accident vasculaire
cérébral est élevé et il en va de même pour les
personnes âgées
Conclusion
19
Notes de l'éditeur
On commence par introduire data mining alors
Id : Identifiant unique
Gendre : Le genre
Age : Âge
Hypertension : Fonction binaire d'hypertension
Heart_disease : Caractéristique binaire des maladies cardiaques
Ever_married : Le patient a-t-il déjà été marié ?
Work_type : Type de travail du patient
Residence_type : Type de résidence du patient
Avg_glucose_level : Niveau moyen de glucose dans le sang
Bmi : Indice de masse corporelle
Smoking_status : Statut de fumeur
Stroke : Accident vasculaire cérébra
Cet ensemble de données est utilisé pour prédire si un patient est susceptible de subir un stroke en fonction de paramètres d'entrée
On a utiliser la fonction read_csv pour importer notre dataset puis l’afficher et on a afficher le nombre des lignes et des colonnes avec la fonction shape
On a vérifié s'il y a des valeurs null et on a remarqué que la colonne bmi à 201 valeur null
On a afficher les nombres d’hommes et des femme dans notre dataset , Il y a 1 donnée en dehors de Male et Female.
On a supprimer le other
Ensuite, nous avons supprimé id et bmi car nous n'en avons pas besoin
On a afficher les ages de toutes les personnes avec ordre croissant
Les personnes moins de 15 ans nous n'avons pas besoin d'eux pour notre analyse c'est pour ca nous les avons supprimés
Dans la première visualisation le nombre total de femmes ayant subi un stroke est supérieur à celui des hommes
Et pour la deuxième visualisation on remarque que les personnes ayant un stroke son avg glucosse est elevé
dans notre graphe nous voyons que Plus que l'Age augmente, plus que le risque d'avoir un stroke augmente aussi
nous montrent qu'il existe 2 status tabagique qui pourrait influencer notre modèle sont unknown et formely smoked c’est pour ca on a regrouper
Never smoked et unknown dans never smoked et formerly smoked et smokes dans smoke
Dans cette etape on a afficher les colonnes qui son types est un objet puis on à changer ses données par 0 et 1.
Puis nous divisons les fonctionnalités en ensembles de train et de test
On a choisit comme premier modèle decision tree , on lance l’entrainement et on prédire notre test
Nous voyons que laccuracy score egale a 0,91
matrice de confusuion, classification_report
On a choisit comme deuxieme modele svm , on lance l’entrainement et on predire notre test
Nous voyons qu’ on a une bonne accuracy score qui egale a 0,94
Precision y7sblk 3ala kol colonne mel matrice les nombres s7a7 3al totale mta3 lcolonne
wl accuracy y7seblk les nombres s7a7 lkol mta3 lmatrice aal totale mta3 lmatrice lkol
D’après ce graph, nous avons remarquer que le modèle SVM donne un bon résultat par rapport au Decision_Tree
On a ajouter un paramètre kernel a notre modele SVM de type lineair et le kernel est une méthode d'utilisation d'un classificateur linéaire pour résoudre un problème non linéaire.