Classification de stroke par SVM et DecisionTree.pptx

•Télécharger en tant que PPTX, PDF•

0 j'aime•66 vues

**plan** 1)Introduction 2)Importation des données 3)Traitement et analyse des données 4)Modélisation et la comparaison des modèles 5)Amélioration d’un modèle 6)Conclusion

Données & analyses

Classification de stroke
par SVM et
DecisionTree
Réalisé par :
Ben Hmida Sarra
Kebabou Molk

Modélisation et la comparaison des modèles
Introduction
01
Importation des données
02
Traitement et analyse des données
03
04
Plan
Conclusion
Amélioration d’un modèle
05
06

Le data mining désigne le
processus d’analyse de volumes
massifs de données et du Big
Data sous différents angles afin
d’identifier des relations entre les
data et de les transformer en
informations exploitables.
Introduction
1

Problématique
Dans les pays occidentaux , un individu sur 200 est
atteint d'un accident vasculaire cérébral chaque année.
En France en 2019, on dénombre chaque année plus de
140 000 nouveaux cas d’accidents vasculaires
cérébraux.
Les accidents vasculaire cérébral augmentent ces jours-
ci et nous ne connaissons pas leurs causes, ni les
personnes qui peuvent en tomber malades.
C’est pourquoi nous avons choisi d'analyser les données
d'un certain nombre de personnes pour connaître les
causes de cette maladie et qui peut tomber malade selon
l'âge et d'autres features.
2

Notre Dataset se compose de 12 colonnes pour un total de 5110 lignes et
chaque ligne des données fournit des informations pertinentes sur une personne, tel
que l'âge, le sexe, le statut tabagique, la survenue d'un accident vasculaire cérébral et
d'autres information.
4

Modélisation et la
comparaison des
modèles
12

Pour cet dataset particulier, avg_glucose_level
et l'âge sont les caractéristiques les plus
importantes pour déterminer si une personne
présente un risque élevé ou faible de subir un
stroke. Plus le taux de glucose dans le sang est
élevé, plus le risque d'accident vasculaire
cérébral est élevé et il en va de même pour les
personnes âgées
Conclusion
19

Recommandé

Couchbase Capella.pptxSaraHmida1

droit de brevet.pptxSaraHmida1

Teamword&Team_Building.pptxSaraHmida1

2024 State of Marketing Report – by HubspotMarius Sescu

Everything You Need To Know About ChatGPTExpeed Software

Product Design Trends in 2024 | Teenage EngineeringsPixeldarts

How Race, Age and Gender Shape Attitudes Towards Mental HealthThinkNow

AI Trends in Creative Operations 2024 by Artwork Flow.pdfmarketingartwork

Recommandé

Couchbase Capella.pptxSaraHmida1

droit de brevet.pptxSaraHmida1

Teamword&Team_Building.pptxSaraHmida1

2024 State of Marketing Report – by HubspotMarius Sescu

Everything You Need To Know About ChatGPTExpeed Software

Product Design Trends in 2024 | Teenage EngineeringsPixeldarts

How Race, Age and Gender Shape Attitudes Towards Mental HealthThinkNow

AI Trends in Creative Operations 2024 by Artwork Flow.pdfmarketingartwork

Skeleton Culture CodeSkeleton Technologies

PEPSICO Presentation to CAGNY Conference Feb 2024Neil Kimberley

Content Methodology: A Best Practices Report (Webinar)contently

How to Prepare For a Successful Job Search for 2024Albert Qian

Social Media Marketing Trends 2024 // The Global Indie InsightsKurio // The Social Media Age(ncy)

Trends In Paid Search: Navigating The Digital Landscape In 2024Search Engine Journal

5 Public speaking tips from TED - Visualized summarySpeakerHub

ChatGPT and the Future of Work - Clark Boyd Clark Boyd

Getting into the tech field. what next Tessa Mero

Google's Just Not That Into You: Understanding Core Updates & Search IntentLily Ray

How to have difficult conversations Rajiv Jayarajah, MAppComm, ACC

Introduction to Data ScienceChristy Abraham Joy

Time Management & Productivity - Best PracticesVit Horky

The six step guide to practical project managementMindGenius

Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...RachelPearson36

Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...Applitools

12 Ways to Increase Your Influence at WorkGetSmarter

ChatGPT webinar slidesAlireza Esmikhani

More than Just Lines on a Map: Best Practices for U.S Bike RoutesProject for Public Spaces & National Center for Biking and Walking

Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...DevGAMM Conference

Contenu connexe

En vedette

Skeleton Culture CodeSkeleton Technologies

PEPSICO Presentation to CAGNY Conference Feb 2024Neil Kimberley

Content Methodology: A Best Practices Report (Webinar)contently

How to Prepare For a Successful Job Search for 2024Albert Qian

Social Media Marketing Trends 2024 // The Global Indie InsightsKurio // The Social Media Age(ncy)

Trends In Paid Search: Navigating The Digital Landscape In 2024Search Engine Journal

5 Public speaking tips from TED - Visualized summarySpeakerHub

ChatGPT and the Future of Work - Clark Boyd Clark Boyd

Getting into the tech field. what next Tessa Mero

Google's Just Not That Into You: Understanding Core Updates & Search IntentLily Ray

How to have difficult conversations Rajiv Jayarajah, MAppComm, ACC

Introduction to Data ScienceChristy Abraham Joy

Time Management & Productivity - Best PracticesVit Horky

The six step guide to practical project managementMindGenius

Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...RachelPearson36

Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...Applitools

12 Ways to Increase Your Influence at WorkGetSmarter

ChatGPT webinar slidesAlireza Esmikhani

More than Just Lines on a Map: Best Practices for U.S Bike RoutesProject for Public Spaces & National Center for Biking and Walking

Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...DevGAMM Conference

En vedette (20)

Skeleton Culture Code

PEPSICO Presentation to CAGNY Conference Feb 2024

Content Methodology: A Best Practices Report (Webinar)

How to Prepare For a Successful Job Search for 2024

Social Media Marketing Trends 2024 // The Global Indie Insights

Trends In Paid Search: Navigating The Digital Landscape In 2024

5 Public speaking tips from TED - Visualized summary

ChatGPT and the Future of Work - Clark Boyd

Getting into the tech field. what next

Google's Just Not That Into You: Understanding Core Updates & Search Intent

How to have difficult conversations

Introduction to Data Science

Time Management & Productivity - Best Practices

The six step guide to practical project management

Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...

Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...

12 Ways to Increase Your Influence at Work

ChatGPT webinar slides

More than Just Lines on a Map: Best Practices for U.S Bike Routes

Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...

Classification de stroke par SVM et DecisionTree.pptx

1. Classification de stroke par SVM et DecisionTree Réalisé par : Ben Hmida Sarra Kebabou Molk

2. Modélisation et la comparaison des modèles Introduction 01 Importation des données 02 Traitement et analyse des données 03 04 Plan Conclusion Amélioration d’un modèle 05 06

3. Le data mining désigne le processus d’analyse de volumes massifs de données et du Big Data sous différents angles afin d’identifier des relations entre les data et de les transformer en informations exploitables. Introduction 1

4. Problématique Dans les pays occidentaux , un individu sur 200 est atteint d'un accident vasculaire cérébral chaque année. En France en 2019, on dénombre chaque année plus de 140 000 nouveaux cas d’accidents vasculaires cérébraux. Les accidents vasculaire cérébral augmentent ces jours- ci et nous ne connaissons pas leurs causes, ni les personnes qui peuvent en tomber malades. C’est pourquoi nous avons choisi d'analyser les données d'un certain nombre de personnes pour connaître les causes de cette maladie et qui peut tomber malade selon l'âge et d'autres features. 2

5. Importation des données 3

6. Notre Dataset se compose de 12 colonnes pour un total de 5110 lignes et chaque ligne des données fournit des informations pertinentes sur une personne, tel que l'âge, le sexe, le statut tabagique, la survenue d'un accident vasculaire cérébral et d'autres information. 4

7. Traitement et analyse des données 5

8. Nettoyage des données 6

9. 7

10. Visualisation des données 8

11. 9

12. 10

13. Pré-traitement des données 11

14. Modélisation et la comparaison des modèles 12

15. Modélisation Decision Tree 13

16. SVM 14

17. Comparaison des modèles 15

18. Amélioration d’un modèle 16

19. Decision Tree 17

20. SVM 18

21. Pour cet dataset particulier, avg_glucose_level et l'âge sont les caractéristiques les plus importantes pour déterminer si une personne présente un risque élevé ou faible de subir un stroke. Plus le taux de glucose dans le sang est élevé, plus le risque d'accident vasculaire cérébral est élevé et il en va de même pour les personnes âgées Conclusion 19

Notes de l'éditeur

On commence par introduire data mining alors
Id : Identifiant unique  Gendre : Le genre  Age : Âge  Hypertension : Fonction binaire d'hypertension  Heart_disease : Caractéristique binaire des maladies cardiaques  Ever_married : Le patient a-t-il déjà été marié ?  Work_type : Type de travail du patient  Residence_type : Type de résidence du patient  Avg_glucose_level : Niveau moyen de glucose dans le sang  Bmi : Indice de masse corporelle  Smoking_status : Statut de fumeur  Stroke : Accident vasculaire cérébra
Cet ensemble de données est utilisé pour prédire si un patient est susceptible de subir un stroke en fonction de paramètres d'entrée On a utiliser la fonction read_csv pour importer notre dataset puis l’afficher et on a afficher le nombre des lignes et des colonnes avec la fonction shape
On a vérifié s'il y a des valeurs null et on a remarqué que la colonne bmi à 201 valeur null On a afficher les nombres d’hommes et des femme dans notre dataset , Il y a 1 donnée en dehors de Male et Female. On a supprimer le other Ensuite, nous avons supprimé id et bmi car nous n'en avons pas besoin
On a afficher les ages de toutes les personnes avec ordre croissant Les personnes moins de 15 ans nous n'avons pas besoin d'eux pour notre analyse c'est pour ca nous les avons supprimés
Dans la première visualisation le nombre total de femmes ayant subi un stroke est supérieur à celui des hommes Et pour la deuxième visualisation on remarque que les personnes ayant un stroke son avg glucosse est elevé
dans notre graphe nous voyons que Plus que l'Age augmente, plus que le risque d'avoir un stroke augmente aussi
nous montrent qu'il existe 2 status tabagique qui pourrait influencer notre modèle sont unknown et formely smoked c’est pour ca on a regrouper Never smoked et unknown dans never smoked et formerly smoked et smokes dans smoke
Dans cette etape on a afficher les colonnes qui son types est un objet puis on à changer ses données par 0 et 1. Puis nous divisons les fonctionnalités en ensembles de train et de test
On a choisit comme premier modèle decision tree , on lance l’entrainement et on prédire notre test Nous voyons que laccuracy score egale a 0,91 matrice de confusuion, classification_report
On a choisit comme deuxieme modele svm , on lance l’entrainement et on predire notre test Nous voyons qu’ on a une bonne accuracy score qui egale a 0,94 Precision y7sblk 3ala kol colonne mel matrice les nombres s7a7 3al totale mta3 lcolonne wl accuracy y7seblk les nombres s7a7 lkol mta3 lmatrice aal totale mta3 lmatrice lkol
D’après ce graph, nous avons remarquer que le modèle SVM donne un bon résultat par rapport au Decision_Tree
On a ajouter un paramètre kernel a notre modele SVM de type lineair et le kernel est une méthode d'utilisation d'un classificateur linéaire pour résoudre un problème non linéaire.