SlideShare une entreprise Scribd logo
1  sur  21
Classification de stroke
par SVM et
DecisionTree
Réalisé par :
Ben Hmida Sarra
Kebabou Molk
Modélisation et la comparaison des modèles
Introduction
01
Importation des données
02
Traitement et analyse des données
03
04
Plan
Conclusion
Amélioration d’un modèle
05
06
Le data mining désigne le
processus d’analyse de volumes
massifs de données et du Big
Data sous différents angles afin
d’identifier des relations entre les
data et de les transformer en
informations exploitables.
Introduction
1
Problématique
Dans les pays occidentaux , un individu sur 200 est
atteint d'un accident vasculaire cérébral chaque année.
En France en 2019, on dénombre chaque année plus de
140 000 nouveaux cas d’accidents vasculaires
cérébraux.
Les accidents vasculaire cérébral augmentent ces jours-
ci et nous ne connaissons pas leurs causes, ni les
personnes qui peuvent en tomber malades.
C’est pourquoi nous avons choisi d'analyser les données
d'un certain nombre de personnes pour connaître les
causes de cette maladie et qui peut tomber malade selon
l'âge et d'autres features.
2
Importation des
données
3
Notre Dataset se compose de 12 colonnes pour un total de 5110 lignes et
chaque ligne des données fournit des informations pertinentes sur une personne, tel
que l'âge, le sexe, le statut tabagique, la survenue d'un accident vasculaire cérébral et
d'autres information.
4
Traitement et analyse
des données
5
Nettoyage des données
6
7
Visualisation des données
8
9
10
Pré-traitement des données
11
Modélisation et la
comparaison des
modèles
12
Modélisation
Decision Tree
13
SVM
14
Comparaison des modèles
15
Amélioration d’un
modèle
16
Decision Tree
17
SVM
18
Pour cet dataset particulier, avg_glucose_level
et l'âge sont les caractéristiques les plus
importantes pour déterminer si une personne
présente un risque élevé ou faible de subir un
stroke. Plus le taux de glucose dans le sang est
élevé, plus le risque d'accident vasculaire
cérébral est élevé et il en va de même pour les
personnes âgées
Conclusion
19

Contenu connexe

En vedette

PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024Neil Kimberley
 
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)contently
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024Albert Qian
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsKurio // The Social Media Age(ncy)
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Search Engine Journal
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summarySpeakerHub
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next Tessa Mero
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentLily Ray
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best PracticesVit Horky
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project managementMindGenius
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...RachelPearson36
 
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...Applitools
 
12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at Work12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at WorkGetSmarter
 
Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...
Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...
Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...DevGAMM Conference
 

En vedette (20)

Skeleton Culture Code
Skeleton Culture CodeSkeleton Culture Code
Skeleton Culture Code
 
PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024
 
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie Insights
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search Intent
 
How to have difficult conversations
How to have difficult conversations How to have difficult conversations
How to have difficult conversations
 
Introduction to Data Science
Introduction to Data ScienceIntroduction to Data Science
Introduction to Data Science
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best Practices
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project management
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
 
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
 
12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at Work12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at Work
 
ChatGPT webinar slides
ChatGPT webinar slidesChatGPT webinar slides
ChatGPT webinar slides
 
More than Just Lines on a Map: Best Practices for U.S Bike Routes
More than Just Lines on a Map: Best Practices for U.S Bike RoutesMore than Just Lines on a Map: Best Practices for U.S Bike Routes
More than Just Lines on a Map: Best Practices for U.S Bike Routes
 
Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...
Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...
Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...
 

Classification de stroke par SVM et DecisionTree.pptx

  • 1. Classification de stroke par SVM et DecisionTree Réalisé par : Ben Hmida Sarra Kebabou Molk
  • 2. Modélisation et la comparaison des modèles Introduction 01 Importation des données 02 Traitement et analyse des données 03 04 Plan Conclusion Amélioration d’un modèle 05 06
  • 3. Le data mining désigne le processus d’analyse de volumes massifs de données et du Big Data sous différents angles afin d’identifier des relations entre les data et de les transformer en informations exploitables. Introduction 1
  • 4. Problématique Dans les pays occidentaux , un individu sur 200 est atteint d'un accident vasculaire cérébral chaque année. En France en 2019, on dénombre chaque année plus de 140 000 nouveaux cas d’accidents vasculaires cérébraux. Les accidents vasculaire cérébral augmentent ces jours- ci et nous ne connaissons pas leurs causes, ni les personnes qui peuvent en tomber malades. C’est pourquoi nous avons choisi d'analyser les données d'un certain nombre de personnes pour connaître les causes de cette maladie et qui peut tomber malade selon l'âge et d'autres features. 2
  • 6. Notre Dataset se compose de 12 colonnes pour un total de 5110 lignes et chaque ligne des données fournit des informations pertinentes sur une personne, tel que l'âge, le sexe, le statut tabagique, la survenue d'un accident vasculaire cérébral et d'autres information. 4
  • 9. 7
  • 11. 9
  • 12. 10
  • 21. Pour cet dataset particulier, avg_glucose_level et l'âge sont les caractéristiques les plus importantes pour déterminer si une personne présente un risque élevé ou faible de subir un stroke. Plus le taux de glucose dans le sang est élevé, plus le risque d'accident vasculaire cérébral est élevé et il en va de même pour les personnes âgées Conclusion 19

Notes de l'éditeur

  1. On commence par introduire data mining alors
  2. Id : Identifiant unique  Gendre : Le genre  Age : Âge  Hypertension : Fonction binaire d'hypertension  Heart_disease : Caractéristique binaire des maladies cardiaques  Ever_married : Le patient a-t-il déjà été marié ?  Work_type : Type de travail du patient  Residence_type : Type de résidence du patient  Avg_glucose_level : Niveau moyen de glucose dans le sang  Bmi : Indice de masse corporelle  Smoking_status : Statut de fumeur  Stroke : Accident vasculaire cérébra
  3. Cet ensemble de données est utilisé pour prédire si un patient est susceptible de subir un stroke en fonction de paramètres d'entrée On a utiliser la fonction read_csv pour importer notre dataset puis l’afficher et on a afficher le nombre des lignes et des colonnes avec la fonction shape
  4. On a vérifié s'il y a des valeurs null et on a remarqué que la colonne bmi à 201 valeur null On a afficher les nombres d’hommes et des femme dans notre dataset , Il y a 1 donnée en dehors de Male et Female. On a supprimer le other Ensuite, nous avons supprimé id et bmi car nous n'en avons pas besoin
  5. On a afficher les ages de toutes les personnes avec ordre croissant Les personnes moins de 15 ans nous n'avons pas besoin d'eux pour notre analyse c'est pour ca nous les avons supprimés
  6. Dans la première visualisation le nombre total de femmes ayant subi un stroke est supérieur à celui des hommes Et pour la deuxième visualisation on remarque que les personnes ayant un stroke son avg glucosse est elevé
  7. dans notre graphe nous voyons que Plus que l'Age augmente, plus que le risque d'avoir un stroke augmente aussi
  8. nous montrent qu'il existe 2 status tabagique qui pourrait influencer notre modèle sont unknown et formely smoked c’est pour ca on a regrouper Never smoked et unknown dans never smoked et formerly smoked et smokes dans smoke
  9. Dans cette etape on a afficher les colonnes qui son types est un objet puis on à changer ses données par 0 et 1. Puis nous divisons les fonctionnalités en ensembles de train et de test
  10. On a choisit comme premier modèle decision tree , on lance l’entrainement et on prédire notre test Nous voyons que laccuracy score egale a 0,91 matrice de confusuion, classification_report
  11. On a choisit comme deuxieme modele svm , on lance l’entrainement et on predire notre test Nous voyons qu’ on a une bonne accuracy score qui egale a 0,94 Precision y7sblk 3ala kol colonne mel matrice les nombres s7a7 3al totale mta3 lcolonne wl accuracy y7seblk les nombres s7a7 lkol mta3 lmatrice aal totale mta3 lmatrice lkol
  12. D’après ce graph, nous avons remarquer que le modèle SVM donne un bon résultat par rapport au Decision_Tree
  13. On a ajouter un paramètre kernel a notre modele SVM de type lineair et le kernel est une méthode d'utilisation d'un classificateur linéaire pour résoudre un problème non linéaire.