SlideShare une entreprise Scribd logo
Etablissement d’un modèle d’apprentissage
supervisé
Stadification de l’infection au VHC
Mariem Khalfaoui
M2 Bioinformatique-Bio Data Analytics 2021-2022
5
Récolte de données
4
3
2
1
Réconciliation des données
Ingénierie des caractéristiques
Génération du modèle
Apprentissage non supervisé
Plan
2
Introduction
3 à 4 millions de nouveaux cas chaque
année
Virus à ARN: un des principaux agents
pathogènes humains transmis par le sang
Infection:Peu de symptômes visibles
Forme aigüe peut s'aggraver
4
Biopsie
• Invasive/douleureuse
• Erreur atteint les 20%
Marqueurs bichimiques
• Sériques: cas de
soupçon
Génotypage
• Coûteux
Les marqueurs biochimiques sériques les plus
courants:
• l'Aspartate aminotransférase (AST)
• l'alanine aminotransférase (ALT)
• Le stade chronique de l'hépatite C peut être
identifié avec les niveaux détectables d'ARN
du VHC à 12 semaines
--> La surveillance du traitement contre le
VHC peut être suivie par l'examen des taux
d'ARN du VHC.
6
Récolte des données
Les symptômes les plus courants :
●Nausées
●Réduction de l’appétit
●Perte de poids
●Perte de masse musculaire
●Fatigue et faiblesse
●Douleurs abdominales
●Accumulation de liquide dans les chevilles ou dans l’abdomen (ascite)
●La jaunisse
●Démangeaisons
●Mauvaise coagulation du sang (ecchymoses)
●Troubles du sommeil
●Excitabilité
7
8
Source des données
• Le référentiel d'apprentissage automatique de l'UCI
Type
• Multivariées, multiclasses
Contenu
• 1385 instances avec 28 attributs et une classe
Stadification histologique de base
• 1 = Fibrose portale sans septa
• 2 = Quelques septa
• 3 = Beaucoup de septa sans cirrhose
• 4 = Cirrhose
L'ensemble de données concerne les patients égyptiens qui ont subi des doses de traitement
pour le VHC pendant environ 18 mois. L'objectif est de prédire l'état du patient, par étapes,
en fonction des mesures disponibles.
Description
des
attributs
Chargement
des données
10
Réconciliation des données (Data Wrangling)
DATA.HEAD() DATA.SHAPE DATA.COLUMNS DATA.DESCRIBE()
data.head() data.shape data.columns data.describe()
Renommer quelques attributs et la classe
Vérification de la
distribution des
différentes
valeurs de la
classe
Des valeurs
nulles à s’en
débarrasser ou
remplir ?
14
Observer les corrélations
J’ai remarqué que ALT 12 présente peu de corrélation avec la classe (corr=0,00008) donc j’ai décidé de l’éliminer dès le début et je garde les autres attributs en
corrélation négatives ou positives (classe et attribut évoluent de façon proportionnelle ou inversement proportionnelle)
15
Transformation
des données
• Les valeurs des attributs quantitatifs
sont continues donc je procède à
leur discrétisation par choix
d’intervalles.
• D’autres attributs, sont de type
entier, discrètes sont qualitatives
donc ne doivent pas changer lors de
la prédiction, je dois les discrétiser
par changement du leurs type en
« category » (type du frame
Pandas).
16
L’ingénierie des caractéristiques (Features Engineering)
Analyse en composantes principales (PCA)
Objectif : maximiser la variance
Le but d'une analyse en composantes principales est de trouver une
nouvelle base orthonormée dans laquelle représenter nos données, telle que
la variance des données selon ces nouveaux axes soit maximisée. Pour
implémenter une ACP, d’abord j’ai éliminé les attributs non discrétisés
17
Analyse en 8 composantes
Choix de
nombre de CP
à considérer
Génération d'un tableau avec les PC
19
12 composantes
Génération de modèles d’apprentissage automatique:
Répartition des données
20
Choix de
l’algorithme
● 2 algorithmes basé du “Naive Bayes” qui est un groupe d'algorithmes de classification
d'apprentissage automatique supervisés basés sur le théorème de Bayes. Il s'agit d'une
technique de classification simple, mais dotée d'une fonctionnalité élevée. Ils trouvent leur
utilité lorsque la dimensionnalité des entrées est élevée
○ Gaussian Naive Bayes qui est une variante de Naive Bayes qui suit la distribution
normale gaussienne et prend en charge les données continues
○ Bernoulli Naive Bayes qui est utilisé pour les données discrètes et cela fonctionne
sur la distribution de Bernoulli
21
•Arbre de décision (Decision Tree): une méthode d'apprentissage supervisé non paramétrique
utilisée pour la classification et la régression. L'objectif est de créer un modèle qui prédit la
valeur d'une variable cible en apprenant des règles de décision simples déduites des
caractéristiques des données. Un arbre peut être vu comme une approximation constante par
morceaux
Algorithme des K plus proches voisins (KNN) : c'est un type d'apprentissage basé
sur les instances donc c’est un 'apprentissages non généralisant : il ne tente pas de
construire un modèle interne général, mais stocke simplement des instances des données
d'apprentissage. La classification est calculée à partir d'un simple “vote” à la majorité des
voisins les plus proches de chaque point : un point de requête se voit attribuer la classe de
données qui a le plus de représentants parmi les voisins les plus proches du point.
Evaluation
des modèles
• Pour l’évaluation du
modèle ainsi que
l’adéquation des
algorithmes à notre jeu de
données, j’ai choisi
plusieurs metrics.
22
Validation
croisée
24
Tableau des différents évaluateurs pour les algorithmes utilisés
25
Bernoulli Naïve Bayesian Gaussian Naïve Bayesien Tree Decision
KNN
(k= 5 sans PCA et k=4 avec PCA)
Sans PCA Avec PCA Sans PCA Avec PCA Sans PCA Avec PCA Sans PCA Avec PCA
Mal labelisés 839 560 842 816 836 2 836 850
Validation
croisée (Sd)
0.01
0.53 accuracy 0.02
0.01 0.02 0.01 0.02 0.01 0.02
Précision 24.27 49.458 24 26,35 25.45 99.8 24,54 23,28
Erreur
quadratique
moyenne
1.46 0.5 1.56 1.6 2.4 0.001 2.59 2.7
Recall
[0 , 0 , 1 , 0]
array([0.81, 0.18,
0.61, 0.39)
[0.02, 0.01, 0.94,
0.01])
[0.13, 0. ,
0.79, 0.14])
[0.31, 0.14, 0.32,
0.24] [1, 0.99, 1, 0.99]
[0.38, 0.16, 0.31 ,
0.13]
[0.35, 0.16, 0.32, 0.11
]
F1-score [0 , 0 , 0.39, 0]
[0.6, 0.27, 0.5,
0.45]
[0.04, 0.02, 0.38,
0.019]
[0.2, 0. , 0.36,
0.2]
0.31, 0.14, 0.32,
0.24] [1, 0.99, 0.99, 0.99]
[0.29, 0.21, 0.27,
0.17]
[0.27, 0.19, 0.27,
0.14]
Evaluation
● Le modèle Gaussian Naïve Bayesien n’est plus valable non plus après cette discrétisation vu qu’il est un modèle
qui suit une distribution normale guassienne et prend en charge les données continues, j’ai pu l’utiliser avant
discrétisation, avec une étape de normalisation de mes données bien que la distribution normale ne semble être
celle de notre classe
26
•Bien décrire l’état de patient ou plus précisément le stade réel de l’infection est fonction de plusieurs paramètres qui sont nos attributs
interdépendants sauf que l’algorithme Naive Bayes Classifier suppose l’indépendance des variables : C’est une hypothèse forte et qui est violée dans
la majorité des cas réels quoi dire si on parle d’un système biologique.
•Pour le KNN, je n’ai pas testé différentes valeurs de k parce que j’ai cherché déjà la meilleure valeur au départ.
•En appliquant l’algorithme KNN, j’ai utilisé en effet les paramètres par défauts, entre autres, la distance, qui est ici une distance
euclidienne comme le décrit ce passage extrait du site de SKLEARN
→ Alors que en fait, je traite des variables catégoriques ce qui rend l’utilisation du KNN tel qu’il est, non adéquat. Il
serait judicieux de l’utiliser en implémentant la distance de Levenshtein
→ Je retiens alors l’algorithme de l’arbre de décision et je l’enregistre pour utilisation ultérieure
27
28
29
Apprentissage non supervisé sur le
jeu de données du VHC:
Pour essayer un algorithme d’apprentissage
non supervisé, j’ai décidé d’éliminer la classe
(le label) et de faire un apprentissage non
supervisé sur le jeu de données du VHC.
Puisque je traite des données catégoriques
après l’étape de préparation, j’ai utilisé la
méthode de partitionnement K-MODE.
L’algorithme commenté est
disponible sur le lien suivant:
https://gist.github.com/mariem34/2f8
452fcf8cb5af8d0d0392bb04dcdfc
Merci pour votre attention
30
Let's try it.!

Contenu connexe

Dernier

Deuxième actualisation estimation élections européennes 2024
Deuxième actualisation estimation élections européennes 2024Deuxième actualisation estimation élections européennes 2024
Deuxième actualisation estimation élections européennes 2024
contact Elabe
 
Actualisation estimation élections européennes 2024
Actualisation estimation élections européennes 2024Actualisation estimation élections européennes 2024
Actualisation estimation élections européennes 2024
contact Elabe
 
Les Français et les élections législatives
Les Français et les élections législativesLes Français et les élections législatives
Les Français et les élections législatives
contact Elabe
 
Productivité et politique industrielles: deux défis à relever conjointement
Productivité et politique industrielles: deux défis à relever conjointementProductivité et politique industrielles: deux défis à relever conjointement
Productivité et politique industrielles: deux défis à relever conjointement
La Fabrique de l'industrie
 
Estimations ELABE BFMTV ABSTENTION élections européennes 2024
Estimations ELABE BFMTV ABSTENTION élections européennes 2024Estimations ELABE BFMTV ABSTENTION élections européennes 2024
Estimations ELABE BFMTV ABSTENTION élections européennes 2024
contact Elabe
 
Comprendre le vote aux élections européennes du 9 juin 2024
Comprendre le vote aux élections européennes du 9 juin 2024Comprendre le vote aux élections européennes du 9 juin 2024
Comprendre le vote aux élections européennes du 9 juin 2024
contact Elabe
 
Estimation élections européennes 2024 ELABE
Estimation élections européennes 2024 ELABEEstimation élections européennes 2024 ELABE
Estimation élections européennes 2024 ELABE
contact Elabe
 
Webinaire_les aides aux investissements.pptx
Webinaire_les aides aux investissements.pptxWebinaire_les aides aux investissements.pptx
Webinaire_les aides aux investissements.pptx
Institut de l'Elevage - Idele
 
Webinaire Qui sont les jeunes installés avec un bac +5 ?
Webinaire Qui sont les jeunes installés avec un bac +5 ?Webinaire Qui sont les jeunes installés avec un bac +5 ?
Webinaire Qui sont les jeunes installés avec un bac +5 ?
Institut de l'Elevage - Idele
 
Les Français et les élections européennes - 9ème vague
Les Français et les élections européennes - 9ème vagueLes Français et les élections européennes - 9ème vague
Les Français et les élections européennes - 9ème vague
contact Elabe
 
Etat de l’opinion - Journée CCR CAT « Protégeons l’assurabilité »
Etat de l’opinion - Journée CCR CAT « Protégeons l’assurabilité »Etat de l’opinion - Journée CCR CAT « Protégeons l’assurabilité »
Etat de l’opinion - Journée CCR CAT « Protégeons l’assurabilité »
contact Elabe
 

Dernier (11)

Deuxième actualisation estimation élections européennes 2024
Deuxième actualisation estimation élections européennes 2024Deuxième actualisation estimation élections européennes 2024
Deuxième actualisation estimation élections européennes 2024
 
Actualisation estimation élections européennes 2024
Actualisation estimation élections européennes 2024Actualisation estimation élections européennes 2024
Actualisation estimation élections européennes 2024
 
Les Français et les élections législatives
Les Français et les élections législativesLes Français et les élections législatives
Les Français et les élections législatives
 
Productivité et politique industrielles: deux défis à relever conjointement
Productivité et politique industrielles: deux défis à relever conjointementProductivité et politique industrielles: deux défis à relever conjointement
Productivité et politique industrielles: deux défis à relever conjointement
 
Estimations ELABE BFMTV ABSTENTION élections européennes 2024
Estimations ELABE BFMTV ABSTENTION élections européennes 2024Estimations ELABE BFMTV ABSTENTION élections européennes 2024
Estimations ELABE BFMTV ABSTENTION élections européennes 2024
 
Comprendre le vote aux élections européennes du 9 juin 2024
Comprendre le vote aux élections européennes du 9 juin 2024Comprendre le vote aux élections européennes du 9 juin 2024
Comprendre le vote aux élections européennes du 9 juin 2024
 
Estimation élections européennes 2024 ELABE
Estimation élections européennes 2024 ELABEEstimation élections européennes 2024 ELABE
Estimation élections européennes 2024 ELABE
 
Webinaire_les aides aux investissements.pptx
Webinaire_les aides aux investissements.pptxWebinaire_les aides aux investissements.pptx
Webinaire_les aides aux investissements.pptx
 
Webinaire Qui sont les jeunes installés avec un bac +5 ?
Webinaire Qui sont les jeunes installés avec un bac +5 ?Webinaire Qui sont les jeunes installés avec un bac +5 ?
Webinaire Qui sont les jeunes installés avec un bac +5 ?
 
Les Français et les élections européennes - 9ème vague
Les Français et les élections européennes - 9ème vagueLes Français et les élections européennes - 9ème vague
Les Français et les élections européennes - 9ème vague
 
Etat de l’opinion - Journée CCR CAT « Protégeons l’assurabilité »
Etat de l’opinion - Journée CCR CAT « Protégeons l’assurabilité »Etat de l’opinion - Journée CCR CAT « Protégeons l’assurabilité »
Etat de l’opinion - Journée CCR CAT « Protégeons l’assurabilité »
 

En vedette

2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by Hubspot2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by Hubspot
Marius Sescu
 
Everything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPTEverything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPT
Expeed Software
 
Product Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage EngineeringsProduct Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage Engineerings
Pixeldarts
 
How Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthHow Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental Health
ThinkNow
 
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfAI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
marketingartwork
 
Skeleton Culture Code
Skeleton Culture CodeSkeleton Culture Code
Skeleton Culture Code
Skeleton Technologies
 
PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024
Neil Kimberley
 
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)
contently
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024
Albert Qian
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie Insights
Kurio // The Social Media Age(ncy)
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024
Search Engine Journal
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary
SpeakerHub
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd
Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next
Tessa Mero
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Lily Ray
 
How to have difficult conversations
How to have difficult conversations How to have difficult conversations
How to have difficult conversations
Rajiv Jayarajah, MAppComm, ACC
 
Introduction to Data Science
Introduction to Data ScienceIntroduction to Data Science
Introduction to Data Science
Christy Abraham Joy
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best Practices
Vit Horky
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project management
MindGenius
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
RachelPearson36
 

En vedette (20)

2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by Hubspot2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by Hubspot
 
Everything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPTEverything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPT
 
Product Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage EngineeringsProduct Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage Engineerings
 
How Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthHow Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental Health
 
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfAI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
 
Skeleton Culture Code
Skeleton Culture CodeSkeleton Culture Code
Skeleton Culture Code
 
PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024
 
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie Insights
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search Intent
 
How to have difficult conversations
How to have difficult conversations How to have difficult conversations
How to have difficult conversations
 
Introduction to Data Science
Introduction to Data ScienceIntroduction to Data Science
Introduction to Data Science
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best Practices
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project management
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
 

Stadification de l'infection au VHC

  • 1. Etablissement d’un modèle d’apprentissage supervisé Stadification de l’infection au VHC Mariem Khalfaoui M2 Bioinformatique-Bio Data Analytics 2021-2022
  • 2. 5 Récolte de données 4 3 2 1 Réconciliation des données Ingénierie des caractéristiques Génération du modèle Apprentissage non supervisé Plan 2
  • 3. Introduction 3 à 4 millions de nouveaux cas chaque année Virus à ARN: un des principaux agents pathogènes humains transmis par le sang Infection:Peu de symptômes visibles Forme aigüe peut s'aggraver
  • 4. 4
  • 5. Biopsie • Invasive/douleureuse • Erreur atteint les 20% Marqueurs bichimiques • Sériques: cas de soupçon Génotypage • Coûteux
  • 6. Les marqueurs biochimiques sériques les plus courants: • l'Aspartate aminotransférase (AST) • l'alanine aminotransférase (ALT) • Le stade chronique de l'hépatite C peut être identifié avec les niveaux détectables d'ARN du VHC à 12 semaines --> La surveillance du traitement contre le VHC peut être suivie par l'examen des taux d'ARN du VHC. 6 Récolte des données
  • 7. Les symptômes les plus courants : ●Nausées ●Réduction de l’appétit ●Perte de poids ●Perte de masse musculaire ●Fatigue et faiblesse ●Douleurs abdominales ●Accumulation de liquide dans les chevilles ou dans l’abdomen (ascite) ●La jaunisse ●Démangeaisons ●Mauvaise coagulation du sang (ecchymoses) ●Troubles du sommeil ●Excitabilité 7
  • 8. 8 Source des données • Le référentiel d'apprentissage automatique de l'UCI Type • Multivariées, multiclasses Contenu • 1385 instances avec 28 attributs et une classe Stadification histologique de base • 1 = Fibrose portale sans septa • 2 = Quelques septa • 3 = Beaucoup de septa sans cirrhose • 4 = Cirrhose L'ensemble de données concerne les patients égyptiens qui ont subi des doses de traitement pour le VHC pendant environ 18 mois. L'objectif est de prédire l'état du patient, par étapes, en fonction des mesures disponibles.
  • 11. Réconciliation des données (Data Wrangling) DATA.HEAD() DATA.SHAPE DATA.COLUMNS DATA.DESCRIBE() data.head() data.shape data.columns data.describe()
  • 13. Vérification de la distribution des différentes valeurs de la classe
  • 14. Des valeurs nulles à s’en débarrasser ou remplir ? 14
  • 15. Observer les corrélations J’ai remarqué que ALT 12 présente peu de corrélation avec la classe (corr=0,00008) donc j’ai décidé de l’éliminer dès le début et je garde les autres attributs en corrélation négatives ou positives (classe et attribut évoluent de façon proportionnelle ou inversement proportionnelle) 15
  • 16. Transformation des données • Les valeurs des attributs quantitatifs sont continues donc je procède à leur discrétisation par choix d’intervalles. • D’autres attributs, sont de type entier, discrètes sont qualitatives donc ne doivent pas changer lors de la prédiction, je dois les discrétiser par changement du leurs type en « category » (type du frame Pandas). 16
  • 17. L’ingénierie des caractéristiques (Features Engineering) Analyse en composantes principales (PCA) Objectif : maximiser la variance Le but d'une analyse en composantes principales est de trouver une nouvelle base orthonormée dans laquelle représenter nos données, telle que la variance des données selon ces nouveaux axes soit maximisée. Pour implémenter une ACP, d’abord j’ai éliminé les attributs non discrétisés 17 Analyse en 8 composantes
  • 18. Choix de nombre de CP à considérer
  • 19. Génération d'un tableau avec les PC 19 12 composantes
  • 20. Génération de modèles d’apprentissage automatique: Répartition des données 20
  • 21. Choix de l’algorithme ● 2 algorithmes basé du “Naive Bayes” qui est un groupe d'algorithmes de classification d'apprentissage automatique supervisés basés sur le théorème de Bayes. Il s'agit d'une technique de classification simple, mais dotée d'une fonctionnalité élevée. Ils trouvent leur utilité lorsque la dimensionnalité des entrées est élevée ○ Gaussian Naive Bayes qui est une variante de Naive Bayes qui suit la distribution normale gaussienne et prend en charge les données continues ○ Bernoulli Naive Bayes qui est utilisé pour les données discrètes et cela fonctionne sur la distribution de Bernoulli 21 •Arbre de décision (Decision Tree): une méthode d'apprentissage supervisé non paramétrique utilisée pour la classification et la régression. L'objectif est de créer un modèle qui prédit la valeur d'une variable cible en apprenant des règles de décision simples déduites des caractéristiques des données. Un arbre peut être vu comme une approximation constante par morceaux Algorithme des K plus proches voisins (KNN) : c'est un type d'apprentissage basé sur les instances donc c’est un 'apprentissages non généralisant : il ne tente pas de construire un modèle interne général, mais stocke simplement des instances des données d'apprentissage. La classification est calculée à partir d'un simple “vote” à la majorité des voisins les plus proches de chaque point : un point de requête se voit attribuer la classe de données qui a le plus de représentants parmi les voisins les plus proches du point.
  • 22. Evaluation des modèles • Pour l’évaluation du modèle ainsi que l’adéquation des algorithmes à notre jeu de données, j’ai choisi plusieurs metrics. 22
  • 24. 24
  • 25. Tableau des différents évaluateurs pour les algorithmes utilisés 25 Bernoulli Naïve Bayesian Gaussian Naïve Bayesien Tree Decision KNN (k= 5 sans PCA et k=4 avec PCA) Sans PCA Avec PCA Sans PCA Avec PCA Sans PCA Avec PCA Sans PCA Avec PCA Mal labelisés 839 560 842 816 836 2 836 850 Validation croisée (Sd) 0.01 0.53 accuracy 0.02 0.01 0.02 0.01 0.02 0.01 0.02 Précision 24.27 49.458 24 26,35 25.45 99.8 24,54 23,28 Erreur quadratique moyenne 1.46 0.5 1.56 1.6 2.4 0.001 2.59 2.7 Recall [0 , 0 , 1 , 0] array([0.81, 0.18, 0.61, 0.39) [0.02, 0.01, 0.94, 0.01]) [0.13, 0. , 0.79, 0.14]) [0.31, 0.14, 0.32, 0.24] [1, 0.99, 1, 0.99] [0.38, 0.16, 0.31 , 0.13] [0.35, 0.16, 0.32, 0.11 ] F1-score [0 , 0 , 0.39, 0] [0.6, 0.27, 0.5, 0.45] [0.04, 0.02, 0.38, 0.019] [0.2, 0. , 0.36, 0.2] 0.31, 0.14, 0.32, 0.24] [1, 0.99, 0.99, 0.99] [0.29, 0.21, 0.27, 0.17] [0.27, 0.19, 0.27, 0.14]
  • 26. Evaluation ● Le modèle Gaussian Naïve Bayesien n’est plus valable non plus après cette discrétisation vu qu’il est un modèle qui suit une distribution normale guassienne et prend en charge les données continues, j’ai pu l’utiliser avant discrétisation, avec une étape de normalisation de mes données bien que la distribution normale ne semble être celle de notre classe 26 •Bien décrire l’état de patient ou plus précisément le stade réel de l’infection est fonction de plusieurs paramètres qui sont nos attributs interdépendants sauf que l’algorithme Naive Bayes Classifier suppose l’indépendance des variables : C’est une hypothèse forte et qui est violée dans la majorité des cas réels quoi dire si on parle d’un système biologique. •Pour le KNN, je n’ai pas testé différentes valeurs de k parce que j’ai cherché déjà la meilleure valeur au départ. •En appliquant l’algorithme KNN, j’ai utilisé en effet les paramètres par défauts, entre autres, la distance, qui est ici une distance euclidienne comme le décrit ce passage extrait du site de SKLEARN
  • 27. → Alors que en fait, je traite des variables catégoriques ce qui rend l’utilisation du KNN tel qu’il est, non adéquat. Il serait judicieux de l’utiliser en implémentant la distance de Levenshtein → Je retiens alors l’algorithme de l’arbre de décision et je l’enregistre pour utilisation ultérieure 27
  • 28. 28
  • 29. 29 Apprentissage non supervisé sur le jeu de données du VHC: Pour essayer un algorithme d’apprentissage non supervisé, j’ai décidé d’éliminer la classe (le label) et de faire un apprentissage non supervisé sur le jeu de données du VHC. Puisque je traite des données catégoriques après l’étape de préparation, j’ai utilisé la méthode de partitionnement K-MODE. L’algorithme commenté est disponible sur le lien suivant: https://gist.github.com/mariem34/2f8 452fcf8cb5af8d0d0392bb04dcdfc
  • 30. Merci pour votre attention 30 Let's try it.!