SlideShare une entreprise Scribd logo
1  sur  14
Télécharger pour lire hors ligne
Lutte contre les commentaires
abusifs
Soufiane Ghenimi
Djalel Meftouh
1
Contexte
Racisme
Insultes
Menaces
2
Constructif :)
Féminisme
...
Résultat
3
98%
Données
Data : ~160 K lignes
Une seule variable explicative: les commentaires
Variable cibles: 6 catégorie de toxicité
toxic, severe_toxic, obscene, threat, insult, identity_hate
4
Commentaires wikipedia (by jigsaw + google) Conversation AI
Process
5
Analyse
6
80 % non abusif
Dataset déséquilibré
20 % abusif
Analyse
7
ANALYSE
8
Machine learning supervisé
9
Problème de classification
Comments. labellisées
toxic / non toxic
Commentaires
non labellisées
Toxic /
non toxic
Natural Language Processing
10
Stop words
Ponctuation
Stemming / Lemmatisation
term frequecy : tf
N-gram
inverse term frequency : idf
pre processing
Classification
11
1 seule variable explicative ==> (NLP) 20000 variables
Algorithme : Logistic Regression + cross validation
1 seule variable cible parmi les 6
LR x 6 fois
Evaluation
12
La moyenne des scores des 6 LR = 98%
Merci !
des questions ?
13
Mesure d’erreur
14

Contenu connexe

Plus de Jedha Bootcamp

Estimer les prix de vente sur une marketplace - Fabien Herry & Marc De Forzanz
Estimer les prix de vente sur une marketplace - Fabien Herry & Marc De ForzanzEstimer les prix de vente sur une marketplace - Fabien Herry & Marc De Forzanz
Estimer les prix de vente sur une marketplace - Fabien Herry & Marc De ForzanzJedha Bootcamp
 
Trouver des offres d'emploi grâce au traitement de texte - Mohamed Zebli
Trouver des offres d'emploi grâce au traitement de texte - Mohamed ZebliTrouver des offres d'emploi grâce au traitement de texte - Mohamed Zebli
Trouver des offres d'emploi grâce au traitement de texte - Mohamed ZebliJedha Bootcamp
 
Optimiser sa stratégie de paris sportifs : le cas du football - Mohamed Zebli
Optimiser sa stratégie de paris sportifs : le cas du football - Mohamed ZebliOptimiser sa stratégie de paris sportifs : le cas du football - Mohamed Zebli
Optimiser sa stratégie de paris sportifs : le cas du football - Mohamed ZebliJedha Bootcamp
 
Reconnaître du mobilier design sur une photographie - Emmanuelle Guyot
Reconnaître du mobilier design sur une photographie - Emmanuelle GuyotReconnaître du mobilier design sur une photographie - Emmanuelle Guyot
Reconnaître du mobilier design sur une photographie - Emmanuelle GuyotJedha Bootcamp
 
Estimer le prix de bijou lors d'une vente aux enchères - Katie Ross
Estimer le prix de bijou lors d'une vente aux enchères - Katie RossEstimer le prix de bijou lors d'une vente aux enchères - Katie Ross
Estimer le prix de bijou lors d'une vente aux enchères - Katie RossJedha Bootcamp
 
Workshop Data Visualisation - Jedha Paris
Workshop Data Visualisation - Jedha ParisWorkshop Data Visualisation - Jedha Paris
Workshop Data Visualisation - Jedha ParisJedha Bootcamp
 
Les applications du Deep Learning - Jedha Lyon
Les applications du Deep Learning - Jedha LyonLes applications du Deep Learning - Jedha Lyon
Les applications du Deep Learning - Jedha LyonJedha Bootcamp
 
Optimiser ses publicités grâce à la Data Science
Optimiser ses publicités grâce à la Data ScienceOptimiser ses publicités grâce à la Data Science
Optimiser ses publicités grâce à la Data ScienceJedha Bootcamp
 
Connaître son audience grâce à la Data - Parisa MAjlessi
Connaître son audience grâce à la Data - Parisa MAjlessiConnaître son audience grâce à la Data - Parisa MAjlessi
Connaître son audience grâce à la Data - Parisa MAjlessiJedha Bootcamp
 
ONU : baisser la mortalité infantile en optimisant les interventions - Antoin...
ONU : baisser la mortalité infantile en optimisant les interventions - Antoin...ONU : baisser la mortalité infantile en optimisant les interventions - Antoin...
ONU : baisser la mortalité infantile en optimisant les interventions - Antoin...Jedha Bootcamp
 
Automatiser la classification d'un jeu vidéo
Automatiser la classification d'un jeu vidéoAutomatiser la classification d'un jeu vidéo
Automatiser la classification d'un jeu vidéoJedha Bootcamp
 
Reconnaître automatiquement les positions de Yoga - Marine Gubler, programme ...
Reconnaître automatiquement les positions de Yoga - Marine Gubler, programme ...Reconnaître automatiquement les positions de Yoga - Marine Gubler, programme ...
Reconnaître automatiquement les positions de Yoga - Marine Gubler, programme ...Jedha Bootcamp
 
2019 : les news du RGPD - Méghane Duval, Juriste-conseil @ KaOra Partners
2019 : les news du RGPD - Méghane Duval, Juriste-conseil @ KaOra Partners2019 : les news du RGPD - Méghane Duval, Juriste-conseil @ KaOra Partners
2019 : les news du RGPD - Méghane Duval, Juriste-conseil @ KaOra PartnersJedha Bootcamp
 
Prédire les ventes d'un hôtel grâce à la Data Science
Prédire les ventes d'un hôtel grâce à la Data SciencePrédire les ventes d'un hôtel grâce à la Data Science
Prédire les ventes d'un hôtel grâce à la Data ScienceJedha Bootcamp
 
Le Groupe PSA - Déterminer le renouvellement d'un client
Le Groupe PSA - Déterminer le renouvellement d'un clientLe Groupe PSA - Déterminer le renouvellement d'un client
Le Groupe PSA - Déterminer le renouvellement d'un clientJedha Bootcamp
 
Prédire le taux de churn grâce à la Data Science
Prédire le taux de churn grâce à la Data SciencePrédire le taux de churn grâce à la Data Science
Prédire le taux de churn grâce à la Data ScienceJedha Bootcamp
 
Prédire les retards d'avions avec la Data Science
Prédire les retards d'avions avec la Data SciencePrédire les retards d'avions avec la Data Science
Prédire les retards d'avions avec la Data ScienceJedha Bootcamp
 
Quelles start-ups recommander aux grands groupes ?
Quelles start-ups recommander aux grands groupes ?Quelles start-ups recommander aux grands groupes ?
Quelles start-ups recommander aux grands groupes ?Jedha Bootcamp
 
Starbucks Coffee - Déterminer l'emplacement idéal d'un entrepôt
Starbucks Coffee - Déterminer l'emplacement idéal d'un entrepôtStarbucks Coffee - Déterminer l'emplacement idéal d'un entrepôt
Starbucks Coffee - Déterminer l'emplacement idéal d'un entrepôtJedha Bootcamp
 
Design & Data : Optimiser grâce à l'A/B TEST - Romain, Data Scientist
Design & Data : Optimiser grâce à l'A/B TEST - Romain, Data ScientistDesign & Data : Optimiser grâce à l'A/B TEST - Romain, Data Scientist
Design & Data : Optimiser grâce à l'A/B TEST - Romain, Data ScientistJedha Bootcamp
 

Plus de Jedha Bootcamp (20)

Estimer les prix de vente sur une marketplace - Fabien Herry & Marc De Forzanz
Estimer les prix de vente sur une marketplace - Fabien Herry & Marc De ForzanzEstimer les prix de vente sur une marketplace - Fabien Herry & Marc De Forzanz
Estimer les prix de vente sur une marketplace - Fabien Herry & Marc De Forzanz
 
Trouver des offres d'emploi grâce au traitement de texte - Mohamed Zebli
Trouver des offres d'emploi grâce au traitement de texte - Mohamed ZebliTrouver des offres d'emploi grâce au traitement de texte - Mohamed Zebli
Trouver des offres d'emploi grâce au traitement de texte - Mohamed Zebli
 
Optimiser sa stratégie de paris sportifs : le cas du football - Mohamed Zebli
Optimiser sa stratégie de paris sportifs : le cas du football - Mohamed ZebliOptimiser sa stratégie de paris sportifs : le cas du football - Mohamed Zebli
Optimiser sa stratégie de paris sportifs : le cas du football - Mohamed Zebli
 
Reconnaître du mobilier design sur une photographie - Emmanuelle Guyot
Reconnaître du mobilier design sur une photographie - Emmanuelle GuyotReconnaître du mobilier design sur une photographie - Emmanuelle Guyot
Reconnaître du mobilier design sur une photographie - Emmanuelle Guyot
 
Estimer le prix de bijou lors d'une vente aux enchères - Katie Ross
Estimer le prix de bijou lors d'une vente aux enchères - Katie RossEstimer le prix de bijou lors d'une vente aux enchères - Katie Ross
Estimer le prix de bijou lors d'une vente aux enchères - Katie Ross
 
Workshop Data Visualisation - Jedha Paris
Workshop Data Visualisation - Jedha ParisWorkshop Data Visualisation - Jedha Paris
Workshop Data Visualisation - Jedha Paris
 
Les applications du Deep Learning - Jedha Lyon
Les applications du Deep Learning - Jedha LyonLes applications du Deep Learning - Jedha Lyon
Les applications du Deep Learning - Jedha Lyon
 
Optimiser ses publicités grâce à la Data Science
Optimiser ses publicités grâce à la Data ScienceOptimiser ses publicités grâce à la Data Science
Optimiser ses publicités grâce à la Data Science
 
Connaître son audience grâce à la Data - Parisa MAjlessi
Connaître son audience grâce à la Data - Parisa MAjlessiConnaître son audience grâce à la Data - Parisa MAjlessi
Connaître son audience grâce à la Data - Parisa MAjlessi
 
ONU : baisser la mortalité infantile en optimisant les interventions - Antoin...
ONU : baisser la mortalité infantile en optimisant les interventions - Antoin...ONU : baisser la mortalité infantile en optimisant les interventions - Antoin...
ONU : baisser la mortalité infantile en optimisant les interventions - Antoin...
 
Automatiser la classification d'un jeu vidéo
Automatiser la classification d'un jeu vidéoAutomatiser la classification d'un jeu vidéo
Automatiser la classification d'un jeu vidéo
 
Reconnaître automatiquement les positions de Yoga - Marine Gubler, programme ...
Reconnaître automatiquement les positions de Yoga - Marine Gubler, programme ...Reconnaître automatiquement les positions de Yoga - Marine Gubler, programme ...
Reconnaître automatiquement les positions de Yoga - Marine Gubler, programme ...
 
2019 : les news du RGPD - Méghane Duval, Juriste-conseil @ KaOra Partners
2019 : les news du RGPD - Méghane Duval, Juriste-conseil @ KaOra Partners2019 : les news du RGPD - Méghane Duval, Juriste-conseil @ KaOra Partners
2019 : les news du RGPD - Méghane Duval, Juriste-conseil @ KaOra Partners
 
Prédire les ventes d'un hôtel grâce à la Data Science
Prédire les ventes d'un hôtel grâce à la Data SciencePrédire les ventes d'un hôtel grâce à la Data Science
Prédire les ventes d'un hôtel grâce à la Data Science
 
Le Groupe PSA - Déterminer le renouvellement d'un client
Le Groupe PSA - Déterminer le renouvellement d'un clientLe Groupe PSA - Déterminer le renouvellement d'un client
Le Groupe PSA - Déterminer le renouvellement d'un client
 
Prédire le taux de churn grâce à la Data Science
Prédire le taux de churn grâce à la Data SciencePrédire le taux de churn grâce à la Data Science
Prédire le taux de churn grâce à la Data Science
 
Prédire les retards d'avions avec la Data Science
Prédire les retards d'avions avec la Data SciencePrédire les retards d'avions avec la Data Science
Prédire les retards d'avions avec la Data Science
 
Quelles start-ups recommander aux grands groupes ?
Quelles start-ups recommander aux grands groupes ?Quelles start-ups recommander aux grands groupes ?
Quelles start-ups recommander aux grands groupes ?
 
Starbucks Coffee - Déterminer l'emplacement idéal d'un entrepôt
Starbucks Coffee - Déterminer l'emplacement idéal d'un entrepôtStarbucks Coffee - Déterminer l'emplacement idéal d'un entrepôt
Starbucks Coffee - Déterminer l'emplacement idéal d'un entrepôt
 
Design & Data : Optimiser grâce à l'A/B TEST - Romain, Data Scientist
Design & Data : Optimiser grâce à l'A/B TEST - Romain, Data ScientistDesign & Data : Optimiser grâce à l'A/B TEST - Romain, Data Scientist
Design & Data : Optimiser grâce à l'A/B TEST - Romain, Data Scientist
 

Lutter contre les commentaires abusifs grâce au NLP - Soufiane Ghenimi & Djalel Meftouh