SlideShare une entreprise Scribd logo
Lutte contre les commentaires
abusifs
Soufiane Ghenimi
Djalel Meftouh
1
Contexte
Racisme
Insultes
Menaces
2
Constructif :)
Féminisme
...
Résultat
3
98%
Données
Data : ~160 K lignes
Une seule variable explicative: les commentaires
Variable cibles: 6 catégorie de toxicité
toxic, severe_toxic, obscene, threat, insult, identity_hate
4
Commentaires wikipedia (by jigsaw + google) Conversation AI
Process
5
Analyse
6
80 % non abusif
Dataset déséquilibré
20 % abusif
Analyse
7
ANALYSE
8
Machine learning supervisé
9
Problème de classification
Comments. labellisées
toxic / non toxic
Commentaires
non labellisées
Toxic /
non toxic
Natural Language Processing
10
Stop words
Ponctuation
Stemming / Lemmatisation
term frequecy : tf
N-gram
inverse term frequency : idf
pre processing
Classification
11
1 seule variable explicative ==> (NLP) 20000 variables
Algorithme : Logistic Regression + cross validation
1 seule variable cible parmi les 6
LR x 6 fois
Evaluation
12
La moyenne des scores des 6 LR = 98%
Merci !
des questions ?
13
Mesure d’erreur
14

Contenu connexe

Plus de Jedha Bootcamp

Estimer les prix de vente sur une marketplace - Fabien Herry & Marc De Forzanz
Estimer les prix de vente sur une marketplace - Fabien Herry & Marc De ForzanzEstimer les prix de vente sur une marketplace - Fabien Herry & Marc De Forzanz
Estimer les prix de vente sur une marketplace - Fabien Herry & Marc De Forzanz
Jedha Bootcamp
 
Trouver des offres d'emploi grâce au traitement de texte - Mohamed Zebli
Trouver des offres d'emploi grâce au traitement de texte - Mohamed ZebliTrouver des offres d'emploi grâce au traitement de texte - Mohamed Zebli
Trouver des offres d'emploi grâce au traitement de texte - Mohamed Zebli
Jedha Bootcamp
 
Optimiser sa stratégie de paris sportifs : le cas du football - Mohamed Zebli
Optimiser sa stratégie de paris sportifs : le cas du football - Mohamed ZebliOptimiser sa stratégie de paris sportifs : le cas du football - Mohamed Zebli
Optimiser sa stratégie de paris sportifs : le cas du football - Mohamed Zebli
Jedha Bootcamp
 
Reconnaître du mobilier design sur une photographie - Emmanuelle Guyot
Reconnaître du mobilier design sur une photographie - Emmanuelle GuyotReconnaître du mobilier design sur une photographie - Emmanuelle Guyot
Reconnaître du mobilier design sur une photographie - Emmanuelle Guyot
Jedha Bootcamp
 
Estimer le prix de bijou lors d'une vente aux enchères - Katie Ross
Estimer le prix de bijou lors d'une vente aux enchères - Katie RossEstimer le prix de bijou lors d'une vente aux enchères - Katie Ross
Estimer le prix de bijou lors d'une vente aux enchères - Katie Ross
Jedha Bootcamp
 
Workshop Data Visualisation - Jedha Paris
Workshop Data Visualisation - Jedha ParisWorkshop Data Visualisation - Jedha Paris
Workshop Data Visualisation - Jedha Paris
Jedha Bootcamp
 
Les applications du Deep Learning - Jedha Lyon
Les applications du Deep Learning - Jedha LyonLes applications du Deep Learning - Jedha Lyon
Les applications du Deep Learning - Jedha Lyon
Jedha Bootcamp
 
Optimiser ses publicités grâce à la Data Science
Optimiser ses publicités grâce à la Data ScienceOptimiser ses publicités grâce à la Data Science
Optimiser ses publicités grâce à la Data Science
Jedha Bootcamp
 
Connaître son audience grâce à la Data - Parisa MAjlessi
Connaître son audience grâce à la Data - Parisa MAjlessiConnaître son audience grâce à la Data - Parisa MAjlessi
Connaître son audience grâce à la Data - Parisa MAjlessi
Jedha Bootcamp
 
ONU : baisser la mortalité infantile en optimisant les interventions - Antoin...
ONU : baisser la mortalité infantile en optimisant les interventions - Antoin...ONU : baisser la mortalité infantile en optimisant les interventions - Antoin...
ONU : baisser la mortalité infantile en optimisant les interventions - Antoin...
Jedha Bootcamp
 
Automatiser la classification d'un jeu vidéo
Automatiser la classification d'un jeu vidéoAutomatiser la classification d'un jeu vidéo
Automatiser la classification d'un jeu vidéo
Jedha Bootcamp
 
Reconnaître automatiquement les positions de Yoga - Marine Gubler, programme ...
Reconnaître automatiquement les positions de Yoga - Marine Gubler, programme ...Reconnaître automatiquement les positions de Yoga - Marine Gubler, programme ...
Reconnaître automatiquement les positions de Yoga - Marine Gubler, programme ...
Jedha Bootcamp
 
2019 : les news du RGPD - Méghane Duval, Juriste-conseil @ KaOra Partners
2019 : les news du RGPD - Méghane Duval, Juriste-conseil @ KaOra Partners2019 : les news du RGPD - Méghane Duval, Juriste-conseil @ KaOra Partners
2019 : les news du RGPD - Méghane Duval, Juriste-conseil @ KaOra Partners
Jedha Bootcamp
 
Prédire les ventes d'un hôtel grâce à la Data Science
Prédire les ventes d'un hôtel grâce à la Data SciencePrédire les ventes d'un hôtel grâce à la Data Science
Prédire les ventes d'un hôtel grâce à la Data Science
Jedha Bootcamp
 
Le Groupe PSA - Déterminer le renouvellement d'un client
Le Groupe PSA - Déterminer le renouvellement d'un clientLe Groupe PSA - Déterminer le renouvellement d'un client
Le Groupe PSA - Déterminer le renouvellement d'un client
Jedha Bootcamp
 
Prédire le taux de churn grâce à la Data Science
Prédire le taux de churn grâce à la Data SciencePrédire le taux de churn grâce à la Data Science
Prédire le taux de churn grâce à la Data Science
Jedha Bootcamp
 
Prédire les retards d'avions avec la Data Science
Prédire les retards d'avions avec la Data SciencePrédire les retards d'avions avec la Data Science
Prédire les retards d'avions avec la Data Science
Jedha Bootcamp
 
Quelles start-ups recommander aux grands groupes ?
Quelles start-ups recommander aux grands groupes ?Quelles start-ups recommander aux grands groupes ?
Quelles start-ups recommander aux grands groupes ?
Jedha Bootcamp
 
Starbucks Coffee - Déterminer l'emplacement idéal d'un entrepôt
Starbucks Coffee - Déterminer l'emplacement idéal d'un entrepôtStarbucks Coffee - Déterminer l'emplacement idéal d'un entrepôt
Starbucks Coffee - Déterminer l'emplacement idéal d'un entrepôt
Jedha Bootcamp
 
Design & Data : Optimiser grâce à l'A/B TEST - Romain, Data Scientist
Design & Data : Optimiser grâce à l'A/B TEST - Romain, Data ScientistDesign & Data : Optimiser grâce à l'A/B TEST - Romain, Data Scientist
Design & Data : Optimiser grâce à l'A/B TEST - Romain, Data Scientist
Jedha Bootcamp
 

Plus de Jedha Bootcamp (20)

Estimer les prix de vente sur une marketplace - Fabien Herry & Marc De Forzanz
Estimer les prix de vente sur une marketplace - Fabien Herry & Marc De ForzanzEstimer les prix de vente sur une marketplace - Fabien Herry & Marc De Forzanz
Estimer les prix de vente sur une marketplace - Fabien Herry & Marc De Forzanz
 
Trouver des offres d'emploi grâce au traitement de texte - Mohamed Zebli
Trouver des offres d'emploi grâce au traitement de texte - Mohamed ZebliTrouver des offres d'emploi grâce au traitement de texte - Mohamed Zebli
Trouver des offres d'emploi grâce au traitement de texte - Mohamed Zebli
 
Optimiser sa stratégie de paris sportifs : le cas du football - Mohamed Zebli
Optimiser sa stratégie de paris sportifs : le cas du football - Mohamed ZebliOptimiser sa stratégie de paris sportifs : le cas du football - Mohamed Zebli
Optimiser sa stratégie de paris sportifs : le cas du football - Mohamed Zebli
 
Reconnaître du mobilier design sur une photographie - Emmanuelle Guyot
Reconnaître du mobilier design sur une photographie - Emmanuelle GuyotReconnaître du mobilier design sur une photographie - Emmanuelle Guyot
Reconnaître du mobilier design sur une photographie - Emmanuelle Guyot
 
Estimer le prix de bijou lors d'une vente aux enchères - Katie Ross
Estimer le prix de bijou lors d'une vente aux enchères - Katie RossEstimer le prix de bijou lors d'une vente aux enchères - Katie Ross
Estimer le prix de bijou lors d'une vente aux enchères - Katie Ross
 
Workshop Data Visualisation - Jedha Paris
Workshop Data Visualisation - Jedha ParisWorkshop Data Visualisation - Jedha Paris
Workshop Data Visualisation - Jedha Paris
 
Les applications du Deep Learning - Jedha Lyon
Les applications du Deep Learning - Jedha LyonLes applications du Deep Learning - Jedha Lyon
Les applications du Deep Learning - Jedha Lyon
 
Optimiser ses publicités grâce à la Data Science
Optimiser ses publicités grâce à la Data ScienceOptimiser ses publicités grâce à la Data Science
Optimiser ses publicités grâce à la Data Science
 
Connaître son audience grâce à la Data - Parisa MAjlessi
Connaître son audience grâce à la Data - Parisa MAjlessiConnaître son audience grâce à la Data - Parisa MAjlessi
Connaître son audience grâce à la Data - Parisa MAjlessi
 
ONU : baisser la mortalité infantile en optimisant les interventions - Antoin...
ONU : baisser la mortalité infantile en optimisant les interventions - Antoin...ONU : baisser la mortalité infantile en optimisant les interventions - Antoin...
ONU : baisser la mortalité infantile en optimisant les interventions - Antoin...
 
Automatiser la classification d'un jeu vidéo
Automatiser la classification d'un jeu vidéoAutomatiser la classification d'un jeu vidéo
Automatiser la classification d'un jeu vidéo
 
Reconnaître automatiquement les positions de Yoga - Marine Gubler, programme ...
Reconnaître automatiquement les positions de Yoga - Marine Gubler, programme ...Reconnaître automatiquement les positions de Yoga - Marine Gubler, programme ...
Reconnaître automatiquement les positions de Yoga - Marine Gubler, programme ...
 
2019 : les news du RGPD - Méghane Duval, Juriste-conseil @ KaOra Partners
2019 : les news du RGPD - Méghane Duval, Juriste-conseil @ KaOra Partners2019 : les news du RGPD - Méghane Duval, Juriste-conseil @ KaOra Partners
2019 : les news du RGPD - Méghane Duval, Juriste-conseil @ KaOra Partners
 
Prédire les ventes d'un hôtel grâce à la Data Science
Prédire les ventes d'un hôtel grâce à la Data SciencePrédire les ventes d'un hôtel grâce à la Data Science
Prédire les ventes d'un hôtel grâce à la Data Science
 
Le Groupe PSA - Déterminer le renouvellement d'un client
Le Groupe PSA - Déterminer le renouvellement d'un clientLe Groupe PSA - Déterminer le renouvellement d'un client
Le Groupe PSA - Déterminer le renouvellement d'un client
 
Prédire le taux de churn grâce à la Data Science
Prédire le taux de churn grâce à la Data SciencePrédire le taux de churn grâce à la Data Science
Prédire le taux de churn grâce à la Data Science
 
Prédire les retards d'avions avec la Data Science
Prédire les retards d'avions avec la Data SciencePrédire les retards d'avions avec la Data Science
Prédire les retards d'avions avec la Data Science
 
Quelles start-ups recommander aux grands groupes ?
Quelles start-ups recommander aux grands groupes ?Quelles start-ups recommander aux grands groupes ?
Quelles start-ups recommander aux grands groupes ?
 
Starbucks Coffee - Déterminer l'emplacement idéal d'un entrepôt
Starbucks Coffee - Déterminer l'emplacement idéal d'un entrepôtStarbucks Coffee - Déterminer l'emplacement idéal d'un entrepôt
Starbucks Coffee - Déterminer l'emplacement idéal d'un entrepôt
 
Design & Data : Optimiser grâce à l'A/B TEST - Romain, Data Scientist
Design & Data : Optimiser grâce à l'A/B TEST - Romain, Data ScientistDesign & Data : Optimiser grâce à l'A/B TEST - Romain, Data Scientist
Design & Data : Optimiser grâce à l'A/B TEST - Romain, Data Scientist
 

Dernier

Ouvrez la porte ou prenez un mur (Agile Tour Genève 2024)
Ouvrez la porte ou prenez un mur (Agile Tour Genève 2024)Ouvrez la porte ou prenez un mur (Agile Tour Genève 2024)
Ouvrez la porte ou prenez un mur (Agile Tour Genève 2024)
Laurent Speyser
 
Le support de présentation des Signaux 2024
Le support de présentation des Signaux 2024Le support de présentation des Signaux 2024
Le support de présentation des Signaux 2024
UNITECBordeaux
 
OCTO TALKS : 4 Tech Trends du Software Engineering.pdf
OCTO TALKS : 4 Tech Trends du Software Engineering.pdfOCTO TALKS : 4 Tech Trends du Software Engineering.pdf
OCTO TALKS : 4 Tech Trends du Software Engineering.pdf
OCTO Technology
 
Le Comptoir OCTO - Qu’apporte l’analyse de cycle de vie lors d’un audit d’éco...
Le Comptoir OCTO - Qu’apporte l’analyse de cycle de vie lors d’un audit d’éco...Le Comptoir OCTO - Qu’apporte l’analyse de cycle de vie lors d’un audit d’éco...
Le Comptoir OCTO - Qu’apporte l’analyse de cycle de vie lors d’un audit d’éco...
OCTO Technology
 
De l'IA comme plagiat à la rédaction d'une « charte IA » à l'université
De l'IA comme plagiat à la rédaction d'une « charte IA » à l'universitéDe l'IA comme plagiat à la rédaction d'une « charte IA » à l'université
De l'IA comme plagiat à la rédaction d'une « charte IA » à l'université
Université de Franche-Comté
 
Le Comptoir OCTO - Équipes infra et prod, ne ratez pas l'embarquement pour l'...
Le Comptoir OCTO - Équipes infra et prod, ne ratez pas l'embarquement pour l'...Le Comptoir OCTO - Équipes infra et prod, ne ratez pas l'embarquement pour l'...
Le Comptoir OCTO - Équipes infra et prod, ne ratez pas l'embarquement pour l'...
OCTO Technology
 

Dernier (6)

Ouvrez la porte ou prenez un mur (Agile Tour Genève 2024)
Ouvrez la porte ou prenez un mur (Agile Tour Genève 2024)Ouvrez la porte ou prenez un mur (Agile Tour Genève 2024)
Ouvrez la porte ou prenez un mur (Agile Tour Genève 2024)
 
Le support de présentation des Signaux 2024
Le support de présentation des Signaux 2024Le support de présentation des Signaux 2024
Le support de présentation des Signaux 2024
 
OCTO TALKS : 4 Tech Trends du Software Engineering.pdf
OCTO TALKS : 4 Tech Trends du Software Engineering.pdfOCTO TALKS : 4 Tech Trends du Software Engineering.pdf
OCTO TALKS : 4 Tech Trends du Software Engineering.pdf
 
Le Comptoir OCTO - Qu’apporte l’analyse de cycle de vie lors d’un audit d’éco...
Le Comptoir OCTO - Qu’apporte l’analyse de cycle de vie lors d’un audit d’éco...Le Comptoir OCTO - Qu’apporte l’analyse de cycle de vie lors d’un audit d’éco...
Le Comptoir OCTO - Qu’apporte l’analyse de cycle de vie lors d’un audit d’éco...
 
De l'IA comme plagiat à la rédaction d'une « charte IA » à l'université
De l'IA comme plagiat à la rédaction d'une « charte IA » à l'universitéDe l'IA comme plagiat à la rédaction d'une « charte IA » à l'université
De l'IA comme plagiat à la rédaction d'une « charte IA » à l'université
 
Le Comptoir OCTO - Équipes infra et prod, ne ratez pas l'embarquement pour l'...
Le Comptoir OCTO - Équipes infra et prod, ne ratez pas l'embarquement pour l'...Le Comptoir OCTO - Équipes infra et prod, ne ratez pas l'embarquement pour l'...
Le Comptoir OCTO - Équipes infra et prod, ne ratez pas l'embarquement pour l'...
 

Lutter contre les commentaires abusifs grâce au NLP - Soufiane Ghenimi & Djalel Meftouh