SlideShare une entreprise Scribd logo
1  sur  24
Télécharger pour lire hors ligne
1
Novembre 2009
Présenté par: Mr Oumsalem Hassane
Étude des techniques
de classification et de filtrage automatique de Pourriels
Étude des techniques
de classification et de filtrage automatique de Pourriels
ÉÉÉÉcole Polytechnique de Montrcole Polytechnique de Montrcole Polytechnique de Montrcole Polytechnique de Montrééééalalalal
2
Plan
Introduction
Quelques définitions
Structure d’un courriel
Courriels indésirables (objectifs & exemples)
Techniques de filtrage automatique de pourriels
Quelques solutions de filtrage existantes
Perspectives
Conclusion
O. Hassane, 2009
3
Introduction
80% à 90% des messages échangés sur le Net sont des SPAM [1]
Le coût engendré par les Spam est estimé à ≈ 200 milliards $/an
(perte de productivité, coût de connexion, logiciel de détection, … etc).
Le Spam s’est diversifié, adapté, complexifié et devenu sophistiqué
Plusieurs travaux de lute contre les Spam ont été réalisés.
O. Hassane, 2009
4
Quelques définitions
Pourriel (Spam): Courrier électronique commercial non sollicité par
l'internaute qui le reçoit (courriels indésirables).
Pourrielleur (Spammer): désigne celui qui se livre aux spams.
Pollupostage (Spamming): pollution de boîtes aux lettres, pratiquée
par les pourrielleurs.
O. Hassane 2009
5
Objectifs
comprendre ce que c’est qu’un pourriel;
objectifs des pourriels;
étudier quelques techniques de filtrage automatique de
pourriels;
présenter quelques solutions existantes.
O. Hassane 2009
6
Filtrage d’informations
O. Hassane 2009
« Le filtrage est un processus qui consiste à extraire les
informations pertinentes et de qualité à partir d’une
imposante masse d’informations »
7
Structure d’un courriel
En-tête (header fields): comprend les champs: sujet, expéditeur,
destinataire, date d’envoi, serveur source, ... etc.
Le corps du massage : c’est le message en tant que tel: texte,
image, code html, …etc.
O. Hassane 2009
8
Objectifs du pourriel
O. Hassane
Répartition des pourriels par contenu sur le 1er semestre 2008 [1]
9
Exemple d’un pourriel
O. Hassane 2009
Exemple de pourriel publicitaire:
[Fig 1]
Exemple de pourriel de hameçonnage (phishing):
[Fig 2]
10
Techniques de filtrage automatique
O. Hassane, 2009
a. Techniques préventives: marquent les courriels pour distinguer les
courriels indésirables des courriels légitimes.
b. Techniques curatives: elles bloquent et même parfois elles renvoient
vers l'expéditeur les messages jugées indésirables.
Les techniques curatives a beaucoup d’inconvénients(surcharge du réseau,
…)
11
Techniques de filtrage automatique
O. Hassane 2009
a. Filtrage par mots clés;
b. Filtrage par expressions relationnelles (régulières);
c. Authentification de l’émetteur (test de Turing);
d. Filtrage par réseaux de neurones;
e. Filtrage Bayésien.
12
Techniques de filtrage automatique
O. Hassane 2009
a. Filtrage par mots clés:
définit des mots(*) comme interdits (viagra, diploma, winner, …);
Analyse le contenu (le message lui même), l’objet et l’adresse
courriel de l’expéditeur.
Si présence d’un mot faisant partie des mots interdits, alors le
message est considéré comme indésirable.
Inconvénients:
• Elle est très limitée;
• Elle engendre des probabilités d'erreur très élevées;
• Résistance très faible aux mots maquillés (exp: vi@gr@).
(*): les mots qui reviennent souvent dans les pourriels.
13
Techniques de filtrage automatique
O. Hassane 2009
b. Filtrage par expressions relationnelles (régulières)
Introduite pour pallier aux limites du filtrage par mots clés;
Elle s’appuie sur les expressions relationnelles (régulières);
Les expressions relationnelles permettent de trouver des variations de
mots jugés « sensibles » tel que le mot « viagra » Vs « viiaaagraa »;
L’expression relationnelle /^vi+a+gra+$/i permettra de retrouver le mot
« viiaaagraa ».
Inconvénients:
• Il est difficile de définir toutes les expressions relationnelles possibles;
• Il faut recenser tous les mots clés utilisés dans les pourriels, ce qui
rend la tache un peu délicate.
14
Techniques de filtrage automatique
O. Hassane 2009
d. Authentification de l’émetteur (test de Turing) [3]
basée sur l’authentification de l’émetteur, en lui posant une question à
laquelle seul un humain peut répondre;
le système peut envoyer un captcha(1) et lui demander de répondre à la
question (exp: recopier le texte écrit dans l’image).
L’utilisateur doit mettre en place une liste blanche pour les organismes qui
envoient des messages automatique (site administratifs, commerce en ligne, …).
La solution est radicale et efficace, elle est facile à mettre en place, mais
elle montre des limites dans certains cas.
Inconvénients:
• Difficile à maintenir (listes blanches)
• C’est laborieux et contraignant pour l’émetteur.
(1) Une image contenant des caractères suffisamment déformés et bruités
pour compliquer sérieusement la tâche aux OCR.
15
Techniques de filtrage automatique
O. Hassane 2009
e. Filtrage par réseaux de neurones [2]
Après apprentissage, ils permettent de produire une forme de
raisonnement humain.
L’apprentissage se fait d’une collection de courriels
préalablement triés par l’utilisateur;
Une fois l’apprentissage effectué, le réseau de neurone
fonctionne comme un système anti-spam classique très efficace
selon les cas les cas de figure.
Le risque de mauvaise classification est réel, mais peut être
contrôlé en jouant sur le seuil de sensibilité du réseau de
neurones [Fig 3]
16
Techniques de filtrage automatique
O. Hassane 2009
e. Filtrage par réseaux de neurones [2] (suite)
[Fig 3]: Réglage de seuil de sensibilité du réseau
de neurones
Inconvénients:
• nécessite un entraînement long;
• doit être régulièrement entraîné pour faire face aux nouvelles formes de spam.
17
Techniques de filtrage automatique
O. Hassane 2009
f. Filtrage Bayésien
utilise les réseaux bayesiens, elle s’appuie sur la classification
naïve bayesienne.
Associe des probabilités aux différents mots clés du message.
Il faut un temps d’apprentissage pour calculer ces probabilités.
Combine les probabilités obtenues selon le théorème de bayes
pour déterminer si un message est un Spam.
18
Techniques de filtrage automatique
O. Hassane 2009
f. Filtrage Bayésien (suite)
Permet d’obtenir un excellent taux de détection (>99%) [4][5]
Inconvénients:
Il est peu efficace lorsqu’il s’agit d’un nouveau mot clé Spam
Il faut un temps d’apprentissage pour déterminer les probabilités
Les polluposteurs utilisent des images pour déjouer ce filtre.
Exemple: DSpam, SamAssasin, SpamBayes, Bogofilter
19
Autres techniques
Filtrage par Bases collaboratives de spams: alimentées par les utilisateurs de
solutions antispam, ces bases de données contiennent des signatures de spams, de la même
manière que les bases de signatures de virus.
Filtrage par liste blanche: base de données des sites sûrs et certifiés, tous les messages
provenant de ces sites sont acceptés et considérés comme sûrs.
Filtrage par liste noire: bases de données abritant les listes de serveurs qui produisent,
aident, accueillent, ou retransmettent des spams.
Filtrage d’images: Les images sont utilisées par les spammeurs pour dissimuler les
messages et déjouer les filtres basés sur l’analyse contextuelle.
Cette technique analyse:
- le nombre d'images dans le message;
- la manières dont elles sont placées dans le message;
- générer une somme de contrôle sur l’image.
O. Hassane 2009
20
Quelques solutions existantes
O. Hassane 2009
Filtrage au niveau du PC : adopté par les clients e-mail (Thunderburd,
Outlook 2003), repose essentiellement sur les filtre bayésiennes.
exp: BogoFilter: licence GPL, gratuit, multi-plateforme, filtre bayesien.
Filtrage au niveau du serveur de messagerie: utilise un seul
logiciel contrairement à la solution du filtrage au niveau PC. La bande passante reste
encombrée, car le logiciel est installé en interne.
exp:SpamAssassin, SpamGuru
Filtrage au niveau de la passerelle d’internent: l’analyse
s’effectue en amont du serveur de messagerie, ce qui évite la surcharge du serveur de
messagerie. La bande passante reste encombrée.
Service de filtrage extérnalisé: filtrage au niveau du fournisseur d’accès
Internet (ISP). Avantage majeur, sa facilité de mise en œuvre et de gestion
21
Perspectives
O. Hassane 2009
de nouvelles techniques prometteuses basées sur:
a. Les algorithmes génétiques;
b. Algorithme de Data mining;
c. Le domaine de text mining pourrait ouvrir une vois dans la
grande famille des techniques de classification de courriels.
d. Hybridation de certaines techniques
22
Conclusion
O. Hassane 2009
c’est un domaine un peu complexe;
Les techniques de pollupostage évoluent aussi vite que les solutions proposées;
une avancée très remarquable dans le domaine de filtrage;
beaucoup de travaux ont été réalisés, et de techniques ont été proposées;’
Il n’est pas possible d’obtenir une classification automatique correcte à 100%;
Il serait, éventuellement, intéressant de combiner certaines techniques pour
former des méthodes hybrides plus puissantes.
23
Références
O. Hassane 2009
[1]: « Le SPAM », Sophie GASTELLIER-PREVOST : Enseignant-chercheur à
l'Institut Télécom, Télécom & Management SudParis.
[2] : Chris Miller. Neural network-based antispam heuristics. In Symantec, white paper,03
[3] : http://fr.wikipedia.org/wiki/Pourriel
[4]: P. Graham, A plan for spam, http://paulgraham.com/spam.html
[5]:P. Graham, Better Bayesian filtering, http://www.paulgraham.com/better.html
24
Questions.
O. Hassane 2009

Contenu connexe

En vedette

Cours thermodynamique
Cours thermodynamiqueCours thermodynamique
Cours thermodynamiqueMina Bk
 
Formulaire de thermodynamique
Formulaire de thermodynamiqueFormulaire de thermodynamique
Formulaire de thermodynamiqueCharles-Axel Dein
 
A travers l´image 1
A travers l´image 1A travers l´image 1
A travers l´image 1cinemadoc
 
Power mina sarah
Power mina sarahPower mina sarah
Power mina sarahMina Bk
 
Traitement d'images CCD avec PixInsight
Traitement d'images CCD avec PixInsightTraitement d'images CCD avec PixInsight
Traitement d'images CCD avec PixInsightDidier Walliang
 
Étude et résolution numérique de deux modèles basés sur des équations aux dér...
Étude et résolution numérique de deux modèles basés sur des équations aux dér...Étude et résolution numérique de deux modèles basés sur des équations aux dér...
Étude et résolution numérique de deux modèles basés sur des équations aux dér...Ayoub Boudlal
 
Projet efficacité-version-finale
Projet efficacité-version-finaleProjet efficacité-version-finale
Projet efficacité-version-finaleomar bllaouhamou
 
Cours photo filtre - collège pilote Tunisie
Cours photo filtre  - collège pilote TunisieCours photo filtre  - collège pilote Tunisie
Cours photo filtre - collège pilote TunisieTunisie collège
 
devoir traitement d'images
devoir traitement d'imagesdevoir traitement d'images
devoir traitement d'imagesomar bllaouhamou
 
Introduction au traitement d'images
Introduction au traitement d'imagesIntroduction au traitement d'images
Introduction au traitement d'imagesAbdelouahed Abdou
 
Traitement d'image
Traitement d'imageTraitement d'image
Traitement d'imageAnissa Teyeb
 
Les QCM : les réponses à toutes vos questions
Les QCM : les réponses à toutes vos questionsLes QCM : les réponses à toutes vos questions
Les QCM : les réponses à toutes vos questionsMarcel Lebrun
 
Cours Sciences des Matériaux 2010 2011
Cours Sciences des Matériaux 2010 2011Cours Sciences des Matériaux 2010 2011
Cours Sciences des Matériaux 2010 2011Ali Khalfallah
 
Traitement des images avec matlab
Traitement des images avec matlabTraitement des images avec matlab
Traitement des images avec matlabomar bllaouhamou
 
Cours : Internet - 7ème année de base
Cours : Internet - 7ème  année de baseCours : Internet - 7ème  année de base
Cours : Internet - 7ème année de baseTunisie collège
 
Cours : Traitement d'images - 7ème de base
Cours : Traitement d'images  - 7ème de baseCours : Traitement d'images  - 7ème de base
Cours : Traitement d'images - 7ème de baseTunisie collège
 

En vedette (20)

Cours thermodynamique
Cours thermodynamiqueCours thermodynamique
Cours thermodynamique
 
Formulaire de thermodynamique
Formulaire de thermodynamiqueFormulaire de thermodynamique
Formulaire de thermodynamique
 
A travers l´image 1
A travers l´image 1A travers l´image 1
A travers l´image 1
 
Power mina sarah
Power mina sarahPower mina sarah
Power mina sarah
 
Traitement d'images CCD avec PixInsight
Traitement d'images CCD avec PixInsightTraitement d'images CCD avec PixInsight
Traitement d'images CCD avec PixInsight
 
Étude et résolution numérique de deux modèles basés sur des équations aux dér...
Étude et résolution numérique de deux modèles basés sur des équations aux dér...Étude et résolution numérique de deux modèles basés sur des équations aux dér...
Étude et résolution numérique de deux modèles basés sur des équations aux dér...
 
Projet efficacité-version-finale
Projet efficacité-version-finaleProjet efficacité-version-finale
Projet efficacité-version-finale
 
Cours photo filtre - collège pilote Tunisie
Cours photo filtre  - collège pilote TunisieCours photo filtre  - collège pilote Tunisie
Cours photo filtre - collège pilote Tunisie
 
devoir traitement d'images
devoir traitement d'imagesdevoir traitement d'images
devoir traitement d'images
 
Introduction au traitement d'images
Introduction au traitement d'imagesIntroduction au traitement d'images
Introduction au traitement d'images
 
Traitement d'image
Traitement d'imageTraitement d'image
Traitement d'image
 
Formation traitement d_images
Formation traitement d_imagesFormation traitement d_images
Formation traitement d_images
 
Initiation à la retouche d’images.2012
Initiation à la retouche d’images.2012Initiation à la retouche d’images.2012
Initiation à la retouche d’images.2012
 
Les QCM : les réponses à toutes vos questions
Les QCM : les réponses à toutes vos questionsLes QCM : les réponses à toutes vos questions
Les QCM : les réponses à toutes vos questions
 
Atomistique
AtomistiqueAtomistique
Atomistique
 
Cours Sciences des Matériaux 2010 2011
Cours Sciences des Matériaux 2010 2011Cours Sciences des Matériaux 2010 2011
Cours Sciences des Matériaux 2010 2011
 
Initiation à la retouche d’images.Utilisation de Paint.net
Initiation à la retouche d’images.Utilisation de Paint.netInitiation à la retouche d’images.Utilisation de Paint.net
Initiation à la retouche d’images.Utilisation de Paint.net
 
Traitement des images avec matlab
Traitement des images avec matlabTraitement des images avec matlab
Traitement des images avec matlab
 
Cours : Internet - 7ème année de base
Cours : Internet - 7ème  année de baseCours : Internet - 7ème  année de base
Cours : Internet - 7ème année de base
 
Cours : Traitement d'images - 7ème de base
Cours : Traitement d'images  - 7ème de baseCours : Traitement d'images  - 7ème de base
Cours : Traitement d'images - 7ème de base
 

Similaire à Étude des techniques de classification et de filtrage automatique de Pourriels

Étude des techniques de classification et de filtrage automatique de Pourriels
Étude des techniques de classification et de filtrage automatique de PourrielsÉtude des techniques de classification et de filtrage automatique de Pourriels
Étude des techniques de classification et de filtrage automatique de Pourrielsguest3a44d425
 
14h15 EMDay 2014 - Antiphishing et nouveautés Signal Spam 2014
14h15 EMDay 2014 - Antiphishing et nouveautés Signal Spam 201414h15 EMDay 2014 - Antiphishing et nouveautés Signal Spam 2014
14h15 EMDay 2014 - Antiphishing et nouveautés Signal Spam 2014Clic et Site
 
Inf4420 final a05-solutions
Inf4420 final a05-solutionsInf4420 final a05-solutions
Inf4420 final a05-solutionsmouad11
 
L'antispam n'est pas un figurant !
L'antispam n'est pas un figurant !L'antispam n'est pas un figurant !
L'antispam n'est pas un figurant !NRC
 
Comment mesurer et améliorer sa délivrabilité : outils, trucs et astuces
Comment mesurer et améliorer sa délivrabilité : outils, trucs et astucesComment mesurer et améliorer sa délivrabilité : outils, trucs et astuces
Comment mesurer et améliorer sa délivrabilité : outils, trucs et astucesFlorence consultant
 
Annexe2 : Etude Comparative Sur Les Honeyclients
Annexe2 : Etude Comparative Sur Les HoneyclientsAnnexe2 : Etude Comparative Sur Les Honeyclients
Annexe2 : Etude Comparative Sur Les HoneyclientsMohamed Ben Bouzid
 
Hackfest2010 Tm Dg Fr
Hackfest2010 Tm Dg FrHackfest2010 Tm Dg Fr
Hackfest2010 Tm Dg FrDavid Girard
 
Ecrire et déployer une appli PHP maintenable
Ecrire et déployer une appli PHP maintenableEcrire et déployer une appli PHP maintenable
Ecrire et déployer une appli PHP maintenableChristophe Villeneuve
 
Panorama des technologies antispam
Panorama des technologies antispamPanorama des technologies antispam
Panorama des technologies antispamStephane Manhes
 
IA et Test - MeetUp MoT - Julien Van Quackebeke - CEO All4Test
IA et Test - MeetUp MoT - Julien Van Quackebeke - CEO All4TestIA et Test - MeetUp MoT - Julien Van Quackebeke - CEO All4Test
IA et Test - MeetUp MoT - Julien Van Quackebeke - CEO All4TestMimoun Kissi 🤖
 
Alphorm.com Formation Analyse de Malware 2/2 : Le guide complet
Alphorm.com Formation Analyse de Malware 2/2 : Le guide completAlphorm.com Formation Analyse de Malware 2/2 : Le guide complet
Alphorm.com Formation Analyse de Malware 2/2 : Le guide completAlphorm
 
Soirée du Test Logiciel - Intelligence Artificielle dans le test - J. VAN QUA...
Soirée du Test Logiciel - Intelligence Artificielle dans le test - J. VAN QUA...Soirée du Test Logiciel - Intelligence Artificielle dans le test - J. VAN QUA...
Soirée du Test Logiciel - Intelligence Artificielle dans le test - J. VAN QUA...TelecomValley
 
Atelier 16 - Emailing et newsletter - Voyage en Multimédia 2009
Atelier 16  - Emailing et newsletter - Voyage en Multimédia 2009Atelier 16  - Emailing et newsletter - Voyage en Multimédia 2009
Atelier 16 - Emailing et newsletter - Voyage en Multimédia 2009Salon e-tourisme #VeM
 
Emailez sans spammer
Emailez sans spammerEmailez sans spammer
Emailez sans spammerKevin Gallot
 

Similaire à Étude des techniques de classification et de filtrage automatique de Pourriels (20)

Étude des techniques de classification et de filtrage automatique de Pourriels
Étude des techniques de classification et de filtrage automatique de PourrielsÉtude des techniques de classification et de filtrage automatique de Pourriels
Étude des techniques de classification et de filtrage automatique de Pourriels
 
Le point sur la délivrabilité
Le point sur la délivrabilitéLe point sur la délivrabilité
Le point sur la délivrabilité
 
14h15 EMDay 2014 - Antiphishing et nouveautés Signal Spam 2014
14h15 EMDay 2014 - Antiphishing et nouveautés Signal Spam 201414h15 EMDay 2014 - Antiphishing et nouveautés Signal Spam 2014
14h15 EMDay 2014 - Antiphishing et nouveautés Signal Spam 2014
 
Inf4420 final a05-solutions
Inf4420 final a05-solutionsInf4420 final a05-solutions
Inf4420 final a05-solutions
 
L'antispam n'est pas un figurant !
L'antispam n'est pas un figurant !L'antispam n'est pas un figurant !
L'antispam n'est pas un figurant !
 
Les attaques MITM
Les attaques MITMLes attaques MITM
Les attaques MITM
 
Comment mesurer et améliorer sa délivrabilité : outils, trucs et astuces
Comment mesurer et améliorer sa délivrabilité : outils, trucs et astucesComment mesurer et améliorer sa délivrabilité : outils, trucs et astuces
Comment mesurer et améliorer sa délivrabilité : outils, trucs et astuces
 
Mieux acheminer les emails avec salesforce
Mieux acheminer les emails avec salesforceMieux acheminer les emails avec salesforce
Mieux acheminer les emails avec salesforce
 
Annexe2 : Etude Comparative Sur Les Honeyclients
Annexe2 : Etude Comparative Sur Les HoneyclientsAnnexe2 : Etude Comparative Sur Les Honeyclients
Annexe2 : Etude Comparative Sur Les Honeyclients
 
Hackfest2010 Tm Dg Fr
Hackfest2010 Tm Dg FrHackfest2010 Tm Dg Fr
Hackfest2010 Tm Dg Fr
 
Ecm Open Source
Ecm Open SourceEcm Open Source
Ecm Open Source
 
Ecrire et déployer une appli PHP maintenable
Ecrire et déployer une appli PHP maintenableEcrire et déployer une appli PHP maintenable
Ecrire et déployer une appli PHP maintenable
 
Panorama des technologies antispam
Panorama des technologies antispamPanorama des technologies antispam
Panorama des technologies antispam
 
IA et Test - MeetUp MoT - Julien Van Quackebeke - CEO All4Test
IA et Test - MeetUp MoT - Julien Van Quackebeke - CEO All4TestIA et Test - MeetUp MoT - Julien Van Quackebeke - CEO All4Test
IA et Test - MeetUp MoT - Julien Van Quackebeke - CEO All4Test
 
Alphorm.com Formation Analyse de Malware 2/2 : Le guide complet
Alphorm.com Formation Analyse de Malware 2/2 : Le guide completAlphorm.com Formation Analyse de Malware 2/2 : Le guide complet
Alphorm.com Formation Analyse de Malware 2/2 : Le guide complet
 
Soirée du Test Logiciel - Intelligence Artificielle dans le test - J. VAN QUA...
Soirée du Test Logiciel - Intelligence Artificielle dans le test - J. VAN QUA...Soirée du Test Logiciel - Intelligence Artificielle dans le test - J. VAN QUA...
Soirée du Test Logiciel - Intelligence Artificielle dans le test - J. VAN QUA...
 
Atelier 16 - Emailing et newsletter - Voyage en Multimédia 2009
Atelier 16  - Emailing et newsletter - Voyage en Multimédia 2009Atelier 16  - Emailing et newsletter - Voyage en Multimédia 2009
Atelier 16 - Emailing et newsletter - Voyage en Multimédia 2009
 
Atelier 16 Voyage en Multimédia 2009
 Atelier 16  Voyage en Multimédia 2009 Atelier 16  Voyage en Multimédia 2009
Atelier 16 Voyage en Multimédia 2009
 
Securité web
Securité webSecurité web
Securité web
 
Emailez sans spammer
Emailez sans spammerEmailez sans spammer
Emailez sans spammer
 

Étude des techniques de classification et de filtrage automatique de Pourriels

  • 1. 1 Novembre 2009 Présenté par: Mr Oumsalem Hassane Étude des techniques de classification et de filtrage automatique de Pourriels Étude des techniques de classification et de filtrage automatique de Pourriels ÉÉÉÉcole Polytechnique de Montrcole Polytechnique de Montrcole Polytechnique de Montrcole Polytechnique de Montrééééalalalal
  • 2. 2 Plan Introduction Quelques définitions Structure d’un courriel Courriels indésirables (objectifs & exemples) Techniques de filtrage automatique de pourriels Quelques solutions de filtrage existantes Perspectives Conclusion O. Hassane, 2009
  • 3. 3 Introduction 80% à 90% des messages échangés sur le Net sont des SPAM [1] Le coût engendré par les Spam est estimé à ≈ 200 milliards $/an (perte de productivité, coût de connexion, logiciel de détection, … etc). Le Spam s’est diversifié, adapté, complexifié et devenu sophistiqué Plusieurs travaux de lute contre les Spam ont été réalisés. O. Hassane, 2009
  • 4. 4 Quelques définitions Pourriel (Spam): Courrier électronique commercial non sollicité par l'internaute qui le reçoit (courriels indésirables). Pourrielleur (Spammer): désigne celui qui se livre aux spams. Pollupostage (Spamming): pollution de boîtes aux lettres, pratiquée par les pourrielleurs. O. Hassane 2009
  • 5. 5 Objectifs comprendre ce que c’est qu’un pourriel; objectifs des pourriels; étudier quelques techniques de filtrage automatique de pourriels; présenter quelques solutions existantes. O. Hassane 2009
  • 6. 6 Filtrage d’informations O. Hassane 2009 « Le filtrage est un processus qui consiste à extraire les informations pertinentes et de qualité à partir d’une imposante masse d’informations »
  • 7. 7 Structure d’un courriel En-tête (header fields): comprend les champs: sujet, expéditeur, destinataire, date d’envoi, serveur source, ... etc. Le corps du massage : c’est le message en tant que tel: texte, image, code html, …etc. O. Hassane 2009
  • 8. 8 Objectifs du pourriel O. Hassane Répartition des pourriels par contenu sur le 1er semestre 2008 [1]
  • 9. 9 Exemple d’un pourriel O. Hassane 2009 Exemple de pourriel publicitaire: [Fig 1] Exemple de pourriel de hameçonnage (phishing): [Fig 2]
  • 10. 10 Techniques de filtrage automatique O. Hassane, 2009 a. Techniques préventives: marquent les courriels pour distinguer les courriels indésirables des courriels légitimes. b. Techniques curatives: elles bloquent et même parfois elles renvoient vers l'expéditeur les messages jugées indésirables. Les techniques curatives a beaucoup d’inconvénients(surcharge du réseau, …)
  • 11. 11 Techniques de filtrage automatique O. Hassane 2009 a. Filtrage par mots clés; b. Filtrage par expressions relationnelles (régulières); c. Authentification de l’émetteur (test de Turing); d. Filtrage par réseaux de neurones; e. Filtrage Bayésien.
  • 12. 12 Techniques de filtrage automatique O. Hassane 2009 a. Filtrage par mots clés: définit des mots(*) comme interdits (viagra, diploma, winner, …); Analyse le contenu (le message lui même), l’objet et l’adresse courriel de l’expéditeur. Si présence d’un mot faisant partie des mots interdits, alors le message est considéré comme indésirable. Inconvénients: • Elle est très limitée; • Elle engendre des probabilités d'erreur très élevées; • Résistance très faible aux mots maquillés (exp: vi@gr@). (*): les mots qui reviennent souvent dans les pourriels.
  • 13. 13 Techniques de filtrage automatique O. Hassane 2009 b. Filtrage par expressions relationnelles (régulières) Introduite pour pallier aux limites du filtrage par mots clés; Elle s’appuie sur les expressions relationnelles (régulières); Les expressions relationnelles permettent de trouver des variations de mots jugés « sensibles » tel que le mot « viagra » Vs « viiaaagraa »; L’expression relationnelle /^vi+a+gra+$/i permettra de retrouver le mot « viiaaagraa ». Inconvénients: • Il est difficile de définir toutes les expressions relationnelles possibles; • Il faut recenser tous les mots clés utilisés dans les pourriels, ce qui rend la tache un peu délicate.
  • 14. 14 Techniques de filtrage automatique O. Hassane 2009 d. Authentification de l’émetteur (test de Turing) [3] basée sur l’authentification de l’émetteur, en lui posant une question à laquelle seul un humain peut répondre; le système peut envoyer un captcha(1) et lui demander de répondre à la question (exp: recopier le texte écrit dans l’image). L’utilisateur doit mettre en place une liste blanche pour les organismes qui envoient des messages automatique (site administratifs, commerce en ligne, …). La solution est radicale et efficace, elle est facile à mettre en place, mais elle montre des limites dans certains cas. Inconvénients: • Difficile à maintenir (listes blanches) • C’est laborieux et contraignant pour l’émetteur. (1) Une image contenant des caractères suffisamment déformés et bruités pour compliquer sérieusement la tâche aux OCR.
  • 15. 15 Techniques de filtrage automatique O. Hassane 2009 e. Filtrage par réseaux de neurones [2] Après apprentissage, ils permettent de produire une forme de raisonnement humain. L’apprentissage se fait d’une collection de courriels préalablement triés par l’utilisateur; Une fois l’apprentissage effectué, le réseau de neurone fonctionne comme un système anti-spam classique très efficace selon les cas les cas de figure. Le risque de mauvaise classification est réel, mais peut être contrôlé en jouant sur le seuil de sensibilité du réseau de neurones [Fig 3]
  • 16. 16 Techniques de filtrage automatique O. Hassane 2009 e. Filtrage par réseaux de neurones [2] (suite) [Fig 3]: Réglage de seuil de sensibilité du réseau de neurones Inconvénients: • nécessite un entraînement long; • doit être régulièrement entraîné pour faire face aux nouvelles formes de spam.
  • 17. 17 Techniques de filtrage automatique O. Hassane 2009 f. Filtrage Bayésien utilise les réseaux bayesiens, elle s’appuie sur la classification naïve bayesienne. Associe des probabilités aux différents mots clés du message. Il faut un temps d’apprentissage pour calculer ces probabilités. Combine les probabilités obtenues selon le théorème de bayes pour déterminer si un message est un Spam.
  • 18. 18 Techniques de filtrage automatique O. Hassane 2009 f. Filtrage Bayésien (suite) Permet d’obtenir un excellent taux de détection (>99%) [4][5] Inconvénients: Il est peu efficace lorsqu’il s’agit d’un nouveau mot clé Spam Il faut un temps d’apprentissage pour déterminer les probabilités Les polluposteurs utilisent des images pour déjouer ce filtre. Exemple: DSpam, SamAssasin, SpamBayes, Bogofilter
  • 19. 19 Autres techniques Filtrage par Bases collaboratives de spams: alimentées par les utilisateurs de solutions antispam, ces bases de données contiennent des signatures de spams, de la même manière que les bases de signatures de virus. Filtrage par liste blanche: base de données des sites sûrs et certifiés, tous les messages provenant de ces sites sont acceptés et considérés comme sûrs. Filtrage par liste noire: bases de données abritant les listes de serveurs qui produisent, aident, accueillent, ou retransmettent des spams. Filtrage d’images: Les images sont utilisées par les spammeurs pour dissimuler les messages et déjouer les filtres basés sur l’analyse contextuelle. Cette technique analyse: - le nombre d'images dans le message; - la manières dont elles sont placées dans le message; - générer une somme de contrôle sur l’image. O. Hassane 2009
  • 20. 20 Quelques solutions existantes O. Hassane 2009 Filtrage au niveau du PC : adopté par les clients e-mail (Thunderburd, Outlook 2003), repose essentiellement sur les filtre bayésiennes. exp: BogoFilter: licence GPL, gratuit, multi-plateforme, filtre bayesien. Filtrage au niveau du serveur de messagerie: utilise un seul logiciel contrairement à la solution du filtrage au niveau PC. La bande passante reste encombrée, car le logiciel est installé en interne. exp:SpamAssassin, SpamGuru Filtrage au niveau de la passerelle d’internent: l’analyse s’effectue en amont du serveur de messagerie, ce qui évite la surcharge du serveur de messagerie. La bande passante reste encombrée. Service de filtrage extérnalisé: filtrage au niveau du fournisseur d’accès Internet (ISP). Avantage majeur, sa facilité de mise en œuvre et de gestion
  • 21. 21 Perspectives O. Hassane 2009 de nouvelles techniques prometteuses basées sur: a. Les algorithmes génétiques; b. Algorithme de Data mining; c. Le domaine de text mining pourrait ouvrir une vois dans la grande famille des techniques de classification de courriels. d. Hybridation de certaines techniques
  • 22. 22 Conclusion O. Hassane 2009 c’est un domaine un peu complexe; Les techniques de pollupostage évoluent aussi vite que les solutions proposées; une avancée très remarquable dans le domaine de filtrage; beaucoup de travaux ont été réalisés, et de techniques ont été proposées;’ Il n’est pas possible d’obtenir une classification automatique correcte à 100%; Il serait, éventuellement, intéressant de combiner certaines techniques pour former des méthodes hybrides plus puissantes.
  • 23. 23 Références O. Hassane 2009 [1]: « Le SPAM », Sophie GASTELLIER-PREVOST : Enseignant-chercheur à l'Institut Télécom, Télécom & Management SudParis. [2] : Chris Miller. Neural network-based antispam heuristics. In Symantec, white paper,03 [3] : http://fr.wikipedia.org/wiki/Pourriel [4]: P. Graham, A plan for spam, http://paulgraham.com/spam.html [5]:P. Graham, Better Bayesian filtering, http://www.paulgraham.com/better.html