SlideShare une entreprise Scribd logo
1  sur  24
Télécharger pour lire hors ligne
École Polytechnique de Montréal
                                        Montré




                  Étude des techniques
                  Étude des techniques
de classification et de filtrage automatique de Pourriels
de classification et de filtrage automatique de Pourriels


                   Novembre 2009
                  Présenté par   : Mr Oumsalem Hassane

                                                         1
Plan
Introduction
Quelques définitions
Structure d’un courriel
Courriels indésirables (objectifs & exemples)
Techniques de filtrage automatique de pourriels
Quelques solutions de filtrage existantes
Perspectives
Conclusion

                                                O. Hassane, 2009   2
Introduction

80% à 90% des messages échangés sur le Net sont des SPAM [1]


Le coût engendré par les Spam est estimé à ≈ 200 milliards $/an
(perte de productivité, coût de connexion, logiciel de détection, … etc).


Le Spam s’est diversifié, adapté, complexifié et devenu sophistiqué


Plusieurs travaux de lute contre les Spam ont été réalisés.




                                                                        O. Hassane, 2009   3
Quelques définitions

Pourriel (Spam): Courrier électronique commercial non sollicité par
                l'internaute qui le reçoit (courriels indésirables).


Pourrielleur (Spammer): désigne celui qui se livre aux spams.



Pollupostage (Spamming): pollution de boîtes aux lettres, pratiquée
                par les pourrielleurs.




                                                              O. Hassane 2009   4
Objectifs

comprendre ce que c’est qu’un pourriel;

objectifs des pourriels;

étudier quelques techniques de filtrage automatique de
pourriels;

présenter quelques solutions existantes.



                                            O. Hassane 2009   5
Filtrage d’informations
« Le filtrage est un processus qui consiste à extraire les
informations pertinentes et de qualité à partir d’une
imposante masse d’informations »




                                              O. Hassane 2009   6
Structure d’un courriel

En-tête (header fields): comprend les champs: sujet, expéditeur,

destinataire, date d’envoi, serveur source, ... etc.


Le corps du massage : c’est le message en tant que tel: texte,

image, code html, …etc.




                                                       O. Hassane 2009   7
Objectifs du pourriel

Répartition des pourriels par contenu sur le 1er semestre 2008 [1]




                                                           O. Hassane   8
Exemple d’un pourriel
   Exemple de pourriel publicitaire:


[Fig 1]


   Exemple de pourriel de hameçonnage (phishing):


[Fig 2]




                                                    O. Hassane 2009   9
Techniques de filtrage automatique
a. Techniques préventives:           marquent les courriels pour distinguer les

  courriels indésirables des courriels légitimes.




b. Techniques curatives:        elles bloquent et même parfois elles renvoient
  vers l'expéditeur les messages jugées indésirables.

      Les techniques curatives a beaucoup d’inconvénients(surcharge du réseau,
      …)


                                                                    O. Hassane, 2009   10
Techniques de filtrage automatique

    a. Filtrage par mots clés;

    b. Filtrage par expressions relationnelles (régulières);

    c. Authentification de l’émetteur (test de Turing);

    d. Filtrage par réseaux de neurones;

    e. Filtrage Bayésien.




                                                          O. Hassane 2009   11
Techniques de filtrage automatique
a. Filtrage par mots clés:
                définit des mots(*) comme interdits (viagra, diploma, winner, …);

                Analyse le contenu (le message lui même), l’objet et l’adresse
                courriel de l’expéditeur.

                Si présence d’un mot faisant partie des mots interdits, alors le
                message est considéré comme indésirable.
Inconvénients:

     •    Elle est très limitée;
     •    Elle engendre des probabilités d'erreur très élevées;
     •    Résistance très faible aux mots maquillés (exp: vi@gr@).


(*): les mots qui reviennent souvent dans les pourriels.
                                                                     O. Hassane 2009   12
Techniques de filtrage automatique
b. Filtrage par expressions relationnelles (régulières)
            Introduite pour pallier aux limites du filtrage par mots clés;

            Elle s’appuie sur les expressions relationnelles (régulières);

            Les expressions relationnelles permettent de trouver des variations de
            mots jugés « sensibles » tel que le mot « viagra » Vs « viiaaagraa »;

            L’expression relationnelle /^vi+a+gra+$/i permettra de retrouver le mot
            « viiaaagraa ».

Inconvénients:
       • Il est difficile de définir toutes les expressions relationnelles possibles;
       • Il faut recenser tous les mots clés utilisés dans les pourriels, ce qui
          rend la tache un peu délicate.

                                                                      O. Hassane 2009   13
Techniques de filtrage automatique
d. Authentification de l’émetteur (test de Turing) [3]
               basée sur l’authentification de l’émetteur, en lui posant une question à
               laquelle seul un humain peut répondre;
               le système peut envoyer un captcha(1) et lui demander de répondre à la
               question (exp: recopier le texte écrit dans l’image).

               L’utilisateur doit mettre en place une liste blanche pour les organismes qui
               envoient des messages automatique (site administratifs, commerce en ligne, …).
               La solution est radicale et efficace, elle est facile à mettre en place, mais
               elle montre des limites dans certains cas.

Inconvénients:
    • Difficile à maintenir (listes blanches)
    • C’est laborieux et contraignant pour l’émetteur.


    (1)   Une image contenant des caractères suffisamment déformés et bruités
                                                                                O. Hassane 2009   14
          pour compliquer sérieusement la tâche aux OCR.
Techniques de filtrage automatique
e.   Filtrage par réseaux de neurones [2]
          Après apprentissage, ils permettent de produire une forme de
          raisonnement humain.

          L’apprentissage se fait d’une collection de courriels
          préalablement triés par l’utilisateur;

          Une fois l’apprentissage effectué, le réseau de neurone
          fonctionne comme un système anti-spam classique très efficace
          selon les cas les cas de figure.

          Le risque de mauvaise classification est réel, mais peut être
          contrôlé en jouant sur le seuil de sensibilité du réseau de
          neurones [Fig 3]


                                                            O. Hassane 2009   15
Techniques de filtrage automatique
e.    Filtrage par réseaux de neurones [2] (suite)

[Fig 3]: Réglage de seuil de sensibilité du réseau
         de neurones




      Inconvénients:
•     nécessite un entraînement long;
•     doit être régulièrement entraîné pour faire face aux nouvelles formes de spam.


                                                                  O. Hassane 2009   16
Techniques de filtrage automatique
f.   Filtrage Bayésien
            utilise les réseaux bayesiens, elle s’appuie sur la classification
            naïve bayesienne.
            Associe des probabilités aux différents mots clés du message.
            Il faut un temps d’apprentissage pour calculer ces probabilités.
            Combine les probabilités obtenues selon le théorème de bayes
            pour déterminer si un message est un Spam.




                                                               O. Hassane 2009   17
Techniques de filtrage automatique
f. Filtrage Bayésien (suite)




               Permet d’obtenir un excellent taux de détection (>99%) [4][5]

  Inconvénients:
               Il est peu efficace lorsqu’il s’agit d’un nouveau mot clé Spam
               Il faut un temps d’apprentissage pour déterminer les probabilités
               Les polluposteurs utilisent des images pour déjouer ce filtre.

  Exemple: DSpam, SamAssasin, SpamBayes, Bogofilter

                                                                 O. Hassane 2009   18
Autres techniques
Filtrage par Bases collaboratives de spams: alimentées par les utilisateurs de
solutions antispam, ces bases de données contiennent des signatures de spams, de la même
manière que les bases de signatures de virus.

Filtrage par liste blanche: base de données des sites sûrs et certifiés, tous les messages
provenant de ces sites sont acceptés et considérés comme sûrs.

Filtrage par liste noire: bases de données abritant les listes de serveurs qui produisent,
aident, accueillent, ou retransmettent des spams.


Filtrage d’images: Les images sont utilisées par les spammeurs pour dissimuler les
messages et déjouer les filtres basés sur l’analyse contextuelle.
Cette technique analyse:
                        - le nombre d'images dans le message;
                        - la manières dont elles sont placées dans le message;
                        - générer une somme de contrôle sur l’image.


                                                                          O. Hassane 2009   19
Quelques solutions existantes

Filtrage au niveau du PC : adopté par les clients e-mail (Thunderburd,
Outlook 2003), repose essentiellement sur les filtre bayésiennes.
    exp: BogoFilter: licence GPL, gratuit, multi-plateforme, filtre bayesien.
Filtrage au niveau du serveur de messagerie: utilise un seul
logiciel contrairement à la solution du filtrage au niveau PC. La bande passante reste
encombrée, car le logiciel est installé en interne.
     exp:SpamAssassin, SpamGuru
Filtrage au niveau de la passerelle d’internent: l’analyse
s’effectue en amont du serveur de messagerie, ce qui évite la surcharge du serveur de
messagerie. La bande passante reste encombrée.


Service de filtrage extérnalisé: filtrage au niveau du fournisseur d’accès
Internet (ISP). Avantage majeur, sa facilité de mise en œuvre et de gestion



                                                                          O. Hassane 2009   20
Perspectives

de nouvelles techniques prometteuses basées sur:


    a. Les algorithmes génétiques;

    b. Algorithme de Data mining;

    c. Le domaine de text mining pourrait ouvrir une vois dans la
       grande famille des techniques de classification de courriels.

    d. Hybridation de certaines techniques




                                                           O. Hassane 2009   21
Conclusion
c’est un domaine un peu complexe;

Les techniques de pollupostage évoluent aussi vite que les solutions proposées;

une avancée très remarquable dans le domaine de filtrage;

beaucoup de travaux ont été réalisés, et de techniques ont été proposées;’

Il n’est pas possible d’obtenir une classification automatique correcte à 100%;

Il serait, éventuellement, intéressant de combiner certaines techniques pour
former des méthodes hybrides plus puissantes.




                                                                 O. Hassane 2009   22
Références
[1]: « Le SPAM », Sophie GASTELLIER-PREVOST : Enseignant-chercheur à
     l'Institut Télécom, Télécom & Management SudParis.

[2] : Chris Miller. Neural network-based antispam heuristics. In Symantec, white paper,03

[3] : http://fr.wikipedia.org/wiki/Pourriel

[4]: P. Graham, A plan for spam, http://paulgraham.com/spam.html

[5]:P. Graham, Better Bayesian filtering, http://www.paulgraham.com/better.html




                                                                         O. Hassane 2009   23
Questions.




             O. Hassane 2009   24

Contenu connexe

Similaire à Étude des techniques de classification et de filtrage automatique de Pourriels

Halte aux spams contexte, techniques et solutions
Halte aux spams contexte, techniques et solutionsHalte aux spams contexte, techniques et solutions
Halte aux spams contexte, techniques et solutionsStephane Manhes
 
Emailez sans spammer
Emailez sans spammerEmailez sans spammer
Emailez sans spammerKevin Gallot
 
Livre blanc "Comment se protéger des emails spams?"
Livre blanc "Comment se protéger des emails spams?"Livre blanc "Comment se protéger des emails spams?"
Livre blanc "Comment se protéger des emails spams?"Aquastar Consulting
 
Annexe2 : Etude Comparative Sur Les Honeyclients
Annexe2 : Etude Comparative Sur Les HoneyclientsAnnexe2 : Etude Comparative Sur Les Honeyclients
Annexe2 : Etude Comparative Sur Les HoneyclientsMohamed Ben Bouzid
 
MailInBlack : Email to Network
MailInBlack : Email to NetworkMailInBlack : Email to Network
MailInBlack : Email to Networkproximit
 
Emailing Délivrabilité par Message Business
Emailing Délivrabilité par Message BusinessEmailing Délivrabilité par Message Business
Emailing Délivrabilité par Message BusinessAlain Planger
 
Check list : les 10 clés pour réussir vos campagnes e-mailing
Check list : les 10 clés pour réussir vos campagnes e-mailingCheck list : les 10 clés pour réussir vos campagnes e-mailing
Check list : les 10 clés pour réussir vos campagnes e-mailingAlain Planger
 
14h15 EMDay 2014 - Antiphishing et nouveautés Signal Spam 2014
14h15 EMDay 2014 - Antiphishing et nouveautés Signal Spam 201414h15 EMDay 2014 - Antiphishing et nouveautés Signal Spam 2014
14h15 EMDay 2014 - Antiphishing et nouveautés Signal Spam 2014Clic et Site
 
Alphorm.com Formation Analyse de Malware 1/2 : Le guide complet
Alphorm.com Formation Analyse de Malware 1/2 : Le guide completAlphorm.com Formation Analyse de Malware 1/2 : Le guide complet
Alphorm.com Formation Analyse de Malware 1/2 : Le guide completAlphorm
 
Inf4420 final a05-solutions
Inf4420 final a05-solutionsInf4420 final a05-solutions
Inf4420 final a05-solutionsmouad11
 

Similaire à Étude des techniques de classification et de filtrage automatique de Pourriels (12)

Halte aux spams contexte, techniques et solutions
Halte aux spams contexte, techniques et solutionsHalte aux spams contexte, techniques et solutions
Halte aux spams contexte, techniques et solutions
 
Emailez sans spammer
Emailez sans spammerEmailez sans spammer
Emailez sans spammer
 
Livre blanc "Comment se protéger des emails spams?"
Livre blanc "Comment se protéger des emails spams?"Livre blanc "Comment se protéger des emails spams?"
Livre blanc "Comment se protéger des emails spams?"
 
Les attaques MITM
Les attaques MITMLes attaques MITM
Les attaques MITM
 
Annexe2 : Etude Comparative Sur Les Honeyclients
Annexe2 : Etude Comparative Sur Les HoneyclientsAnnexe2 : Etude Comparative Sur Les Honeyclients
Annexe2 : Etude Comparative Sur Les Honeyclients
 
Securité web
Securité webSecurité web
Securité web
 
MailInBlack : Email to Network
MailInBlack : Email to NetworkMailInBlack : Email to Network
MailInBlack : Email to Network
 
Emailing Délivrabilité par Message Business
Emailing Délivrabilité par Message BusinessEmailing Délivrabilité par Message Business
Emailing Délivrabilité par Message Business
 
Check list : les 10 clés pour réussir vos campagnes e-mailing
Check list : les 10 clés pour réussir vos campagnes e-mailingCheck list : les 10 clés pour réussir vos campagnes e-mailing
Check list : les 10 clés pour réussir vos campagnes e-mailing
 
14h15 EMDay 2014 - Antiphishing et nouveautés Signal Spam 2014
14h15 EMDay 2014 - Antiphishing et nouveautés Signal Spam 201414h15 EMDay 2014 - Antiphishing et nouveautés Signal Spam 2014
14h15 EMDay 2014 - Antiphishing et nouveautés Signal Spam 2014
 
Alphorm.com Formation Analyse de Malware 1/2 : Le guide complet
Alphorm.com Formation Analyse de Malware 1/2 : Le guide completAlphorm.com Formation Analyse de Malware 1/2 : Le guide complet
Alphorm.com Formation Analyse de Malware 1/2 : Le guide complet
 
Inf4420 final a05-solutions
Inf4420 final a05-solutionsInf4420 final a05-solutions
Inf4420 final a05-solutions
 

Étude des techniques de classification et de filtrage automatique de Pourriels

  • 1. École Polytechnique de Montréal Montré Étude des techniques Étude des techniques de classification et de filtrage automatique de Pourriels de classification et de filtrage automatique de Pourriels Novembre 2009 Présenté par : Mr Oumsalem Hassane 1
  • 2. Plan Introduction Quelques définitions Structure d’un courriel Courriels indésirables (objectifs & exemples) Techniques de filtrage automatique de pourriels Quelques solutions de filtrage existantes Perspectives Conclusion O. Hassane, 2009 2
  • 3. Introduction 80% à 90% des messages échangés sur le Net sont des SPAM [1] Le coût engendré par les Spam est estimé à ≈ 200 milliards $/an (perte de productivité, coût de connexion, logiciel de détection, … etc). Le Spam s’est diversifié, adapté, complexifié et devenu sophistiqué Plusieurs travaux de lute contre les Spam ont été réalisés. O. Hassane, 2009 3
  • 4. Quelques définitions Pourriel (Spam): Courrier électronique commercial non sollicité par l'internaute qui le reçoit (courriels indésirables). Pourrielleur (Spammer): désigne celui qui se livre aux spams. Pollupostage (Spamming): pollution de boîtes aux lettres, pratiquée par les pourrielleurs. O. Hassane 2009 4
  • 5. Objectifs comprendre ce que c’est qu’un pourriel; objectifs des pourriels; étudier quelques techniques de filtrage automatique de pourriels; présenter quelques solutions existantes. O. Hassane 2009 5
  • 6. Filtrage d’informations « Le filtrage est un processus qui consiste à extraire les informations pertinentes et de qualité à partir d’une imposante masse d’informations » O. Hassane 2009 6
  • 7. Structure d’un courriel En-tête (header fields): comprend les champs: sujet, expéditeur, destinataire, date d’envoi, serveur source, ... etc. Le corps du massage : c’est le message en tant que tel: texte, image, code html, …etc. O. Hassane 2009 7
  • 8. Objectifs du pourriel Répartition des pourriels par contenu sur le 1er semestre 2008 [1] O. Hassane 8
  • 9. Exemple d’un pourriel Exemple de pourriel publicitaire: [Fig 1] Exemple de pourriel de hameçonnage (phishing): [Fig 2] O. Hassane 2009 9
  • 10. Techniques de filtrage automatique a. Techniques préventives: marquent les courriels pour distinguer les courriels indésirables des courriels légitimes. b. Techniques curatives: elles bloquent et même parfois elles renvoient vers l'expéditeur les messages jugées indésirables. Les techniques curatives a beaucoup d’inconvénients(surcharge du réseau, …) O. Hassane, 2009 10
  • 11. Techniques de filtrage automatique a. Filtrage par mots clés; b. Filtrage par expressions relationnelles (régulières); c. Authentification de l’émetteur (test de Turing); d. Filtrage par réseaux de neurones; e. Filtrage Bayésien. O. Hassane 2009 11
  • 12. Techniques de filtrage automatique a. Filtrage par mots clés: définit des mots(*) comme interdits (viagra, diploma, winner, …); Analyse le contenu (le message lui même), l’objet et l’adresse courriel de l’expéditeur. Si présence d’un mot faisant partie des mots interdits, alors le message est considéré comme indésirable. Inconvénients: • Elle est très limitée; • Elle engendre des probabilités d'erreur très élevées; • Résistance très faible aux mots maquillés (exp: vi@gr@). (*): les mots qui reviennent souvent dans les pourriels. O. Hassane 2009 12
  • 13. Techniques de filtrage automatique b. Filtrage par expressions relationnelles (régulières) Introduite pour pallier aux limites du filtrage par mots clés; Elle s’appuie sur les expressions relationnelles (régulières); Les expressions relationnelles permettent de trouver des variations de mots jugés « sensibles » tel que le mot « viagra » Vs « viiaaagraa »; L’expression relationnelle /^vi+a+gra+$/i permettra de retrouver le mot « viiaaagraa ». Inconvénients: • Il est difficile de définir toutes les expressions relationnelles possibles; • Il faut recenser tous les mots clés utilisés dans les pourriels, ce qui rend la tache un peu délicate. O. Hassane 2009 13
  • 14. Techniques de filtrage automatique d. Authentification de l’émetteur (test de Turing) [3] basée sur l’authentification de l’émetteur, en lui posant une question à laquelle seul un humain peut répondre; le système peut envoyer un captcha(1) et lui demander de répondre à la question (exp: recopier le texte écrit dans l’image). L’utilisateur doit mettre en place une liste blanche pour les organismes qui envoient des messages automatique (site administratifs, commerce en ligne, …). La solution est radicale et efficace, elle est facile à mettre en place, mais elle montre des limites dans certains cas. Inconvénients: • Difficile à maintenir (listes blanches) • C’est laborieux et contraignant pour l’émetteur. (1) Une image contenant des caractères suffisamment déformés et bruités O. Hassane 2009 14 pour compliquer sérieusement la tâche aux OCR.
  • 15. Techniques de filtrage automatique e. Filtrage par réseaux de neurones [2] Après apprentissage, ils permettent de produire une forme de raisonnement humain. L’apprentissage se fait d’une collection de courriels préalablement triés par l’utilisateur; Une fois l’apprentissage effectué, le réseau de neurone fonctionne comme un système anti-spam classique très efficace selon les cas les cas de figure. Le risque de mauvaise classification est réel, mais peut être contrôlé en jouant sur le seuil de sensibilité du réseau de neurones [Fig 3] O. Hassane 2009 15
  • 16. Techniques de filtrage automatique e. Filtrage par réseaux de neurones [2] (suite) [Fig 3]: Réglage de seuil de sensibilité du réseau de neurones Inconvénients: • nécessite un entraînement long; • doit être régulièrement entraîné pour faire face aux nouvelles formes de spam. O. Hassane 2009 16
  • 17. Techniques de filtrage automatique f. Filtrage Bayésien utilise les réseaux bayesiens, elle s’appuie sur la classification naïve bayesienne. Associe des probabilités aux différents mots clés du message. Il faut un temps d’apprentissage pour calculer ces probabilités. Combine les probabilités obtenues selon le théorème de bayes pour déterminer si un message est un Spam. O. Hassane 2009 17
  • 18. Techniques de filtrage automatique f. Filtrage Bayésien (suite) Permet d’obtenir un excellent taux de détection (>99%) [4][5] Inconvénients: Il est peu efficace lorsqu’il s’agit d’un nouveau mot clé Spam Il faut un temps d’apprentissage pour déterminer les probabilités Les polluposteurs utilisent des images pour déjouer ce filtre. Exemple: DSpam, SamAssasin, SpamBayes, Bogofilter O. Hassane 2009 18
  • 19. Autres techniques Filtrage par Bases collaboratives de spams: alimentées par les utilisateurs de solutions antispam, ces bases de données contiennent des signatures de spams, de la même manière que les bases de signatures de virus. Filtrage par liste blanche: base de données des sites sûrs et certifiés, tous les messages provenant de ces sites sont acceptés et considérés comme sûrs. Filtrage par liste noire: bases de données abritant les listes de serveurs qui produisent, aident, accueillent, ou retransmettent des spams. Filtrage d’images: Les images sont utilisées par les spammeurs pour dissimuler les messages et déjouer les filtres basés sur l’analyse contextuelle. Cette technique analyse: - le nombre d'images dans le message; - la manières dont elles sont placées dans le message; - générer une somme de contrôle sur l’image. O. Hassane 2009 19
  • 20. Quelques solutions existantes Filtrage au niveau du PC : adopté par les clients e-mail (Thunderburd, Outlook 2003), repose essentiellement sur les filtre bayésiennes. exp: BogoFilter: licence GPL, gratuit, multi-plateforme, filtre bayesien. Filtrage au niveau du serveur de messagerie: utilise un seul logiciel contrairement à la solution du filtrage au niveau PC. La bande passante reste encombrée, car le logiciel est installé en interne. exp:SpamAssassin, SpamGuru Filtrage au niveau de la passerelle d’internent: l’analyse s’effectue en amont du serveur de messagerie, ce qui évite la surcharge du serveur de messagerie. La bande passante reste encombrée. Service de filtrage extérnalisé: filtrage au niveau du fournisseur d’accès Internet (ISP). Avantage majeur, sa facilité de mise en œuvre et de gestion O. Hassane 2009 20
  • 21. Perspectives de nouvelles techniques prometteuses basées sur: a. Les algorithmes génétiques; b. Algorithme de Data mining; c. Le domaine de text mining pourrait ouvrir une vois dans la grande famille des techniques de classification de courriels. d. Hybridation de certaines techniques O. Hassane 2009 21
  • 22. Conclusion c’est un domaine un peu complexe; Les techniques de pollupostage évoluent aussi vite que les solutions proposées; une avancée très remarquable dans le domaine de filtrage; beaucoup de travaux ont été réalisés, et de techniques ont été proposées;’ Il n’est pas possible d’obtenir une classification automatique correcte à 100%; Il serait, éventuellement, intéressant de combiner certaines techniques pour former des méthodes hybrides plus puissantes. O. Hassane 2009 22
  • 23. Références [1]: « Le SPAM », Sophie GASTELLIER-PREVOST : Enseignant-chercheur à l'Institut Télécom, Télécom & Management SudParis. [2] : Chris Miller. Neural network-based antispam heuristics. In Symantec, white paper,03 [3] : http://fr.wikipedia.org/wiki/Pourriel [4]: P. Graham, A plan for spam, http://paulgraham.com/spam.html [5]:P. Graham, Better Bayesian filtering, http://www.paulgraham.com/better.html O. Hassane 2009 23
  • 24. Questions. O. Hassane 2009 24