La détection des spam

646 vues

Publié le

La détection des spam

Publié dans : Internet
0 commentaire
0 j’aime
Statistiques
Remarques
  • Soyez le premier à commenter

  • Soyez le premier à aimer ceci

Aucun téléchargement
Vues
Nombre de vues
646
Sur SlideShare
0
Issues des intégrations
0
Intégrations
6
Actions
Partages
0
Téléchargements
14
Commentaires
0
J’aime
0
Intégrations 0
Aucune incorporation

Aucune remarque pour cette diapositive

La détection des spam

  1. 1. UNIVERSITE DJILLALI LIABES SIDI BEL ABBES FACULTE DES SCIENCES DE L’INGENIEUR Département d’Informatique Master 2 La détection des spams 2014-2015 1
  2. 2. Introduction générale Data mining Texte mining Introduction sur le spam Les catégories de spam Les techniques anti spam Les solutions logiciels anti spam Conclusion implémentation du projet 2
  3. 3. Les moyens de communication modernes ont connu ces dernières années une expansion massive. Les entreprises voient dans ces nouveaux outils la possibilité d’améliorer de façon significative leur efficacité en communiquant toujours plus vite, de façon plus efficace et à des coûts toujours plus faibles. Parallèlement à cette frénésie s’est développé un véritable fléau : le spam. Le spam, connu en français sous les termes de « pourriel » ou « courrier indésirable », désigne une communication électronique non sollicitée. La notion d'envoi de messages n'est pas nouvelle ; elle existait déjà sous la forme de publicités via la boîte aux lettres postale (fax, appel automatique de messageries téléphoniques...). 3
  4. 4. Définition Ensemble de méthodes et de techniques qui permet d'extraire des informations à partir d'une grande masse de données. il s'agit du processus de sélection, exploration, modification et modélisation de grandes bases de données Le Data Mining correspond donc à l'ensemble des techniques et des méthodes qui à partir de données permettent d'obtenir des connaissances exploitables. 4
  5. 5. Les étapes du processus Data Mining Quel que soit le domaine d’application, une opération de datamining suit globalement un processus en huit étapes : Comprendre le domaine d'application Sélection d'un ensemble de données. Nettoyage des données. Choix des fonctionnalités : classification, consolidation, association, clustering. Choix de(s) l'algorithme(s) d'extraction. Data Mining: Recherche des motifs (patterns) Evaluation des patterns et présentation, visualisation, transformation, suppression Utilisation de la connaissance extraite. 1 5
  6. 6. Les algorithmes de datamining Les algorithmes qui utilisé dans Data mining sont : Naïve Bayes ID3 et C4.5 K-means KNN «k-nearest neighbors» EM pour Espérance-maximisation . 6
  7. 7. Les différents domaines applications Marketing direct: population à cibler (profession, habitation, région, …) Gestion et analyse des marchés : Ex. Grande distribution : profils des consommateurs etc… Détection de fraudes: Télécommunications, ... Gestion de stocks: Ex. quelle quantité demander, … Analyse financière Gestion et analyse de risque: Assurances, Banques Compagnies aériennes Médecine et pharmacie 7
  8. 8. Définition technique permettant d’automatiser le traitement de gros volumes de contenus texte pour en extraire les principales tendances et répertorier de manière statistique les différents sujets évoqués. le texte mining peut être utilisé pour analyser le contenu des e-mails entrant ou les propos tenus sur des forums et médias sociaux. 8
  9. 9. Le processus du text mining Le text mining débute par la modélisation des textes en vue de leur préparation pour l’étape de Data mining Le déroulement d’un processus Text Mining est tout à fait conforme à celui d’un processus KDD (Knowledge Data Discovry). C'est-à-dire trois phases distinctes : Le traitement linguistique La lexicométrie Le traitement des données 9
  10. 10. Les étapes de TextMining 1.Sélection du corpus de documents •Documents pré-classés •Documents à classer 2.Extraction des termes •lemmatisation •Filtrage des termes extraits 3.Transformation 4.Classification 5.Visualisation des résultats 6.Interprétation des résultats 10
  11. 11. Les différents domaines applications Recherche d'information : •Les moteurs de recherche tels Google ou Yahoo!. Filtrage des communications : •Beaucoup de gestionnaires de courriers électroniques sont maintenant livrés avec un filtre anti-spam. Applications de sécurité : •Le système mondial des communications privées et publiques exemple d'utilisation militaire . 11
  12. 12. L’historique de Spam est née en 1994 lorsque deux juristes Américains effectuent le premier e-mailing de masse vers quelques milliers de destinataires afin de promouvoir leur société de conseil. Introduction 12
  13. 13. Le spam mot signifie courriers indésirables. Les e-mails non sollicités reçus par toute personne à son / sa boîte aux lettres sont appelés spam. Ces courriers indésirables sont généralement envoyés en masse pour la publicité et la commercialisation 13
  14. 14.  Nous sommes tous victimes de spam, qui vient polluer notre messagerie de manière non sollicitée.  Le lien "Spam" permet à la communauté de contrôler le nombre de commentaires indésirables laissés sur les vidéos envoyées ou visionnées. 14
  15. 15. Les catégories de spam 15
  16. 16. Le spam définit le courrier électronique non-sollicité et Le contenu des emails spams peuvent variés 16
  17. 17. Les bases de données d'adresses une campagne d'envoi de spams doit toucher plusieurs millions d'utilisateurs. Elle nécessite donc la constitution de gigantesques bases de données d'adresses e-mails. Plusieurs stratégies sont employées afin de constituer ces bases de données 17
  18. 18. L'envoi des e-mails de spam l’envoi des email de spam est devenu facile avec des logiciels et des scripts écris en php par contre dans les années 90 18
  19. 19. Ordinateurs « zombies » PC zombie est un ordinateur mal protégé qui a été infecté par un cheval de Troie, ces ordinateurs sont, le plus souvent, utilisés sans l'accord de l'utilisateur. Ces logiciels rendent extrêmement simple l'envoi de spams . 19
  20. 20. Messages similaires et systèmes de règles Afin d'être efficaces ; les e-mails de spam doivent être envoyés en très grandes quantités. L'envoi d'aussi grandes quantités de messages similaires est détectable par les serveurs. Cette méthode de détection est très efficace lorsque les messages envoyés sont identiques. 20
  21. 21. Spam par image et le phishing Le spam image est une forme de spam dans laquelle le texte du message est incorporé dans une image, de manière à contourner les systèmes de filtrage Une autre forme un peu particulière de spam d'e-mail est le _ phishing _. Elle consiste à envoyer un e-mail à l'utilisateur visant à le diriger vers un faux site Web. 21
  22. 22. Spam de mots-clés Pour améliorer le classement des pages, les spammeurs utilisent ce que l'on appelle vulgairement le _ bourrage de mots clés _ pour lesquelles le spammeur désire que ses pages soient bien classées, sont insérées à la fois dans le contenu de la page, 22
  23. 23. Camouflage et redirections rendre le contenu ajouté invisible à l'utilisateur. servir un contenu différent aux moteurs de recherche et aux utilisateurs humains. un contenu différent au moteur de recherche consiste à rediriger l'utilisateur vers la page contenant le vrai contenu du site Web. 23
  24. 24. Fermes de liens Une ferme de liens (en l'anglais link farm) est une méthode utilisée pour augmenter artificiellement l'importance d'un site ou d'un groupe de sites dans les moteurs de recherche. 24
  25. 25. les types des spam Les messages d’émail se composent de deux sections principales : En tête : Structuré dans des champs tels que le sommaire, l'expéditeur, Le récepteur, et d'autres informations sur le émail. From: L'adresse d’émail de l'expéditeur du message. To: Les adresses d’émail des récepteurs CC : Les adresses d’émail des récepteurs du message. Content type : Informations sur la façon dont le message doit être montré, Subject: le sujet ou un bref sommaire du contenu d’émail. Date: L'heure et la date locales où le message a été à l'origine envoyé Contenu : Le message lui-même en tant que texte non structuré. 25
  26. 26. Texte Spam From: " Controle@Paypal-Verifications.fr " To : Morsli nori (pseudo74@hotmail.fr) Subject: Urgents Mettre à jour de vos informations personnelles Paypal.fr ! Date: Dim. 20/01/13 10:31 Content-Type: texte/plain DRS : Direction Régional de PayPal Cher (e) Client (e) PayPal : En procédant sur le serveur à un contrôle concernant les paiements effectuées, nous avons relevé l'erreur suivante : Ce mois-ci en date du 04/01/2013 vos frais mensuels d'abonnement ont été prélever en double ( 32.75 * 2) un montant de 67.50 Euro. A cet effet, vous êtes priés de vous rendre sur l'espace abonnée et remblaie le formulaire de demande de remise en cliquant sur le lien ci-dessous pour bénéficier d'une remise immédiate. Appelez simplement ou Accéder votre formulaire en ligne en cliquant ici Merci pour votre compréhension. Aucune réclamation ne sera acceptée à défaut d'une réponse immédiate de votre part. dés réception de votre fiche nous vous contacterons sur le numéro que vous allez fournir. Très Cordialement, Direction régional . Tous vos emails en 1 clic avec l'application Mail sur i Phone et Android - En savoir plus. 26
  27. 27. Image Spam from:"control@premier loan provider " To : Morsli nori (pseudo74@hotmail.fr) Subject: Earn money Date: Dim. 20/08/10 10:31 Content-Type: image/plain 27
  28. 28. Les techniques principaux Liste noire RBL Jeffrey Posluns 2004 Une liste « noire » contient les adresses électroniques, les domaines et les adresses IP des expéditeurs (les serveurs qui ont déjà envoyé les spams) dont le courrier doit être bloqué. 28
  29. 29. Les techniques principaux Liste blanche Jeffrey Posluns 2004 La liste « blanche » contient les adresses des utilisateurs, les domaines et les adresses IP des expéditeurs dont les messages ne peuvent pas contenir de courrier indésirable 29
  30. 30. Les techniques principaux Pattern : Richard O. Duda , Peter E. Hart 2001 : un ensemble de règles de bons sens prévus pour identifier des caractéristiques spécifiques de Spam , pattern est faible et t il est difficile à penser quels mots les spammeurs utiliseront. Par exemple : Tous les emails qui contient les mots : money, ou millionnaire… sont détectés spams. 30
  31. 31. Les techniques principaux Liste grise PRIGENT, Fabrice 2005 est une liste liée à la liste blanche et à la liste noire . Lorsqu’un message est reçu, le serveur crée un triplet formé de : l'adresse IP du serveur émetteur l’adresse email de l’expéditeur l’adresse email du destinataire Si ce triplet est déjà connu, le message est acheminé. Sinon, le message est temporairement rejeté . 31
  32. 32. Les techniques principaux Vanne Thevenon, David 2002: La vanne est probablement l'une des manières les plus sensibles de combattre le Spam pour de petite taille aux fournisseurs de service moyens, car il n'arrête aucun courrier légitime d'entrer dans le réseau. 32
  33. 33. Les techniques principaux Adresse cachée Brian McWilliams 2004 : On doit cacher nos adresses des emails. on peut les modifier ou bien on met les sur des images au lieu de texte 33
  34. 34. Les techniques principaux Filtre Statistique Arnaud Doucet 2000 : Utilise l’algorithme Bayésiens, Le filtre calcule des probabilités conditionnelles en fonction des informations observées (situées dans une base de données); chaque mot d'un message est évalué suivant les probabilités qu'il se trouve dans un message défini comme indésirable ou non. Ce filtre est donc basé sur le théorème de Bayes. L’idée principale de cet algorithme est qu’on doit calculer la probabilité spam ou ham d’un émail dépend à ses informations comme le sujet, l’adresse de l’éxpéditeur, et le contenu. . 34
  35. 35. Les techniques principaux Comment calculer la probabilité qu'un message contenant un mot donné soit un spam La formule utilise pour déterminer la probabilité est dérivée du théorème de Bayes. Il s'agit, dans sa forme la plus générale, de : 35
  36. 36. comparaison entre les techniques Observer tout le message S’adapter fréquemment S’entrainer par la base de donnée d’utilisateur particulier Multilanguag e et international Defficile a tromper Liste noire Non Non Oui oui Non Liste blanche Non Oui Oui Oui Non Pattern Oui Non Oui Non Non Vanne Non Non Non Oui oui Adresse cachée Non Non Non Oui Non Filtre statistique Oui Oui Oui Oui oui 36
  37. 37. Solutions logicielles Des logiciels supplémentaires sont disponibles pour aider à filtrer encore plus, en se référençant à des listes de spammeurs et de messages spams connus. Quelque logicels de filtrage: trend microScanMail, SpamAssasin, MailInBlack, GFI MailEssentials 37
  38. 38. 38

×