Panorama des
technologies antispam

http://www.altospam.com/
1
Introduction

Définitions
Structure d’un email
Le protocole SMTP
Les technologies anti-spams

2
Définitions
Un spam est un email ne respectant pas la Loi
pour la Confiance dans l'Economie Numérique
(LEN) du 22 juin 2004, complétée par les
précisions d'interprétation définies par la CNIL
lors de la séance du 17 février 2005
Scam, Phishing, Bounces

3
Définitions
Faux-négatifs : spams interprétés comme étant
des courriers électroniques légitimes (spams
passant l’antispam).
Faux-positifs : messages licites interprétés
comme des spams.

Taux inversement proportionnés
Limiter au maximum le faux-positif (plus nuisible)
et gérer si possible les cas de faux-positifs.
4
Structure d’un mail

5
Structure d’un mail
From: "Stephane XXXX- XXX" <smxxxxx@oxxxx.com>
To: "Marc JXXXXN" <mxxxxn@oxxxxx.com>
Subject: TEST
Date: Fri, 25 Jul 2008 12:01:08 +0200
MIME-Version: 1.0
Content-Type: multipart/mixed;
boundary="----=_NextPart_000_0003_01C8EE4E.5AFEFFE0“

En-tête

Corps
TEST
TEST

------=_NextPart_000_0003_01C8EE4E.5AFEFFE0
Content-Type: image/gif; name="Test.gif"
Content-Transfer-Encoding: base64
Content-Disposition: attachment; filename="Test.gif"
R0lGODdhBQAFAIgAAP+AAAAAACwAAAAABQAFAAACBISPqVgAOw==
------=_NextPart_000_0003_01C8EE4E.5AFEFFE0--

6

MIME
Architecture SMTP
Domaine A.com

Domaine B.com

DNS.B.com

Mail.A.com

7

Mail.B.com
Protocole SMTP
Protocole « ouvert »,
Mode connecté (par acquittement),
Port TCP 25,
SMTP (Simple Mail Transfert Protocol)
→ RFC 821 (1982) puis 2821,
ESMTP (Extended SMTP)
→ RFC 1651(1994) compatibilité ascendante,
Chaque serveur traversé ajoute une entête
« Received » (Traçabilité).
8
Informations utiles
IP émettrice
OS serveur émetteur
Route empruntée par le mail (IPs)
Configuration du serveur émetteur
Protocole SMTP
Adresse email et domaine de l’expéditeur
En-tête du mail
Corps du mail
Pièces jointes
9
Reverse DNS
mail.altospam.com → 192.168.0.1
192.168.0.1 → mail.altospam.com
HELO mail.altospam.com

Certains Reverses sont mal configurés
Des opérateurs ne permettent pas la
personnalisation des Reverse-DNS
10
Validation de l’émetteur
Différence MAIL FROM: / From:
Vérification de l’existence de l’émetteur: no-reply
Vérification du domaine
• Whois
• MX
• Serveurs MX réels (avec une IP, à l’écoute)

11

Certains serveurs sont mal configurés
Le MAIL FROM: peut être différent du From:
Protocole SMTP
Présence et syntaxe du HELO/EHLO
Fully qualified domain name (FQDN)
Respect de la RFC 2821
Synchronisation et respect des acquittements

Les éditeurs ne respectent pas la RFC à 100%
Les serveurs ne sont pas toujours FQDN
12
Analyse heuristique
Utilisation d’expressions régulières : /C1al1s/
En-tête, corps, URL, contenu de pièces jointes...
Emailing: Respecter la RFC 2369 (champs
spécifiques)

Certains mots clef sont très mal appréciés mais
peuvent quant même apparaitre dans des emails
légitimes : CASINO / Géant Casino
13
Listes noires / listes blanches
RBL / DNSBL / LHSBL : IP
RHSBL / URIBL : domaines
Spamtrap, Définition des ip-whois, Dénonciation
d’Internaute, Relais SMTP, Antispam, Utilisateurs
inconnus, Serveurs générant des Bounces, Pays

90% des sociétés françaises se sont retrouvées
blacklistées un jour
14
Filtres Bayesiens
Distribution statistique de mots clé : spam / ham
Utilisé pour les logiciels sur postes utilisateurs
Apprentissage / Adaptabilité aux utilisateurs

Les Bounces ne peuvent pas être traités ainsi
Génère un taux non négligeable de faux-positifs
Biaisé par les contenus aléatoires
15
Bases collaboratives
Signature / Hash
Processus automatique par consultation

Deux mails peuvent générer un hash identique
Spams avec des contenus différents (aléatoire)
génèrent un hash différent
16
Authentification des emails
SPF / Caller-ID / Sender-ID
domaine.tld IN TXT "v=spf1 ip4:192.168.0.1/32 ~all"

DomainKeys / DKIM
DomainKey-Signature: a=rsa-sha1; q=dns; c=nofw

Permet simplement d’éviter l’usurpation de son
domaine par un tiers
Des spammeurs utilisent ces techniques pour
faciliter la délivrabilité de leurs spams
17
Greylisting
Refus temporaire 4xx
Triplet (IP émettrice, email émetteur, destinataire)
Réémission → Whiteliste

Génère de la latence dans la réception des emails
Ne bloque que env. 85% des spams (certains
spammeurs réémettent)
18
Teergrubing
Maintien de session du serveur expéditeur (ajout
de délais de réponse)
Technologie proactive contre les spammeurs

A n’utiliser que sur les spams certains
Sature également le serveur antispam
19
Analyse d’image / PDF
Caractéristiques (nombre d’images, dimensions,
tailles, format de fichier, colorimétrie,...)
OCR
Recherche: Découpage en zone / Datamining
(recherche d’images proches) → HSC

OCR peut facilement être trompé par le bruit
Les caractéristiques des images spam / ham
peuvent être très proches
20
Test de Turing
Authentification de l’expéditeur
Reconnaissance de l’utilisateur via un CAPTACH

Grand nombre de faux-positifs
Deux systèmes équivalents : ping-pong
Très simple à contourner pour un spammeur
Ne bloque pas les SCAM
Déport du problème sur l’expéditeur
Génère beaucoup de mails (augmente le flux)
21
OS Fingerprint
Détection du système d’exploitation du serveur
émetteur
Analyse du nom de sauts réseau

Ne peut être utilisé seul pour identifier un spam:
• Un serveur Linux, n’est pas forcément un bon serveur
• Un poste Windows XP n’est pas toujours un spammeur
22
Compression
Taille de la plus forte compression d’un email
Recherche des k-plus proches voisins
Extraction d’un vecteur représentant le mail
Recherche sur une base SVM (Support Vector
Machine) des k-plus proches voisins vectoriels

Recherches : Gilles Richard – IRIT Toulouse
Ne peut être le seul élément de détection
23
Conclusion
Technologies utilisées séparément
→ résultats non satisfaisants
Possèdent toutes des avantages et des
inconvénients propres

La combinaison judicieuse de plusieurs
(maximum) technologies
→ qualité filtrage performant
http://www.altospam.com/fr/Panorama-des-technologies-antispam.pdf
24
?
25

Panorama des technologies antispam

  • 1.
  • 2.
    Introduction Définitions Structure d’un email Leprotocole SMTP Les technologies anti-spams 2
  • 3.
    Définitions Un spam estun email ne respectant pas la Loi pour la Confiance dans l'Economie Numérique (LEN) du 22 juin 2004, complétée par les précisions d'interprétation définies par la CNIL lors de la séance du 17 février 2005 Scam, Phishing, Bounces 3
  • 4.
    Définitions Faux-négatifs : spamsinterprétés comme étant des courriers électroniques légitimes (spams passant l’antispam). Faux-positifs : messages licites interprétés comme des spams. Taux inversement proportionnés Limiter au maximum le faux-positif (plus nuisible) et gérer si possible les cas de faux-positifs. 4
  • 5.
  • 6.
    Structure d’un mail From:"Stephane XXXX- XXX" <smxxxxx@oxxxx.com> To: "Marc JXXXXN" <mxxxxn@oxxxxx.com> Subject: TEST Date: Fri, 25 Jul 2008 12:01:08 +0200 MIME-Version: 1.0 Content-Type: multipart/mixed; boundary="----=_NextPart_000_0003_01C8EE4E.5AFEFFE0“ En-tête Corps TEST TEST ------=_NextPart_000_0003_01C8EE4E.5AFEFFE0 Content-Type: image/gif; name="Test.gif" Content-Transfer-Encoding: base64 Content-Disposition: attachment; filename="Test.gif" R0lGODdhBQAFAIgAAP+AAAAAACwAAAAABQAFAAACBISPqVgAOw== ------=_NextPart_000_0003_01C8EE4E.5AFEFFE0-- 6 MIME
  • 7.
    Architecture SMTP Domaine A.com DomaineB.com DNS.B.com Mail.A.com 7 Mail.B.com
  • 8.
    Protocole SMTP Protocole «ouvert », Mode connecté (par acquittement), Port TCP 25, SMTP (Simple Mail Transfert Protocol) → RFC 821 (1982) puis 2821, ESMTP (Extended SMTP) → RFC 1651(1994) compatibilité ascendante, Chaque serveur traversé ajoute une entête « Received » (Traçabilité). 8
  • 9.
    Informations utiles IP émettrice OSserveur émetteur Route empruntée par le mail (IPs) Configuration du serveur émetteur Protocole SMTP Adresse email et domaine de l’expéditeur En-tête du mail Corps du mail Pièces jointes 9
  • 10.
    Reverse DNS mail.altospam.com →192.168.0.1 192.168.0.1 → mail.altospam.com HELO mail.altospam.com Certains Reverses sont mal configurés Des opérateurs ne permettent pas la personnalisation des Reverse-DNS 10
  • 11.
    Validation de l’émetteur DifférenceMAIL FROM: / From: Vérification de l’existence de l’émetteur: no-reply Vérification du domaine • Whois • MX • Serveurs MX réels (avec une IP, à l’écoute) 11 Certains serveurs sont mal configurés Le MAIL FROM: peut être différent du From:
  • 12.
    Protocole SMTP Présence etsyntaxe du HELO/EHLO Fully qualified domain name (FQDN) Respect de la RFC 2821 Synchronisation et respect des acquittements Les éditeurs ne respectent pas la RFC à 100% Les serveurs ne sont pas toujours FQDN 12
  • 13.
    Analyse heuristique Utilisation d’expressionsrégulières : /C1al1s/ En-tête, corps, URL, contenu de pièces jointes... Emailing: Respecter la RFC 2369 (champs spécifiques) Certains mots clef sont très mal appréciés mais peuvent quant même apparaitre dans des emails légitimes : CASINO / Géant Casino 13
  • 14.
    Listes noires /listes blanches RBL / DNSBL / LHSBL : IP RHSBL / URIBL : domaines Spamtrap, Définition des ip-whois, Dénonciation d’Internaute, Relais SMTP, Antispam, Utilisateurs inconnus, Serveurs générant des Bounces, Pays 90% des sociétés françaises se sont retrouvées blacklistées un jour 14
  • 15.
    Filtres Bayesiens Distribution statistiquede mots clé : spam / ham Utilisé pour les logiciels sur postes utilisateurs Apprentissage / Adaptabilité aux utilisateurs Les Bounces ne peuvent pas être traités ainsi Génère un taux non négligeable de faux-positifs Biaisé par les contenus aléatoires 15
  • 16.
    Bases collaboratives Signature /Hash Processus automatique par consultation Deux mails peuvent générer un hash identique Spams avec des contenus différents (aléatoire) génèrent un hash différent 16
  • 17.
    Authentification des emails SPF/ Caller-ID / Sender-ID domaine.tld IN TXT "v=spf1 ip4:192.168.0.1/32 ~all" DomainKeys / DKIM DomainKey-Signature: a=rsa-sha1; q=dns; c=nofw Permet simplement d’éviter l’usurpation de son domaine par un tiers Des spammeurs utilisent ces techniques pour faciliter la délivrabilité de leurs spams 17
  • 18.
    Greylisting Refus temporaire 4xx Triplet(IP émettrice, email émetteur, destinataire) Réémission → Whiteliste Génère de la latence dans la réception des emails Ne bloque que env. 85% des spams (certains spammeurs réémettent) 18
  • 19.
    Teergrubing Maintien de sessiondu serveur expéditeur (ajout de délais de réponse) Technologie proactive contre les spammeurs A n’utiliser que sur les spams certains Sature également le serveur antispam 19
  • 20.
    Analyse d’image /PDF Caractéristiques (nombre d’images, dimensions, tailles, format de fichier, colorimétrie,...) OCR Recherche: Découpage en zone / Datamining (recherche d’images proches) → HSC OCR peut facilement être trompé par le bruit Les caractéristiques des images spam / ham peuvent être très proches 20
  • 21.
    Test de Turing Authentificationde l’expéditeur Reconnaissance de l’utilisateur via un CAPTACH Grand nombre de faux-positifs Deux systèmes équivalents : ping-pong Très simple à contourner pour un spammeur Ne bloque pas les SCAM Déport du problème sur l’expéditeur Génère beaucoup de mails (augmente le flux) 21
  • 22.
    OS Fingerprint Détection dusystème d’exploitation du serveur émetteur Analyse du nom de sauts réseau Ne peut être utilisé seul pour identifier un spam: • Un serveur Linux, n’est pas forcément un bon serveur • Un poste Windows XP n’est pas toujours un spammeur 22
  • 23.
    Compression Taille de laplus forte compression d’un email Recherche des k-plus proches voisins Extraction d’un vecteur représentant le mail Recherche sur une base SVM (Support Vector Machine) des k-plus proches voisins vectoriels Recherches : Gilles Richard – IRIT Toulouse Ne peut être le seul élément de détection 23
  • 24.
    Conclusion Technologies utilisées séparément →résultats non satisfaisants Possèdent toutes des avantages et des inconvénients propres La combinaison judicieuse de plusieurs (maximum) technologies → qualité filtrage performant http://www.altospam.com/fr/Panorama-des-technologies-antispam.pdf 24
  • 25.