SlideShare une entreprise Scribd logo
1  sur  19
SPOT 1.0
                                           Scoring suspicious Profiles On Twitter
                                           MLI 1.0
                                           Multi-Layer Imbrication for data leakage prevention

                                           Charles PEREZ (UTT, ICD/ERA, UMR STMR)
2012 – Projet CPER CyNIC – Charles PEREZ
SPOT 1.0 : Analyse de Twitter


 Motivations
   Plus de 200 millions d’utilisateurs
   Facilement accessible depuis un smartphone
   Importante quantité de données accessibles et publiques
   Diffusion d’information rapide




                                      Réseaux sociaux numériques :
                nouveau vecteur de propagation d’URL malveillantes ?



     Perez, C., Lemercier, M., Birregah, B., & Corpel, A. (2011). SPOT 1.0: Scoring Suspicious Profiles On Twitter. In I. C.
     Society (Ed.), (pp. 377–381). Presented at the Advances in Social Networks Analysis and Mining (ASONAM).

Projet CPER CA CyNIC – Charles PEREZ– 25 mai 2012                                                                              2
SPOT 1.0 : Analyse de Twitter


  Approches existantes
    Détection de profils actifs (Wang 2010)
    Détection de spam à partir d’URLs (Benevenuto 2010)
    Analyse d’un profil malveillant (Yardi 2010)
    Conseils de configuration des profils (Gharibi 2011)

  Objectifs
    Mettre en œuvre des stratégies de collecte
    Mise en évidence de comportements suspects
    Mise en place d’un outil de détection de malveillance



 Wang, A. (2010). Don't follow me: Spam detection in twitter. Presented at the Int'l Conference on Security and Cryptography .
 Gharibi, W., & Shaabi, M. (2011). Cyber threats in social networking websites. arXiv.org.
 Yardi, S., Romero, D., Schoenebeck, G., & Boyd, D. M. (2010). Detecting spam in a Twitter network. First Monday, 15(1).
 Benevenuto, F., Magno, G., Rodrigues, T., & Almeida, V. (2010). Detecting spammers on Twitter. Presented at the Proceedings
 of the 7th Annual Collaboration, Electronic messaging, Anti-Abuse and Spam Conference (CEAS).



Projet CPER CA CyNIC – Charles PEREZ– 25 mai 2012                                                                                3
SPOT 1.0 : Scoring Suspicious Profiles On Twitter


 Fonctionnalités
   Détection de profils suspects
   Détection de profils malveillants
   Outil d’aide à la décision




Projet CPER CA CyNIC – Charles PEREZ– 25 mai 2012   4
SPOT 1.0 : étape 1 (la collecte)


 Les flux de données
   Méthode
     Connexion aux flux RSS par l’API
   Données
     Tweets + profils utilisateurs
   Quantité
     1 million de profils
     1.2 millions de tweets
   Contraintes
     Quantité de données accessibles
   Durée
     3 jours




Projet CPER CA CyNIC – Charles PEREZ– 25 mai 2012   5
SPOT 1.0 : étape 2 - La génération d’indicateurs

Indicateurs reflétant le comportement d’un utilisateur
de Twitter…

        Quantité d’amis
        Quantité de suiveurs
        Quantité totale de tweets
        Fréquence de Tweets
        Quantité de références dans les tweets
        Quantité de hashtags dans les tweets
        Quantité d’URLs dans les tweets
        Fréquence de création de liens
        Distance entre les tweets
        Age du profil
        Etc


Projet CPER CA CyNIC – Charles PEREZ– 25 mai 2012        6
SPOT 1.0 : étape 3- La classification

Outils mathématiques permettant de classifier des entités
en fonction de leurs caractéristiques et de données
d’apprentissage

 Techniques
   Classification naïve bayésienne
   K-plus proches voisins
   Machines à vecteurs de support
   Réseaux de neurones

 Objectifs
   Identifier les profils suspects et profils non suspects
   Analyser plus précisément les individus suspects




Projet CPER CA CyNIC – Charles PEREZ– 25 mai 2012             7
SPOT 1.0 : étape 4 - Analyse des URLs


Analyse des URLs issues de profils anormaux


 Motivations
   Les services de raccourcissement d’URLs sont très largement utilisés
   Les URLs malveillantes peuvent être masquées

 Objectifs
   Identifier les URLS malveillantes

 Approches
   Classification des URLs par les techniques existantes
   Se baser sur les bases de données d’URLS malveillantes (e.g. Phishtank)




Projet CPER CA CyNIC – Charles PEREZ– 25 mai 2012                             8
SPOT 1.0 : étape 5 - Représentation 3D
Visualisation de la virulence des profils




Projet CPER CA CyNIC – Charles PEREZ– 25 mai 2012   9
SPOT 1.0 : étape 5 - Démonstration
Visualisation de la virulence des profils




Projet CPER CA CyNIC – Charles PEREZ– 25 mai 2012   10
MLI 1.0 : Analyse d’un réseaux social egocentrique sur Facebook


 Motivations
   Données stratégiques sont publiées sur les RSN
   L’audience d’un utilisateur est grande
   Le cercle de contact pas nécessairement de confiance et pourtant…
   Les règles de confidentialité sont souvent basées sur le principe suivant :
                    « les amis sont des personnes de confiance »

 Objectifs
   Rendre au plus juste l’hypothèse précédente
   Élaborer une stratégie de détection de contacts non légitimes
   Limiter les fuites d’information par ce moyen (phishing, espionnage
    numérique, etc. )




Projet CPER CA CyNIC – Charles PEREZ– 25 mai 2012                                 11
MLI 1.0 : Prédiction de liens sur les RSN


  Approches existantes (Link prediction problem)

             Common Neighbors index (CN)
             Salton Index
             Jaccard Index
             Sorensen Index
              Hub Promoted Index (HPI)
              Hub Depressed Index (HDI)
             Leicht-Holme-Newman Index (LHN)
             Preferential Attachment Index (PA)
             Adamic Adar Index (AA)
             Resource Allocation Index (RA).       Réseau égocentrique d’ordre 2 sur
                                                              Facebook




Projet CPER CA CyNIC – Charles PEREZ– 25 mai 2012                                   12
MLI 1.0 : Approche locale pour la prédiction de liens


 Approche Locale (smartphone)
   Utiliser les différents media de communication
   Construire un indicateur de confiance
   Enrichir les indicateurs existant



 Méthode
   Retrouver les contacts redondants
   Évaluer leur importance



 Réseaux sociaux analysés
   Twitter, Facebook
   Carnet d’adresse, Google+



Projet CPER CA CyNIC – Charles PEREZ– 25 mai 2012       13
MLI 1.0 : Identification de profils redondants




                                                    Modèle multi couche




    BDD SQLite extraites d’un iPhone 3GS
    Firmware 4.3.5
Projet CPER CA CyNIC – Charles PEREZ– 25 mai 2012                         14
MLI 1.0 : Identification de profils redondants




Projet CPER CA CyNIC – Charles PEREZ– 25 mai 2012   15
MLI 1.0 : Formulation mathématique

 Un ensemble de graphes :


 Fonction d’identification :




 Imbrication d’un nœud dans une couche


 Imbrication d’un nœud dans un ensemble de couches




Projet CPER CA CyNIC – Charles PEREZ– 25 mai 2012    16
MLI 1.0 : Exemple de proposition

  Indicateur d’allocation de ressources (RA):




         Fonction des voisins communs
         Fonction du nombre de contacts des voisins communs

  Allocation pondéré de ressource




         Fonction des voisins communs
         Fonction du nombre de contacts de ces voisins communs
         Fonction de l’imbrication des voisins communs

Projet CPER CA CyNIC – Charles PEREZ– 25 mai 2012                 17
MLI 1.0 : Résultats (AUC)



                  Indices                   DataSet 1   DataSet 2
                  CN                        0.908       0.892
                  Salton                    0.910       0.889
                  Jaccard                   0.907       0.897
                  Sorensen                  0.907       0.892
                  HPI                       0.905       0.891
                  HDI                       0.918       0.886
                  LHN                       0.913       0.878
                  PA                        0.535       0.559
                  AA                        0.901       0.833
                  RA                        0.886       0.843
                  WRA                       0.983       0.921



Projet CPER CA CyNIC – Charles PEREZ– 25 mai 2012                   18
MLI 1.0 : Conclusion

  Résultats


         Les données locales au smartphone peuvent être utiles pour la prévention de
          fuite d’information liée à nos contacts
         Le modèle multi couche s’adapte très bien aux données d’un smartphone
         L’indicateur d’imbrication met en évidence des aspects intéressant du
          comportement des utilisateurs


  Perspectives
    Développer une application smartphone permettant d’effectuer le traitement
     des contacts
    Intégrer les échanges par sms, mail dans le modèle.
    Ajouter le critère spatio-temporel
    Pondérer les interactions sur chacune des couches


Projet CPER CA CyNIC – Charles PEREZ– 25 mai 2012                                   19

Contenu connexe

En vedette

Pdf Et Livre éLectronique
Pdf Et Livre éLectroniquePdf Et Livre éLectronique
Pdf Et Livre éLectroniquelucielefebvre
 
TP1 Traitement d'images Génie Logiciel avec Matlab
TP1 Traitement d'images Génie Logiciel avec MatlabTP1 Traitement d'images Génie Logiciel avec Matlab
TP1 Traitement d'images Génie Logiciel avec MatlabMariem ZAOUALI
 
Electronique de puissance
Electronique de puissanceElectronique de puissance
Electronique de puissanceAmine Chahed
 
Electrotechnique : Exercices corrigés
Electrotechnique : Exercices corrigésElectrotechnique : Exercices corrigés
Electrotechnique : Exercices corrigésRAMZI EL IDRISSI
 
PFE Réalisation d’un onduleur monophasé autonome commandé par PIC 16F877
PFE Réalisation d’un onduleur monophasé autonome commandé par PIC 16F877PFE Réalisation d’un onduleur monophasé autonome commandé par PIC 16F877
PFE Réalisation d’un onduleur monophasé autonome commandé par PIC 16F877RAMZI EL IDRISSI
 
Gestion de la batterie d'un micro-drone projet fin d'année NIDBELKACEM Mouhci...
Gestion de la batterie d'un micro-drone projet fin d'année NIDBELKACEM Mouhci...Gestion de la batterie d'un micro-drone projet fin d'année NIDBELKACEM Mouhci...
Gestion de la batterie d'un micro-drone projet fin d'année NIDBELKACEM Mouhci...Mouhcine Nid Belkacem
 
Conception robot mobile
Conception robot mobile Conception robot mobile
Conception robot mobile Mouna Souissi
 
Gestion de la batterie d'un micro-drone projet fin d'année NIDBELKACEM Mouhci...
Gestion de la batterie d'un micro-drone projet fin d'année NIDBELKACEM Mouhci...Gestion de la batterie d'un micro-drone projet fin d'année NIDBELKACEM Mouhci...
Gestion de la batterie d'un micro-drone projet fin d'année NIDBELKACEM Mouhci...Mouhcine Nid Belkacem
 
Mémoire Doc.PDF
Mémoire Doc.PDFMémoire Doc.PDF
Mémoire Doc.PDFsadak amine
 
Exercices corrigés-sur-convertisseurs-statiques-2-bac-science-d ingénieur
Exercices corrigés-sur-convertisseurs-statiques-2-bac-science-d ingénieurExercices corrigés-sur-convertisseurs-statiques-2-bac-science-d ingénieur
Exercices corrigés-sur-convertisseurs-statiques-2-bac-science-d ingénieurzahir99
 
Présentation ppt du pfe diagnostique des machines asynchrones
Présentation ppt du pfe diagnostique des machines asynchronesPrésentation ppt du pfe diagnostique des machines asynchrones
Présentation ppt du pfe diagnostique des machines asynchronesMohamed Arhoujdam
 
Ppt ines f
Ppt ines fPpt ines f
Ppt ines fInès IG
 
Equilibrio vida personal laboral ss
Equilibrio vida personal laboral ssEquilibrio vida personal laboral ss
Equilibrio vida personal laboral ssLiz Philip
 
Diplomados, programas y cursos de Cendeco (jul-sep 2011)
Diplomados, programas y cursos de Cendeco (jul-sep 2011)Diplomados, programas y cursos de Cendeco (jul-sep 2011)
Diplomados, programas y cursos de Cendeco (jul-sep 2011)UNIMET
 
RSLN #9 - Cloud Computing : qu'est-ce que cela va changer ?
RSLN #9 - Cloud Computing : qu'est-ce que cela va changer ?RSLN #9 - Cloud Computing : qu'est-ce que cela va changer ?
RSLN #9 - Cloud Computing : qu'est-ce que cela va changer ?Arthur Jauffret
 
Arbre généalogique
Arbre généalogiqueArbre généalogique
Arbre généalogiquecosty94
 
Skc lifesciences presentation
Skc lifesciences presentationSkc lifesciences presentation
Skc lifesciences presentationskcprabhu
 

En vedette (20)

Soutenance de projet de fin d'études
Soutenance de projet de fin d'étudesSoutenance de projet de fin d'études
Soutenance de projet de fin d'études
 
Pdf Et Livre éLectronique
Pdf Et Livre éLectroniquePdf Et Livre éLectronique
Pdf Et Livre éLectronique
 
TP1 Traitement d'images Génie Logiciel avec Matlab
TP1 Traitement d'images Génie Logiciel avec MatlabTP1 Traitement d'images Génie Logiciel avec Matlab
TP1 Traitement d'images Génie Logiciel avec Matlab
 
Electronique de puissance
Electronique de puissanceElectronique de puissance
Electronique de puissance
 
Electrotechnique : Exercices corrigés
Electrotechnique : Exercices corrigésElectrotechnique : Exercices corrigés
Electrotechnique : Exercices corrigés
 
PFE Réalisation d’un onduleur monophasé autonome commandé par PIC 16F877
PFE Réalisation d’un onduleur monophasé autonome commandé par PIC 16F877PFE Réalisation d’un onduleur monophasé autonome commandé par PIC 16F877
PFE Réalisation d’un onduleur monophasé autonome commandé par PIC 16F877
 
Gestion de la batterie d'un micro-drone projet fin d'année NIDBELKACEM Mouhci...
Gestion de la batterie d'un micro-drone projet fin d'année NIDBELKACEM Mouhci...Gestion de la batterie d'un micro-drone projet fin d'année NIDBELKACEM Mouhci...
Gestion de la batterie d'un micro-drone projet fin d'année NIDBELKACEM Mouhci...
 
Conception robot mobile
Conception robot mobile Conception robot mobile
Conception robot mobile
 
Gestion de la batterie d'un micro-drone projet fin d'année NIDBELKACEM Mouhci...
Gestion de la batterie d'un micro-drone projet fin d'année NIDBELKACEM Mouhci...Gestion de la batterie d'un micro-drone projet fin d'année NIDBELKACEM Mouhci...
Gestion de la batterie d'un micro-drone projet fin d'année NIDBELKACEM Mouhci...
 
Mémoire Doc.PDF
Mémoire Doc.PDFMémoire Doc.PDF
Mémoire Doc.PDF
 
Poly ep
Poly epPoly ep
Poly ep
 
Exercices corrigés-sur-convertisseurs-statiques-2-bac-science-d ingénieur
Exercices corrigés-sur-convertisseurs-statiques-2-bac-science-d ingénieurExercices corrigés-sur-convertisseurs-statiques-2-bac-science-d ingénieur
Exercices corrigés-sur-convertisseurs-statiques-2-bac-science-d ingénieur
 
Présentation ppt du pfe diagnostique des machines asynchrones
Présentation ppt du pfe diagnostique des machines asynchronesPrésentation ppt du pfe diagnostique des machines asynchrones
Présentation ppt du pfe diagnostique des machines asynchrones
 
Ppt ines f
Ppt ines fPpt ines f
Ppt ines f
 
Equilibrio vida personal laboral ss
Equilibrio vida personal laboral ssEquilibrio vida personal laboral ss
Equilibrio vida personal laboral ss
 
Diplomados, programas y cursos de Cendeco (jul-sep 2011)
Diplomados, programas y cursos de Cendeco (jul-sep 2011)Diplomados, programas y cursos de Cendeco (jul-sep 2011)
Diplomados, programas y cursos de Cendeco (jul-sep 2011)
 
libro complementario esc sab capitulo 06
libro complementario esc sab capitulo 06libro complementario esc sab capitulo 06
libro complementario esc sab capitulo 06
 
RSLN #9 - Cloud Computing : qu'est-ce que cela va changer ?
RSLN #9 - Cloud Computing : qu'est-ce que cela va changer ?RSLN #9 - Cloud Computing : qu'est-ce que cela va changer ?
RSLN #9 - Cloud Computing : qu'est-ce que cela va changer ?
 
Arbre généalogique
Arbre généalogiqueArbre généalogique
Arbre généalogique
 
Skc lifesciences presentation
Skc lifesciences presentationSkc lifesciences presentation
Skc lifesciences presentation
 

Similaire à Spot1 & MLI1

Competitic securite données - numerique en entreprise
Competitic   securite données - numerique en entrepriseCompetitic   securite données - numerique en entreprise
Competitic securite données - numerique en entrepriseCOMPETITIC
 
Asterid: Linked Data Asterisms
Asterid: Linked Data AsterismsAsterid: Linked Data Asterisms
Asterid: Linked Data AsterismsGregoire Burel
 
Presentation 2009 offre Social Computing
Presentation 2009 offre Social ComputingPresentation 2009 offre Social Computing
Presentation 2009 offre Social ComputingSocial Computing
 
Introduction mettre-en-place-un-systeme-de-veille-avec-des-outils-gratuits
Introduction mettre-en-place-un-systeme-de-veille-avec-des-outils-gratuitsIntroduction mettre-en-place-un-systeme-de-veille-avec-des-outils-gratuits
Introduction mettre-en-place-un-systeme-de-veille-avec-des-outils-gratuitsMokhtar Saada
 
Sa data analyst
Sa   data analystSa   data analyst
Sa data analystNcib J
 
2013 smrf-nodexl-sna-socialmedia-fr version -130320011951-phpapp01-1 2
2013 smrf-nodexl-sna-socialmedia-fr version -130320011951-phpapp01-1 22013 smrf-nodexl-sna-socialmedia-fr version -130320011951-phpapp01-1 2
2013 smrf-nodexl-sna-socialmedia-fr version -130320011951-phpapp01-1 2Cyrille P.
 
La sécurité au service de l’innovation [#CloudAccelerate 13/06/2014 @ IBM CC ...
La sécurité au service de l’innovation [#CloudAccelerate 13/06/2014 @ IBM CC ...La sécurité au service de l’innovation [#CloudAccelerate 13/06/2014 @ IBM CC ...
La sécurité au service de l’innovation [#CloudAccelerate 13/06/2014 @ IBM CC ...IBM France PME-ETI
 
Nos métiers électroniques 2.0
Nos métiers électroniques 2.0Nos métiers électroniques 2.0
Nos métiers électroniques 2.0Cecil Dijoux
 
Programme de cybersécurité : Implementer le framework NIST CSF en entreprise
Programme de cybersécurité : Implementer le framework NIST CSF en entrepriseProgramme de cybersécurité : Implementer le framework NIST CSF en entreprise
Programme de cybersécurité : Implementer le framework NIST CSF en entrepriseEyesOpen Association
 
APIs Facebook, Twitter, Foursquare… tirer parti des réseaux sociaux dans votr...
APIs Facebook, Twitter, Foursquare… tirer parti des réseaux sociaux dans votr...APIs Facebook, Twitter, Foursquare… tirer parti des réseaux sociaux dans votr...
APIs Facebook, Twitter, Foursquare… tirer parti des réseaux sociaux dans votr...Microsoft
 
Applications du Web Sémantique
Applications du Web SémantiqueApplications du Web Sémantique
Applications du Web SémantiqueYves Otis
 
Nuit du Big Data, 10 Décembre 2014
Nuit du Big Data, 10 Décembre 2014Nuit du Big Data, 10 Décembre 2014
Nuit du Big Data, 10 Décembre 2014Alexandre Weisz
 
Session découverte de la Data Virtualization
Session découverte de la Data VirtualizationSession découverte de la Data Virtualization
Session découverte de la Data VirtualizationDenodo
 
Audit digital - Bases module et outils d'analyse
Audit digital - Bases module et outils d'analyseAudit digital - Bases module et outils d'analyse
Audit digital - Bases module et outils d'analyseEdouard Bourbon
 
Introduction à Neo4j
Introduction à Neo4jIntroduction à Neo4j
Introduction à Neo4jNeo4j
 
Rapport modélisation web 2.0
Rapport modélisation web 2.0Rapport modélisation web 2.0
Rapport modélisation web 2.0Tbatou sanae
 
Comment le contexte rend l’IA plus fiable et plus efficace ? - Webinaire 11 f...
Comment le contexte rend l’IA plus fiable et plus efficace ? - Webinaire 11 f...Comment le contexte rend l’IA plus fiable et plus efficace ? - Webinaire 11 f...
Comment le contexte rend l’IA plus fiable et plus efficace ? - Webinaire 11 f...Neo4j
 
Sécurité dans les contrats d'externalisation de services de développement et ...
Sécurité dans les contrats d'externalisation de services de développement et ...Sécurité dans les contrats d'externalisation de services de développement et ...
Sécurité dans les contrats d'externalisation de services de développement et ...Antonio Fontes
 
Big Data & contrôle des données
Big Data & contrôle des donnéesBig Data & contrôle des données
Big Data & contrôle des donnéesStephane Droxler
 

Similaire à Spot1 & MLI1 (20)

Competitic securite données - numerique en entreprise
Competitic   securite données - numerique en entrepriseCompetitic   securite données - numerique en entreprise
Competitic securite données - numerique en entreprise
 
Asterid: Linked Data Asterisms
Asterid: Linked Data AsterismsAsterid: Linked Data Asterisms
Asterid: Linked Data Asterisms
 
Presentation 2009 offre Social Computing
Presentation 2009 offre Social ComputingPresentation 2009 offre Social Computing
Presentation 2009 offre Social Computing
 
Introduction mettre-en-place-un-systeme-de-veille-avec-des-outils-gratuits
Introduction mettre-en-place-un-systeme-de-veille-avec-des-outils-gratuitsIntroduction mettre-en-place-un-systeme-de-veille-avec-des-outils-gratuits
Introduction mettre-en-place-un-systeme-de-veille-avec-des-outils-gratuits
 
Sa data analyst
Sa   data analystSa   data analyst
Sa data analyst
 
2013 smrf-nodexl-sna-socialmedia-fr version -130320011951-phpapp01-1 2
2013 smrf-nodexl-sna-socialmedia-fr version -130320011951-phpapp01-1 22013 smrf-nodexl-sna-socialmedia-fr version -130320011951-phpapp01-1 2
2013 smrf-nodexl-sna-socialmedia-fr version -130320011951-phpapp01-1 2
 
Démystifions l'API-culture!
Démystifions l'API-culture!Démystifions l'API-culture!
Démystifions l'API-culture!
 
La sécurité au service de l’innovation [#CloudAccelerate 13/06/2014 @ IBM CC ...
La sécurité au service de l’innovation [#CloudAccelerate 13/06/2014 @ IBM CC ...La sécurité au service de l’innovation [#CloudAccelerate 13/06/2014 @ IBM CC ...
La sécurité au service de l’innovation [#CloudAccelerate 13/06/2014 @ IBM CC ...
 
Nos métiers électroniques 2.0
Nos métiers électroniques 2.0Nos métiers électroniques 2.0
Nos métiers électroniques 2.0
 
Programme de cybersécurité : Implementer le framework NIST CSF en entreprise
Programme de cybersécurité : Implementer le framework NIST CSF en entrepriseProgramme de cybersécurité : Implementer le framework NIST CSF en entreprise
Programme de cybersécurité : Implementer le framework NIST CSF en entreprise
 
APIs Facebook, Twitter, Foursquare… tirer parti des réseaux sociaux dans votr...
APIs Facebook, Twitter, Foursquare… tirer parti des réseaux sociaux dans votr...APIs Facebook, Twitter, Foursquare… tirer parti des réseaux sociaux dans votr...
APIs Facebook, Twitter, Foursquare… tirer parti des réseaux sociaux dans votr...
 
Applications du Web Sémantique
Applications du Web SémantiqueApplications du Web Sémantique
Applications du Web Sémantique
 
Nuit du Big Data, 10 Décembre 2014
Nuit du Big Data, 10 Décembre 2014Nuit du Big Data, 10 Décembre 2014
Nuit du Big Data, 10 Décembre 2014
 
Session découverte de la Data Virtualization
Session découverte de la Data VirtualizationSession découverte de la Data Virtualization
Session découverte de la Data Virtualization
 
Audit digital - Bases module et outils d'analyse
Audit digital - Bases module et outils d'analyseAudit digital - Bases module et outils d'analyse
Audit digital - Bases module et outils d'analyse
 
Introduction à Neo4j
Introduction à Neo4jIntroduction à Neo4j
Introduction à Neo4j
 
Rapport modélisation web 2.0
Rapport modélisation web 2.0Rapport modélisation web 2.0
Rapport modélisation web 2.0
 
Comment le contexte rend l’IA plus fiable et plus efficace ? - Webinaire 11 f...
Comment le contexte rend l’IA plus fiable et plus efficace ? - Webinaire 11 f...Comment le contexte rend l’IA plus fiable et plus efficace ? - Webinaire 11 f...
Comment le contexte rend l’IA plus fiable et plus efficace ? - Webinaire 11 f...
 
Sécurité dans les contrats d'externalisation de services de développement et ...
Sécurité dans les contrats d'externalisation de services de développement et ...Sécurité dans les contrats d'externalisation de services de développement et ...
Sécurité dans les contrats d'externalisation de services de développement et ...
 
Big Data & contrôle des données
Big Data & contrôle des donnéesBig Data & contrôle des données
Big Data & contrôle des données
 

Spot1 & MLI1

  • 1. SPOT 1.0 Scoring suspicious Profiles On Twitter MLI 1.0 Multi-Layer Imbrication for data leakage prevention Charles PEREZ (UTT, ICD/ERA, UMR STMR) 2012 – Projet CPER CyNIC – Charles PEREZ
  • 2. SPOT 1.0 : Analyse de Twitter  Motivations  Plus de 200 millions d’utilisateurs  Facilement accessible depuis un smartphone  Importante quantité de données accessibles et publiques  Diffusion d’information rapide Réseaux sociaux numériques : nouveau vecteur de propagation d’URL malveillantes ? Perez, C., Lemercier, M., Birregah, B., & Corpel, A. (2011). SPOT 1.0: Scoring Suspicious Profiles On Twitter. In I. C. Society (Ed.), (pp. 377–381). Presented at the Advances in Social Networks Analysis and Mining (ASONAM). Projet CPER CA CyNIC – Charles PEREZ– 25 mai 2012 2
  • 3. SPOT 1.0 : Analyse de Twitter  Approches existantes  Détection de profils actifs (Wang 2010)  Détection de spam à partir d’URLs (Benevenuto 2010)  Analyse d’un profil malveillant (Yardi 2010)  Conseils de configuration des profils (Gharibi 2011)  Objectifs  Mettre en œuvre des stratégies de collecte  Mise en évidence de comportements suspects  Mise en place d’un outil de détection de malveillance Wang, A. (2010). Don't follow me: Spam detection in twitter. Presented at the Int'l Conference on Security and Cryptography . Gharibi, W., & Shaabi, M. (2011). Cyber threats in social networking websites. arXiv.org. Yardi, S., Romero, D., Schoenebeck, G., & Boyd, D. M. (2010). Detecting spam in a Twitter network. First Monday, 15(1). Benevenuto, F., Magno, G., Rodrigues, T., & Almeida, V. (2010). Detecting spammers on Twitter. Presented at the Proceedings of the 7th Annual Collaboration, Electronic messaging, Anti-Abuse and Spam Conference (CEAS). Projet CPER CA CyNIC – Charles PEREZ– 25 mai 2012 3
  • 4. SPOT 1.0 : Scoring Suspicious Profiles On Twitter  Fonctionnalités  Détection de profils suspects  Détection de profils malveillants  Outil d’aide à la décision Projet CPER CA CyNIC – Charles PEREZ– 25 mai 2012 4
  • 5. SPOT 1.0 : étape 1 (la collecte)  Les flux de données  Méthode  Connexion aux flux RSS par l’API  Données  Tweets + profils utilisateurs  Quantité  1 million de profils  1.2 millions de tweets  Contraintes  Quantité de données accessibles  Durée  3 jours Projet CPER CA CyNIC – Charles PEREZ– 25 mai 2012 5
  • 6. SPOT 1.0 : étape 2 - La génération d’indicateurs Indicateurs reflétant le comportement d’un utilisateur de Twitter…  Quantité d’amis  Quantité de suiveurs  Quantité totale de tweets  Fréquence de Tweets  Quantité de références dans les tweets  Quantité de hashtags dans les tweets  Quantité d’URLs dans les tweets  Fréquence de création de liens  Distance entre les tweets  Age du profil  Etc Projet CPER CA CyNIC – Charles PEREZ– 25 mai 2012 6
  • 7. SPOT 1.0 : étape 3- La classification Outils mathématiques permettant de classifier des entités en fonction de leurs caractéristiques et de données d’apprentissage  Techniques  Classification naïve bayésienne  K-plus proches voisins  Machines à vecteurs de support  Réseaux de neurones  Objectifs  Identifier les profils suspects et profils non suspects  Analyser plus précisément les individus suspects Projet CPER CA CyNIC – Charles PEREZ– 25 mai 2012 7
  • 8. SPOT 1.0 : étape 4 - Analyse des URLs Analyse des URLs issues de profils anormaux  Motivations  Les services de raccourcissement d’URLs sont très largement utilisés  Les URLs malveillantes peuvent être masquées  Objectifs  Identifier les URLS malveillantes  Approches  Classification des URLs par les techniques existantes  Se baser sur les bases de données d’URLS malveillantes (e.g. Phishtank) Projet CPER CA CyNIC – Charles PEREZ– 25 mai 2012 8
  • 9. SPOT 1.0 : étape 5 - Représentation 3D Visualisation de la virulence des profils Projet CPER CA CyNIC – Charles PEREZ– 25 mai 2012 9
  • 10. SPOT 1.0 : étape 5 - Démonstration Visualisation de la virulence des profils Projet CPER CA CyNIC – Charles PEREZ– 25 mai 2012 10
  • 11. MLI 1.0 : Analyse d’un réseaux social egocentrique sur Facebook  Motivations  Données stratégiques sont publiées sur les RSN  L’audience d’un utilisateur est grande  Le cercle de contact pas nécessairement de confiance et pourtant…  Les règles de confidentialité sont souvent basées sur le principe suivant : « les amis sont des personnes de confiance »  Objectifs  Rendre au plus juste l’hypothèse précédente  Élaborer une stratégie de détection de contacts non légitimes  Limiter les fuites d’information par ce moyen (phishing, espionnage numérique, etc. ) Projet CPER CA CyNIC – Charles PEREZ– 25 mai 2012 11
  • 12. MLI 1.0 : Prédiction de liens sur les RSN  Approches existantes (Link prediction problem)  Common Neighbors index (CN)  Salton Index  Jaccard Index  Sorensen Index  Hub Promoted Index (HPI)  Hub Depressed Index (HDI)  Leicht-Holme-Newman Index (LHN)  Preferential Attachment Index (PA)  Adamic Adar Index (AA)  Resource Allocation Index (RA). Réseau égocentrique d’ordre 2 sur Facebook Projet CPER CA CyNIC – Charles PEREZ– 25 mai 2012 12
  • 13. MLI 1.0 : Approche locale pour la prédiction de liens  Approche Locale (smartphone)  Utiliser les différents media de communication  Construire un indicateur de confiance  Enrichir les indicateurs existant  Méthode  Retrouver les contacts redondants  Évaluer leur importance  Réseaux sociaux analysés  Twitter, Facebook  Carnet d’adresse, Google+ Projet CPER CA CyNIC – Charles PEREZ– 25 mai 2012 13
  • 14. MLI 1.0 : Identification de profils redondants Modèle multi couche BDD SQLite extraites d’un iPhone 3GS Firmware 4.3.5 Projet CPER CA CyNIC – Charles PEREZ– 25 mai 2012 14
  • 15. MLI 1.0 : Identification de profils redondants Projet CPER CA CyNIC – Charles PEREZ– 25 mai 2012 15
  • 16. MLI 1.0 : Formulation mathématique Un ensemble de graphes : Fonction d’identification : Imbrication d’un nœud dans une couche Imbrication d’un nœud dans un ensemble de couches Projet CPER CA CyNIC – Charles PEREZ– 25 mai 2012 16
  • 17. MLI 1.0 : Exemple de proposition  Indicateur d’allocation de ressources (RA):  Fonction des voisins communs  Fonction du nombre de contacts des voisins communs  Allocation pondéré de ressource  Fonction des voisins communs  Fonction du nombre de contacts de ces voisins communs  Fonction de l’imbrication des voisins communs Projet CPER CA CyNIC – Charles PEREZ– 25 mai 2012 17
  • 18. MLI 1.0 : Résultats (AUC) Indices DataSet 1 DataSet 2 CN 0.908 0.892 Salton 0.910 0.889 Jaccard 0.907 0.897 Sorensen 0.907 0.892 HPI 0.905 0.891 HDI 0.918 0.886 LHN 0.913 0.878 PA 0.535 0.559 AA 0.901 0.833 RA 0.886 0.843 WRA 0.983 0.921 Projet CPER CA CyNIC – Charles PEREZ– 25 mai 2012 18
  • 19. MLI 1.0 : Conclusion  Résultats  Les données locales au smartphone peuvent être utiles pour la prévention de fuite d’information liée à nos contacts  Le modèle multi couche s’adapte très bien aux données d’un smartphone  L’indicateur d’imbrication met en évidence des aspects intéressant du comportement des utilisateurs  Perspectives  Développer une application smartphone permettant d’effectuer le traitement des contacts  Intégrer les échanges par sms, mail dans le modèle.  Ajouter le critère spatio-temporel  Pondérer les interactions sur chacune des couches Projet CPER CA CyNIC – Charles PEREZ– 25 mai 2012 19