Introduction au datamining, concepts et techniquesIsmail CHAIB
Face à l’importance grandissante que prend l’information, le datamining offre une solution pour maitriser la complexité et synthétiser les amas de données pour faire jaillir de la connaissance.
Cet exposé introduit la notion de datamining dans son ensemble à travers ses concepts et ses principes, et survole quelques techniques utilisées lors de ce processus.
Comment Sémantique et Data Mining peuvent aider le SEO ?
- Aide à l’analyse pour SEO (& SEM)
- Annotation de contenus existants
- Création de contenus
- La question du multimédia
Présentation de l'Image Mining dans le cadre des Base de Données Avancées en Master Informatique Appliquée au Développement Offshore à l'Université Mohammed V - Agdal de Rabat.
Définition du data mining, intervention du Data Mining dans une chaîne décisionnelle, applications, méthodes de travail, processus KDD (ECD, Extraction de connaissances à partir de Données), méthode SEMMA de SAS, méthode CRISP-DM, etc.
Représentation sous forme de graphe d'états
Global Problem Solver
Algorithmes de Recherche Aveugles
Algorithmes de Recherche Informés
Depth First Search
Breadth First Search
Best First Search
A, A*
Fonction heuristique, Fonction heuristique admissible
El video musical de Katy Perry "E.T." promueve la idea de que los extraterrestres crearon a la humanidad y presenta a Perry como un ser extraterrestre que le da vida a un robot. Este mensaje forma parte de una agenda para establecer una nueva religión mundial basada en la creencia de que los seres humanos fueron creados por entidades de otros mundos en lugar de Dios.
Este curso enseña las habilidades necesarias para organizar eventos de manera exitosa. Los estudiantes aprenderán sobre planificación, presupuestos, promoción, seguridad y otros aspectos clave de la organización de eventos. Al completar el curso, los estudiantes podrán organizar y administrar eventos de manera profesional.
El Hotel Holiday Inn Madrid Bernabeu, de cuatro estrellas,
siempre ha contado con la ventaja de su excelente ubicación; situado a solamente 15 minutos del aeropuerto internacional de Madrid y del centro Internacional de Exposiciones, IFEMA; en coche o taxi, además de estar conectado con la línea 8 de Metro. Situado en pleno distrito financiero de Madrid, a 200 metros del Palacio de Congresos, Santiago Bernabeu, Centro Comercial de El corte Ingles; y a tan solo 10 minutos del centro
histórico de Madrid.
El Hotel llevó a cabo en el 2005 una gran re-decoración de
todas sus zonas nobles, con la intención de crear un entorno más cálido y moderno.
El documento describe cómo un escritor inglés observaba un barco lanzando su ancla en un mar enfurecido. Aunque parecía un juguete a merced de los elementos, el barco resistía las fuerzas de la naturaleza con tranquilidad porque su seguridad dependía del ancla fijada al fondo del mar. De manera similar, aunque a veces nos sintamos sacudidos por las circunstancias de la vida, podemos experimentar seguridad y esperanza confiando en Dios, que funciona como un ancla para nuestra vida.
Webassadors - Mixology #13 - Actu' Web de la semaine du 29.09.14Webassadors
Dans cette édition:
LE BRANDING MIX
Fitness de Nestlé, la joue affriolante
Redbull, la Battle For Paris
Go Sport, l'opération sportive #LETSGO
Clopify, #Mondernierpaquet
Renault se met aux escarpins
Vueling nous offre un bain de lumière
The Voice (Brésil), son "Skip Ad"
Coca Cola et Ubisoft entrent dans la danse
Le #HelloMorningFestival de Nutella
Dove, l'héritage que laisse une mère à sa fille
L'effet Cheerios
La New School de LesFurets.com
Total, son nouveau message
Général Electric, la fausse offre
Renault sa publicité vintage
GoPro, "Be a hero"
LE SOCIALIZER
Facebook rend les anniversaires plus festifs
Linkedin change ses conditions d'utilisation
Google+ une nouvelle politique de restriction sur le contenu
Ello veut devenir grand
LE COMPLÉMENT
Slack simplifie la gestion de projet
El documento discute cómo la Web 2.0 y las redes sociales han permitido que los usuarios creen y compartan contenido, aprovechando la inteligencia colectiva. Esto ha cambiado las relaciones personales y la forma en que las personas aprenden entre sí.
Les grilles transactionnelles, enfin des solutions pour l’informatique de ges...Marc Bojoly
Les grilles transactionnelles, enfin des solutions pour l'informatique de gestion?
En 5 ans les grilles se sont imposée dans quelques niches métiers. Belle revanche pour ce matériel issu de la bureautique qui se pose en alternative aux grands systèmes en faisant le choix de la répartition des calculs. Si le domaine du calcul intensif à révélé les grilles, force est de constater que cet usage très spécialisé en restreint les cas d'usages. Les grilles de données permettent aujourd'hui d'étendre très largement leur champ d'application. Comment fait-on pour répartir du code, de la données, des transactions ? Telles sont les questions que nous souhaitons aborder au travers d'un exemple de traitement bancaire.
Introduction au datamining, concepts et techniquesIsmail CHAIB
Face à l’importance grandissante que prend l’information, le datamining offre une solution pour maitriser la complexité et synthétiser les amas de données pour faire jaillir de la connaissance.
Cet exposé introduit la notion de datamining dans son ensemble à travers ses concepts et ses principes, et survole quelques techniques utilisées lors de ce processus.
Comment Sémantique et Data Mining peuvent aider le SEO ?
- Aide à l’analyse pour SEO (& SEM)
- Annotation de contenus existants
- Création de contenus
- La question du multimédia
Présentation de l'Image Mining dans le cadre des Base de Données Avancées en Master Informatique Appliquée au Développement Offshore à l'Université Mohammed V - Agdal de Rabat.
Définition du data mining, intervention du Data Mining dans une chaîne décisionnelle, applications, méthodes de travail, processus KDD (ECD, Extraction de connaissances à partir de Données), méthode SEMMA de SAS, méthode CRISP-DM, etc.
Représentation sous forme de graphe d'états
Global Problem Solver
Algorithmes de Recherche Aveugles
Algorithmes de Recherche Informés
Depth First Search
Breadth First Search
Best First Search
A, A*
Fonction heuristique, Fonction heuristique admissible
El video musical de Katy Perry "E.T." promueve la idea de que los extraterrestres crearon a la humanidad y presenta a Perry como un ser extraterrestre que le da vida a un robot. Este mensaje forma parte de una agenda para establecer una nueva religión mundial basada en la creencia de que los seres humanos fueron creados por entidades de otros mundos en lugar de Dios.
Este curso enseña las habilidades necesarias para organizar eventos de manera exitosa. Los estudiantes aprenderán sobre planificación, presupuestos, promoción, seguridad y otros aspectos clave de la organización de eventos. Al completar el curso, los estudiantes podrán organizar y administrar eventos de manera profesional.
El Hotel Holiday Inn Madrid Bernabeu, de cuatro estrellas,
siempre ha contado con la ventaja de su excelente ubicación; situado a solamente 15 minutos del aeropuerto internacional de Madrid y del centro Internacional de Exposiciones, IFEMA; en coche o taxi, además de estar conectado con la línea 8 de Metro. Situado en pleno distrito financiero de Madrid, a 200 metros del Palacio de Congresos, Santiago Bernabeu, Centro Comercial de El corte Ingles; y a tan solo 10 minutos del centro
histórico de Madrid.
El Hotel llevó a cabo en el 2005 una gran re-decoración de
todas sus zonas nobles, con la intención de crear un entorno más cálido y moderno.
El documento describe cómo un escritor inglés observaba un barco lanzando su ancla en un mar enfurecido. Aunque parecía un juguete a merced de los elementos, el barco resistía las fuerzas de la naturaleza con tranquilidad porque su seguridad dependía del ancla fijada al fondo del mar. De manera similar, aunque a veces nos sintamos sacudidos por las circunstancias de la vida, podemos experimentar seguridad y esperanza confiando en Dios, que funciona como un ancla para nuestra vida.
Webassadors - Mixology #13 - Actu' Web de la semaine du 29.09.14Webassadors
Dans cette édition:
LE BRANDING MIX
Fitness de Nestlé, la joue affriolante
Redbull, la Battle For Paris
Go Sport, l'opération sportive #LETSGO
Clopify, #Mondernierpaquet
Renault se met aux escarpins
Vueling nous offre un bain de lumière
The Voice (Brésil), son "Skip Ad"
Coca Cola et Ubisoft entrent dans la danse
Le #HelloMorningFestival de Nutella
Dove, l'héritage que laisse une mère à sa fille
L'effet Cheerios
La New School de LesFurets.com
Total, son nouveau message
Général Electric, la fausse offre
Renault sa publicité vintage
GoPro, "Be a hero"
LE SOCIALIZER
Facebook rend les anniversaires plus festifs
Linkedin change ses conditions d'utilisation
Google+ une nouvelle politique de restriction sur le contenu
Ello veut devenir grand
LE COMPLÉMENT
Slack simplifie la gestion de projet
El documento discute cómo la Web 2.0 y las redes sociales han permitido que los usuarios creen y compartan contenido, aprovechando la inteligencia colectiva. Esto ha cambiado las relaciones personales y la forma en que las personas aprenden entre sí.
Les grilles transactionnelles, enfin des solutions pour l’informatique de ges...Marc Bojoly
Les grilles transactionnelles, enfin des solutions pour l'informatique de gestion?
En 5 ans les grilles se sont imposée dans quelques niches métiers. Belle revanche pour ce matériel issu de la bureautique qui se pose en alternative aux grands systèmes en faisant le choix de la répartition des calculs. Si le domaine du calcul intensif à révélé les grilles, force est de constater que cet usage très spécialisé en restreint les cas d'usages. Les grilles de données permettent aujourd'hui d'étendre très largement leur champ d'application. Comment fait-on pour répartir du code, de la données, des transactions ? Telles sont les questions que nous souhaitons aborder au travers d'un exemple de traitement bancaire.
slides_conf_sur_AI_big_data_par_Françoise_Soulié-Fogelmanshuai wang
Intelligence Artificielle
De retour de 3 ans en Chine, regard sur
l’IA en France et en Europe
Françoise Soulié-Fogelman
(Hub France IA)
Mardi 11 décembre 2018
Institut des Actuaires – Groupe de travail Big Data
Conception d’un outil décisionnel pour la gestion de la relation client dans ...usthbmilsded
Les entreprises soucieuses de leur progrès tentent à satisfaire continuellement leurs clients potentiels. L’utilisation du e-commerce, l’essor des technologies liées à l’internet fait naître de nouvelles attentes de la part des clients et des collaborateurs. Ceci oblige ces entreprises à prendre les décisions adéquates en vue de répondre aux exigences de leurs clients, en examinant leur comportement sur son site de e-commerce. L’analyse du marché pour une entreprise donnée repose sur la quantité importante d’informations provenant de son site web marchand. Cette analyse peut se faire en exploitant les entrepôts de données (ED) ou data warehouse (DW) d’une part et les outils de data mining ou de fouille de données pour une classification (profilage) des clients d’autre part, car l’aide à la décision peut nécessiter de comprendre plus profondément les chiffres et les faits de l’entreprise. Le présent article décrit la conception, l’architecture et quelques fonctionnalités d’un outil d’aide à la décision pour la gestion de la relation client sur un site de e-commerce.
Le travail présenté dans cet article consiste en la conception et la réalisation d’un outil d’aide à la décision dans la gestion de la relation client sur internet. L’intérêt principal d’un tel outil est d’offrir aux décideurs une meilleure vision de leurs clients leur permettant ainsi, une meilleure gestion de leurs entreprises. Comme perspective à ce travail, nous proposons un enrichissement du module data mining en intégrant d’autres techniques de classification telles que les réseaux de neurones.
Le Grand Équipement National de Calcul Intensif (GENCI) présente aux startuppers concernés par le calcul intensif la solution R&D SiMSEO, leur permettant d’accéder à des supercalculateurs et à un accompagnement afin de développer leurs travaux.
SQLSaturday Toulouse 2017 - Azure Data Lake : SELECT people FROM data-lake WH...Jean-Pierre Riehl
--session donnée dans le cadre du SQLSaturday Toulouse 2017--
Discover Azure Date Lake through a complete demo : how to get insights from tons of text, photos and videos ? From different media files and raw data, we will analyze sentiment of characters and get valuable information in a Power BI dashboard, using Cognitive Services, CNTK, .NET and U-SQL.
This session will mainly showcase Azure Data Lake and U-SQL language. But demos will involve different tools like Azure Data Factory for data supply chain and orchestration, Azure SQL Datawarehouse for corporate data and also Azure Machine Learning and Power BI.
Even if this session is demo-driven, we won't omit to present you concepts and features of Azure Data Lake.
Ce webinar sera l’occasion de comprendre comment DataStax et Linkurious peuvent permettre de détecter en temps réel des activités frauduleuses telles que la fraude identitaire. Des applications concrètes de ces technologies seront détaillées, de l’affaire des Panama Papers à des cas d’usages quotidiens dans des banques et des institutions financières. Les techniques de lutte antifraude ainsi que les avantages des approches orientées graphe seront également présentés.
Comment imaginer et implémenter une plateforme (au sens Apple Store) from-scratch au sein d'un groupe média ? Quelle philosophie ? Quels principes ? Quelle architecture choisir ? Comment assurer la scalabilité des développements interne comme externe ?
Nous aborderons aussi le tournant numérique du groupe par cette plateforme ouverte. Le développement d'un écosystème avec nos partenaires et filiales basé sur des contrats json-schema/open-api et les conséquences sur diverses dimensions.
1. Florent Masseglia – INRIA Sophia Antipolis-Méditerranée
Equipe-Projet AXIS
Fouille de données
Principes généraux du data mining
Sécurité
Fouille de flots
Réseaux de capteurs
http://www.inria.fr/sophia/teams/axis
Juin 2008 DGA 1
2. L’équipe-projet AxIS
• Analyse et Amélioration des Systèmes
d’Information Dirigées par l’Usage
• Bi-localisée Sophia – Rocquencourt
• Objectifs 2008-2012 :
– Analyse d’un SI et ECD
– Aides pour analyser les réseaux sociaux et améliorer la
recherche d’information
– Elaboration d’une plateforme d’expérimentation FOCUS
Juin 2008 DGA 2
3. L’équipe-projet AxIS
• Analyse d’un SI et ECD :
– Fouille dans les flots de données (ANR Midas, ARC Sésur)
– Fouille de données d’un SI (usage, contenu et structure)
– Semantic Web Mining …
– Gestion des connaissances en IS mining (domaine de
l’analyste)
Juin 2008 DGA 3
4. L’équipe-projet AxIS
• Aides pour analyser les réseaux sociaux et
améliorer la recherche d’information :
– ANR Eiffel
– Projet Quaero - France-Allemagne
– ANR Intermed
– Démarrage d’une thèse en septembre
Juin 2008 DGA 4
5. L’équipe-projet AxIS
• Elaboration d’une plateforme d’expérimentation FOCUS
– Classes d’applications :
• Démocratie participative, Développement durable (ANR Intermed)
• Transport et tourisme (Color INRIA CusCov, ANR Eiffel)
– Support : une des plateformes du CPER (PACA), dans le cadre
du «Living Lab ICT» (ENoLL) de Sophia Antipolis, soumission
FP7 infrastructures de recherche
Juin 2008 DGA 5
6. Types d’extraction de connaissance
• Classification
créé une fonction qui classifie une donnée élémentaire parmi plusieurs
classes prédéfinies existantes
• Régression
créé une fonction qui donne une donnée élémentaire à une variable de
prévision avec des données réelles
• Segmentation (clustering, classement)
rechercher à identifier un ensemble fini de catégories ou groupe en vues
de décrire les données
Juin 2008 DGA 6
7. Types d’extraction de connaissance (2)
• Résumé
affiner une description compacte d’un sous-ensemble de données
• Modelage des dépendances
trouver un modèle qui décrit des dépendances significatives entre les
variables
• Détection de changement et déviation
découvrir les changements les plus significatifs dans les données
Juin 2008 DGA 7
8. Types d’extraction de connaissance (2)
• Extraction de fréquents :
– Itemsets fréquents (et règles d’association)
• comportements de clients d’un supermarché
– Motifs séquentiels fréquents
• comportements d’utilisateurs d’un site Web
• comportements de touristes (véhicule + GPS)
Juin 2008 DGA 8
10. Extraction de règles d’association
• 20 % des clients qui achètent du beurre et du
pain achètent aussi du lait.
• 15 % des clients qui achètent de la bière et des
gâteaux achètent aussi des couches.
• 64 % des étudiants qui suivent le cours
“ Introduction à Unix ”, suivent également le
cours de “ Programmation C ” et 34 % de tous
les étudiants ont en fait suivis les deux cours.
Juin 2008 DGA 10
11. Extraction de règles d’association
Transaction Items Motifs Support
10 A, B, C fréquents
20 A, C {A} 75%
30 A, D {B} 50%
40 B, E, F {C} 50%
{A, C} 50%
support({A } ∪ {C}) 2
support ( A ⇒ C ) = = = 50%
D 4
support({A } ∪ {C }) 2
confiance ( A ⇒ C ) = = = 66 .7%
support ({ A}) 3
Juin 2008 DGA 11
12. Extraction de règles d’association
Schéma algorithmique de base
– Génération de tous les ensembles fréquents
• support minimum
– Génération à partir des ensembles fréquents
de toutes les règles d ’associations
• confiance dans la règle
Juin 2008 DGA 12
13. Extraction de règles d’association
Génération de tous les ensembles fréquents
– Semble facile ...
… problème principal des
algorithmes de règles d ’association …
– 1000 items => 21000 ensembles à tester
Juin 2008 DGA 13
14. Extraction de règles d’association
Premiers pas : le principe d’Apriori
– La « référence » dans le domaine
– Equipe d ’IBM Almaden (R. Agrawal et R. Srikant,
VLDB94)
– Proposition d’une génération de candidats économe :
« Tout motif ayant un sous-motif non fréquent n’est pas
fréquent »
– Proposition d’une structure efficace
Juin 2008 DGA 14
15. Motifs séquentiels fréquents
• Exploite des données… séquentielles
Séquence de données : liste ordonnée d’itemsets de la forme
< itemset(T1) itemset(T2) … itemset(Tn) >
ex: < (jour1 / caméscope, K7) (jour 3 / batterie) >
• Extrait des motifs fréquents en conservant l’information
d’ordonnancement des données en entrée grâce à sa
notion d’inclusion pour le support :
S1=<a1 a2… an> et S2=<b1 b2… bn> on a S1 ⊆ S2 si
∃ i1 < i2 < … < in / a1 ⊆ bi1, … , an ⊆ bin
Juin 2008 DGA 15
17. Applications des motifs séquentiels
• Fouille de textes : extraire des sous-phrases
communes à un ensemble de textes.
• Appliqué sur les discours du président de
l’assemblée nationale.
• Est-ce que ses discours utilisent les mêmes
mots clés, dans le même ordre ?
Juin 2008 DGA 17
18. Applications des motifs séquentiels
« C’est un plaisir que « (…) je partage cet avis
je partage (…) » car aujourd’hui (…) »
plaisir que je
« Ce sera avec un plaisir
je partage
sincère que je (…) »
Juin 2008 DGA 18
19. Applications des motifs séquentiels
• Fouille de graphes : extraire des sous-
graphes communs à un ensemble de
graphes.
• Appliqué sur les enregistrements de l’IMDB
• Est-ce que fiches des films/acteurs peuvent
être restructurées autour d’un format
minimum ?
Juin 2008 DGA 19
20. Applications des motifs séquentiels
Titre Titre
Sortie Equipe Sortie Score Equipe
Date Acteurs Effets spéciaux Date Acteurs Réalisateur
Société Autres films
Titre
Sortie Equipe
Acteurs
Juin 2008 DGA 20
21. Applications des motifs séquentiels
Un Id par nœud
Associé à la profondeur dans l’arbre
Titre
A1
Sortie Equipe
B2 C2
Date Acteurs Effets spéciaux
D3 E3 F3
Par
Société cou G3
rs p
réfi
xé
Séquence correspondant au schéma :
< (A1) (B2) (D3) (C2) (E3) (F3) (G3) >
Juin 2008 DGA 21
22. Fouille des usages du Web? (rapidement…)
• Les serveurs Web enregistrent les séquences d’accès au site.
• A l’origine le but était de détecter les erreurs (type 404)
• La communauté « fouille de données » est née au début des années
90… (les logs d’accès Web sont rapidement devenus
« appétissants »).
• Objectif : extraire tout ce qui se produit avec une fréquence
« élevée » (problème classique en fouille de données).
• Exemple (Yahoo News?):
• “7% des utilisateurs naviguent de la manière suivante :
URL1 = Chiffres_Pouvoir_d_Achat.html ;
URL2 = Tarifs_Baril_Petrole.html ;
URL3 = People_Nouvelle_Star.html”
Juin 2008 DGA 22
23. Fouille & sécurité
Le cas des IDS
1. Basés sur les signatures :
• Hyper robuste aux attaques connues
• Hyper inefficace pour les nouvelles attaques
2. Basés sur les anomalies :
• Très efficace pour détecter les nouvelles
attaques
• Très efficaces pour saturer l’expert avec un
maximum de fausses alertes ! !
Juin 2008 DGA 23
24. Fouille & sécurité
• Trois thèmes principaux :
– Clustering & détection d’anomalies.
– Extraction de motifs off-line pour générer des
règles de détection (signatures).
– Construction d’un modèle du système et
comparaison des nouvelles entrées avec le
modèle…
Juin 2008 DGA 24
26. Fouille & sécurité
• Clustering et détection d’outliers
– Nombre élevé de faux positifs
– Temps de calcul du clustering
– Découverte en temps réel = capacité à
travailler sur les flots de données
Juin 2008 DGA 26
27. Fouille & sécurité
• Fouille de données off-line pour enrichir la base de
signatures :
• Trouve des navigations sur un thème d’une équipe :
http://www-sop.inria.fr/epidaure/foie3d/ : <(endo4.html) (endo5.html)
(endo6.html) (endo8.html) (endo9.html) (endo10.html) (endo11.html)
(endo12.html)>
• Trouve aussi des tentatives d’intrusion :
http://www.inria.fr/ : <(scripts/root.exe) (c:/winnt/system32/cmd.exe)
(..%255c../..%255c../winnt/system32/cmd.exe)
(..%255c../..%255c/..%c1%1c../..%c1%1c../..%c1%1c../winnt/system32/cmd
.exe) (winnt/system32/cmd.exe) (winnt/system32/cmd.exe)
(winnt/system32/cmd.exe)>
Juin 2008 DGA 27
28. Fouille & sécurité
• Comparaison on-line au modèle :
– Thème de l’ARC SéSur (AxIS, Dream, Tatoo, KDD).
– Travaux de Wei Wang (Post-doc).
• Test sur des données de log HTTP de l’INRIA Sophia
– Taille des données: 561M
– Nbre de requêtes : 1,449,379
– Durée : 3 jours, 2 heures et 10 min
Juin 2008 DGA 28
29. Fouille & sécurité
• Données de log :
salmacis.inria.fr - - [10/May/2007:18:27:32 +0200] "GET /cgi-
bin/db4web_c/dbdirname//etc/passwd HTTP/1.0" 404 4856 "-"
"Mozilla/4.75 (Nikto/1.36 )«
• Calculer la distribution des caractères dans l’URL de la
requête :
– Uniquement sur la plage ASCII 33-127
– Chaque requête est représentée sur un vecteur de taille 95
– Vecteur après la transformation : 0 0 0 0 0 0 0 0 0 0 0 0 1 0 6 0 0
0010000000000000000000000000000000
0000000000010243430103000120101210
0200000000
– La classification en ligne est basée sur ces vecteurs
Juin 2008 DGA 29
30. Fouille & sécurité
• Détection d’anomalies
– Sélectionner les 400 premières requêtes (normales)
comme base de référence.
– Calculer la distance entre les nouvelles entrées et les
400 enregistrements de référence.
– Sélectionner une distance minimale comme indice
d’anomalie.
Juin 2008 DGA 30
32. Fouille & sécurité
• Détection d’anomalies en
fonction de la distance
– Indice=0.14 • Détection des changements de
– 282/457=61.7% (Taux de détection) modèle (concept drift)
– 8727/39456=22.1% (Faux positifs)
– En fonction du taux d’anomalies
– Indicateurs de type Page-Hinkley
• Work in progress…
– Améliorer le taux de détection
– Améliorer le taux de faux positifs
– Gérer les changements de modèle (historique des concepts drifts, aspects flots)
– …
Juin 2008 DGA 32
34. Flots de données
• 30 milliards d’emails par jour - 1 milliard de SMS.
• « China’s cellular operators estimate Chinese customers will send
around 14 billion Lunar New Year text messages on their mobile
phones during the week-long holiday ».
• IP Network Traffic: Jusqu’à 1 milliard de paquet par heure et par
routeur. Chaque FAI a des centaines de routeurs ! 75000 tuples par
seconde !
• AT&T collecte 100 Gb de données réseau par jour.
• NASA EOS (Earth Observation System) : Données d’observation
satellites, jusqu’à 350 Gb par jour.
• eBay : en moyenne 1 million de pages consultées par jour.
• Yahoo: 166 millions de visiteurs par jour; 48 Gb de clickstream par
heure !
Juin 2008 DGA 34
35. Flots de données
• Caractéristiques des flots de données :
– De nouveaux éléments générés en permanence
(flux potentiellement infini).
– Les données doivent être traitées aussi vite que
possible.
– Interdiction de bloquer le flux.
– Un seul coup d’oeil.
– Restreint par la mémoire disponible.
Juin 2008 DGA 35
36. Application type : le trafic réseaux
• Securité, Fraude, Analyse, Estimation
• Combien d’octets échangés entre deux IP ?
• Liste des 100 IP qui consomment le plus.
• Durée moyenne d’une session IP ?
• Identifier les sessions qui durent deux fois plus longtemps que
la moyenne.
• Identifier les IP impliquées dans plus de 100 sessions.
• Quels sont les k éléments les plus demandés ?
(par exemple les 50 URLs les plus accédées)
• Détecter une forte augmentation des connexions entrantes en
provenance d’un pays sur une courte durée.
Juin 2008 DGA 36
37. Fouille de flots de données
• Irréaliste d’essayer d’extraire précisément les motifs
fréquents dans un flot!
• Défi principal : comment extraire les motifs avec une
approximation acceptable ?
• Défis associés :
– Une seule passe: on ne peut pas revenir en arrière !
– Les fréquents peuvent devenir rares et vice-versa.
– Besoin de gérer l’historique des connaissances extraites.
– Besoin de voir les changements importants (ex. intrusions).
Juin 2008 DGA 37
38. Fouille de flux de données
• En raison des caractéristiques/contraintes d’un
flux, il est généralement admis qu’une méthode
de fouille doit :
– Sacrifier de son exactitude au profit de sa vitesse
d’extraction.
– Gérer l’historique des « schémas » extraits.
Juin 2008 DGA 38
40. Gestion de l’historique des connaissances
Approche par « tilted time windows »
Itemset fréquent (a b c)
15 min 15 min 30 min 1 heure 2 heures … 256 jours
0.17 0.18 0.25 0.12 0.05 … 0
Juin 2008 DGA 40
41. Fouille de flux de données
Aligner les séquences d’un cluster
< (a) (b) (d) >
⇒
< (a) (b) (d) > < (a) (c) (d) >
< (a) (c) (d) > < (a:2) (b:1, c:1) (d:2) >
Filtre k =1: < (a:2) (b:1, c:1) (d:2) >
Filtre k =2: < (a:2) (d:2) >
Juin 2008 DGA 41
42. Fouille de données et réseaux de capteurs
(petit tour d’horizon « biaisé »)
• Fouille de données afin d’améliorer le réseau.
– Clustering
– Règles de communication
– Économies de transmissions
– Économies de batterie
• Challenge du data mining sur un environnement
sur-contraint
– Distribution du processus de fouille
– Faibles ressources disponibles
• Applications ?
Juin 2008 DGA 42
43. Fouille de données afin d’améliorer le réseau ?
• Clustering des capteurs :
– Grouper sous un leader afin d’économiser les échanges.
• En particulier pour les nœuds mobiles.
Juin 2008 DGA 43
44. Fouille de données afin d’améliorer le réseau ?
• Clustering des capteurs : « mining sensor energy data »
– Exploiter les données d’énergie afin de grouper les nœuds.
– Ne repose pas sur des données de localisation des nœuds.
Juin 2008 DGA 44
45. Fouille de données afin d’améliorer le réseau ?
• Clustering des capteurs : « mining sensor energy data »
Exploite l’historique de la
consommation d’énergie des
capteurs
Groupe les capteurs en
fonction des similitudes de
consommations (suppose que
les leaders consomment de
façon similaire)
Juin 2008 DGA 45
46. Fouille de données afin d’améliorer le réseau ?
• Règles d’association pour optimiser les communications
(Boukerche and Samarah, Ottawa, IEEE T Parallel and Distrib. Syst.)
• Extraire des règles basées sur des activités communes
• Exemple : (s1s2 s3, 90%, t) « après des transmissions de
s1 et s2 il y a 90% de chances d’observer une transmission
de s3 dans un délai de t unités de temps ».
• Implique de découvrir le motif (itemset) fréquent (s1s2 s3 ) et
de calculer support, confiance et délais.
Juin 2008 DGA 46
47. Fouille de données afin d’améliorer le réseau ?
• (s1s2 s3, 90%, t)
• Objectifs applicatifs :
– Surveiller les comportements des nœuds (on attend un
événement de s3 à 90% et il ne se produit pas dans le
délai t).
– Participer aux efforts de gestion de ressources (on peut
mettre un nœud en stand by car il ne communiquera
certainement pas dans les n prochaines unités de
temps).
– Prédire les comportements des nœuds (source du
prochain événement)
Juin 2008 DGA 47
48. Fouille de données afin d’améliorer le réseau ?
• Règles d’association pour optimiser les communications
(Gaber et al., ACM SAC’08)
• Approche précédente basée sur les méta données (« un événement
s’est produit »).
• Cette approche se base sur le contenu des événements (« le nœud s1 a
envoyé les information xy »).
• Un ensemble de capteurs S1, S2, …. Sn et un ensemble de valeurs de
son s, de température t et de lumière l.
• Les valeurs de lumière pour S1 et S2 peuvent être similaires (placés
dans la même zone).
• Discrétisation des valeurs : [0,299] =‘L’, [300,699]=‘M’ et [700,1000]=‘H’
• Transactions de type {Sn; tn, sn, ln, time}
Juin 2008 DGA 48
49. Fouille de données afin d’améliorer le réseau ?
• Règles d’association pour optimiser les communications
• Transactions de type {Sn; tn, sn, ln, time}
• Exemples de règles extraites :
– S0L[H] S1L[H], 100%
– S0L[L] S0T[M], 85.7%
• Objectif : éviter des communications si on peut prévoir les
valeurs à transmettre.
Juin 2008 DGA 49
50. Exploitation des données du réseau
• Prévision de charge dans un réseau électrique :
(Rodriguez & Gama, Porto)
• Capteurs distribués dans le réseau électrique.
• Apprentissage en ligne et détection de changement.
• Objectif : maintenir en temps réel un modèle de clustering
du réseau et un modèle prédictif capable de détecter les
changement.
Juin 2008 DGA 50
51. Exploitation des données du réseau
• Capteurs autour d’un volcan :
(Werner-Allen, Johnson, Ruiz, Lees and Welsh, Harvard)
• Capteurs (distribués géographiquement autour du volcan Tungurahua, équateur).
• 1,57 Gb de signaux générés en 54 heures.
Juin 2008 DGA 51
52. Exploitation des données du réseau
• « 20 minutes après un événement d’éruption, des chocs sismiques fréquents se
produisent. »
• « Autour d’un événement d’émission de gaz, des événements sismiques sont probables. »
Juin 2008 DGA 52
53. Exploitation des données du réseau
• Monitoring d’un réseau de télécommunications
• Capteur mesurant l’utilisation de la bande passante sur des liens.
• Détection de congestion et de comportements anormaux.
• « 30% des liens sur un switch sont souvent fortement sollicités au même
moment et un ralentissement est observé à ce moment ».
• « Le trafic sortant d’un sous-réseau est nettement plus élevé que le
trafic entrant ».
Juin 2008 DGA 53
54. Exploitation des données du réseau
• Surveiller des Pandas en Chine
(Ma et al., Beijing)
• Capteurs météo autour de l’habitat du panda.
• Capteurs sur le panda (Huanhuan).
• « Est-ce que Huanhuan a des symptômes anormaux par rapport au
passé ? Est-ce que d’autres pandas ont des symptômes similaires ? »
• « Y a-t-il des corrélations entre les attributs des pandas et ceux de leur
habitat ? ».
Juin 2008 DGA 54
55. Bilan sur les capteurs
• Techniques de fouille sur les réseaux de capteurs
• Pour améliorer le réseau ou pour exploiter ses données…
• Centralisées :
– Ne passent pas à l’échelle
– Consomment de l’énergie et de la bande passante (fouille des données
transmises à un sink)
• Distribuées :
– Limitées par les capacités embarquées du capteur
• Challenges « rassurants » (en data mining) :
– Aspects flots (ressources limitées)
– Distribuer les calculs
– Concept drift
Juin 2008 DGA 55