SlideShare une entreprise Scribd logo
1  sur  8
Télécharger pour lire hors ligne
Introduction à la fouille de données - Bernard ESPINASSE - 1
Introduction à la Fouille de Données
(Data Mining)
(8)
Bernard ESPINASSE
Professeur à Aix-Marseille Université (AMU)
Ecole Polytechnique Universitaire de Marseille
Septembre 2008
• Introduction à la fouille de données
• Types de données exploitées et de connaissances extraites
• Exemples dʼapplications de la fouille de données
• Quelques logiciels de fouille de données
Introduction à la fouille de données - Bernard ESPINASSE - 2
P
P
Pl
l
la
a
an
n
n
1. Introduction à la fouille de données
! Extraction de connaissances à partir de données et fouille de données
! La fouille de données à la rencontre de plusieurs disciplines
! Un exemple de découverte dʼinformation et de connaissance
2. Types de données exploitées et de connaissances extraites
! Exemple de données disponibles exploitées
! Connaissances extraites
3. Exemples dʼapplications de la fouille de données
! Principaux domaines d'application de la fouille de données
! Ciblage dʼun mailing
! Oiseux rares et moutons noirs
! Ticket de caisse
! Repérer les intrus
4. Quelques logiciels de fouille de données
Introduction à la fouille de données - Bernard ESPINASSE - 3
R
R
Ré
é
éf
f
fé
é
ér
r
re
e
en
n
nc
c
ce
e
es
s
s b
b
bi
i
ib
b
bl
l
li
i
io
o
og
g
gr
r
ra
a
ap
p
ph
h
hi
i
iq
q
qu
u
ue
e
es
s
s
Ouvrages :
! Franco J-M., « Le Data Warehouse et le Data Mining ». Ed. Eyrolles, Paris, 1997.
ISBN 2-212-08956-2.
! Gardarin G., « Internet/intranet et bases de données », Ed. Eyrolles, Paris, 1999, ISBN
2-212-09069-2.
! Han J., Kamber M., « Data Mining: Concepts and Techniques », Morgan Kaufmann
Publishers, 2004.
! Lefébure R., Venturi G., « Le data Mining », Ed. Eyrolles, Paris, 1998. ISBN 2-212-
08981-3.
! Tufféry S., « Data Mining et statistique décisionnelle », Ed. Technip, Paris, 2005, ISBN
2-7108-0867-6.
! …
Cours :
! Cours de A. Rakotomamonjy, INSA Rouen, Lab. PSI, Rouen.
! Cours de G. Gardarin, Univ. de Versailles
! Cours de J. Han et M. Kamber M., Simon Fraser Univ., Vancouver BC, Canada.
! Cours de M. Adiba et M.C. Fauvet, Univ. Grenoble
! Cours de R. Gilleron et M. Tommasi, Univ. Charles De Gaulle-Lille 3, Lab. LIFL, équipe
Grappa.
! Cours de R. Rakotomalala, Univ. Lumière Lyon 2, Lab. ERIC Lyon
! …
Introduction à la fouille de données - Bernard ESPINASSE - 4
R
R
Re
e
es
s
ss
s
so
o
ou
u
ur
r
rc
c
ce
e
es
s
s s
s
su
u
ur
r
r l
l
le
e
e W
W
We
e
eb
b
b r
r
re
e
el
l
la
a
at
t
ti
i
iv
v
ve
e
es
s
s à
à
à l
l
la
a
a f
f
fo
o
ou
u
ui
i
il
l
ll
l
le
e
e d
d
de
e
e d
d
do
o
on
n
nn
n
né
é
ée
e
es
s
s
! Page de Ricco Rakotomalala :
! http://chirouble.univ-lyon2.fr/~ricco/cours/index.html
! cette page regroupe des liens très intéressant sur le Data Mining
(cours, transparents, logiciels ...)
! Page de Stéphane Tufféry :
! http://data.mining.free.fr/
! cette page regroupe aussi pleins de liens très intéressant sur le
Data Mining (cours, transparents, logiciels ...)
! …
Introduction à la fouille de données - Bernard ESPINASSE - 5
1
1
1 –
–
– I
I
In
n
nt
t
tr
r
ro
o
od
d
du
u
uc
c
ct
t
ti
i
io
o
on
n
n à
à
à l
l
la
a
a f
f
fo
o
ou
u
ui
i
il
l
ll
l
le
e
e d
d
de
e
e
d
d
do
o
on
n
nn
n
né
é
ée
e
es
s
s
! Extraction de connaissances à partir de données et fouille de
données
! La fouille de données à la rencontre de plusieurs disciplines
! Un exemple de découverte dʼinformation et de connaissance
Introduction à la fouille de données - Bernard ESPINASSE - 6
D
D
Dé
é
éf
f
fi
i
in
n
ni
i
it
t
ti
i
io
o
on
n
ns
s
s
! Extraction de connaissance à partir de données (Knowledge
Discovery in Databases – KDD) :
! cycle de découverte dʼinformation regroupant la conception de grandes
bases de données ou entrepôts de données (Data Warehouse)
! tous les traitements à effectuer pour extraire de lʼinformation des données
! lʼun de ces traitement est la Fouille de données (Data Mining)
! Fouille de données (Data Mining) :
! Ensemble de techniques d'exploration de données permettant d'extraire
d'une base de données des connaissances sous la forme de modèles
de description afin de :
! décrire le comportement actuel des données et/ou
! prédire le comportement futur des données
Introduction à la fouille de données - Bernard ESPINASSE - 7
P
P
Pr
r
ro
o
oc
c
ce
e
es
s
ss
s
su
u
us
s
s d
d
dʼ
ʼ
ʼe
e
ex
x
xt
t
tr
r
ra
a
ac
c
ct
t
ti
i
io
o
on
n
n d
d
de
e
e c
c
co
o
on
n
nn
n
na
a
ai
i
is
s
ss
s
sa
a
an
n
nc
c
ce
e
es
s
s à
à
à p
p
pa
a
ar
r
rt
t
ti
i
ir
r
r d
d
de
e
e d
d
do
o
on
n
nn
n
né
é
ée
e
es
s
s
Processus ECD (Extraction de connaissances à partir de données) ou KDD
(Knowledge Discovery in Databases) :
Introduction à la fouille de données - Bernard ESPINASSE - 8
L
L
La
a
a f
f
fo
o
ou
u
ui
i
il
l
ll
l
le
e
e d
d
de
e
e d
d
do
o
on
n
nn
n
né
é
ée
e
es
s
s à
à
à l
l
la
a
a r
r
re
e
en
n
nc
c
co
o
on
n
nt
t
tr
r
re
e
e d
d
de
e
e p
p
pl
l
lu
u
us
s
si
i
ie
e
eu
u
ur
r
rs
s
s d
d
di
i
is
s
sc
c
ci
i
ip
p
pl
l
li
i
in
n
ne
e
es
s
s
Introduction à la fouille de données - Bernard ESPINASSE - 9
F
F
Fo
o
ou
u
ui
i
il
l
ll
l
le
e
e d
d
de
e
e d
d
do
o
on
n
nn
n
né
é
ée
e
es
s
s =
=
= g
g
gr
r
ra
a
an
n
nd
d
de
e
e q
q
qu
u
ua
a
an
n
nt
t
ti
i
it
t
té
é
é d
d
de
e
e d
d
do
o
on
n
nn
n
né
é
ée
e
es
s
s +
+
+
a
a
al
l
lg
g
go
o
or
r
ri
i
it
t
th
h
hm
m
me
e
es
s
s e
e
ef
f
ff
f
fi
i
ic
c
ca
a
ac
c
ce
e
es
s
s
La fouille de données = processus qui sʼappuie sur :
! La disponibilité de grandes quantités de données :
! Si lʼensemble est trop petit, les structures peuvent ne résulter que du
hasard
! On peut espérer quʼun gros volume de données représente bien lʼunivers
(échantillon. . .)
! Des algorithmes sûrs et efficaces :
! Algorithmes sûrs : fondés théoriquement (recherche)
! Efficaces en temps
! Efficaces en espace
! Résultats interprétables
! Paramètres ajustables (en temps réel ou à peu près).
Introduction à la fouille de données - Bernard ESPINASSE - 10
U
U
Un
n
n e
e
ex
x
xe
e
em
m
mp
p
pl
l
le
e
e d
d
de
e
e d
d
dé
é
éc
c
co
o
ou
u
uv
v
ve
e
er
r
rt
t
te
e
e d
d
dʼ
ʼ
ʼi
i
in
n
nf
f
fo
o
or
r
rm
m
ma
a
at
t
ti
i
io
o
on
n
n e
e
et
t
t d
d
de
e
e c
c
co
o
on
n
nn
n
na
a
ai
i
is
s
ss
s
sa
a
an
n
nc
c
ce
e
e
Exemple issu du livre de P. Adriaans et D. Zantige [Adriaans & Zantige 96]
- Un éditeur vend 5 sortes de magazines : sport, voiture, maison, musique et BD
- Il souhaite mieux étudier ses clients pour découvrir de nouveaux marchés ou
vendre plus de magazines à ses clients habituels
Quelques questions qu'il peut se poser :
Q1 : Combien de personnes ont pris un abonnement à un magazine de sport cette
année ?
Q2 : A-t-on vendu plus d'abonnements de magazines de sport cette année que
l'année dernière ?
Q3 : Est-ce que les acheteurs de magazines de BD sont aussi amateurs de sport ?
Q4 : Quelles sont les caractéristiques principales de mes lecteurs de magazines
de voiture ?
Q5 : Peut-on prévoir les pertes de clients et prévoir des mesures pour les
diminuer ?
Questions de natures différentes mettant en jeu des processus différents
Introduction à la fouille de données - Bernard ESPINASSE - 11
U
U
Un
n
n e
e
ex
x
xe
e
em
m
mp
p
pl
l
le
e
e d
d
de
e
e d
d
dé
é
éc
c
co
o
ou
u
uv
v
ve
e
er
r
rt
t
te
e
e d
d
dʼ
ʼ
ʼi
i
in
n
nf
f
fo
o
or
r
rm
m
ma
a
at
t
ti
i
io
o
on
n
n e
e
et
t
t d
d
de
e
e c
c
co
o
on
n
nn
n
na
a
ai
i
is
s
ss
s
sa
a
an
n
nc
c
ce
e
e
Q1 : Combien de personnes ont pris un abonnement à un magazine de sport
cette année ?
! réalisable en SQL à partir des données opérationnelles sous réserve
d'indexations suffisantes des tables concernées
! seule difficulté : ne pas pénaliser le serveur transactionnel par des requêtes
trop longues
Q2 : A-t-on vendu plus d'abonnements de magazines de sport cette année que
l'année ?
! nécessite de conserver toutes les dates de souscription même pour les
abonnements résiliés
! l'utilisateur devrait poser de nombreuses requêtes de ce type
! elles devraient être résolues par des requêtes multidimensionnelles de type
OLAP.
Q1 et Q2 :
! Réponse par simples requêtes SQL : les données recherchées sont que le
résultat d'un calcul simple sur un ou des groupes d'enregistrements
! ce qui distingue Q1 et Q2, c'est la notion de temps et la comparaison
Introduction à la fouille de données - Bernard ESPINASSE - 12
U
U
Un
n
n e
e
ex
x
xe
e
em
m
mp
p
pl
l
le
e
e d
d
de
e
e d
d
dé
é
éc
c
co
o
ou
u
uv
v
ve
e
er
r
rt
t
te
e
e d
d
dʼ
ʼ
ʼi
i
in
n
nf
f
fo
o
or
r
rm
m
ma
a
at
t
ti
i
io
o
on
n
n e
e
et
t
t d
d
de
e
e c
c
co
o
on
n
nn
n
na
a
ai
i
is
s
ss
s
sa
a
an
n
nc
c
ce
e
e
Q3 : Est-ce que les acheteurs de magazines de BD sont aussi amateurs de
sport ?
! exemple simplifié de problème où l'on demande si les données vérifient une
règle
! réponse formulée par une valeur estimant la probabilité que la règle soit vraie
! en général des outils statistiques sont utilisés
! cette question peut être généralisée, on pourrait ainsi :
! chercher des associations fréquentes entre acheteurs de magazine
pour effectuer des actions promotionnelles
! introduire une composante temporelle pour chercher si le fait d'être
lecteur d'un magazine implique d'être, plus tard, lecteur d'un autre
magazine
Introduction à la fouille de données - Bernard ESPINASSE - 13
U
U
Un
n
n e
e
ex
x
xe
e
em
m
mp
p
pl
l
le
e
e d
d
de
e
e d
d
dé
é
éc
c
co
o
ou
u
uv
v
ve
e
er
r
rt
t
te
e
e d
d
dʼ
ʼ
ʼi
i
in
n
nf
f
fo
o
or
r
rm
m
ma
a
at
t
ti
i
io
o
on
n
n e
e
et
t
t d
d
de
e
e c
c
co
o
on
n
nn
n
na
a
ai
i
is
s
ss
s
sa
a
an
n
nc
c
ce
e
e
Q4 : Quelles sont les caractéristiques principales de mes lecteurs de
magazines de voiture ?
! question beaucoup plus ouverte : il sʼagit de trouver une règle et non plus de
la vérifier ou de l'utiliser
c'est pour ce type de question que sont mis en oeuvre des
outils de fouille de données
Q5 : Peut-on prévoir les pertes de clients et prévoir des mesures pour les
diminuer ?
! question ouverte : Il faut disposer d'indicateurs comme : durées
d'abonnement, délais de paiement, ...
! question (classique dans le bancaire) avec une forte composante
temporelle et nécessite des données historiques
Introduction à la fouille de données - Bernard ESPINASSE - 14
2
2
2 –
–
– T
T
Ty
y
yp
p
pe
e
es
s
s d
d
de
e
e d
d
do
o
on
n
nn
n
né
é
ée
e
es
s
s e
e
ex
x
xp
p
pl
l
lo
o
oi
i
it
t
té
é
ée
e
es
s
s
e
e
et
t
t d
d
de
e
e c
c
co
o
on
n
nn
n
na
a
ai
i
is
s
ss
s
sa
a
an
n
nc
c
ce
e
es
s
s e
e
ex
x
xt
t
tr
r
ra
a
ai
i
it
t
te
e
es
s
s
! Exemple de données disponibles exploitées
! Connaissances extraites
Introduction à la fouille de données - Bernard ESPINASSE - 15
E
E
Ex
x
xe
e
em
m
mp
p
pl
l
le
e
e d
d
de
e
e d
d
do
o
on
n
nn
n
né
é
ée
e
es
s
s d
d
di
i
is
s
sp
p
po
o
on
n
ni
i
ib
b
bl
l
le
e
es
s
s (
(
(1
1
1)
)
)
! Transactions :
! Tickets de caisse : liste dʼarticles.
! Factures : produit, client.
! Communications téléphoniques : interlocuteurs, durée, lieux.
! Connexions informatiques : fichier « log »
! Bases de données des entreprises :
! Factures.
! Commandes.
! Suivi.
! . . .
! Téléphone portable :
! Obligation légale de conservation des données.
! Durée des communications.
! Numéros appelés (type, localisation).
! Abonnement, changements.
! Mobilité.
! Utilisation des services annexes.
Introduction à la fouille de données - Bernard ESPINASSE - 16
E
E
Ex
x
xe
e
em
m
mp
p
pl
l
le
e
e d
d
de
e
e d
d
do
o
on
n
nn
n
né
é
ée
e
es
s
s d
d
di
i
is
s
sp
p
po
o
on
n
ni
i
ib
b
bl
l
le
e
es
s
s (
(
(2
2
2)
)
)
! Satellites : Espace
! Photos (différentes longueur dʼonde) de corps célestes
! Les photos sont créées plus vite quʼelles ne peuvent être exploitées
! Chaque photo contient un très grand nombre dʼinformations potentielles
! Accumuler, classer et mémoriser
! Histoire dʼun objet céleste (orbite brillance )
! Satellites : La Terre
! Militaires
! Météo
! Géographiques (Cartographie)
! Reconnaissance automatique :
! De forme (cartographie)
! De mouvement (militaire, météo : nuages)
! Type de terrain (cartographie)
! Type de culture, état de la végétation (subvention …).
Introduction à la fouille de données - Bernard ESPINASSE - 17
E
E
Ex
x
xe
e
em
m
mp
p
pl
l
le
e
e d
d
de
e
e d
d
do
o
on
n
nn
n
né
é
ée
e
es
s
s d
d
di
i
is
s
sp
p
po
o
on
n
ni
i
ib
b
bl
l
le
e
es
s
s t
t
te
e
em
m
mp
p
po
o
or
r
re
e
el
l
ll
l
le
e
es
s
s (
(
(1
1
1)
)
)
! Données temporelles :
! On suppose quʼil existe une relation de cause à effet entre la donnée au
temps t et les données aux temps ti < t :
! Suivre une donnée dans le temps.
! Une donnée par rapport à toutes les autres.
! Chaque donnée par rapport à toutes les autres.
! Trouver les relations entre les données.
! Exemples :
! Cours de la bourse (valeurs des actions, contexte . . .)
! Météo : vent, température, précipitations … (en différents
points dʼobservation).
! Génomique : Démarche inverse : on produit les données explicitement pour
appliquer des méthodes de Data Mining :
! Séquençage automatique (rapide).
! Il y a des informations, des structures à trouver.
! Recherche de structures communes.
! Localisation des gènes.
Introduction à la fouille de données - Bernard ESPINASSE - 18
E
E
Ex
x
xe
e
em
m
mp
p
pl
l
le
e
e d
d
de
e
e d
d
do
o
on
n
nn
n
né
é
ée
e
es
s
s d
d
di
i
is
s
sp
p
po
o
on
n
ni
i
ib
b
bl
l
le
e
e t
t
te
e
em
m
mp
p
po
o
or
r
re
e
el
l
ll
l
le
e
es
s
s (
(
(2
2
2)
)
)
! Données du Web :
Récupération facile de pages ou de sites (paquetage java.net) :
! Contenu des pages.
! Liens entre les pages.
! Historique des connexions (fichiers log).
! Données textuelles :
! Pages Web.
! fichiers word, pdf …
! Dépêches dʼagence.
! Digitalisation de bibliothèques.
Introduction à la fouille de données - Bernard ESPINASSE - 19
T
T
Ty
y
yp
p
pe
e
es
s
s d
d
de
e
e c
c
co
o
on
n
nn
n
na
a
ai
i
is
s
ss
s
sa
a
an
n
nc
c
ce
e
es
s
s e
e
ex
x
xt
t
tr
r
ra
a
ai
i
it
t
te
e
es
s
s
Connaissances extraites = connaissances sous la forme de modèles de
description permettant de :
! décrire le comportement actuel des données et/ou
! prédire le comportement futur des données
! des analyses :
! exemple: la distribution du trafic routier en fonction de l'heure
! des règles :
! exemple : si un client n'a pas payé une facture > 1 000 € alors il est dans
70% des cas en faillite
! lʼattribution de scores de qualité :
! par exemple, score de fidélité aux clients
! la classification dʼentités :
! par exemple, les mauvais payeurs
Introduction à la fouille de données - Bernard ESPINASSE - 20
3
3
3 –
–
– E
E
Ex
x
xe
e
em
m
mp
p
pl
l
le
e
es
s
s d
d
dʼ
ʼ
ʼa
a
ap
p
pp
p
pl
l
li
i
ic
c
ca
a
at
t
ti
i
io
o
on
n
ns
s
s d
d
de
e
e
l
l
la
a
a f
f
fo
o
ou
u
ui
i
il
l
ll
l
le
e
e d
d
de
e
e d
d
do
o
on
n
nn
n
né
é
ée
e
es
s
s
! Principaux domaines d'application de la fouille de données
! Ciblage dʼun mailing
! Oiseux rares et moutons noirs
! Ticket de caisse
! Repérer les intrus
Introduction à la fouille de données - Bernard ESPINASSE - 21
P
P
Pr
r
ri
i
in
n
nc
c
ci
i
ip
p
pa
a
au
u
ux
x
x d
d
do
o
om
m
ma
a
ai
i
in
n
ne
e
es
s
s d
d
d'
'
'a
a
ap
p
pp
p
pl
l
li
i
ic
c
ca
a
at
t
ti
i
io
o
on
n
n
! Domaine des assurances :
! analyse des risques (caractérisation des clients à hauts risques, etc.)
! automatisation du traitement des demandes (diagnostic des dégâts et
détermination automatique du montant des indemnités)
! Services financiers :
! Attribution de prêts automatisés, support à la décision de crédit
! Détection de fraude
! Marketing ciblé
! Grande distribution :
! •profils de consommateurs et modèles dʼachats
! •constitution des rayonnages
! •marketing ciblé
! Médecine :
! Aide au diagnostic
! ....
Introduction à la fouille de données - Bernard ESPINASSE - 22
C
C
Ci
i
ib
b
bl
l
la
a
ag
g
ge
e
e d
d
d’
’
’u
u
un
n
n m
m
ma
a
ai
i
il
l
li
i
in
n
ng
g
g
! Une entreprise veut proposer un nouveau produit :
! Envoi dʼun courrier
! Maximiser le taux de réponse
! Cibler un mailing
! Données disponibles :
! Le fichier client.
! Un fichier dʼadresses + historique des réponses aux mailings précédents.
! Un deuxième fichier dʼadresses + autres infos (acheté).
! Informations connexes (données démographiques …)
! Mode opératoire :
! Caractériser, parmi les personnes du deuxième fichier, celles qui : ont répondu,
ont acheté le produit, ont acheté un produit similaire.
! Sélectionner (dans le 1° ou 3° fichier) les clients potentiels ayant le même profil.
! Analyse des résultats :
! Comparaison avec un mailing massif précédent, avec un échantillon témoin.
! Calculer le gain (inclure le coût du Data Mining !)
! Boucler la boucle :
! Gain augmenté
! -> rendre la proposition plus attractive
! -> améliorer le taux de réponse.
! Enrichir la base avec les résultats du mailing
Introduction à la fouille de données - Bernard ESPINASSE - 23
O
O
Oi
i
is
s
se
e
eu
u
ux
x
x r
r
ra
a
ar
r
re
e
es
s
s e
e
et
t
t m
m
mo
o
ou
u
ut
t
to
o
on
n
ns
s
s n
n
no
o
oi
i
ir
r
rs
s
s
! Une banque possède un fichier client :
! Etat civil.
! Historique des comptes.
! Historique des contacts (demande dʼinfo, de prêts, de conseil).
! Utilisation des services (e-banque, assurances . . .).
! (réponse aux mailings.)
! Lʼobjectif est de repérer :
! Les clients rentables.
! Les clients non rentables.
! Les clients susceptibles de “poser des problèmes”
! Les clients susceptibles dʼacquérir un nouveau produit.
! Mode opératoire :
! Comme dans le premier exemple.
! Dégager des groupes homogènes :
! Programme de segmentation (clustering).
! Un expert vérifie la pertinence de la classification.
! Tester cette classification.
! Intégrer la classe dans la description du client.
Introduction à la fouille de données - Bernard ESPINASSE - 24
T
T
Ti
i
ic
c
ck
k
ke
e
et
t
ts
s
s d
d
de
e
e c
c
ca
a
ai
i
is
s
ss
s
se
e
e
! Ticket de caisse :
! Liste des achats.
! Heure de passage en caisse.
! Car te de crédit, carte de fidélité
! code postal , …
! Quels sont les articles le plus souvent achetés ensemble ?
! Si A et B alors C
! Promotions groupées, agencement du magasin . .
R
R
Re
e
ep
p
pé
é
ér
r
re
e
er
r
r l
l
le
e
es
s
s i
i
in
n
nt
t
tr
r
ru
u
us
s
s
! Connections de pirates :
! Mouvements de fonds suspects.
! Déplacement dʼune personne dans un lieu public.
! Phénomènes rares : Nuggets (pépites).
! Repérer les intrus
! Enoncer des règles.
! Vérification de la pertinence par un expert.
! Tester lʼhypothèse.
Introduction à la fouille de données - Bernard ESPINASSE - 25
5
5
5 –
–
– Q
Q
Qu
u
ue
e
el
l
lq
q
qu
u
ue
e
es
s
s l
l
lo
o
og
g
gi
i
ic
c
ci
i
ie
e
el
l
ls
s
s d
d
de
e
e f
f
fo
o
ou
u
ui
i
il
l
ll
l
le
e
e
d
d
de
e
e d
d
do
o
on
n
nn
n
né
é
ée
e
es
s
s
! Logiciels de statistique et de fouille sur PC
! Logiciels de statistique et de fouille sur gros systèmes
Introduction à la fouille de données - Bernard ESPINASSE - 26
L
L
Lo
o
og
g
gi
i
ic
c
ci
i
ie
e
el
l
ls
s
s d
d
de
e
e s
s
st
t
ta
a
at
t
ti
i
is
s
st
t
ti
i
iq
q
qu
u
ue
e
e e
e
et
t
t d
d
de
e
e f
f
fo
o
ou
u
ui
i
il
l
ll
l
le
e
e s
s
su
u
ur
r
r P
P
PC
C
C
! Logiciels commercialisés :
! S-PLUSTM de Insight,
! AliceTM de Isoft,
! Predict TM de Neuralware,
! R (version gratuite de S-PLUS)
! Logiciels gratuits :
! Weka
! Tanagra
! Orange
! Intérêts :
! faciles à installer, utiliser, prix abordable
! adaptés aux PME car ils peuvent gérer plusieurs dizaines de milliers
voire plusieurs centaines de milliers dʼindividus
! Limites :
! ils ne permettent pas de traiter de très grandes bases de données
! ils ne mettent souvent en œuvre quʼune ou deux techniques (excepté les
produits S-PLUS, R, Tanagra et Weka)
Introduction à la fouille de données - Bernard ESPINASSE - 27
L
L
Lo
o
og
g
gi
i
ic
c
ci
i
ie
e
el
l
ls
s
s d
d
de
e
e s
s
st
t
ta
a
at
t
ti
i
is
s
st
t
ti
i
iq
q
qu
u
ue
e
e e
e
et
t
t d
d
de
e
e f
f
fo
o
ou
u
ui
i
il
l
ll
l
le
e
e s
s
su
u
ur
r
r g
g
gr
r
ro
o
os
s
s s
s
sy
y
ys
s
st
t
tè
è
èm
m
me
e
es
s
s
! Ils sont conçus pour :
! pour exploiter de très grands volumes de données
! pour couvrir une large palette de techniques
! Ils existent parfois :
! en version «statistique»
! ou «data mining» (en général sur-couche du 1er)
! Ils peuvent fonctionner en mode client-serveur
! Logiciels commercialisés :
! SPSSTM et Clementine de SPSS
! SAS/STAT et Enterprise Miner de SAS
! Statistica Data Miner de StatSoft
! S-PLUS et Insightful Miner de Insightful
! KXEN
! …
Introduction à la fouille de données - Bernard ESPINASSE - 28
L
L
Lo
o
og
g
gi
i
ic
c
ci
i
ie
e
el
l
ls
s
s d
d
de
e
e f
f
fo
o
ou
u
ui
i
il
l
ll
l
le
e
e d
d
de
e
e d
d
do
o
on
n
nn
n
né
é
ée
e
es
s
s g
g
gr
r
ra
a
at
t
tu
u
ui
i
it
t
ts
s
s :
:
: W
W
We
e
ek
k
ka
a
a
! Weka :
! Weka (Waikato Environment for Knowledge Analysis) est un ensemble
de classes et d'algorithmes en Java développé à lʼUniversité de Waikato
en Nouvelle Zélande
! Weka implémente les principaux algorithmes de la fouille, notamment :
- les arbres de décision
- les réseaux de neurones
! il est téléchargeable (versions Unix et Windows) à l'adresse :
http://www.cs.waikato.ac.nz/ml/weka
! développé en complément du livre : Data Mining par I. Witten et E. Frank
(éditions Morgan Kaufmann).
! peut être utilisé de plusieurs façons :
- par l'intermédiaire d'une interface utilisateur (comme utilisée en TP)
- sur la ligne de commande.
- par l'utilisation des classes fournies à l'intérieur de programmes Java
(classes documentées)
Introduction à la fouille de données - Bernard ESPINASSE - 29
L
L
Lo
o
og
g
gi
i
ic
c
ci
i
ie
e
el
l
ls
s
s d
d
de
e
e f
f
fo
o
ou
u
ui
i
il
l
ll
l
le
e
e d
d
de
e
e d
d
do
o
on
n
nn
n
né
é
ée
e
es
s
s g
g
gr
r
ra
a
at
t
tu
u
ui
i
it
t
ts
s
s :
:
: T
T
Ta
a
an
n
na
a
ag
g
gr
r
ra
a
a
! Tanagra :
! TANAGRA est un logiciel gratuit développé à lʼUniversité de Lumiere
Lyon 2, laboratoire ERIC, par Ricco Rakotomalala
! Il est destiné à lʼenseignement et à la recherche, et téléchargeable à
lʼadresse : http://chirouble.univ-lyon2.fr/~ricco/cours/index.html
! Il implémente diverses méthodes de fouilles de données issues du
domaine de la statistique exploratoire, de lʼapprentissage automatique et
des bases de données, …
! Orange :
! est développé par Blaz Zupan, à la Faculty of Computer and Information
Science, de lʼUniversité de Ljubljana en Slovenie
! Il est destiné à lʼenseignement et à la recherche, et téléchargeable à
lʼadresse : http://www.ailab.si/orange
! Il implémente aussi diverses méthodes de fouilles de données issues du
domaine de la statistique exploratoire, de lʼapprentissage automatique et
des bases de données, …

Contenu connexe

Similaire à 8-IntroFouilleeeeeeeeeeeeeeeeeeeeeeeeeeeeee.pdf

Intelligence économique, veille et curation d'information sur Internet
Intelligence économique, veille et curation d'information sur InternetIntelligence économique, veille et curation d'information sur Internet
Intelligence économique, veille et curation d'information sur InternetCYB@RDECHE
 
30 ans de télévision : les animateurs préférés des Français
30 ans de télévision : les animateurs préférés des Français30 ans de télévision : les animateurs préférés des Français
30 ans de télévision : les animateurs préférés des FrançaisIpsos France
 
Module 9 méthodologie incef pour une session éducative
Module 9 méthodologie incef pour une session éducative Module 9 méthodologie incef pour une session éducative
Module 9 méthodologie incef pour une session éducative William Finnegan
 
2-ElemTheoDecision-4p.pdf
2-ElemTheoDecision-4p.pdf2-ElemTheoDecision-4p.pdf
2-ElemTheoDecision-4p.pdfSalmaMezghani2
 
30 ans de télévision : les animateurs préférés des Français
30 ans de télévision : les animateurs préférés des Français30 ans de télévision : les animateurs préférés des Français
30 ans de télévision : les animateurs préférés des FrançaisIpsos France
 
Enquête Ipsos pour Armor - Mai 2015
Enquête Ipsos pour Armor - Mai 2015Enquête Ipsos pour Armor - Mai 2015
Enquête Ipsos pour Armor - Mai 2015Ipsos France
 
Future thinking big data passive 2018
Future thinking big data passive 2018Future thinking big data passive 2018
Future thinking big data passive 2018onibi29
 
Aut2020 cri1200- parcours de la recherche d'information en criminologie
Aut2020   cri1200- parcours de la recherche d'information en criminologieAut2020   cri1200- parcours de la recherche d'information en criminologie
Aut2020 cri1200- parcours de la recherche d'information en criminologieFrance Nadeau
 
Module 8 méthodologie incef pour une session éducative
Module 8 méthodologie incef pour une session éducative Module 8 méthodologie incef pour une session éducative
Module 8 méthodologie incef pour une session éducative William Finnegan
 
Atelier La veille, un outil pour TOUTES les entreprises - RuninTech - Reunive...
Atelier La veille, un outil pour TOUTES les entreprises - RuninTech - Reunive...Atelier La veille, un outil pour TOUTES les entreprises - RuninTech - Reunive...
Atelier La veille, un outil pour TOUTES les entreprises - RuninTech - Reunive...Franck Dasilva
 
Etude qualitative et quantitative définitions et différences
Etude qualitative et quantitative   définitions et différencesEtude qualitative et quantitative   définitions et différences
Etude qualitative et quantitative définitions et différenceslaboratoiresecuriteh
 
Les stages, une passerelle vers l’emploi
Les stages, une passerelle vers l’emploiLes stages, une passerelle vers l’emploi
Les stages, une passerelle vers l’emploiIpsos France
 
Les Francais et les sciences participatives
Les Francais et les sciences participativesLes Francais et les sciences participatives
Les Francais et les sciences participativesIpsos France
 
Data mining et data science
Data mining et data scienceData mining et data science
Data mining et data scienceRima Jamli Faidi
 
Evaluer et améliorer la qualité de vie à partir des données de santé | Webcam...
Evaluer et améliorer la qualité de vie à partir des données de santé | Webcam...Evaluer et améliorer la qualité de vie à partir des données de santé | Webcam...
Evaluer et améliorer la qualité de vie à partir des données de santé | Webcam...Innov'Asso
 
Outils de veille et d'intelligence économique territoriale
Outils de veille et d'intelligence économique territorialeOutils de veille et d'intelligence économique territoriale
Outils de veille et d'intelligence économique territorialeChristophe Marnat
 
"Le marketing digital au sein des cabinets d'avocats" - Anne-Marie SALVADOR
"Le marketing digital au sein des cabinets d'avocats" - Anne-Marie SALVADOR"Le marketing digital au sein des cabinets d'avocats" - Anne-Marie SALVADOR
"Le marketing digital au sein des cabinets d'avocats" - Anne-Marie SALVADORAnne-Marie Salvador
 

Similaire à 8-IntroFouilleeeeeeeeeeeeeeeeeeeeeeeeeeeeee.pdf (20)

Intelligence économique, veille et curation d'information sur Internet
Intelligence économique, veille et curation d'information sur InternetIntelligence économique, veille et curation d'information sur Internet
Intelligence économique, veille et curation d'information sur Internet
 
Coursafd ch1
Coursafd ch1Coursafd ch1
Coursafd ch1
 
30 ans de télévision : les animateurs préférés des Français
30 ans de télévision : les animateurs préférés des Français30 ans de télévision : les animateurs préférés des Français
30 ans de télévision : les animateurs préférés des Français
 
Module 9 méthodologie incef pour une session éducative
Module 9 méthodologie incef pour une session éducative Module 9 méthodologie incef pour une session éducative
Module 9 méthodologie incef pour une session éducative
 
Le Full Data. L'avenir du numérique?
Le Full Data. L'avenir du numérique?Le Full Data. L'avenir du numérique?
Le Full Data. L'avenir du numérique?
 
2-ElemTheoDecision-4p.pdf
2-ElemTheoDecision-4p.pdf2-ElemTheoDecision-4p.pdf
2-ElemTheoDecision-4p.pdf
 
30 ans de télévision : les animateurs préférés des Français
30 ans de télévision : les animateurs préférés des Français30 ans de télévision : les animateurs préférés des Français
30 ans de télévision : les animateurs préférés des Français
 
Formation certificat en santé mentale- UQAR
Formation certificat en santé mentale- UQARFormation certificat en santé mentale- UQAR
Formation certificat en santé mentale- UQAR
 
Enquête Ipsos pour Armor - Mai 2015
Enquête Ipsos pour Armor - Mai 2015Enquête Ipsos pour Armor - Mai 2015
Enquête Ipsos pour Armor - Mai 2015
 
Future thinking big data passive 2018
Future thinking big data passive 2018Future thinking big data passive 2018
Future thinking big data passive 2018
 
Aut2020 cri1200- parcours de la recherche d'information en criminologie
Aut2020   cri1200- parcours de la recherche d'information en criminologieAut2020   cri1200- parcours de la recherche d'information en criminologie
Aut2020 cri1200- parcours de la recherche d'information en criminologie
 
Module 8 méthodologie incef pour une session éducative
Module 8 méthodologie incef pour une session éducative Module 8 méthodologie incef pour une session éducative
Module 8 méthodologie incef pour une session éducative
 
Atelier La veille, un outil pour TOUTES les entreprises - RuninTech - Reunive...
Atelier La veille, un outil pour TOUTES les entreprises - RuninTech - Reunive...Atelier La veille, un outil pour TOUTES les entreprises - RuninTech - Reunive...
Atelier La veille, un outil pour TOUTES les entreprises - RuninTech - Reunive...
 
Etude qualitative et quantitative définitions et différences
Etude qualitative et quantitative   définitions et différencesEtude qualitative et quantitative   définitions et différences
Etude qualitative et quantitative définitions et différences
 
Les stages, une passerelle vers l’emploi
Les stages, une passerelle vers l’emploiLes stages, une passerelle vers l’emploi
Les stages, une passerelle vers l’emploi
 
Les Francais et les sciences participatives
Les Francais et les sciences participativesLes Francais et les sciences participatives
Les Francais et les sciences participatives
 
Data mining et data science
Data mining et data scienceData mining et data science
Data mining et data science
 
Evaluer et améliorer la qualité de vie à partir des données de santé | Webcam...
Evaluer et améliorer la qualité de vie à partir des données de santé | Webcam...Evaluer et améliorer la qualité de vie à partir des données de santé | Webcam...
Evaluer et améliorer la qualité de vie à partir des données de santé | Webcam...
 
Outils de veille et d'intelligence économique territoriale
Outils de veille et d'intelligence économique territorialeOutils de veille et d'intelligence économique territoriale
Outils de veille et d'intelligence économique territoriale
 
"Le marketing digital au sein des cabinets d'avocats" - Anne-Marie SALVADOR
"Le marketing digital au sein des cabinets d'avocats" - Anne-Marie SALVADOR"Le marketing digital au sein des cabinets d'avocats" - Anne-Marie SALVADOR
"Le marketing digital au sein des cabinets d'avocats" - Anne-Marie SALVADOR
 

Dernier

Recurrent neural network_PresentationRNN.pptx
Recurrent neural network_PresentationRNN.pptxRecurrent neural network_PresentationRNN.pptx
Recurrent neural network_PresentationRNN.pptxbahija babzine
 
Bidirectional Encoder Representations from Transformers
Bidirectional Encoder Representations from TransformersBidirectional Encoder Representations from Transformers
Bidirectional Encoder Representations from Transformersbahija babzine
 
To_understand_transformers_together presentation
To_understand_transformers_together presentationTo_understand_transformers_together presentation
To_understand_transformers_together presentationbahija babzine
 
Le contrôle de la recherche d'emploi en 2023
Le contrôle de la recherche d'emploi en 2023Le contrôle de la recherche d'emploi en 2023
Le contrôle de la recherche d'emploi en 2023France Travail
 
Les Français, l'Europe et Emmanuel Macron
Les Français, l'Europe et Emmanuel MacronLes Français, l'Europe et Emmanuel Macron
Les Français, l'Europe et Emmanuel Macroncontact Elabe
 
Libérer le Potentiel à l'Ère de la Transformation Numérique pour des Organisa...
Libérer le Potentiel à l'Ère de la Transformation Numérique pour des Organisa...Libérer le Potentiel à l'Ère de la Transformation Numérique pour des Organisa...
Libérer le Potentiel à l'Ère de la Transformation Numérique pour des Organisa...Mohamed Bouanane
 

Dernier (6)

Recurrent neural network_PresentationRNN.pptx
Recurrent neural network_PresentationRNN.pptxRecurrent neural network_PresentationRNN.pptx
Recurrent neural network_PresentationRNN.pptx
 
Bidirectional Encoder Representations from Transformers
Bidirectional Encoder Representations from TransformersBidirectional Encoder Representations from Transformers
Bidirectional Encoder Representations from Transformers
 
To_understand_transformers_together presentation
To_understand_transformers_together presentationTo_understand_transformers_together presentation
To_understand_transformers_together presentation
 
Le contrôle de la recherche d'emploi en 2023
Le contrôle de la recherche d'emploi en 2023Le contrôle de la recherche d'emploi en 2023
Le contrôle de la recherche d'emploi en 2023
 
Les Français, l'Europe et Emmanuel Macron
Les Français, l'Europe et Emmanuel MacronLes Français, l'Europe et Emmanuel Macron
Les Français, l'Europe et Emmanuel Macron
 
Libérer le Potentiel à l'Ère de la Transformation Numérique pour des Organisa...
Libérer le Potentiel à l'Ère de la Transformation Numérique pour des Organisa...Libérer le Potentiel à l'Ère de la Transformation Numérique pour des Organisa...
Libérer le Potentiel à l'Ère de la Transformation Numérique pour des Organisa...
 

8-IntroFouilleeeeeeeeeeeeeeeeeeeeeeeeeeeeee.pdf

  • 1. Introduction à la fouille de données - Bernard ESPINASSE - 1 Introduction à la Fouille de Données (Data Mining) (8) Bernard ESPINASSE Professeur à Aix-Marseille Université (AMU) Ecole Polytechnique Universitaire de Marseille Septembre 2008 • Introduction à la fouille de données • Types de données exploitées et de connaissances extraites • Exemples dʼapplications de la fouille de données • Quelques logiciels de fouille de données Introduction à la fouille de données - Bernard ESPINASSE - 2 P P Pl l la a an n n 1. Introduction à la fouille de données ! Extraction de connaissances à partir de données et fouille de données ! La fouille de données à la rencontre de plusieurs disciplines ! Un exemple de découverte dʼinformation et de connaissance 2. Types de données exploitées et de connaissances extraites ! Exemple de données disponibles exploitées ! Connaissances extraites 3. Exemples dʼapplications de la fouille de données ! Principaux domaines d'application de la fouille de données ! Ciblage dʼun mailing ! Oiseux rares et moutons noirs ! Ticket de caisse ! Repérer les intrus 4. Quelques logiciels de fouille de données Introduction à la fouille de données - Bernard ESPINASSE - 3 R R Ré é éf f fé é ér r re e en n nc c ce e es s s b b bi i ib b bl l li i io o og g gr r ra a ap p ph h hi i iq q qu u ue e es s s Ouvrages : ! Franco J-M., « Le Data Warehouse et le Data Mining ». Ed. Eyrolles, Paris, 1997. ISBN 2-212-08956-2. ! Gardarin G., « Internet/intranet et bases de données », Ed. Eyrolles, Paris, 1999, ISBN 2-212-09069-2. ! Han J., Kamber M., « Data Mining: Concepts and Techniques », Morgan Kaufmann Publishers, 2004. ! Lefébure R., Venturi G., « Le data Mining », Ed. Eyrolles, Paris, 1998. ISBN 2-212- 08981-3. ! Tufféry S., « Data Mining et statistique décisionnelle », Ed. Technip, Paris, 2005, ISBN 2-7108-0867-6. ! … Cours : ! Cours de A. Rakotomamonjy, INSA Rouen, Lab. PSI, Rouen. ! Cours de G. Gardarin, Univ. de Versailles ! Cours de J. Han et M. Kamber M., Simon Fraser Univ., Vancouver BC, Canada. ! Cours de M. Adiba et M.C. Fauvet, Univ. Grenoble ! Cours de R. Gilleron et M. Tommasi, Univ. Charles De Gaulle-Lille 3, Lab. LIFL, équipe Grappa. ! Cours de R. Rakotomalala, Univ. Lumière Lyon 2, Lab. ERIC Lyon ! … Introduction à la fouille de données - Bernard ESPINASSE - 4 R R Re e es s ss s so o ou u ur r rc c ce e es s s s s su u ur r r l l le e e W W We e eb b b r r re e el l la a at t ti i iv v ve e es s s à à à l l la a a f f fo o ou u ui i il l ll l le e e d d de e e d d do o on n nn n né é ée e es s s ! Page de Ricco Rakotomalala : ! http://chirouble.univ-lyon2.fr/~ricco/cours/index.html ! cette page regroupe des liens très intéressant sur le Data Mining (cours, transparents, logiciels ...) ! Page de Stéphane Tufféry : ! http://data.mining.free.fr/ ! cette page regroupe aussi pleins de liens très intéressant sur le Data Mining (cours, transparents, logiciels ...) ! …
  • 2. Introduction à la fouille de données - Bernard ESPINASSE - 5 1 1 1 – – – I I In n nt t tr r ro o od d du u uc c ct t ti i io o on n n à à à l l la a a f f fo o ou u ui i il l ll l le e e d d de e e d d do o on n nn n né é ée e es s s ! Extraction de connaissances à partir de données et fouille de données ! La fouille de données à la rencontre de plusieurs disciplines ! Un exemple de découverte dʼinformation et de connaissance Introduction à la fouille de données - Bernard ESPINASSE - 6 D D Dé é éf f fi i in n ni i it t ti i io o on n ns s s ! Extraction de connaissance à partir de données (Knowledge Discovery in Databases – KDD) : ! cycle de découverte dʼinformation regroupant la conception de grandes bases de données ou entrepôts de données (Data Warehouse) ! tous les traitements à effectuer pour extraire de lʼinformation des données ! lʼun de ces traitement est la Fouille de données (Data Mining) ! Fouille de données (Data Mining) : ! Ensemble de techniques d'exploration de données permettant d'extraire d'une base de données des connaissances sous la forme de modèles de description afin de : ! décrire le comportement actuel des données et/ou ! prédire le comportement futur des données Introduction à la fouille de données - Bernard ESPINASSE - 7 P P Pr r ro o oc c ce e es s ss s su u us s s d d dʼ ʼ ʼe e ex x xt t tr r ra a ac c ct t ti i io o on n n d d de e e c c co o on n nn n na a ai i is s ss s sa a an n nc c ce e es s s à à à p p pa a ar r rt t ti i ir r r d d de e e d d do o on n nn n né é ée e es s s Processus ECD (Extraction de connaissances à partir de données) ou KDD (Knowledge Discovery in Databases) : Introduction à la fouille de données - Bernard ESPINASSE - 8 L L La a a f f fo o ou u ui i il l ll l le e e d d de e e d d do o on n nn n né é ée e es s s à à à l l la a a r r re e en n nc c co o on n nt t tr r re e e d d de e e p p pl l lu u us s si i ie e eu u ur r rs s s d d di i is s sc c ci i ip p pl l li i in n ne e es s s
  • 3. Introduction à la fouille de données - Bernard ESPINASSE - 9 F F Fo o ou u ui i il l ll l le e e d d de e e d d do o on n nn n né é ée e es s s = = = g g gr r ra a an n nd d de e e q q qu u ua a an n nt t ti i it t té é é d d de e e d d do o on n nn n né é ée e es s s + + + a a al l lg g go o or r ri i it t th h hm m me e es s s e e ef f ff f fi i ic c ca a ac c ce e es s s La fouille de données = processus qui sʼappuie sur : ! La disponibilité de grandes quantités de données : ! Si lʼensemble est trop petit, les structures peuvent ne résulter que du hasard ! On peut espérer quʼun gros volume de données représente bien lʼunivers (échantillon. . .) ! Des algorithmes sûrs et efficaces : ! Algorithmes sûrs : fondés théoriquement (recherche) ! Efficaces en temps ! Efficaces en espace ! Résultats interprétables ! Paramètres ajustables (en temps réel ou à peu près). Introduction à la fouille de données - Bernard ESPINASSE - 10 U U Un n n e e ex x xe e em m mp p pl l le e e d d de e e d d dé é éc c co o ou u uv v ve e er r rt t te e e d d dʼ ʼ ʼi i in n nf f fo o or r rm m ma a at t ti i io o on n n e e et t t d d de e e c c co o on n nn n na a ai i is s ss s sa a an n nc c ce e e Exemple issu du livre de P. Adriaans et D. Zantige [Adriaans & Zantige 96] - Un éditeur vend 5 sortes de magazines : sport, voiture, maison, musique et BD - Il souhaite mieux étudier ses clients pour découvrir de nouveaux marchés ou vendre plus de magazines à ses clients habituels Quelques questions qu'il peut se poser : Q1 : Combien de personnes ont pris un abonnement à un magazine de sport cette année ? Q2 : A-t-on vendu plus d'abonnements de magazines de sport cette année que l'année dernière ? Q3 : Est-ce que les acheteurs de magazines de BD sont aussi amateurs de sport ? Q4 : Quelles sont les caractéristiques principales de mes lecteurs de magazines de voiture ? Q5 : Peut-on prévoir les pertes de clients et prévoir des mesures pour les diminuer ? Questions de natures différentes mettant en jeu des processus différents Introduction à la fouille de données - Bernard ESPINASSE - 11 U U Un n n e e ex x xe e em m mp p pl l le e e d d de e e d d dé é éc c co o ou u uv v ve e er r rt t te e e d d dʼ ʼ ʼi i in n nf f fo o or r rm m ma a at t ti i io o on n n e e et t t d d de e e c c co o on n nn n na a ai i is s ss s sa a an n nc c ce e e Q1 : Combien de personnes ont pris un abonnement à un magazine de sport cette année ? ! réalisable en SQL à partir des données opérationnelles sous réserve d'indexations suffisantes des tables concernées ! seule difficulté : ne pas pénaliser le serveur transactionnel par des requêtes trop longues Q2 : A-t-on vendu plus d'abonnements de magazines de sport cette année que l'année ? ! nécessite de conserver toutes les dates de souscription même pour les abonnements résiliés ! l'utilisateur devrait poser de nombreuses requêtes de ce type ! elles devraient être résolues par des requêtes multidimensionnelles de type OLAP. Q1 et Q2 : ! Réponse par simples requêtes SQL : les données recherchées sont que le résultat d'un calcul simple sur un ou des groupes d'enregistrements ! ce qui distingue Q1 et Q2, c'est la notion de temps et la comparaison Introduction à la fouille de données - Bernard ESPINASSE - 12 U U Un n n e e ex x xe e em m mp p pl l le e e d d de e e d d dé é éc c co o ou u uv v ve e er r rt t te e e d d dʼ ʼ ʼi i in n nf f fo o or r rm m ma a at t ti i io o on n n e e et t t d d de e e c c co o on n nn n na a ai i is s ss s sa a an n nc c ce e e Q3 : Est-ce que les acheteurs de magazines de BD sont aussi amateurs de sport ? ! exemple simplifié de problème où l'on demande si les données vérifient une règle ! réponse formulée par une valeur estimant la probabilité que la règle soit vraie ! en général des outils statistiques sont utilisés ! cette question peut être généralisée, on pourrait ainsi : ! chercher des associations fréquentes entre acheteurs de magazine pour effectuer des actions promotionnelles ! introduire une composante temporelle pour chercher si le fait d'être lecteur d'un magazine implique d'être, plus tard, lecteur d'un autre magazine
  • 4. Introduction à la fouille de données - Bernard ESPINASSE - 13 U U Un n n e e ex x xe e em m mp p pl l le e e d d de e e d d dé é éc c co o ou u uv v ve e er r rt t te e e d d dʼ ʼ ʼi i in n nf f fo o or r rm m ma a at t ti i io o on n n e e et t t d d de e e c c co o on n nn n na a ai i is s ss s sa a an n nc c ce e e Q4 : Quelles sont les caractéristiques principales de mes lecteurs de magazines de voiture ? ! question beaucoup plus ouverte : il sʼagit de trouver une règle et non plus de la vérifier ou de l'utiliser c'est pour ce type de question que sont mis en oeuvre des outils de fouille de données Q5 : Peut-on prévoir les pertes de clients et prévoir des mesures pour les diminuer ? ! question ouverte : Il faut disposer d'indicateurs comme : durées d'abonnement, délais de paiement, ... ! question (classique dans le bancaire) avec une forte composante temporelle et nécessite des données historiques Introduction à la fouille de données - Bernard ESPINASSE - 14 2 2 2 – – – T T Ty y yp p pe e es s s d d de e e d d do o on n nn n né é ée e es s s e e ex x xp p pl l lo o oi i it t té é ée e es s s e e et t t d d de e e c c co o on n nn n na a ai i is s ss s sa a an n nc c ce e es s s e e ex x xt t tr r ra a ai i it t te e es s s ! Exemple de données disponibles exploitées ! Connaissances extraites Introduction à la fouille de données - Bernard ESPINASSE - 15 E E Ex x xe e em m mp p pl l le e e d d de e e d d do o on n nn n né é ée e es s s d d di i is s sp p po o on n ni i ib b bl l le e es s s ( ( (1 1 1) ) ) ! Transactions : ! Tickets de caisse : liste dʼarticles. ! Factures : produit, client. ! Communications téléphoniques : interlocuteurs, durée, lieux. ! Connexions informatiques : fichier « log » ! Bases de données des entreprises : ! Factures. ! Commandes. ! Suivi. ! . . . ! Téléphone portable : ! Obligation légale de conservation des données. ! Durée des communications. ! Numéros appelés (type, localisation). ! Abonnement, changements. ! Mobilité. ! Utilisation des services annexes. Introduction à la fouille de données - Bernard ESPINASSE - 16 E E Ex x xe e em m mp p pl l le e e d d de e e d d do o on n nn n né é ée e es s s d d di i is s sp p po o on n ni i ib b bl l le e es s s ( ( (2 2 2) ) ) ! Satellites : Espace ! Photos (différentes longueur dʼonde) de corps célestes ! Les photos sont créées plus vite quʼelles ne peuvent être exploitées ! Chaque photo contient un très grand nombre dʼinformations potentielles ! Accumuler, classer et mémoriser ! Histoire dʼun objet céleste (orbite brillance ) ! Satellites : La Terre ! Militaires ! Météo ! Géographiques (Cartographie) ! Reconnaissance automatique : ! De forme (cartographie) ! De mouvement (militaire, météo : nuages) ! Type de terrain (cartographie) ! Type de culture, état de la végétation (subvention …).
  • 5. Introduction à la fouille de données - Bernard ESPINASSE - 17 E E Ex x xe e em m mp p pl l le e e d d de e e d d do o on n nn n né é ée e es s s d d di i is s sp p po o on n ni i ib b bl l le e es s s t t te e em m mp p po o or r re e el l ll l le e es s s ( ( (1 1 1) ) ) ! Données temporelles : ! On suppose quʼil existe une relation de cause à effet entre la donnée au temps t et les données aux temps ti < t : ! Suivre une donnée dans le temps. ! Une donnée par rapport à toutes les autres. ! Chaque donnée par rapport à toutes les autres. ! Trouver les relations entre les données. ! Exemples : ! Cours de la bourse (valeurs des actions, contexte . . .) ! Météo : vent, température, précipitations … (en différents points dʼobservation). ! Génomique : Démarche inverse : on produit les données explicitement pour appliquer des méthodes de Data Mining : ! Séquençage automatique (rapide). ! Il y a des informations, des structures à trouver. ! Recherche de structures communes. ! Localisation des gènes. Introduction à la fouille de données - Bernard ESPINASSE - 18 E E Ex x xe e em m mp p pl l le e e d d de e e d d do o on n nn n né é ée e es s s d d di i is s sp p po o on n ni i ib b bl l le e e t t te e em m mp p po o or r re e el l ll l le e es s s ( ( (2 2 2) ) ) ! Données du Web : Récupération facile de pages ou de sites (paquetage java.net) : ! Contenu des pages. ! Liens entre les pages. ! Historique des connexions (fichiers log). ! Données textuelles : ! Pages Web. ! fichiers word, pdf … ! Dépêches dʼagence. ! Digitalisation de bibliothèques. Introduction à la fouille de données - Bernard ESPINASSE - 19 T T Ty y yp p pe e es s s d d de e e c c co o on n nn n na a ai i is s ss s sa a an n nc c ce e es s s e e ex x xt t tr r ra a ai i it t te e es s s Connaissances extraites = connaissances sous la forme de modèles de description permettant de : ! décrire le comportement actuel des données et/ou ! prédire le comportement futur des données ! des analyses : ! exemple: la distribution du trafic routier en fonction de l'heure ! des règles : ! exemple : si un client n'a pas payé une facture > 1 000 € alors il est dans 70% des cas en faillite ! lʼattribution de scores de qualité : ! par exemple, score de fidélité aux clients ! la classification dʼentités : ! par exemple, les mauvais payeurs Introduction à la fouille de données - Bernard ESPINASSE - 20 3 3 3 – – – E E Ex x xe e em m mp p pl l le e es s s d d dʼ ʼ ʼa a ap p pp p pl l li i ic c ca a at t ti i io o on n ns s s d d de e e l l la a a f f fo o ou u ui i il l ll l le e e d d de e e d d do o on n nn n né é ée e es s s ! Principaux domaines d'application de la fouille de données ! Ciblage dʼun mailing ! Oiseux rares et moutons noirs ! Ticket de caisse ! Repérer les intrus
  • 6. Introduction à la fouille de données - Bernard ESPINASSE - 21 P P Pr r ri i in n nc c ci i ip p pa a au u ux x x d d do o om m ma a ai i in n ne e es s s d d d' ' 'a a ap p pp p pl l li i ic c ca a at t ti i io o on n n ! Domaine des assurances : ! analyse des risques (caractérisation des clients à hauts risques, etc.) ! automatisation du traitement des demandes (diagnostic des dégâts et détermination automatique du montant des indemnités) ! Services financiers : ! Attribution de prêts automatisés, support à la décision de crédit ! Détection de fraude ! Marketing ciblé ! Grande distribution : ! •profils de consommateurs et modèles dʼachats ! •constitution des rayonnages ! •marketing ciblé ! Médecine : ! Aide au diagnostic ! .... Introduction à la fouille de données - Bernard ESPINASSE - 22 C C Ci i ib b bl l la a ag g ge e e d d d’ ’ ’u u un n n m m ma a ai i il l li i in n ng g g ! Une entreprise veut proposer un nouveau produit : ! Envoi dʼun courrier ! Maximiser le taux de réponse ! Cibler un mailing ! Données disponibles : ! Le fichier client. ! Un fichier dʼadresses + historique des réponses aux mailings précédents. ! Un deuxième fichier dʼadresses + autres infos (acheté). ! Informations connexes (données démographiques …) ! Mode opératoire : ! Caractériser, parmi les personnes du deuxième fichier, celles qui : ont répondu, ont acheté le produit, ont acheté un produit similaire. ! Sélectionner (dans le 1° ou 3° fichier) les clients potentiels ayant le même profil. ! Analyse des résultats : ! Comparaison avec un mailing massif précédent, avec un échantillon témoin. ! Calculer le gain (inclure le coût du Data Mining !) ! Boucler la boucle : ! Gain augmenté ! -> rendre la proposition plus attractive ! -> améliorer le taux de réponse. ! Enrichir la base avec les résultats du mailing Introduction à la fouille de données - Bernard ESPINASSE - 23 O O Oi i is s se e eu u ux x x r r ra a ar r re e es s s e e et t t m m mo o ou u ut t to o on n ns s s n n no o oi i ir r rs s s ! Une banque possède un fichier client : ! Etat civil. ! Historique des comptes. ! Historique des contacts (demande dʼinfo, de prêts, de conseil). ! Utilisation des services (e-banque, assurances . . .). ! (réponse aux mailings.) ! Lʼobjectif est de repérer : ! Les clients rentables. ! Les clients non rentables. ! Les clients susceptibles de “poser des problèmes” ! Les clients susceptibles dʼacquérir un nouveau produit. ! Mode opératoire : ! Comme dans le premier exemple. ! Dégager des groupes homogènes : ! Programme de segmentation (clustering). ! Un expert vérifie la pertinence de la classification. ! Tester cette classification. ! Intégrer la classe dans la description du client. Introduction à la fouille de données - Bernard ESPINASSE - 24 T T Ti i ic c ck k ke e et t ts s s d d de e e c c ca a ai i is s ss s se e e ! Ticket de caisse : ! Liste des achats. ! Heure de passage en caisse. ! Car te de crédit, carte de fidélité ! code postal , … ! Quels sont les articles le plus souvent achetés ensemble ? ! Si A et B alors C ! Promotions groupées, agencement du magasin . . R R Re e ep p pé é ér r re e er r r l l le e es s s i i in n nt t tr r ru u us s s ! Connections de pirates : ! Mouvements de fonds suspects. ! Déplacement dʼune personne dans un lieu public. ! Phénomènes rares : Nuggets (pépites). ! Repérer les intrus ! Enoncer des règles. ! Vérification de la pertinence par un expert. ! Tester lʼhypothèse.
  • 7. Introduction à la fouille de données - Bernard ESPINASSE - 25 5 5 5 – – – Q Q Qu u ue e el l lq q qu u ue e es s s l l lo o og g gi i ic c ci i ie e el l ls s s d d de e e f f fo o ou u ui i il l ll l le e e d d de e e d d do o on n nn n né é ée e es s s ! Logiciels de statistique et de fouille sur PC ! Logiciels de statistique et de fouille sur gros systèmes Introduction à la fouille de données - Bernard ESPINASSE - 26 L L Lo o og g gi i ic c ci i ie e el l ls s s d d de e e s s st t ta a at t ti i is s st t ti i iq q qu u ue e e e e et t t d d de e e f f fo o ou u ui i il l ll l le e e s s su u ur r r P P PC C C ! Logiciels commercialisés : ! S-PLUSTM de Insight, ! AliceTM de Isoft, ! Predict TM de Neuralware, ! R (version gratuite de S-PLUS) ! Logiciels gratuits : ! Weka ! Tanagra ! Orange ! Intérêts : ! faciles à installer, utiliser, prix abordable ! adaptés aux PME car ils peuvent gérer plusieurs dizaines de milliers voire plusieurs centaines de milliers dʼindividus ! Limites : ! ils ne permettent pas de traiter de très grandes bases de données ! ils ne mettent souvent en œuvre quʼune ou deux techniques (excepté les produits S-PLUS, R, Tanagra et Weka) Introduction à la fouille de données - Bernard ESPINASSE - 27 L L Lo o og g gi i ic c ci i ie e el l ls s s d d de e e s s st t ta a at t ti i is s st t ti i iq q qu u ue e e e e et t t d d de e e f f fo o ou u ui i il l ll l le e e s s su u ur r r g g gr r ro o os s s s s sy y ys s st t tè è èm m me e es s s ! Ils sont conçus pour : ! pour exploiter de très grands volumes de données ! pour couvrir une large palette de techniques ! Ils existent parfois : ! en version «statistique» ! ou «data mining» (en général sur-couche du 1er) ! Ils peuvent fonctionner en mode client-serveur ! Logiciels commercialisés : ! SPSSTM et Clementine de SPSS ! SAS/STAT et Enterprise Miner de SAS ! Statistica Data Miner de StatSoft ! S-PLUS et Insightful Miner de Insightful ! KXEN ! … Introduction à la fouille de données - Bernard ESPINASSE - 28 L L Lo o og g gi i ic c ci i ie e el l ls s s d d de e e f f fo o ou u ui i il l ll l le e e d d de e e d d do o on n nn n né é ée e es s s g g gr r ra a at t tu u ui i it t ts s s : : : W W We e ek k ka a a ! Weka : ! Weka (Waikato Environment for Knowledge Analysis) est un ensemble de classes et d'algorithmes en Java développé à lʼUniversité de Waikato en Nouvelle Zélande ! Weka implémente les principaux algorithmes de la fouille, notamment : - les arbres de décision - les réseaux de neurones ! il est téléchargeable (versions Unix et Windows) à l'adresse : http://www.cs.waikato.ac.nz/ml/weka ! développé en complément du livre : Data Mining par I. Witten et E. Frank (éditions Morgan Kaufmann). ! peut être utilisé de plusieurs façons : - par l'intermédiaire d'une interface utilisateur (comme utilisée en TP) - sur la ligne de commande. - par l'utilisation des classes fournies à l'intérieur de programmes Java (classes documentées)
  • 8. Introduction à la fouille de données - Bernard ESPINASSE - 29 L L Lo o og g gi i ic c ci i ie e el l ls s s d d de e e f f fo o ou u ui i il l ll l le e e d d de e e d d do o on n nn n né é ée e es s s g g gr r ra a at t tu u ui i it t ts s s : : : T T Ta a an n na a ag g gr r ra a a ! Tanagra : ! TANAGRA est un logiciel gratuit développé à lʼUniversité de Lumiere Lyon 2, laboratoire ERIC, par Ricco Rakotomalala ! Il est destiné à lʼenseignement et à la recherche, et téléchargeable à lʼadresse : http://chirouble.univ-lyon2.fr/~ricco/cours/index.html ! Il implémente diverses méthodes de fouilles de données issues du domaine de la statistique exploratoire, de lʼapprentissage automatique et des bases de données, … ! Orange : ! est développé par Blaz Zupan, à la Faculty of Computer and Information Science, de lʼUniversité de Ljubljana en Slovenie ! Il est destiné à lʼenseignement et à la recherche, et téléchargeable à lʼadresse : http://www.ailab.si/orange ! Il implémente aussi diverses méthodes de fouilles de données issues du domaine de la statistique exploratoire, de lʼapprentissage automatique et des bases de données, …