SlideShare une entreprise Scribd logo
1  sur  47
Télécharger pour lire hors ligne
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 1
Ricco Rakotomalala
Université Lumière Lyon 2
Ricco Rakotomalala
• ricco.rakotomalala@univ-lyon2.fr
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 2
• http://chirouble.univ-lyon2.fr/~ricco/cours/
Publications, ressources, liens, logiciels, …
Plan
1. Qu’est ce que le Data Mining ?
2. Spécificités du Data Mining
3. Quelques exemples
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 3
3. Quelques exemples
4. Typologie des méthodes de Data Mining
5. Ressources – Sites web et bibliographie
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 4
Une démarche plus qu’une théorie !
Exemple introductif : demande de crédit bancaire
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 5
• divorcé
• 5 enfants à charge
• chômeur en fin de droit
• compte à découvert
• coûteuse en stockage
• inexploitée
Expérience de l’entreprise : ses clients et leur comportement
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 6
Comment et à quelles fins utiliser cette expérience
accumulée
• inexploitée
• Echantillonnage
• Préparation des données
• Visualisation des données
• Graphes d'Induction
• Réseaux de neurones
• Analyse discriminante
• Régression logistique
• Tests statistiques
• Re-échantillonnage
table modèles Connaissances
Le processus ECD (Extraction de connaissances à partir de données)
KDD – Knowledge discovery in Databases
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 7
Fouille des
données (Data mining)
Bases de
données
Mise en forme des
Connaissances
Déploiement
Exploitation
Définition : Processus non-trivial d ’identification de structures inconnues, valides et
potentiellement exploitables dans les bases de données (Fayyad, 1996)
Source: CRISP-DM 1.0, Step-by-step Data Mining Guide, SPSS Publication
Vous ne pouvez pas travailler seul.
Travailler en synergie avec l’expert
du domaine est primordial !
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 8
Émergence de l’ECD : domaines d’applications
Domaine des assurances
• analyse des risques (caractérisation des clients à hauts risques, etc.)
• automatisation du traitement des demandes (diagnostic des dégâts
et détermination automatique du montant des indemnités)
Services financiers
• consentements de prêts automatisés, support à la décision de crédit
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 9
• consentements de prêts automatisés, support à la décision de crédit
• détection des fraudes
Grande distribution
• profils de consommateurs et modèles d’achats
• constitution des rayonnages
• marketing ciblé
Définition :
Processus non-trivial d ’identification de structures inconnues, valides
et potentiellement exploitables dans les bases de données (Fayyad,
1996)
Est-ce vraiment nouveau ?
Data Mining : Une nouvelle façon de faire de la statistique ?
http://cedric.cnam.fr/~saporta/DM.pdf
L’analyse des données est un outil pour dégager de la gangue des données le
pur diamant de la véridique nature.» (J.P.Benzécri1973)
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 10
pur diamant de la véridique nature.» (J.P.Benzécri1973)
The basic steps for developing an effective process model ?
http://www.itl.nist.gov/div898/handbook/pmd/section4/pmd41.htm
1. Model selection
2. Model fitting
3. Model validation
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 11
(1) Sources de données
(2) Techniques utilisées
(3) Multiplicité des supports
Sources de données
• valoriser les fichiers de l’entreprise
• construire des entrepôts
• modifier le schéma organisationnel
Techniques utilisées
• Intégrer des techniques d’origines diverses
Spécificités du Data Mining
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 12
• Intégrer des techniques d’origines diverses
Élargissement des supports
• Text mining
• Image mining
• … Multimédia mining
Les sources de données
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 13
Stockage
• orientation analyse
• historisées
• non-volatiles
Production
• orientation service
(ventes, comptabilité,
marketing…)
• volatiles
L’organisation du flux d’informations et les acteurs
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 14
Systèmes de gestion
(opérationnel)
Systèmes décisionnels
(analyse)
Objectif
dédié au métier et à la production
ex: facturation, stock, personnel
dédié au management de l'entreprise
(pilotage et prise de décision)
Volatilité
données volatiles
ex: le prix d'un proiduit évolue dans le
données historisées
ex: garder la trace des évolutions des
Systèmes de gestion et systèmes décisionnels
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 15
Volatilité
(perennité)
ex: le prix d'un proiduit évolue dans le
temps
ex: garder la trace des évolutions des
prix, introduction d'une information daté
Optimisation
pour les opérations associées
ex: passage en caisse (lecture de
code barre)
pour l'analyse et la récapitulation
ex: quels les produits achetés
ensembles
Granularité
des données
totale, on accède directement aux
informations atomiques
agrégats, niveau de synthèse selon les
besoins de l'analyse
Data Mining vs. Informatique Décisionnelle (Business Intelligence)
L’informatique décisionnelle (… BI pour Business Intelligence) désigne les moyens, les
outils et les méthodes qui permettent de collecter, consolider, modéliser et restituer
les données d'une entreprise en vue d'offrir une aide à la décision et de permettre
aux responsables de la stratégie d'une entreprise d’avoir une vue d’ensemble de
l’activité traitée.
(http://fr.wikipedia.org/wiki/Informatique_décisionnelle)
• Sélectionner les données (par rapport à un sujet et/ou
une période)
• Trier, regrouper ou répartir ces données selon certains
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 16
• Trier, regrouper ou répartir ces données selon certains
critères
• Élaborer des calculs récapitulatifs « simples » (totaux,
moyennes conditionnelles, etc.)
• Présenter les résultats de manière synthétique
(graphique et/ou tableaux de bord) REPORTING
http://www.commentcamarche.net/entreprise/business-intelligence.php3
Le Data Mining est proche de ce cadre, mais elle
introduit une dimension supplémentaire qui est la
modélisation « exploratoire » (détection des liens de
cause à effet, validation de leur reproductibilité)
Spécificités du Data Mining
Techniques d’exploration de données
• Des techniques d’origines diverses, issues de cultures différentes
• …mais qui traitent des problèmes similaires
• et qui partent toujours d’un tableau de données
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 17
• et qui partent toujours d’un tableau de données
Techniques utilisées selon leur « origine »
Statistiques
Théorie de l’estimation, tests
Économétrie
Maximum de vraisemblance et moindres carrés
Régression logistique, …
Analyse de données
(Statistique exploratoire)
Description factorielle
Discrimination
Clustering
Méthodes géométriques, probabilités
ACP, ACM, Analyse discriminante, CAH, …
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 18
Informatique
(Intelligence artificielle)
Apprentissage symbolique
Reconnaissance de formes
Une étape de l’intelligence artificielle
Réseaux de neurones, algorithmes génétiques…
Informatique
(Base de données)
Exploration des bases de données
Volumétrie
Règles d’association, motifs fréquents, …
Très souvent, ces méthodes reviennent à optimiser les mêmes critères,
mais avec des approches / formulations différentes
Techniques issues de l’Intelligence Artificielle
Les réseaux de neurones artificiels
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 19
• capacité d ’apprentissage
(universel)
• structuration / classement
Techniques en provenance des BD
If MARITAL_ST
MARITAL_ST
MARITAL_ST
MARITAL_ST is Divorced
Divorced
Divorced
Divorced
Then
SPOUSE_TIT
SPOUSE_TIT
SPOUSE_TIT
SPOUSE_TIT is None
None
None
None
Rule's probability: 0.952
0.952
0.952
0.952
The rule exists in 40
40
40
40 records.
If MARITAL_ST
MARITAL_ST
MARITAL_ST
MARITAL_ST is Divorced
Divorced
Divorced
Divorced
and LOAN_LENGT
LOAN_LENGT
LOAN_LENGT
LOAN_LENGT = 4.00
4.00
4.00
4.00
Then
GUARANTEE
GUARANTEE
GUARANTEE
GUARANTEE is No
No
No
No
Les règles d’association
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 20
Then
GUARANTEE
GUARANTEE
GUARANTEE
GUARANTEE is No
No
No
No
Rule's probability: 0.966
0.966
0.966
0.966
The rule exists in 28
28
28
28 records.
A
A
A
A = B + 2.00
B + 2.00
B + 2.00
B + 2.00
where: A
A
A
A = FAMILY_COU
FAMILY_COU
FAMILY_COU
FAMILY_COU
B
B
B
B = CHILDREN
CHILDREN
CHILDREN
CHILDREN
Accuracy level : 0.96
0.96
0.96
0.96
The rule exists in 397
397
397
397 records.
• traitement « omnibus »
• connaissance interprétable
Spécificités du Data Mining
Élargissement des supports
• Text mining
• Image mining
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 21
• Image mining
• …autres…
L’appréhension des sources multiples
Élargir les supports
Prédiction
Structuration
Description
Rôle fondamental de la
préparation des données
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 22
Description
Association
Les applications
Filtrage automatique des e-mails (spams, terrorisme,...)
Reconnaissance de la langue à une centrale téléphonique
Détection des images pornographiques sur le web
Analyse des mammographies
Etc.
Data Mining vs. Big data (1/3) - http://fr.wikipedia.org/wiki/Big_data
Les big data, littéralement les grosses données, est une expression
anglophone utilisée pour désigner des ensembles de données qui
deviennent tellement volumineux qu'ils en deviennent difficiles à
travailler avec des outils classiques de gestion de base de données ou
de gestion de l'information.
Le Big Data s'accompagne du développement d'applications à visée
analytique, qui traitent les données pour en tirer du sens. Ces
analyses sont appelées Big Analytics ou “Broyage de données”. Elles
DEFINITION
DEFINITION
DEFINITION
DEFINITION
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 23
analyses sont appelées Big Analytics ou “Broyage de données”. Elles
portent sur des données quantitatives complexes avec des méthodes
de calcul distribué.
En 2001, un rapport de recherche du META Group (devenu Gartner)
définit les enjeux inhérents à la croissance des données comme étant
tri-dimensionnels : les analyses complexes répondent en effet à la
règle dite des « 3V », volume, vélocité et variété. Ce modèle est
encore largement utilisé aujourd'hui pour décrire ce phénomène.
ENJEUX
ENJEUX
ENJEUX
ENJEUX
Data Mining vs. Big Data (2/3) – Les 3 « V »
VOLUME
VOLUME
VOLUME
VOLUME Outils de recueil de données de plus en plus présents, dans les
installations scientifiques, mais aussi et surtout dans notre vie de tous
les jours (ex. cookies, GPS, réseaux sociaux [ex. lien « like » - « profils »],
cartes de fidélité, etc.).
Il faut pouvoir les (données) traiter !
VARIETE
VARIETE
VARIETE
VARIETE
Sources, formes et des formats très différents, structurées ou non-
structurées : on parle également de données complexes (ex. texte en
provenance du web, images, liste d’achats, données de géolocalisation,
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 24
VARIETE
VARIETE
VARIETE
VARIETE
provenance du web, images, liste d’achats, données de géolocalisation,
etc.).
Il faut les traiter simultanément !
VELOCITE
VELOCITE
VELOCITE
VELOCITE
Mises à jour fréquentes, données arrivant en flux, obsolescence rapide
de certaines données… nécessité d’analyses en quasi temps réel (ex.
détection / prévention des défaillances, gestion de file d’attente)
Il faut les traiter rapidement !
Data Mining vs. Big Data (3/3)
Big
Big
Big
Big
data
vs.
BI
?
data
vs.
BI
?
data
vs.
BI
?
data
vs.
BI
?
(Wikipédia) ...la maturation du sujet fait apparaitre un autre critère plus
fondamental de différence d’avec le Business Intelligence et concernant
les données et leur utilisation :
Business Intelligence : utilisation de statistique descriptive [reporting,
tableaux de bord,…], sur des données à forte densité en information afin
de mesurer des phénomènes, détecter des tendances… ;
Big Data : utilisation de statistique inférentielle, sur des données à
faible densité en information dont le grand volume permet d’inférer des
lois (régressions….) donnant dès lors (avec les limites de l’inférence) au
big data des capacités prédictives [modélisation, analyse prédictive,…].
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 25
Mais alors…
Mais alors…
Mais alors…
Mais alors… BIG DATA = DATA MINING ++
++
++
++
Avec de nouveaux
Avec de nouveaux
Avec de nouveaux
Avec de nouveaux défis
défis
défis
défis
technologiques
technologiques
technologiques
technologiques /
/
/
/
méthodologiques liés aux
méthodologiques liés aux
méthodologiques liés aux
méthodologiques liés aux
3 «
3 «
3 «
3 « V
V
V
V »
»
»
»
• Cloud computing (ex. APACHE
HADOOP / MAHOUT)
• Fouille de données complexes
• Data stream mining
• Etc.
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 26
(1) Ciblage de clientèle : le scoring
(2) Étiquetage automatique de « nouvelles »
Ciblage de clientèle par publipostage (1/2)
Banque française
Objectif : Augmenter l’adhésion à un service en ligne (taux d’abonnement actuel 4%)
Base marketing : plusieurs centaines de milliers de clients,
~200 variables (95% sont quantitatives)
Méthode : isoler des groupes d’individus se ressemblant dans lequel
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 27
Méthode : isoler des groupes d’individus se ressemblant dans lequel
le taux d’abonnement est élevé
les non-abonnés dans ces groupes seront (certainement ?) sensibles à une offre ciblée
(hypothèse : s’ils ne sont pas abonnés, c’est qu’ils n’ont pas reçu l’information)
technique : arbre de décision avec échantillonnage équilibré sur chaque noeud
Évaluation : dépasser le taux (coût) d’erreur, mesurer la qualité du ciblage
meilleur ciblage : toutes les personnes contactées ont souscrit un contrat
0.4
0.6
0.8
1
Cumulative
%
of
"rare"
Optimal
BLS-10000
BLS-500
BLS-300
BgS-10000
Ciblage de clientèle par publipostage (2/2)
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 28
0
0.2
0 0.2 0.4 0.6 0.8 1
Cumulative %of the population
Cumulative
%
of
"rare"
BgS-2000
Random
Individu
Probabilité
de
souscrire
Pourc. Ind.
cumul
Pourc. Ciblés
Cumul Pourc. Ciblés
4 0.95 10% 19% 0.19
9 0.9 20% 37% 0.18
10 0.8 30% 53% 0.16
6 0.65 40% 66% 0.13
3 0.6 50% 78% 0.12
7 0.5 60% 88% 0.1
2 0.35 70% 95% 0.07
5 0.25 80% 100% 0.05
8 0 90% 100% 0
1 0 100% 100% 0
5.00
Text Mining – Catégorisation de nouvelles (1/3)
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 29
Text Mining – Catégorisation de nouvelles (2/3)
Codage de texte en tableau de données
Les chercheurs qui cherchent, on en trouve
Mais les chercheurs qui trouvent, on en cherche
Mots clés
• lemmatisation
• stopwords
Phrase Les Chercheurs Qui Cherchent On En Trouve Mais Trouvent Cherche
1 1 1 1 1 1 1 1 0 0 0
2 1 1 1 0 1 1 0 1 1 1
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 30
• stopwords
3-grams
• corresp. avec les mots
• problème du sens
Phrase Les es s c ch cheher rch eur
1 1 1 1 2 4 2 2 1
2 1 1 1 1 4 2 2 1 …
Text Mining – Catégorisation de nouvelles (3/3)
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 31
Exemple : appartenance au sujet « crude »
(pétrole brut)
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 32
Quelle méthode utiliser par rapport :
• aux objectifs de l’étude ?
• aux données disponibles ?
Tableau de données
Success Wages Job Refunding
Y 0 Unemployed Slow
N 2000 Skilled Worker Slow
N 1400 Worker Slow
N 1573 Retired Slow
Variables, caractères, attributs,
Descripteurs, champs, etc.
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 33
N 1573 Retired Slow
Y 2776 Skilled Worker Slow
N 2439 Retired Fast
N 862 Office employee Slow
Y 1400 Salesman Slow
N 1700 Skilled Worker Slow
Y 785 Employee Fast
Y 1274 Worker Slow
N 960 Employee Fast
N 1656 Worker Fast
N 0 Unemployed Slow
Individus, observations, objets, enregistrements, etc.
données nominales (ex. success, job…)
nombre de cas dénombrables
codés pour distinguer les modalités
aucune relation d ’ordre entre les codes
opérateurs arithmétiques/mathématiques inapplicables
données ordinales (ex. Refunding…)
nombre de cas dénombrables
codés pour distinguer les modalités
il existe une relation d ’ordre entre les modalités
Types de variables
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 34
il existe une relation d ’ordre entre les modalités
les écarts ne sont pas quantifiables
codés sous forme de rangs, on peut appliquer des calculs
données numériques ou continues (ex. Wages…)
nombre de cas théoriquement infini
il existe une relation d ’ordre entre les valeurs
les écarts sont quantifiables
distinction entre échelle proportionnelle et non-proportionnelle
(ex. 20°C/10°C = 2 et 68°F/50°F = 1.6 : non proportionnelle ; kg et livres : proportionnelle )
calculs autorisés, algébriques
Distinguer les types de variables
On peut distinguer les différents types de données à partir de
la définition de l ’opérateur différence :
Nominale :



≠
=
=
b
a
b
a
AB
x
x
si
x
x
si
d
,
1
,
0
 >
+ x
x
si
,
1
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 35
Ordinale :





<
−
=
>
+
=
b
a
b
a
b
a
AB
x
x
si
x
x
si
x
x
si
d
,
1
,
0
,
1
Continue : b
a
AB x
x
d −
=
Codage disjonctif complet
Données continues
Données qualitatives (nominales, ordinales)
Refunding Ref_Slow Ref_Normal Ref_Fast
Qualitatives vers continues
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 36
Fast
Slow
Fast
Normal
Slow
Ref_Slow Ref_Normal Ref_Fast
0 0 1
1 0 0
0 0 1
0 1 0
1 0 0
❢ on perd l ’information d ’ordre sur les données ordinales
Continues vers ordinales
Données ordinales
Données continues
Discrétisation
par expert
automatique non-contextuelle
automatique contextuelle
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 37
age
100
0
age
vieux
adulte
jeune
❢ on perd l ’information sur les écarts
❢ on peut traiter des relations non-linéaires
Données continues
Données continues
Standardisation
centrage ex : taille = 2m20, taille = 0m50 au dessus de la moyenne
réduction ex : taille = 0m50 ou taille = 50cm au dessus de la moyenne
Transformation distributionnelle
Continues vers continues
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 38
Transformation distributionnelle
Var Orig.
0
6
12
18
24
30
36
42
48
54
60
66
72
78
<= 0 (0;2] (2;4] (4;6] (6;8] (8;10] (10;12] (12;14] > 14
Var Transf.
0
2
4
6
8
10
12
14
16
18
20
22
24
<= -3
(-3;-2.5]
(-2.5;-2]
(-2;-1.5]
(-1.5;-1]
(-1;-.5]
(-.5;0]
(0;.5]
(.5;1]
(1;1.5]
(1.5;2]
(2;2.5]
(2.5;3]
> 3
)
ln( 1
2 x
x =
Typologie des méthodes selon les objectifs
Description :
trouver un résumé des
données qui soit plus intelligible
• statistique descriptive
• analyse factorielle
Ex : moyenne d’âge des personnes
présentant un cancer du sein
Structuration :
Faire ressurgir des groupes « naturels »
qui représentent des entités particulières
• classification (clustering, apprentissage non-
supervisé)
Ex : découvrir une typologie de comportement
des clients d’un magasin
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 39
Explication :
Prédire les valeurs d’un attribut (endogène)
à partir d’autres attributs (exogènes)
• régression
• apprentissage supervisé
Ex : prédire la qualité d’un client (rembourse
ou non son crédit) en fonction de ses caractéristiques
(revenus, statut marital, nombre d’enfants, etc.)
Association :
Trouver les ensembles de descripteurs
qui sont le plus corrélés
• règles d’assocation
Ex : rayonnage de magasins, les personnes
qui achètent du poivre achètent également du
sel
les méthodes sont le plus souvent complémentaires !
Sous-typologie selon le type de données : la prédiction / explication
Explication
Endogène continue
Exogènes continues
Endogène continue
Exogènes discrètes
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 40
Exogènes continues
Régression
Endogène discrète
Exogènes quelconques
Apprentissage supervisé
Analyse de variance
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 41
(1) Logiciels
(2) Ouvrages et ressources en ligne
Logiciels de DATA MINING – Fonctionnalités
Accès et préparation des données
Accéder à un fichier / une BD
Rassembler des sources différentes
Méthodes de Fouille de données
Lancer les calculs avec différents algorithmes
Bibliothèque de méthodes
Enchaîner les traitements
Faire coopérer les méthodes sans programmer
Évaluer les connaissances
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 42
Logiciels commerciaux
Prototypes de recherche
Évaluer les connaissances
Validation croisée, etc.
Exploiter les sorties
Rapports, visualisation interactive, etc.
Appliquer/exploiter les modèles
Modèles en XML, code C, DLL compilées
Prédiction directe sur de nouveaux fichiers
Logiciels de DATA MINING – Les logiciels disponibles
Commerciaux
SPAD
SAS Enterprise miner
SPSS Clementine
STATISTICA Data Miner
IBM Intelligent Miner
RAPIDMINER (*)
• Simplicité du pilotage (filière - diagramme)
• Techniques variées
• Déploiement
• Outils de « reporting »
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 43
KNIME (*)
Universitaires
R (*)
TANAGRA
SIPINA v2.5 & Recherche
WEKA (*)
ORANGE
• Spécifique à certaines techniques
• Techniques référencées - publiées
• Outils de validation
Conclusion
La démarche DATA MINING
• formalisation des objectifs
• acquisition des données
• préparation des données
• apprentissage – application des méthodes
• interprétation – explication
• évaluation et validation
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 44
• évaluation et validation
• déploiement
Pas de miracle si :
Les objectifs sont mal définis
Les données disponibles ne conviennent pas
Les données sont mal « préparées »
On n’utilise pas les techniques appropriées
Bibliographie : pratique du Data Mining
• « Le Data mining », R. Lefebure et G. Venturi, ed. Eyrolles, 2001.
Peu technique, point de vue général, très bon recul, complet
• « Data Mining et statistique décisionnelle », S. Tufféry, ed. technique, 2006.
Plutôt guide pratique : repères pour les projets, opportunités, méthodes
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 45
Plutôt guide pratique : repères pour les projets, opportunités, méthodes
« Analyse discriminante – Application au risque et au scoring financier », M.
Bardos, ed. Dunod, 2001.
Technique pratique, avec de bons repères théoriques, tourné vers les applications
Bibliographique : compréhension des méthodes
• « Data Mining : Practical machine learning tools and techniques with Java
implementations », I. Witten and E. Frank, Morgan Kaufman Pub., 2000.
Très général et complet, logiciel libre accès, technique
• « The elements of statistical learning - Data Mining, Inference and Prediction »,
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 46
• « The elements of statistical learning - Data Mining, Inference and Prediction »,
T. Hastie, R. Tibshirani, J. Friedman, Springer 2001.
Très technique, encyclopédique, indispensable pour la recherche, à lire plusieurs fois
• «Machine Learning », T. Mitchell, Mc Graw-Hill Editions, 1997.
Très très technique, surtout méthodes supervisées, encyclopédique
Ressources en ligne
Sites web et portails :
• http://chirouble.univ-lyon2.fr/~ricco/data-mining
Un portail pour la documentation : liens, supports de cours en ligne, logiciels, données
• Data Mining dixit Wikipédia : http://fr.wikipedia.org/wiki/Exploration_de_données
Site des tutoriels :
• http://tutoriels-data-mining.blogspot.com/
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 47
• http://tutoriels-data-mining.blogspot.com/
• http://www.kdnuggets.com
« Le » portail du DATA MINING, avec toute l’actualité du domaine
• Big data dixit SAS : http://www.sas.com/big-data/

Contenu connexe

Similaire à Introduction_au_Data_Mining.pdf

Introduction au datamining partiel 1.pdf
Introduction au datamining partiel 1.pdfIntroduction au datamining partiel 1.pdf
Introduction au datamining partiel 1.pdfamarasidibeavm
 
Euratech'trends : Machine Learning
Euratech'trends : Machine LearningEuratech'trends : Machine Learning
Euratech'trends : Machine LearningEuraTechnologies
 
La data n’a pas besoin d’être « big » pour générer de la valeur
La data n’a pas besoin d’être « big » pour générer de la valeurLa data n’a pas besoin d’être « big » pour générer de la valeur
La data n’a pas besoin d’être « big » pour générer de la valeurMicrosoft Ideas
 
uyéyefygjhqjhgjhgequtCours-Data-Mining.pdf
uyéyefygjhqjhgjhgequtCours-Data-Mining.pdfuyéyefygjhqjhgjhgequtCours-Data-Mining.pdf
uyéyefygjhqjhgjhgequtCours-Data-Mining.pdfNajlaAllouche
 
Dataw formation-data-warehouse-et-systemes-d-aide-a-la-decision
Dataw formation-data-warehouse-et-systemes-d-aide-a-la-decisionDataw formation-data-warehouse-et-systemes-d-aide-a-la-decision
Dataw formation-data-warehouse-et-systemes-d-aide-a-la-decisionCERTyou Formation
 
Comment devenir Data Scientist - Nicolas Garcia, Data Scientist @ Le Kiosk
Comment devenir Data Scientist - Nicolas Garcia, Data Scientist @ Le KioskComment devenir Data Scientist - Nicolas Garcia, Data Scientist @ Le Kiosk
Comment devenir Data Scientist - Nicolas Garcia, Data Scientist @ Le KioskJedha Bootcamp
 
La protection de la vie privée à l'heure du BIG DATA
La protection de la vie privée à l'heure du BIG DATALa protection de la vie privée à l'heure du BIG DATA
La protection de la vie privée à l'heure du BIG DATAISACA Chapitre de Québec
 
Big data - Cours d'introduction l Data-business
Big data - Cours d'introduction l Data-businessBig data - Cours d'introduction l Data-business
Big data - Cours d'introduction l Data-businessVincent de Stoecklin
 
Séminaire BIG DATA, SYNTHÈSE - ORSYS Formation
Séminaire BIG DATA, SYNTHÈSE - ORSYS FormationSéminaire BIG DATA, SYNTHÈSE - ORSYS Formation
Séminaire BIG DATA, SYNTHÈSE - ORSYS FormationORSYS
 
Introduction à la big data v3
Introduction à la big data v3 Introduction à la big data v3
Introduction à la big data v3 Mehdi TAZI
 
Apprentissage automatique avec RapidMiner
Apprentissage automatique avec RapidMinerApprentissage automatique avec RapidMiner
Apprentissage automatique avec RapidMinerMajdi Hannachi
 
Présentation sur le Data Mining
Présentation sur le Data MiningPrésentation sur le Data Mining
Présentation sur le Data MiningTakfarinas KENOUCHE
 
Introduction à la big data V2
Introduction à la big data V2Introduction à la big data V2
Introduction à la big data V2Mehdi TAZI
 
La Banque de demain : Chapitre 4
La Banque de demain : Chapitre 4 La Banque de demain : Chapitre 4
La Banque de demain : Chapitre 4 OCTO Technology
 
2009 Conference Information Access & Search
2009 Conference Information Access & Search2009 Conference Information Access & Search
2009 Conference Information Access & SearchSocial Computing
 
Veilleur stratégique
Veilleur stratégiqueVeilleur stratégique
Veilleur stratégiquebenj_2
 
#Fiche Produit : Diagnostic & Feuille de Route (Big) Data Marketing !
#Fiche Produit : Diagnostic & Feuille de Route (Big) Data Marketing !#Fiche Produit : Diagnostic & Feuille de Route (Big) Data Marketing !
#Fiche Produit : Diagnostic & Feuille de Route (Big) Data Marketing !Camp de Bases (Webedia Data Services)
 
Colloque IMT -04/04/2019- L'IA au cœur des mutations industrielles - Introduc...
Colloque IMT -04/04/2019- L'IA au cœur des mutations industrielles - Introduc...Colloque IMT -04/04/2019- L'IA au cœur des mutations industrielles - Introduc...
Colloque IMT -04/04/2019- L'IA au cœur des mutations industrielles - Introduc...I MT
 
2011 02 17 Suivez votre marché et vos concurrents sur internet by competitic
2011 02 17 Suivez votre marché et vos concurrents sur internet by competitic  2011 02 17 Suivez votre marché et vos concurrents sur internet by competitic
2011 02 17 Suivez votre marché et vos concurrents sur internet by competitic COMPETITIC
 

Similaire à Introduction_au_Data_Mining.pdf (20)

Introduction au datamining partiel 1.pdf
Introduction au datamining partiel 1.pdfIntroduction au datamining partiel 1.pdf
Introduction au datamining partiel 1.pdf
 
DataMining.pdf
DataMining.pdfDataMining.pdf
DataMining.pdf
 
Euratech'trends : Machine Learning
Euratech'trends : Machine LearningEuratech'trends : Machine Learning
Euratech'trends : Machine Learning
 
La data n’a pas besoin d’être « big » pour générer de la valeur
La data n’a pas besoin d’être « big » pour générer de la valeurLa data n’a pas besoin d’être « big » pour générer de la valeur
La data n’a pas besoin d’être « big » pour générer de la valeur
 
uyéyefygjhqjhgjhgequtCours-Data-Mining.pdf
uyéyefygjhqjhgjhgequtCours-Data-Mining.pdfuyéyefygjhqjhgjhgequtCours-Data-Mining.pdf
uyéyefygjhqjhgjhgequtCours-Data-Mining.pdf
 
Dataw formation-data-warehouse-et-systemes-d-aide-a-la-decision
Dataw formation-data-warehouse-et-systemes-d-aide-a-la-decisionDataw formation-data-warehouse-et-systemes-d-aide-a-la-decision
Dataw formation-data-warehouse-et-systemes-d-aide-a-la-decision
 
Comment devenir Data Scientist - Nicolas Garcia, Data Scientist @ Le Kiosk
Comment devenir Data Scientist - Nicolas Garcia, Data Scientist @ Le KioskComment devenir Data Scientist - Nicolas Garcia, Data Scientist @ Le Kiosk
Comment devenir Data Scientist - Nicolas Garcia, Data Scientist @ Le Kiosk
 
La protection de la vie privée à l'heure du BIG DATA
La protection de la vie privée à l'heure du BIG DATALa protection de la vie privée à l'heure du BIG DATA
La protection de la vie privée à l'heure du BIG DATA
 
Big data - Cours d'introduction l Data-business
Big data - Cours d'introduction l Data-businessBig data - Cours d'introduction l Data-business
Big data - Cours d'introduction l Data-business
 
Séminaire BIG DATA, SYNTHÈSE - ORSYS Formation
Séminaire BIG DATA, SYNTHÈSE - ORSYS FormationSéminaire BIG DATA, SYNTHÈSE - ORSYS Formation
Séminaire BIG DATA, SYNTHÈSE - ORSYS Formation
 
Introduction à la big data v3
Introduction à la big data v3 Introduction à la big data v3
Introduction à la big data v3
 
Apprentissage automatique avec RapidMiner
Apprentissage automatique avec RapidMinerApprentissage automatique avec RapidMiner
Apprentissage automatique avec RapidMiner
 
Présentation sur le Data Mining
Présentation sur le Data MiningPrésentation sur le Data Mining
Présentation sur le Data Mining
 
Introduction à la big data V2
Introduction à la big data V2Introduction à la big data V2
Introduction à la big data V2
 
La Banque de demain : Chapitre 4
La Banque de demain : Chapitre 4 La Banque de demain : Chapitre 4
La Banque de demain : Chapitre 4
 
2009 Conference Information Access & Search
2009 Conference Information Access & Search2009 Conference Information Access & Search
2009 Conference Information Access & Search
 
Veilleur stratégique
Veilleur stratégiqueVeilleur stratégique
Veilleur stratégique
 
#Fiche Produit : Diagnostic & Feuille de Route (Big) Data Marketing !
#Fiche Produit : Diagnostic & Feuille de Route (Big) Data Marketing !#Fiche Produit : Diagnostic & Feuille de Route (Big) Data Marketing !
#Fiche Produit : Diagnostic & Feuille de Route (Big) Data Marketing !
 
Colloque IMT -04/04/2019- L'IA au cœur des mutations industrielles - Introduc...
Colloque IMT -04/04/2019- L'IA au cœur des mutations industrielles - Introduc...Colloque IMT -04/04/2019- L'IA au cœur des mutations industrielles - Introduc...
Colloque IMT -04/04/2019- L'IA au cœur des mutations industrielles - Introduc...
 
2011 02 17 Suivez votre marché et vos concurrents sur internet by competitic
2011 02 17 Suivez votre marché et vos concurrents sur internet by competitic  2011 02 17 Suivez votre marché et vos concurrents sur internet by competitic
2011 02 17 Suivez votre marché et vos concurrents sur internet by competitic
 

Plus de SidiAbdallah1

analyse_discriminante_descriptive.pdf
analyse_discriminante_descriptive.pdfanalyse_discriminante_descriptive.pdf
analyse_discriminante_descriptive.pdfSidiAbdallah1
 
logistic_regression_ml.pdf
logistic_regression_ml.pdflogistic_regression_ml.pdf
logistic_regression_ml.pdfSidiAbdallah1
 
fr_Tanagra_Naive_Bayes_Classifier_Explained.pdf
fr_Tanagra_Naive_Bayes_Classifier_Explained.pdffr_Tanagra_Naive_Bayes_Classifier_Explained.pdf
fr_Tanagra_Naive_Bayes_Classifier_Explained.pdfSidiAbdallah1
 
fr_Tanagra_Naive_Bayes_Continuous_Predictors.pdf
fr_Tanagra_Naive_Bayes_Continuous_Predictors.pdffr_Tanagra_Naive_Bayes_Continuous_Predictors.pdf
fr_Tanagra_Naive_Bayes_Continuous_Predictors.pdfSidiAbdallah1
 
regression_multiple_pour_le_classement.pdf
regression_multiple_pour_le_classement.pdfregression_multiple_pour_le_classement.pdf
regression_multiple_pour_le_classement.pdfSidiAbdallah1
 
naive_bayes_classifier.pdf
naive_bayes_classifier.pdfnaive_bayes_classifier.pdf
naive_bayes_classifier.pdfSidiAbdallah1
 
resampling_evaluation.pdf
resampling_evaluation.pdfresampling_evaluation.pdf
resampling_evaluation.pdfSidiAbdallah1
 
analyse_discriminante.pdf
analyse_discriminante.pdfanalyse_discriminante.pdf
analyse_discriminante.pdfSidiAbdallah1
 
Apprentissage_Supervise.pdf
Apprentissage_Supervise.pdfApprentissage_Supervise.pdf
Apprentissage_Supervise.pdfSidiAbdallah1
 
regression_logistique.pdf
regression_logistique.pdfregression_logistique.pdf
regression_logistique.pdfSidiAbdallah1
 
380170667-ier2015-fr.pdf
380170667-ier2015-fr.pdf380170667-ier2015-fr.pdf
380170667-ier2015-fr.pdfSidiAbdallah1
 
presentation_rgpd_062018.pptx
presentation_rgpd_062018.pptxpresentation_rgpd_062018.pptx
presentation_rgpd_062018.pptxSidiAbdallah1
 

Plus de SidiAbdallah1 (13)

analyse_discriminante_descriptive.pdf
analyse_discriminante_descriptive.pdfanalyse_discriminante_descriptive.pdf
analyse_discriminante_descriptive.pdf
 
logistic_regression_ml.pdf
logistic_regression_ml.pdflogistic_regression_ml.pdf
logistic_regression_ml.pdf
 
fr_Tanagra_Naive_Bayes_Classifier_Explained.pdf
fr_Tanagra_Naive_Bayes_Classifier_Explained.pdffr_Tanagra_Naive_Bayes_Classifier_Explained.pdf
fr_Tanagra_Naive_Bayes_Classifier_Explained.pdf
 
fr_Tanagra_Naive_Bayes_Continuous_Predictors.pdf
fr_Tanagra_Naive_Bayes_Continuous_Predictors.pdffr_Tanagra_Naive_Bayes_Continuous_Predictors.pdf
fr_Tanagra_Naive_Bayes_Continuous_Predictors.pdf
 
regression_multiple_pour_le_classement.pdf
regression_multiple_pour_le_classement.pdfregression_multiple_pour_le_classement.pdf
regression_multiple_pour_le_classement.pdf
 
naive_bayes_classifier.pdf
naive_bayes_classifier.pdfnaive_bayes_classifier.pdf
naive_bayes_classifier.pdf
 
resampling_evaluation.pdf
resampling_evaluation.pdfresampling_evaluation.pdf
resampling_evaluation.pdf
 
analyse_discriminante.pdf
analyse_discriminante.pdfanalyse_discriminante.pdf
analyse_discriminante.pdf
 
Apprentissage_Supervise.pdf
Apprentissage_Supervise.pdfApprentissage_Supervise.pdf
Apprentissage_Supervise.pdf
 
regression_logistique.pdf
regression_logistique.pdfregression_logistique.pdf
regression_logistique.pdf
 
ATELIER_3.pdf
ATELIER_3.pdfATELIER_3.pdf
ATELIER_3.pdf
 
380170667-ier2015-fr.pdf
380170667-ier2015-fr.pdf380170667-ier2015-fr.pdf
380170667-ier2015-fr.pdf
 
presentation_rgpd_062018.pptx
presentation_rgpd_062018.pptxpresentation_rgpd_062018.pptx
presentation_rgpd_062018.pptx
 

Dernier

Cours SE Le système Linux : La ligne de commande bash - IG IPSET
Cours SE Le système Linux : La ligne de commande bash - IG IPSETCours SE Le système Linux : La ligne de commande bash - IG IPSET
Cours SE Le système Linux : La ligne de commande bash - IG IPSETMedBechir
 
Cours SE Gestion des périphériques - IG IPSET
Cours SE Gestion des périphériques - IG IPSETCours SE Gestion des périphériques - IG IPSET
Cours SE Gestion des périphériques - IG IPSETMedBechir
 
Principe de fonctionnement d'un moteur 4 temps
Principe de fonctionnement d'un moteur 4 tempsPrincipe de fonctionnement d'un moteur 4 temps
Principe de fonctionnement d'un moteur 4 tempsRajiAbdelghani
 
Fondation Louis Vuitton. pptx
Fondation      Louis      Vuitton.   pptxFondation      Louis      Vuitton.   pptx
Fondation Louis Vuitton. pptxTxaruka
 
SciencesPo_Aix_InnovationPédagogique_Bilan.pdf
SciencesPo_Aix_InnovationPédagogique_Bilan.pdfSciencesPo_Aix_InnovationPédagogique_Bilan.pdf
SciencesPo_Aix_InnovationPédagogique_Bilan.pdfSKennel
 
Presentation de la plateforme Moodle - avril 2024
Presentation de la plateforme Moodle - avril 2024Presentation de la plateforme Moodle - avril 2024
Presentation de la plateforme Moodle - avril 2024Gilles Le Page
 
LA MONTÉE DE L'ÉDUCATION DANS LE MONDE DE LA PRÉHISTOIRE À L'ÈRE CONTEMPORAIN...
LA MONTÉE DE L'ÉDUCATION DANS LE MONDE DE LA PRÉHISTOIRE À L'ÈRE CONTEMPORAIN...LA MONTÉE DE L'ÉDUCATION DANS LE MONDE DE LA PRÉHISTOIRE À L'ÈRE CONTEMPORAIN...
LA MONTÉE DE L'ÉDUCATION DANS LE MONDE DE LA PRÉHISTOIRE À L'ÈRE CONTEMPORAIN...Faga1939
 
le present des verbes reguliers -er.pptx
le present des verbes reguliers -er.pptxle present des verbes reguliers -er.pptx
le present des verbes reguliers -er.pptxmmatar2
 
presentation sur la maladie de la dengue .pptx
presentation sur la maladie de la dengue .pptxpresentation sur la maladie de la dengue .pptx
presentation sur la maladie de la dengue .pptxNYTombaye
 
SciencesPo_Aix_InnovationPédagogique_Atelier_FormationRecherche.pdf
SciencesPo_Aix_InnovationPédagogique_Atelier_FormationRecherche.pdfSciencesPo_Aix_InnovationPédagogique_Atelier_FormationRecherche.pdf
SciencesPo_Aix_InnovationPédagogique_Atelier_FormationRecherche.pdfSKennel
 
SciencesPo_Aix_InnovationPédagogique_Conférence_SK.pdf
SciencesPo_Aix_InnovationPédagogique_Conférence_SK.pdfSciencesPo_Aix_InnovationPédagogique_Conférence_SK.pdf
SciencesPo_Aix_InnovationPédagogique_Conférence_SK.pdfSKennel
 
Le Lean sur une ligne de production : Formation et mise en application directe
Le Lean sur une ligne de production : Formation et mise en application directeLe Lean sur une ligne de production : Formation et mise en application directe
Le Lean sur une ligne de production : Formation et mise en application directeXL Groupe
 
Saint Georges, martyr, et la lègend du dragon.pptx
Saint Georges, martyr, et la lègend du dragon.pptxSaint Georges, martyr, et la lègend du dragon.pptx
Saint Georges, martyr, et la lègend du dragon.pptxMartin M Flynn
 
Zotero avancé - support de formation doctorants SHS 2024
Zotero avancé - support de formation doctorants SHS 2024Zotero avancé - support de formation doctorants SHS 2024
Zotero avancé - support de formation doctorants SHS 2024Alain Marois
 
SciencesPo_Aix_InnovationPédagogique_Atelier_IA.pdf
SciencesPo_Aix_InnovationPédagogique_Atelier_IA.pdfSciencesPo_Aix_InnovationPédagogique_Atelier_IA.pdf
SciencesPo_Aix_InnovationPédagogique_Atelier_IA.pdfSKennel
 
Présentation_ Didactique 1_SVT (S4) complet.pptx
Présentation_ Didactique 1_SVT (S4) complet.pptxPrésentation_ Didactique 1_SVT (S4) complet.pptx
Présentation_ Didactique 1_SVT (S4) complet.pptxrababouerdighi
 
SciencesPo_Aix_InnovationPédagogique_Atelier_EtudiantActeur.pdf
SciencesPo_Aix_InnovationPédagogique_Atelier_EtudiantActeur.pdfSciencesPo_Aix_InnovationPédagogique_Atelier_EtudiantActeur.pdf
SciencesPo_Aix_InnovationPédagogique_Atelier_EtudiantActeur.pdfSKennel
 
Formation M2i - Comprendre les neurosciences pour développer son leadership
Formation M2i - Comprendre les neurosciences pour développer son leadershipFormation M2i - Comprendre les neurosciences pour développer son leadership
Formation M2i - Comprendre les neurosciences pour développer son leadershipM2i Formation
 

Dernier (20)

Cours SE Le système Linux : La ligne de commande bash - IG IPSET
Cours SE Le système Linux : La ligne de commande bash - IG IPSETCours SE Le système Linux : La ligne de commande bash - IG IPSET
Cours SE Le système Linux : La ligne de commande bash - IG IPSET
 
Cours SE Gestion des périphériques - IG IPSET
Cours SE Gestion des périphériques - IG IPSETCours SE Gestion des périphériques - IG IPSET
Cours SE Gestion des périphériques - IG IPSET
 
Principe de fonctionnement d'un moteur 4 temps
Principe de fonctionnement d'un moteur 4 tempsPrincipe de fonctionnement d'un moteur 4 temps
Principe de fonctionnement d'un moteur 4 temps
 
Fondation Louis Vuitton. pptx
Fondation      Louis      Vuitton.   pptxFondation      Louis      Vuitton.   pptx
Fondation Louis Vuitton. pptx
 
SciencesPo_Aix_InnovationPédagogique_Bilan.pdf
SciencesPo_Aix_InnovationPédagogique_Bilan.pdfSciencesPo_Aix_InnovationPédagogique_Bilan.pdf
SciencesPo_Aix_InnovationPédagogique_Bilan.pdf
 
Presentation de la plateforme Moodle - avril 2024
Presentation de la plateforme Moodle - avril 2024Presentation de la plateforme Moodle - avril 2024
Presentation de la plateforme Moodle - avril 2024
 
Pâques de Sainte Marie-Euphrasie Pelletier
Pâques de Sainte Marie-Euphrasie PelletierPâques de Sainte Marie-Euphrasie Pelletier
Pâques de Sainte Marie-Euphrasie Pelletier
 
LA MONTÉE DE L'ÉDUCATION DANS LE MONDE DE LA PRÉHISTOIRE À L'ÈRE CONTEMPORAIN...
LA MONTÉE DE L'ÉDUCATION DANS LE MONDE DE LA PRÉHISTOIRE À L'ÈRE CONTEMPORAIN...LA MONTÉE DE L'ÉDUCATION DANS LE MONDE DE LA PRÉHISTOIRE À L'ÈRE CONTEMPORAIN...
LA MONTÉE DE L'ÉDUCATION DANS LE MONDE DE LA PRÉHISTOIRE À L'ÈRE CONTEMPORAIN...
 
le present des verbes reguliers -er.pptx
le present des verbes reguliers -er.pptxle present des verbes reguliers -er.pptx
le present des verbes reguliers -er.pptx
 
presentation sur la maladie de la dengue .pptx
presentation sur la maladie de la dengue .pptxpresentation sur la maladie de la dengue .pptx
presentation sur la maladie de la dengue .pptx
 
SciencesPo_Aix_InnovationPédagogique_Atelier_FormationRecherche.pdf
SciencesPo_Aix_InnovationPédagogique_Atelier_FormationRecherche.pdfSciencesPo_Aix_InnovationPédagogique_Atelier_FormationRecherche.pdf
SciencesPo_Aix_InnovationPédagogique_Atelier_FormationRecherche.pdf
 
SciencesPo_Aix_InnovationPédagogique_Conférence_SK.pdf
SciencesPo_Aix_InnovationPédagogique_Conférence_SK.pdfSciencesPo_Aix_InnovationPédagogique_Conférence_SK.pdf
SciencesPo_Aix_InnovationPédagogique_Conférence_SK.pdf
 
Le Lean sur une ligne de production : Formation et mise en application directe
Le Lean sur une ligne de production : Formation et mise en application directeLe Lean sur une ligne de production : Formation et mise en application directe
Le Lean sur une ligne de production : Formation et mise en application directe
 
Saint Georges, martyr, et la lègend du dragon.pptx
Saint Georges, martyr, et la lègend du dragon.pptxSaint Georges, martyr, et la lègend du dragon.pptx
Saint Georges, martyr, et la lègend du dragon.pptx
 
DO PALÁCIO À ASSEMBLEIA .
DO PALÁCIO À ASSEMBLEIA                 .DO PALÁCIO À ASSEMBLEIA                 .
DO PALÁCIO À ASSEMBLEIA .
 
Zotero avancé - support de formation doctorants SHS 2024
Zotero avancé - support de formation doctorants SHS 2024Zotero avancé - support de formation doctorants SHS 2024
Zotero avancé - support de formation doctorants SHS 2024
 
SciencesPo_Aix_InnovationPédagogique_Atelier_IA.pdf
SciencesPo_Aix_InnovationPédagogique_Atelier_IA.pdfSciencesPo_Aix_InnovationPédagogique_Atelier_IA.pdf
SciencesPo_Aix_InnovationPédagogique_Atelier_IA.pdf
 
Présentation_ Didactique 1_SVT (S4) complet.pptx
Présentation_ Didactique 1_SVT (S4) complet.pptxPrésentation_ Didactique 1_SVT (S4) complet.pptx
Présentation_ Didactique 1_SVT (S4) complet.pptx
 
SciencesPo_Aix_InnovationPédagogique_Atelier_EtudiantActeur.pdf
SciencesPo_Aix_InnovationPédagogique_Atelier_EtudiantActeur.pdfSciencesPo_Aix_InnovationPédagogique_Atelier_EtudiantActeur.pdf
SciencesPo_Aix_InnovationPédagogique_Atelier_EtudiantActeur.pdf
 
Formation M2i - Comprendre les neurosciences pour développer son leadership
Formation M2i - Comprendre les neurosciences pour développer son leadershipFormation M2i - Comprendre les neurosciences pour développer son leadership
Formation M2i - Comprendre les neurosciences pour développer son leadership
 

Introduction_au_Data_Mining.pdf

  • 1. Ricco Rakotomalala Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 1 Ricco Rakotomalala Université Lumière Lyon 2
  • 2. Ricco Rakotomalala • ricco.rakotomalala@univ-lyon2.fr Ricco Rakotomalala Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 2 • http://chirouble.univ-lyon2.fr/~ricco/cours/ Publications, ressources, liens, logiciels, …
  • 3. Plan 1. Qu’est ce que le Data Mining ? 2. Spécificités du Data Mining 3. Quelques exemples Ricco Rakotomalala Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 3 3. Quelques exemples 4. Typologie des méthodes de Data Mining 5. Ressources – Sites web et bibliographie
  • 4. Ricco Rakotomalala Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 4 Une démarche plus qu’une théorie !
  • 5. Exemple introductif : demande de crédit bancaire Ricco Rakotomalala Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 5 • divorcé • 5 enfants à charge • chômeur en fin de droit • compte à découvert
  • 6. • coûteuse en stockage • inexploitée Expérience de l’entreprise : ses clients et leur comportement Ricco Rakotomalala Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 6 Comment et à quelles fins utiliser cette expérience accumulée • inexploitée
  • 7. • Echantillonnage • Préparation des données • Visualisation des données • Graphes d'Induction • Réseaux de neurones • Analyse discriminante • Régression logistique • Tests statistiques • Re-échantillonnage table modèles Connaissances Le processus ECD (Extraction de connaissances à partir de données) KDD – Knowledge discovery in Databases Ricco Rakotomalala Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 7 Fouille des données (Data mining) Bases de données Mise en forme des Connaissances Déploiement Exploitation Définition : Processus non-trivial d ’identification de structures inconnues, valides et potentiellement exploitables dans les bases de données (Fayyad, 1996)
  • 8. Source: CRISP-DM 1.0, Step-by-step Data Mining Guide, SPSS Publication Vous ne pouvez pas travailler seul. Travailler en synergie avec l’expert du domaine est primordial ! Ricco Rakotomalala Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 8
  • 9. Émergence de l’ECD : domaines d’applications Domaine des assurances • analyse des risques (caractérisation des clients à hauts risques, etc.) • automatisation du traitement des demandes (diagnostic des dégâts et détermination automatique du montant des indemnités) Services financiers • consentements de prêts automatisés, support à la décision de crédit Ricco Rakotomalala Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 9 • consentements de prêts automatisés, support à la décision de crédit • détection des fraudes Grande distribution • profils de consommateurs et modèles d’achats • constitution des rayonnages • marketing ciblé
  • 10. Définition : Processus non-trivial d ’identification de structures inconnues, valides et potentiellement exploitables dans les bases de données (Fayyad, 1996) Est-ce vraiment nouveau ? Data Mining : Une nouvelle façon de faire de la statistique ? http://cedric.cnam.fr/~saporta/DM.pdf L’analyse des données est un outil pour dégager de la gangue des données le pur diamant de la véridique nature.» (J.P.Benzécri1973) Ricco Rakotomalala Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 10 pur diamant de la véridique nature.» (J.P.Benzécri1973) The basic steps for developing an effective process model ? http://www.itl.nist.gov/div898/handbook/pmd/section4/pmd41.htm 1. Model selection 2. Model fitting 3. Model validation
  • 11. Ricco Rakotomalala Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 11 (1) Sources de données (2) Techniques utilisées (3) Multiplicité des supports
  • 12. Sources de données • valoriser les fichiers de l’entreprise • construire des entrepôts • modifier le schéma organisationnel Techniques utilisées • Intégrer des techniques d’origines diverses Spécificités du Data Mining Ricco Rakotomalala Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 12 • Intégrer des techniques d’origines diverses Élargissement des supports • Text mining • Image mining • … Multimédia mining
  • 13. Les sources de données Ricco Rakotomalala Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 13 Stockage • orientation analyse • historisées • non-volatiles Production • orientation service (ventes, comptabilité, marketing…) • volatiles
  • 14. L’organisation du flux d’informations et les acteurs Ricco Rakotomalala Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 14
  • 15. Systèmes de gestion (opérationnel) Systèmes décisionnels (analyse) Objectif dédié au métier et à la production ex: facturation, stock, personnel dédié au management de l'entreprise (pilotage et prise de décision) Volatilité données volatiles ex: le prix d'un proiduit évolue dans le données historisées ex: garder la trace des évolutions des Systèmes de gestion et systèmes décisionnels Ricco Rakotomalala Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 15 Volatilité (perennité) ex: le prix d'un proiduit évolue dans le temps ex: garder la trace des évolutions des prix, introduction d'une information daté Optimisation pour les opérations associées ex: passage en caisse (lecture de code barre) pour l'analyse et la récapitulation ex: quels les produits achetés ensembles Granularité des données totale, on accède directement aux informations atomiques agrégats, niveau de synthèse selon les besoins de l'analyse
  • 16. Data Mining vs. Informatique Décisionnelle (Business Intelligence) L’informatique décisionnelle (… BI pour Business Intelligence) désigne les moyens, les outils et les méthodes qui permettent de collecter, consolider, modéliser et restituer les données d'une entreprise en vue d'offrir une aide à la décision et de permettre aux responsables de la stratégie d'une entreprise d’avoir une vue d’ensemble de l’activité traitée. (http://fr.wikipedia.org/wiki/Informatique_décisionnelle) • Sélectionner les données (par rapport à un sujet et/ou une période) • Trier, regrouper ou répartir ces données selon certains Ricco Rakotomalala Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 16 • Trier, regrouper ou répartir ces données selon certains critères • Élaborer des calculs récapitulatifs « simples » (totaux, moyennes conditionnelles, etc.) • Présenter les résultats de manière synthétique (graphique et/ou tableaux de bord) REPORTING http://www.commentcamarche.net/entreprise/business-intelligence.php3 Le Data Mining est proche de ce cadre, mais elle introduit une dimension supplémentaire qui est la modélisation « exploratoire » (détection des liens de cause à effet, validation de leur reproductibilité)
  • 17. Spécificités du Data Mining Techniques d’exploration de données • Des techniques d’origines diverses, issues de cultures différentes • …mais qui traitent des problèmes similaires • et qui partent toujours d’un tableau de données Ricco Rakotomalala Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 17 • et qui partent toujours d’un tableau de données
  • 18. Techniques utilisées selon leur « origine » Statistiques Théorie de l’estimation, tests Économétrie Maximum de vraisemblance et moindres carrés Régression logistique, … Analyse de données (Statistique exploratoire) Description factorielle Discrimination Clustering Méthodes géométriques, probabilités ACP, ACM, Analyse discriminante, CAH, … Ricco Rakotomalala Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 18 Informatique (Intelligence artificielle) Apprentissage symbolique Reconnaissance de formes Une étape de l’intelligence artificielle Réseaux de neurones, algorithmes génétiques… Informatique (Base de données) Exploration des bases de données Volumétrie Règles d’association, motifs fréquents, … Très souvent, ces méthodes reviennent à optimiser les mêmes critères, mais avec des approches / formulations différentes
  • 19. Techniques issues de l’Intelligence Artificielle Les réseaux de neurones artificiels Ricco Rakotomalala Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 19 • capacité d ’apprentissage (universel) • structuration / classement
  • 20. Techniques en provenance des BD If MARITAL_ST MARITAL_ST MARITAL_ST MARITAL_ST is Divorced Divorced Divorced Divorced Then SPOUSE_TIT SPOUSE_TIT SPOUSE_TIT SPOUSE_TIT is None None None None Rule's probability: 0.952 0.952 0.952 0.952 The rule exists in 40 40 40 40 records. If MARITAL_ST MARITAL_ST MARITAL_ST MARITAL_ST is Divorced Divorced Divorced Divorced and LOAN_LENGT LOAN_LENGT LOAN_LENGT LOAN_LENGT = 4.00 4.00 4.00 4.00 Then GUARANTEE GUARANTEE GUARANTEE GUARANTEE is No No No No Les règles d’association Ricco Rakotomalala Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 20 Then GUARANTEE GUARANTEE GUARANTEE GUARANTEE is No No No No Rule's probability: 0.966 0.966 0.966 0.966 The rule exists in 28 28 28 28 records. A A A A = B + 2.00 B + 2.00 B + 2.00 B + 2.00 where: A A A A = FAMILY_COU FAMILY_COU FAMILY_COU FAMILY_COU B B B B = CHILDREN CHILDREN CHILDREN CHILDREN Accuracy level : 0.96 0.96 0.96 0.96 The rule exists in 397 397 397 397 records. • traitement « omnibus » • connaissance interprétable
  • 21. Spécificités du Data Mining Élargissement des supports • Text mining • Image mining Ricco Rakotomalala Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 21 • Image mining • …autres… L’appréhension des sources multiples
  • 22. Élargir les supports Prédiction Structuration Description Rôle fondamental de la préparation des données Ricco Rakotomalala Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 22 Description Association Les applications Filtrage automatique des e-mails (spams, terrorisme,...) Reconnaissance de la langue à une centrale téléphonique Détection des images pornographiques sur le web Analyse des mammographies Etc.
  • 23. Data Mining vs. Big data (1/3) - http://fr.wikipedia.org/wiki/Big_data Les big data, littéralement les grosses données, est une expression anglophone utilisée pour désigner des ensembles de données qui deviennent tellement volumineux qu'ils en deviennent difficiles à travailler avec des outils classiques de gestion de base de données ou de gestion de l'information. Le Big Data s'accompagne du développement d'applications à visée analytique, qui traitent les données pour en tirer du sens. Ces analyses sont appelées Big Analytics ou “Broyage de données”. Elles DEFINITION DEFINITION DEFINITION DEFINITION Ricco Rakotomalala Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 23 analyses sont appelées Big Analytics ou “Broyage de données”. Elles portent sur des données quantitatives complexes avec des méthodes de calcul distribué. En 2001, un rapport de recherche du META Group (devenu Gartner) définit les enjeux inhérents à la croissance des données comme étant tri-dimensionnels : les analyses complexes répondent en effet à la règle dite des « 3V », volume, vélocité et variété. Ce modèle est encore largement utilisé aujourd'hui pour décrire ce phénomène. ENJEUX ENJEUX ENJEUX ENJEUX
  • 24. Data Mining vs. Big Data (2/3) – Les 3 « V » VOLUME VOLUME VOLUME VOLUME Outils de recueil de données de plus en plus présents, dans les installations scientifiques, mais aussi et surtout dans notre vie de tous les jours (ex. cookies, GPS, réseaux sociaux [ex. lien « like » - « profils »], cartes de fidélité, etc.). Il faut pouvoir les (données) traiter ! VARIETE VARIETE VARIETE VARIETE Sources, formes et des formats très différents, structurées ou non- structurées : on parle également de données complexes (ex. texte en provenance du web, images, liste d’achats, données de géolocalisation, Ricco Rakotomalala Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 24 VARIETE VARIETE VARIETE VARIETE provenance du web, images, liste d’achats, données de géolocalisation, etc.). Il faut les traiter simultanément ! VELOCITE VELOCITE VELOCITE VELOCITE Mises à jour fréquentes, données arrivant en flux, obsolescence rapide de certaines données… nécessité d’analyses en quasi temps réel (ex. détection / prévention des défaillances, gestion de file d’attente) Il faut les traiter rapidement !
  • 25. Data Mining vs. Big Data (3/3) Big Big Big Big data vs. BI ? data vs. BI ? data vs. BI ? data vs. BI ? (Wikipédia) ...la maturation du sujet fait apparaitre un autre critère plus fondamental de différence d’avec le Business Intelligence et concernant les données et leur utilisation : Business Intelligence : utilisation de statistique descriptive [reporting, tableaux de bord,…], sur des données à forte densité en information afin de mesurer des phénomènes, détecter des tendances… ; Big Data : utilisation de statistique inférentielle, sur des données à faible densité en information dont le grand volume permet d’inférer des lois (régressions….) donnant dès lors (avec les limites de l’inférence) au big data des capacités prédictives [modélisation, analyse prédictive,…]. Ricco Rakotomalala Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 25 Mais alors… Mais alors… Mais alors… Mais alors… BIG DATA = DATA MINING ++ ++ ++ ++ Avec de nouveaux Avec de nouveaux Avec de nouveaux Avec de nouveaux défis défis défis défis technologiques technologiques technologiques technologiques / / / / méthodologiques liés aux méthodologiques liés aux méthodologiques liés aux méthodologiques liés aux 3 « 3 « 3 « 3 « V V V V » » » » • Cloud computing (ex. APACHE HADOOP / MAHOUT) • Fouille de données complexes • Data stream mining • Etc.
  • 26. Ricco Rakotomalala Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 26 (1) Ciblage de clientèle : le scoring (2) Étiquetage automatique de « nouvelles »
  • 27. Ciblage de clientèle par publipostage (1/2) Banque française Objectif : Augmenter l’adhésion à un service en ligne (taux d’abonnement actuel 4%) Base marketing : plusieurs centaines de milliers de clients, ~200 variables (95% sont quantitatives) Méthode : isoler des groupes d’individus se ressemblant dans lequel Ricco Rakotomalala Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 27 Méthode : isoler des groupes d’individus se ressemblant dans lequel le taux d’abonnement est élevé les non-abonnés dans ces groupes seront (certainement ?) sensibles à une offre ciblée (hypothèse : s’ils ne sont pas abonnés, c’est qu’ils n’ont pas reçu l’information) technique : arbre de décision avec échantillonnage équilibré sur chaque noeud
  • 28. Évaluation : dépasser le taux (coût) d’erreur, mesurer la qualité du ciblage meilleur ciblage : toutes les personnes contactées ont souscrit un contrat 0.4 0.6 0.8 1 Cumulative % of "rare" Optimal BLS-10000 BLS-500 BLS-300 BgS-10000 Ciblage de clientèle par publipostage (2/2) Ricco Rakotomalala Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 28 0 0.2 0 0.2 0.4 0.6 0.8 1 Cumulative %of the population Cumulative % of "rare" BgS-2000 Random Individu Probabilité de souscrire Pourc. Ind. cumul Pourc. Ciblés Cumul Pourc. Ciblés 4 0.95 10% 19% 0.19 9 0.9 20% 37% 0.18 10 0.8 30% 53% 0.16 6 0.65 40% 66% 0.13 3 0.6 50% 78% 0.12 7 0.5 60% 88% 0.1 2 0.35 70% 95% 0.07 5 0.25 80% 100% 0.05 8 0 90% 100% 0 1 0 100% 100% 0 5.00
  • 29. Text Mining – Catégorisation de nouvelles (1/3) Ricco Rakotomalala Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 29
  • 30. Text Mining – Catégorisation de nouvelles (2/3) Codage de texte en tableau de données Les chercheurs qui cherchent, on en trouve Mais les chercheurs qui trouvent, on en cherche Mots clés • lemmatisation • stopwords Phrase Les Chercheurs Qui Cherchent On En Trouve Mais Trouvent Cherche 1 1 1 1 1 1 1 1 0 0 0 2 1 1 1 0 1 1 0 1 1 1 Ricco Rakotomalala Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 30 • stopwords 3-grams • corresp. avec les mots • problème du sens Phrase Les es s c ch cheher rch eur 1 1 1 1 2 4 2 2 1 2 1 1 1 1 4 2 2 1 …
  • 31. Text Mining – Catégorisation de nouvelles (3/3) Ricco Rakotomalala Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 31 Exemple : appartenance au sujet « crude » (pétrole brut)
  • 32. Ricco Rakotomalala Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 32 Quelle méthode utiliser par rapport : • aux objectifs de l’étude ? • aux données disponibles ?
  • 33. Tableau de données Success Wages Job Refunding Y 0 Unemployed Slow N 2000 Skilled Worker Slow N 1400 Worker Slow N 1573 Retired Slow Variables, caractères, attributs, Descripteurs, champs, etc. Ricco Rakotomalala Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 33 N 1573 Retired Slow Y 2776 Skilled Worker Slow N 2439 Retired Fast N 862 Office employee Slow Y 1400 Salesman Slow N 1700 Skilled Worker Slow Y 785 Employee Fast Y 1274 Worker Slow N 960 Employee Fast N 1656 Worker Fast N 0 Unemployed Slow Individus, observations, objets, enregistrements, etc.
  • 34. données nominales (ex. success, job…) nombre de cas dénombrables codés pour distinguer les modalités aucune relation d ’ordre entre les codes opérateurs arithmétiques/mathématiques inapplicables données ordinales (ex. Refunding…) nombre de cas dénombrables codés pour distinguer les modalités il existe une relation d ’ordre entre les modalités Types de variables Ricco Rakotomalala Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 34 il existe une relation d ’ordre entre les modalités les écarts ne sont pas quantifiables codés sous forme de rangs, on peut appliquer des calculs données numériques ou continues (ex. Wages…) nombre de cas théoriquement infini il existe une relation d ’ordre entre les valeurs les écarts sont quantifiables distinction entre échelle proportionnelle et non-proportionnelle (ex. 20°C/10°C = 2 et 68°F/50°F = 1.6 : non proportionnelle ; kg et livres : proportionnelle ) calculs autorisés, algébriques
  • 35. Distinguer les types de variables On peut distinguer les différents types de données à partir de la définition de l ’opérateur différence : Nominale :    ≠ = = b a b a AB x x si x x si d , 1 , 0  > + x x si , 1 Ricco Rakotomalala Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 35 Ordinale :      < − = > + = b a b a b a AB x x si x x si x x si d , 1 , 0 , 1 Continue : b a AB x x d − =
  • 36. Codage disjonctif complet Données continues Données qualitatives (nominales, ordinales) Refunding Ref_Slow Ref_Normal Ref_Fast Qualitatives vers continues Ricco Rakotomalala Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 36 Fast Slow Fast Normal Slow Ref_Slow Ref_Normal Ref_Fast 0 0 1 1 0 0 0 0 1 0 1 0 1 0 0 ❢ on perd l ’information d ’ordre sur les données ordinales
  • 37. Continues vers ordinales Données ordinales Données continues Discrétisation par expert automatique non-contextuelle automatique contextuelle Ricco Rakotomalala Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 37 age 100 0 age vieux adulte jeune ❢ on perd l ’information sur les écarts ❢ on peut traiter des relations non-linéaires
  • 38. Données continues Données continues Standardisation centrage ex : taille = 2m20, taille = 0m50 au dessus de la moyenne réduction ex : taille = 0m50 ou taille = 50cm au dessus de la moyenne Transformation distributionnelle Continues vers continues Ricco Rakotomalala Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 38 Transformation distributionnelle Var Orig. 0 6 12 18 24 30 36 42 48 54 60 66 72 78 <= 0 (0;2] (2;4] (4;6] (6;8] (8;10] (10;12] (12;14] > 14 Var Transf. 0 2 4 6 8 10 12 14 16 18 20 22 24 <= -3 (-3;-2.5] (-2.5;-2] (-2;-1.5] (-1.5;-1] (-1;-.5] (-.5;0] (0;.5] (.5;1] (1;1.5] (1.5;2] (2;2.5] (2.5;3] > 3 ) ln( 1 2 x x =
  • 39. Typologie des méthodes selon les objectifs Description : trouver un résumé des données qui soit plus intelligible • statistique descriptive • analyse factorielle Ex : moyenne d’âge des personnes présentant un cancer du sein Structuration : Faire ressurgir des groupes « naturels » qui représentent des entités particulières • classification (clustering, apprentissage non- supervisé) Ex : découvrir une typologie de comportement des clients d’un magasin Ricco Rakotomalala Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 39 Explication : Prédire les valeurs d’un attribut (endogène) à partir d’autres attributs (exogènes) • régression • apprentissage supervisé Ex : prédire la qualité d’un client (rembourse ou non son crédit) en fonction de ses caractéristiques (revenus, statut marital, nombre d’enfants, etc.) Association : Trouver les ensembles de descripteurs qui sont le plus corrélés • règles d’assocation Ex : rayonnage de magasins, les personnes qui achètent du poivre achètent également du sel les méthodes sont le plus souvent complémentaires !
  • 40. Sous-typologie selon le type de données : la prédiction / explication Explication Endogène continue Exogènes continues Endogène continue Exogènes discrètes Ricco Rakotomalala Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 40 Exogènes continues Régression Endogène discrète Exogènes quelconques Apprentissage supervisé Analyse de variance
  • 41. Ricco Rakotomalala Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 41 (1) Logiciels (2) Ouvrages et ressources en ligne
  • 42. Logiciels de DATA MINING – Fonctionnalités Accès et préparation des données Accéder à un fichier / une BD Rassembler des sources différentes Méthodes de Fouille de données Lancer les calculs avec différents algorithmes Bibliothèque de méthodes Enchaîner les traitements Faire coopérer les méthodes sans programmer Évaluer les connaissances Ricco Rakotomalala Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 42 Logiciels commerciaux Prototypes de recherche Évaluer les connaissances Validation croisée, etc. Exploiter les sorties Rapports, visualisation interactive, etc. Appliquer/exploiter les modèles Modèles en XML, code C, DLL compilées Prédiction directe sur de nouveaux fichiers
  • 43. Logiciels de DATA MINING – Les logiciels disponibles Commerciaux SPAD SAS Enterprise miner SPSS Clementine STATISTICA Data Miner IBM Intelligent Miner RAPIDMINER (*) • Simplicité du pilotage (filière - diagramme) • Techniques variées • Déploiement • Outils de « reporting » Ricco Rakotomalala Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 43 KNIME (*) Universitaires R (*) TANAGRA SIPINA v2.5 & Recherche WEKA (*) ORANGE • Spécifique à certaines techniques • Techniques référencées - publiées • Outils de validation
  • 44. Conclusion La démarche DATA MINING • formalisation des objectifs • acquisition des données • préparation des données • apprentissage – application des méthodes • interprétation – explication • évaluation et validation Ricco Rakotomalala Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 44 • évaluation et validation • déploiement Pas de miracle si : Les objectifs sont mal définis Les données disponibles ne conviennent pas Les données sont mal « préparées » On n’utilise pas les techniques appropriées
  • 45. Bibliographie : pratique du Data Mining • « Le Data mining », R. Lefebure et G. Venturi, ed. Eyrolles, 2001. Peu technique, point de vue général, très bon recul, complet • « Data Mining et statistique décisionnelle », S. Tufféry, ed. technique, 2006. Plutôt guide pratique : repères pour les projets, opportunités, méthodes Ricco Rakotomalala Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 45 Plutôt guide pratique : repères pour les projets, opportunités, méthodes « Analyse discriminante – Application au risque et au scoring financier », M. Bardos, ed. Dunod, 2001. Technique pratique, avec de bons repères théoriques, tourné vers les applications
  • 46. Bibliographique : compréhension des méthodes • « Data Mining : Practical machine learning tools and techniques with Java implementations », I. Witten and E. Frank, Morgan Kaufman Pub., 2000. Très général et complet, logiciel libre accès, technique • « The elements of statistical learning - Data Mining, Inference and Prediction », Ricco Rakotomalala Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 46 • « The elements of statistical learning - Data Mining, Inference and Prediction », T. Hastie, R. Tibshirani, J. Friedman, Springer 2001. Très technique, encyclopédique, indispensable pour la recherche, à lire plusieurs fois • «Machine Learning », T. Mitchell, Mc Graw-Hill Editions, 1997. Très très technique, surtout méthodes supervisées, encyclopédique
  • 47. Ressources en ligne Sites web et portails : • http://chirouble.univ-lyon2.fr/~ricco/data-mining Un portail pour la documentation : liens, supports de cours en ligne, logiciels, données • Data Mining dixit Wikipédia : http://fr.wikipedia.org/wiki/Exploration_de_données Site des tutoriels : • http://tutoriels-data-mining.blogspot.com/ Ricco Rakotomalala Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 47 • http://tutoriels-data-mining.blogspot.com/ • http://www.kdnuggets.com « Le » portail du DATA MINING, avec toute l’actualité du domaine • Big data dixit SAS : http://www.sas.com/big-data/