SEMINAIRE
Jean Roger
MABLY
DATAMINING ET
APPLICATIONS
K
Zx
(
b
8
5
$
a
>
[K
S Let’s come
& see
9
www.domain.com
Phone: +1(123) 456 78 90 | e-mail: mail@domain.com
YOUR LOGO
 Customer Lifetime Management Analyst à
MTN-C...
www.domain.com
Phone: +1(123) 456 78 90 | e-mail: mail@domain.com
YOUR LOGO
PLAN DE PRESENTATION
1. Origine et Définition ...
www.domain.com
Phone: +1(123) 456 78 90 | e-mail: mail@domain.com
YOUR LOGO
PLAN DE PRESENTATION (2)
PARTIE III: DOMAINES ...
INTRODUCTION AU
DATAMINING
 Qu’est ce que le Datamining ?
 A quoi sert le datamining ?
 Ou va le Datamining ?
[
I
www.domain.com
Phone: +1(123) 456 78 90 | e-mail: mail@domain.com
YOUR LOGO
La fouille des données
Le DATAMINING est l’en...
www.domain.com
Phone: +1(123) 456 78 90 | e-mail: mail@domain.com
YOUR LOGO
Intérêt du data mining
 On ne veut pas simple...
www.domain.com
Phone: +1(123) 456 78 90 | e-mail: mail@domain.com
YOUR LOGO
À quoi sert le data mining?
Sondage effectué e...
www.domain.com
Phone: +1(123) 456 78 90 | e-mail: mail@domain.com
YOUR LOGO
Préhistoire du data mining
 1875 : régression...
www.domain.com
Phone: +1(123) 456 78 90 | e-mail: mail@domain.com
YOUR LOGO
Histoire du data mining
 1975 : algorithmes g...
www.domain.com
Phone: +1(123) 456 78 90 | e-mail: mail@domain.com
YOUR LOGO
Le data mining aujourd’hui
 Ces techniques ne...
www.domain.com
Phone: +1(123) 456 78 90 | e-mail: mail@domain.com
YOUR LOGO
Le data mining aujourd’hui (2)
 Agrégation de...
www.domain.com
Phone: +1(123) 456 78 90 | e-mail: mail@domain.com
YOUR LOGO
Le data mining de demain
Autant de
développeme...
www.domain.com
Phone: +1(123) 456 78 90 | e-mail: mail@domain.com
YOUR LOGO
data mining vs statistique
DATAMINING
STATISTI...
www.domain.com
Phone: +1(123) 456 78 90 | e-mail: mail@domain.com
YOUR LOGO
data mining vs big data
Le data mining est l’e...
PANORAMA DES
TECHNIQUES
DATAMINING
 Quelles sont les techniques de
Datamining ?
 Qu’est ce que le scoring
 Ou va le Dat...
www.domain.com
Phone: +1(123) 456 78 90 | e-mail: mail@domain.com
YOUR LOGO
Les 2 types de techniques Le data mining
 Les...
www.domain.com
Phone: +1(123) 456 78 90 | e-mail: mail@domain.com
YOUR LOGO
Qu’est ce que la segmentation et factorisation...
www.domain.com
Phone: +1(123) 456 78 90 | e-mail: mail@domain.com
YOUR LOGO
Qu’est ce que la classification ou prédiction?...
www.domain.com
Phone: +1(123) 456 78 90 | e-mail: mail@domain.com
YOUR LOGO
Quelque types de score
Score d’appétence
 pr...
www.domain.com
Phone: +1(123) 456 78 90 | e-mail: mail@domain.com
YOUR LOGO
Qu’est ce qu’une regle d’associations
Ce sont...
DOMAINES
D’APPLICATIONS
 Quelles sont les applications du
datamining ?
 Comment son application
change notre quotidiens ...
www.domain.com
Phone: +1(123) 456 78 90 | e-mail: mail@domain.com
YOUR LOGO
Utilité du datamining dans le CRM (gestion de ...
www.domain.com
Phone: +1(123) 456 78 90 | e-mail: mail@domain.com
YOUR LOGO
Exemple de Credit scoring
Objectifs de la ban...
www.domain.com
Phone: +1(123) 456 78 90 | e-mail: mail@domain.com
YOUR LOGO
Le Data mining dans la Banque
 Naissance du s...
www.domain.com
Phone: +1(123) 456 78 90 | e-mail: mail@domain.com
YOUR LOGO
Le Data mining dans l’assurance de risque
 De...
www.domain.com
Phone: +1(123) 456 78 90 | e-mail: mail@domain.com
YOUR LOGO
Le Data mining dans la telephonie
 Deux événe...
www.domain.com
Phone: +1(123) 456 78 90 | e-mail: mail@domain.com
YOUR LOGO
Le Data mining dans le commerce
 Vente Par Co...
www.domain.com
Phone: +1(123) 456 78 90 | e-mail: mail@domain.com
YOUR LOGO
Autres exemples d’utilisation du data mining
...
CONSTRUIRE UN
PROJET DATAMINING
 Quelles sont les etapes pour
aboutir au bon modele
 Quelles sont les diiferents
méthode...
www.domain.com
Phone: +1(123) 456 78 90 | e-mail: mail@domain.com
YOUR LOGO
Démarche methodologique du data mining
 Compr...
www.domain.com
Phone: +1(123) 456 78 90 | e-mail: mail@domain.com
YOUR LOGO
Les étapes du processus du data mining
1.Compr...
www.domain.com
Phone: +1(123) 456 78 90 | e-mail: mail@domain.com
YOUR LOGO
SEMMA (SAS) vs CRISP-DM (CLEMENTINE)
 Samplin...
APPLICATIONS
 Apprendre à manipuler
Clémentine (Software)
 Apprendre à manipuler
Tanagra (Freeware)
b IV
A bientôt!
MERCI
Pour votre
participation
Prochain SlideShare
Chargement dans…5
×

Seminaire datamining Ecole de Statistique et d'Economie Appliquée

1 918 vues

Publié le

Aujourd’hui, les entreprises collectent des informations de plus en plus nombreuses et variées sur leurs clients. S’appuyant sur les dernières techniques statistiques et mathématiques (analyse factorielle, régression, arbres de décision, textmining, webmining, réseaux neuronaux, moteur bayesiens,...), le Data Mining a pour objectif d’exploiter ce réservoir de richesse inégalée en transformant ces données en indicateurs marketing et commerciaux.

Publié dans : Données & analyses
2 commentaires
6 j’aime
Statistiques
Remarques
Aucun téléchargement
Vues
Nombre de vues
1 918
Sur SlideShare
0
Issues des intégrations
0
Intégrations
16
Actions
Partages
0
Téléchargements
256
Commentaires
2
J’aime
6
Intégrations 0
Aucune incorporation

Aucune remarque pour cette diapositive
  • Attention!

    Before you open this template be sure what you have the following fonts installed:

    Novecento Sans wide font family (6 free weight)
    http://typography.synthview.com

    Abattis Cantarell
    http://www.fontsquirrel.com/fonts/cantarell

    Icon Sets Fonts:

    raphaelicons-webfont.ttf from this page: http://icons.marekventur.de
    iconic_stroke.ttf from this page: http://somerandomdude.com/work/open-iconic
    modernpics.otf from this page: http://www.fontsquirrel.com/fonts/modern-pictograms
    general_foundicons.ttf, social_foundicons.ttf, accessibility_foundicons.ttf from this page: http://www.zurb.com/playground/foundation-icons
    fontawesome-webfont.ttf from this page: http://fortawesome.github.io/Font-Awesome
    Entypo.otf from this page: http://www.fontsquirrel.com/fonts/entypo
    sosa-regular-webfont.ttf from this page: http://tenbytwenty.com/?xxxx_posts=sosa

    All fonts are permitted free use in commercial projects.

    If you have difficulties to install those fonts or have no time to find all of them, please follow the FAQs:
    http://graphicriver.net/item/six-template/3626243/support
  • Seminaire datamining Ecole de Statistique et d'Economie Appliquée

    1. 1. SEMINAIRE Jean Roger MABLY DATAMINING ET APPLICATIONS K Zx ( b 8 5 $ a > [K S Let’s come & see 9
    2. 2. www.domain.com Phone: +1(123) 456 78 90 | e-mail: mail@domain.com YOUR LOGO  Customer Lifetime Management Analyst à MTN-CI depuis Juillet 2011  Professeur vacataire de Marketing et Etudes de marchés à l’ENSEA (ITS Option Entreprise) depuis 2013.  Concpeteur et administrateur de la page facebook Intelligence Marketing: www.facebook/pages/Intelligence-Marketing  CEO du Bureau d’Etude Spécialisé dans le traitement de l’INFOrmation (BEST-INFO): Cabinet spécialisé dans l’E-commerce et Data-Analytics. PRESENTATION DE L’INTERVENANT Jean Roger MABLY
    3. 3. www.domain.com Phone: +1(123) 456 78 90 | e-mail: mail@domain.com YOUR LOGO PLAN DE PRESENTATION 1. Origine et Définition du Datamining 2. Apport du Datamining 3. Comparaison Datamining vs Statistiques et Datamining vs Big Data 4. Le Datamining d’hier, d’aujourd’hui et de demain PARTIE I: INTRODUCTION AU DATAMINING PARTIE II: PANORAMA DES TECHNIQUES DATAMINING 1. Les grands groupes de modèles 2. Analyse factorielle 3. Classification/Prédiction 4. Segmentation 5. Associations
    4. 4. www.domain.com Phone: +1(123) 456 78 90 | e-mail: mail@domain.com YOUR LOGO PLAN DE PRESENTATION (2) PARTIE III: DOMAINES D’APPLICATIONS 1. Utilité du Datamining dans le CRM 2. Utilité dans la banque 3. Datamining dans l’assurance de risque 4. Datamining dans la téléphonie 5. Le datamining dans le commerce 6. Autres exemples PARTIE IV: CONSTRUIRE UN PROJET DATAMINING 1. SEMMA (SAS) 2. CRISP-DM (CLEMENTINE) PARTIE V: UTILISATION D’OUTILS 1. CLEMENTINE 2. TANAGRA
    5. 5. INTRODUCTION AU DATAMINING  Qu’est ce que le Datamining ?  A quoi sert le datamining ?  Ou va le Datamining ? [ I
    6. 6. www.domain.com Phone: +1(123) 456 78 90 | e-mail: mail@domain.com YOUR LOGO La fouille des données Le DATAMINING est l’ensemble des: techniques et méthodes … destinées à l’exploration et l’analyse … de (souvent) grandes bases de données informatiques … en vue de détecter dans ces données des règles, des associations, des tendances inconnues (non fixées a priori), dans des structures particulières restituant de façon concise l’essentiel de l’information utile. … pour l’aide à la décision. On parle alors d’extraction de l’information dans la donnée Selon le MIT, c’est l’une des 10 technologies émergentes qui « changerons le monde » au XXIème siècle L’ONU à déclaré le 20 Octobre comme Journée mondiale de la Statistique
    7. 7. www.domain.com Phone: +1(123) 456 78 90 | e-mail: mail@domain.com YOUR LOGO Intérêt du data mining  On ne veut pas simplement confirmer des intuitions a priori par des requêtes dans les bases de données mais détecter sans a priori les combinaisons de critères les plus discriminantes  Par exemple, dans le domaine commercial, on ne veut plus seulement savoir:  « Combien de clients ont acheté tel produit pendant telle période ? »  Mais:  « Quel est leur profil ? »  « Quels autres produits les intéresseront ? »  « Quand seront-ils intéressés ? »  Les profils de clientèle à découvrir sont en général des profils complexes : pas seulement des oppositions « jeunes/seniors », « citadins/ruraux »… que l’on pourrait deviner en tâtonnant par des statistiques descriptives  Le data mining fait passer:  d’analyses confirmatoires  à des analyses exploratoires
    8. 8. www.domain.com Phone: +1(123) 456 78 90 | e-mail: mail@domain.com YOUR LOGO À quoi sert le data mining? Sondage effectué en 2009 sur: www,kdnudgets.com  Mieux connaitre le client  Mettre en évidence des facteurs de risques  Test de médicaments et de comestiques  Détection automatique de fraude  Contôle de qualité des produits  Prévision d’audience TV  Astrophysique pour le classement des étoiles ou galaxie  Détection automatique de spam  Algorithm des moteur de recherche…
    9. 9. www.domain.com Phone: +1(123) 456 78 90 | e-mail: mail@domain.com YOUR LOGO Préhistoire du data mining  1875 : régression linéaire de Francis Galton  1896 : formule du coefficient de corrélation de Karl Pearson  1900 : distribution du ² de Karl Pearson  1936 : analyse discriminante de Fisher et Mahalanobis  1941 : analyse factorielle des correspondances de Guttman  1943 : réseaux de neurones de Mc Culloch et Pitts  1944 : régression logistique de Joseph Berkson  1958 : perceptron de Rosenblatt  1962 : analyse des correspondances de J.-P. Benzécri  1964 : arbre de décision AID de J.P. Sonquist et J.-A. Morgan  1965 : méthode des centres mobiles de E. W. Forgy  1967 : méthode des k-means de Mac Queen  1972 : modèle linéaire généralisé de Nelder et Wedderburn
    10. 10. www.domain.com Phone: +1(123) 456 78 90 | e-mail: mail@domain.com YOUR LOGO Histoire du data mining  1975 : algorithmes génétiques de Holland  1975 : méthode de classement DISQUAL de Gilbert Saporta  1980 : arbre de décision CHAID de KASS  1983 : régression PLS de Herman et Svante Wold  1984 : arbre CART de Breiman, Friedman, Olshen, Stone  1986 : perceptron multicouches de Rumelhart et McClelland  1989 : réseaux de T. Kohonen (cartes auto-adaptatives)  vers 1990 : apparition du concept de data mining  1991 : méthode MARS de Jerome H. Friedman  1993 : arbre C4.5 de J. Ross Quinlan  1996 : bagging (Breiman) et boosting (Freund-Shapire)  1998 : support vector machines de Vladimir Vapnik  2001 : forêts aléatoires de L. Breiman  2005 : méthode elastic net de Zhou et Hastie
    11. 11. www.domain.com Phone: +1(123) 456 78 90 | e-mail: mail@domain.com YOUR LOGO Le data mining aujourd’hui  Ces techniques ne sont pas toutes récentes  Ce qui est nouveau, ce sont aussi :  les capacités de stockage et de calcul offertes par l’informatique moderne  la constitution de giga-bases de données pour les besoins de gestion des entreprises  la recherche en théorie de l’apprentissage  les logiciels universels, puissants et conviviaux (Clementine, EG & Miner de SAS  l’intégration du data mining dans les processus de production Ces évolutions permettent de traiter de grands volumes de données et font sortir le data mining des laboratoires de recherche pour entrer dans les entreprises
    12. 12. www.domain.com Phone: +1(123) 456 78 90 | e-mail: mail@domain.com YOUR LOGO Le data mining aujourd’hui (2)  Agrégation de modèles  rééchantillonnage bootstrap, bagging, boosting…  Web mining:  optimisation des sites  meilleure connaissance des internautes  croisement avec les bases de données de l’entreprise  Text mining  statistique lexicale pour l’analyse des courriers, courriels, dépêches, compte-rendu, brevets (langue naturelle): 3 onglets de Gmail et Yahoo Spam, Moteurs de recherches Google, Bing…  Image mining  reconnaissance automatique d’une forme ou d’un visage (Google Glass, reconnaissance des sosie de la CIA…)  détection d’une échographie anormale, d’une tumeur
    13. 13. www.domain.com Phone: +1(123) 456 78 90 | e-mail: mail@domain.com YOUR LOGO Le data mining de demain Autant de développement possible que votre imagination ne peut vous le permettre
    14. 14. www.domain.com Phone: +1(123) 456 78 90 | e-mail: mail@domain.com YOUR LOGO data mining vs statistique DATAMINING STATISTIQUE Le datamining: 1. Traite plus de données 2. S’applique à une population entière 3. Travaille sur des données existante 4. Orienté pratique 5. Compréhensibilité des modèles plutôt que précision 6. Modèles localisés La statistique: 1. Traite moins de données 2. S’applique à un échantillon représentatif 3. Recueille des données avant le travail 4. Orienté théorie 5. Précision des modèles plutôt que Compréhensibilité 6. Modèles généralisés Le datamining utilise des techniques statistiques
    15. 15. www.domain.com Phone: +1(123) 456 78 90 | e-mail: mail@domain.com YOUR LOGO data mining vs big data Le data mining est l’ensemble des techniques analytiques qui permettent d‘extraire de l’information d’une masse de données La Big Data est l’ensemble des techniques informatiques qui permettent de recueillir le plus grand nombre de données de toutes formes BIG DATA = VELOCITY + VERACITY + VOLUME DATA MINING = STATISTIQUE + APPRENTISSAGE + INTELLIGENCE ARTIFICIELLE
    16. 16. PANORAMA DES TECHNIQUES DATAMINING  Quelles sont les techniques de Datamining ?  Qu’est ce que le scoring  Ou va le Datamining ( II
    17. 17. www.domain.com Phone: +1(123) 456 78 90 | e-mail: mail@domain.com YOUR LOGO Les 2 types de techniques Le data mining  Les techniques descriptives (recherche de « patterns »):  visent à mettre en évidence des informations présentes mais cachées par le volume des données (c’est le cas des segmentations de clientèle et des recherches d’associations de produits sur les tickets de caisse)  réduisent, résument, synthétisent les données  il n’y a pas de variable à expliquer  Les techniques prédictives (modélisation) :  visent à extrapoler de nouvelles informations à partir des informations présentes (c’est le cas du scoring) la constitution de giga-bases de données pour les besoins de gestion des entreprises  expliquent les données  il y a une variable à expliquer
    18. 18. www.domain.com Phone: +1(123) 456 78 90 | e-mail: mail@domain.com YOUR LOGO Qu’est ce que la segmentation et factorisation ? (classificationenanglais) Regrouper des objets en groupes, ou classes, ou familles, ou segments, ou clusters, de sorte que :  2 objets d’un même groupe se ressemblent le + possible  2 objets de groupes distincts diffèrent le + possible  le nombre des groupes est parfois fixé  les groupes ne sont pas prédéfinis mais déterminés au cours de l’opération Méthode descriptive :  pas de variable cible privilégiée  décrire de façon simple une réalité complexe en la résumant Utilisation en marketing, médecine, sciences humaines…  segmentation de clientèle marketing Les objets à classer sont :  des individus  des variables  les deux à la fois (biclustering)
    19. 19. www.domain.com Phone: +1(123) 456 78 90 | e-mail: mail@domain.com YOUR LOGO Qu’est ce que la classification ou prédiction? (segmentationenanglais) Ce sont des méthodes prédictives Classement : la variable à expliquer (ou « cible », « réponse », « dépendante ») est qualitative  on parle aussi de segmentation (en anglais) ou de discrimination Prédiction : la variable à expliquer est quantitative  on parle aussi de régression  ou d’apprentissage supervisé (réseaux de neurones, arbres de décision…) Scoring : classement appliqué à une problématique d’entreprise (variable à expliquer souvent binaire) – chaque individu est affecté à une classe (« sain » ou « malade », par exemple) en fonction de ses caractéristiques
    20. 20. www.domain.com Phone: +1(123) 456 78 90 | e-mail: mail@domain.com YOUR LOGO Quelque types de score Score d’appétence  prédire l’achat d’un produit ou service Score de (comportement) risque  prédire les impayés ou la fraude Score de préacceptation  croisement des deux précédents Score d’octroi  prédire en temps réel les impayés Score d’attrition  prédire le départ du client vers un concurrent Et aussi :  En médecine : diagnostic (bonne santé : oui / non) en fonction du dossier du patient et des analyses médicales  Courriels : spam (oui / non) en fonction des caractéristiques du message (fréquence des mots…)
    21. 21. www.domain.com Phone: +1(123) 456 78 90 | e-mail: mail@domain.com YOUR LOGO Qu’est ce qu’une regle d’associations Ce sont des méthodes prédictives pour détecter des liaisons entre des « individus » d’un groupe ou d’en ensemble E.g. Panier de la ménagère : qu’elles sont les éléments qui viennent ensemble ? si vous avez acheté des fleurs et du thé, vous allez probablement acheter du pain aussi Pour découvrir modèles prédictifs cachés: Parfois les modèles prédictifs intéressant sont cachées La découverte d’association permet de trouver plusieurs petits lots de règles et peut de découvrir les modèles “masqués” Exploration Générale :  “Ne sais pas exactement qu’est ce que je cherche, mais juste dis moi qui va avec quoi”
    22. 22. DOMAINES D’APPLICATIONS  Quelles sont les applications du datamining ?  Comment son application change notre quotidiens ? b III
    23. 23. www.domain.com Phone: +1(123) 456 78 90 | e-mail: mail@domain.com YOUR LOGO Utilité du datamining dans le CRM (gestion de la relation client) Mieux connaître le client pour mieux le servir pour augmenter sa satisfaction pour augmenter sa fidélité (+ coûteux d’acquérir un client que le conserver) La connaissance du client est encore plus utile dans le secteur tertiaire : les produits se ressemblent entre établissements le prix n’est pas toujours déterminant ce sont surtout le service et la relation avec le client qui font la différence
    24. 24. www.domain.com Phone: +1(123) 456 78 90 | e-mail: mail@domain.com YOUR LOGO Exemple de Credit scoring Objectifs de la banque : vendre plus en maîtrisant les risques en utilisant les bons canaux au bon moment Le crédit à la consommation: un produit standard concurrence des sociétés spécialisées sur le lieu de vente quand la banque a connaissance du projet du client, il est déjà trop tard Conclusion : il faut être pro-actif détecter les besoins des clients et leur tendance à emprunter Faire des propositions commerciales aux bons clients, avant qu’ils n’en fassent la demande
    25. 25. www.domain.com Phone: +1(123) 456 78 90 | e-mail: mail@domain.com YOUR LOGO Le Data mining dans la Banque  Naissance du score de risque en 1941 (David Durand)  Multiples techniques appliquées à la banque de détail et la banque d’entreprise  Surtout la banque de particuliers : montants unitaires modérés grand nombre de dossiers dossiers relativement standards  Essor dû à : développement des nouvelles technologies nouvelles attentes de qualité de service des clients concurrence des nouveaux entrants (assureurs, grande distribution) et des sociétés de crédit pression mondiale pour une plus grande rentabilité surtout : ratio de solvabilité Bâle 2
    26. 26. www.domain.com Phone: +1(123) 456 78 90 | e-mail: mail@domain.com YOUR LOGO Le Data mining dans l’assurance de risque  Des produits obligatoires (automobile, habitation) : soit prendre un client à un concurrent soit faire monter en gamme un client que l’on détient déjà  D’où les sujets dominants : Attrition ventes croisées (cross-selling) montées en gamme (up-selling)  Besoin de décisionnel dû à : concurrence des nouveaux entrants (bancassurance) bases clients des assureurs traditionnels mal organisées :  compartimentées par agent général  ou structurées par contrat et non par client vendre plus en maîtrisant les risques
    27. 27. www.domain.com Phone: +1(123) 456 78 90 | e-mail: mail@domain.com YOUR LOGO Le Data mining dans la telephonie  Deux événements : ouverture des monopoles nationaux à d’autres opérateurs télécom arrivée à saturation du marché de la téléphonie mobile  D’où les sujets dominants dans la téléphonie : score d’attrition (churn = changement d’opérateur) optimisation des campagnes marketing  text mining (pour analyser les lettres de réclamation)  Problème du churn : coût d’acquisition moyen en téléphonie mobile : 50,000 frs env plus d’un million d’utilisateurs changent chaque d’année d’opérateur En France, la loi Chatel (juin 2008) facilite le changement d’opérateur en diminuant le coût pour ceux qui ont dépassé 12 mois chez l’opérateur la portabilité du numéro facilite le churn
    28. 28. www.domain.com Phone: +1(123) 456 78 90 | e-mail: mail@domain.com YOUR LOGO Le Data mining dans le commerce  Vente Par Correspondance utilise depuis longtemps des scores d’appétence pour optimiser ses ciblages et en réduire les coûts des centaines de millions de documents envoyés par an  e-commerce personnalisation des pages du site web de l’entreprise, en fonction du profil de chaque internaute optimisation de la navigation sur un site web  Grande distribution analyse du ticket de caisse détermination des meilleures implantations (géomarketing)
    29. 29. www.domain.com Phone: +1(123) 456 78 90 | e-mail: mail@domain.com YOUR LOGO Autres exemples d’utilisation du data mining  De l’infiniment petit (génomique) à l’infiniment grand (astrophysique pour le classement en étoile ou galaxie)  Du plus quotidien (reconnaissance de l’écriture manuscrite sur les enveloppes) au moins quotidien (aide au pilotage aéronautique)  Du plus ouvert (e-commerce) au plus sécuritaire (détection de la fraude dans la téléphonie mobile ou les cartes bancaires)  Du plus industriel (contrôle qualité pour la recherche des facteurs expliquant les défauts de la production) au plus théorique (sciences humaines, biologie…)  Du plus alimentaire (agronomie et agroalimentaire) au plus divertissant (prévisions d’audience TV)
    30. 30. CONSTRUIRE UN PROJET DATAMINING  Quelles sont les etapes pour aboutir au bon modele  Quelles sont les diiferents méthodes existantes ?  Quelle difference entre SAS et SPSS? b IV
    31. 31. www.domain.com Phone: +1(123) 456 78 90 | e-mail: mail@domain.com YOUR LOGO Démarche methodologique du data mining  Comprendre l’application ou le problème Connaissances a priori, objectifs, etc.  Sélectionner un échantillon des données Choisir une méthode d’échantillonnage  Nettoyage et transformation des données Supprimer les « bruits »: données superflues, marginales, données manquantes, etc.  Appliquer les techniques de fouille des données Choisir le bon algorithme  Visualiser, évaluer et interpréter les modèles découverts Analyse de la connaissance (intérêt) Vérifier sa validité ( sur le reste de la base de données) Réitérer le processus si nécessaire.  Gérer la connaissance découverte La mettre à la disposition des décideurs L’échange avec d’autres applications (système d’expert,…) Etc.
    32. 32. www.domain.com Phone: +1(123) 456 78 90 | e-mail: mail@domain.com YOUR LOGO Les étapes du processus du data mining 1.Compréhension du domaine d’application 2.Création du fichier cible (target data set) 3.Traitement des données brutes (data cleaning & prepocessing) 4.Réduction des données (data reduction and projection) 5.Définition des taches de fouille des données 6.Choix des algorithmes appropriés de fouilles de données 7.Fouille de données (data mining) 8.Interprétation des formes extraites (mined patterns) 9.Validation des connaissances extraites 10.Déploiement des algorithmes.
    33. 33. www.domain.com Phone: +1(123) 456 78 90 | e-mail: mail@domain.com YOUR LOGO SEMMA (SAS) vs CRISP-DM (CLEMENTINE)  Sampling = Echantillonner Tirer un échantillon significatif pour extraire des modèles  Exploration = Explorer Devenir famillier avec les données (patterns)  Manipulation = Manipuler Ajouter des informations, coder, grouper des attributs  Appmodelling = Modeliser Contruire des modèles  Assement = Valider Comprendre , Valider, expliquer et repondres aux questions  Sampling = Echantillonner Tirer un échantillon significatif pour extraire des modèles  Exploration = Explorer Devenir famillier avec les données (patterns)  Manipulation = Manipuler Ajouter des informations, coder, grouper des attributs  Appmodelling = Modeliser Contruire des modèles  Assement = Valider Comprendre , Valider, expliquer et repondres aux questions
    34. 34. APPLICATIONS  Apprendre à manipuler Clémentine (Software)  Apprendre à manipuler Tanagra (Freeware) b IV
    35. 35. A bientôt! MERCI Pour votre participation

    ×