Introduction au datamining partiel 1.pdf

Informatique décisionnelle (BI)
• L’informatique décisionnelle (en anglais :DSS pour Decision Support
System), s’insère dans l’architecture plus large d’un système d'information.
• L’informatique décisionnelle représente un ensemble de moyens, d’outils et
de méthodes permettant de collecter, consolider, modéliser et de restituer
les données de l’entreprise dans le but d’apporter une aide à la prise de
décision.
• Un autre atout de l’informatique décisionnelle est de permettre aux
responsables de la stratégie d’une entreprise d’avoir une vue d’ensemble de
l’activité traitée.
10/11/2023 3
Rappel

• Tous les systèmes d’information décisionnelles, tels que les datawerhouses
mettent en œuvre 5 fonctions fondamentales:
la collecte
l’intégrité
la diffusion
la présentation
l’administration des données
10/11/2023 4
Rappel

La collecte:
La collecte des données brutes dans leurs environnements d’origine, ce
qui implique des activités plus ou moins élaborées de détection et de
filtrage, car un excédent de données, un défaut de fiabilité ou un trop
mauvais rapport signal/bruit sont pires que l’absence de données.
10/11/2023 5
Rappel

h,f
1,0
homme, femme
h,f
L’intégrité:
L’intégration des donnes ,c’est-à-dire leur regroupement en un ensemble
technique, logique et sémantique homogène approprié aux besoins de
l’organisation.
10/11/2023 6
Rappel

La diffusion:
Diffusion, ou la distribution d’informations élaborées à partir des données
dans des contextes appropriés au besoin des individus ou des groupes de
travail utilisateurs.
10/11/2023 7
Rappel

la présentation :
La présentation, c’est-à-dire les conditions de mise à disposition de
l’information (contrôle d’accès, personnalisation ..).
l’administration des données:
L’administration qui gère l’ensemble de données de bout en bout ,car le
système d’information doit être contrôlé par un système de pilotage.
Ø Remarque: en pratique, les fonctions de collecte et d’intégration sont
étroitement liées entre elles et généralement associées au
datawerhouse.
10/11/2023 8
Rappel

Le contexte BI
Pourquoi: les
besoins
Qui
Comment
9
Rappel

Les besoins
Améliora)on
de la qualité
Augmentation
de la
réactivité
Diminution
des couts de
fabrication
Amélioration
de la
productivité
Augmentation
de la
concurrence
Evolu)on du
marchés
10
Rappel

Comment ???
La mise en place de :
Synthèse/résumer Visualiser Analyser
Le traitement des grandes masses de données :
Distribuer Hétérogène Très détaillé
La mise au point d’une stratégie susceptible pour mieux atteindre les
objectifs
11
Rappel

Qui???
Pour une u(lisa(on par:
•Des expert et des analystes d’un mé2er
•Non informa2ciens
•Non sta2s2ciens
Par l’utilisation du BI
•Informatique décisionnelle
•Datamining
•Datawerhouse
On se basant sur
•Des base de production BD opérationnelles
•Des prises de décision basé sur des indicateurs key business
Indicator ‘KBI’
12
Rappel

BI «Business Intelligence»
13
Rappel

14
Architecture générale
Data
warehouse
Requêtes
Rapports
Visualisa3on
Data Mining
…
Sources de
données
Transformations:
Nettoyage
Standardisation
…
Zone de préparation
Zone de
présentation
Datamart
C
H
A
R
G
E
M
E
N
T
Zone de stockage
E
X
T
R
A
C
T
I
O
N
Rappel

Organisation du flux d’information et les acteurs
15
Rappel

Datawerhouse
• datawarehouse (ou entrepôt de données) est un serveur informatique dans
lequel est centralisé un volume important de données consolidées à partir
des différentes sources de renseignements d'une entreprise (notamment les
bases de données internes).
• L'organisation des données est conçue pour que les personnes intéressées
aient accès rapidement et sous forme synthétique à l'information stratégique
dont elles ont besoin pour la prise de décision.
Rappel
10/11/2023 16

Datawerhouse
Ensemble de techniques d'exploration de données afin d'en tirer des
connaissances (la signification profonde) sous forme de modèles
présentés à l’utilisateur averti pour examen c’est le Datamining
Le passage du datawerhouse vers le datamining
Fig1.du datawerhouse vers le datamining
10/11/2023 17

Processus de découverte d’information
Fig2.decouverte de l’information
10/11/2023 18

Etape du processus
1. Compréhension du domaine d’application
2. Création du fichier cible (Target data set)
3. Traitement des données brutes (data cleaning and preprocessing)
4. Réduction des données (data réduction and projection)
5. Définition des tâches de fouille de données
6. Choix des algorithmes appropriés de fouille de données
7. Fouille de données (data mining)
8. Interprétation des formes extraites (mined patterns)
9. Validation des connaissances extraites
10/11/2023 19

Datamining
• Qu’est-ce que le datamining
• Pourquoi la naissance du datamining?
• Intérêt du data mining
• Méthodes et technique du datamining
• Grands domaine d’Application du datamining
• Le processus standard d’une étude de datamining
• Les logiciels de datamining
10/11/2023 20

Qu’est-ce que le Datamining
Frawley et Piatesky-Shapiro
"l'extraction d'informations originales, auparavant inconnues,
potentiellement utiles à partir de données"
John Page
"la découverte de nouvelles corrélations, tendances et modèles par le
tamisage d'un large volume de données"
Kamran Parsaye
"un processus d'aide à la décision où les utilisateurs cherchent des
modèles d'interprétation dans les données"
Dimitris Chorafas
"torturer l'information disponible jusqu'à ce qu'elle avoue"
Datamining
10/11/2023 21

Pourquoi la naissance du datamining ?
Augmentation des capacités de stockage des données (disques durs de giga
octets).
Augmentation des capacités de traitement des données (facilité d’accès aux
données : il n’y a plus de bandes magnétiques ; accélération des traitements).
Maturation des principes des bases de données (maturation des bases de données
relationnelles).
Croissance exponentielle de la collecte des données (scanners de supermarché,
internet, etc.)
Croissance exponentielle des bases de données : capacités atteignant le terabits
(1012 bits) et émergence des entrepôts de données : data warehouse, rendant
impossible l’exploitation manuelle des données.
Plus grande disponibilité des données grâce aux réseaux (intranet et internet).
Développement de logiciels de data mining.
Datamining
10/11/2023 22

Intérêt du datamining
Le datamining permet d’exploiter ces données pour améliorer la rentabilité
d’une activité.
Le datamining permet d’augmenter le retour sur investissement des
systèmes d’information.
Le datamining est un outil qui permet de produire de la connaissance :
Ø dans le but de comprendre les phénomènes dans un premier temps : SAVOIR
Ø dans le but de prendre des décisions dans un second temps : PREVOIR pour
DECIDER.
Datamining
10/11/2023 23

24
Intérêt du datamining
Identifier les
nouveaux
produits ou
services
Minimiser les
risques
Identifier
les nouveaux
marchés
Déterminer
les moyens
pour fidéliser
les clients
Anticiper les
changements de
comportement
Datamining

Processus d'ECD (KDD)
Datamining
10/11/2023 25

Les techniques du datamining
• Méthodes non-supervisées
– Extraire des informations nouvelles et originales
(aucun attribut n’est plus important qu’un autre)
– Analyse du résultat fourni (retenu ou rejeté)
– Isoler l’information utile
– Constituer des groupes homogènes d’objets.
Datamining
10/11/2023 26

• Exemples
– Réseau de Neurones
– Recherche des K Plus Proches Voisins
– Recherche d'Associations (Règles Associatives)
– …
Datamining
10/11/2023 27

• Méthodes supervisées
• Découverte de règles ou formules (patterns)
pour ranger les données dans des classes
prédéfinies
• Processus en deux étapes
– Construction d'un modèle sur les données dont la
classe est connue (training data set)
– Utilisation pour classification des nouveaux arrivants
Datamining
10/11/2023 28

• Exemples
– Discrimination linéaire
– Régression
– Arbres de décision
– Machines à vecteur de support (SVM)
– …
Datamining
10/11/2023 29

Applications du datamining
• Publics:
ØLe scientifique : pour comprendre certains phénomènes.
ØL’analyste : pour produire des rapports pour les décideurs.
ØLe décideur (au sens large) : pour l’aide à la décision.
• Principaux secteurs utilisant le data mining:
Les banques Les télécommunications Le e-commerce
La détection des fraudes Les études scientifiques
Le marketing direct Les assurances La distribution
La biologie L’industrie pharmaceutique
Datamining
10/11/2023 30

Gestion de la relation client
Customer Relationship Management (CRM)
• Principe : amélioration de la rentabilité par l’amélioration de la
connaissance du client.
• Matière première : les données sur le client.
• Le CRM se divise en deux parties :
– CRM analytique : collecte et analyse des données.
– CRM opérationnel : choix des campagnes marketing (stratégie) et
gestion des canaux de communication (forces commerciales, centres
d’appel téléphoniques, internet, télévision, etc.)
• Difficulté : tirer partie de la masse de données. Ne pas se noyer dedans.
Datamining
10/11/2023 31

Autres grands domaines d’application
Secteur bancaire : le scoring, pour mieux cibler les propositions de prêts et éviter les
surendettements (et donc les mauvais payeurs).
Secteur de la téléphonie : prédiction de l’attrition (usure, churn en anglais), c’est-à-dire
le changement d’opérateur.
Grande distribution : analyse du panier de la ménagère pour déterminer les produits
achetés simultanément.
Web mining et e-commerce : 50% des clients d’un constructeur de machine achètent
ses machines à travers le web. Mais seulement 0,5% des visiteurs du site deviennent
clients. L’idée est de stocker les séquences de click des visiteurs et d’analyser les
caractéristiques des acheteurs pour adapter le contenu du site.
Text mining pour analyser les lettres de réclamation.
Scientifique : identification et classification d'objets célestes.
Médical : analyse de résultat d’une expérimentation
Sécurité informatique : recherche de transactions frauduleuses par la police suivi des
opérations des traders.
Datamining
10/11/2023 32

Une discipline et pas un produit
• À l’origine, le datamining était vue comme un procédé automatique ou
semi automatique.
• Aujourd’hui, on est revenu de cette illusion. Le datamining n’est pas un
produit qui peut être acheté, mais bien une discipline qui doit être maîtrisée.
• Avant d’appliquer automatiquement des algorithmes de calculs sur les
données, il faut passer par une phase d’exploration et d’analyse qui ne
saurait être automatisée : elle fait intervenir le bon sens et la connaissance
du contexte (culture générale).
• Quand on veut produire de la connaissance, le problème ne se limite pas à
répondre à des questions. Il faut d’abord poser les questions. C’est cette
première étape qui, pour l’essentiel, fait que le datamining est une
discipline et pas un simple produit.
Le processus standard d’une étude de data mining: Le besoin d’un contrôle humain dans le data mining
10/11/2023 33

Comment faire du mauvais datamining ?
En travaillant sans méthode
En ne préparant pas correctement ses données.
En appliquant des boîtes noires de calculs sans les comprendre.
Un mauvais datamining peut amener à des conclusions erronées et donc à des
conséquences très coûteuses.
10/11/2023 34

Comment faire du bon datamining ?
En suivant une méthode
En préparant les données correctement
En comprenant le principe des modes opératoires (des algorithmes de
calculs). En étant capable de savoir pourquoi on en choisit un plutôt qu’un
autre. Une compréhension des modèles statistiques appliqués par le logiciel
est donc nécessaire.
10/11/2023 35

• Le datamining est un processus méthodique : une suite ordonnée
d'opérations aboutissant à un résultat.
• Le CRISP-DM (Cross Industry Standard Process for Data Mining) décrit le
datamining processus itératif complet constitué de 4 étapes divisées en tout
en 6 phases.
Le processus standard d’une étude de data mining: Présentation du CRISP-DM
tableau1.processus du datamining
10/11/2023 36

1 : Compréhension du métier
Cette phase consiste à :
Ø Énoncer clairement les objectifs globaux du projet et les contraintes de
l’entreprise.
Ø Traduire ces objectifs et ces contraintes en un problème du datamining.
Ø Préparer une stratégie initiale pour atteindre ces objectifs.
2 : Compréhension des données
Ø Recueillir les données.
Ø Utiliser l’analyse exploratoire pour se familiariser avec les données,
commencer à les comprendre et imaginer ce qu’on pourrait en tirer comme
connaissance.
Ø Évaluer la qualité des données.
Ø Éventuellement, sélectionner des sous-ensembles intéressants.
10/11/2023 37

3 : Préparation des données
Ø Préparer, à partir des données brutes, l’ensemble final des données qui va être utilisé
pour toutes les phases suivantes.
Ø Sélectionner les cas et les variables à analyser.
Ø Réaliser si nécessaire les transformations de certaines données.
Ø Réaliser si nécessaire la suppression de certaines données.
Cette phase fait suite à la compréhension des données. Celle-ci a mis à jour les corrélations,
les valeurs aberrantes, les valeurs manquantes : on peut donc faire la préparation.
4 : Modélisation
Ø Sélectionner les techniques de modélisation appropriées (souvent plusieurs techniques
peuvent être utilisées pour le même problème).
Ø Calibrer les paramètres des techniques de modélisation choisies pour optimiser les
résultats.
Ø Éventuellement revoir la préparation des données pour l’adapter aux techniques
utilisées.
10/11/2023 38

5 : Evaluation de la modélisation
Cette phase consiste à produire le rapport final :
Ø Pour chaque technique de modélisation utilisée, évaluer la qualité (la
pertinence, la signification) des résultats obtenus.
Ø Déterminer si les résultats obtenus atteignent les objectifs globaux identifiés
pendant la phase de compréhension du métier.
Ø Décider si on passe à la phase suivante (le déploiement) ou si on souhaite
reprendre l’étude en complétant le jeu de données.
6 : Déploiement des résultats obtenus
Cette phase est externe à l’analyse du datamining. Elle concerne le maître
d’ouvrage.
Ø Prendre les décisions en conséquences des résultats de l’étude de datamining
Ø Préparer la collecte des informations futures pour permettre de vérifier la
pertinence des décisions effectivement mis en œuvre.
10/11/2023 39

Les logiciels de data mining
Il existe de nombreux logiciels de statistiques et de data mining sur
PC. Certains sont gratuits, d’autres sont payants. Certains sont mono-
utilisateur. D’autres fonctionnent en architecture clients-serveur.
• Parmi les gros logiciels, on peut citer :
– SPSS Modeler qui est la solution de data mining la plus vendue dans le monde.
– Entreprise Miner de SAS.
– Statistica Data Miner de StatSoft
– XL Miner (data mining sous excel)
– ORACLE, comme d’autres SGBD, fournit des outils de data mining
• Parmi les logiciels gratuits, on peut citer :
– TANAGRA, logiciel de data mining gratuit pour l'enseignement et la
recherche.
– ORANGE, logiciel libre d’apprentissage et de data mining.
– WEKA, logiciel libre d’apprentissage et de data mining.
Datamining
10/11/2023 40

Introduction au datamining partiel 1.pdf

Recommandé

Recommandé

Contenu connexe

Similaire à Introduction au datamining partiel 1.pdf

Similaire à Introduction au datamining partiel 1.pdf (20)

Dernier

Dernier (20)

Introduction au datamining partiel 1.pdf