PredictiveDB à "la Cantine", le 06 décembre 2010
La classification automatique de données ou la prédiction de données sont des tâches coûteuses en matière d'expertise (apprentissage automatique, statistiques, etc.). Lors de cette rencontre, l'équipe de PredictiveDB vous initiera à la prédiction "presse-bouton" -- ou l'art et la manière de classer/prédire en se concentrant exclusivement sur ses données et en oubliant la théorie autour.
PredictiveDB est un SGBDR prédictif, accessible en ligne, permettant à des utilisateurs de bases de données de classer et prédire leurs données depuis leur environnement SQL, sans préparation de données ni connaissance en data mining.
Prédire l'inconnu à partir de vos données connues (sans avoir à connaitre la dimension de Vapnik-Chervonenkis)
1. Pr´dire l’inconnu ` l’aide de
e a
donn´es connues
e
. . . sans se pr´occuper de la dimension de
e
Vapnik–Chervonenkis
La Cantine, le 6 d´cembre 2010
e
2. Pr´diction
e
Paradigme
1. d´finition de l’entr´e et la sortie du syst`me
e e e
2. constitution d’une base de donn´es d´crivant
e e
des exemples d’entr´e/sortie
e
3. construction d’un mod`le associant les sorties
e
aux entr´es
e
4. pr´diction : application du mod`le sur une
e e
nouvelle entr´e
e
2 / 10
3. Pr´diction
e
Exemple
1. Exemple d’association entre entr´e et sortie :
e
client id ... night charge int min int calls int charge cs calls
churn
0 ... 11.01 10 3 2.7 1
False
1 ... 11.45 13.7 3 3.7 1
o= False
2 ... 8.86 6.6 7 1.78 2 p=
False
3 ... 9.4 12.7 6 3.43 4
True
4 ... 8.41 10.1 3 2.73 3
False
2. Application sur une nouvelle donn´e :
e
client id ... night charge int min int calls int charge cs calls
f
5 ... 7.32 12.2 5 3.29 0
3 / 10
4. Pr´diction
e
Exemple
1. Exemple d’association entre entr´e et sortie :
e
client id ... night charge int min int calls int charge cs calls
churn
0 ... 11.01 10 3 2.7 1
False
1 ... 11.45 13.7 3 3.7 1
o= False
2 ... 8.86 6.6 7 1.78 2 p=
False
3 ... 9.4 12.7 6 3.43 4
True
4 ... 8.41 10.1 3 2.73 3
False
2. Application sur une nouvelle donn´e :
e
client id ... night charge int min int calls int charge cs calls churn
f =
5 ... 7.32 12.2 5 3.29 0 False
3 / 10
5. Probl`me
e
Effectuer des pr´dictions est complexe
e
donn´es
e
acquisition des donn´es
e
pr´paration, extraction des donn´es (datamart)
e e
choix des algorithmes (r´seaux de neurones)
e
choix des param`tres
e
gestion parc informatique
4 / 10
6. Probl`me
e
Effectuer des pr´dictions est complexe
e
donn´es
e pr´paration
e
acquisition des donn´es
e
pr´paration, extraction des donn´es (datamart)
e e
choix des algorithmes (r´seaux de neurones)
e
choix des param`tres
e
gestion parc informatique
4 / 10
7. Probl`me
e
Effectuer des pr´dictions est complexe
e
donn´es
e pr´paration algorithmes
e
acquisition des donn´es
e
pr´paration, extraction des donn´es (datamart)
e e
choix des algorithmes (r´seaux de neurones)
e
choix des param`tres
e
gestion parc informatique
4 / 10
8. Probl`me
e
Effectuer des pr´dictions est complexe
e
donn´es
e pr´paration algorithmes param´trages
e e
acquisition des donn´es
e
pr´paration, extraction des donn´es (datamart)
e e
choix des algorithmes (r´seaux de neurones)
e
choix des param`tres
e
gestion parc informatique
4 / 10
9. Probl`me
e
Effectuer des pr´dictions est complexe
e
donn´es
e pr´paration algorithmes param´trages
e e cluster
acquisition des donn´es
e
pr´paration, extraction des donn´es (datamart)
e e
choix des algorithmes (r´seaux de neurones)
e
choix des param`tres
e
gestion parc informatique
4 / 10
10. Solution
Pr´dire simplement
e
donn´es
e pr´paration algorithmes param´trages
e e cluster
logiciel en ligne (Cloud Computing)
mod`le optimal
e
PredictiveDB d´termine les param`tres
e e
PredictiveDB choisit l’algorithme
natif SQL
5 / 10
11. Solution
Pr´dire simplement
e
donn´es
e pr´paration algorithmes param´trages
e e
logiciel en ligne (Cloud Computing)
mod`le optimal
e
PredictiveDB d´termine les param`tres
e e
PredictiveDB choisit l’algorithme
natif SQL
5 / 10
12. Solution
Pr´dire simplement
e
donn´es
e pr´paration algorithmes
e
logiciel en ligne (Cloud Computing)
mod`le optimal
e
PredictiveDB d´termine les param`tres
e e
PredictiveDB choisit l’algorithme
natif SQL
5 / 10
13. Solution
Pr´dire simplement
e
donn´es
e pr´paration
e
logiciel en ligne (Cloud Computing)
mod`le optimal
e
PredictiveDB d´termine les param`tres
e e
PredictiveDB choisit l’algorithme
natif SQL
5 / 10
14. Solution
Pr´dire simplement
e
donn´es
e
logiciel en ligne (Cloud Computing)
mod`le optimal
e
PredictiveDB d´termine les param`tres
e e
PredictiveDB choisit l’algorithme
natif SQL
5 / 10
16. Solution
Base de donn´es pr´dictive
e e
pr´diction des valeurs manquantes (NULL)
e
consultation de vues pr´dictives
e
interface SQL tr`s simple (select et insert)
e
table public.churn Vue pr´dictive : pdb.churn
e
client id churn client id churn error risk
2 False 2 False
3 True 3 True
4 False 4 False
5 NULL 5 False 4.3232
6 / 10
17. Technologie
Th´orie de l’apprentissage statistique de V. Vapnik
e
Sous la condition fondamentale que les donn´es
e
pass´es et futures soient issues de la mˆme
e e
population, le mod`le d’une famille le plus fid`le
e e
aux donn´es est celui qui a (asymptotiquement)
e
le meilleur pouvoir pr´dictif.
e
Apprentissage Artificiel, A. Cornuejols et L.Miclet, 2002
Machine Learning, Tom Mitchell, 1997
The Elements of Statistical Learning : Data Mining, Inference,
and Prediction, T. Hastie, R. Tibshirani, et J. Friedman
7 / 10
20. PredictiveDB : le premier SGBD
pr´dictif en ligne
e
devenez alpha-testeur : www.predictivedb.fr
blog : blog.predictivedb.com/tagged/fr
twitter : www.twitter.com/predictivedb
10 / 10