SlideShare une entreprise Scribd logo
1  sur  30
Florent Renucci
Plan
I – Le problème
II – Méthode
III - Résultats
IV - Application
IV.a – Cadre
IV.b – Lien avec l'article
IV.c – Code
IV.d - Résultats

V – Elargissement
V.1 – Utilisation des semi-MDP dans ce contexte
V.2 – Un seul client ? Un seul produit ?

Sources
Introduction
 Etude du "Costumer Relationship Management" :

?
Action marketing

perception du client

But : maximiser la "Customer Lifetime Value » :
maximisant les bénéfices long-terme en manipulant
les actions marketing.
 On cherche les actions (marketing), qui maximisent
une fonction (bénéfices), dans un contexte incertain
(comportement du prospect).
Introduction
 Difficulté : lien entre une action et une réponse
difficilement mesurable : "Cross Channel
Challenge »

 Méthodes des séries temporelles inefficaces.
 Utilisation de semi-MDP.

 Cadre : optimisation de campagnes mail.
I – Le problème
 La plupart des méthodes traitent chaque canal

indépendamment, et sur le court terme.
 Or ils sont liés et ont un impact long-terme.

 L’intervalle de temps entre 2 états est variable.
 On mesurera des quantités relatives au canal de mail et

au canal de ventes, à l’aide de cookies.

 Les semi-MDP permettent de contourner ces difficultés,
contrairement aux autres méthodes.
II - Méthode
 On souhaite maximiser le bénéfice cumulé actualisé

, r le taux d’actualisation.
 ti les instants de ventes (pour un montant ri) ou d’envois
de mails.
 Avec

t0= 0, actions marketing ai aux instants ti, recevant des

récompenses aléatoires ri et aboutissant à un nouvel état
si+1.
On étudie donc la série {si,ai,ri,ti}, en vue de maximiser R,
avec un γ qui a été fixé.
II - Méthode
 On dispose au début de l’étude de données (N

scénarios de longueurs différentes)
 On utilise un algorithme de Q-Learning.
 Difficulté :

variables.
 [2] : algorithme différent : advantage updating
apprend l'avantage relatif d'une action par rapport à
l'action optimale (et évite de calculer Q, bruité par
l’incertitude sur Δti).
II - Méthode
 Ressemble à la fonction regret des algorithmes de

bandit
 on veut qu’elle converge vers 0.

Input : les N scénarios
tij

et les temps

Etape 1 : calcul des Δti=ti+1-ti et des rij/Δtij
Etape 2 :
a)
initialisation de A(0) (dont je n'ai pas compris la
notation)
II - Méthode
Etape 3 :
a) mise à jour de A(k)
calcul de la différence entre le gain max en j+1 et celui
en j :

b) mise à jour de V(k) (évaluation du meilleur gain) :

Etape 4 : normalisation de A(k), pour que A(k) converge vers 0
(c'est la fonction avantage de l'équation (1) ):
III - Résultats
 Données utilisées :
 les clients, en fixant un seuil d'activité, pour ne
conserver que les plus actifs, et ensuite randomisés,
 les transactions : qui a acheté, quel article, et quand,
 les campagnes de mailing.
 Comparaison de la politique optimale trouvée, en

calculant l'avantage que l'on aurait récolté en suivant
cette politique plutôt que celle qui a été suivie le long
du scénario historique, en supposant que la suite
des états suivants n'est pas significativement
modifiée  discutable !
III - Résultats
 Hypothèse discutable : l'action conditionne (de

manière déterministe ou probabiliste) l'événement
suivant. Donc une action différente peut faire naître
un état suivant différent.
 Cependant [3] : si l'on trouve une politique π* dont

l'avantage est positif, on peut construire une
politique π’ à partir de π*, qui a une récompense
supérieure à celle de πutilisée.
 Donc pour évaluer l’avantage de π’ sur πutilisée, il faut
III - Résultats
 Hypothèse discutable : l'action conditionne (de

manière déterministe ou probabiliste) l'événement
suivant. Donc une action différente peut faire naître
un état suivant différent.
 Exemple:
 créer des clusters de clients,
 diviser un cluster en 2 parts égales de manière
aléatoire,
 Appliquer πutilisée à l'un et π’ à l'autre.

 question qui reste ouverte, d'après l'article, mais les
IV - Application
 Focalisation sur les semi-MDP.
 Question concrète (et absence de données

marketing)  générer des données.
 Difficulté à générer le comportement d'un client
répondant à une publicité  reformulation à un
problème de planification.
 IV.a : présentation du problème,
 IV.b : lien avec l'application de l'article,
 IV.c : explication du code,
 IV.d : résultats.
IV.a - Cadre
 Nous sommes une entreprise qui achète des

matières premières, fabrique un produit, le stocke,
puis le vend.
 On paye donc :
 les matières premières et la fabrication (c=5 par
produit),
 le stockage (h=1 par produit par jour),
 les frais de livraison (K=8 par livraison),
 Et on gagne :
IV.a - Cadre
 Nous sommes une entreprise qui achète des matières

premières, fabrique un produit, le stocke, puis le vend.
 Les variables aléatoires sont :
 le volume acheté par le client (Dt),
 la date d'achat (ti).
 Les décisions portent sur :
 le nombre de machines achetées (At) pour satisfaire la
demande client, et sans dépasser le stock maximum de
M=15.
 Donc on cherche à maximiser la fonction bénéfices, les

actions seront les machines achetées, les états (Xi)
seront le nombre de machine en stock aux temps ti
IV.b – Lien avec l’article
 Utilisation de semi-MDP.
 Phase 1 : génération de scénarios,
 Phase 2 : algorithme de Q-Learning.
 Vente à un seul client.

 Optimisation de la récompense en agissant sur des

leviers internes à l'entreprise (les achats, donc le
stock), et non externes (la perception du client).
C'est une simplification.
IV.c – Code










On définit les paramètres du problème
On génère des trajectoires, de longueur aléatoire
On applique l’algorithme de Q-learning
On estime le profit moyen cumulé sur des politiques
aléatoires, par méthode de Monte-Carlo
On estime le profit moyen cumulé sur la politique
optimale, par méthode de Monte-Carlo
On fait la même chose sur une suite d’états déjà fixés
(politique aléatoire)
On fait la même chose sur une suite d’états déjà fixés
(politique aléatoire)
On calcule la différence de profit entre les 2 simulations
précédentes
IV.d – Résultats
 R pour la politique optimale dans le cas d'évolution

classique (profit total = 1.2) : figure 1
IV.d – Résultats
 R pour la politique quelconque dans le cas

d'évolution classique (profit entre -0.7 et 0.7) : figure
2
IV.d – Résultats
 la politique optimale dans le cas d'évolution fixée

(profit = 1600) : figure 3
IV.d – Résultats
 la politique quelconque dans le cas d'évolution fixée

(profit = 1500) : figure 4
IV.d – Résultats
 gain supplémentaire obtenu grâce à la politique

optimale par rapport à une politique quelconque
(figure 3 – figure 4)
IV.d – Résultats
 gain supplémentaire obtenu grâce à la politique

optimale par rapport à une politique quelconque
(figure 3 – figure 4)
IV.d – Résultats
 gain supplémentaire obtenu grâce à la politique

optimale par rapport à une politique quelconque
(figure 3 – figure 4)
IV.d – Résultats
 gain supplémentaire obtenu grâce à la politique

optimale par rapport à une politique quelconque
(figure 3 – figure 4)
IV.d – Résultats
 Les graphiques 5 : "combien l'on gagne en plus en

utilisant la politique optimale trouvée, sur une série
d'états déjà fixée".
 Plusieurs tracés donnent donc des résultats assez

différents. Ce n'est pas du tout ce à quoi l'on
s'attendait.
 Les 2 derniers tests ne sont pas pertinents du point

de vue du problème posé : une décision conduit à
une série d'états possibles, il est par exemple
impossible d'avoir 5 machines en stock, d'en acheter
IV.d – Résultats
 Les graphiques 5 : "combien l'on gagne en plus en utilisant la

politique optimale trouvée, sur une série d'états déjà fixée".
 On a autant de chances de perdre du stock que d'en gagner,

et que lorsque l'on en perd, on y perd peu, alors que lorsqu'on
en gagne, on y gagne beaucoup
 Le comportement de cette courbe ne rend pas du tout compte

de la pertinence d'une politique, mais du résultat de
l'entreprise au jeu "combien va-t-il apparaître/disparaître de
machines à l'état suivant ?".
 On ne peut donc pas valider (ni infirmer) l'hypothèse faite par

l'article dans ce cadre.
V – Elargissement
V.a – Utilisation des semi-MDP dans ce contexte
 Les semi-MDP peuvent être utilisés dans beaucoup

de problématiques business similaires, autant du
point de vue des états internes (quantité en stock,
nombre de lignes de production…) que des états
externes (comportement du client), comme
l'application de l'article.
V – Elargissement
V.a – Un seul client ? Un seul produit ?
 Un seul client : pertinent pour certaines industries.
 Beaucoup d'entreprises B2B n'ont qu'un seul "gros" client

(composants microinformatiques ou automobiles par ex).
 Plusieurs clients, donc plusieurs variables aléatoires

indépendantes composant l'environnement :
 clustering sur les clients en fonction de leur comportement

d'achat (fréquence et volume),
 traiter chaque cluster indépendamment.

 Plusieurs produits (pour un ou plusieurs clients), les

problèmes ne seront plus indépendants : la capacité de
stockage d'un produit est déterminée par le stock de l'autre.
Sources
 [1] Between MDPs and Semi-MDPs : A Framework for

Temporal Abstraction in Reinforcement Learning, Richard
S. Sutton, Doina Precup, and Satinder Singh.
 [2] LC Baird : Reinforcement Learning in continuous time

: advantage updating.
 [3] S Kakade abd J.Langford : Approximately optimal

approximate reinforcement learning.
 [4] technical support

Contenu connexe

En vedette

Machine learning use cases in finance
Machine learning use cases in financeMachine learning use cases in finance
Machine learning use cases in financeDavid Guerineau
 
Machine Learning in Customer Analytics
Machine Learning in Customer AnalyticsMachine Learning in Customer Analytics
Machine Learning in Customer AnalyticsCourse5i
 
Introduction to Machine Learning
Introduction to Machine LearningIntroduction to Machine Learning
Introduction to Machine LearningLior Rokach
 
Les potes gardent_le_contact-1
Les potes gardent_le_contact-1Les potes gardent_le_contact-1
Les potes gardent_le_contact-1anaisruiz
 
L'utilité des i pads dans la salle de classe
L'utilité des i pads dans la salle de classeL'utilité des i pads dans la salle de classe
L'utilité des i pads dans la salle de classeMmeNero
 
Natalia García et Cristina Arévalo. 2º D
Natalia García et Cristina Arévalo. 2º DNatalia García et Cristina Arévalo. 2º D
Natalia García et Cristina Arévalo. 2º Danaisruiz
 
Présentation ab propreté v2
Présentation ab propreté v2Présentation ab propreté v2
Présentation ab propreté v2abproprete ab
 
Mali phase ii_presentationsb
Mali phase ii_presentationsbMali phase ii_presentationsb
Mali phase ii_presentationsbccanepa
 
Fecundación
FecundaciónFecundación
FecundaciónSunnyf1
 
Bva genetic
Bva geneticBva genetic
Bva geneticonibi29
 
Deuxieme bulletin cfi
Deuxieme bulletin cfiDeuxieme bulletin cfi
Deuxieme bulletin cfiCFIHAITI
 
La cartelera de los sueños mod
La cartelera  de  los  sueños modLa cartelera  de  los  sueños mod
La cartelera de los sueños modmaria ubenita
 

En vedette (18)

Machine learning use cases in finance
Machine learning use cases in financeMachine learning use cases in finance
Machine learning use cases in finance
 
Machine Learning in Customer Analytics
Machine Learning in Customer AnalyticsMachine Learning in Customer Analytics
Machine Learning in Customer Analytics
 
Introduction to Machine Learning
Introduction to Machine LearningIntroduction to Machine Learning
Introduction to Machine Learning
 
Joyeux noel
Joyeux noelJoyeux noel
Joyeux noel
 
Les potes gardent_le_contact-1
Les potes gardent_le_contact-1Les potes gardent_le_contact-1
Les potes gardent_le_contact-1
 
L'utilité des i pads dans la salle de classe
L'utilité des i pads dans la salle de classeL'utilité des i pads dans la salle de classe
L'utilité des i pads dans la salle de classe
 
Natalia García et Cristina Arévalo. 2º D
Natalia García et Cristina Arévalo. 2º DNatalia García et Cristina Arévalo. 2º D
Natalia García et Cristina Arévalo. 2º D
 
Présentation ab propreté v2
Présentation ab propreté v2Présentation ab propreté v2
Présentation ab propreté v2
 
Mali phase ii_presentationsb
Mali phase ii_presentationsbMali phase ii_presentationsb
Mali phase ii_presentationsb
 
01 les visages fr
01 les visages fr01 les visages fr
01 les visages fr
 
My trip to spain
My trip to spainMy trip to spain
My trip to spain
 
CV FRENCH
CV FRENCHCV FRENCH
CV FRENCH
 
Presentacio fossils
Presentacio fossilsPresentacio fossils
Presentacio fossils
 
04 electroacoustique fr
04 electroacoustique fr04 electroacoustique fr
04 electroacoustique fr
 
Fecundación
FecundaciónFecundación
Fecundación
 
Bva genetic
Bva geneticBva genetic
Bva genetic
 
Deuxieme bulletin cfi
Deuxieme bulletin cfiDeuxieme bulletin cfi
Deuxieme bulletin cfi
 
La cartelera de los sueños mod
La cartelera  de  los  sueños modLa cartelera  de  los  sueños mod
La cartelera de los sueños mod
 

Similaire à Reinforcement learning for e-marketing, presentation, 2012

6.valorisation internet
6.valorisation internet6.valorisation internet
6.valorisation internetBen69350
 
Reinforcement learning for e-marketing, report, 2012
Reinforcement learning for e-marketing, report, 2012Reinforcement learning for e-marketing, report, 2012
Reinforcement learning for e-marketing, report, 2012Florent Renucci
 
Connaître son audience grâce à la Data - Parisa MAjlessi
Connaître son audience grâce à la Data - Parisa MAjlessiConnaître son audience grâce à la Data - Parisa MAjlessi
Connaître son audience grâce à la Data - Parisa MAjlessiJedha Bootcamp
 
4.Partie III _ Cours gestion de l'entreprise
4.Partie III _ Cours gestion de l'entreprise4.Partie III _ Cours gestion de l'entreprise
4.Partie III _ Cours gestion de l'entrepriseNebil MRABET
 
Appdays 2016 - Rétention : l'arme de croissance massive de Molotov
Appdays 2016 - Rétention : l'arme de croissance massive de MolotovAppdays 2016 - Rétention : l'arme de croissance massive de Molotov
Appdays 2016 - Rétention : l'arme de croissance massive de MolotovLuc Behar
 
Présentation Stairway Consulting sur le Revenue Management
Présentation Stairway Consulting sur le Revenue ManagementPrésentation Stairway Consulting sur le Revenue Management
Présentation Stairway Consulting sur le Revenue ManagementAvailpro
 
(French) Le scoring au marketing à Orange France - by Claude Riwan - PAPIs Co...
(French) Le scoring au marketing à Orange France - by Claude Riwan - PAPIs Co...(French) Le scoring au marketing à Orange France - by Claude Riwan - PAPIs Co...
(French) Le scoring au marketing à Orange France - by Claude Riwan - PAPIs Co...PAPIs.io
 
Management economique www.coursdefsjes.com
Management economique   www.coursdefsjes.comManagement economique   www.coursdefsjes.com
Management economique www.coursdefsjes.comcours fsjes
 
Développement Business Model
Développement Business ModelDéveloppement Business Model
Développement Business ModelRollingbox
 
Pilote optimisation sur données MCA®
Pilote optimisation sur données MCA®Pilote optimisation sur données MCA®
Pilote optimisation sur données MCA®ROI\marketing
 
Customer LifeTime Value en assurance
Customer LifeTime Value en assuranceCustomer LifeTime Value en assurance
Customer LifeTime Value en assuranceInsurance_Marketing
 
Le Big Data et les analytics : quels enjeux pour le marketing BtoB
Le Big Data et les analytics : quels enjeux pour le marketing BtoBLe Big Data et les analytics : quels enjeux pour le marketing BtoB
Le Big Data et les analytics : quels enjeux pour le marketing BtoBSparklane
 
uyéyefygjhqjhgjhgequtCours-Data-Mining.pdf
uyéyefygjhqjhgjhgequtCours-Data-Mining.pdfuyéyefygjhqjhgjhgequtCours-Data-Mining.pdf
uyéyefygjhqjhgjhgequtCours-Data-Mining.pdfNajlaAllouche
 
CRM et Chaîne de la Valeur Client
 CRM et Chaîne de la Valeur Client CRM et Chaîne de la Valeur Client
CRM et Chaîne de la Valeur ClientEfficy CRM
 
Optimiser ses publicités grâce à la Data Science
Optimiser ses publicités grâce à la Data ScienceOptimiser ses publicités grâce à la Data Science
Optimiser ses publicités grâce à la Data ScienceJedha Bootcamp
 
Modélisation stratégique
Modélisation stratégiqueModélisation stratégique
Modélisation stratégiquePÖL Digital
 
Savoir quand vendre ou acheter du Bitcoin grâce à la Data Science - Christian...
Savoir quand vendre ou acheter du Bitcoin grâce à la Data Science - Christian...Savoir quand vendre ou acheter du Bitcoin grâce à la Data Science - Christian...
Savoir quand vendre ou acheter du Bitcoin grâce à la Data Science - Christian...Jedha Bootcamp
 
23/11/17 Matinale Usages Réactivation et SMS Enrichi
23/11/17 Matinale Usages Réactivation et SMS Enrichi23/11/17 Matinale Usages Réactivation et SMS Enrichi
23/11/17 Matinale Usages Réactivation et SMS EnrichiSoft Computing
 

Similaire à Reinforcement learning for e-marketing, presentation, 2012 (20)

6.valorisation internet
6.valorisation internet6.valorisation internet
6.valorisation internet
 
Reinforcement learning for e-marketing, report, 2012
Reinforcement learning for e-marketing, report, 2012Reinforcement learning for e-marketing, report, 2012
Reinforcement learning for e-marketing, report, 2012
 
Connaître son audience grâce à la Data - Parisa MAjlessi
Connaître son audience grâce à la Data - Parisa MAjlessiConnaître son audience grâce à la Data - Parisa MAjlessi
Connaître son audience grâce à la Data - Parisa MAjlessi
 
4.Partie III _ Cours gestion de l'entreprise
4.Partie III _ Cours gestion de l'entreprise4.Partie III _ Cours gestion de l'entreprise
4.Partie III _ Cours gestion de l'entreprise
 
Appdays 2016 - Rétention : l'arme de croissance massive de Molotov
Appdays 2016 - Rétention : l'arme de croissance massive de MolotovAppdays 2016 - Rétention : l'arme de croissance massive de Molotov
Appdays 2016 - Rétention : l'arme de croissance massive de Molotov
 
Fichiers telecharger2013
Fichiers telecharger2013Fichiers telecharger2013
Fichiers telecharger2013
 
Présentation Stairway Consulting sur le Revenue Management
Présentation Stairway Consulting sur le Revenue ManagementPrésentation Stairway Consulting sur le Revenue Management
Présentation Stairway Consulting sur le Revenue Management
 
(French) Le scoring au marketing à Orange France - by Claude Riwan - PAPIs Co...
(French) Le scoring au marketing à Orange France - by Claude Riwan - PAPIs Co...(French) Le scoring au marketing à Orange France - by Claude Riwan - PAPIs Co...
(French) Le scoring au marketing à Orange France - by Claude Riwan - PAPIs Co...
 
Management economique www.coursdefsjes.com
Management economique   www.coursdefsjes.comManagement economique   www.coursdefsjes.com
Management economique www.coursdefsjes.com
 
Développement Business Model
Développement Business ModelDéveloppement Business Model
Développement Business Model
 
Pilote optimisation sur données MCA®
Pilote optimisation sur données MCA®Pilote optimisation sur données MCA®
Pilote optimisation sur données MCA®
 
Yeild management
Yeild managementYeild management
Yeild management
 
Customer LifeTime Value en assurance
Customer LifeTime Value en assuranceCustomer LifeTime Value en assurance
Customer LifeTime Value en assurance
 
Le Big Data et les analytics : quels enjeux pour le marketing BtoB
Le Big Data et les analytics : quels enjeux pour le marketing BtoBLe Big Data et les analytics : quels enjeux pour le marketing BtoB
Le Big Data et les analytics : quels enjeux pour le marketing BtoB
 
uyéyefygjhqjhgjhgequtCours-Data-Mining.pdf
uyéyefygjhqjhgjhgequtCours-Data-Mining.pdfuyéyefygjhqjhgjhgequtCours-Data-Mining.pdf
uyéyefygjhqjhgjhgequtCours-Data-Mining.pdf
 
CRM et Chaîne de la Valeur Client
 CRM et Chaîne de la Valeur Client CRM et Chaîne de la Valeur Client
CRM et Chaîne de la Valeur Client
 
Optimiser ses publicités grâce à la Data Science
Optimiser ses publicités grâce à la Data ScienceOptimiser ses publicités grâce à la Data Science
Optimiser ses publicités grâce à la Data Science
 
Modélisation stratégique
Modélisation stratégiqueModélisation stratégique
Modélisation stratégique
 
Savoir quand vendre ou acheter du Bitcoin grâce à la Data Science - Christian...
Savoir quand vendre ou acheter du Bitcoin grâce à la Data Science - Christian...Savoir quand vendre ou acheter du Bitcoin grâce à la Data Science - Christian...
Savoir quand vendre ou acheter du Bitcoin grâce à la Data Science - Christian...
 
23/11/17 Matinale Usages Réactivation et SMS Enrichi
23/11/17 Matinale Usages Réactivation et SMS Enrichi23/11/17 Matinale Usages Réactivation et SMS Enrichi
23/11/17 Matinale Usages Réactivation et SMS Enrichi
 

Plus de Florent Renucci

Leveraging Community Engagement for Brand Engagement, 2012, presentation
Leveraging Community Engagement for Brand Engagement, 2012, presentationLeveraging Community Engagement for Brand Engagement, 2012, presentation
Leveraging Community Engagement for Brand Engagement, 2012, presentationFlorent Renucci
 
Data Analytics Intro Session 1, 2013
Data Analytics Intro Session 1, 2013Data Analytics Intro Session 1, 2013
Data Analytics Intro Session 1, 2013Florent Renucci
 
Corporate valuation linked in, 2011
Corporate valuation  linked in, 2011Corporate valuation  linked in, 2011
Corporate valuation linked in, 2011Florent Renucci
 
Etude de cas : "Comment valoriser la publicité en milieu public ?"
Etude de cas : "Comment valoriser la publicité en milieu public ?"Etude de cas : "Comment valoriser la publicité en milieu public ?"
Etude de cas : "Comment valoriser la publicité en milieu public ?"Florent Renucci
 
Etude de cas : "Comment augmenter la rentabilité de DN de 500 MSEK d’ici 3 an...
Etude de cas : "Comment augmenter la rentabilité de DN de 500 MSEK d’ici 3 an...Etude de cas : "Comment augmenter la rentabilité de DN de 500 MSEK d’ici 3 an...
Etude de cas : "Comment augmenter la rentabilité de DN de 500 MSEK d’ici 3 an...Florent Renucci
 
Leveraging Community Engagement for Brand Engagement, 2012, report
Leveraging Community Engagement for Brand Engagement, 2012, reportLeveraging Community Engagement for Brand Engagement, 2012, report
Leveraging Community Engagement for Brand Engagement, 2012, reportFlorent Renucci
 
Generalization of Principal Component Analysis, report, 2012
Generalization of Principal Component Analysis, report, 2012Generalization of Principal Component Analysis, report, 2012
Generalization of Principal Component Analysis, report, 2012Florent Renucci
 
Generalization of Principal Component Analysis, presentation, 2012
Generalization of Principal Component Analysis, presentation, 2012Generalization of Principal Component Analysis, presentation, 2012
Generalization of Principal Component Analysis, presentation, 2012Florent Renucci
 
Manifold Blurring Mean Shift algorithms for manifold denoising, report, 2012
Manifold Blurring Mean Shift algorithms for manifold denoising, report, 2012Manifold Blurring Mean Shift algorithms for manifold denoising, report, 2012
Manifold Blurring Mean Shift algorithms for manifold denoising, report, 2012Florent Renucci
 
TIPE - Code correcteur de Hamming, 2009
TIPE - Code correcteur de Hamming, 2009TIPE - Code correcteur de Hamming, 2009
TIPE - Code correcteur de Hamming, 2009Florent Renucci
 
Polynomial Regression on Riemannian Manifolds, report, 2012
Polynomial Regression on Riemannian Manifolds, report, 2012Polynomial Regression on Riemannian Manifolds, report, 2012
Polynomial Regression on Riemannian Manifolds, report, 2012Florent Renucci
 
Manifold Blurring Mean Shift algorithms for manifold denoising, presentation,...
Manifold Blurring Mean Shift algorithms for manifold denoising, presentation,...Manifold Blurring Mean Shift algorithms for manifold denoising, presentation,...
Manifold Blurring Mean Shift algorithms for manifold denoising, presentation,...Florent Renucci
 
Open source softwares, 2011
Open source softwares, 2011Open source softwares, 2011
Open source softwares, 2011Florent Renucci
 

Plus de Florent Renucci (13)

Leveraging Community Engagement for Brand Engagement, 2012, presentation
Leveraging Community Engagement for Brand Engagement, 2012, presentationLeveraging Community Engagement for Brand Engagement, 2012, presentation
Leveraging Community Engagement for Brand Engagement, 2012, presentation
 
Data Analytics Intro Session 1, 2013
Data Analytics Intro Session 1, 2013Data Analytics Intro Session 1, 2013
Data Analytics Intro Session 1, 2013
 
Corporate valuation linked in, 2011
Corporate valuation  linked in, 2011Corporate valuation  linked in, 2011
Corporate valuation linked in, 2011
 
Etude de cas : "Comment valoriser la publicité en milieu public ?"
Etude de cas : "Comment valoriser la publicité en milieu public ?"Etude de cas : "Comment valoriser la publicité en milieu public ?"
Etude de cas : "Comment valoriser la publicité en milieu public ?"
 
Etude de cas : "Comment augmenter la rentabilité de DN de 500 MSEK d’ici 3 an...
Etude de cas : "Comment augmenter la rentabilité de DN de 500 MSEK d’ici 3 an...Etude de cas : "Comment augmenter la rentabilité de DN de 500 MSEK d’ici 3 an...
Etude de cas : "Comment augmenter la rentabilité de DN de 500 MSEK d’ici 3 an...
 
Leveraging Community Engagement for Brand Engagement, 2012, report
Leveraging Community Engagement for Brand Engagement, 2012, reportLeveraging Community Engagement for Brand Engagement, 2012, report
Leveraging Community Engagement for Brand Engagement, 2012, report
 
Generalization of Principal Component Analysis, report, 2012
Generalization of Principal Component Analysis, report, 2012Generalization of Principal Component Analysis, report, 2012
Generalization of Principal Component Analysis, report, 2012
 
Generalization of Principal Component Analysis, presentation, 2012
Generalization of Principal Component Analysis, presentation, 2012Generalization of Principal Component Analysis, presentation, 2012
Generalization of Principal Component Analysis, presentation, 2012
 
Manifold Blurring Mean Shift algorithms for manifold denoising, report, 2012
Manifold Blurring Mean Shift algorithms for manifold denoising, report, 2012Manifold Blurring Mean Shift algorithms for manifold denoising, report, 2012
Manifold Blurring Mean Shift algorithms for manifold denoising, report, 2012
 
TIPE - Code correcteur de Hamming, 2009
TIPE - Code correcteur de Hamming, 2009TIPE - Code correcteur de Hamming, 2009
TIPE - Code correcteur de Hamming, 2009
 
Polynomial Regression on Riemannian Manifolds, report, 2012
Polynomial Regression on Riemannian Manifolds, report, 2012Polynomial Regression on Riemannian Manifolds, report, 2012
Polynomial Regression on Riemannian Manifolds, report, 2012
 
Manifold Blurring Mean Shift algorithms for manifold denoising, presentation,...
Manifold Blurring Mean Shift algorithms for manifold denoising, presentation,...Manifold Blurring Mean Shift algorithms for manifold denoising, presentation,...
Manifold Blurring Mean Shift algorithms for manifold denoising, presentation,...
 
Open source softwares, 2011
Open source softwares, 2011Open source softwares, 2011
Open source softwares, 2011
 

Reinforcement learning for e-marketing, presentation, 2012

  • 2. Plan I – Le problème II – Méthode III - Résultats IV - Application IV.a – Cadre IV.b – Lien avec l'article IV.c – Code IV.d - Résultats V – Elargissement V.1 – Utilisation des semi-MDP dans ce contexte V.2 – Un seul client ? Un seul produit ? Sources
  • 3. Introduction  Etude du "Costumer Relationship Management" : ? Action marketing perception du client But : maximiser la "Customer Lifetime Value » : maximisant les bénéfices long-terme en manipulant les actions marketing.  On cherche les actions (marketing), qui maximisent une fonction (bénéfices), dans un contexte incertain (comportement du prospect).
  • 4. Introduction  Difficulté : lien entre une action et une réponse difficilement mesurable : "Cross Channel Challenge »  Méthodes des séries temporelles inefficaces.  Utilisation de semi-MDP.  Cadre : optimisation de campagnes mail.
  • 5. I – Le problème  La plupart des méthodes traitent chaque canal indépendamment, et sur le court terme.  Or ils sont liés et ont un impact long-terme.  L’intervalle de temps entre 2 états est variable.  On mesurera des quantités relatives au canal de mail et au canal de ventes, à l’aide de cookies.  Les semi-MDP permettent de contourner ces difficultés, contrairement aux autres méthodes.
  • 6. II - Méthode  On souhaite maximiser le bénéfice cumulé actualisé , r le taux d’actualisation.  ti les instants de ventes (pour un montant ri) ou d’envois de mails.  Avec t0= 0, actions marketing ai aux instants ti, recevant des récompenses aléatoires ri et aboutissant à un nouvel état si+1. On étudie donc la série {si,ai,ri,ti}, en vue de maximiser R, avec un γ qui a été fixé.
  • 7. II - Méthode  On dispose au début de l’étude de données (N scénarios de longueurs différentes)  On utilise un algorithme de Q-Learning.  Difficulté : variables.  [2] : algorithme différent : advantage updating apprend l'avantage relatif d'une action par rapport à l'action optimale (et évite de calculer Q, bruité par l’incertitude sur Δti).
  • 8. II - Méthode  Ressemble à la fonction regret des algorithmes de bandit  on veut qu’elle converge vers 0. Input : les N scénarios tij et les temps Etape 1 : calcul des Δti=ti+1-ti et des rij/Δtij Etape 2 : a) initialisation de A(0) (dont je n'ai pas compris la notation)
  • 9. II - Méthode Etape 3 : a) mise à jour de A(k) calcul de la différence entre le gain max en j+1 et celui en j : b) mise à jour de V(k) (évaluation du meilleur gain) : Etape 4 : normalisation de A(k), pour que A(k) converge vers 0 (c'est la fonction avantage de l'équation (1) ):
  • 10. III - Résultats  Données utilisées :  les clients, en fixant un seuil d'activité, pour ne conserver que les plus actifs, et ensuite randomisés,  les transactions : qui a acheté, quel article, et quand,  les campagnes de mailing.  Comparaison de la politique optimale trouvée, en calculant l'avantage que l'on aurait récolté en suivant cette politique plutôt que celle qui a été suivie le long du scénario historique, en supposant que la suite des états suivants n'est pas significativement modifiée  discutable !
  • 11. III - Résultats  Hypothèse discutable : l'action conditionne (de manière déterministe ou probabiliste) l'événement suivant. Donc une action différente peut faire naître un état suivant différent.  Cependant [3] : si l'on trouve une politique π* dont l'avantage est positif, on peut construire une politique π’ à partir de π*, qui a une récompense supérieure à celle de πutilisée.  Donc pour évaluer l’avantage de π’ sur πutilisée, il faut
  • 12. III - Résultats  Hypothèse discutable : l'action conditionne (de manière déterministe ou probabiliste) l'événement suivant. Donc une action différente peut faire naître un état suivant différent.  Exemple:  créer des clusters de clients,  diviser un cluster en 2 parts égales de manière aléatoire,  Appliquer πutilisée à l'un et π’ à l'autre.  question qui reste ouverte, d'après l'article, mais les
  • 13. IV - Application  Focalisation sur les semi-MDP.  Question concrète (et absence de données marketing)  générer des données.  Difficulté à générer le comportement d'un client répondant à une publicité  reformulation à un problème de planification.  IV.a : présentation du problème,  IV.b : lien avec l'application de l'article,  IV.c : explication du code,  IV.d : résultats.
  • 14. IV.a - Cadre  Nous sommes une entreprise qui achète des matières premières, fabrique un produit, le stocke, puis le vend.  On paye donc :  les matières premières et la fabrication (c=5 par produit),  le stockage (h=1 par produit par jour),  les frais de livraison (K=8 par livraison),  Et on gagne :
  • 15. IV.a - Cadre  Nous sommes une entreprise qui achète des matières premières, fabrique un produit, le stocke, puis le vend.  Les variables aléatoires sont :  le volume acheté par le client (Dt),  la date d'achat (ti).  Les décisions portent sur :  le nombre de machines achetées (At) pour satisfaire la demande client, et sans dépasser le stock maximum de M=15.  Donc on cherche à maximiser la fonction bénéfices, les actions seront les machines achetées, les états (Xi) seront le nombre de machine en stock aux temps ti
  • 16. IV.b – Lien avec l’article  Utilisation de semi-MDP.  Phase 1 : génération de scénarios,  Phase 2 : algorithme de Q-Learning.  Vente à un seul client.  Optimisation de la récompense en agissant sur des leviers internes à l'entreprise (les achats, donc le stock), et non externes (la perception du client). C'est une simplification.
  • 17. IV.c – Code         On définit les paramètres du problème On génère des trajectoires, de longueur aléatoire On applique l’algorithme de Q-learning On estime le profit moyen cumulé sur des politiques aléatoires, par méthode de Monte-Carlo On estime le profit moyen cumulé sur la politique optimale, par méthode de Monte-Carlo On fait la même chose sur une suite d’états déjà fixés (politique aléatoire) On fait la même chose sur une suite d’états déjà fixés (politique aléatoire) On calcule la différence de profit entre les 2 simulations précédentes
  • 18. IV.d – Résultats  R pour la politique optimale dans le cas d'évolution classique (profit total = 1.2) : figure 1
  • 19. IV.d – Résultats  R pour la politique quelconque dans le cas d'évolution classique (profit entre -0.7 et 0.7) : figure 2
  • 20. IV.d – Résultats  la politique optimale dans le cas d'évolution fixée (profit = 1600) : figure 3
  • 21. IV.d – Résultats  la politique quelconque dans le cas d'évolution fixée (profit = 1500) : figure 4
  • 22. IV.d – Résultats  gain supplémentaire obtenu grâce à la politique optimale par rapport à une politique quelconque (figure 3 – figure 4)
  • 23. IV.d – Résultats  gain supplémentaire obtenu grâce à la politique optimale par rapport à une politique quelconque (figure 3 – figure 4)
  • 24. IV.d – Résultats  gain supplémentaire obtenu grâce à la politique optimale par rapport à une politique quelconque (figure 3 – figure 4)
  • 25. IV.d – Résultats  gain supplémentaire obtenu grâce à la politique optimale par rapport à une politique quelconque (figure 3 – figure 4)
  • 26. IV.d – Résultats  Les graphiques 5 : "combien l'on gagne en plus en utilisant la politique optimale trouvée, sur une série d'états déjà fixée".  Plusieurs tracés donnent donc des résultats assez différents. Ce n'est pas du tout ce à quoi l'on s'attendait.  Les 2 derniers tests ne sont pas pertinents du point de vue du problème posé : une décision conduit à une série d'états possibles, il est par exemple impossible d'avoir 5 machines en stock, d'en acheter
  • 27. IV.d – Résultats  Les graphiques 5 : "combien l'on gagne en plus en utilisant la politique optimale trouvée, sur une série d'états déjà fixée".  On a autant de chances de perdre du stock que d'en gagner, et que lorsque l'on en perd, on y perd peu, alors que lorsqu'on en gagne, on y gagne beaucoup  Le comportement de cette courbe ne rend pas du tout compte de la pertinence d'une politique, mais du résultat de l'entreprise au jeu "combien va-t-il apparaître/disparaître de machines à l'état suivant ?".  On ne peut donc pas valider (ni infirmer) l'hypothèse faite par l'article dans ce cadre.
  • 28. V – Elargissement V.a – Utilisation des semi-MDP dans ce contexte  Les semi-MDP peuvent être utilisés dans beaucoup de problématiques business similaires, autant du point de vue des états internes (quantité en stock, nombre de lignes de production…) que des états externes (comportement du client), comme l'application de l'article.
  • 29. V – Elargissement V.a – Un seul client ? Un seul produit ?  Un seul client : pertinent pour certaines industries.  Beaucoup d'entreprises B2B n'ont qu'un seul "gros" client (composants microinformatiques ou automobiles par ex).  Plusieurs clients, donc plusieurs variables aléatoires indépendantes composant l'environnement :  clustering sur les clients en fonction de leur comportement d'achat (fréquence et volume),  traiter chaque cluster indépendamment.  Plusieurs produits (pour un ou plusieurs clients), les problèmes ne seront plus indépendants : la capacité de stockage d'un produit est déterminée par le stock de l'autre.
  • 30. Sources  [1] Between MDPs and Semi-MDPs : A Framework for Temporal Abstraction in Reinforcement Learning, Richard S. Sutton, Doina Precup, and Satinder Singh.  [2] LC Baird : Reinforcement Learning in continuous time : advantage updating.  [3] S Kakade abd J.Langford : Approximately optimal approximate reinforcement learning.  [4] technical support