Data Science
Bootcamp
Commencez votre carrière
dans la Data
Notre Speaker
—
Yann Battard
Data Marketing
OPTIMISER SES PUBLICITÉS GRÂCE
AU MACHINE LEARNING
Data & Publicité : de nombreux cas d’usage
Améliorer la conversion :
Quels facteurs ont le plus d’influence sur la conversion client ?
Optimiser l’efficacité d’une publicité:
Parmi plusieurs créations, campagnes, … laquelle clique le mieux ?
Acheter la publicité au meilleur prix:
Quelle est la juste valeur d’un emplacement publicitaire, d’un segment de clients
Trouver des bons prospects:
Quels internautes ressemblent le plus à mes clients actuels ?
Use case de la publicité : problématique
Permettre d’optimiser le revenu global généré par les
espaces publicitaires commercialisés par les sites
internet, dans le contexte de la vente en
programmatique (système d’enchères en temps réel)
Qu’est-ce que la publicité programmatique ?
Système d’enchères
au 2eme prix :
l’acheteur le mieux disant
remporte l’enchère mais paye
le prix du 2eme meilleur
enchérisseur
Vente aux enchères
des espaces
publicitaires
Fixation de prix
planchers des espaces
par les vendeurs
Rapidité de
décision d’achat
d’espace
SSP
Supply
Side
Platform
SSP
Supply
Side
Platform
Agence
RTB
Real time
bidding
Audience Site
éditeur
Plate-forme
côté vendeur
Enchères en
temps réel
Plate-forme
côté acheteur
Agence
d’achat média
Marque
annonceur
Comment se déroule une enchère ?
1. Visite la page 2. Capte
les données
visiteur
3. Détermine
le prix plancher
4. Envoie une requête
d’enchère incluant les données
du visiteur + les caractéristiques de
l’espace publicitaire
5. Analyse la requête
Décision d’achat &
fixation le prix d’enchère
6. Envoie l’enchère
en réponse
7. Désigne
l’enchère gagnante
et le prix appliqué
8. Envoi de la pub
correspondante
SSP
Supply
Side
Platform
SSP
Supply
Side
Platform
Agence
RTB
Real time
bidding
Qu’est-ce que la publicité programmatique ?
Revenu de l’éditeur = prix de l’espace publicitaire * taux d’achat
Déterminer le prix le plus élevé encore acceptable pour l’acheteur
Pouvoir s’adapter rapidement en cas de changement de stratégie des
acheteurs
Passer d’une stratégie de fixation manuelle et empirique du prix plancher à une
fixation temps réel optimisée au niveau du SSP (plate-forme côté vendeur de
publicité)
Et en Machine Learning ?
Caractéristiques
du visiteur
Adresse IP
Langue
OS, device
Geolocalisation
Heure de visite…
Caractéristiques
de l’espace pub
Editeur
Rubrique du site
Taille du player
Format pub
F
E
A
T
U
R
E
S
Stratégies des
acheteurs
Taux d’achat
Prix de l’enchère
P
R
É
D
I
C
T
I
O
N
S
MAXIMISATION DU
REVENU PAR REQUÊTE
Prédiction du revenu
optimal
(taux d’achat x prix)
Les choix parmi les approches ML
Contexte :
Pas de base initiale d’apprentissage
Changement rapide des stratégies des acheteurs : base d’apprentissage
rapidement obsolète
Besoin de pouvoir « explorer » l’éventail des prix possibles et la réaction des
acheteurs
Solution retenue : L’apprentissage par renforcement
(reinforcement learning)
Fonctionnement de l’algorithme
Commence par explorer des prix arbitraires
(au voisinage de ceux fixés manuellement initialement)
Mesure le résultat : un acheteur achète ou pas
(qui prend en compte le taux d’achat et le prix de l’enchère)
« Récompense » la stratégie (ie, le prix) ayant donné le meilleur revenu, et la
favorise pour le tour suivant
Conserve toujours une part dédiée à l‘exploration avec le test de prix différents
- Pouvoir mesurer l’incrément de revenu apporté par l’algorithme vs choix manuel
- Évite de se retrouver bloqué dans un optima local
1
3
4
2
L’apprentissage par renforcement (½)
Reinforcement learning :
Permet d’adresser des problèmes
dans lesquels on ne dispose pas
de base d’apprentissage
préexistante et où il est coûteux
de créer cette base (donc on
oublie l’apprentissage supervisé).
Utilisé par exemple par AlphaGo
en 2016 pour gagner le tournoi de
Go.
Problème du bandit manchot
k machines à sous ont des distributions (ie, des
chances de gagner) différentes et inconnues du
joueur. Comment maximiser son gain et
identifier rapidement la machine la plus
intéressante ?
Le dilemme Exploiter / Explorer
L’apprentissage par renforcement (2/2)
Sur quel critère choisir son action ?
Ici, sur le prix de la publicité
L’approche « greedy » qui choisit systématiquement l’action qui a la
meilleure valeur au temps t.
Ses limites :
Sous optimise sur le long terme
Pas réactive aux changements de valeur des actions dans le temps.
Algorithme : UCB (upper confidence bound)
Au tour t, on choisit l’action (ici le prix) i qui maximise
Moy.Ri(t)+Ui(t)
Ni(t) Nombre de fois où mon prix i a été sélectionné depuis le début
jusqu’au tour t
Ri(t) Somme des récompenses pour le prix i depuis le début
jusqu’au tour t
Moy.Ri(t) Récompense moyenne gagnée par le choix du prix i jusqu’au tour t
Ui(t) Intervalle de confiance de la récompense moyenne du prix i au tour t
L’apprentissage par renforcement
L’action a choisie au tour t
a un intervalle de
confiance réduit à t+1.
Plus elle est choisie, plus
on devient confiant sur la
distribution de la valeur de
son action, et plus son
UCB est faible, ce qui
donne la chance à d’autres
actions d’être explorée.
Upper confidence bound
Upper confidence bound
Moy.Ri(t) Moy.Ri(t +1)
Exemple de calcul du l’UCB
Tour Pri testé Résultat Valeur de l’action R (Récompense
moyenne)
Récompense +
UCB au tour 6
1 + 5 10€ 10€ 10€ 11.3
2 10.5€ 0€ 0€ 1.3
3 11€ 11€ 11€ 12.3
4 11.5€ 0€ 0€ 1.3
5 12€ 0€ 0€ 1.3
Après le tour 6, même si le prix de 10€ a permis de remporter l’enchère 2 fois sur 2, la valeur max prenant
en compte l’UCB est de 12.3. Elle conduit donc à choisir le prix de 11€ pour le tour suivant.
Choix pour
le tour 7
Les atouts de l’UCB
Capacité de l’algorithme à explorer en permanence
Intervalle de confiance plus faible pour les actions les plus souvent choisies avec
une distribution plus faible
Permet aux actions peu choisies mais à potentiel d’être testées.
Optimise l’arbitrage
exploitation/exploration
Dilemme
Résultats de l’approche appliquée
C’est l’augmentation du revenu moyen pour l’éditeur vs la fixation
manuelle des prix plancher.
Pour des raisons de performances (temps de traitement et passage à l’
échelle) l’approche finale a combiné
- Apprentissage par renforcement sur une partie des données-
- Régression multifactorielle sur l’autre, permettant de prédire taux
d’achat et prix de l’enchère
22%
Aller plus loin avec le Reinforcement Learning
Autres applications dans le domaine publicitaire
Alternative à l’A/B testing pour le test de performances
publicitaires
Autres algorithmes de reinforcment learning
Thomson sampling
Jedha : Data Science Bootcamp
—
FONDAMENTAUX
11 Janvier - 29 Février
Tous les samedis
10h - 16h
Samedis
—
7 Janvier - 27 Février
Les Mardis & Jeudis
19h30 - 21h
Semaine
—
Jedha : Data Science Bootcamp
—
FULLSTACK : DEVENEZ DATA SCIENTIST
Temps plein
—
9 Mars - 5 Juin
Lundi au Vendredi
10h - 16h
Data Science
Bootcamp
Merci ! A la prochaine :)

Optimiser ses publicités grâce à la Data Science

  • 1.
  • 2.
  • 3.
    OPTIMISER SES PUBLICITÉSGRÂCE AU MACHINE LEARNING
  • 4.
    Data & Publicité: de nombreux cas d’usage Améliorer la conversion : Quels facteurs ont le plus d’influence sur la conversion client ? Optimiser l’efficacité d’une publicité: Parmi plusieurs créations, campagnes, … laquelle clique le mieux ? Acheter la publicité au meilleur prix: Quelle est la juste valeur d’un emplacement publicitaire, d’un segment de clients Trouver des bons prospects: Quels internautes ressemblent le plus à mes clients actuels ?
  • 5.
    Use case dela publicité : problématique Permettre d’optimiser le revenu global généré par les espaces publicitaires commercialisés par les sites internet, dans le contexte de la vente en programmatique (système d’enchères en temps réel)
  • 6.
    Qu’est-ce que lapublicité programmatique ? Système d’enchères au 2eme prix : l’acheteur le mieux disant remporte l’enchère mais paye le prix du 2eme meilleur enchérisseur Vente aux enchères des espaces publicitaires Fixation de prix planchers des espaces par les vendeurs Rapidité de décision d’achat d’espace SSP Supply Side Platform SSP Supply Side Platform Agence RTB Real time bidding Audience Site éditeur Plate-forme côté vendeur Enchères en temps réel Plate-forme côté acheteur Agence d’achat média Marque annonceur
  • 7.
    Comment se dérouleune enchère ? 1. Visite la page 2. Capte les données visiteur 3. Détermine le prix plancher 4. Envoie une requête d’enchère incluant les données du visiteur + les caractéristiques de l’espace publicitaire 5. Analyse la requête Décision d’achat & fixation le prix d’enchère 6. Envoie l’enchère en réponse 7. Désigne l’enchère gagnante et le prix appliqué 8. Envoi de la pub correspondante SSP Supply Side Platform SSP Supply Side Platform Agence RTB Real time bidding
  • 8.
    Qu’est-ce que lapublicité programmatique ? Revenu de l’éditeur = prix de l’espace publicitaire * taux d’achat Déterminer le prix le plus élevé encore acceptable pour l’acheteur Pouvoir s’adapter rapidement en cas de changement de stratégie des acheteurs Passer d’une stratégie de fixation manuelle et empirique du prix plancher à une fixation temps réel optimisée au niveau du SSP (plate-forme côté vendeur de publicité)
  • 9.
    Et en MachineLearning ? Caractéristiques du visiteur Adresse IP Langue OS, device Geolocalisation Heure de visite… Caractéristiques de l’espace pub Editeur Rubrique du site Taille du player Format pub F E A T U R E S Stratégies des acheteurs Taux d’achat Prix de l’enchère P R É D I C T I O N S MAXIMISATION DU REVENU PAR REQUÊTE Prédiction du revenu optimal (taux d’achat x prix)
  • 10.
    Les choix parmiles approches ML Contexte : Pas de base initiale d’apprentissage Changement rapide des stratégies des acheteurs : base d’apprentissage rapidement obsolète Besoin de pouvoir « explorer » l’éventail des prix possibles et la réaction des acheteurs Solution retenue : L’apprentissage par renforcement (reinforcement learning)
  • 11.
    Fonctionnement de l’algorithme Commencepar explorer des prix arbitraires (au voisinage de ceux fixés manuellement initialement) Mesure le résultat : un acheteur achète ou pas (qui prend en compte le taux d’achat et le prix de l’enchère) « Récompense » la stratégie (ie, le prix) ayant donné le meilleur revenu, et la favorise pour le tour suivant Conserve toujours une part dédiée à l‘exploration avec le test de prix différents - Pouvoir mesurer l’incrément de revenu apporté par l’algorithme vs choix manuel - Évite de se retrouver bloqué dans un optima local 1 3 4 2
  • 12.
    L’apprentissage par renforcement(½) Reinforcement learning : Permet d’adresser des problèmes dans lesquels on ne dispose pas de base d’apprentissage préexistante et où il est coûteux de créer cette base (donc on oublie l’apprentissage supervisé). Utilisé par exemple par AlphaGo en 2016 pour gagner le tournoi de Go. Problème du bandit manchot k machines à sous ont des distributions (ie, des chances de gagner) différentes et inconnues du joueur. Comment maximiser son gain et identifier rapidement la machine la plus intéressante ? Le dilemme Exploiter / Explorer
  • 13.
    L’apprentissage par renforcement(2/2) Sur quel critère choisir son action ? Ici, sur le prix de la publicité L’approche « greedy » qui choisit systématiquement l’action qui a la meilleure valeur au temps t. Ses limites : Sous optimise sur le long terme Pas réactive aux changements de valeur des actions dans le temps.
  • 14.
    Algorithme : UCB(upper confidence bound) Au tour t, on choisit l’action (ici le prix) i qui maximise Moy.Ri(t)+Ui(t) Ni(t) Nombre de fois où mon prix i a été sélectionné depuis le début jusqu’au tour t Ri(t) Somme des récompenses pour le prix i depuis le début jusqu’au tour t Moy.Ri(t) Récompense moyenne gagnée par le choix du prix i jusqu’au tour t Ui(t) Intervalle de confiance de la récompense moyenne du prix i au tour t
  • 15.
    L’apprentissage par renforcement L’actiona choisie au tour t a un intervalle de confiance réduit à t+1. Plus elle est choisie, plus on devient confiant sur la distribution de la valeur de son action, et plus son UCB est faible, ce qui donne la chance à d’autres actions d’être explorée. Upper confidence bound Upper confidence bound Moy.Ri(t) Moy.Ri(t +1)
  • 16.
    Exemple de calculdu l’UCB Tour Pri testé Résultat Valeur de l’action R (Récompense moyenne) Récompense + UCB au tour 6 1 + 5 10€ 10€ 10€ 11.3 2 10.5€ 0€ 0€ 1.3 3 11€ 11€ 11€ 12.3 4 11.5€ 0€ 0€ 1.3 5 12€ 0€ 0€ 1.3 Après le tour 6, même si le prix de 10€ a permis de remporter l’enchère 2 fois sur 2, la valeur max prenant en compte l’UCB est de 12.3. Elle conduit donc à choisir le prix de 11€ pour le tour suivant. Choix pour le tour 7
  • 17.
    Les atouts del’UCB Capacité de l’algorithme à explorer en permanence Intervalle de confiance plus faible pour les actions les plus souvent choisies avec une distribution plus faible Permet aux actions peu choisies mais à potentiel d’être testées. Optimise l’arbitrage exploitation/exploration Dilemme
  • 18.
    Résultats de l’approcheappliquée C’est l’augmentation du revenu moyen pour l’éditeur vs la fixation manuelle des prix plancher. Pour des raisons de performances (temps de traitement et passage à l’ échelle) l’approche finale a combiné - Apprentissage par renforcement sur une partie des données- - Régression multifactorielle sur l’autre, permettant de prédire taux d’achat et prix de l’enchère 22%
  • 19.
    Aller plus loinavec le Reinforcement Learning Autres applications dans le domaine publicitaire Alternative à l’A/B testing pour le test de performances publicitaires Autres algorithmes de reinforcment learning Thomson sampling
  • 20.
    Jedha : DataScience Bootcamp — FONDAMENTAUX 11 Janvier - 29 Février Tous les samedis 10h - 16h Samedis — 7 Janvier - 27 Février Les Mardis & Jeudis 19h30 - 21h Semaine —
  • 21.
    Jedha : DataScience Bootcamp — FULLSTACK : DEVENEZ DATA SCIENTIST Temps plein — 9 Mars - 5 Juin Lundi au Vendredi 10h - 16h
  • 22.