Nos formations : https://jedha.co/
Améliorer son taux de conversion, son ciblage, mieux connaître son audience fait partie des grandes missions de chaque entreprise. Mais que faire quand l'audience en question est importante ? Les méthodes de Machine Learning nous permettent maintenant de mieux comprendre tout ceci, en analysant les comportements et interactions d'un très grand nombre d'utilisateurs ! Yann nous les explique lors de cet événement.
4. Data & Publicité : de nombreux cas d’usage
Améliorer la conversion :
Quels facteurs ont le plus d’influence sur la conversion client ?
Optimiser l’efficacité d’une publicité:
Parmi plusieurs créations, campagnes, … laquelle clique le mieux ?
Acheter la publicité au meilleur prix:
Quelle est la juste valeur d’un emplacement publicitaire, d’un segment de clients
Trouver des bons prospects:
Quels internautes ressemblent le plus à mes clients actuels ?
5. Use case de la publicité : problématique
Permettre d’optimiser le revenu global généré par les
espaces publicitaires commercialisés par les sites
internet, dans le contexte de la vente en
programmatique (système d’enchères en temps réel)
6. Qu’est-ce que la publicité programmatique ?
Système d’enchères
au 2eme prix :
l’acheteur le mieux disant
remporte l’enchère mais paye
le prix du 2eme meilleur
enchérisseur
Vente aux enchères
des espaces
publicitaires
Fixation de prix
planchers des espaces
par les vendeurs
Rapidité de
décision d’achat
d’espace
SSP
Supply
Side
Platform
SSP
Supply
Side
Platform
Agence
RTB
Real time
bidding
Audience Site
éditeur
Plate-forme
côté vendeur
Enchères en
temps réel
Plate-forme
côté acheteur
Agence
d’achat média
Marque
annonceur
7. Comment se déroule une enchère ?
1. Visite la page 2. Capte
les données
visiteur
3. Détermine
le prix plancher
4. Envoie une requête
d’enchère incluant les données
du visiteur + les caractéristiques de
l’espace publicitaire
5. Analyse la requête
Décision d’achat &
fixation le prix d’enchère
6. Envoie l’enchère
en réponse
7. Désigne
l’enchère gagnante
et le prix appliqué
8. Envoi de la pub
correspondante
SSP
Supply
Side
Platform
SSP
Supply
Side
Platform
Agence
RTB
Real time
bidding
8. Qu’est-ce que la publicité programmatique ?
Revenu de l’éditeur = prix de l’espace publicitaire * taux d’achat
Déterminer le prix le plus élevé encore acceptable pour l’acheteur
Pouvoir s’adapter rapidement en cas de changement de stratégie des
acheteurs
Passer d’une stratégie de fixation manuelle et empirique du prix plancher à une
fixation temps réel optimisée au niveau du SSP (plate-forme côté vendeur de
publicité)
9. Et en Machine Learning ?
Caractéristiques
du visiteur
Adresse IP
Langue
OS, device
Geolocalisation
Heure de visite…
Caractéristiques
de l’espace pub
Editeur
Rubrique du site
Taille du player
Format pub
F
E
A
T
U
R
E
S
Stratégies des
acheteurs
Taux d’achat
Prix de l’enchère
P
R
É
D
I
C
T
I
O
N
S
MAXIMISATION DU
REVENU PAR REQUÊTE
Prédiction du revenu
optimal
(taux d’achat x prix)
10. Les choix parmi les approches ML
Contexte :
Pas de base initiale d’apprentissage
Changement rapide des stratégies des acheteurs : base d’apprentissage
rapidement obsolète
Besoin de pouvoir « explorer » l’éventail des prix possibles et la réaction des
acheteurs
Solution retenue : L’apprentissage par renforcement
(reinforcement learning)
11. Fonctionnement de l’algorithme
Commence par explorer des prix arbitraires
(au voisinage de ceux fixés manuellement initialement)
Mesure le résultat : un acheteur achète ou pas
(qui prend en compte le taux d’achat et le prix de l’enchère)
« Récompense » la stratégie (ie, le prix) ayant donné le meilleur revenu, et la
favorise pour le tour suivant
Conserve toujours une part dédiée à l‘exploration avec le test de prix différents
- Pouvoir mesurer l’incrément de revenu apporté par l’algorithme vs choix manuel
- Évite de se retrouver bloqué dans un optima local
1
3
4
2
12. L’apprentissage par renforcement (½)
Reinforcement learning :
Permet d’adresser des problèmes
dans lesquels on ne dispose pas
de base d’apprentissage
préexistante et où il est coûteux
de créer cette base (donc on
oublie l’apprentissage supervisé).
Utilisé par exemple par AlphaGo
en 2016 pour gagner le tournoi de
Go.
Problème du bandit manchot
k machines à sous ont des distributions (ie, des
chances de gagner) différentes et inconnues du
joueur. Comment maximiser son gain et
identifier rapidement la machine la plus
intéressante ?
Le dilemme Exploiter / Explorer
13. L’apprentissage par renforcement (2/2)
Sur quel critère choisir son action ?
Ici, sur le prix de la publicité
L’approche « greedy » qui choisit systématiquement l’action qui a la
meilleure valeur au temps t.
Ses limites :
Sous optimise sur le long terme
Pas réactive aux changements de valeur des actions dans le temps.
14. Algorithme : UCB (upper confidence bound)
Au tour t, on choisit l’action (ici le prix) i qui maximise
Moy.Ri(t)+Ui(t)
Ni(t) Nombre de fois où mon prix i a été sélectionné depuis le début
jusqu’au tour t
Ri(t) Somme des récompenses pour le prix i depuis le début
jusqu’au tour t
Moy.Ri(t) Récompense moyenne gagnée par le choix du prix i jusqu’au tour t
Ui(t) Intervalle de confiance de la récompense moyenne du prix i au tour t
15. L’apprentissage par renforcement
L’action a choisie au tour t
a un intervalle de
confiance réduit à t+1.
Plus elle est choisie, plus
on devient confiant sur la
distribution de la valeur de
son action, et plus son
UCB est faible, ce qui
donne la chance à d’autres
actions d’être explorée.
Upper confidence bound
Upper confidence bound
Moy.Ri(t) Moy.Ri(t +1)
16. Exemple de calcul du l’UCB
Tour Pri testé Résultat Valeur de l’action R (Récompense
moyenne)
Récompense +
UCB au tour 6
1 + 5 10€ 10€ 10€ 11.3
2 10.5€ 0€ 0€ 1.3
3 11€ 11€ 11€ 12.3
4 11.5€ 0€ 0€ 1.3
5 12€ 0€ 0€ 1.3
Après le tour 6, même si le prix de 10€ a permis de remporter l’enchère 2 fois sur 2, la valeur max prenant
en compte l’UCB est de 12.3. Elle conduit donc à choisir le prix de 11€ pour le tour suivant.
Choix pour
le tour 7
17. Les atouts de l’UCB
Capacité de l’algorithme à explorer en permanence
Intervalle de confiance plus faible pour les actions les plus souvent choisies avec
une distribution plus faible
Permet aux actions peu choisies mais à potentiel d’être testées.
Optimise l’arbitrage
exploitation/exploration
Dilemme
18. Résultats de l’approche appliquée
C’est l’augmentation du revenu moyen pour l’éditeur vs la fixation
manuelle des prix plancher.
Pour des raisons de performances (temps de traitement et passage à l’
échelle) l’approche finale a combiné
- Apprentissage par renforcement sur une partie des données-
- Régression multifactorielle sur l’autre, permettant de prédire taux
d’achat et prix de l’enchère
22%
19. Aller plus loin avec le Reinforcement Learning
Autres applications dans le domaine publicitaire
Alternative à l’A/B testing pour le test de performances
publicitaires
Autres algorithmes de reinforcment learning
Thomson sampling
20. Jedha : Data Science Bootcamp
—
FONDAMENTAUX
11 Janvier - 29 Février
Tous les samedis
10h - 16h
Samedis
—
7 Janvier - 27 Février
Les Mardis & Jeudis
19h30 - 21h
Semaine
—
21. Jedha : Data Science Bootcamp
—
FULLSTACK : DEVENEZ DATA SCIENTIST
Temps plein
—
9 Mars - 5 Juin
Lundi au Vendredi
10h - 16h