(WIP / to be deleted) KDD2021読み会 Markdowns in e commerce fresh retail a counterfactual prediction and multi-period optimization approach

KDD2021論文読み会
Markdowns in E-Commerce Fresh Retail: A Counterfactual
Prediction and Multi-Period Optimization Approach

概要
● Alibaba傘下のスーパーの論文
● 生鮮食品の値下げ予測

何が面白いか
● 問題が面白い
○ 機械学習だけでは一見不可能な問題（値下げ問題）を解いてる
○ 儲かりそう
○ ていうか儲かってる。 170店舗のスーパーの売上が 20%も上がる（自称）というやばい研究
○ ポテンシャルは現時点では多分 50億円
○ ロマン
● 技術の使い方が面白い
○ 初等的な技術の集大成
○ 具体的で納得感ある
○ なんか自分でもできそう

要素技術
● 機械学習
● 因果推論
● マルコフ決定過程
● Q関数・ベルマン方程式

自己紹介
松﨑　遥（まつざき　はるか）http://soqdoq.com/teq/ @honshitsu_joho
● 数式が好き
● 画像解析が好き
● オフラインで一山当てちゃうゾ🤗
● 福岡の薬局にお世話になっております

depth=1
この資料は浅さ優先探索的に書かれています

なぜ値下げ問題が重要なのか
predictionがお金に直結するから
定価: $10 (=原価+$7)
在庫: 120個
含み損: -$360
売価: $8 (=原価+$5)
売上: 85個 (=+$680)
在庫: 35個 (=-$105)
含み益: +$575
売価: $6 (=原価+$3)
売上: 103個 (=+$309)
在庫: 17個 (=-$51)
含み益: +$258

なぜ値下げ問題は機械学習では解けないのか
実際の学習データ(価格)のイメージ
←これだと学習データが
($10, 売上1),
($10, 売上2), ...
($5, 売上10),
($5, 売上11), …
しかない。。。

prediction
例えば決定木にすると、全く汎化しない
定価: $10 (=原価+$7)
在庫: 120個
含み損: -$360
売価: $7 (=原価+$4)
売上→?

つまり
儲かるのはわかってるのにできない...(1)
ってのが重要

なぜいろんな技術を使うのか
● マルコフ決定過程
● Q関数・ベルマン方程式
● 機械学習
● 因果推論

なぜMDP(マルコフ決定過程)なのか
売上はPoisson分布
学習データが全く不要

なぜベルマン方程式なのか
MDPの情報さえあれば、
MDPからベルマン期待演算
子が決まり、その唯一の不動
点を自動的に得られる。
学習データが全く不要

どこで機械学習が必要なのか＝売上予測
やっと一つ目の式に到達
対数なのは、power lawの両辺の対数を取るから
回帰のSlope=αとIntercept=β
ln<売上個数のリフト率> = α・ln<値下げ率> + β

因果推論はちょっと雑...！
ちょろっと登場するが一切使われないAssumption 1
因果とはd→Y（つまり値下げによる売上増）
confoundedな時、P(Y|d) ≠ P(Y|do(d))であることに注意。
実際に観測できるのは、P(Y|do(d))でしかなく、P(Y|d)の値は不明である。

論文解読のポイント
● 二段階構成
● Demand Prediction
● Price Prediction
○ 価格弾力性(Power-law)
● MDP (Markov Decision Process)
● Bellman Equation
● Multi-Period Price

二段階構成
1. 4.4 Counterfactual Demand Prediction
a. 4.2 Basic Sales = Intercept Prediction (β for Items)
b. 4.3 Slope Prediction (α for Categories)
2. 5.2 Two-stage Algorithm (Dynamic Programming)
a. 5.2.1 Update by Greedy Policy by Bellman Equation
b. 5.2.2 Joint Optimization of Q function
β α B d/Q
Demand Discount

Demand(Y) Prediction
特徴量x, L→Y/Y_normalを予測
目的変数Y
● Y/Y_normal = 値下げ時の売上と定価時の売上の比(>1)
● Y_i: Y of product i
説明変数
● x: set of all features ∈ R^n ⊂ {historical sales of products, shops, holidays...}
● L_i: 3-hot product category vector

Demand(Y): Base Sales Prediction (Boosting Tree)
d_0: dではなくd_0。average of historical discounts
x_i: set of all features ∈ R^n ⊂ {historical sales of products, shops, holidays...}

Demand(Y): Base Sales Prediction ???
とりあえず各itemの平均売上(β)を当ててるか
ら、x_iの中にあるhistorical
sales(Y_i_normal_t)が必要っぽい。
聞いてみた　→
“h doesn’t learn the relationship between
price and sales.”
つまりSlope(α)はxから学習しないわけだ

Demand(Y): Category Slope Prediction
経済の論文読むと重力理論とか、売上が積で決まるという理論が多い。人類学もそう。
(6)の両辺の対数を取ると、(4)が得られる。
L_iは3-hotなので、d_iの肩はθ_1 + θ_2・L_i = θ_1 + θ_2_l1 + θ_2_l2 + θ_2_l3
つまりこれはOrdered-Logitモデルに近い

x / L: 質疑応答
つまりこのモデルはhに対してカテゴリごとに固
定効果を加えるモデル。
過学習しないのは、結局θを全productで共有
からだと著者は語る。
そう考えるとh(x)とθ(L)のMAPを求めてるにす
ぎないのかもしれない。

Price(d) Prediction : 価格弾力性(Power-law)
d = discount rate
p_i = p_0 * d_i

Online Update
日次でBellman Equationを解いてd（厳密にはポリシーπ：s→d）を求めることをOnline
Updateというらしい

Multi-Period Price Optimization
なんのことはない、ただのDynamic Programming(a.k.a 強化学習)だ
Z: normal sales
Y: discounted sales
w: waste loss
B: stock
T: expiration date

MDP (Markov Decision Process)
このQはregularized Gamma functionで、
ガンマ関数の定積分版。
Q functionではない。

Bellman Equation　(R)
このベルマン方程式、割引率γ=1だから固定点を持たないけど・・・いいのか？

Bellman Equation　(P, R, π)→T
個人的にはmaxQにγつけたほうがいいと思う
右辺をT(Q)と書くと、固定点Q*が方程式の解

疑似コードを眺める会
翻訳（意訳）※行番号無視
1. gはno update
2. hはupdate
再学習なので重そうだが、日次
3. d, Yをpredict
4. θをonline update
5. ループしてZ_ijk, Y_ijk, dをBellman
Eqを解いて最適化
6. pをpredict（かけ算）

Online A/B Testing
GMV = Gross Merchandise Volume
Improvement

外界
ここからはおまけ

世界情勢
● Alibaba→今回の論文
● Walmart→KDD2020のPrice Investment using Prescriptive Analytics and
Optimization in Retail
● IDLessWorld

Walmartちょろっと
1. Demand Forecast (by STS)
2. Budget Allocation
3. Pricing

IDLessWorld
2023年、GoogleがCookie取得を停止（GDPR）
→　今回の論文は、IDLessWorldでも動く

まとめ
1. オフラインの世界でモノの値段をアルゴリズムで決めようという動き
2. 答えがないので発想に自由がある。これでみんなジェフベゾスだね⭐
β α B d/Q
Demand Discount

(WIP / to be deleted) KDD2021読み会 Markdowns in e commerce fresh retail a counterfactual prediction and multi-period optimization approach

Recommandé

Recommandé

Contenu connexe

Dernier

Dernier (20)

En vedette

En vedette (20)

(WIP / to be deleted) KDD2021読み会 Markdowns in e commerce fresh retail a counterfactual prediction and multi-period optimization approach