ZoZei - アイデア賞スライド

アイデア賞 
Student Cup 2019 
ZoZei 
 
RabontiKuma, charm, 
masa10223, Kevinrobot34,

目次 
● 概要 
● モデル構成 
● Preprocess and Feature Engineering 
● Building Identification 
● Internal Regression 
● CatBoost 
○ Feature Importance  
● Stratified Stacking 
● Adaptive Stacking

概要 
● 賃料予測をする上で、同一建物内の物件は、他の建物の数多くの物件情報よりも
有用であると考えられる。この同一建物内の物件の情報を適切に利用できるように
工夫した。 
 
● 賃料が100万円を超えるような高額物件は類似物件の数が圧倒的に少なく、 
予測が難しい。これらの予測精度があがるように最適なStacking方法を模索した。

モデル構成 
raw 
data 
Preprocess 
and 
Feature Engineering 
Building Identification 
and 
Internal Regression 
CatBoost1 
 
 
CatBoost2 
 
 
CatBoost3 
Stratified 
Stacking 
Adaptive  
Stacking 
prediction 
pseudo 
labeling 
Public LB 1位 (10817.55866)  
Private LB 1位 (11713.39842)

Preprocess and Feature Engineering 
以下のような前処理と特徴量の追加を行なった。 
● 住所や間取り、最寄り駅、路線等の表記揺れの修正と名寄せ 
○ 最寄り駅と徒歩分をエンコーディングする方法として三点測位の座標を採用  
● Google Map API を利用した物件の正確な緯度・経度情報の取得 
● 公示地価情報の追加 
● 最寄り駅の利用者数の情報の追加 
● 区ポテンシャル 
○ 各物件の各区からの距離の逆比 (e.g. 港区ポテンシャル)  
後のCatBoostの学習結果のスライドで見るように、これら特徴量の寄与は大きくスコア
向上につながった。

Building Identification 
本コンペティションで用いられるデータは全て東京都区内の物件であり、 
集合住宅が数多く存在している。そのためデータの中には同一条件の物件が 
数多くあり、この情報は予測精度向上に利用できるはずである。そこで、我々は各物件
の情報から建物の特定・ID作成をし(Building Identification)、その建物内において回帰を
行う(Internal Regression)ことにした。 
● 建物IDについて 
住所情報の一部、建物構造、築年数、最上階数が一致する物件を同一建物とみな
し、これを建物IDとした 
(例) : 東京都中野区弥生町2丁目、築40年10ヶ月の木造2階建物件 
　　　→ 弥生町2木造a408m20

Internal Regression 
 建物IDを作成したところで次に行うのは賃料予測である。以下の 
フローチャートに従い、同一建物の物件情報利用した賃料予測を行った。 
 
pseudo-labelとしてい一
部をCatBoostの訓練
データに利用 
同じ建物IDの 
物件があるか? 
Yes 
No 
面積は近い？ 
ほぼ 
同じ 
遠い 
CatBoost 
同じ建物IDの 
物件は一つ？ 
面積と賃料は 
正の相関？ 
Yes 
賃料再利用 
階数で線形回帰 
賃料を面積と階数で補正し再利用 
線形回帰 
近い 
No 
Yes 
No

CatBoost 
● 賃料を直接学習・予測するのではなく、単位面積当たりの賃料を用いるようにした。 
○ 予測する変数を変えたので、目的関数としてRMSE以外にMAEやMAPEについても試した。  
○ MAEやMAPEの方がRMSEよりも学習は進む傾向にあり、最終的にMAE  
 
● CVストラテジーについて。 
○ 建物ごとにsplitするGroupKFold(10-Fold)でCross Validationを行なった。  
 
● pseudo labelingによる訓練データの追加について。 
○ BIIRによる賃料予測が正確だと考えられる物件に関しては、CatBoostの訓練データとして用いるこ
とにした。 
○ これにより、訓練データを31,470件から46,290件にまで増やすことができた。

CatBoost - Feature Importance 
feature importance
港区ポテンシャル  
公示地価情報 
緯度・経度情報 
最寄駅利用者数  
右図はCatBoostの学習を行なった
際の各特徴量の重要度を表したグ
ラフである。 
 
Feature Engineering で追加した特
徴量が重要になっていることが確
認できる。

Stratified Stacking 
区ごとに物件の傾向は異なるので、これを掴むのは大事だと考えられる。これを実現す
るために、Stratified Stackingと呼んでいる以下のStackingを行なった 
● 前スライドで説明したように、まず全データを用いてCatBoostを複数の条件で学習
させる。 
○ この時点で区ごとにCatBoostを学習することも可能だが、学習データ数が減ってしまうためか学習
が上手くいかない。 
 
● 学習させたCatBoostの出力結果を、区ごとに分けてRidge回帰するというStacking
を行う。

Adaptive Stacking 
CatBoostによる賃料の予測値の上位の物件と、それ以外で面積が上位の物件につい
ては外れ値な物件であり、予測が困難であることが訓練データから示唆されていた。そ
こでAdaptive Stackingと命名した以下のStackingを行なった。 
● 座標・築年数・面積などといった建物固有の特徴量をキーとして、上記の外れ値な
物件と類似した物件を探す。 
● それらのみを訓練データとして、複数のCatBoostによる予測値といくつかの特徴量
を用いて線形回帰によるStackingを行う。 
組み合わせる特徴量を適切に選ぶことで、外れ値な物件の賃料の予測精度が上がり、
スコアが向上した。

ZoZei - アイデア賞スライド

Recommandé

Recommandé

Contenu connexe

Tendances

Tendances (20)

Similaire à ZoZei - アイデア賞スライド

Similaire à ZoZei - アイデア賞スライド (20)

ZoZei - アイデア賞スライド