SlideShare une entreprise Scribd logo
1  sur  11
Télécharger pour lire hors ligne
アイデア賞

Student Cup 2019

ZoZei



RabontiKuma, charm,

masa10223, Kevinrobot34,



目次

● 概要

● モデル構成

● Preprocess and Feature Engineering

● Building Identification

● Internal Regression

● CatBoost

○ Feature Importance 

● Stratified Stacking

● Adaptive Stacking

概要

● 賃料予測をする上で、同一建物内の物件は、他の建物の数多くの物件情報よりも
有用であると考えられる。この同一建物内の物件の情報を適切に利用できるように
工夫した。



● 賃料が100万円を超えるような高額物件は類似物件の数が圧倒的に少なく、

予測が難しい。これらの予測精度があがるように最適なStacking方法を模索した。

モデル構成

raw

data

Preprocess

and

Feature Engineering

Building Identification

and

Internal Regression

CatBoost1





CatBoost2





CatBoost3

Stratified

Stacking

Adaptive 

Stacking

prediction

pseudo

labeling

Public LB 1位 (10817.55866) 

Private LB 1位 (11713.39842) 

Preprocess and Feature Engineering

以下のような前処理と特徴量の追加を行なった。

● 住所や間取り、最寄り駅、路線等の表記揺れの修正と名寄せ

○ 最寄り駅と徒歩分をエンコーディングする方法として三点測位の座標を採用 

● Google Map API を利用した物件の正確な緯度・経度情報の取得

● 公示地価情報の追加

● 最寄り駅の利用者数の情報の追加

● 区ポテンシャル

○ 各物件の各区からの距離の逆比 (e.g. 港区ポテンシャル) 

後のCatBoostの学習結果のスライドで見るように、これら特徴量の寄与は大きくスコア
向上につながった。

Building Identification

本コンペティションで用いられるデータは全て東京都区内の物件であり、

集合住宅が数多く存在している。そのためデータの中には同一条件の物件が

数多くあり、この情報は予測精度向上に利用できるはずである。そこで、我々は各物件
の情報から建物の特定・ID作成をし(Building Identification)、その建物内において回帰を
行う(Internal Regression)ことにした。

● 建物IDについて

住所情報の一部、建物構造、築年数、最上階数が一致する物件を同一建物とみな
し、これを建物IDとした

(例) : 東京都中野区弥生町2丁目、築40年10ヶ月の木造2階建物件

   → 弥生町2木造a408m20

Internal Regression


建物IDを作成したところで次に行うのは賃料予測である。以下の

フローチャートに従い、同一建物の物件情報利用した賃料予測を行った。



pseudo-labelとしてい一
部をCatBoostの訓練
データに利用

同じ建物IDの

物件があるか?

Yes

No

面積は近い?

ほぼ

同じ

遠い

CatBoost

同じ建物IDの

物件は一つ?

面積と賃料は

正の相関?

Yes

賃料再利用

階数で線形回帰

賃料を面積と階数で補正し再利用

線形回帰

近い

No

Yes

No

CatBoost

● 賃料を直接学習・予測するのではなく、単位面積当たりの賃料を用いるようにした。

○ 予測する変数を変えたので、目的関数としてRMSE以外にMAEやMAPEについても試した。 

○ MAEやMAPEの方がRMSEよりも学習は進む傾向にあり、最終的にMAE 



● CVストラテジーについて。

○ 建物ごとにsplitするGroupKFold(10-Fold)でCross Validationを行なった。 



● pseudo labelingによる訓練データの追加について。

○ BIIRによる賃料予測が正確だと考えられる物件に関しては、CatBoostの訓練データとして用いるこ
とにした。

○ これにより、訓練データを31,470件から46,290件にまで増やすことができた。 

CatBoost - Feature Importance

feature importance
港区ポテンシャル 

公示地価情報

緯度・経度情報

最寄駅利用者数 

右図はCatBoostの学習を行なった
際の各特徴量の重要度を表したグ
ラフである。



Feature Engineering で追加した特
徴量が重要になっていることが確
認できる。

Stratified Stacking

区ごとに物件の傾向は異なるので、これを掴むのは大事だと考えられる。これを実現す
るために、Stratified Stackingと呼んでいる以下のStackingを行なった

● 前スライドで説明したように、まず全データを用いてCatBoostを複数の条件で学習
させる。

○ この時点で区ごとにCatBoostを学習することも可能だが、学習データ数が減ってしまうためか学習
が上手くいかない。



● 学習させたCatBoostの出力結果を、区ごとに分けてRidge回帰するというStacking
を行う。

Adaptive Stacking

CatBoostによる賃料の予測値の上位の物件と、それ以外で面積が上位の物件につい
ては外れ値な物件であり、予測が困難であることが訓練データから示唆されていた。そ
こでAdaptive Stackingと命名した以下のStackingを行なった。

● 座標・築年数・面積などといった建物固有の特徴量をキーとして、上記の外れ値な
物件と類似した物件を探す。

● それらのみを訓練データとして、複数のCatBoostによる予測値といくつかの特徴量
を用いて線形回帰によるStackingを行う。

組み合わせる特徴量を適切に選ぶことで、外れ値な物件の賃料の予測精度が上がり、
スコアが向上した。


Contenu connexe

Tendances

Link prediction
Link predictionLink prediction
Link prediction
ybenjo
 

Tendances (20)

SSII2022 [OS3-02] Federated Learningの基礎と応用
SSII2022 [OS3-02] Federated Learningの基礎と応用SSII2022 [OS3-02] Federated Learningの基礎と応用
SSII2022 [OS3-02] Federated Learningの基礎と応用
 
AlphaGoのしくみ
AlphaGoのしくみAlphaGoのしくみ
AlphaGoのしくみ
 
研究効率化Tips Ver.2
研究効率化Tips Ver.2研究効率化Tips Ver.2
研究効率化Tips Ver.2
 
ディープラーニングでラーメン二郎(全店舗)を識別してみた
ディープラーニングでラーメン二郎(全店舗)を識別してみたディープラーニングでラーメン二郎(全店舗)を識別してみた
ディープラーニングでラーメン二郎(全店舗)を識別してみた
 
[DL輪読会]data2vec: A General Framework for Self-supervised Learning in Speech,...
[DL輪読会]data2vec: A General Framework for  Self-supervised Learning in Speech,...[DL輪読会]data2vec: A General Framework for  Self-supervised Learning in Speech,...
[DL輪読会]data2vec: A General Framework for Self-supervised Learning in Speech,...
 
[DL輪読会]Model-Based Reinforcement Learning via Meta-Policy Optimization
[DL輪読会]Model-Based Reinforcement Learning via Meta-Policy Optimization[DL輪読会]Model-Based Reinforcement Learning via Meta-Policy Optimization
[DL輪読会]Model-Based Reinforcement Learning via Meta-Policy Optimization
 
[DL輪読会]DropBlock: A regularization method for convolutional networks
[DL輪読会]DropBlock: A regularization method for convolutional networks[DL輪読会]DropBlock: A regularization method for convolutional networks
[DL輪読会]DropBlock: A regularization method for convolutional networks
 
バンディット問題について
バンディット問題についてバンディット問題について
バンディット問題について
 
Link prediction
Link predictionLink prediction
Link prediction
 
continual learning survey
continual learning surveycontinual learning survey
continual learning survey
 
グラフと木
グラフと木グラフと木
グラフと木
 
SSII2021 [TS3] 機械学習のアノテーションにおける データ収集​ 〜 精度向上のための仕組み・倫理や社会性バイアス 〜
SSII2021 [TS3] 機械学習のアノテーションにおける データ収集​ 〜 精度向上のための仕組み・倫理や社会性バイアス 〜SSII2021 [TS3] 機械学習のアノテーションにおける データ収集​ 〜 精度向上のための仕組み・倫理や社会性バイアス 〜
SSII2021 [TS3] 機械学習のアノテーションにおける データ収集​ 〜 精度向上のための仕組み・倫理や社会性バイアス 〜
 
深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~
深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~
深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~
 
【DL輪読会】Domain Generalization by Learning and Removing Domainspecific Features
【DL輪読会】Domain Generalization by Learning and Removing Domainspecific Features【DL輪読会】Domain Generalization by Learning and Removing Domainspecific Features
【DL輪読会】Domain Generalization by Learning and Removing Domainspecific Features
 
[DL輪読会]Learning Latent Dynamics for Planning from Pixels
[DL輪読会]Learning Latent Dynamics for Planning from Pixels[DL輪読会]Learning Latent Dynamics for Planning from Pixels
[DL輪読会]Learning Latent Dynamics for Planning from Pixels
 
【DL輪読会】Mastering Diverse Domains through World Models
【DL輪読会】Mastering Diverse Domains through World Models【DL輪読会】Mastering Diverse Domains through World Models
【DL輪読会】Mastering Diverse Domains through World Models
 
プログラムを高速化する話
プログラムを高速化する話プログラムを高速化する話
プログラムを高速化する話
 
【DL輪読会】Incorporating group update for speech enhancement based on convolutio...
【DL輪読会】Incorporating group update for speech enhancement  based on convolutio...【DL輪読会】Incorporating group update for speech enhancement  based on convolutio...
【DL輪読会】Incorporating group update for speech enhancement based on convolutio...
 
[DL Hacks]DROPデータセットによるMachine Reading Comprehension研究の状況
[DL Hacks]DROPデータセットによるMachine Reading Comprehension研究の状況[DL Hacks]DROPデータセットによるMachine Reading Comprehension研究の状況
[DL Hacks]DROPデータセットによるMachine Reading Comprehension研究の状況
 
多人数不完全情報ゲームにおけるAI ~ポーカーと麻雀を例として~
多人数不完全情報ゲームにおけるAI ~ポーカーと麻雀を例として~多人数不完全情報ゲームにおけるAI ~ポーカーと麻雀を例として~
多人数不完全情報ゲームにおけるAI ~ポーカーと麻雀を例として~
 

Similaire à ZoZei - アイデア賞スライド

Big data解析ビジネス
Big data解析ビジネスBig data解析ビジネス
Big data解析ビジネス
Mie Mori
 
Towards Knowledge-Based Personalized Product Description Generation in E-comm...
Towards Knowledge-Based Personalized Product Description Generation in E-comm...Towards Knowledge-Based Personalized Product Description Generation in E-comm...
Towards Knowledge-Based Personalized Product Description Generation in E-comm...
harmonylab
 

Similaire à ZoZei - アイデア賞スライド (20)

CNNの構造最適化手法(第3回3D勉強会)
CNNの構造最適化手法(第3回3D勉強会)CNNの構造最適化手法(第3回3D勉強会)
CNNの構造最適化手法(第3回3D勉強会)
 
CNNの構造最適化手法について
CNNの構造最適化手法についてCNNの構造最適化手法について
CNNの構造最適化手法について
 
不動産物件データセットを用いた研究開発事例と、大学との共同研究の取り組みの紹介
不動産物件データセットを用いた研究開発事例と、大学との共同研究の取り組みの紹介不動産物件データセットを用いた研究開発事例と、大学との共同研究の取り組みの紹介
不動産物件データセットを用いた研究開発事例と、大学との共同研究の取り組みの紹介
 
GBDTを使ったfeature transformationの適用例
GBDTを使ったfeature transformationの適用例GBDTを使ったfeature transformationの適用例
GBDTを使ったfeature transformationの適用例
 
Databricksチューニングあれこれ(JEDAI 2023 X‘mas/忘年会 Meetup! LT登壇資料)
Databricksチューニングあれこれ(JEDAI 2023 X‘mas/忘年会 Meetup! LT登壇資料)Databricksチューニングあれこれ(JEDAI 2023 X‘mas/忘年会 Meetup! LT登壇資料)
Databricksチューニングあれこれ(JEDAI 2023 X‘mas/忘年会 Meetup! LT登壇資料)
 
When NAS Meets Robustness: In Search of Robust Architectures against Adversar...
When NAS Meets Robustness:In Search of Robust Architectures againstAdversar...When NAS Meets Robustness:In Search of Robust Architectures againstAdversar...
When NAS Meets Robustness: In Search of Robust Architectures against Adversar...
 
Big data解析ビジネス
Big data解析ビジネスBig data解析ビジネス
Big data解析ビジネス
 
JAWS DAYS 2022
JAWS DAYS 2022JAWS DAYS 2022
JAWS DAYS 2022
 
When NAS Meets Robustness: In Search of Robust Architectures against Adversar...
When NAS Meets Robustness:In Search of Robust Architectures againstAdversar...When NAS Meets Robustness:In Search of Robust Architectures againstAdversar...
When NAS Meets Robustness: In Search of Robust Architectures against Adversar...
 
スタートアップが提案する2030年の材料開発 - 2022/11/11 QPARC講演
スタートアップが提案する2030年の材料開発 - 2022/11/11 QPARC講演スタートアップが提案する2030年の材料開発 - 2022/11/11 QPARC講演
スタートアップが提案する2030年の材料開発 - 2022/11/11 QPARC講演
 
CVPR2019 survey Domain Adaptation on Semantic Segmentation
CVPR2019 survey Domain Adaptation on Semantic SegmentationCVPR2019 survey Domain Adaptation on Semantic Segmentation
CVPR2019 survey Domain Adaptation on Semantic Segmentation
 
pg_bigmを用いた全文検索のしくみ(前編)
pg_bigmを用いた全文検索のしくみ(前編)pg_bigmを用いた全文検索のしくみ(前編)
pg_bigmを用いた全文検索のしくみ(前編)
 
オープンソースのIoT向けスケールアウト型データベース GridDB 〜性能ベンチマーク結果とOSSを利用したビッグデータ分析環境〜
オープンソースのIoT向けスケールアウト型データベース GridDB 〜性能ベンチマーク結果とOSSを利用したビッグデータ分析環境〜オープンソースのIoT向けスケールアウト型データベース GridDB 〜性能ベンチマーク結果とOSSを利用したビッグデータ分析環境〜
オープンソースのIoT向けスケールアウト型データベース GridDB 〜性能ベンチマーク結果とOSSを利用したビッグデータ分析環境〜
 
How to organize data science project (データサイエンスプロジェクトの始め方101)
How to organize data science project (データサイエンスプロジェクトの始め方101)How to organize data science project (データサイエンスプロジェクトの始め方101)
How to organize data science project (データサイエンスプロジェクトの始め方101)
 
LightGBM: a highly efficient gradient boosting decision tree
LightGBM: a highly efficient gradient boosting decision treeLightGBM: a highly efficient gradient boosting decision tree
LightGBM: a highly efficient gradient boosting decision tree
 
【日商USA】Webinar 2023.12.13 AWS re:Invent ハイライト ~データ活用の最先端を垣間見る~
【日商USA】Webinar 2023.12.13 AWS re:Invent ハイライト ~データ活用の最先端を垣間見る~【日商USA】Webinar 2023.12.13 AWS re:Invent ハイライト ~データ活用の最先端を垣間見る~
【日商USA】Webinar 2023.12.13 AWS re:Invent ハイライト ~データ活用の最先端を垣間見る~
 
Hivemallで始める不動産価格推定サービス
Hivemallで始める不動産価格推定サービスHivemallで始める不動産価格推定サービス
Hivemallで始める不動産価格推定サービス
 
Towards Knowledge-Based Personalized Product Description Generation in E-comm...
Towards Knowledge-Based Personalized Product Description Generation in E-comm...Towards Knowledge-Based Personalized Product Description Generation in E-comm...
Towards Knowledge-Based Personalized Product Description Generation in E-comm...
 
[DL輪読会]Learning to Navigate in Cities Without a Map
[DL輪読会]Learning to Navigate in Cities Without a Map[DL輪読会]Learning to Navigate in Cities Without a Map
[DL輪読会]Learning to Navigate in Cities Without a Map
 
【ウェブ セミナー】AI / アナリティクスを支えるビッグデータ基盤 Azure Data Lake [概要編]
【ウェブ セミナー】AI / アナリティクスを支えるビッグデータ基盤 Azure Data Lake [概要編]【ウェブ セミナー】AI / アナリティクスを支えるビッグデータ基盤 Azure Data Lake [概要編]
【ウェブ セミナー】AI / アナリティクスを支えるビッグデータ基盤 Azure Data Lake [概要編]
 

ZoZei - アイデア賞スライド