オンライン融資サービス『Biz LENDING』のスコアリングモデル

オンライン融資サービス
『Biz LENDING』の
スコアリングモデル
2019年11月27日 / M-AIS 澤木太郎

Classified as Confidential by Japan Digital Design, Inc.
2
1. Biz LENDING サービス紹介
2. スコアリングモデル
3. 様々な機械学習モデル
4. モデルのホワイトボックス化

3

Biz LENDING
中小企業向けオンライン融資サービス
4

Biz LENDINGのメリット
5
決算書などの書類を準備
対面での事業説明
長期間の審査
決算書が不要
オンラインで手続きが完結
申し込みから入金まで最短2営業日
通常の融資 Biz LENDING

6

7
法人の場合
・売上
・利益
・業種
・etc
個人の場合
・年収
・返済履歴
・etc
デフォルト確率
（貸倒確率）
インプット（属性情報）
過去データを用いて
機械学習によって作成する

Biz LENDINGの
8
Date From To Amount
Nov. 16,
2019
Company A Company X ¥1,000,000
Nov. 17,
2019
Company B Company Y ¥2,500,000
Nov. 18,
2019
Company C Company Z ¥200,000
… … … …
口座トランザクション
ETL
企業ごとのデータ Company
A
Company
B
Company
C
Company
D
教師ラベル Good! Good! Good!Bad…
教師あり学習でモデルを構築
✓ インプットとして口座トランザクショ
ンを利用
✓ すでに銀行が保有しているデータを使
うのでユーザーが決算書などの書類を
用意する必要がない
✓ 決算書と比較すると、粉飾などの不正
をしにくい

9

スコアリングモデルで使われる
機械学習モデル
✓ ロジスティック回帰
✓ 決定木
✓ ランダムフォレスト
✓ 勾配ブースティング（GBDT）
✓ ディープラーニング
10

ロジスティック回帰
✓ 古典的な線形モデル
✓ 単純なモデルなので学習は高速
✓ 簡単な問題に対しては十分な性能
✓ スコアリングモデルのデファクトスタンダード
11
𝑝 𝐶1 𝜙 = 𝜎 𝑤 𝑇 𝜙 + 𝑏 =
1
1 + 𝑒𝑥𝑝(−𝑤 𝑇 𝜙 + 𝑏)
予測式
𝑤 重みベクトル
𝛷 特徴量ベクトル
クラスC1の確率
𝑏 バイアス
シグモイド関数
（wikipediaより）

決定木 ✓ 分岐ルールによって分類や回帰を実現する
✓ 分岐の数を増やすことである程度複雑な問題にも対応できる
✓ 出力の根拠が分かりやすい
12
データ
A社貸倒
B社正常
C社正常
D社貸倒
E社正常
…
売上
資本金従業員数
延滞
A社
正常
C社
E社
延滞正常
B社
D社
10億円＜ 10億円≧
1000万円＜ 1000万円≧ 5人≧5人＜

ランダムフォレスト ✓ データをブートスラップ法でサンプリング
✓ サブサンプルの数だけ決定木を学習してアンサンブル
✓ 決定木の分岐でも特徴量をランダムサンプリングする
13
…
データ
アンサンブル
重複ありのランダムサンプリング

勾配ブースティング
（GBDT）
✓ Gradient Boosting Decision Tree
✓ 多数の決定木をブースティングによってアンサンブル
✓ 構造化データに対して高い汎用性を持つ
14
データ
A社貸倒
B社正常
C社正常
D社貸倒
E社正常
…
売上
資本金従業員数
延滞
A社
正常
C社
E社
延滞正常
B社
D社
10億円＜ 10億円≧
1000万円＜ 1000万円≧ 5人≧5人＜
うまく分類できなかったデータ
の分類誤差が小さくなるように
別の決定木で再学習

ディープラーニング
✓ 深い階層構造を持つニューラルネットワーク
✓ 非構造化データ（画像、音声、自然言語）に強い
✓ 構造化データを扱うことが多いスコアリングモデルではあ
まり使われないが、時系列の非構造化データであるトラン
ザクションデータでは選択肢の一つ
✓ 一般的に多くのデータが必要
✓ 研究が盛んで多数のアーキテクチャが提案されている
15
Figure引用：H. Purwins, et al., J. Selected Topics of Signal Processing, Vol.13, No.2, (2019), 206-219

モデルのまとめ
16
精度と可読性はトレードオフの関係
精度高
精度低
ブ
ラ
ッ
ク
ボ
ッ
ク
ス
ホ
ワ
イ
ト
ボ
ッ
ク
ス
• ディープラーニング
• 勾配ブースティング（GBDT）
• ランダムフォレスト
• ロジスティック回帰
• 決定木
各案件毎になぜその出力が得られた
のかを人が理解できない
各案件毎になぜその出力が得られた
のかを人が理解できる

17

高精度モデルの問題点
18
ブラックボックスなので出力値がなぜその値になるのかを説明できない
インプット？貸倒確率
スコアリングモデルでは可読性が
求められることが多い
だけど高精度なモデルは使いたい

モデルの挙動を
説明するモデル
19
データ予測モデル
説明モデル
貸倒確率
特徴量寄与度

Feature importance
20
決定木系のモデルの場合、特徴量の重要度を算出することが可能
モデルがどの特徴量を重視しているかが分かる
→ しかし、あくまで全体的な傾向であって、個別の案件についてどの特徴量がど
う効いているかは分からない。
※Titanic datasetの例

説明モデル：SHAP
21
個別の案件のモデル出力について、どの変数がどう効いているかを可視化できる
[基本論文]
S. M. Lundberg and S. Lee, A Unified Approach to Interpreting Model Predictions, NIPS 2017
[アンサンブルツリーモデル応用]
S. M. Lundberg, et al., Consistent Individualized Feature Attribution for Tree Ensembles, 2018
※Titanic datasetの例

協力ゲーム理論：シャープレイ値
22
◆ シャープレイ値とは
協力ゲーム理論において、協力した各プレイヤーへ利益を公正に分配する方法の一つで、その配分の値
⚫ プレイヤーiのシャープレイ値の定義式
⚫ N：プレイヤーの全集合
⚫ S：Nの部分集合
⚫ n：プレイヤーの総数
⚫ v(S)：参加者がSのときの全体の利益
プレイヤーiのシャープレイ値とは、
すべての参加者のパターンに対して、
プレイヤーiが参加したときと参加していないときの差分の平均値を取ったもの

特徴量寄与度への応用
23
あるデータxが入力されたときのモデルの出力f(x)に対して、
特徴量iがどれだけ貢献しているかを可視化したい。
𝑓(𝑥) ⇔
解釈したい複雑なモデル
各特徴量のシャープレイ値の線形結合
SHAP Value
ゲーム理論におけるプレイヤー → 特徴量
ゲーム理論における全体の利益 → モデルの出力

SHAP value
24
SHAP valueは以下の特性を満たし、一意に決まる
Local accuracy : あるデータxについてモデルの出力とSHAP valueの合計値が一致
Missingness : モデルの出力に寄与していない特徴量のSHAP valueは０
Consistency : 特徴量iの有無で出力が大きく影響を受けるモデルのほうがSHAP valueも大
きくなる
シャープレイ値を模した
SHAP valueが定義できる

✓ 予測モデルと完全に独立しており、予測モデルに手を加える必要がない
✓ 理論自体はモデルの種類を問わず、ディープラーニングやGBDTを含めた全モデルに適用可能
✓ 理論的にLocal accuracyやConsistencyなどの特性が保証されている
※ただし、実際に計算する際には近似が入るので完全に保証されているわけではない点に注意
SHAPのメリット

Thank you for your attention !

オンライン融資サービス『Biz LENDING』のスコアリングモデル

Recommandé

Recommandé

Contenu connexe

Similaire à オンライン融資サービス『Biz LENDING』のスコアリングモデル

Similaire à オンライン融資サービス『Biz LENDING』のスコアリングモデル (20)

オンライン融資サービス『Biz LENDING』のスコアリングモデル