5. Biz LENDINGのメリット
Classified as Confidential by Japan Digital Design, Inc.
5
決算書などの書類を準備
対面での事業説明
長期間の審査
決算書が不要
オンラインで手続きが完結
申し込みから入金まで最短2営業日
通常の融資 Biz LENDING
6. Classified as Confidential by Japan Digital Design, Inc.
6
1. Biz LENDING サービス紹介
2. スコアリングモデル
3. 様々な機械学習モデル
4. モデルのホワイトボックス化
7. スコアリングモデル
Classified as Confidential by Japan Digital Design, Inc.
7
法人の場合
・売上
・利益
・業種
・etc
個人の場合
・年収
・返済履歴
・etc
スコアリングモデル
デフォルト確率
(貸倒確率)
インプット(属性情報)
過去データを用いて
機械学習によって作成する
8. Biz LENDINGの
スコアリングモデル
Classified as Confidential by Japan Digital Design, Inc.
8
Date From To Amount
Nov. 16,
2019
Company A Company X ¥1,000,000
Nov. 17,
2019
Company B Company Y ¥2,500,000
Nov. 18,
2019
Company C Company Z ¥200,000
… … … …
口座トランザクション
ETL
企業ごとのデータ Company
A
Company
B
Company
C
Company
D
教師ラベル Good! Good! Good!Bad…
教師あり学習でモデルを構築
✓ インプットとして口座トランザクショ
ンを利用
✓ すでに銀行が保有しているデータを使
うのでユーザーが決算書などの書類を
用意する必要がない
✓ 決算書と比較すると、粉飾などの不正
をしにくい
9. Classified as Confidential by Japan Digital Design, Inc.
9
1. Biz LENDING サービス紹介
2. スコアリングモデル
3. 様々な機械学習モデル
4. モデルのホワイトボックス化
11. ロジスティック回帰
✓ 古典的な線形モデル
✓ 単純なモデルなので学習は高速
✓ 簡単な問題に対しては十分な性能
✓ スコアリングモデルのデファクトスタンダード
Classified as Confidential by Japan Digital Design, Inc.
11
𝑝 𝐶1 𝜙 = 𝜎 𝑤 𝑇 𝜙 + 𝑏 =
1
1 + 𝑒𝑥𝑝(−𝑤 𝑇 𝜙 + 𝑏)
予測式
𝑤 重みベクトル
𝛷 特徴量ベクトル
クラスC1の確率
𝑏 バイアス
シグモイド関数
(wikipediaより)
12. 決定木 ✓ 分岐ルールによって分類や回帰を実現する
✓ 分岐の数を増やすことである程度複雑な問題にも対応できる
✓ 出力の根拠が分かりやすい
Classified as Confidential by Japan Digital Design, Inc.
12
データ
A社 貸倒
B社 正常
C社 正常
D社 貸倒
E社 正常
…
売上
資本金 従業員数
延滞
A社
正常
C社
E社
延滞 正常
B社
D社
10億円< 10億円≧
1000万円< 1000万円≧ 5人≧5人<
13. ランダムフォレスト ✓ データをブートスラップ法でサンプリング
✓ サブサンプルの数だけ決定木を学習してアンサンブル
✓ 決定木の分岐でも特徴量をランダムサンプリングする
Classified as Confidential by Japan Digital Design, Inc.
13
…
データ
アンサンブル
重複ありのランダムサンプリング
14. 勾配ブースティング
(GBDT)
✓ Gradient Boosting Decision Tree
✓ 多数の決定木をブースティングによってアンサンブル
✓ 構造化データに対して高い汎用性を持つ
Classified as Confidential by Japan Digital Design, Inc.
14
データ
A社 貸倒
B社 正常
C社 正常
D社 貸倒
E社 正常
…
売上
資本金 従業員数
延滞
A社
正常
C社
E社
延滞 正常
B社
D社
10億円< 10億円≧
1000万円< 1000万円≧ 5人≧5人<
うまく分類できなかったデータ
の分類誤差が小さくなるように
別の決定木で再学習
15. ディープラーニング
✓ 深い階層構造を持つニューラルネットワーク
✓ 非構造化データ(画像、音声、自然言語)に強い
✓ 構造化データを扱うことが多いスコアリングモデルではあ
まり使われないが、時系列の非構造化データであるトラン
ザクションデータでは選択肢の一つ
✓ 一般的に多くのデータが必要
✓ 研究が盛んで多数のアーキテクチャが提案されている
Classified as Confidential by Japan Digital Design, Inc.
15
Figure引用:H. Purwins, et al., J. Selected Topics of Signal Processing, Vol.13, No.2, (2019), 206-219
16. モデルのまとめ
Classified as Confidential by Japan Digital Design, Inc.
16
精度と可読性はトレードオフの関係
精度 高
精度 低
ブ
ラ
ッ
ク
ボ
ッ
ク
ス
ホ
ワ
イ
ト
ボ
ッ
ク
ス
• ディープラーニング
• 勾配ブースティング(GBDT)
• ランダムフォレスト
• ロジスティック回帰
• 決定木
各案件毎になぜその出力が得られた
のかを人が理解できない
各案件毎になぜその出力が得られた
のかを人が理解できる
17. Classified as Confidential by Japan Digital Design, Inc.
17
1. Biz LENDING サービス紹介
2. スコアリングモデル
3. 様々な機械学習モデル
4. モデルのホワイトボックス化
18. 高精度モデルの問題点
Classified as Confidential by Japan Digital Design, Inc.
18
ブラックボックスなので出力値がなぜその値になるのかを説明できない
インプット ? 貸倒確率
スコアリングモデルでは可読性が
求められることが多い
だけど高精度なモデルは使いたい
20. Feature importance
Classified as Confidential by Japan Digital Design, Inc.
20
決定木系のモデルの場合、特徴量の重要度を算出することが可能
モデルがどの特徴量を重視しているかが分かる
→ しかし、あくまで全体的な傾向であって、個別の案件についてどの特徴量がど
う効いているかは分からない。
※Titanic datasetの例
21. 説明モデル:SHAP
Classified as Confidential by Japan Digital Design, Inc.
21
個別の案件のモデル出力について、どの変数がどう効いているかを可視化できる
[基本論文]
S. M. Lundberg and S. Lee, A Unified Approach to Interpreting Model Predictions, NIPS 2017
[アンサンブルツリーモデル応用]
S. M. Lundberg, et al., Consistent Individualized Feature Attribution for Tree Ensembles, 2018
※Titanic datasetの例
22. 協力ゲーム理論:シャープレイ値
Classified as Confidential by Japan Digital Design, Inc.
22
◆ シャープレイ値とは
協力ゲーム理論において、協力した各プレイヤーへ利益を公正に分配する方法の一つで、その配分の値
⚫ プレイヤーiのシャープレイ値の定義式
⚫ N:プレイヤーの全集合
⚫ S:Nの部分集合
⚫ n:プレイヤーの総数
⚫ v(S):参加者がSのときの全体の利益
プレイヤーiのシャープレイ値とは、
すべての参加者のパターンに対して、
プレイヤーiが参加したときと参加していないときの差分の平均値を取ったもの
23. 特徴量寄与度への応用
Classified as Confidential by Japan Digital Design, Inc.
23
あるデータxが入力されたときのモデルの出力f(x)に対して、
特徴量iがどれだけ貢献しているかを可視化したい。
𝑓(𝑥) ⇔
解釈したい複雑なモデル
各特徴量のシャープレイ値の線形結合
SHAP Value
ゲーム理論におけるプレイヤー → 特徴量
ゲーム理論における全体の利益 → モデルの出力
24. SHAP value
Classified as Confidential by Japan Digital Design, Inc.
24
SHAP valueは以下の特性を満たし、一意に決まる
Local accuracy : あるデータxについてモデルの出力とSHAP valueの合計値が一致
Missingness : モデルの出力に寄与していない特徴量のSHAP valueは0
Consistency : 特徴量iの有無で出力が大きく影響を受けるモデルのほうがSHAP valueも大
きくなる
シャープレイ値を模した
SHAP valueが定義できる