SlideShare une entreprise Scribd logo
1  sur  26
Télécharger pour lire hors ligne
オンライン融資サービス
『Biz LENDING』の
スコアリングモデル
2019年11月27日 / M-AIS 澤木 太郎
Classified as Confidential by Japan Digital Design, Inc.
2
1. Biz LENDING サービス紹介
2. スコアリングモデル
3. 様々な機械学習モデル
4. モデルのホワイトボックス化
Classified as Confidential by Japan Digital Design, Inc.
3
1. Biz LENDING サービス紹介
2. スコアリングモデル
3. 様々な機械学習モデル
4. モデルのホワイトボックス化
Biz LENDING
中小企業向けオンライン融資サービス
Classified as Confidential by Japan Digital Design, Inc.
4
Biz LENDINGのメリット
Classified as Confidential by Japan Digital Design, Inc.
5
決算書などの書類を準備
対面での事業説明
長期間の審査
決算書が不要
オンラインで手続きが完結
申し込みから入金まで最短2営業日
通常の融資 Biz LENDING
Classified as Confidential by Japan Digital Design, Inc.
6
1. Biz LENDING サービス紹介
2. スコアリングモデル
3. 様々な機械学習モデル
4. モデルのホワイトボックス化
スコアリングモデル
Classified as Confidential by Japan Digital Design, Inc.
7
法人の場合
・売上
・利益
・業種
・etc
個人の場合
・年収
・返済履歴
・etc
スコアリングモデル
デフォルト確率
(貸倒確率)
インプット(属性情報)
過去データを用いて
機械学習によって作成する
Biz LENDINGの
スコアリングモデル
Classified as Confidential by Japan Digital Design, Inc.
8
Date From To Amount
Nov. 16,
2019
Company A Company X ¥1,000,000
Nov. 17,
2019
Company B Company Y ¥2,500,000
Nov. 18,
2019
Company C Company Z ¥200,000
… … … …
口座トランザクション
ETL
企業ごとのデータ Company
A
Company
B
Company
C
Company
D
教師ラベル Good! Good! Good!Bad…
教師あり学習でモデルを構築
✓ インプットとして口座トランザクショ
ンを利用
✓ すでに銀行が保有しているデータを使
うのでユーザーが決算書などの書類を
用意する必要がない
✓ 決算書と比較すると、粉飾などの不正
をしにくい
Classified as Confidential by Japan Digital Design, Inc.
9
1. Biz LENDING サービス紹介
2. スコアリングモデル
3. 様々な機械学習モデル
4. モデルのホワイトボックス化
スコアリングモデルで使われる
機械学習モデル
✓ ロジスティック回帰
✓ 決定木
✓ ランダムフォレスト
✓ 勾配ブースティング(GBDT)
✓ ディープラーニング
Classified as Confidential by Japan Digital Design, Inc.
10
ロジスティック回帰
✓ 古典的な線形モデル
✓ 単純なモデルなので学習は高速
✓ 簡単な問題に対しては十分な性能
✓ スコアリングモデルのデファクトスタンダード
Classified as Confidential by Japan Digital Design, Inc.
11
𝑝 𝐶1 𝜙 = 𝜎 𝑤 𝑇 𝜙 + 𝑏 =
1
1 + 𝑒𝑥𝑝(−𝑤 𝑇 𝜙 + 𝑏)
予測式
𝑤 重みベクトル
𝛷 特徴量ベクトル
クラスC1の確率
𝑏 バイアス
シグモイド関数
(wikipediaより)
決定木 ✓ 分岐ルールによって分類や回帰を実現する
✓ 分岐の数を増やすことである程度複雑な問題にも対応できる
✓ 出力の根拠が分かりやすい
Classified as Confidential by Japan Digital Design, Inc.
12
データ
A社 貸倒
B社 正常
C社 正常
D社 貸倒
E社 正常
…
売上
資本金 従業員数
延滞
A社
正常
C社
E社
延滞 正常
B社
D社
10億円< 10億円≧
1000万円< 1000万円≧ 5人≧5人<
ランダムフォレスト ✓ データをブートスラップ法でサンプリング
✓ サブサンプルの数だけ決定木を学習してアンサンブル
✓ 決定木の分岐でも特徴量をランダムサンプリングする
Classified as Confidential by Japan Digital Design, Inc.
13
…
データ
アンサンブル
重複ありのランダムサンプリング
勾配ブースティング
(GBDT)
✓ Gradient Boosting Decision Tree
✓ 多数の決定木をブースティングによってアンサンブル
✓ 構造化データに対して高い汎用性を持つ
Classified as Confidential by Japan Digital Design, Inc.
14
データ
A社 貸倒
B社 正常
C社 正常
D社 貸倒
E社 正常
…
売上
資本金 従業員数
延滞
A社
正常
C社
E社
延滞 正常
B社
D社
10億円< 10億円≧
1000万円< 1000万円≧ 5人≧5人<
うまく分類できなかったデータ
の分類誤差が小さくなるように
別の決定木で再学習
ディープラーニング
✓ 深い階層構造を持つニューラルネットワーク
✓ 非構造化データ(画像、音声、自然言語)に強い
✓ 構造化データを扱うことが多いスコアリングモデルではあ
まり使われないが、時系列の非構造化データであるトラン
ザクションデータでは選択肢の一つ
✓ 一般的に多くのデータが必要
✓ 研究が盛んで多数のアーキテクチャが提案されている
Classified as Confidential by Japan Digital Design, Inc.
15
Figure引用:H. Purwins, et al., J. Selected Topics of Signal Processing, Vol.13, No.2, (2019), 206-219
モデルのまとめ
Classified as Confidential by Japan Digital Design, Inc.
16
精度と可読性はトレードオフの関係
精度 高
精度 低
ブ
ラ
ッ
ク
ボ
ッ
ク
ス
ホ
ワ
イ
ト
ボ
ッ
ク
ス
• ディープラーニング
• 勾配ブースティング(GBDT)
• ランダムフォレスト
• ロジスティック回帰
• 決定木
各案件毎になぜその出力が得られた
のかを人が理解できない
各案件毎になぜその出力が得られた
のかを人が理解できる
Classified as Confidential by Japan Digital Design, Inc.
17
1. Biz LENDING サービス紹介
2. スコアリングモデル
3. 様々な機械学習モデル
4. モデルのホワイトボックス化
高精度モデルの問題点
Classified as Confidential by Japan Digital Design, Inc.
18
ブラックボックスなので出力値がなぜその値になるのかを説明できない
インプット ? 貸倒確率
スコアリングモデルでは可読性が
求められることが多い
だけど高精度なモデルは使いたい
モデルの挙動を
説明するモデル
Classified as Confidential by Japan Digital Design, Inc.
19
データ 予測モデル
説明モデル
貸倒確率
特徴量寄与度
Feature importance
Classified as Confidential by Japan Digital Design, Inc.
20
決定木系のモデルの場合、特徴量の重要度を算出することが可能
モデルがどの特徴量を重視しているかが分かる
→ しかし、あくまで全体的な傾向であって、個別の案件についてどの特徴量がど
う効いているかは分からない。
※Titanic datasetの例
説明モデル:SHAP
Classified as Confidential by Japan Digital Design, Inc.
21
個別の案件のモデル出力について、どの変数がどう効いているかを可視化できる
[基本論文]
S. M. Lundberg and S. Lee, A Unified Approach to Interpreting Model Predictions, NIPS 2017
[アンサンブルツリーモデル応用]
S. M. Lundberg, et al., Consistent Individualized Feature Attribution for Tree Ensembles, 2018
※Titanic datasetの例
協力ゲーム理論:シャープレイ値
Classified as Confidential by Japan Digital Design, Inc.
22
◆ シャープレイ値とは
協力ゲーム理論において、協力した各プレイヤーへ利益を公正に分配する方法の一つで、その配分の値
⚫ プレイヤーiのシャープレイ値の定義式
⚫ N:プレイヤーの全集合
⚫ S:Nの部分集合
⚫ n:プレイヤーの総数
⚫ v(S):参加者がSのときの全体の利益
プレイヤーiのシャープレイ値とは、
すべての参加者のパターンに対して、
プレイヤーiが参加したときと参加していないときの差分の平均値を取ったもの
特徴量寄与度への応用
Classified as Confidential by Japan Digital Design, Inc.
23
あるデータxが入力されたときのモデルの出力f(x)に対して、
特徴量iがどれだけ貢献しているかを可視化したい。
𝑓(𝑥) ⇔
解釈したい複雑なモデル
各特徴量のシャープレイ値の線形結合
SHAP Value
ゲーム理論におけるプレイヤー → 特徴量
ゲーム理論における全体の利益 → モデルの出力
SHAP value
Classified as Confidential by Japan Digital Design, Inc.
24
SHAP valueは以下の特性を満たし、一意に決まる
Local accuracy : あるデータxについてモデルの出力とSHAP valueの合計値が一致
Missingness : モデルの出力に寄与していない特徴量のSHAP valueは0
Consistency : 特徴量iの有無で出力が大きく影響を受けるモデルのほうがSHAP valueも大
きくなる
シャープレイ値を模した
SHAP valueが定義できる
✓ 予測モデルと完全に独立しており、予測モデルに手を加える必要がない
✓ 理論自体はモデルの種類を問わず、ディープラーニングやGBDTを含めた全モデルに適用可能
✓ 理論的にLocal accuracyやConsistencyなどの特性が保証されている
※ただし、実際に計算する際には近似が入るので完全に保証されているわけではない点に注意
SHAPのメリット
Thank you for your attention !

Contenu connexe

Similaire à オンライン融資サービス『Biz LENDING』のスコアリングモデル

基調講演「データのグループウェア化」
基調講演「データのグループウェア化」基調講演「データのグループウェア化」
基調講演「データのグループウェア化」Cybozucommunity
 
【schoo WEB-campus】#49業務改善のためのデータサイエンス 先生:倉橋一成
【schoo WEB-campus】#49業務改善のためのデータサイエンス 先生:倉橋一成【schoo WEB-campus】#49業務改善のためのデータサイエンス 先生:倉橋一成
【schoo WEB-campus】#49業務改善のためのデータサイエンス 先生:倉橋一成webcampusschoo
 
Converting big data into big value
Converting big data into big valueConverting big data into big value
Converting big data into big valueYoshiyuki Ueda
 
DBREから始めるデータベースプラットフォーム
DBREから始めるデータベースプラットフォームDBREから始めるデータベースプラットフォーム
DBREから始めるデータベースプラットフォームInsight Technology, Inc.
 
「企業のデジタルトランスフォーメーション ビッグデータ利活用に関する活動と課題」
「企業のデジタルトランスフォーメーション   ビッグデータ利活用に関する活動と課題」「企業のデジタルトランスフォーメーション   ビッグデータ利活用に関する活動と課題」
「企業のデジタルトランスフォーメーション ビッグデータ利活用に関する活動と課題」scirexcenter
 
フォームクリエイター
フォームクリエイターフォームクリエイター
フォームクリエイターTomohiko Tasato
 
ビッグデータのビジネスモデルとインターネット文化
ビッグデータのビジネスモデルとインターネット文化ビッグデータのビジネスモデルとインターネット文化
ビッグデータのビジネスモデルとインターネット文化Hiroshi Takahashi
 
ビッグデータビジネスの捉え方
ビッグデータビジネスの捉え方ビッグデータビジネスの捉え方
ビッグデータビジネスの捉え方Takatsugu Kobayashi
 
E-commerce企業におけるビッグデータへの挑戦と課題‐機械学習への期待について‐
E-commerce企業におけるビッグデータへの挑戦と課題‐機械学習への期待について‐E-commerce企業におけるビッグデータへの挑戦と課題‐機械学習への期待について‐
E-commerce企業におけるビッグデータへの挑戦と課題‐機械学習への期待について‐Rakuten Group, Inc.
 
サイボウズ デヂエ 8 ご提案資料
サイボウズ デヂエ 8 ご提案資料サイボウズ デヂエ 8 ご提案資料
サイボウズ デヂエ 8 ご提案資料Cybozucommunity
 
コグニティブ・ファクトリーの実像とIoT時代に求められるデータ・サイエンティストとは?ー製造業の視点からー
コグニティブ・ファクトリーの実像とIoT時代に求められるデータ・サイエンティストとは?ー製造業の視点からーコグニティブ・ファクトリーの実像とIoT時代に求められるデータ・サイエンティストとは?ー製造業の視点からー
コグニティブ・ファクトリーの実像とIoT時代に求められるデータ・サイエンティストとは?ー製造業の視点からーThe Japan DataScientist Society
 
120124 jgc information systems conference be st_pro to salesforce
120124 jgc information systems conference be st_pro to salesforce120124 jgc information systems conference be st_pro to salesforce
120124 jgc information systems conference be st_pro to salesforceMasato Fujioka
 
クラウドを活用した自由自在なデータ分析
クラウドを活用した自由自在なデータ分析クラウドを活用した自由自在なデータ分析
クラウドを活用した自由自在なデータ分析aiichiro
 
顧客の声を営業/経営に活かす!オンラインアンケートの活用アイデアと事例Jp sm seminar_dec04_final
顧客の声を営業/経営に活かす!オンラインアンケートの活用アイデアと事例Jp sm seminar_dec04_final顧客の声を営業/経営に活かす!オンラインアンケートの活用アイデアと事例Jp sm seminar_dec04_final
顧客の声を営業/経営に活かす!オンラインアンケートの活用アイデアと事例Jp sm seminar_dec04_finalSurveyMonkey Japan
 
『ビッグデータ時代を勝ち抜くデータマネジメント』 セミナー資料
『ビッグデータ時代を勝ち抜くデータマネジメント』 セミナー資料『ビッグデータ時代を勝ち抜くデータマネジメント』 セミナー資料
『ビッグデータ時代を勝ち抜くデータマネジメント』 セミナー資料Akihiko Uchino
 
No codecamp weekly_output adalo database_20201112
No codecamp weekly_output adalo database_20201112No codecamp weekly_output adalo database_20201112
No codecamp weekly_output adalo database_20201112翼 宮崎
 
Construction industry blockchain event munetoshi yamada
Construction industry blockchain event munetoshi yamadaConstruction industry blockchain event munetoshi yamada
Construction industry blockchain event munetoshi yamadaSBI R3 Japan
 

Similaire à オンライン融資サービス『Biz LENDING』のスコアリングモデル (20)

基調講演「データのグループウェア化」
基調講演「データのグループウェア化」基調講演「データのグループウェア化」
基調講演「データのグループウェア化」
 
【schoo WEB-campus】#49業務改善のためのデータサイエンス 先生:倉橋一成
【schoo WEB-campus】#49業務改善のためのデータサイエンス 先生:倉橋一成【schoo WEB-campus】#49業務改善のためのデータサイエンス 先生:倉橋一成
【schoo WEB-campus】#49業務改善のためのデータサイエンス 先生:倉橋一成
 
Converting big data into big value
Converting big data into big valueConverting big data into big value
Converting big data into big value
 
DBREから始めるデータベースプラットフォーム
DBREから始めるデータベースプラットフォームDBREから始めるデータベースプラットフォーム
DBREから始めるデータベースプラットフォーム
 
「企業のデジタルトランスフォーメーション ビッグデータ利活用に関する活動と課題」
「企業のデジタルトランスフォーメーション   ビッグデータ利活用に関する活動と課題」「企業のデジタルトランスフォーメーション   ビッグデータ利活用に関する活動と課題」
「企業のデジタルトランスフォーメーション ビッグデータ利活用に関する活動と課題」
 
フォームクリエイター
フォームクリエイターフォームクリエイター
フォームクリエイター
 
自然言語処理向け データアノテーションとそのユースケース
自然言語処理向け データアノテーションとそのユースケース自然言語処理向け データアノテーションとそのユースケース
自然言語処理向け データアノテーションとそのユースケース
 
Developers Summit 2013【15-B-6】開発者の "資産形成" につながる Action とは?
Developers Summit 2013【15-B-6】開発者の "資産形成" につながる Action とは?Developers Summit 2013【15-B-6】開発者の "資産形成" につながる Action とは?
Developers Summit 2013【15-B-6】開発者の "資産形成" につながる Action とは?
 
ビッグデータのビジネスモデルとインターネット文化
ビッグデータのビジネスモデルとインターネット文化ビッグデータのビジネスモデルとインターネット文化
ビッグデータのビジネスモデルとインターネット文化
 
ビッグデータビジネスの捉え方
ビッグデータビジネスの捉え方ビッグデータビジネスの捉え方
ビッグデータビジネスの捉え方
 
E-commerce企業におけるビッグデータへの挑戦と課題‐機械学習への期待について‐
E-commerce企業におけるビッグデータへの挑戦と課題‐機械学習への期待について‐E-commerce企業におけるビッグデータへの挑戦と課題‐機械学習への期待について‐
E-commerce企業におけるビッグデータへの挑戦と課題‐機械学習への期待について‐
 
サイボウズ デヂエ 8 ご提案資料
サイボウズ デヂエ 8 ご提案資料サイボウズ デヂエ 8 ご提案資料
サイボウズ デヂエ 8 ご提案資料
 
コグニティブ・ファクトリーの実像とIoT時代に求められるデータ・サイエンティストとは?ー製造業の視点からー
コグニティブ・ファクトリーの実像とIoT時代に求められるデータ・サイエンティストとは?ー製造業の視点からーコグニティブ・ファクトリーの実像とIoT時代に求められるデータ・サイエンティストとは?ー製造業の視点からー
コグニティブ・ファクトリーの実像とIoT時代に求められるデータ・サイエンティストとは?ー製造業の視点からー
 
中国市場提言(大津山)
中国市場提言(大津山)中国市場提言(大津山)
中国市場提言(大津山)
 
120124 jgc information systems conference be st_pro to salesforce
120124 jgc information systems conference be st_pro to salesforce120124 jgc information systems conference be st_pro to salesforce
120124 jgc information systems conference be st_pro to salesforce
 
クラウドを活用した自由自在なデータ分析
クラウドを活用した自由自在なデータ分析クラウドを活用した自由自在なデータ分析
クラウドを活用した自由自在なデータ分析
 
顧客の声を営業/経営に活かす!オンラインアンケートの活用アイデアと事例Jp sm seminar_dec04_final
顧客の声を営業/経営に活かす!オンラインアンケートの活用アイデアと事例Jp sm seminar_dec04_final顧客の声を営業/経営に活かす!オンラインアンケートの活用アイデアと事例Jp sm seminar_dec04_final
顧客の声を営業/経営に活かす!オンラインアンケートの活用アイデアと事例Jp sm seminar_dec04_final
 
『ビッグデータ時代を勝ち抜くデータマネジメント』 セミナー資料
『ビッグデータ時代を勝ち抜くデータマネジメント』 セミナー資料『ビッグデータ時代を勝ち抜くデータマネジメント』 セミナー資料
『ビッグデータ時代を勝ち抜くデータマネジメント』 セミナー資料
 
No codecamp weekly_output adalo database_20201112
No codecamp weekly_output adalo database_20201112No codecamp weekly_output adalo database_20201112
No codecamp weekly_output adalo database_20201112
 
Construction industry blockchain event munetoshi yamada
Construction industry blockchain event munetoshi yamadaConstruction industry blockchain event munetoshi yamada
Construction industry blockchain event munetoshi yamada
 

オンライン融資サービス『Biz LENDING』のスコアリングモデル

  • 2. Classified as Confidential by Japan Digital Design, Inc. 2 1. Biz LENDING サービス紹介 2. スコアリングモデル 3. 様々な機械学習モデル 4. モデルのホワイトボックス化
  • 3. Classified as Confidential by Japan Digital Design, Inc. 3 1. Biz LENDING サービス紹介 2. スコアリングモデル 3. 様々な機械学習モデル 4. モデルのホワイトボックス化
  • 5. Biz LENDINGのメリット Classified as Confidential by Japan Digital Design, Inc. 5 決算書などの書類を準備 対面での事業説明 長期間の審査 決算書が不要 オンラインで手続きが完結 申し込みから入金まで最短2営業日 通常の融資 Biz LENDING
  • 6. Classified as Confidential by Japan Digital Design, Inc. 6 1. Biz LENDING サービス紹介 2. スコアリングモデル 3. 様々な機械学習モデル 4. モデルのホワイトボックス化
  • 7. スコアリングモデル Classified as Confidential by Japan Digital Design, Inc. 7 法人の場合 ・売上 ・利益 ・業種 ・etc 個人の場合 ・年収 ・返済履歴 ・etc スコアリングモデル デフォルト確率 (貸倒確率) インプット(属性情報) 過去データを用いて 機械学習によって作成する
  • 8. Biz LENDINGの スコアリングモデル Classified as Confidential by Japan Digital Design, Inc. 8 Date From To Amount Nov. 16, 2019 Company A Company X ¥1,000,000 Nov. 17, 2019 Company B Company Y ¥2,500,000 Nov. 18, 2019 Company C Company Z ¥200,000 … … … … 口座トランザクション ETL 企業ごとのデータ Company A Company B Company C Company D 教師ラベル Good! Good! Good!Bad… 教師あり学習でモデルを構築 ✓ インプットとして口座トランザクショ ンを利用 ✓ すでに銀行が保有しているデータを使 うのでユーザーが決算書などの書類を 用意する必要がない ✓ 決算書と比較すると、粉飾などの不正 をしにくい
  • 9. Classified as Confidential by Japan Digital Design, Inc. 9 1. Biz LENDING サービス紹介 2. スコアリングモデル 3. 様々な機械学習モデル 4. モデルのホワイトボックス化
  • 10. スコアリングモデルで使われる 機械学習モデル ✓ ロジスティック回帰 ✓ 決定木 ✓ ランダムフォレスト ✓ 勾配ブースティング(GBDT) ✓ ディープラーニング Classified as Confidential by Japan Digital Design, Inc. 10
  • 11. ロジスティック回帰 ✓ 古典的な線形モデル ✓ 単純なモデルなので学習は高速 ✓ 簡単な問題に対しては十分な性能 ✓ スコアリングモデルのデファクトスタンダード Classified as Confidential by Japan Digital Design, Inc. 11 𝑝 𝐶1 𝜙 = 𝜎 𝑤 𝑇 𝜙 + 𝑏 = 1 1 + 𝑒𝑥𝑝(−𝑤 𝑇 𝜙 + 𝑏) 予測式 𝑤 重みベクトル 𝛷 特徴量ベクトル クラスC1の確率 𝑏 バイアス シグモイド関数 (wikipediaより)
  • 12. 決定木 ✓ 分岐ルールによって分類や回帰を実現する ✓ 分岐の数を増やすことである程度複雑な問題にも対応できる ✓ 出力の根拠が分かりやすい Classified as Confidential by Japan Digital Design, Inc. 12 データ A社 貸倒 B社 正常 C社 正常 D社 貸倒 E社 正常 … 売上 資本金 従業員数 延滞 A社 正常 C社 E社 延滞 正常 B社 D社 10億円< 10億円≧ 1000万円< 1000万円≧ 5人≧5人<
  • 13. ランダムフォレスト ✓ データをブートスラップ法でサンプリング ✓ サブサンプルの数だけ決定木を学習してアンサンブル ✓ 決定木の分岐でも特徴量をランダムサンプリングする Classified as Confidential by Japan Digital Design, Inc. 13 … データ アンサンブル 重複ありのランダムサンプリング
  • 14. 勾配ブースティング (GBDT) ✓ Gradient Boosting Decision Tree ✓ 多数の決定木をブースティングによってアンサンブル ✓ 構造化データに対して高い汎用性を持つ Classified as Confidential by Japan Digital Design, Inc. 14 データ A社 貸倒 B社 正常 C社 正常 D社 貸倒 E社 正常 … 売上 資本金 従業員数 延滞 A社 正常 C社 E社 延滞 正常 B社 D社 10億円< 10億円≧ 1000万円< 1000万円≧ 5人≧5人< うまく分類できなかったデータ の分類誤差が小さくなるように 別の決定木で再学習
  • 15. ディープラーニング ✓ 深い階層構造を持つニューラルネットワーク ✓ 非構造化データ(画像、音声、自然言語)に強い ✓ 構造化データを扱うことが多いスコアリングモデルではあ まり使われないが、時系列の非構造化データであるトラン ザクションデータでは選択肢の一つ ✓ 一般的に多くのデータが必要 ✓ 研究が盛んで多数のアーキテクチャが提案されている Classified as Confidential by Japan Digital Design, Inc. 15 Figure引用:H. Purwins, et al., J. Selected Topics of Signal Processing, Vol.13, No.2, (2019), 206-219
  • 16. モデルのまとめ Classified as Confidential by Japan Digital Design, Inc. 16 精度と可読性はトレードオフの関係 精度 高 精度 低 ブ ラ ッ ク ボ ッ ク ス ホ ワ イ ト ボ ッ ク ス • ディープラーニング • 勾配ブースティング(GBDT) • ランダムフォレスト • ロジスティック回帰 • 決定木 各案件毎になぜその出力が得られた のかを人が理解できない 各案件毎になぜその出力が得られた のかを人が理解できる
  • 17. Classified as Confidential by Japan Digital Design, Inc. 17 1. Biz LENDING サービス紹介 2. スコアリングモデル 3. 様々な機械学習モデル 4. モデルのホワイトボックス化
  • 18. 高精度モデルの問題点 Classified as Confidential by Japan Digital Design, Inc. 18 ブラックボックスなので出力値がなぜその値になるのかを説明できない インプット ? 貸倒確率 スコアリングモデルでは可読性が 求められることが多い だけど高精度なモデルは使いたい
  • 19. モデルの挙動を 説明するモデル Classified as Confidential by Japan Digital Design, Inc. 19 データ 予測モデル 説明モデル 貸倒確率 特徴量寄与度
  • 20. Feature importance Classified as Confidential by Japan Digital Design, Inc. 20 決定木系のモデルの場合、特徴量の重要度を算出することが可能 モデルがどの特徴量を重視しているかが分かる → しかし、あくまで全体的な傾向であって、個別の案件についてどの特徴量がど う効いているかは分からない。 ※Titanic datasetの例
  • 21. 説明モデル:SHAP Classified as Confidential by Japan Digital Design, Inc. 21 個別の案件のモデル出力について、どの変数がどう効いているかを可視化できる [基本論文] S. M. Lundberg and S. Lee, A Unified Approach to Interpreting Model Predictions, NIPS 2017 [アンサンブルツリーモデル応用] S. M. Lundberg, et al., Consistent Individualized Feature Attribution for Tree Ensembles, 2018 ※Titanic datasetの例
  • 22. 協力ゲーム理論:シャープレイ値 Classified as Confidential by Japan Digital Design, Inc. 22 ◆ シャープレイ値とは 協力ゲーム理論において、協力した各プレイヤーへ利益を公正に分配する方法の一つで、その配分の値 ⚫ プレイヤーiのシャープレイ値の定義式 ⚫ N:プレイヤーの全集合 ⚫ S:Nの部分集合 ⚫ n:プレイヤーの総数 ⚫ v(S):参加者がSのときの全体の利益 プレイヤーiのシャープレイ値とは、 すべての参加者のパターンに対して、 プレイヤーiが参加したときと参加していないときの差分の平均値を取ったもの
  • 23. 特徴量寄与度への応用 Classified as Confidential by Japan Digital Design, Inc. 23 あるデータxが入力されたときのモデルの出力f(x)に対して、 特徴量iがどれだけ貢献しているかを可視化したい。 𝑓(𝑥) ⇔ 解釈したい複雑なモデル 各特徴量のシャープレイ値の線形結合 SHAP Value ゲーム理論におけるプレイヤー → 特徴量 ゲーム理論における全体の利益 → モデルの出力
  • 24. SHAP value Classified as Confidential by Japan Digital Design, Inc. 24 SHAP valueは以下の特性を満たし、一意に決まる Local accuracy : あるデータxについてモデルの出力とSHAP valueの合計値が一致 Missingness : モデルの出力に寄与していない特徴量のSHAP valueは0 Consistency : 特徴量iの有無で出力が大きく影響を受けるモデルのほうがSHAP valueも大 きくなる シャープレイ値を模した SHAP valueが定義できる
  • 25. ✓ 予測モデルと完全に独立しており、予測モデルに手を加える必要がない ✓ 理論自体はモデルの種類を問わず、ディープラーニングやGBDTを含めた全モデルに適用可能 ✓ 理論的にLocal accuracyやConsistencyなどの特性が保証されている ※ただし、実際に計算する際には近似が入るので完全に保証されているわけではない点に注意 SHAPのメリット
  • 26. Thank you for your attention !