Contenu connexe
Similaire à 自然言語処理で読み解く金融文書 (20)
Plus de Takahiro Kubo (20)
自然言語処理で読み解く金融文書
- 1. Copyright © TIS Inc. All rights reserved.
自然言語処理で読み解く金融文書
戦略技術センター
久保隆宏
Survey for NLP deals with financial documents
- 2. Copyright © TIS Inc. All rights reserved. 2
Agenda
◼ 自然言語処理 x 金融文書の現状
◼ 研究x活用の状況
◼ 活用領域ピックアップ
◼ Risk Management
◼ Asset Management
◼ 現状と今後の発展
- 3. Copyright © TIS Inc. All rights reserved. 3
久保隆宏
TIS株式会社 フィナンシャルサービス部
◼ 化学系メーカーの業務コンサルタント出身。
◼ 既存の技術では業務改善を行える範囲に限界があるとの実感から、戦
略技術センターへと異動。
◼ 現在は財務/非財務一体の企業評価を目指し、主にESG投資への活用を
テーマとした研究/事業化を担当。
自己紹介
チュートリアル講演:深層学習
の判断根拠を理解するための研
究とその意義(@PRMU 2017)
機械学習をシステムに組み込む
際の依存性管理について
(@MANABIYA 2018)
あるべきESG投資の評価に向け
た、自然言語処理の活用
(@CCSE 2019)
- 4. Copyright © TIS Inc. All rights reserved. 4
自然言語処理 x 金融文書の現状
ACL系
NeurIPS
AAAI系
KDD
2018 2019 2020
ECONLP 2018
@ ACL2018
ECONLP 2019
@ EMNLP2019
ECONLP 2020
@ ?
Robust AI in FS
@ NeurIPS2019
FinNLP & FinSDB
@ IJCAI2019
KDF
@ AAAI2020
ADF 2019
@ KDD2019
ADF 2017
@ KDD2017
FNP 2018
@ LREC2018
FNP 2019
@ NoDaLiDa 2019
FNP 2020
@ COLING2020
2018~2019年にかけ、多くの国際カンファレンスでワークショップが立ち上が
る(●が初回開催、○が継続)。自然言語処理応用の一分野として確立しつつある。
開催確定
復活
- 5. Copyright © TIS Inc. All rights reserved. 5
研究x活用の状況 (1/4)
◼ 研究x活用の状況は、概ね以下のようになっている。
◼ 色が濃い方が盛んで、左下 が研究、右上 が応用。
Marketing Investment Risk
Management
Compliance Asset
Management
Classification
Sentiment Analysis
Clustering
QA/Dialog
Relation Extraction
Event Extraction
- 6. Copyright © TIS Inc. All rights reserved. 6
研究x活用の状況 (2/4)
活用領域の分類
("Machine learning in UK financial services"をベースに作成)
Asset Management
Risk Management
Marketing Investment
Compliance
顧客管理、取引管理を行うことで資産の
安全性を担保する
定められた内部ルール(内規)への適合性を
検証し、活動の安全性を担保する
投資活動を通じて資産を増やす営業活動を通じて顧客を増やす
リソース(内部文書/外部情報(SNS等))の活用を通じて各活動の支援を行う。
- 7. Copyright © TIS Inc. All rights reserved. 7
研究x活用の状況 (3/4)
ざっくりとした傾向
◼ 研究
◼ Asset Managementに関する研究、特にテキストから市場動向を探
るような研究が多い(株価予測含む)。
◼ 実用でニーズのあるRisk Management(アンチマネーロンダリング
/破産予測など)の研究も行われている。
◼ 実用
◼ 内部的に持っていたモデルを機械学習に置き換えるケースが多い。
◼ Risk Management: アンチマネーロンダリング/信用リスク予測等。
◼ (内部データを使うので、モデルは内製することが多い)。
◼ Marketingに使うチャットボットなども試験的に導入されている。
◼ 熟練営業担当者並みになったという報告もある。
◼ ただ、金融独自というより既存の営業xチャットボットの文脈上にある。
◼ Asset Management/Investmentは道半ば
◼ 研究は盛んだが、顕著な応用例は出ていない。
- 8. Copyright © TIS Inc. All rights reserved. 8
研究x活用の状況 (4/4)
◼ ここからは以下の注目領域に絞って紹介を行う。
◼ 研究x活用共に盛んな領域としてRisk Management
◼ 研究が先行している領域としてAsset Management
Marketing Investment Risk
Management
Compliance Asset
Management
Classification
Sentiment Analysis
Clustering
QA/Dialog
Relation Extraction
Event Extraction
- 9. Copyright © TIS Inc. All rights reserved. 9
研究領域ピックアップ: Risk Management (1/6)
Risk Managementの代表例は以下2点となる。
◼ AML: Anti-Money Laundering
◼ 不正な取引の予防と検知。
◼ 予防: フィルタリング
◼ サービス利用者の同一性(本人であるか)、信用性(暴力団とかじゃない
か)を判定する。前者はKYC(Know Your Customer)/CDD(Customer
Due Diligence)とも呼ばれる。
◼ 検知: トランザクション・モニタリング
◼ 不正取引の傾向を見つけてアラートを行う。
◼ Fraud Detectionと同種。最近Amazonがサービスを公開した。
◼ Bankruptcy Prediction
◼ (取引先が)破産しないか予測する。
- 10. Copyright © TIS Inc. All rights reserved. 10
研究領域ピックアップ: Risk Management (2/6)
Risk Management系の研究は以下のようなものがある。
◼ AML: Anti-Money Laundering
◼ 予防: フィルタリング
◼ NextGen AML: Distributed Deep Learning based Language
Technologies to Augment Anti Money Laundering Investigation
◼ ACL2018 System Demonstrationに採択。
◼ Are You for Real? Detecting Identity Fraud via Dialogue
Interactions
◼ EMNLP2019採択。
◼ 検知: トランザクション・モニタリング
◼ Detecting money laundering and terrorist financing via data
mining
◼ KDD2019 Invited Talk。
◼ Automatic Model Monitoring for Data Streams
◼ KDD2019 Poster。
- 11. Copyright © TIS Inc. All rights reserved. 11
研究領域ピックアップ: Risk Management (3/6)
NextGen AML: Distributed Deep Learning based Language
Technologies to Augment Anti Money Laundering Investigation
アンチマネーロンダリングでは基本的に
False Positiveになるケースが多い(本当はシ
ロだがクロと判定してしまう) 。
「不正取引を見逃してました」、「実は暴力
団関係者でした」という事態が許されないた
め。
そのためクロ判定後の確認作業を支援するシ
ステムを構築(支援している顧客の回答では、
30%ほど確認時間を削減できたとのこと)。
ニュースやツイートのセンチメント抽出、固
有表現/関係認識からのネットワーク構築を
行うことで情報探索を支援する。開発は
Accenture Labsがメインのよう。
- 12. Copyright © TIS Inc. All rights reserved. 12
研究領域ピックアップ: Risk Management (4/6)
Are You for Real? Detecting Identity Fraud via Dialogue Interactions
本人確認を行う対話システムの提案。対話を通じて、本人かどうか(=別の人に成
りすましていないか)を検出する。既存の研究は、マルチモーダルな特徴(画像や
音声)を使うものが多い(Detecting Concealed Information in Text and Speech
@ACL2019)。
Userをルートとしたグラフで個人情報を表現。地理的な情報(出身地や出身大学)
に周辺地理情報を付与する。グラフのトリプル(筑波大/最寄り駅/つくば駅)から
質問を生成し、回答結果でグラフを更新。詐称を見抜けたかどうかを報酬として
強化学習で学習する。ローン審査のユーザーシミュレーターを作り検証。
- 13. Copyright © TIS Inc. All rights reserved. 13
研究領域ピックアップ: Risk Management (5/6)
Detecting money laundering and terrorist financing via data mining
マネーロンダリングを検知するための基本的な仕組みの説明。
わかりやすいマネーロンダリングの仕組み(※やらないでください)。
Overvalueは安価なものを高く、Undervalueは高価なものを安価にやり取りする
ことで国内から海外への送金を実現する。米国の輸出入データ(2001年)で上位/
下位四分位点を超える/下回る単価を調べたところ、怪しい取引を検出できた
($4,000のトイレットペーパーとか$13のダイアモンドなど)。
国内 国外
overvalue
輸入
金額の過剰評価
支払
国内 国外
物品の購入 売却
輸出
請求/支払
undervalue
お勧め
物品の購入
国内の汚いお
金がいったん
物品になるの
でovervalueよ
り安全!
金額の過少評価
- 14. Copyright © TIS Inc. All rights reserved. 14
研究領域ピックアップ: Risk Management (6/6)
Automatic Model Monitoring for Data Streams
ストリームデータに対する予測を監視する手法。
◼ 予測モデルは十分なデータが手に入るまで
は精度が悪い(ヒット商品によるアクセス負
荷と不正試行によるアクセス負荷が区別で
きない)。
◼ 左図中段は初回の検出に失敗している
(検出スコアが低い)
◼ しかし予測の挙動に変化が出るはずなので、
その変化をとらえることで検出のサポート
を行う。
◼ 左図最下段は、実際の予測値系列(T)と
異常がある場合の予測値系列(R)を比較
して異常検知を行う(教師なし)。
監視結果をレポートにし人間がチェックすると
いう運用(その後モデル改良など対応を取る)。
- 15. Copyright © TIS Inc. All rights reserved. 15
研究領域ピックアップ: Asset Management (1/5)
Asset Managementは様々な文書からの情報抽出を行う。
MarketingやInvestment支援の基礎となる情報(企業同士の関係や市場動
向)を抽出したい。
研究は盛んだが、応用は今一歩進んでいない。「抽出できて、それからど
うする」が不透明。
企業活動(営業/投資)の意思決定を上手く支援できるフローを作れれば応
用が進むかもしれない。
◼ 営業活動支援
◼ 販売先のリストアップ
◼ 調達先のリストアップ
◼ 投資活動支援
◼ M&A/出資先のリストアップ
- 16. Copyright © TIS Inc. All rights reserved. 16
研究領域ピックアップ: Asset Management (2/5)
企業文書からの情報抽出としては、以下のような研究がある。
◼ Economic Causal-Chain Search using Text Mining Technology
◼ FinNLP2019 Best paper
◼ Doc2EDAG: An End-to-End Document-level Framework for
Chinese Financial Event Extraction
◼ EMNLP2019採択。
◼ Extracting Complex Relations from Banking Documents
◼ EMNLP-ECONLP2019採択。
- 17. Copyright © TIS Inc. All rights reserved. 17
研究領域ピックアップ: Asset Management (3/5)
Economic Causal-Chain Search using Text Mining Technology
財務諸表のサマリやニュースから、
因果関係に関する記述を抽出した研
究(日本の文書を対象にしている)。
1. 因果関係に関する文の抽出
2. 関係を表す記述の抽出(~のため、
など)
3. 記述をもとにした関係(トリプル)
抽出
という3段階で処理を行っている。
抽出だけでなく、デモシステムも開
発している。結果/原因の探索双方が
可能。
- 18. Copyright © TIS Inc. All rights reserved. 18
研究領域ピックアップ: Asset Management (4-1/5)
Doc2EDAG: An End-to-End Document-level Framework for Chinese
Financial Event Extraction
ドキュメントからイベントを抽出するタスクを提案した研究。
具体的には誰と/誰が/いつ/何をして/その結果は/、という情報をテーブル
形式にまとめる。イベントの記載は複数文にまたがるため、文単体でなく
文書全体からの抽出を行っている。中国の企業文書データセット
(ChFinAnn)を対象に実験。
- 19. Copyright © TIS Inc. All rights reserved. 19
研究領域ピックアップ: Asset Management (4-2/5)
Doc2EDAG: An End-to-End Document-level Framework for Chinese
Financial Event Extraction
1. SentenceをTransformerに入れてEncode
2. CRFでEntityを認識
3. SentenceとEntityの潜在表現をconcat(サイズはMaxpoolでそろえる)
4. TransformerでEncode(ここでDocumentレベルの相関が考慮される)
5. レコード(Event)に相当するイベントが発生しているか判定
6. 5=TrueならRole(カラム)順に沿い探索を行っていく(レコードを作る)
①
② ③ ④ ⑤ ⑥
- 20. Copyright © TIS Inc. All rights reserved. 20
研究領域ピックアップ: Asset Management (5/5)
Extracting Complex Relations from Banking Documents
銀行に寄せられる文書をOCRし、そこから
リクエストを抽出する研究。送金依頼に
絞って送金先や金額などを検出している。
ドキュメント上の文字は一列に並べた系列
として処理する。系列に対し固有表現認識
を行った後に関係抽出をしてグラフを構築。
このグラフから送金指示を抽出する。
グラフからの送金指示抽出には、最大ク
リーク分解(maximal clique
factorization=各頂点が互いに接続されて
いるサブグラフを抽出する手法)が使用さ
れている。
- 21. Copyright © TIS Inc. All rights reserved. 21
現状と今後の発展 (1/2)
現状「金融文書解析といったらこれ」というスタンダードなタスクがない。
ものすごい基礎的か、ものすごい応用かかなり極端。
以下の整備が進んでくれば、分野として発展していくのではないかと考え
られる。
◼ タスクの整備
◼ 金融文書に適したタグの提案と定着
◼ 固有表現(会社名、勘定etc)
◼ 意味表現(Semantic Role, 買収、取引先etc)
◼ 実課題に結びついたタスク(リスト照合(ブラックリスト確認)等)
◼ データセットの整備
◼ スタンダードなデータセットの登場
◼ BERT/ELMoなどの事前学習に耐えられるボリュームのコーパス
◼ SciBERT/BioBERTなどと肩を並べるモデルが作れるか。
- 22. Copyright © TIS Inc. All rights reserved. 22
現状と今後の発展 (2/2)
タスク/データセットの整備には実務者とのコミュニケーションが不可欠。
◼ タスクの精度向上→業務効率向上につながるとベスト
特にAsset Managementは、実務者のフィードバックが必要。
◼ 「どういうことができるのか」を実務者に着信する
◼ 属人的/属会社的でない業務/意思決定プロセスの定義
◼ ある人、ある会社の業務改善だけできても分野として発展しない
◼ 精度と業務上のKPIの関連定義
◼ 応用寄りの研究なら、実務のどこで役立つかは意識したい。
実務者・研究開発者双方向のコミュニケーションを取っていくべく・・・