SlideShare une entreprise Scribd logo
1  sur  23
Télécharger pour lire hors ligne
Copyright © TIS Inc. All rights reserved.
自然言語処理で読み解く金融文書
戦略技術センター
久保隆宏
Survey for NLP deals with financial documents
Copyright © TIS Inc. All rights reserved. 2
Agenda
◼ 自然言語処理 x 金融文書の現状
◼ 研究x活用の状況
◼ 活用領域ピックアップ
◼ Risk Management
◼ Asset Management
◼ 現状と今後の発展
Copyright © TIS Inc. All rights reserved. 3
久保隆宏
TIS株式会社 フィナンシャルサービス部
◼ 化学系メーカーの業務コンサルタント出身。
◼ 既存の技術では業務改善を行える範囲に限界があるとの実感から、戦
略技術センターへと異動。
◼ 現在は財務/非財務一体の企業評価を目指し、主にESG投資への活用を
テーマとした研究/事業化を担当。
自己紹介
チュートリアル講演:深層学習
の判断根拠を理解するための研
究とその意義(@PRMU 2017)
機械学習をシステムに組み込む
際の依存性管理について
(@MANABIYA 2018)
あるべきESG投資の評価に向け
た、自然言語処理の活用
(@CCSE 2019)
Copyright © TIS Inc. All rights reserved. 4
自然言語処理 x 金融文書の現状
ACL系
NeurIPS
AAAI系
KDD
2018 2019 2020
ECONLP 2018
@ ACL2018
ECONLP 2019
@ EMNLP2019
ECONLP 2020
@ ?
Robust AI in FS
@ NeurIPS2019
FinNLP & FinSDB
@ IJCAI2019
KDF
@ AAAI2020
ADF 2019
@ KDD2019
ADF 2017
@ KDD2017
FNP 2018
@ LREC2018
FNP 2019
@ NoDaLiDa 2019
FNP 2020
@ COLING2020
2018~2019年にかけ、多くの国際カンファレンスでワークショップが立ち上が
る(●が初回開催、○が継続)。自然言語処理応用の一分野として確立しつつある。
開催確定
復活
Copyright © TIS Inc. All rights reserved. 5
研究x活用の状況 (1/4)
◼ 研究x活用の状況は、概ね以下のようになっている。
◼ 色が濃い方が盛んで、左下 が研究、右上 が応用。
Marketing Investment Risk
Management
Compliance Asset
Management
Classification
Sentiment Analysis
Clustering
QA/Dialog
Relation Extraction
Event Extraction
Copyright © TIS Inc. All rights reserved. 6
研究x活用の状況 (2/4)
活用領域の分類
("Machine learning in UK financial services"をベースに作成)
Asset Management
Risk Management
Marketing Investment
Compliance
顧客管理、取引管理を行うことで資産の
安全性を担保する
定められた内部ルール(内規)への適合性を
検証し、活動の安全性を担保する
投資活動を通じて資産を増やす営業活動を通じて顧客を増やす
リソース(内部文書/外部情報(SNS等))の活用を通じて各活動の支援を行う。
Copyright © TIS Inc. All rights reserved. 7
研究x活用の状況 (3/4)
ざっくりとした傾向
◼ 研究
◼ Asset Managementに関する研究、特にテキストから市場動向を探
るような研究が多い(株価予測含む)。
◼ 実用でニーズのあるRisk Management(アンチマネーロンダリング
/破産予測など)の研究も行われている。
◼ 実用
◼ 内部的に持っていたモデルを機械学習に置き換えるケースが多い。
◼ Risk Management: アンチマネーロンダリング/信用リスク予測等。
◼ (内部データを使うので、モデルは内製することが多い)。
◼ Marketingに使うチャットボットなども試験的に導入されている。
◼ 熟練営業担当者並みになったという報告もある。
◼ ただ、金融独自というより既存の営業xチャットボットの文脈上にある。
◼ Asset Management/Investmentは道半ば
◼ 研究は盛んだが、顕著な応用例は出ていない。
Copyright © TIS Inc. All rights reserved. 8
研究x活用の状況 (4/4)
◼ ここからは以下の注目領域に絞って紹介を行う。
◼ 研究x活用共に盛んな領域としてRisk Management
◼ 研究が先行している領域としてAsset Management
Marketing Investment Risk
Management
Compliance Asset
Management
Classification
Sentiment Analysis
Clustering
QA/Dialog
Relation Extraction
Event Extraction
Copyright © TIS Inc. All rights reserved. 9
研究領域ピックアップ: Risk Management (1/6)
Risk Managementの代表例は以下2点となる。
◼ AML: Anti-Money Laundering
◼ 不正な取引の予防と検知。
◼ 予防: フィルタリング
◼ サービス利用者の同一性(本人であるか)、信用性(暴力団とかじゃない
か)を判定する。前者はKYC(Know Your Customer)/CDD(Customer
Due Diligence)とも呼ばれる。
◼ 検知: トランザクション・モニタリング
◼ 不正取引の傾向を見つけてアラートを行う。
◼ Fraud Detectionと同種。最近Amazonがサービスを公開した。
◼ Bankruptcy Prediction
◼ (取引先が)破産しないか予測する。
Copyright © TIS Inc. All rights reserved. 10
研究領域ピックアップ: Risk Management (2/6)
Risk Management系の研究は以下のようなものがある。
◼ AML: Anti-Money Laundering
◼ 予防: フィルタリング
◼ NextGen AML: Distributed Deep Learning based Language
Technologies to Augment Anti Money Laundering Investigation
◼ ACL2018 System Demonstrationに採択。
◼ Are You for Real? Detecting Identity Fraud via Dialogue
Interactions
◼ EMNLP2019採択。
◼ 検知: トランザクション・モニタリング
◼ Detecting money laundering and terrorist financing via data
mining
◼ KDD2019 Invited Talk。
◼ Automatic Model Monitoring for Data Streams
◼ KDD2019 Poster。
Copyright © TIS Inc. All rights reserved. 11
研究領域ピックアップ: Risk Management (3/6)
NextGen AML: Distributed Deep Learning based Language
Technologies to Augment Anti Money Laundering Investigation
アンチマネーロンダリングでは基本的に
False Positiveになるケースが多い(本当はシ
ロだがクロと判定してしまう) 。
「不正取引を見逃してました」、「実は暴力
団関係者でした」という事態が許されないた
め。
そのためクロ判定後の確認作業を支援するシ
ステムを構築(支援している顧客の回答では、
30%ほど確認時間を削減できたとのこと)。
ニュースやツイートのセンチメント抽出、固
有表現/関係認識からのネットワーク構築を
行うことで情報探索を支援する。開発は
Accenture Labsがメインのよう。
Copyright © TIS Inc. All rights reserved. 12
研究領域ピックアップ: Risk Management (4/6)
Are You for Real? Detecting Identity Fraud via Dialogue Interactions
本人確認を行う対話システムの提案。対話を通じて、本人かどうか(=別の人に成
りすましていないか)を検出する。既存の研究は、マルチモーダルな特徴(画像や
音声)を使うものが多い(Detecting Concealed Information in Text and Speech
@ACL2019)。
Userをルートとしたグラフで個人情報を表現。地理的な情報(出身地や出身大学)
に周辺地理情報を付与する。グラフのトリプル(筑波大/最寄り駅/つくば駅)から
質問を生成し、回答結果でグラフを更新。詐称を見抜けたかどうかを報酬として
強化学習で学習する。ローン審査のユーザーシミュレーターを作り検証。
Copyright © TIS Inc. All rights reserved. 13
研究領域ピックアップ: Risk Management (5/6)
Detecting money laundering and terrorist financing via data mining
マネーロンダリングを検知するための基本的な仕組みの説明。
わかりやすいマネーロンダリングの仕組み(※やらないでください)。
Overvalueは安価なものを高く、Undervalueは高価なものを安価にやり取りする
ことで国内から海外への送金を実現する。米国の輸出入データ(2001年)で上位/
下位四分位点を超える/下回る単価を調べたところ、怪しい取引を検出できた
($4,000のトイレットペーパーとか$13のダイアモンドなど)。
国内 国外
overvalue
輸入
金額の過剰評価
支払
国内 国外
物品の購入 売却
輸出
請求/支払
undervalue
お勧め
物品の購入
国内の汚いお
金がいったん
物品になるの
でovervalueよ
り安全!
金額の過少評価
Copyright © TIS Inc. All rights reserved. 14
研究領域ピックアップ: Risk Management (6/6)
Automatic Model Monitoring for Data Streams
ストリームデータに対する予測を監視する手法。
◼ 予測モデルは十分なデータが手に入るまで
は精度が悪い(ヒット商品によるアクセス負
荷と不正試行によるアクセス負荷が区別で
きない)。
◼ 左図中段は初回の検出に失敗している
(検出スコアが低い)
◼ しかし予測の挙動に変化が出るはずなので、
その変化をとらえることで検出のサポート
を行う。
◼ 左図最下段は、実際の予測値系列(T)と
異常がある場合の予測値系列(R)を比較
して異常検知を行う(教師なし)。
監視結果をレポートにし人間がチェックすると
いう運用(その後モデル改良など対応を取る)。
Copyright © TIS Inc. All rights reserved. 15
研究領域ピックアップ: Asset Management (1/5)
Asset Managementは様々な文書からの情報抽出を行う。
MarketingやInvestment支援の基礎となる情報(企業同士の関係や市場動
向)を抽出したい。
研究は盛んだが、応用は今一歩進んでいない。「抽出できて、それからど
うする」が不透明。
企業活動(営業/投資)の意思決定を上手く支援できるフローを作れれば応
用が進むかもしれない。
◼ 営業活動支援
◼ 販売先のリストアップ
◼ 調達先のリストアップ
◼ 投資活動支援
◼ M&A/出資先のリストアップ
Copyright © TIS Inc. All rights reserved. 16
研究領域ピックアップ: Asset Management (2/5)
企業文書からの情報抽出としては、以下のような研究がある。
◼ Economic Causal-Chain Search using Text Mining Technology
◼ FinNLP2019 Best paper
◼ Doc2EDAG: An End-to-End Document-level Framework for
Chinese Financial Event Extraction
◼ EMNLP2019採択。
◼ Extracting Complex Relations from Banking Documents
◼ EMNLP-ECONLP2019採択。
Copyright © TIS Inc. All rights reserved. 17
研究領域ピックアップ: Asset Management (3/5)
Economic Causal-Chain Search using Text Mining Technology
財務諸表のサマリやニュースから、
因果関係に関する記述を抽出した研
究(日本の文書を対象にしている)。
1. 因果関係に関する文の抽出
2. 関係を表す記述の抽出(~のため、
など)
3. 記述をもとにした関係(トリプル)
抽出
という3段階で処理を行っている。
抽出だけでなく、デモシステムも開
発している。結果/原因の探索双方が
可能。
Copyright © TIS Inc. All rights reserved. 18
研究領域ピックアップ: Asset Management (4-1/5)
Doc2EDAG: An End-to-End Document-level Framework for Chinese
Financial Event Extraction
ドキュメントからイベントを抽出するタスクを提案した研究。
具体的には誰と/誰が/いつ/何をして/その結果は/、という情報をテーブル
形式にまとめる。イベントの記載は複数文にまたがるため、文単体でなく
文書全体からの抽出を行っている。中国の企業文書データセット
(ChFinAnn)を対象に実験。
Copyright © TIS Inc. All rights reserved. 19
研究領域ピックアップ: Asset Management (4-2/5)
Doc2EDAG: An End-to-End Document-level Framework for Chinese
Financial Event Extraction
1. SentenceをTransformerに入れてEncode
2. CRFでEntityを認識
3. SentenceとEntityの潜在表現をconcat(サイズはMaxpoolでそろえる)
4. TransformerでEncode(ここでDocumentレベルの相関が考慮される)
5. レコード(Event)に相当するイベントが発生しているか判定
6. 5=TrueならRole(カラム)順に沿い探索を行っていく(レコードを作る)
①
② ③ ④ ⑤ ⑥
Copyright © TIS Inc. All rights reserved. 20
研究領域ピックアップ: Asset Management (5/5)
Extracting Complex Relations from Banking Documents
銀行に寄せられる文書をOCRし、そこから
リクエストを抽出する研究。送金依頼に
絞って送金先や金額などを検出している。
ドキュメント上の文字は一列に並べた系列
として処理する。系列に対し固有表現認識
を行った後に関係抽出をしてグラフを構築。
このグラフから送金指示を抽出する。
グラフからの送金指示抽出には、最大ク
リーク分解(maximal clique
factorization=各頂点が互いに接続されて
いるサブグラフを抽出する手法)が使用さ
れている。
Copyright © TIS Inc. All rights reserved. 21
現状と今後の発展 (1/2)
現状「金融文書解析といったらこれ」というスタンダードなタスクがない。
ものすごい基礎的か、ものすごい応用かかなり極端。
以下の整備が進んでくれば、分野として発展していくのではないかと考え
られる。
◼ タスクの整備
◼ 金融文書に適したタグの提案と定着
◼ 固有表現(会社名、勘定etc)
◼ 意味表現(Semantic Role, 買収、取引先etc)
◼ 実課題に結びついたタスク(リスト照合(ブラックリスト確認)等)
◼ データセットの整備
◼ スタンダードなデータセットの登場
◼ BERT/ELMoなどの事前学習に耐えられるボリュームのコーパス
◼ SciBERT/BioBERTなどと肩を並べるモデルが作れるか。
Copyright © TIS Inc. All rights reserved. 22
現状と今後の発展 (2/2)
タスク/データセットの整備には実務者とのコミュニケーションが不可欠。
◼ タスクの精度向上→業務効率向上につながるとベスト
特にAsset Managementは、実務者のフィードバックが必要。
◼ 「どういうことができるのか」を実務者に着信する
◼ 属人的/属会社的でない業務/意思決定プロセスの定義
◼ ある人、ある会社の業務改善だけできても分野として発展しない
◼ 精度と業務上のKPIの関連定義
◼ 応用寄りの研究なら、実務のどこで役立つかは意識したい。
実務者・研究開発者双方向のコミュニケーションを取っていくべく・・・
THANK YOU

Contenu connexe

Tendances

数理最適化とPython
数理最適化とPython数理最適化とPython
数理最適化とPython
Yosuke Onoue
 
Active Learning 入門
Active Learning 入門Active Learning 入門
Active Learning 入門
Shuyo Nakatani
 

Tendances (20)

【DL輪読会】Scaling laws for single-agent reinforcement learning
【DL輪読会】Scaling laws for single-agent reinforcement learning【DL輪読会】Scaling laws for single-agent reinforcement learning
【DL輪読会】Scaling laws for single-agent reinforcement learning
 
[DL輪読会]逆強化学習とGANs
[DL輪読会]逆強化学習とGANs[DL輪読会]逆強化学習とGANs
[DL輪読会]逆強化学習とGANs
 
[DL輪読会]“Highly accurate protein structure prediction with AlphaFold”
[DL輪読会]“Highly accurate protein structure prediction with AlphaFold”[DL輪読会]“Highly accurate protein structure prediction with AlphaFold”
[DL輪読会]“Highly accurate protein structure prediction with AlphaFold”
 
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
 
グラフィカル Lasso を用いた異常検知
グラフィカル Lasso を用いた異常検知グラフィカル Lasso を用いた異常検知
グラフィカル Lasso を用いた異常検知
 
20180305_ppl2018_演繹から帰納へ~新しいシステム開発パラダイム~
20180305_ppl2018_演繹から帰納へ~新しいシステム開発パラダイム~20180305_ppl2018_演繹から帰納へ~新しいシステム開発パラダイム~
20180305_ppl2018_演繹から帰納へ~新しいシステム開発パラダイム~
 
【DL輪読会】Foundation Models for Decision Making: Problems, Methods, and Opportun...
【DL輪読会】Foundation Models for Decision Making: Problems, Methods, and Opportun...【DL輪読会】Foundation Models for Decision Making: Problems, Methods, and Opportun...
【DL輪読会】Foundation Models for Decision Making: Problems, Methods, and Opportun...
 
[DL輪読会]近年のエネルギーベースモデルの進展
[DL輪読会]近年のエネルギーベースモデルの進展[DL輪読会]近年のエネルギーベースモデルの進展
[DL輪読会]近年のエネルギーベースモデルの進展
 
工学系大学4年生のための論文の読み方
工学系大学4年生のための論文の読み方工学系大学4年生のための論文の読み方
工学系大学4年生のための論文の読み方
 
【DL輪読会】DayDreamer: World Models for Physical Robot Learning
【DL輪読会】DayDreamer: World Models for Physical Robot Learning【DL輪読会】DayDreamer: World Models for Physical Robot Learning
【DL輪読会】DayDreamer: World Models for Physical Robot Learning
 
機械学習モデルの判断根拠の説明(Ver.2)
機械学習モデルの判断根拠の説明(Ver.2)機械学習モデルの判断根拠の説明(Ver.2)
機械学習モデルの判断根拠の説明(Ver.2)
 
【DL輪読会】Diffusion Policy: Visuomotor Policy Learning via Action Diffusion
【DL輪読会】Diffusion Policy: Visuomotor Policy Learning via Action Diffusion【DL輪読会】Diffusion Policy: Visuomotor Policy Learning via Action Diffusion
【DL輪読会】Diffusion Policy: Visuomotor Policy Learning via Action Diffusion
 
CV分野におけるサーベイ方法
CV分野におけるサーベイ方法CV分野におけるサーベイ方法
CV分野におけるサーベイ方法
 
深層生成モデルと世界モデル(2020/11/20版)
深層生成モデルと世界モデル(2020/11/20版)深層生成モデルと世界モデル(2020/11/20版)
深層生成モデルと世界モデル(2020/11/20版)
 
数理最適化とPython
数理最適化とPython数理最適化とPython
数理最適化とPython
 
Active Learning 入門
Active Learning 入門Active Learning 入門
Active Learning 入門
 
[DL輪読会]Reward Augmented Maximum Likelihood for Neural Structured Prediction
[DL輪読会]Reward Augmented Maximum Likelihood for Neural Structured Prediction[DL輪読会]Reward Augmented Maximum Likelihood for Neural Structured Prediction
[DL輪読会]Reward Augmented Maximum Likelihood for Neural Structured Prediction
 
MLOpsはバズワード
MLOpsはバズワードMLOpsはバズワード
MLOpsはバズワード
 
[DL輪読会] マルチエージェント強化学習と心の理論
[DL輪読会] マルチエージェント強化学習と心の理論[DL輪読会] マルチエージェント強化学習と心の理論
[DL輪読会] マルチエージェント強化学習と心の理論
 
最適輸送入門
最適輸送入門最適輸送入門
最適輸送入門
 

Similaire à 自然言語処理で読み解く金融文書

おしゃスタVI 倉橋
おしゃスタVI 倉橋おしゃスタVI 倉橋
おしゃスタVI 倉橋
Issei Kurahashi
 

Similaire à 自然言語処理で読み解く金融文書 (20)

モデルではなく、データセットを蒸留する
モデルではなく、データセットを蒸留するモデルではなく、データセットを蒸留する
モデルではなく、データセットを蒸留する
 
自然言語処理で新型コロナウィルスに立ち向かう
自然言語処理で新型コロナウィルスに立ち向かう自然言語処理で新型コロナウィルスに立ち向かう
自然言語処理で新型コロナウィルスに立ち向かう
 
コロナウイルス感染症対策の補助金・支援制度セミナー
コロナウイルス感染症対策の補助金・支援制度セミナーコロナウイルス感染症対策の補助金・支援制度セミナー
コロナウイルス感染症対策の補助金・支援制度セミナー
 
TISにおける、研究開発のメソッド
TISにおける、研究開発のメソッドTISにおける、研究開発のメソッド
TISにおける、研究開発のメソッド
 
機械学習を用いた会議診断システムの開発
機械学習を用いた会議診断システムの開発機械学習を用いた会議診断システムの開発
機械学習を用いた会議診断システムの開発
 
おしゃスタVI 倉橋
おしゃスタVI 倉橋おしゃスタVI 倉橋
おしゃスタVI 倉橋
 
中小企業におけるSDGsの活用方法~国内外の動向と活用に向けたステップ・活用事例紹介~
中小企業におけるSDGsの活用方法~国内外の動向と活用に向けたステップ・活用事例紹介~中小企業におけるSDGsの活用方法~国内外の動向と活用に向けたステップ・活用事例紹介~
中小企業におけるSDGsの活用方法~国内外の動向と活用に向けたステップ・活用事例紹介~
 
オープンソースカンファレンスBi勉強会20141018
オープンソースカンファレンスBi勉強会20141018オープンソースカンファレンスBi勉強会20141018
オープンソースカンファレンスBi勉強会20141018
 
ESG評価を支える自然言語処理基盤の構築
ESG評価を支える自然言語処理基盤の構築ESG評価を支える自然言語処理基盤の構築
ESG評価を支える自然言語処理基盤の構築
 
情シスのひみつ
情シスのひみつ情シスのひみつ
情シスのひみつ
 
TIS 戦略技術センター AI技術推進室紹介
TIS 戦略技術センター AI技術推進室紹介TIS 戦略技術センター AI技術推進室紹介
TIS 戦略技術センター AI技術推進室紹介
 
アドテクを支える人と技術
アドテクを支える人と技術アドテクを支える人と技術
アドテクを支える人と技術
 
事業会社が開催する人材育成プログラム ”Data Science BOOTCAMP”とは?
事業会社が開催する人材育成プログラム ”Data Science BOOTCAMP”とは?事業会社が開催する人材育成プログラム ”Data Science BOOTCAMP”とは?
事業会社が開催する人材育成プログラム ”Data Science BOOTCAMP”とは?
 
失敗談から学ぶ!アクションにつながるデータ分析のコツ[2014.12.11 開催セミナー]
失敗談から学ぶ!アクションにつながるデータ分析のコツ[2014.12.11 開催セミナー]失敗談から学ぶ!アクションにつながるデータ分析のコツ[2014.12.11 開催セミナー]
失敗談から学ぶ!アクションにつながるデータ分析のコツ[2014.12.11 開催セミナー]
 
Newsletter20110202
Newsletter20110202Newsletter20110202
Newsletter20110202
 
20141018 osc tokyo2014講演(配布用)
20141018 osc tokyo2014講演(配布用)20141018 osc tokyo2014講演(配布用)
20141018 osc tokyo2014講演(配布用)
 
アントレプレナー研究会
アントレプレナー研究会アントレプレナー研究会
アントレプレナー研究会
 
みんなのPython勉強会#21 澪標アナリティクス 井原様
みんなのPython勉強会#21 澪標アナリティクス 井原様みんなのPython勉強会#21 澪標アナリティクス 井原様
みんなのPython勉強会#21 澪標アナリティクス 井原様
 
金融ISAC アニュアルカンファレンス 2020:Intelligence Driven Securityの「ことはじめ」
金融ISAC アニュアルカンファレンス 2020:Intelligence Driven Securityの「ことはじめ」金融ISAC アニュアルカンファレンス 2020:Intelligence Driven Securityの「ことはじめ」
金融ISAC アニュアルカンファレンス 2020:Intelligence Driven Securityの「ことはじめ」
 
RuleWatcher_intro_JP
RuleWatcher_intro_JPRuleWatcher_intro_JP
RuleWatcher_intro_JP
 

Plus de Takahiro Kubo

画像認識モデルを自動的に作る。1日以内に。~Simple And Efficient Architecture Search for Convolutio...
画像認識モデルを自動的に作る。1日以内に。~Simple And Efficient Architecture Search for Convolutio...画像認識モデルを自動的に作る。1日以内に。~Simple And Efficient Architecture Search for Convolutio...
画像認識モデルを自動的に作る。1日以内に。~Simple And Efficient Architecture Search for Convolutio...
Takahiro Kubo
 

Plus de Takahiro Kubo (20)

自然言語処理による企業の気候変動対策分析
自然言語処理による企業の気候変動対策分析自然言語処理による企業の気候変動対策分析
自然言語処理による企業の気候変動対策分析
 
国際会計基準(IFRS)適用企業の財務評価方法
国際会計基準(IFRS)適用企業の財務評価方法国際会計基準(IFRS)適用企業の財務評価方法
国際会計基準(IFRS)適用企業の財務評価方法
 
arXivTimes Review: 2019年前半で印象に残った論文を振り返る
arXivTimes Review: 2019年前半で印象に残った論文を振り返るarXivTimes Review: 2019年前半で印象に残った論文を振り返る
arXivTimes Review: 2019年前半で印象に残った論文を振り返る
 
Expressing Visual Relationships via Language: 自然言語による画像編集を目指して
Expressing Visual Relationships via Language: 自然言語による画像編集を目指してExpressing Visual Relationships via Language: 自然言語による画像編集を目指して
Expressing Visual Relationships via Language: 自然言語による画像編集を目指して
 
Reinforcement Learning Inside Business
Reinforcement Learning Inside BusinessReinforcement Learning Inside Business
Reinforcement Learning Inside Business
 
あるべきESG投資の評価に向けた、自然言語処理の活用
あるべきESG投資の評価に向けた、自然言語処理の活用あるべきESG投資の評価に向けた、自然言語処理の活用
あるべきESG投資の評価に向けた、自然言語処理の活用
 
nlpaper.challenge NLP/CV交流勉強会 画像認識 7章
nlpaper.challenge NLP/CV交流勉強会 画像認識 7章nlpaper.challenge NLP/CV交流勉強会 画像認識 7章
nlpaper.challenge NLP/CV交流勉強会 画像認識 7章
 
Curiosity may drives your output routine.
Curiosity may drives  your output routine.Curiosity may drives  your output routine.
Curiosity may drives your output routine.
 
EMNLP2018 Overview
EMNLP2018 OverviewEMNLP2018 Overview
EMNLP2018 Overview
 
2018年12月4日までに『呪術廻戦』を読む理由
2018年12月4日までに『呪術廻戦』を読む理由2018年12月4日までに『呪術廻戦』を読む理由
2018年12月4日までに『呪術廻戦』を読む理由
 
Graph Attention Network
Graph Attention NetworkGraph Attention Network
Graph Attention Network
 
ACL2018の歩き方
 ACL2018の歩き方 ACL2018の歩き方
ACL2018の歩き方
 
機械学習で泣かないためのコード設計 2018
機械学習で泣かないためのコード設計 2018機械学習で泣かないためのコード設計 2018
機械学習で泣かないためのコード設計 2018
 
TISにおける、研究開発の方針とメソッド 2018
TISにおける、研究開発の方針とメソッド 2018TISにおける、研究開発の方針とメソッド 2018
TISにおける、研究開発の方針とメソッド 2018
 
感情の出どころを探る、一歩進んだ感情解析
感情の出どころを探る、一歩進んだ感情解析感情の出どころを探る、一歩進んだ感情解析
感情の出どころを探る、一歩進んだ感情解析
 
機械学習の力を引き出すための依存性管理
機械学習の力を引き出すための依存性管理機械学習の力を引き出すための依存性管理
機械学習の力を引き出すための依存性管理
 
画像認識モデルを自動的に作る。1日以内に。~Simple And Efficient Architecture Search for Convolutio...
画像認識モデルを自動的に作る。1日以内に。~Simple And Efficient Architecture Search for Convolutio...画像認識モデルを自動的に作る。1日以内に。~Simple And Efficient Architecture Search for Convolutio...
画像認識モデルを自動的に作る。1日以内に。~Simple And Efficient Architecture Search for Convolutio...
 
技術文書を書く際の、心技体<改訂版>
技術文書を書く際の、心技体<改訂版>技術文書を書く際の、心技体<改訂版>
技術文書を書く際の、心技体<改訂版>
 
kintone evangelist meetup 2017
kintone evangelist meetup 2017kintone evangelist meetup 2017
kintone evangelist meetup 2017
 
深層学習の判断根拠を理解するための 研究とその意義 @PRMU 2017熊本
深層学習の判断根拠を理解するための 研究とその意義 @PRMU 2017熊本深層学習の判断根拠を理解するための 研究とその意義 @PRMU 2017熊本
深層学習の判断根拠を理解するための 研究とその意義 @PRMU 2017熊本
 

自然言語処理で読み解く金融文書

  • 1. Copyright © TIS Inc. All rights reserved. 自然言語処理で読み解く金融文書 戦略技術センター 久保隆宏 Survey for NLP deals with financial documents
  • 2. Copyright © TIS Inc. All rights reserved. 2 Agenda ◼ 自然言語処理 x 金融文書の現状 ◼ 研究x活用の状況 ◼ 活用領域ピックアップ ◼ Risk Management ◼ Asset Management ◼ 現状と今後の発展
  • 3. Copyright © TIS Inc. All rights reserved. 3 久保隆宏 TIS株式会社 フィナンシャルサービス部 ◼ 化学系メーカーの業務コンサルタント出身。 ◼ 既存の技術では業務改善を行える範囲に限界があるとの実感から、戦 略技術センターへと異動。 ◼ 現在は財務/非財務一体の企業評価を目指し、主にESG投資への活用を テーマとした研究/事業化を担当。 自己紹介 チュートリアル講演:深層学習 の判断根拠を理解するための研 究とその意義(@PRMU 2017) 機械学習をシステムに組み込む 際の依存性管理について (@MANABIYA 2018) あるべきESG投資の評価に向け た、自然言語処理の活用 (@CCSE 2019)
  • 4. Copyright © TIS Inc. All rights reserved. 4 自然言語処理 x 金融文書の現状 ACL系 NeurIPS AAAI系 KDD 2018 2019 2020 ECONLP 2018 @ ACL2018 ECONLP 2019 @ EMNLP2019 ECONLP 2020 @ ? Robust AI in FS @ NeurIPS2019 FinNLP & FinSDB @ IJCAI2019 KDF @ AAAI2020 ADF 2019 @ KDD2019 ADF 2017 @ KDD2017 FNP 2018 @ LREC2018 FNP 2019 @ NoDaLiDa 2019 FNP 2020 @ COLING2020 2018~2019年にかけ、多くの国際カンファレンスでワークショップが立ち上が る(●が初回開催、○が継続)。自然言語処理応用の一分野として確立しつつある。 開催確定 復活
  • 5. Copyright © TIS Inc. All rights reserved. 5 研究x活用の状況 (1/4) ◼ 研究x活用の状況は、概ね以下のようになっている。 ◼ 色が濃い方が盛んで、左下 が研究、右上 が応用。 Marketing Investment Risk Management Compliance Asset Management Classification Sentiment Analysis Clustering QA/Dialog Relation Extraction Event Extraction
  • 6. Copyright © TIS Inc. All rights reserved. 6 研究x活用の状況 (2/4) 活用領域の分類 ("Machine learning in UK financial services"をベースに作成) Asset Management Risk Management Marketing Investment Compliance 顧客管理、取引管理を行うことで資産の 安全性を担保する 定められた内部ルール(内規)への適合性を 検証し、活動の安全性を担保する 投資活動を通じて資産を増やす営業活動を通じて顧客を増やす リソース(内部文書/外部情報(SNS等))の活用を通じて各活動の支援を行う。
  • 7. Copyright © TIS Inc. All rights reserved. 7 研究x活用の状況 (3/4) ざっくりとした傾向 ◼ 研究 ◼ Asset Managementに関する研究、特にテキストから市場動向を探 るような研究が多い(株価予測含む)。 ◼ 実用でニーズのあるRisk Management(アンチマネーロンダリング /破産予測など)の研究も行われている。 ◼ 実用 ◼ 内部的に持っていたモデルを機械学習に置き換えるケースが多い。 ◼ Risk Management: アンチマネーロンダリング/信用リスク予測等。 ◼ (内部データを使うので、モデルは内製することが多い)。 ◼ Marketingに使うチャットボットなども試験的に導入されている。 ◼ 熟練営業担当者並みになったという報告もある。 ◼ ただ、金融独自というより既存の営業xチャットボットの文脈上にある。 ◼ Asset Management/Investmentは道半ば ◼ 研究は盛んだが、顕著な応用例は出ていない。
  • 8. Copyright © TIS Inc. All rights reserved. 8 研究x活用の状況 (4/4) ◼ ここからは以下の注目領域に絞って紹介を行う。 ◼ 研究x活用共に盛んな領域としてRisk Management ◼ 研究が先行している領域としてAsset Management Marketing Investment Risk Management Compliance Asset Management Classification Sentiment Analysis Clustering QA/Dialog Relation Extraction Event Extraction
  • 9. Copyright © TIS Inc. All rights reserved. 9 研究領域ピックアップ: Risk Management (1/6) Risk Managementの代表例は以下2点となる。 ◼ AML: Anti-Money Laundering ◼ 不正な取引の予防と検知。 ◼ 予防: フィルタリング ◼ サービス利用者の同一性(本人であるか)、信用性(暴力団とかじゃない か)を判定する。前者はKYC(Know Your Customer)/CDD(Customer Due Diligence)とも呼ばれる。 ◼ 検知: トランザクション・モニタリング ◼ 不正取引の傾向を見つけてアラートを行う。 ◼ Fraud Detectionと同種。最近Amazonがサービスを公開した。 ◼ Bankruptcy Prediction ◼ (取引先が)破産しないか予測する。
  • 10. Copyright © TIS Inc. All rights reserved. 10 研究領域ピックアップ: Risk Management (2/6) Risk Management系の研究は以下のようなものがある。 ◼ AML: Anti-Money Laundering ◼ 予防: フィルタリング ◼ NextGen AML: Distributed Deep Learning based Language Technologies to Augment Anti Money Laundering Investigation ◼ ACL2018 System Demonstrationに採択。 ◼ Are You for Real? Detecting Identity Fraud via Dialogue Interactions ◼ EMNLP2019採択。 ◼ 検知: トランザクション・モニタリング ◼ Detecting money laundering and terrorist financing via data mining ◼ KDD2019 Invited Talk。 ◼ Automatic Model Monitoring for Data Streams ◼ KDD2019 Poster。
  • 11. Copyright © TIS Inc. All rights reserved. 11 研究領域ピックアップ: Risk Management (3/6) NextGen AML: Distributed Deep Learning based Language Technologies to Augment Anti Money Laundering Investigation アンチマネーロンダリングでは基本的に False Positiveになるケースが多い(本当はシ ロだがクロと判定してしまう) 。 「不正取引を見逃してました」、「実は暴力 団関係者でした」という事態が許されないた め。 そのためクロ判定後の確認作業を支援するシ ステムを構築(支援している顧客の回答では、 30%ほど確認時間を削減できたとのこと)。 ニュースやツイートのセンチメント抽出、固 有表現/関係認識からのネットワーク構築を 行うことで情報探索を支援する。開発は Accenture Labsがメインのよう。
  • 12. Copyright © TIS Inc. All rights reserved. 12 研究領域ピックアップ: Risk Management (4/6) Are You for Real? Detecting Identity Fraud via Dialogue Interactions 本人確認を行う対話システムの提案。対話を通じて、本人かどうか(=別の人に成 りすましていないか)を検出する。既存の研究は、マルチモーダルな特徴(画像や 音声)を使うものが多い(Detecting Concealed Information in Text and Speech @ACL2019)。 Userをルートとしたグラフで個人情報を表現。地理的な情報(出身地や出身大学) に周辺地理情報を付与する。グラフのトリプル(筑波大/最寄り駅/つくば駅)から 質問を生成し、回答結果でグラフを更新。詐称を見抜けたかどうかを報酬として 強化学習で学習する。ローン審査のユーザーシミュレーターを作り検証。
  • 13. Copyright © TIS Inc. All rights reserved. 13 研究領域ピックアップ: Risk Management (5/6) Detecting money laundering and terrorist financing via data mining マネーロンダリングを検知するための基本的な仕組みの説明。 わかりやすいマネーロンダリングの仕組み(※やらないでください)。 Overvalueは安価なものを高く、Undervalueは高価なものを安価にやり取りする ことで国内から海外への送金を実現する。米国の輸出入データ(2001年)で上位/ 下位四分位点を超える/下回る単価を調べたところ、怪しい取引を検出できた ($4,000のトイレットペーパーとか$13のダイアモンドなど)。 国内 国外 overvalue 輸入 金額の過剰評価 支払 国内 国外 物品の購入 売却 輸出 請求/支払 undervalue お勧め 物品の購入 国内の汚いお 金がいったん 物品になるの でovervalueよ り安全! 金額の過少評価
  • 14. Copyright © TIS Inc. All rights reserved. 14 研究領域ピックアップ: Risk Management (6/6) Automatic Model Monitoring for Data Streams ストリームデータに対する予測を監視する手法。 ◼ 予測モデルは十分なデータが手に入るまで は精度が悪い(ヒット商品によるアクセス負 荷と不正試行によるアクセス負荷が区別で きない)。 ◼ 左図中段は初回の検出に失敗している (検出スコアが低い) ◼ しかし予測の挙動に変化が出るはずなので、 その変化をとらえることで検出のサポート を行う。 ◼ 左図最下段は、実際の予測値系列(T)と 異常がある場合の予測値系列(R)を比較 して異常検知を行う(教師なし)。 監視結果をレポートにし人間がチェックすると いう運用(その後モデル改良など対応を取る)。
  • 15. Copyright © TIS Inc. All rights reserved. 15 研究領域ピックアップ: Asset Management (1/5) Asset Managementは様々な文書からの情報抽出を行う。 MarketingやInvestment支援の基礎となる情報(企業同士の関係や市場動 向)を抽出したい。 研究は盛んだが、応用は今一歩進んでいない。「抽出できて、それからど うする」が不透明。 企業活動(営業/投資)の意思決定を上手く支援できるフローを作れれば応 用が進むかもしれない。 ◼ 営業活動支援 ◼ 販売先のリストアップ ◼ 調達先のリストアップ ◼ 投資活動支援 ◼ M&A/出資先のリストアップ
  • 16. Copyright © TIS Inc. All rights reserved. 16 研究領域ピックアップ: Asset Management (2/5) 企業文書からの情報抽出としては、以下のような研究がある。 ◼ Economic Causal-Chain Search using Text Mining Technology ◼ FinNLP2019 Best paper ◼ Doc2EDAG: An End-to-End Document-level Framework for Chinese Financial Event Extraction ◼ EMNLP2019採択。 ◼ Extracting Complex Relations from Banking Documents ◼ EMNLP-ECONLP2019採択。
  • 17. Copyright © TIS Inc. All rights reserved. 17 研究領域ピックアップ: Asset Management (3/5) Economic Causal-Chain Search using Text Mining Technology 財務諸表のサマリやニュースから、 因果関係に関する記述を抽出した研 究(日本の文書を対象にしている)。 1. 因果関係に関する文の抽出 2. 関係を表す記述の抽出(~のため、 など) 3. 記述をもとにした関係(トリプル) 抽出 という3段階で処理を行っている。 抽出だけでなく、デモシステムも開 発している。結果/原因の探索双方が 可能。
  • 18. Copyright © TIS Inc. All rights reserved. 18 研究領域ピックアップ: Asset Management (4-1/5) Doc2EDAG: An End-to-End Document-level Framework for Chinese Financial Event Extraction ドキュメントからイベントを抽出するタスクを提案した研究。 具体的には誰と/誰が/いつ/何をして/その結果は/、という情報をテーブル 形式にまとめる。イベントの記載は複数文にまたがるため、文単体でなく 文書全体からの抽出を行っている。中国の企業文書データセット (ChFinAnn)を対象に実験。
  • 19. Copyright © TIS Inc. All rights reserved. 19 研究領域ピックアップ: Asset Management (4-2/5) Doc2EDAG: An End-to-End Document-level Framework for Chinese Financial Event Extraction 1. SentenceをTransformerに入れてEncode 2. CRFでEntityを認識 3. SentenceとEntityの潜在表現をconcat(サイズはMaxpoolでそろえる) 4. TransformerでEncode(ここでDocumentレベルの相関が考慮される) 5. レコード(Event)に相当するイベントが発生しているか判定 6. 5=TrueならRole(カラム)順に沿い探索を行っていく(レコードを作る) ① ② ③ ④ ⑤ ⑥
  • 20. Copyright © TIS Inc. All rights reserved. 20 研究領域ピックアップ: Asset Management (5/5) Extracting Complex Relations from Banking Documents 銀行に寄せられる文書をOCRし、そこから リクエストを抽出する研究。送金依頼に 絞って送金先や金額などを検出している。 ドキュメント上の文字は一列に並べた系列 として処理する。系列に対し固有表現認識 を行った後に関係抽出をしてグラフを構築。 このグラフから送金指示を抽出する。 グラフからの送金指示抽出には、最大ク リーク分解(maximal clique factorization=各頂点が互いに接続されて いるサブグラフを抽出する手法)が使用さ れている。
  • 21. Copyright © TIS Inc. All rights reserved. 21 現状と今後の発展 (1/2) 現状「金融文書解析といったらこれ」というスタンダードなタスクがない。 ものすごい基礎的か、ものすごい応用かかなり極端。 以下の整備が進んでくれば、分野として発展していくのではないかと考え られる。 ◼ タスクの整備 ◼ 金融文書に適したタグの提案と定着 ◼ 固有表現(会社名、勘定etc) ◼ 意味表現(Semantic Role, 買収、取引先etc) ◼ 実課題に結びついたタスク(リスト照合(ブラックリスト確認)等) ◼ データセットの整備 ◼ スタンダードなデータセットの登場 ◼ BERT/ELMoなどの事前学習に耐えられるボリュームのコーパス ◼ SciBERT/BioBERTなどと肩を並べるモデルが作れるか。
  • 22. Copyright © TIS Inc. All rights reserved. 22 現状と今後の発展 (2/2) タスク/データセットの整備には実務者とのコミュニケーションが不可欠。 ◼ タスクの精度向上→業務効率向上につながるとベスト 特にAsset Managementは、実務者のフィードバックが必要。 ◼ 「どういうことができるのか」を実務者に着信する ◼ 属人的/属会社的でない業務/意思決定プロセスの定義 ◼ ある人、ある会社の業務改善だけできても分野として発展しない ◼ 精度と業務上のKPIの関連定義 ◼ 応用寄りの研究なら、実務のどこで役立つかは意識したい。 実務者・研究開発者双方向のコミュニケーションを取っていくべく・・・