SlideShare une entreprise Scribd logo
1  sur  18
Télécharger pour lire hors ligne
Leverages Marketing Department
データ分析ランチセッション#6
Camphrでモダンな自然言語処理
2020/02/19 渋谷スクランブルスクエア25F
レバレジーズ株式会社 データ戦略室室長
阪上晃幸
1
Leverages Marketing Department
● データ戦略室で隔週で行っている、書籍をベースにした勉強会の補講の位置付け。情報
の鮮度を意識した勉強会。
● 扱うトピックは発表者が任意で決める。
● 発表者以外は弁当を持参する。発表者は発表後に食事する。
● 発表時間は10~15分。質疑応答が10~15分。
ランチセッションとは
2
Leverages Marketing Department
自己紹介
3
● 阪上晃幸(@Mr_Sakaue)
● データアナリスト 兼 室長
● 経歴
2012/2:レバレジーズでインターン
2012/3:一橋大学大学院経済学研究科 修士課程修了
2012/4〜:レバレジーズ入社
● 趣味
料理、ブログ記事の作成
『かものはしの分析ブログ』で検索!
表参道のbillsからスクスク
が見える
Leverages Marketing Department
今回はCamphrを紹介しますよ!
4
Leverages Marketing Department
● PKSHA Technology Inc.が開発したNLPライブラリ
パークシャ
● CamphrはspaCyのプラグイン
○ spaCyとは
■ 自然言語処理を行うためのオープンソースソフトウェア・ライブラリで Pythonなどで書かれている。
■ 速い、易い、うまいの三拍子
● 速い:Cythonで書かれており、処理が速い。state-of-the-art(SOTA)な処理速度。
● 易い:シンプルなAPIで実装しやすい。
● (連携が)うまい:TensorFlow, PyTorch, scikit-learn, Gensimなどのエコシステムを利用できる。
■ 49以上の言語に対応
● Transformers(転移学習)やUdify(75もの言語に対応した自然言語処理のモデル)な
どの最先端の手法や、KNP(日本語構文・格・照応解析システム)などを扱うことができ
る。
Camphrとは
5
Leverages Marketing Department
● 係り受け解析(新旧)
● ファインチューニング(今回はデモなし)
● 埋め込みベクトル
● テキスト分類
Camphrでできること
6
Leverages Marketing Department
1. ColabをGPUモードで開く
2. !pip install camphr を実行
3. !pip install
https://github.com/PKSHATechnology-Research/camphr_models/releases/dow
nload/0.5/ja_mecab_udify-0.5.tar.gz を実行しモデルをダウンロード
4. Colabだとモデルは以下のパスとなる。尚、最後のディレクトリはファイル名。
/usr/local/lib/python3.6/dist-packages/ja_mecab_udify/ja_mecab_udify-0.5.0
5. !pip install mecab-python3 --only-binary :all: を実行しMeCabを使えるようにする。
Camphrを触ってみる
7
Leverages Marketing Department
係り受け(日本語)
8
Leverages Marketing Department
係り受け(英語)
9
一つのモデルで日
本語も英語も対応
している。
Leverages Marketing Department
係り受け(フランス語)
10
一つのモデルで日
本語も英語もフラ
ンス語も対応して
いる。
Leverages Marketing Department
● 学習済みのモデルを使って、入力したテキストの埋め込みベクトルを取得
Transformer(転移学習)
11
768次元の埋め込みベクトル
Leverages Marketing Department
● 埋め込みベクトル(768次元)同士でCOS類似度の計算
○ 文書単位での類似度とトークン単位での類似度を計算
Transformer(転移学習)
12
Leverages Marketing Department
● json形式でテキストとラベルをもたせたデータに対して文書分類が可能
○ jsonでトレインデータとラベルデータを用意する。(今回は20件ほど)
● コマンドライン(CLI)で実行可能
● Colabで実行可能。
文書分類
このような形式のデータをインプット
テキスト ラベル
ラベルデータ
13
Leverages Marketing Department
● Colab上で、CLIでの文書分類の学習の実行
文書分類
14
Leverages Marketing Department
● 訓練が終わったモデルを読み込んでラベルの予測を行う。
文書分類
ポジティブに分類されて欲しいが、訓練デー
タが20件ほどしかないので厳しいのかもしれ
ない。
15
Leverages Marketing Department
● 様々な学習済みモデルを簡単に扱えるのは良い。
● SpaCy自体にも興味を持てた。
● 複数言語を一つのモデルで扱えるUDifyはすごいと思った。
● 文書分類に関してもっと大きなデータセットを用意したり、日本語での文書分類を試して
みたい。
所感
16
Leverages Marketing Department
[1] Camphr - spaCy plugin for Transformers, Udify, Elmo, etc. : GitHub
[2] Camphr: spaCy plugin for Transformers, Udify, KNP : Qiita
[3] spaCy
[4] 日本語構文・格・照応解析システム KNP
[5] yasuokaの日記: 多言語係り受け解析ツールとしてのCamphr-Udify
[6] Displacy from spacy in google colab
[7] UDify
[8] Tutorial: Text Classification in Python Using spaCy
[9] Fine tuning Transformers
[10] Training spaCy’s Statistical Models
参考情報
17
Leverages Marketing Department
ご静聴ありがとうございました!
18

Contenu connexe

Tendances

Tendances (20)

Spring Boot + Netflix Eureka
Spring Boot + Netflix EurekaSpring Boot + Netflix Eureka
Spring Boot + Netflix Eureka
 
Viva Connections 拡張機能入門
Viva Connections 拡張機能入門Viva Connections 拡張機能入門
Viva Connections 拡張機能入門
 
え!? Power BI の画面からデータ更新なんてできるの!? ~PowerApps カスタムビジュアルの可能性~
え!? Power BI の画面からデータ更新なんてできるの!? ~PowerApps カスタムビジュアルの可能性~え!? Power BI の画面からデータ更新なんてできるの!? ~PowerApps カスタムビジュアルの可能性~
え!? Power BI の画面からデータ更新なんてできるの!? ~PowerApps カスタムビジュアルの可能性~
 
スクラムのすすめ
スクラムのすすめスクラムのすすめ
スクラムのすすめ
 
Power Query Online
Power Query OnlinePower Query Online
Power Query Online
 
データエンジニアとデータアナリストを兼任して良かったこと
データエンジニアとデータアナリストを兼任して良かったことデータエンジニアとデータアナリストを兼任して良かったこと
データエンジニアとデータアナリストを兼任して良かったこと
 
データベースエンジニアがデータヘルスの2年間で見たもの(仮)
データベースエンジニアがデータヘルスの2年間で見たもの(仮)データベースエンジニアがデータヘルスの2年間で見たもの(仮)
データベースエンジニアがデータヘルスの2年間で見たもの(仮)
 
SQL Server 使いのための Azure Synapse Analytics - Spark 入門
SQL Server 使いのための Azure Synapse Analytics - Spark 入門SQL Server 使いのための Azure Synapse Analytics - Spark 入門
SQL Server 使いのための Azure Synapse Analytics - Spark 入門
 
PowerApps で退勤時刻とYTKを記録するアプリを作った
PowerApps で退勤時刻とYTKを記録するアプリを作ったPowerApps で退勤時刻とYTKを記録するアプリを作った
PowerApps で退勤時刻とYTKを記録するアプリを作った
 
DXはなぜ進まないのか? 経営とITの観点からの課題と提言(NTTデータ テクノロジーカンファレンス 2020 発表資料)
DXはなぜ進まないのか? 経営とITの観点からの課題と提言(NTTデータ テクノロジーカンファレンス 2020 発表資料)DXはなぜ進まないのか? 経営とITの観点からの課題と提言(NTTデータ テクノロジーカンファレンス 2020 発表資料)
DXはなぜ進まないのか? 経営とITの観点からの課題と提言(NTTデータ テクノロジーカンファレンス 2020 発表資料)
 
データ収集の基本と「JapanTaxi」アプリにおける実践例
データ収集の基本と「JapanTaxi」アプリにおける実践例データ収集の基本と「JapanTaxi」アプリにおける実践例
データ収集の基本と「JapanTaxi」アプリにおける実践例
 
Teams部署に根付くまで
Teams部署に根付くまでTeams部署に根付くまで
Teams部署に根付くまで
 
[Track3-2] AI活用人材の社内育成に関する取り組みについて ~ダイキン情報技術大学~
[Track3-2] AI活用人材の社内育成に関する取り組みについて ~ダイキン情報技術大学~[Track3-2] AI活用人材の社内育成に関する取り組みについて ~ダイキン情報技術大学~
[Track3-2] AI活用人材の社内育成に関する取り組みについて ~ダイキン情報技術大学~
 
地球地図を利用した地図タイルの作成 - FOSS4G TOKYO 2014 全体セッション2
地球地図を利用した地図タイルの作成 - FOSS4G TOKYO 2014 全体セッション2地球地図を利用した地図タイルの作成 - FOSS4G TOKYO 2014 全体セッション2
地球地図を利用した地図タイルの作成 - FOSS4G TOKYO 2014 全体セッション2
 
え!? Power BI の画面からデータ更新なんてできるの!?
え!? Power BI の画面からデータ更新なんてできるの!?え!? Power BI の画面からデータ更新なんてできるの!?
え!? Power BI の画面からデータ更新なんてできるの!?
 
Azure DevOps CICD Azure SQL / Data Factory
Azure DevOps CICD Azure SQL / Data FactoryAzure DevOps CICD Azure SQL / Data Factory
Azure DevOps CICD Azure SQL / Data Factory
 
BigData Architecture for Azure
BigData Architecture for AzureBigData Architecture for Azure
BigData Architecture for Azure
 
AI開発を円滑に進めるための契約・法務・知財
AI開発を円滑に進めるための契約・法務・知財AI開発を円滑に進めるための契約・法務・知財
AI開発を円滑に進めるための契約・法務・知財
 
マルチAIエージェントと最近の取り組み Multi AI agent and Some recent research topics
マルチAIエージェントと最近の取り組み Multi AI agent and Some recent research topicsマルチAIエージェントと最近の取り組み Multi AI agent and Some recent research topics
マルチAIエージェントと最近の取り組み Multi AI agent and Some recent research topics
 
続・PowerApps に Power BI を埋め込む
続・PowerApps に Power BI を埋め込む続・PowerApps に Power BI を埋め込む
続・PowerApps に Power BI を埋め込む
 

Similaire à [第6回]データ分析ランチセッション - Camphrでモダンな自然言語処理

Rep0216slide
Rep0216slideRep0216slide
Rep0216slide
mokkle
 

Similaire à [第6回]データ分析ランチセッション - Camphrでモダンな自然言語処理 (11)

[第1回]データ分析ランチセッション ~ Qiita Advent Calendar2019から得た情報10選
[第1回]データ分析ランチセッション ~ Qiita Advent Calendar2019から得た情報10選[第1回]データ分析ランチセッション ~ Qiita Advent Calendar2019から得た情報10選
[第1回]データ分析ランチセッション ~ Qiita Advent Calendar2019から得た情報10選
 
[第11回]データ分析ランチセッション - モダンな機械学習データパイプラインKedroを触ってみる
[第11回]データ分析ランチセッション - モダンな機械学習データパイプラインKedroを触ってみる[第11回]データ分析ランチセッション - モダンな機械学習データパイプラインKedroを触ってみる
[第11回]データ分析ランチセッション - モダンな機械学習データパイプラインKedroを触ってみる
 
Globalinx Newsletter Winter 2012
Globalinx Newsletter Winter 2012Globalinx Newsletter Winter 2012
Globalinx Newsletter Winter 2012
 
HRビジネスにおけるデータサイエンスの適用 @ BIT VALLEY -INSIDE- Vol.1
HRビジネスにおけるデータサイエンスの適用 @ BIT VALLEY -INSIDE- Vol.1HRビジネスにおけるデータサイエンスの適用 @ BIT VALLEY -INSIDE- Vol.1
HRビジネスにおけるデータサイエンスの適用 @ BIT VALLEY -INSIDE- Vol.1
 
パーフェクト販促講座(売上アップ大学)
パーフェクト販促講座(売上アップ大学)パーフェクト販促講座(売上アップ大学)
パーフェクト販促講座(売上アップ大学)
 
140921_JSET30_口頭発表
140921_JSET30_口頭発表140921_JSET30_口頭発表
140921_JSET30_口頭発表
 
Rep0216slide
Rep0216slideRep0216slide
Rep0216slide
 
メルカリのアナリストのスキルセットについて
メルカリのアナリストのスキルセットについてメルカリのアナリストのスキルセットについて
メルカリのアナリストのスキルセットについて
 
ACL2018の歩き方
 ACL2018の歩き方 ACL2018の歩き方
ACL2018の歩き方
 
元外資コンサルによる戦略的プレゼン資料作成講座〜二日間集中講義
元外資コンサルによる戦略的プレゼン資料作成講座〜二日間集中講義元外資コンサルによる戦略的プレゼン資料作成講座〜二日間集中講義
元外資コンサルによる戦略的プレゼン資料作成講座〜二日間集中講義
 
第 11 回 最先端 NLP 勉強会
第 11 回 最先端 NLP 勉強会第 11 回 最先端 NLP 勉強会
第 11 回 最先端 NLP 勉強会
 

Plus de Teruyuki Sakaue

Plus de Teruyuki Sakaue (12)

実務と論文で学ぶジョブレコメンデーション最前線2022
実務と論文で学ぶジョブレコメンデーション最前線2022実務と論文で学ぶジョブレコメンデーション最前線2022
実務と論文で学ぶジョブレコメンデーション最前線2022
 
警察庁オープンデータで交通事故の世界にDeepDive!
警察庁オープンデータで交通事故の世界にDeepDive!警察庁オープンデータで交通事故の世界にDeepDive!
警察庁オープンデータで交通事故の世界にDeepDive!
 
[丸ノ内アナリティクスバンビーノ#23]データドリブン施策によるサービス品質向上の取り組み
[丸ノ内アナリティクスバンビーノ#23]データドリブン施策によるサービス品質向上の取り組み[丸ノ内アナリティクスバンビーノ#23]データドリブン施策によるサービス品質向上の取り組み
[丸ノ内アナリティクスバンビーノ#23]データドリブン施策によるサービス品質向上の取り組み
 
[Music×Analytics]プロの音に近づくための研究と練習
[Music×Analytics]プロの音に近づくための研究と練習[Music×Analytics]プロの音に近づくための研究と練習
[Music×Analytics]プロの音に近づくための研究と練習
 
[DSO] Machine Learning Seminar Vol.8 Chapter 9
[DSO] Machine Learning Seminar Vol.8 Chapter 9[DSO] Machine Learning Seminar Vol.8 Chapter 9
[DSO] Machine Learning Seminar Vol.8 Chapter 9
 
データ分析ランチセッション#24 OSSのAutoML~TPOTについて
データ分析ランチセッション#24 OSSのAutoML~TPOTについてデータ分析ランチセッション#24 OSSのAutoML~TPOTについて
データ分析ランチセッション#24 OSSのAutoML~TPOTについて
 
[DSO] Machine Learning Seminar Vol.2 Chapter 3
[DSO] Machine Learning Seminar Vol.2 Chapter 3[DSO] Machine Learning Seminar Vol.2 Chapter 3
[DSO] Machine Learning Seminar Vol.2 Chapter 3
 
[DSO] Machine Learning Seminar Vol.1 Chapter 1 and 2
[DSO] Machine Learning Seminar Vol.1 Chapter 1 and 2[DSO] Machine Learning Seminar Vol.1 Chapter 1 and 2
[DSO] Machine Learning Seminar Vol.1 Chapter 1 and 2
 
地理データを集め、可視化し分析することが簡単にできるプログラミング言語について @ BIT VALLEY -INSIDE- Vol.16
地理データを集め、可視化し分析することが簡単にできるプログラミング言語について @ BIT VALLEY -INSIDE- Vol.16地理データを集め、可視化し分析することが簡単にできるプログラミング言語について @ BIT VALLEY -INSIDE- Vol.16
地理データを集め、可視化し分析することが簡単にできるプログラミング言語について @ BIT VALLEY -INSIDE- Vol.16
 
流行りの分散表現を用いた文書分類について Netadashi Meetup 7
流行りの分散表現を用いた文書分類について Netadashi Meetup 7流行りの分散表現を用いた文書分類について Netadashi Meetup 7
流行りの分散表現を用いた文書分類について Netadashi Meetup 7
 
Marketing×Python/Rで頑張れる事例16本ノック
Marketing×Python/Rで頑張れる事例16本ノックMarketing×Python/Rで頑張れる事例16本ノック
Marketing×Python/Rで頑張れる事例16本ノック
 
機械学習による積極的失業〜オウンドメディアの訪問予測
機械学習による積極的失業〜オウンドメディアの訪問予測機械学習による積極的失業〜オウンドメディアの訪問予測
機械学習による積極的失業〜オウンドメディアの訪問予測
 

[第6回]データ分析ランチセッション - Camphrでモダンな自然言語処理

  • 1. Leverages Marketing Department データ分析ランチセッション#6 Camphrでモダンな自然言語処理 2020/02/19 渋谷スクランブルスクエア25F レバレジーズ株式会社 データ戦略室室長 阪上晃幸 1
  • 2. Leverages Marketing Department ● データ戦略室で隔週で行っている、書籍をベースにした勉強会の補講の位置付け。情報 の鮮度を意識した勉強会。 ● 扱うトピックは発表者が任意で決める。 ● 発表者以外は弁当を持参する。発表者は発表後に食事する。 ● 発表時間は10~15分。質疑応答が10~15分。 ランチセッションとは 2
  • 3. Leverages Marketing Department 自己紹介 3 ● 阪上晃幸(@Mr_Sakaue) ● データアナリスト 兼 室長 ● 経歴 2012/2:レバレジーズでインターン 2012/3:一橋大学大学院経済学研究科 修士課程修了 2012/4〜:レバレジーズ入社 ● 趣味 料理、ブログ記事の作成 『かものはしの分析ブログ』で検索! 表参道のbillsからスクスク が見える
  • 5. Leverages Marketing Department ● PKSHA Technology Inc.が開発したNLPライブラリ パークシャ ● CamphrはspaCyのプラグイン ○ spaCyとは ■ 自然言語処理を行うためのオープンソースソフトウェア・ライブラリで Pythonなどで書かれている。 ■ 速い、易い、うまいの三拍子 ● 速い:Cythonで書かれており、処理が速い。state-of-the-art(SOTA)な処理速度。 ● 易い:シンプルなAPIで実装しやすい。 ● (連携が)うまい:TensorFlow, PyTorch, scikit-learn, Gensimなどのエコシステムを利用できる。 ■ 49以上の言語に対応 ● Transformers(転移学習)やUdify(75もの言語に対応した自然言語処理のモデル)な どの最先端の手法や、KNP(日本語構文・格・照応解析システム)などを扱うことができ る。 Camphrとは 5
  • 6. Leverages Marketing Department ● 係り受け解析(新旧) ● ファインチューニング(今回はデモなし) ● 埋め込みベクトル ● テキスト分類 Camphrでできること 6
  • 7. Leverages Marketing Department 1. ColabをGPUモードで開く 2. !pip install camphr を実行 3. !pip install https://github.com/PKSHATechnology-Research/camphr_models/releases/dow nload/0.5/ja_mecab_udify-0.5.tar.gz を実行しモデルをダウンロード 4. Colabだとモデルは以下のパスとなる。尚、最後のディレクトリはファイル名。 /usr/local/lib/python3.6/dist-packages/ja_mecab_udify/ja_mecab_udify-0.5.0 5. !pip install mecab-python3 --only-binary :all: を実行しMeCabを使えるようにする。 Camphrを触ってみる 7
  • 11. Leverages Marketing Department ● 学習済みのモデルを使って、入力したテキストの埋め込みベクトルを取得 Transformer(転移学習) 11 768次元の埋め込みベクトル
  • 12. Leverages Marketing Department ● 埋め込みベクトル(768次元)同士でCOS類似度の計算 ○ 文書単位での類似度とトークン単位での類似度を計算 Transformer(転移学習) 12
  • 13. Leverages Marketing Department ● json形式でテキストとラベルをもたせたデータに対して文書分類が可能 ○ jsonでトレインデータとラベルデータを用意する。(今回は20件ほど) ● コマンドライン(CLI)で実行可能 ● Colabで実行可能。 文書分類 このような形式のデータをインプット テキスト ラベル ラベルデータ 13
  • 14. Leverages Marketing Department ● Colab上で、CLIでの文書分類の学習の実行 文書分類 14
  • 15. Leverages Marketing Department ● 訓練が終わったモデルを読み込んでラベルの予測を行う。 文書分類 ポジティブに分類されて欲しいが、訓練デー タが20件ほどしかないので厳しいのかもしれ ない。 15
  • 16. Leverages Marketing Department ● 様々な学習済みモデルを簡単に扱えるのは良い。 ● SpaCy自体にも興味を持てた。 ● 複数言語を一つのモデルで扱えるUDifyはすごいと思った。 ● 文書分類に関してもっと大きなデータセットを用意したり、日本語での文書分類を試して みたい。 所感 16
  • 17. Leverages Marketing Department [1] Camphr - spaCy plugin for Transformers, Udify, Elmo, etc. : GitHub [2] Camphr: spaCy plugin for Transformers, Udify, KNP : Qiita [3] spaCy [4] 日本語構文・格・照応解析システム KNP [5] yasuokaの日記: 多言語係り受け解析ツールとしてのCamphr-Udify [6] Displacy from spacy in google colab [7] UDify [8] Tutorial: Text Classification in Python Using spaCy [9] Fine tuning Transformers [10] Training spaCy’s Statistical Models 参考情報 17