Contenu connexe
Similaire à [第6回]データ分析ランチセッション - Camphrでモダンな自然言語処理 (11)
Plus de Teruyuki Sakaue (12)
[第6回]データ分析ランチセッション - Camphrでモダンな自然言語処理
- 2. Leverages Marketing Department
● データ戦略室で隔週で行っている、書籍をベースにした勉強会の補講の位置付け。情報
の鮮度を意識した勉強会。
● 扱うトピックは発表者が任意で決める。
● 発表者以外は弁当を持参する。発表者は発表後に食事する。
● 発表時間は10~15分。質疑応答が10~15分。
ランチセッションとは
2
- 3. Leverages Marketing Department
自己紹介
3
● 阪上晃幸(@Mr_Sakaue)
● データアナリスト 兼 室長
● 経歴
2012/2:レバレジーズでインターン
2012/3:一橋大学大学院経済学研究科 修士課程修了
2012/4〜:レバレジーズ入社
● 趣味
料理、ブログ記事の作成
『かものはしの分析ブログ』で検索!
表参道のbillsからスクスク
が見える
- 5. Leverages Marketing Department
● PKSHA Technology Inc.が開発したNLPライブラリ
パークシャ
● CamphrはspaCyのプラグイン
○ spaCyとは
■ 自然言語処理を行うためのオープンソースソフトウェア・ライブラリで Pythonなどで書かれている。
■ 速い、易い、うまいの三拍子
● 速い:Cythonで書かれており、処理が速い。state-of-the-art(SOTA)な処理速度。
● 易い:シンプルなAPIで実装しやすい。
● (連携が)うまい:TensorFlow, PyTorch, scikit-learn, Gensimなどのエコシステムを利用できる。
■ 49以上の言語に対応
● Transformers(転移学習)やUdify(75もの言語に対応した自然言語処理のモデル)な
どの最先端の手法や、KNP(日本語構文・格・照応解析システム)などを扱うことができ
る。
Camphrとは
5
- 7. Leverages Marketing Department
1. ColabをGPUモードで開く
2. !pip install camphr を実行
3. !pip install
https://github.com/PKSHATechnology-Research/camphr_models/releases/dow
nload/0.5/ja_mecab_udify-0.5.tar.gz を実行しモデルをダウンロード
4. Colabだとモデルは以下のパスとなる。尚、最後のディレクトリはファイル名。
/usr/local/lib/python3.6/dist-packages/ja_mecab_udify/ja_mecab_udify-0.5.0
5. !pip install mecab-python3 --only-binary :all: を実行しMeCabを使えるようにする。
Camphrを触ってみる
7
- 13. Leverages Marketing Department
● json形式でテキストとラベルをもたせたデータに対して文書分類が可能
○ jsonでトレインデータとラベルデータを用意する。(今回は20件ほど)
● コマンドライン(CLI)で実行可能
● Colabで実行可能。
文書分類
このような形式のデータをインプット
テキスト ラベル
ラベルデータ
13
- 16. Leverages Marketing Department
● 様々な学習済みモデルを簡単に扱えるのは良い。
● SpaCy自体にも興味を持てた。
● 複数言語を一つのモデルで扱えるUDifyはすごいと思った。
● 文書分類に関してもっと大きなデータセットを用意したり、日本語での文書分類を試して
みたい。
所感
16
- 17. Leverages Marketing Department
[1] Camphr - spaCy plugin for Transformers, Udify, Elmo, etc. : GitHub
[2] Camphr: spaCy plugin for Transformers, Udify, KNP : Qiita
[3] spaCy
[4] 日本語構文・格・照応解析システム KNP
[5] yasuokaの日記: 多言語係り受け解析ツールとしてのCamphr-Udify
[6] Displacy from spacy in google colab
[7] UDify
[8] Tutorial: Text Classification in Python Using spaCy
[9] Fine tuning Transformers
[10] Training spaCy’s Statistical Models
参考情報
17