Contenu connexe
Similaire à 🍻(Beer Mug)の読み方を考える(mecab-ipadic-NEologdのUnicode 絵文字対応) (20)
🍻(Beer Mug)の読み方を考える(mecab-ipadic-NEologdのUnicode 絵文字対応)
- 2. 佐藤 敏紀 ( @overlast )
現職 : LINE 株式会社のエンジニア
- 自然言語処理、検索、機械学習まわり
前職 : ヤフー株式会社のエンジニア
- 検索エンジンのキーワードのスペル訂正等
学生 : 東京工業大学大学院 奥村研究室
- 比較表現抽出の研究
- blogWatcher の開発運用
- 3. その他
- DSIRNLP という勉強会を主催しています
- 初心者にもやさしく雰囲気も良いです^^
- YouTube で「DSIRNLP」を検索
- 夏に開催されるNLP若手の会 第10回シンポジ
ウムに是非ご参加ください(まだ詳細未定)
http://yans.anlp.jp/
- 僕の現職や前職について何か聞きたい方は、
お気軽にお声がけください
- 14. mecab-ipadic-NEologdとは
- IPA 辞書を拡張した mecab のシステム辞書
- 新語・固有表現などを167万語以上再録
- 読み仮名・原型付きで(異表記の重複込み)
- 最低月2回アップデート(初旬・中旬)
- Apache License 2.0 なOSSなので安心
- 今後
- 用言を充実する作業 / UniDic版の作成など
- 16. 初回インストール (例: OSX)
Step.1 : 必要なライブラリをインストール
- $ brew install mecab mecab-ipadic git curl xz
Step.2 : git clone する
- $ git clone --depth 1 https://github.com/neologd/mecab-ipadic-neologd.git
Step.3 : インストールする
- $ cd mecab-ipadic-neologd; ./bin/install-mecab-ipadic-neologd -n
- 18. 使用例 : コマンドラインの場合
[overlast@]$ mecab -d /usr/local/lib/mecab/dic/mecab-ipadic-neologd
iQONのアプリ内のデータ分析基盤の紹介や分析手法について紹介します。
iQON 名詞,固有名詞,一般,*,*,*,iQON,アイコン,アイコン
の 助詞,連体化,*,*,*,*,の,ノ,ノ
アプリ 名詞,固有名詞,一般,*,*,*,アプリ,アプリ,アプリ
内 名詞,接尾,一般,*,*,*,内,ナイ,ナイ
の 助詞,連体化,*,*,*,*,の,ノ,ノ
データ 名詞,一般,*,*,*,*,データ,データ,データ
分析 名詞,サ変接続,*,*,*,*,分析,ブンセキ,ブンセキ
基盤 名詞,一般,*,*,*,*,基盤,キバン,キバン
の 助詞,連体化,*,*,*,*,の,ノ,ノ
紹介 名詞,サ変接続,*,*,*,*,紹介,ショウカイ,ショーカイ
や 助詞,並立助詞,*,*,*,*,や,ヤ,ヤ
分析 名詞,サ変接続,*,*,*,*,分析,ブンセキ,ブンセキ
手法 名詞,一般,*,*,*,*,手法,シュホウ,シュホー
について 助詞,格助詞,連語,*,*,*,について,ニツイテ,ニツイテ
紹介 名詞,サ変接続,*,*,*,*,紹介,ショウカイ,ショーカイ
既存の IPA 辞書には登録されていない
固有表現を認識できるようになった !!
- 27. Q. 最新情報の集め方は?
1. Twitter で @overlast をフォロー
2. たまに #neologd を検索する
3. neologd、形態素解析器、固有表現抽
出などに対する関する不満を Twitter
上で言ってみる
- 28. 参考資料
MeCab 用の新語辞書 mecab-ipadic-NEologd を公開しました
- http://diary.overlasting.net/2015-03-13-1.html
日本語のREADME
- https://github.com/neologd/mecab-ipadic-neologd/blob/master/README.ja.md#
日本語で詳細な説明を書いたWiki
- https://github.com/neologd/mecab-ipadic-neologd/wiki#
解析前に行うことが望ましい文字列の正規化処理
- https://github.com/neologd/mecab-ipadic-neologd/wiki/Regexp.ja