Contenu connexe
Similaire à Solr から使う OpenNLP の日本語固有表現抽出 (17)
Plus de Koji Sekiguchi (20)
Solr から使う OpenNLP の日本語固有表現抽出
- 2. 自己紹介
• ロンウイット 創業者兼社長
• Apache Lucene/Solr/OpenNLP コミッター兼PMCメンバー、
ASFメンバー
ASFメンバーって・・・?
https://www.rondhuit.com/miracle-org-asf.html
• 書籍執筆&監修
• Apache Lucene/Solr, Apache Ant, etc.
2
- 4. 系列ラベリング
• データ系列の入力に対し、クラスの系列を出力
• 品詞タグ付け、固有表現抽出
• 普通の分類問題とは異なる
• 普通の分類問題:F → C
• 系列ラベリング:F1F2…Fn → C1C2…Cn
• ラベルが系列内の他のラベルに依存
※ 株式会社ロンウイットの研修コース「Apache Mahout & Sparkではじめる機械学習」より抜粋。
F1 F2 F3 F4 F5
Time flies like an arrow.
[名詞] [動詞] [前置詞] [冠詞] [名詞]
C1 C2 C3 C4 C5
直前が名詞だと動詞に変わる
4
- 12. インデクシング時に
文書を構造化
記事 イベント 人名 地名 ・・・
安倍⾸相は12⽇⽇ 、甲府市で開かれた自民党
ゴルフコンペで...
ゴルフコンペ 安倍 甲府市
注目はグランプリファイナルで4連覇を達成し
た羽生。年末の全日本選手権はインフルエンザ
による影響で欠場した。その後静養し、カナダ
・トロントへ向け出発。
グランプリファイ
ナル
全日本選手権
羽生
カナダ
トロント
人名:安倍
地名:甲府市
q=ゴルフ
「記事」から自動抽出されたキーワード
12
- 13. まとめ
• Apache OpenNLP の業務利用拡大に期待
• 日本語の場合、形態素解析器利用前提で(1.9.0〜)
• 応用例
• 情報検索:検索精度向上
• ニュース記事キーワード抽出、自動タグ付け、・・・
13
- 14. 参考
• Apache OpenNLP
• Web: https://opennlp.apache.org/
• doc: https://opennlp.apache.org/docs/1.9.0/manual/opennlp.html
• ロンウイットホームページ
• 最新 Apache OpenNLP 1.9.0 で日本語固有表現抽出を試す
https://www.rondhuit.com/apache-opennlp-1-9-0-ja-ner.html
14
Notes de l'éditeur
- ロゴについて(OPENNLP-6)
本:関口のアイディア。辞書またはモデルを表す
羽ペン:Tommasoのアイディア。
- word2vec もそう。