Submit Search
Upload
Solr から使う OpenNLP の日本語固有表現抽出
•
Download as PPTX, PDF
•
1 like
•
3,740 views
Koji Sekiguchi
Follow
1.9.0 から日本語が正式サポートになったApache OpenNLPを、Apache Solr から便利に使いましょう!
Read less
Read more
Internet
Report
Share
Report
Share
1 of 14
Download now
Recommended
Aws auto scalingによるwebapサーバbatchサーバの構成例
Aws auto scalingによるwebapサーバbatchサーバの構成例
Takeshi Mikami
自動化を支えるCI/CDツールの私の選択 ~何をするためにCI/CDツールを選ぶか~
自動化を支えるCI/CDツールの私の選択 ~何をするためにCI/CDツールを選ぶか~
Recruit Lifestyle Co., Ltd.
え、まって。その並列分散処理、Kafkaのしくみでもできるの? Apache Kafkaの機能を利用した大規模ストリームデータの並列分散処理
え、まって。その並列分散処理、Kafkaのしくみでもできるの? Apache Kafkaの機能を利用した大規模ストリームデータの並列分散処理
NTT DATA Technology & Innovation
O/Rマッパーによるトラブルを未然に防ぐ
O/Rマッパーによるトラブルを未然に防ぐ
kwatch
継続的なモデルモニタリングを実現するKubernetes Operator
継続的なモデルモニタリングを実現するKubernetes Operator
Yahoo!デベロッパーネットワーク
Pythonの理解を試みる 〜バイトコードインタプリタを作成する〜
Pythonの理解を試みる 〜バイトコードインタプリタを作成する〜
Preferred Networks
「仮想マシンからの移⾏先としてPaaSとKaaS、どちらを選ぶか? #ヤフー名古屋」
「仮想マシンからの移⾏先としてPaaSとKaaS、どちらを選ぶか? #ヤフー名古屋」
Yahoo!デベロッパーネットワーク
Presto ベースのマネージドサービス Amazon Athena
Presto ベースのマネージドサービス Amazon Athena
Amazon Web Services Japan
Recommended
Aws auto scalingによるwebapサーバbatchサーバの構成例
Aws auto scalingによるwebapサーバbatchサーバの構成例
Takeshi Mikami
自動化を支えるCI/CDツールの私の選択 ~何をするためにCI/CDツールを選ぶか~
自動化を支えるCI/CDツールの私の選択 ~何をするためにCI/CDツールを選ぶか~
Recruit Lifestyle Co., Ltd.
え、まって。その並列分散処理、Kafkaのしくみでもできるの? Apache Kafkaの機能を利用した大規模ストリームデータの並列分散処理
え、まって。その並列分散処理、Kafkaのしくみでもできるの? Apache Kafkaの機能を利用した大規模ストリームデータの並列分散処理
NTT DATA Technology & Innovation
O/Rマッパーによるトラブルを未然に防ぐ
O/Rマッパーによるトラブルを未然に防ぐ
kwatch
継続的なモデルモニタリングを実現するKubernetes Operator
継続的なモデルモニタリングを実現するKubernetes Operator
Yahoo!デベロッパーネットワーク
Pythonの理解を試みる 〜バイトコードインタプリタを作成する〜
Pythonの理解を試みる 〜バイトコードインタプリタを作成する〜
Preferred Networks
「仮想マシンからの移⾏先としてPaaSとKaaS、どちらを選ぶか? #ヤフー名古屋」
「仮想マシンからの移⾏先としてPaaSとKaaS、どちらを選ぶか? #ヤフー名古屋」
Yahoo!デベロッパーネットワーク
Presto ベースのマネージドサービス Amazon Athena
Presto ベースのマネージドサービス Amazon Athena
Amazon Web Services Japan
AWSで作る分析基盤
AWSで作る分析基盤
Yu Otsubo
すごい配列楽しく学ぼう
すごい配列楽しく学ぼう
xenophobia__
SolrとElasticsearchを比べてみよう
SolrとElasticsearchを比べてみよう
Shinsuke Sugaya
Learning-to-Rank meetup Vol. 1
Learning-to-Rank meetup Vol. 1
Koji Sekiguchi
分析指向データレイク実現の次の一手 ~Delta Lake、なにそれおいしいの?~(NTTデータ テクノロジーカンファレンス 2020 発表資料)
分析指向データレイク実現の次の一手 ~Delta Lake、なにそれおいしいの?~(NTTデータ テクノロジーカンファレンス 2020 発表資料)
NTT DATA Technology & Innovation
Apache NiFi の紹介 #streamctjp
Apache NiFi の紹介 #streamctjp
Yahoo!デベロッパーネットワーク
マイクロサービスに至る歴史とこれから - XP祭り2021
マイクロサービスに至る歴史とこれから - XP祭り2021
Yusuke Suzuki
Product ManagerとProduct Ownerの役割の違いについて
Product ManagerとProduct Ownerの役割の違いについて
Noritaka Shinohara
分散トレーシングAWS:X-Rayとの上手い付き合い方
分散トレーシングAWS:X-Rayとの上手い付き合い方
Recruit Lifestyle Co., Ltd.
実運用して分かったRabbit MQの良いところ・気をつけること #jjug
実運用して分かったRabbit MQの良いところ・気をつけること #jjug
Yahoo!デベロッパーネットワーク
DDD x CQRS 更新系と参照系で異なるORMを併用して上手くいった話
DDD x CQRS 更新系と参照系で異なるORMを併用して上手くいった話
Koichiro Matsuoka
監査要件を有するシステムに対する PostgreSQL 導入の課題と可能性
監査要件を有するシステムに対する PostgreSQL 導入の課題と可能性
Ohyama Masanori
RDF Semantic Graph「RDF 超入門」
RDF Semantic Graph「RDF 超入門」
オラクルエンジニア通信
Java11へのマイグレーションガイド ~Apache Hadoopの事例~
Java11へのマイグレーションガイド ~Apache Hadoopの事例~
Yahoo!デベロッパーネットワーク
Amazon Redshift パフォーマンスチューニングテクニックと最新アップデート
Amazon Redshift パフォーマンスチューニングテクニックと最新アップデート
Amazon Web Services Japan
PFN のオンプレML基盤の取り組み / オンプレML基盤 on Kubernetes 〜PFN、ヤフー〜
PFN のオンプレML基盤の取り組み / オンプレML基盤 on Kubernetes 〜PFN、ヤフー〜
Preferred Networks
Apache Kafkaって本当に大丈夫?~故障検証のオーバービューと興味深い挙動の紹介~
Apache Kafkaって本当に大丈夫?~故障検証のオーバービューと興味深い挙動の紹介~
NTT DATA OSS Professional Services
分散トレーシング技術について(Open tracingやjaeger)
分散トレーシング技術について(Open tracingやjaeger)
NTT Communications Technology Development
Power BI をアプリに埋め込みたい? ならば Power BI Embedded だ!
Power BI をアプリに埋め込みたい? ならば Power BI Embedded だ!
Teruchika Yamada
IoT/AI時代のテスティング・検証技術の最前線
IoT/AI時代のテスティング・検証技術の最前線
Fuyuki Ishikawa
オープンソース入門
オープンソース入門
VirtualTech Japan Inc./Begi.net Inc.
20180725 Learning To Rank meetup
20180725 Learning To Rank meetup
Yasufumi Mizoguchi
More Related Content
What's hot
AWSで作る分析基盤
AWSで作る分析基盤
Yu Otsubo
すごい配列楽しく学ぼう
すごい配列楽しく学ぼう
xenophobia__
SolrとElasticsearchを比べてみよう
SolrとElasticsearchを比べてみよう
Shinsuke Sugaya
Learning-to-Rank meetup Vol. 1
Learning-to-Rank meetup Vol. 1
Koji Sekiguchi
分析指向データレイク実現の次の一手 ~Delta Lake、なにそれおいしいの?~(NTTデータ テクノロジーカンファレンス 2020 発表資料)
分析指向データレイク実現の次の一手 ~Delta Lake、なにそれおいしいの?~(NTTデータ テクノロジーカンファレンス 2020 発表資料)
NTT DATA Technology & Innovation
Apache NiFi の紹介 #streamctjp
Apache NiFi の紹介 #streamctjp
Yahoo!デベロッパーネットワーク
マイクロサービスに至る歴史とこれから - XP祭り2021
マイクロサービスに至る歴史とこれから - XP祭り2021
Yusuke Suzuki
Product ManagerとProduct Ownerの役割の違いについて
Product ManagerとProduct Ownerの役割の違いについて
Noritaka Shinohara
分散トレーシングAWS:X-Rayとの上手い付き合い方
分散トレーシングAWS:X-Rayとの上手い付き合い方
Recruit Lifestyle Co., Ltd.
実運用して分かったRabbit MQの良いところ・気をつけること #jjug
実運用して分かったRabbit MQの良いところ・気をつけること #jjug
Yahoo!デベロッパーネットワーク
DDD x CQRS 更新系と参照系で異なるORMを併用して上手くいった話
DDD x CQRS 更新系と参照系で異なるORMを併用して上手くいった話
Koichiro Matsuoka
監査要件を有するシステムに対する PostgreSQL 導入の課題と可能性
監査要件を有するシステムに対する PostgreSQL 導入の課題と可能性
Ohyama Masanori
RDF Semantic Graph「RDF 超入門」
RDF Semantic Graph「RDF 超入門」
オラクルエンジニア通信
Java11へのマイグレーションガイド ~Apache Hadoopの事例~
Java11へのマイグレーションガイド ~Apache Hadoopの事例~
Yahoo!デベロッパーネットワーク
Amazon Redshift パフォーマンスチューニングテクニックと最新アップデート
Amazon Redshift パフォーマンスチューニングテクニックと最新アップデート
Amazon Web Services Japan
PFN のオンプレML基盤の取り組み / オンプレML基盤 on Kubernetes 〜PFN、ヤフー〜
PFN のオンプレML基盤の取り組み / オンプレML基盤 on Kubernetes 〜PFN、ヤフー〜
Preferred Networks
Apache Kafkaって本当に大丈夫?~故障検証のオーバービューと興味深い挙動の紹介~
Apache Kafkaって本当に大丈夫?~故障検証のオーバービューと興味深い挙動の紹介~
NTT DATA OSS Professional Services
分散トレーシング技術について(Open tracingやjaeger)
分散トレーシング技術について(Open tracingやjaeger)
NTT Communications Technology Development
Power BI をアプリに埋め込みたい? ならば Power BI Embedded だ!
Power BI をアプリに埋め込みたい? ならば Power BI Embedded だ!
Teruchika Yamada
IoT/AI時代のテスティング・検証技術の最前線
IoT/AI時代のテスティング・検証技術の最前線
Fuyuki Ishikawa
What's hot
(20)
AWSで作る分析基盤
AWSで作る分析基盤
すごい配列楽しく学ぼう
すごい配列楽しく学ぼう
SolrとElasticsearchを比べてみよう
SolrとElasticsearchを比べてみよう
Learning-to-Rank meetup Vol. 1
Learning-to-Rank meetup Vol. 1
分析指向データレイク実現の次の一手 ~Delta Lake、なにそれおいしいの?~(NTTデータ テクノロジーカンファレンス 2020 発表資料)
分析指向データレイク実現の次の一手 ~Delta Lake、なにそれおいしいの?~(NTTデータ テクノロジーカンファレンス 2020 発表資料)
Apache NiFi の紹介 #streamctjp
Apache NiFi の紹介 #streamctjp
マイクロサービスに至る歴史とこれから - XP祭り2021
マイクロサービスに至る歴史とこれから - XP祭り2021
Product ManagerとProduct Ownerの役割の違いについて
Product ManagerとProduct Ownerの役割の違いについて
分散トレーシングAWS:X-Rayとの上手い付き合い方
分散トレーシングAWS:X-Rayとの上手い付き合い方
実運用して分かったRabbit MQの良いところ・気をつけること #jjug
実運用して分かったRabbit MQの良いところ・気をつけること #jjug
DDD x CQRS 更新系と参照系で異なるORMを併用して上手くいった話
DDD x CQRS 更新系と参照系で異なるORMを併用して上手くいった話
監査要件を有するシステムに対する PostgreSQL 導入の課題と可能性
監査要件を有するシステムに対する PostgreSQL 導入の課題と可能性
RDF Semantic Graph「RDF 超入門」
RDF Semantic Graph「RDF 超入門」
Java11へのマイグレーションガイド ~Apache Hadoopの事例~
Java11へのマイグレーションガイド ~Apache Hadoopの事例~
Amazon Redshift パフォーマンスチューニングテクニックと最新アップデート
Amazon Redshift パフォーマンスチューニングテクニックと最新アップデート
PFN のオンプレML基盤の取り組み / オンプレML基盤 on Kubernetes 〜PFN、ヤフー〜
PFN のオンプレML基盤の取り組み / オンプレML基盤 on Kubernetes 〜PFN、ヤフー〜
Apache Kafkaって本当に大丈夫?~故障検証のオーバービューと興味深い挙動の紹介~
Apache Kafkaって本当に大丈夫?~故障検証のオーバービューと興味深い挙動の紹介~
分散トレーシング技術について(Open tracingやjaeger)
分散トレーシング技術について(Open tracingやjaeger)
Power BI をアプリに埋め込みたい? ならば Power BI Embedded だ!
Power BI をアプリに埋め込みたい? ならば Power BI Embedded だ!
IoT/AI時代のテスティング・検証技術の最前線
IoT/AI時代のテスティング・検証技術の最前線
Similar to Solr から使う OpenNLP の日本語固有表現抽出
オープンソース入門
オープンソース入門
VirtualTech Japan Inc./Begi.net Inc.
20180725 Learning To Rank meetup
20180725 Learning To Rank meetup
Yasufumi Mizoguchi
20021127 ku-librarians勉強会 #38 : Where can I go? : OpenURLによる状況判断型リンク(SFXを中心として)
20021127 ku-librarians勉強会 #38 : Where can I go? : OpenURLによる状況判断型リンク(SFXを中心として)
kulibrarians
OpenStack環境構築支援について
OpenStack環境構築支援について
Satoshi Konno
頑張りすぎないScala
頑張りすぎないScala
takezoe
solr勉強会資料
solr勉強会資料
Atsushi Takayasu
JJUG CCC 2014 ATL
JJUG CCC 2014 ATL
Recruit Technologies
Reading 1st dRuby
Reading 1st dRuby
Koichi ITO
Langsmith OpeLa handmade self-hosted OS and LPS
Langsmith OpeLa handmade self-hosted OS and LPS
uchan_nos
Laravel_オープンソースカンファレンスhokkaido_JP_2014
Laravel_オープンソースカンファレンスhokkaido_JP_2014
Yuuki Takezawa
おとなのテキストマイニング
おとなのテキストマイニング
Munenori Sugimura
システムパフォーマンス勉強会#4
システムパフォーマンス勉強会#4
shingo suzuki
システムパフォーマンス勉強会#4
システムパフォーマンス勉強会#4
shingo suzuki
Code4Lib 2013参加報告
Code4Lib 2013参加報告
Masao Takaku
20150207 何故scalaを選んだのか
20150207 何故scalaを選んだのか
Katsunori Kanda
NLP4L - 情報検索における性能改善のためのコーパスの活用とランキング学習
NLP4L - 情報検索における性能改善のためのコーパスの活用とランキング学習
Koji Sekiguchi
Similar to Solr から使う OpenNLP の日本語固有表現抽出
(16)
オープンソース入門
オープンソース入門
20180725 Learning To Rank meetup
20180725 Learning To Rank meetup
20021127 ku-librarians勉強会 #38 : Where can I go? : OpenURLによる状況判断型リンク(SFXを中心として)
20021127 ku-librarians勉強会 #38 : Where can I go? : OpenURLによる状況判断型リンク(SFXを中心として)
OpenStack環境構築支援について
OpenStack環境構築支援について
頑張りすぎないScala
頑張りすぎないScala
solr勉強会資料
solr勉強会資料
JJUG CCC 2014 ATL
JJUG CCC 2014 ATL
Reading 1st dRuby
Reading 1st dRuby
Langsmith OpeLa handmade self-hosted OS and LPS
Langsmith OpeLa handmade self-hosted OS and LPS
Laravel_オープンソースカンファレンスhokkaido_JP_2014
Laravel_オープンソースカンファレンスhokkaido_JP_2014
おとなのテキストマイニング
おとなのテキストマイニング
システムパフォーマンス勉強会#4
システムパフォーマンス勉強会#4
システムパフォーマンス勉強会#4
システムパフォーマンス勉強会#4
Code4Lib 2013参加報告
Code4Lib 2013参加報告
20150207 何故scalaを選んだのか
20150207 何故scalaを選んだのか
NLP4L - 情報検索における性能改善のためのコーパスの活用とランキング学習
NLP4L - 情報検索における性能改善のためのコーパスの活用とランキング学習
More from Koji Sekiguchi
20221209-ApacheSolrによるはじめてのセマンティックサーチ.pdf
20221209-ApacheSolrによるはじめてのセマンティックサーチ.pdf
Koji Sekiguchi
Lucene 6819-good-bye-index-time-boost
Lucene 6819-good-bye-index-time-boost
Koji Sekiguchi
An Introduction to NLP4L (Scala by the Bay / Big Data Scala 2015)
An Introduction to NLP4L (Scala by the Bay / Big Data Scala 2015)
Koji Sekiguchi
An Introduction to NLP4L
An Introduction to NLP4L
Koji Sekiguchi
Nlp4 l intro-20150513
Nlp4 l intro-20150513
Koji Sekiguchi
コーパス学習による Apache Solr の徹底活用
コーパス学習による Apache Solr の徹底活用
Koji Sekiguchi
情報検索の基礎からデータの徹底活用まで
情報検索の基礎からデータの徹底活用まで
Koji Sekiguchi
LUCENE-5252 NGramSynonymTokenizer
LUCENE-5252 NGramSynonymTokenizer
Koji Sekiguchi
情報検索におけるランキング計算の紹介
情報検索におけるランキング計算の紹介
Koji Sekiguchi
系列パターンマイニングを用いた単語パターン学習とWikipediaからの組織名抽出
系列パターンマイニングを用いた単語パターン学習とWikipediaからの組織名抽出
Koji Sekiguchi
Luceneインデックスの共起単語分析とSolrによる共起単語サジェスチョン
Luceneインデックスの共起単語分析とSolrによる共起単語サジェスチョン
Koji Sekiguchi
Html noise reduction
Html noise reduction
Koji Sekiguchi
Lucene terms extraction
Lucene terms extraction
Koji Sekiguchi
Visualize terms network in Lucene index
Visualize terms network in Lucene index
Koji Sekiguchi
WikipediaからのSolr用類義語辞書の自動生成
WikipediaからのSolr用類義語辞書の自動生成
Koji Sekiguchi
HMM viterbi
HMM viterbi
Koji Sekiguchi
NLP x Lucene/Solr
NLP x Lucene/Solr
Koji Sekiguchi
OpenNLP - MEM and Perceptron
OpenNLP - MEM and Perceptron
Koji Sekiguchi
自然言語処理における機械学習による曖昧性解消入門
自然言語処理における機械学習による曖昧性解消入門
Koji Sekiguchi
Similarity functions in Lucene 4.0
Similarity functions in Lucene 4.0
Koji Sekiguchi
More from Koji Sekiguchi
(20)
20221209-ApacheSolrによるはじめてのセマンティックサーチ.pdf
20221209-ApacheSolrによるはじめてのセマンティックサーチ.pdf
Lucene 6819-good-bye-index-time-boost
Lucene 6819-good-bye-index-time-boost
An Introduction to NLP4L (Scala by the Bay / Big Data Scala 2015)
An Introduction to NLP4L (Scala by the Bay / Big Data Scala 2015)
An Introduction to NLP4L
An Introduction to NLP4L
Nlp4 l intro-20150513
Nlp4 l intro-20150513
コーパス学習による Apache Solr の徹底活用
コーパス学習による Apache Solr の徹底活用
情報検索の基礎からデータの徹底活用まで
情報検索の基礎からデータの徹底活用まで
LUCENE-5252 NGramSynonymTokenizer
LUCENE-5252 NGramSynonymTokenizer
情報検索におけるランキング計算の紹介
情報検索におけるランキング計算の紹介
系列パターンマイニングを用いた単語パターン学習とWikipediaからの組織名抽出
系列パターンマイニングを用いた単語パターン学習とWikipediaからの組織名抽出
Luceneインデックスの共起単語分析とSolrによる共起単語サジェスチョン
Luceneインデックスの共起単語分析とSolrによる共起単語サジェスチョン
Html noise reduction
Html noise reduction
Lucene terms extraction
Lucene terms extraction
Visualize terms network in Lucene index
Visualize terms network in Lucene index
WikipediaからのSolr用類義語辞書の自動生成
WikipediaからのSolr用類義語辞書の自動生成
HMM viterbi
HMM viterbi
NLP x Lucene/Solr
NLP x Lucene/Solr
OpenNLP - MEM and Perceptron
OpenNLP - MEM and Perceptron
自然言語処理における機械学習による曖昧性解消入門
自然言語処理における機械学習による曖昧性解消入門
Similarity functions in Lucene 4.0
Similarity functions in Lucene 4.0
Solr から使う OpenNLP の日本語固有表現抽出
1.
Solrから使うOpenNLPの 固有表現抽出 株式会社ロンウイット 関口宏司 @kojisays
2.
自己紹介 • ロンウイット 創業者兼社長 •
Apache Lucene/Solr/OpenNLP コミッター兼PMCメンバー、 ASFメンバー ASFメンバーって・・・? https://www.rondhuit.com/miracle-org-asf.html • 書籍執筆&監修 • Apache Lucene/Solr, Apache Ant, etc. 2
3.
Apache OpenNLP • 基本的なNLPタスクのツールキット(教師あり機械学習) •
[分類] 言語判別、文書分類 • [系列ラベリング] 文識別、単語分割、品詞タグ付け、固有表 現抽出、チャンク化 • [その他NLP] レンマ化、構文解析 • 海外ではビジネス利用もされている(Apache License) • Java API。柔軟な素性設定 3
4.
系列ラベリング • データ系列の入力に対し、クラスの系列を出力 • 品詞タグ付け、固有表現抽出 •
普通の分類問題とは異なる • 普通の分類問題:F → C • 系列ラベリング:F1F2…Fn → C1C2…Cn • ラベルが系列内の他のラベルに依存 ※ 株式会社ロンウイットの研修コース「Apache Mahout & Sparkではじめる機械学習」より抜粋。 F1 F2 F3 F4 F5 Time flies like an arrow. [名詞] [動詞] [前置詞] [冠詞] [名詞] C1 C2 C3 C4 C5 直前が名詞だと動詞に変わる 4
5.
• 通常の分類器の逐次適用(←OpenNLPが採用) • Ciの推定に、Fi,
Fi-1, Fi+1やCi-1などを用いる • その他の解き方:HMM、CRF 系列ラベリング問題の解き方 ※ 株式会社ロンウイットの研修コース「Apache Mahout & Sparkではじめる機械学習」より抜粋。 5 F1 F2 F3 F4 F5 … C1 C2 C3 C4 C5 …
6.
固有表現抽出 • 日本語などの自然言語で書かれたテキストから、固有名詞 を属性付き(固有名詞タイプ)で抽出するNLPタスクの一 種 • デモ(用意するもの) •
apache-opennlp-1.9.0-bin.tar.gz • rondhuit-ja-ner-1.0.0.zip ※ 株式会社ロンウイットの研修コース「Apache Mahout & Sparkではじめる機械学習」より抜粋。 6
7.
OpenNLPの 日本語対応への道 • 洋モノのNLPツールにありがちな問題 • 「テキストはあらかじめ単語分割されているでしょ、 普通」 ⇒
Lucene/Solr はよくできてる!! • 日本語に関心がない・・・ • みんな忙しい・・・ 7
8.
OpenNLPの 日本語対応の道• 日本語と英語の形態素解析の違い • 英語:(形態素を決める+)品詞を決める illegaly
= il + legal + ly ← まれ。多くは「形態素」≒「単語」なのでここまでやらない • 日本語:単語境界を決める+品詞を決める • ようやく素性としてのひらがなとカタカナ字種を識別させることに成功! (1.9.0) isentthemachine i(PPSS) sent(VBD) the(AT) machine(NP) i(PPSS) sent(VBD) them(PPO) a(AT) chine(NP) 8
9.
Solr+OpenNLP • OpenNLPExtractNamedEntitiesUpdateProcessorFactory • Solr
7.3.0 以降(LUCENE-2899) • 現状、複数固有表現タイプ対応に不具合あり • ファセットでの利用 9
10.
q=ハワイ 予算で絞り込む 10〜15万円 出発地で絞り込む 羽田空港 Solrのファセット & 絞り込み検索 10 ユーザが欲しい 文書集合 検索システムが 返す文書集合
11.
構造化文書 ツアー名 価格 空港 ハワイオアフ島 ダイヤモンドヘッド 28万円
成田空港 ハワイワイキキ ビーチ3泊5日 13万円 羽田空港 11
12.
インデクシング時に 文書を構造化 記事 イベント 人名
地名 ・・・ 安倍⾸相は12⽇⽇ 、甲府市で開かれた自民党 ゴルフコンペで... ゴルフコンペ 安倍 甲府市 注目はグランプリファイナルで4連覇を達成し た羽生。年末の全日本選手権はインフルエンザ による影響で欠場した。その後静養し、カナダ ・トロントへ向け出発。 グランプリファイ ナル 全日本選手権 羽生 カナダ トロント 人名:安倍 地名:甲府市 q=ゴルフ 「記事」から自動抽出されたキーワード 12
13.
まとめ • Apache OpenNLP
の業務利用拡大に期待 • 日本語の場合、形態素解析器利用前提で(1.9.0〜) • 応用例 • 情報検索:検索精度向上 • ニュース記事キーワード抽出、自動タグ付け、・・・ 13
14.
参考 • Apache OpenNLP •
Web: https://opennlp.apache.org/ • doc: https://opennlp.apache.org/docs/1.9.0/manual/opennlp.html • ロンウイットホームページ • 最新 Apache OpenNLP 1.9.0 で日本語固有表現抽出を試す https://www.rondhuit.com/apache-opennlp-1-9-0-ja-ner.html 14
Editor's Notes
ロゴについて(OPENNLP-6) 本:関口のアイディア。辞書またはモデルを表す 羽ペン:Tommasoのアイディア。
word2vec もそう。
Download now