SlideShare a Scribd company logo
1 of 27
関口宏司@ロンウイット
# 類義語知識
                  見出し語1, 類義語11, 類義語12
                  見出し語2, 類義語21, 類義語22, 類義語23
                  :


Copyright (c) 2012 RONDHUIT Co.,Ltd.           2
Copyright (c) 2012 RONDHUIT Co.,Ltd.   3
自動車損害賠償責任保険, 自賠責保険




  すべての運転者は、自賠責保険への加入が義務づけられています。




  すべての運転者は、自動車損害賠償責任保険への加入が義務づけられています。



               Copyright (c) 2012 RONDHUIT Co.,Ltd.   4
Copyright (c) 2012 RONDHUIT Co.,Ltd.   5
見出し語(=原型語)                                類義語(=略語、日本語版頭字語)
入国管理局                                     入管
文房具                                       文具
社員食堂                                      社食
国際連盟                                      国連
リポビタンD                                    リポD
ベルサイユのばら                                  ベルばら
木村拓哉                                      キムタク
Universal Serial Bus                      USB
                                                              (日本語における頭字語の例)




                       Copyright (c) 2012 RONDHUIT Co.,Ltd.                6
辞書型コーパス

         (見出し語,説明)× M 項目                               設定ファイル




                                                    <類義語知識の獲得>
                                                すべての見出し語に関し以下を
                                                ループ処理
 Lucene/Solr
               インデックス                           1. 類義語候補tBの同定
インデックス作成
                                                2. 見出し語tAと類義語候補tBの
                                                   類似度S(tA, tB)の計算
                                                3. 類似ならば出力
                •
                •
                •



                 説見見
                 明出出
                  しし
                  語語
                  の
                  読                                    CSVファイル
                  み




                Copyright (c) 2012 RONDHUIT Co.,Ltd.                 7
Copyright (c) 2012 RONDHUIT Co.,Ltd.   8
(*1)本テキスト執筆時においては、諸事情により実装を省略
            Copyright (c) 2012 RONDHUIT Co.,Ltd.   9
Copyright (c) 2012 RONDHUIT Co.,Ltd.   10
wX(t)は記事AX中のタームtの重みで、tfX(t)とidf(t)を用いて以下のように算出される。

                                                  fX(t)は記事AX中にタームtが
                                                  出現する回数。
                                                  numDocsは記事のエントリ数(=M)。
                                                  docFreq(t)はタームtを含む記事数。



               Copyright (c) 2012 RONDHUIT Co.,Ltd.                  11
CN            なし                         あり                         あり
     類似度計算             あり                         あり                         あり
      min.score              0.004                              0.004             0.002
      抽出件数                  14,065                              11,219            11,282
      誤りの例        国道250号, 国道2号        古代エジプト文学, コプト                      ビアホール, ビール

(       精度                    0.40                                0.58              0.79
*
2      再現率                    0.80                                1.00              1.00
)       F値                    0.53                                0.73              0.88
     (参考*1)
     処理時間(sec)          (未計測)                                   11,018            8,783

    (*1)プログラム実行中に他の処理を並行して行っていたため、あくまでも参考値である。
    (*2)こちらも、サンプル数が非常に少ないので、あくまでも参考値である。

     (注)類似度計算ありの場合、特徴ベクトル算出のための各種パラメータは:
     dicword.acronyms.vector.min.tf=2
     dicword.acronyms.origin.vector.size=40
     dicword.acronyms.user.docs.size=10
     dicword.acronyms.user.vector.size=10   Wikipedia項目総数(=M):848,970
                         Copyright (c) 2012 RONDHUIT Co.,Ltd.                          12
Copyright (c) 2012 RONDHUIT Co.,Ltd.   13
Copyright (c) 2012 RONDHUIT Co.,Ltd.   14
ジャンル   見出し語                          類義語
生活     ファミリーマート                      ファミマ
       ファミリーレストラン                    ファミレス
       ミスタードーナツ                      ミスド
       簡易保険                          簡保
       京浜急行電鉄                        京急
       セロハンテープ                       セロテープ
       油揚げ                           アブラゲ
       エビのチリソース                      エビチリ
       ビーフステーキ                       ビフテキ, ビステキ
       アメヤ横丁                         アメ横



               Copyright (c) 2012 RONDHUIT Co.,Ltd.   15
ジャンル    見出し語                                   類義語
文化/芸能   サンデージャポン                               サンジャポ
        ナインティナイン                               ナイナイ
        エレファントカシマシ                             エレカシ
        オリエンタルラジオ                              オリラジ
        テツandトモ                                テツトモ
        モーニング娘。                                モー娘, モー娘。
        ロンドンハーツ                                ロンハー
        プリンセス・プリンセス                            プリプリ
        外国人タレント                                外タレ
        週刊少年チャンピオン                             週チャン
        週刊少年マガジン                               週マガ
        東京スポーツ                                 東スポ
        ゴーマニズム宣言                               ゴー宣
               Copyright (c) 2012 RONDHUIT Co.,Ltd.        16
ジャンル   見出し語                                   類義語
人名     藤岡琢也                                   フジタク
       柴田錬三郎                                  シバレン
       ケンドーコバヤシ                               ケンコバ
       木村拓哉                                   キムタク
       浜田省吾                                   浜省
       松本潤                                    松潤
       堀内健                                    ホリケン
       豊川悦司                                   トヨエツ
       松山ケンイチ                                 松ケン
       松平健                                    マツケン
       ブラッド・ピット                               ブラピ
       ジョニー・デップ                               ジョニデ

       Copyright (c) 2012 RONDHUIT Co.,Ltd.          17
ジャンル   見出し語                                                  類義語
IT     File Transfer Protocol                                FTP
       World Wide Web                                        WWW
       Document Object Model                                 DOM
       Read Only Memory                                      ROM
       Cascading Style Sheets                                CSS
       Domain Name System                                    DNS
       Local Area Newtowk                                    LAN
       ワードプロセッサ                                              ワープロ
       フリーソフトウェア                                             フリーウェア
       OSI参照モデル                                              OSIモデル
       コピー・アンド・ペースト                                          コピペ
       ブックマーク                                                ブクマ
       スラッシュドット                                              スラド

                      Copyright (c) 2012 RONDHUIT Co.,Ltd.            18
ジャンル 見出し語                                             類義語
組織名   経済産業省                                           経産省
      農林水産省                                           農林省, 農水省
      テレビ東京                                           テレ東
      マツモトキヨシ                                         マツキヨ
      生活協同組合                                          生協
      長期信用銀行                                          長信銀, 長銀
      近畿日本ツーリスト                                       近ツリ, 近ツー
      東京電力                                            東電
      関西電力                                            関電
      日本弁護士連合会                                        日弁連
      日本体育大学                                          日体, 日体大
      日本ペイント                                          ニッペ
               Copyright (c) 2012 RONDHUIT Co.,Ltd.              19
ジャンル      見出し語                                      類義語
サイエンス/エ   線型部分空間                                    線型空間
ンジニアリング
          ハミルトン閉路問題                                 ハミルトン路問題
          エネルギー保存の法則                                エネルギー保存則
          エンジニアリングプラスチック                            エンプラ
          電気分解                                      電解
          有機化合物                                     有機物
          塩化カルシウム                                   塩カル
          水素爆弾                                      水爆




             Copyright (c) 2012 RONDHUIT Co.,Ltd.              20
ジャンル    見出し語                             類義語
建築/施設   丸の内ビルディング                        丸ビル
        新丸の内ビルディング                       新丸ビル
        大阪シティドーム                         大阪ドーム
        ナゴヤドーム                           ナゴド
ゲーム     ドラゴンクエスト                         ドラクエ
        オンラインゲーム                         オンゲー
        スーパーマリオブラザーズ                     スーマリ
        スーパーファミコン                        スーファミ
        NINTENDO64                       N64
        ウイニングイレブン                        ウイイレ
        一気通貫                             一通

             Copyright (c) 2012 RONDHUIT Co.,Ltd.   21
ジャンル   見出し語                                      類義語
ビジネス   約束手形                                      約手
       為替手形                                      為手
       外国為替                                      外為
       社会保険労務士                                   社労士
       投資信託                                      投信
スポーツ   セントラル・リーグ                                 セ・リーグ
       パシフィック・リーグ                                パリーグ, パ・リーグ
       セレッソ大阪                                    セ大阪
       グランドチャンピオン決定戦競走                           グラチャン
       日本テレビ盃                                    日本テレ盃


          Copyright (c) 2012 RONDHUIT Co.,Ltd.                 22
ジャンル   見出し語                                   類義語
表記揺れ   スパゲッティ                                 スパゲティ
       葉巻きタバコ                                 葉巻タバコ
       接ぎ木                                    接木
       インディペンデント                              インデペンデント
       釣り竿                                    釣竿
       踊り子                                    踊子




       Copyright (c) 2012 RONDHUIT Co.,Ltd.              23
見出し語          獲得できない類義語                              誤り抽出
スマートフォン       スマホ(抽出できない)
              「スマフォ」は抽出でき
              た
マンチェスター・ユナイ   マンU
テッドFC
酒井法子          のりピー
Mr.Children   ミスチル
国際通貨基金        IMF
こちら葛飾区亀有公園前   こち亀
派出所
十六進法                                                 十進法
キリン一番搾り生ビール                                          キリンビール
準々決勝                                                 準決勝

              Copyright (c) 2012 RONDHUIT Co.,Ltd.            24
クラス名                    用途
MappingCharFilter       形態素解析器
JapaneseTokenizer       見出し語の読み変換
(GosenTokenizer)
IndexReader             見出し語や類義語候補の探索
Terms                   記事中のタームの出現回数のカウント
TermsEnum
BytesRef
IndexSearcher           類義語候補を含む記事の検索
Query
TopDocs
Bits                    Luceneドキュメントの死活確認
PriorityQueue           記事特徴ベクトルの抽出



                    Copyright (c) 2012 RONDHUIT Co.,Ltd.   25
Copyright (c) 2012 RONDHUIT Co.,Ltd.   26
Copyright (c) 2012 RONDHUIT Co.,Ltd.   27

More Related Content

What's hot

Where狙いのキー、order by狙いのキー
Where狙いのキー、order by狙いのキーWhere狙いのキー、order by狙いのキー
Where狙いのキー、order by狙いのキーyoku0825
 
情報推薦システム入門:講義スライド
情報推薦システム入門:講義スライド情報推薦システム入門:講義スライド
情報推薦システム入門:講義スライドKenta Oku
 
機械学習モデルの判断根拠の説明
機械学習モデルの判断根拠の説明機械学習モデルの判断根拠の説明
機械学習モデルの判断根拠の説明Satoshi Hara
 
データ履歴管理のためのテンポラルデータモデルとReladomoの紹介 #jjug_ccc #ccc_g3
データ履歴管理のためのテンポラルデータモデルとReladomoの紹介 #jjug_ccc #ccc_g3 データ履歴管理のためのテンポラルデータモデルとReladomoの紹介 #jjug_ccc #ccc_g3
データ履歴管理のためのテンポラルデータモデルとReladomoの紹介 #jjug_ccc #ccc_g3 Hiroshi Ito
 
MongoDB〜その性質と利用場面〜
MongoDB〜その性質と利用場面〜MongoDB〜その性質と利用場面〜
MongoDB〜その性質と利用場面〜Naruhiko Ogasawara
 
イミュータブルデータモデル(世代編)
イミュータブルデータモデル(世代編)イミュータブルデータモデル(世代編)
イミュータブルデータモデル(世代編)Yoshitaka Kawashima
 
「関心の分離」と「疎結合」 ソフトウェアアーキテクチャのひとかけら
「関心の分離」と「疎結合」   ソフトウェアアーキテクチャのひとかけら「関心の分離」と「疎結合」   ソフトウェアアーキテクチャのひとかけら
「関心の分離」と「疎結合」 ソフトウェアアーキテクチャのひとかけらAtsushi Nakamura
 
リクルート式 自然言語処理技術の適応事例紹介
リクルート式 自然言語処理技術の適応事例紹介リクルート式 自然言語処理技術の適応事例紹介
リクルート式 自然言語処理技術の適応事例紹介Recruit Technologies
 
DSIRNLP#1 ランキング学習ことはじめ
DSIRNLP#1 ランキング学習ことはじめDSIRNLP#1 ランキング学習ことはじめ
DSIRNLP#1 ランキング学習ことはじめsleepy_yoshi
 
最近のストリーム処理事情振り返り
最近のストリーム処理事情振り返り最近のストリーム処理事情振り返り
最近のストリーム処理事情振り返りSotaro Kimura
 
協調フィルタリング入門
協調フィルタリング入門協調フィルタリング入門
協調フィルタリング入門hoxo_m
 
Rustに触れて私のPythonはどう変わったか
Rustに触れて私のPythonはどう変わったかRustに触れて私のPythonはどう変わったか
Rustに触れて私のPythonはどう変わったかShunsukeNakamura17
 
ぱぱっと理解するSpring Cloudの基本
ぱぱっと理解するSpring Cloudの基本ぱぱっと理解するSpring Cloudの基本
ぱぱっと理解するSpring Cloudの基本kazuki kumagai
 
外部キー制約に伴うロックの小話
外部キー制約に伴うロックの小話外部キー制約に伴うロックの小話
外部キー制約に伴うロックの小話ichirin2501
 
CircleCIのinfrastructureを支えるTerraformのCI/CDパイプラインの改善
CircleCIのinfrastructureを支えるTerraformのCI/CDパイプラインの改善CircleCIのinfrastructureを支えるTerraformのCI/CDパイプラインの改善
CircleCIのinfrastructureを支えるTerraformのCI/CDパイプラインの改善Ito Takayuki
 
大規模ソーシャルゲームを支える技術~PHP+MySQLを使った高負荷対策~
大規模ソーシャルゲームを支える技術~PHP+MySQLを使った高負荷対策~大規模ソーシャルゲームを支える技術~PHP+MySQLを使った高負荷対策~
大規模ソーシャルゲームを支える技術~PHP+MySQLを使った高負荷対策~infinite_loop
 
研究分野をサーベイする
研究分野をサーベイする研究分野をサーベイする
研究分野をサーベイするTakayuki Itoh
 
ゲームエンジニアのためのデータベース設計
ゲームエンジニアのためのデータベース設計ゲームエンジニアのためのデータベース設計
ゲームエンジニアのためのデータベース設計sairoutine
 
【DL輪読会】Toolformer: Language Models Can Teach Themselves to Use Tools
【DL輪読会】Toolformer: Language Models Can Teach Themselves to Use Tools【DL輪読会】Toolformer: Language Models Can Teach Themselves to Use Tools
【DL輪読会】Toolformer: Language Models Can Teach Themselves to Use ToolsDeep Learning JP
 

What's hot (20)

Where狙いのキー、order by狙いのキー
Where狙いのキー、order by狙いのキーWhere狙いのキー、order by狙いのキー
Where狙いのキー、order by狙いのキー
 
情報推薦システム入門:講義スライド
情報推薦システム入門:講義スライド情報推薦システム入門:講義スライド
情報推薦システム入門:講義スライド
 
機械学習モデルの判断根拠の説明
機械学習モデルの判断根拠の説明機械学習モデルの判断根拠の説明
機械学習モデルの判断根拠の説明
 
データ履歴管理のためのテンポラルデータモデルとReladomoの紹介 #jjug_ccc #ccc_g3
データ履歴管理のためのテンポラルデータモデルとReladomoの紹介 #jjug_ccc #ccc_g3 データ履歴管理のためのテンポラルデータモデルとReladomoの紹介 #jjug_ccc #ccc_g3
データ履歴管理のためのテンポラルデータモデルとReladomoの紹介 #jjug_ccc #ccc_g3
 
MongoDB〜その性質と利用場面〜
MongoDB〜その性質と利用場面〜MongoDB〜その性質と利用場面〜
MongoDB〜その性質と利用場面〜
 
イミュータブルデータモデル(世代編)
イミュータブルデータモデル(世代編)イミュータブルデータモデル(世代編)
イミュータブルデータモデル(世代編)
 
「関心の分離」と「疎結合」 ソフトウェアアーキテクチャのひとかけら
「関心の分離」と「疎結合」   ソフトウェアアーキテクチャのひとかけら「関心の分離」と「疎結合」   ソフトウェアアーキテクチャのひとかけら
「関心の分離」と「疎結合」 ソフトウェアアーキテクチャのひとかけら
 
リクルート式 自然言語処理技術の適応事例紹介
リクルート式 自然言語処理技術の適応事例紹介リクルート式 自然言語処理技術の適応事例紹介
リクルート式 自然言語処理技術の適応事例紹介
 
DSIRNLP#1 ランキング学習ことはじめ
DSIRNLP#1 ランキング学習ことはじめDSIRNLP#1 ランキング学習ことはじめ
DSIRNLP#1 ランキング学習ことはじめ
 
最近のストリーム処理事情振り返り
最近のストリーム処理事情振り返り最近のストリーム処理事情振り返り
最近のストリーム処理事情振り返り
 
協調フィルタリング入門
協調フィルタリング入門協調フィルタリング入門
協調フィルタリング入門
 
Rustに触れて私のPythonはどう変わったか
Rustに触れて私のPythonはどう変わったかRustに触れて私のPythonはどう変わったか
Rustに触れて私のPythonはどう変わったか
 
ぱぱっと理解するSpring Cloudの基本
ぱぱっと理解するSpring Cloudの基本ぱぱっと理解するSpring Cloudの基本
ぱぱっと理解するSpring Cloudの基本
 
外部キー制約に伴うロックの小話
外部キー制約に伴うロックの小話外部キー制約に伴うロックの小話
外部キー制約に伴うロックの小話
 
CircleCIのinfrastructureを支えるTerraformのCI/CDパイプラインの改善
CircleCIのinfrastructureを支えるTerraformのCI/CDパイプラインの改善CircleCIのinfrastructureを支えるTerraformのCI/CDパイプラインの改善
CircleCIのinfrastructureを支えるTerraformのCI/CDパイプラインの改善
 
大規模ソーシャルゲームを支える技術~PHP+MySQLを使った高負荷対策~
大規模ソーシャルゲームを支える技術~PHP+MySQLを使った高負荷対策~大規模ソーシャルゲームを支える技術~PHP+MySQLを使った高負荷対策~
大規模ソーシャルゲームを支える技術~PHP+MySQLを使った高負荷対策~
 
研究分野をサーベイする
研究分野をサーベイする研究分野をサーベイする
研究分野をサーベイする
 
Tackling Complexity
Tackling ComplexityTackling Complexity
Tackling Complexity
 
ゲームエンジニアのためのデータベース設計
ゲームエンジニアのためのデータベース設計ゲームエンジニアのためのデータベース設計
ゲームエンジニアのためのデータベース設計
 
【DL輪読会】Toolformer: Language Models Can Teach Themselves to Use Tools
【DL輪読会】Toolformer: Language Models Can Teach Themselves to Use Tools【DL輪読会】Toolformer: Language Models Can Teach Themselves to Use Tools
【DL輪読会】Toolformer: Language Models Can Teach Themselves to Use Tools
 

Viewers also liked

類義語検索と類義語ハイライト
類義語検索と類義語ハイライト類義語検索と類義語ハイライト
類義語検索と類義語ハイライトShinichiro Abe
 
自然言語処理における機械学習による曖昧性解消入門
自然言語処理における機械学習による曖昧性解消入門自然言語処理における機械学習による曖昧性解消入門
自然言語処理における機械学習による曖昧性解消入門Koji Sekiguchi
 
n-gramコーパスを用いた類義語自動獲得手法について
n-gramコーパスを用いた類義語自動獲得手法についてn-gramコーパスを用いた類義語自動獲得手法について
n-gramコーパスを用いた類義語自動獲得手法についてmoai kids
 
Lucene terms extraction
Lucene terms extractionLucene terms extraction
Lucene terms extractionKoji Sekiguchi
 
【JSLGG】お手軽watsonアプリ開発セミナー
【JSLGG】お手軽watsonアプリ開発セミナー【JSLGG】お手軽watsonアプリ開発セミナー
【JSLGG】お手軽watsonアプリ開発セミナーsoftlayerjp
 
Getting Started Japanese Search and Calculate Similarity with Apache Lucene
Getting Started Japanese Search and Calculate Similarity with Apache LuceneGetting Started Japanese Search and Calculate Similarity with Apache Lucene
Getting Started Japanese Search and Calculate Similarity with Apache LuceneEiji Shinohara
 
コーパス学習による Apache Solr の徹底活用
コーパス学習による Apache Solr の徹底活用コーパス学習による Apache Solr の徹底活用
コーパス学習による Apache Solr の徹底活用Koji Sekiguchi
 
ジャストシステムの形態素解析技術
ジャストシステムの形態素解析技術ジャストシステムの形態素解析技術
ジャストシステムの形態素解析技術JustSystems Corporation
 
自然言語処理 Word2vec
自然言語処理 Word2vec自然言語処理 Word2vec
自然言語処理 Word2vecnaoto moriyama
 
R による文書分類入門
R による文書分類入門R による文書分類入門
R による文書分類入門Takeshi Arabiki
 
Deep Learningと画像認識   ~歴史・理論・実践~
Deep Learningと画像認識 ~歴史・理論・実践~Deep Learningと画像認識 ~歴史・理論・実践~
Deep Learningと画像認識   ~歴史・理論・実践~nlab_utokyo
 
機械学習チュートリアル@Jubatus Casual Talks
機械学習チュートリアル@Jubatus Casual Talks機械学習チュートリアル@Jubatus Casual Talks
機械学習チュートリアル@Jubatus Casual TalksYuya Unno
 

Viewers also liked (14)

類義語検索と類義語ハイライト
類義語検索と類義語ハイライト類義語検索と類義語ハイライト
類義語検索と類義語ハイライト
 
自然言語処理における機械学習による曖昧性解消入門
自然言語処理における機械学習による曖昧性解消入門自然言語処理における機械学習による曖昧性解消入門
自然言語処理における機械学習による曖昧性解消入門
 
n-gramコーパスを用いた類義語自動獲得手法について
n-gramコーパスを用いた類義語自動獲得手法についてn-gramコーパスを用いた類義語自動獲得手法について
n-gramコーパスを用いた類義語自動獲得手法について
 
Lucene terms extraction
Lucene terms extractionLucene terms extraction
Lucene terms extraction
 
JMAT Groonga Tokenizer Talks
JMAT Groonga  Tokenizer TalksJMAT Groonga  Tokenizer Talks
JMAT Groonga Tokenizer Talks
 
【JSLGG】お手軽watsonアプリ開発セミナー
【JSLGG】お手軽watsonアプリ開発セミナー【JSLGG】お手軽watsonアプリ開発セミナー
【JSLGG】お手軽watsonアプリ開発セミナー
 
Getting Started Japanese Search and Calculate Similarity with Apache Lucene
Getting Started Japanese Search and Calculate Similarity with Apache LuceneGetting Started Japanese Search and Calculate Similarity with Apache Lucene
Getting Started Japanese Search and Calculate Similarity with Apache Lucene
 
コーパス学習による Apache Solr の徹底活用
コーパス学習による Apache Solr の徹底活用コーパス学習による Apache Solr の徹底活用
コーパス学習による Apache Solr の徹底活用
 
HMM viterbi
HMM viterbiHMM viterbi
HMM viterbi
 
ジャストシステムの形態素解析技術
ジャストシステムの形態素解析技術ジャストシステムの形態素解析技術
ジャストシステムの形態素解析技術
 
自然言語処理 Word2vec
自然言語処理 Word2vec自然言語処理 Word2vec
自然言語処理 Word2vec
 
R による文書分類入門
R による文書分類入門R による文書分類入門
R による文書分類入門
 
Deep Learningと画像認識   ~歴史・理論・実践~
Deep Learningと画像認識 ~歴史・理論・実践~Deep Learningと画像認識 ~歴史・理論・実践~
Deep Learningと画像認識   ~歴史・理論・実践~
 
機械学習チュートリアル@Jubatus Casual Talks
機械学習チュートリアル@Jubatus Casual Talks機械学習チュートリアル@Jubatus Casual Talks
機械学習チュートリアル@Jubatus Casual Talks
 

More from Koji Sekiguchi

20221209-ApacheSolrによるはじめてのセマンティックサーチ.pdf
20221209-ApacheSolrによるはじめてのセマンティックサーチ.pdf20221209-ApacheSolrによるはじめてのセマンティックサーチ.pdf
20221209-ApacheSolrによるはじめてのセマンティックサーチ.pdfKoji Sekiguchi
 
Solr から使う OpenNLP の日本語固有表現抽出
Solr から使う OpenNLP の日本語固有表現抽出Solr から使う OpenNLP の日本語固有表現抽出
Solr から使う OpenNLP の日本語固有表現抽出Koji Sekiguchi
 
Learning-to-Rank meetup Vol. 1
Learning-to-Rank meetup Vol. 1Learning-to-Rank meetup Vol. 1
Learning-to-Rank meetup Vol. 1Koji Sekiguchi
 
Lucene 6819-good-bye-index-time-boost
Lucene 6819-good-bye-index-time-boostLucene 6819-good-bye-index-time-boost
Lucene 6819-good-bye-index-time-boostKoji Sekiguchi
 
NLP4L - 情報検索における性能改善のためのコーパスの活用とランキング学習
NLP4L - 情報検索における性能改善のためのコーパスの活用とランキング学習NLP4L - 情報検索における性能改善のためのコーパスの活用とランキング学習
NLP4L - 情報検索における性能改善のためのコーパスの活用とランキング学習Koji Sekiguchi
 
An Introduction to NLP4L (Scala by the Bay / Big Data Scala 2015)
An Introduction to NLP4L (Scala by the Bay / Big Data Scala 2015)An Introduction to NLP4L (Scala by the Bay / Big Data Scala 2015)
An Introduction to NLP4L (Scala by the Bay / Big Data Scala 2015)Koji Sekiguchi
 
An Introduction to NLP4L
An Introduction to NLP4LAn Introduction to NLP4L
An Introduction to NLP4LKoji Sekiguchi
 
情報検索の基礎からデータの徹底活用まで
情報検索の基礎からデータの徹底活用まで情報検索の基礎からデータの徹底活用まで
情報検索の基礎からデータの徹底活用までKoji Sekiguchi
 
LUCENE-5252 NGramSynonymTokenizer
LUCENE-5252 NGramSynonymTokenizerLUCENE-5252 NGramSynonymTokenizer
LUCENE-5252 NGramSynonymTokenizerKoji Sekiguchi
 
情報検索におけるランキング計算の紹介
情報検索におけるランキング計算の紹介情報検索におけるランキング計算の紹介
情報検索におけるランキング計算の紹介Koji Sekiguchi
 
系列パターンマイニングを用いた単語パターン学習とWikipediaからの組織名抽出
系列パターンマイニングを用いた単語パターン学習とWikipediaからの組織名抽出系列パターンマイニングを用いた単語パターン学習とWikipediaからの組織名抽出
系列パターンマイニングを用いた単語パターン学習とWikipediaからの組織名抽出Koji Sekiguchi
 
Luceneインデックスの共起単語分析とSolrによる共起単語サジェスチョン
Luceneインデックスの共起単語分析とSolrによる共起単語サジェスチョンLuceneインデックスの共起単語分析とSolrによる共起単語サジェスチョン
Luceneインデックスの共起単語分析とSolrによる共起単語サジェスチョンKoji Sekiguchi
 
Visualize terms network in Lucene index
Visualize terms network in Lucene indexVisualize terms network in Lucene index
Visualize terms network in Lucene indexKoji Sekiguchi
 
OpenNLP - MEM and Perceptron
OpenNLP - MEM and PerceptronOpenNLP - MEM and Perceptron
OpenNLP - MEM and PerceptronKoji Sekiguchi
 
Similarity functions in Lucene 4.0
Similarity functions in Lucene 4.0Similarity functions in Lucene 4.0
Similarity functions in Lucene 4.0Koji Sekiguchi
 
Pre rondhuit-naming-story
Pre rondhuit-naming-storyPre rondhuit-naming-story
Pre rondhuit-naming-storyKoji Sekiguchi
 

More from Koji Sekiguchi (20)

20221209-ApacheSolrによるはじめてのセマンティックサーチ.pdf
20221209-ApacheSolrによるはじめてのセマンティックサーチ.pdf20221209-ApacheSolrによるはじめてのセマンティックサーチ.pdf
20221209-ApacheSolrによるはじめてのセマンティックサーチ.pdf
 
Solr から使う OpenNLP の日本語固有表現抽出
Solr から使う OpenNLP の日本語固有表現抽出Solr から使う OpenNLP の日本語固有表現抽出
Solr から使う OpenNLP の日本語固有表現抽出
 
Learning-to-Rank meetup Vol. 1
Learning-to-Rank meetup Vol. 1Learning-to-Rank meetup Vol. 1
Learning-to-Rank meetup Vol. 1
 
Lucene 6819-good-bye-index-time-boost
Lucene 6819-good-bye-index-time-boostLucene 6819-good-bye-index-time-boost
Lucene 6819-good-bye-index-time-boost
 
NLP4L - 情報検索における性能改善のためのコーパスの活用とランキング学習
NLP4L - 情報検索における性能改善のためのコーパスの活用とランキング学習NLP4L - 情報検索における性能改善のためのコーパスの活用とランキング学習
NLP4L - 情報検索における性能改善のためのコーパスの活用とランキング学習
 
An Introduction to NLP4L (Scala by the Bay / Big Data Scala 2015)
An Introduction to NLP4L (Scala by the Bay / Big Data Scala 2015)An Introduction to NLP4L (Scala by the Bay / Big Data Scala 2015)
An Introduction to NLP4L (Scala by the Bay / Big Data Scala 2015)
 
An Introduction to NLP4L
An Introduction to NLP4LAn Introduction to NLP4L
An Introduction to NLP4L
 
Nlp4 l intro-20150513
Nlp4 l intro-20150513Nlp4 l intro-20150513
Nlp4 l intro-20150513
 
情報検索の基礎からデータの徹底活用まで
情報検索の基礎からデータの徹底活用まで情報検索の基礎からデータの徹底活用まで
情報検索の基礎からデータの徹底活用まで
 
LUCENE-5252 NGramSynonymTokenizer
LUCENE-5252 NGramSynonymTokenizerLUCENE-5252 NGramSynonymTokenizer
LUCENE-5252 NGramSynonymTokenizer
 
情報検索におけるランキング計算の紹介
情報検索におけるランキング計算の紹介情報検索におけるランキング計算の紹介
情報検索におけるランキング計算の紹介
 
系列パターンマイニングを用いた単語パターン学習とWikipediaからの組織名抽出
系列パターンマイニングを用いた単語パターン学習とWikipediaからの組織名抽出系列パターンマイニングを用いた単語パターン学習とWikipediaからの組織名抽出
系列パターンマイニングを用いた単語パターン学習とWikipediaからの組織名抽出
 
Luceneインデックスの共起単語分析とSolrによる共起単語サジェスチョン
Luceneインデックスの共起単語分析とSolrによる共起単語サジェスチョンLuceneインデックスの共起単語分析とSolrによる共起単語サジェスチョン
Luceneインデックスの共起単語分析とSolrによる共起単語サジェスチョン
 
Html noise reduction
Html noise reductionHtml noise reduction
Html noise reduction
 
Visualize terms network in Lucene index
Visualize terms network in Lucene indexVisualize terms network in Lucene index
Visualize terms network in Lucene index
 
NLP x Lucene/Solr
NLP x Lucene/SolrNLP x Lucene/Solr
NLP x Lucene/Solr
 
OpenNLP - MEM and Perceptron
OpenNLP - MEM and PerceptronOpenNLP - MEM and Perceptron
OpenNLP - MEM and Perceptron
 
Similarity functions in Lucene 4.0
Similarity functions in Lucene 4.0Similarity functions in Lucene 4.0
Similarity functions in Lucene 4.0
 
Pre rondhuit-naming-story
Pre rondhuit-naming-storyPre rondhuit-naming-story
Pre rondhuit-naming-story
 
Lu solr32 34-20110912
Lu solr32 34-20110912Lu solr32 34-20110912
Lu solr32 34-20110912
 

WikipediaからのSolr用類義語辞書の自動生成

  • 2. # 類義語知識 見出し語1, 類義語11, 類義語12 見出し語2, 類義語21, 類義語22, 類義語23 : Copyright (c) 2012 RONDHUIT Co.,Ltd. 2
  • 3. Copyright (c) 2012 RONDHUIT Co.,Ltd. 3
  • 4. 自動車損害賠償責任保険, 自賠責保険 すべての運転者は、自賠責保険への加入が義務づけられています。 すべての運転者は、自動車損害賠償責任保険への加入が義務づけられています。 Copyright (c) 2012 RONDHUIT Co.,Ltd. 4
  • 5. Copyright (c) 2012 RONDHUIT Co.,Ltd. 5
  • 6. 見出し語(=原型語) 類義語(=略語、日本語版頭字語) 入国管理局 入管 文房具 文具 社員食堂 社食 国際連盟 国連 リポビタンD リポD ベルサイユのばら ベルばら 木村拓哉 キムタク Universal Serial Bus USB (日本語における頭字語の例) Copyright (c) 2012 RONDHUIT Co.,Ltd. 6
  • 7. 辞書型コーパス (見出し語,説明)× M 項目 設定ファイル <類義語知識の獲得> すべての見出し語に関し以下を ループ処理 Lucene/Solr インデックス 1. 類義語候補tBの同定 インデックス作成 2. 見出し語tAと類義語候補tBの 類似度S(tA, tB)の計算 3. 類似ならば出力 • • • 説見見 明出出 しし 語語 の 読 CSVファイル み Copyright (c) 2012 RONDHUIT Co.,Ltd. 7
  • 8. Copyright (c) 2012 RONDHUIT Co.,Ltd. 8
  • 10. Copyright (c) 2012 RONDHUIT Co.,Ltd. 10
  • 11. wX(t)は記事AX中のタームtの重みで、tfX(t)とidf(t)を用いて以下のように算出される。 fX(t)は記事AX中にタームtが 出現する回数。 numDocsは記事のエントリ数(=M)。 docFreq(t)はタームtを含む記事数。 Copyright (c) 2012 RONDHUIT Co.,Ltd. 11
  • 12. CN なし あり あり 類似度計算 あり あり あり min.score 0.004 0.004 0.002 抽出件数 14,065 11,219 11,282 誤りの例 国道250号, 国道2号 古代エジプト文学, コプト ビアホール, ビール ( 精度 0.40 0.58 0.79 * 2 再現率 0.80 1.00 1.00 ) F値 0.53 0.73 0.88 (参考*1) 処理時間(sec) (未計測) 11,018 8,783 (*1)プログラム実行中に他の処理を並行して行っていたため、あくまでも参考値である。 (*2)こちらも、サンプル数が非常に少ないので、あくまでも参考値である。 (注)類似度計算ありの場合、特徴ベクトル算出のための各種パラメータは: dicword.acronyms.vector.min.tf=2 dicword.acronyms.origin.vector.size=40 dicword.acronyms.user.docs.size=10 dicword.acronyms.user.vector.size=10 Wikipedia項目総数(=M):848,970 Copyright (c) 2012 RONDHUIT Co.,Ltd. 12
  • 13. Copyright (c) 2012 RONDHUIT Co.,Ltd. 13
  • 14. Copyright (c) 2012 RONDHUIT Co.,Ltd. 14
  • 15. ジャンル 見出し語 類義語 生活 ファミリーマート ファミマ ファミリーレストラン ファミレス ミスタードーナツ ミスド 簡易保険 簡保 京浜急行電鉄 京急 セロハンテープ セロテープ 油揚げ アブラゲ エビのチリソース エビチリ ビーフステーキ ビフテキ, ビステキ アメヤ横丁 アメ横 Copyright (c) 2012 RONDHUIT Co.,Ltd. 15
  • 16. ジャンル 見出し語 類義語 文化/芸能 サンデージャポン サンジャポ ナインティナイン ナイナイ エレファントカシマシ エレカシ オリエンタルラジオ オリラジ テツandトモ テツトモ モーニング娘。 モー娘, モー娘。 ロンドンハーツ ロンハー プリンセス・プリンセス プリプリ 外国人タレント 外タレ 週刊少年チャンピオン 週チャン 週刊少年マガジン 週マガ 東京スポーツ 東スポ ゴーマニズム宣言 ゴー宣 Copyright (c) 2012 RONDHUIT Co.,Ltd. 16
  • 17. ジャンル 見出し語 類義語 人名 藤岡琢也 フジタク 柴田錬三郎 シバレン ケンドーコバヤシ ケンコバ 木村拓哉 キムタク 浜田省吾 浜省 松本潤 松潤 堀内健 ホリケン 豊川悦司 トヨエツ 松山ケンイチ 松ケン 松平健 マツケン ブラッド・ピット ブラピ ジョニー・デップ ジョニデ Copyright (c) 2012 RONDHUIT Co.,Ltd. 17
  • 18. ジャンル 見出し語 類義語 IT File Transfer Protocol FTP World Wide Web WWW Document Object Model DOM Read Only Memory ROM Cascading Style Sheets CSS Domain Name System DNS Local Area Newtowk LAN ワードプロセッサ ワープロ フリーソフトウェア フリーウェア OSI参照モデル OSIモデル コピー・アンド・ペースト コピペ ブックマーク ブクマ スラッシュドット スラド Copyright (c) 2012 RONDHUIT Co.,Ltd. 18
  • 19. ジャンル 見出し語 類義語 組織名 経済産業省 経産省 農林水産省 農林省, 農水省 テレビ東京 テレ東 マツモトキヨシ マツキヨ 生活協同組合 生協 長期信用銀行 長信銀, 長銀 近畿日本ツーリスト 近ツリ, 近ツー 東京電力 東電 関西電力 関電 日本弁護士連合会 日弁連 日本体育大学 日体, 日体大 日本ペイント ニッペ Copyright (c) 2012 RONDHUIT Co.,Ltd. 19
  • 20. ジャンル 見出し語 類義語 サイエンス/エ 線型部分空間 線型空間 ンジニアリング ハミルトン閉路問題 ハミルトン路問題 エネルギー保存の法則 エネルギー保存則 エンジニアリングプラスチック エンプラ 電気分解 電解 有機化合物 有機物 塩化カルシウム 塩カル 水素爆弾 水爆 Copyright (c) 2012 RONDHUIT Co.,Ltd. 20
  • 21. ジャンル 見出し語 類義語 建築/施設 丸の内ビルディング 丸ビル 新丸の内ビルディング 新丸ビル 大阪シティドーム 大阪ドーム ナゴヤドーム ナゴド ゲーム ドラゴンクエスト ドラクエ オンラインゲーム オンゲー スーパーマリオブラザーズ スーマリ スーパーファミコン スーファミ NINTENDO64 N64 ウイニングイレブン ウイイレ 一気通貫 一通 Copyright (c) 2012 RONDHUIT Co.,Ltd. 21
  • 22. ジャンル 見出し語 類義語 ビジネス 約束手形 約手 為替手形 為手 外国為替 外為 社会保険労務士 社労士 投資信託 投信 スポーツ セントラル・リーグ セ・リーグ パシフィック・リーグ パリーグ, パ・リーグ セレッソ大阪 セ大阪 グランドチャンピオン決定戦競走 グラチャン 日本テレビ盃 日本テレ盃 Copyright (c) 2012 RONDHUIT Co.,Ltd. 22
  • 23. ジャンル 見出し語 類義語 表記揺れ スパゲッティ スパゲティ 葉巻きタバコ 葉巻タバコ 接ぎ木 接木 インディペンデント インデペンデント 釣り竿 釣竿 踊り子 踊子 Copyright (c) 2012 RONDHUIT Co.,Ltd. 23
  • 24. 見出し語 獲得できない類義語 誤り抽出 スマートフォン スマホ(抽出できない) 「スマフォ」は抽出でき た マンチェスター・ユナイ マンU テッドFC 酒井法子 のりピー Mr.Children ミスチル 国際通貨基金 IMF こちら葛飾区亀有公園前 こち亀 派出所 十六進法 十進法 キリン一番搾り生ビール キリンビール 準々決勝 準決勝 Copyright (c) 2012 RONDHUIT Co.,Ltd. 24
  • 25. クラス名 用途 MappingCharFilter 形態素解析器 JapaneseTokenizer 見出し語の読み変換 (GosenTokenizer) IndexReader 見出し語や類義語候補の探索 Terms 記事中のタームの出現回数のカウント TermsEnum BytesRef IndexSearcher 類義語候補を含む記事の検索 Query TopDocs Bits Luceneドキュメントの死活確認 PriorityQueue 記事特徴ベクトルの抽出 Copyright (c) 2012 RONDHUIT Co.,Ltd. 25
  • 26. Copyright (c) 2012 RONDHUIT Co.,Ltd. 26
  • 27. Copyright (c) 2012 RONDHUIT Co.,Ltd. 27