SlideShare une entreprise Scribd logo
1  sur  16
Télécharger pour lire hors ligne
Solr/Lucene 向け自然言語処理製品のご紹介



               シニア・ソフトウェア・エンジニア
                    平賀 一昭




 ベイシス・テクノロジー株式会社
 www.basistech.jp
Basis Technology 概要


   Basis Technology Corporation
     Carl Hoffman, CEO 以下MIT出身者を中心に、
     1995年に設立


   ベイシス・テクノロジー株式会社
     2000年に、初の米国外オフィスとして設立
カスタマー




  この他にも、多くの検索エンジン、政府、軍/情報機関などで利用されてい
  ます。特にここ数年は、商用エンジンから、Solr/Lucene への移行とあわ
  せ、弊社自然言語処理プラットフォームの採用が増えています。
Rosette® 言語処理プラットフォーム
010.03.12 H21年度 科研「情報爆発IT基盤」プロジェ
クトシンポジウムを東京大学本郷キャンパス工学部
新2号館1F213大講義室にて開催致します。本シンポ
ジウムは、IPSJ50周年記念全国大会と連動、「ITコ
リドー」3月6日(土)~3月12日(金)として連続開催致
                                     Web などの非構造化データ、ある
します。
事前にWebページより参加登録をお願いします(参加            いは、JDBC経由でフィードされる
登録受付中)。

2009.11.24 2009.11.02 科研「情報爆発IT基盤」   データなど
評価助言委員会委員長の米澤明憲先生(東京大学情報
理工学系研究科教授・情報基盤センター長)が平成21
年秋の紫綬褒章を受章されました(11月16日伝達式)。
Rosette® 言語処理プラットフォーム
010.03.12 H21年度 科研「情報爆発IT基盤」プロジェ
クトシンポジウムを東京大学本郷キャンパス工学部
新2号館1F213大講義室にて開催致します。本シンポ
ジウムは、IPSJ50周年記念全国大会と連動、「ITコ
リドー」3月6日(土)~3月12日(金)として連続開催致
します。
事前にWebページより参加登録をお願いします(参加
登録受付中)。

2009.11.24 2009.11.02 科研「情報爆発IT基盤」
評価助言委員会委員長の米澤明憲先生(東京大学情報
                                     構造化データ
理工学系研究科教授・情報基盤センター長)が平成21
年秋の紫綬褒章を受章されました(11月16日伝達式)。
Rosette® 言語処理プラットフォーム




                              API



   Rosette®   Rosette®    Rosette®   Rosette®
                                                ユーザ個々の
   言語判別       Unicode対応   形態素解析      固有表現抽出     アプリケーショ
                                                ン
   システム       ライブラリ       システム       システム
Rosette® 言語・文字コード判別システム (RLI)

       「言語」と「文字コード」を判別します
   世界の55言語・39種類の文字コードを判別
    日本語、中国語、朝鮮語、英語、ドイツ語、フランス語、ロシア語 等


   平均判別精度 : 99.45%
    日本語 JIS : 100%
    朝鮮語 EUC-KR : 100%
    中国語 GB-2312 : 100%
    ※約1KBのデータを利用したテスト結果
Rosette® 言語・文字コード判別システム (RLI)

対応する言語・文字コード




                                対応言語数: 55
                                対応文字コード数: 39
Rosette® ユニコード対応ライブラリ (RCLU)

   Unicode と外部文字コードの相互変換を行います
   文字コード変換
    170種類以上の文字コードに対応
       Shift-JIS ⇔ Unicode
       GB18030 ⇔ Unicode


   テキスト正規化
     大文字 ⇔ 小文字
      Unicode TEXT ⇔ unicode text
     半角 ⇔ 全角
      ABCカンパニー ⇔ ABCカンパニー
     ひらがな ⇔ カタカナ
Rosette® 形態素解析システム (RBL) : 日本語版の特徴

        自然文の入力を形態素へ分割します
  分かち書き(テキストを単語に分割)
    独自開発の解析アルゴリズム
    50万語の形態素解析辞書を標準搭載し、6ヶ月ごとにアップデート

  品詞出力、名詞句抽出
  ユーザー定義辞書
    複数の辞書が使用可能

  ストップワード判別
    「された」「の」、「は」、「か」などの不要語を認識
    カスタマイズ可

  「読み」の出力
Rosette® 形態素解析システム (RBL) : 日本語版の特徴 (cont.)

   カタカナ表記ゆれ対応 (約 9,000 語)
    ダンスセラピー        ←   ダンスセラピ/ダンステラピー
    ファミコン          ←   ファミリーコンピュータ/ファミリーコンピューター
    ベネチア           ←   ベニス/ベネツィア/ヴェネチア/ヴェネツィア



   漢字の旧字体サポート (約 89,000 語)
    渡辺      ← 渡邊
    大学      ← 大學
    高島      ← 髙島



   類義語対応 (ユーザー辞書により対応可能)
    Honda   ← ホンダ、本田技研工業
Rosette® 形態素解析システム (RBL) : 主要言語対応状況

          単語分割     ステミング    複合語分解 品詞解析   文尾検出 名詞句抽出   読み
                   (基本化)
日本語         ○         ○       ○    ○      ○    ○      ○
朝鮮語         ○         ○       ○    ○      ○    ○      N
中国語         ○                      ○      ○    ○      ○
(簡・繁)                 n/a    n/a
英語          ○         ○      n/a   ○      ○    ○      n/a
アラビア語       ○         ○      n/a   ○      ○    ○      ○
ロシア語        ○         ○      n/a   ○      ○     N     N
フランス語       ○         ○      n/a   ○      ○    ○      n/a
イタリア語       ○         ○      n/a   ○      ○    ○      n/a
ドイツ語        ○         ○       ○    ○      ○    ○      n/a
スペイン語       ○         ○      n/a   ○      ○    ○      n/a

 ポルトガル語、オランダ語、ギリシャ語、ハンガリー語、ポーランド語、チェコ語、近代ペルシア語、ウルドゥ語にも
 対応しています。

 N - 未対応、n/a - この言語には該当せず
Rosette® 固有表現抽出システム (REX)

       固有表現(Named Entity)を抽出します

    固有名詞
    抽出すべき語の「文脈パターン」を事前学習
    人名、地名、組織名、施設名、国籍、役職等を識別



    特定パターンの語句
    与えられた正規表現と一致するパターンの文字列
    日時、電話番号、URL、製品型番など
    ユーザー定義可能



    用語辞書(ガゼティア)
    ユーザーが指定した語句との一致
Rosette® 固有表現抽出システム (REX) : 主要言語対応状況

          人名    組織名    場所    都市名    施設     役職
日本語        ○     ○      ○     ○      ○      ○
朝鮮語        ○     ○      ○     ○      ○      ○
中国語        ○     ○      ○     ○      ○      ○
(簡・繁)
英語         ○     ○      ○     ○      ○      ○
アラビア語      ○     ○      ○     ○      ○      ○
ロシア語       ○     ○      ○     ○      ○      ○
フランス語      ○     ○      ○      X     X      ○
イタリア語      ○     ○      ○      X     X      ○
ドイツ語       ○     ○      ○      X     X      ○
スペイン語      ○     ○      ○      X     X      ○

 上記言語以外に、オランダ語、ポルトガル語、ウルドゥ語、近代ペルシア語をサポートしています。
Rosette® 言語処理プラットフォーム : 提供形態

  SDK による提供

  シンプルなAPIのライブラリ
   各国言語共通のAPI
   C++, C, C#, Java アプリケーションから利用可
   Solr/Lucene向けパッケージには、Analyzer/Factory ソースコードが付属


  サポートプラットフォーム
   Windows, Linux, Solaris, Mac OS X 等
   その他主要プラットフォームをサポート


  ライセンス形態
   年間ライセンスなど


  E-mail による技術サポート
次世代サーチ・テクノロジー・フォーラム 2010



 主催:ベイシス・テクノロジー株式会社
 開催日: 2010年4月22日(木)
 時間: セミナー 9:30-16:30、 展示 12:00-16:30
 会場: 国際文化会館 (東京 六本木)
 申込: 3月中旬より以下のURLで受付開始
    http://www.basistech.co.jp/forum/2010/
 参加費: 無料
 協賛パートナー

Contenu connexe

Similaire à Lucene/Solr 用形態素解析システムのご紹介 ベイシス・テクノロジー

どの言語でつぶやかれたのか、機械が知る方法 #WebDBf2013
どの言語でつぶやかれたのか、機械が知る方法 #WebDBf2013どの言語でつぶやかれたのか、機械が知る方法 #WebDBf2013
どの言語でつぶやかれたのか、機械が知る方法 #WebDBf2013
Shuyo Nakatani
 
言語資源と付き合う
言語資源と付き合う言語資源と付き合う
言語資源と付き合う
Yuya Unno
 
OSC@京都 2011-07-15
OSC@京都 2011-07-15OSC@京都 2011-07-15
OSC@京都 2011-07-15
Hiroshi Bunya
 

Similaire à Lucene/Solr 用形態素解析システムのご紹介 ベイシス・テクノロジー (20)

Nishimotz osc2011oct-v2
Nishimotz osc2011oct-v2Nishimotz osc2011oct-v2
Nishimotz osc2011oct-v2
 
Jacet2014ykondo_final
Jacet2014ykondo_finalJacet2014ykondo_final
Jacet2014ykondo_final
 
Nishimotz pycon2011jan
Nishimotz pycon2011janNishimotz pycon2011jan
Nishimotz pycon2011jan
 
国際化時代の40カ国語言語判定
国際化時代の40カ国語言語判定国際化時代の40カ国語言語判定
国際化時代の40カ国語言語判定
 
初心者からプロフェッショナルまで~データベース開発ソフト4Dの魅力を徹底紹介~
初心者からプロフェッショナルまで~データベース開発ソフト4Dの魅力を徹底紹介~初心者からプロフェッショナルまで~データベース開発ソフト4Dの魅力を徹底紹介~
初心者からプロフェッショナルまで~データベース開発ソフト4Dの魅力を徹底紹介~
 
Unicode文字プロパティ
Unicode文字プロパティUnicode文字プロパティ
Unicode文字プロパティ
 
【OSC2011広島】共有アプリで遊ぼう!(日本Red5ユーザー会)
【OSC2011広島】共有アプリで遊ぼう!(日本Red5ユーザー会)【OSC2011広島】共有アプリで遊ぼう!(日本Red5ユーザー会)
【OSC2011広島】共有アプリで遊ぼう!(日本Red5ユーザー会)
 
Machine Learning Seminar (5)
Machine Learning Seminar (5)Machine Learning Seminar (5)
Machine Learning Seminar (5)
 
どの言語でつぶやかれたのか、機械が知る方法 #WebDBf2013
どの言語でつぶやかれたのか、機械が知る方法 #WebDBf2013どの言語でつぶやかれたのか、機械が知る方法 #WebDBf2013
どの言語でつぶやかれたのか、機械が知る方法 #WebDBf2013
 
Pythonを含む多くのプログラミング言語を扱う処理フレームワークとパターン、鷲崎弘宜、PyConJP 2016 招待講演
Pythonを含む多くのプログラミング言語を扱う処理フレームワークとパターン、鷲崎弘宜、PyConJP 2016 招待講演Pythonを含む多くのプログラミング言語を扱う処理フレームワークとパターン、鷲崎弘宜、PyConJP 2016 招待講演
Pythonを含む多くのプログラミング言語を扱う処理フレームワークとパターン、鷲崎弘宜、PyConJP 2016 招待講演
 
言語と知識の深層学習@認知科学会サマースクール
言語と知識の深層学習@認知科学会サマースクール言語と知識の深層学習@認知科学会サマースクール
言語と知識の深層学習@認知科学会サマースクール
 
大規模発話ログデータを活用した音声対話処理
大規模発話ログデータを活用した音声対話処理大規模発話ログデータを活用した音声対話処理
大規模発話ログデータを活用した音声対話処理
 
GDC10 Loc summit Buzz!
GDC10 Loc summit Buzz!GDC10 Loc summit Buzz!
GDC10 Loc summit Buzz!
 
Buzz!
Buzz!Buzz!
Buzz!
 
Buzz!
Buzz!Buzz!
Buzz!
 
言語資源と付き合う
言語資源と付き合う言語資源と付き合う
言語資源と付き合う
 
開発から見たWindowsの国際化機能
開発から見たWindowsの国際化機能開発から見たWindowsの国際化機能
開発から見たWindowsの国際化機能
 
OSC@京都 2011-07-15
OSC@京都 2011-07-15OSC@京都 2011-07-15
OSC@京都 2011-07-15
 
OSC Kansai@Kyoto
OSC Kansai@KyotoOSC Kansai@Kyoto
OSC Kansai@Kyoto
 
Dic 1707 ai_人工知能概論_鈴木悠一
Dic 1707 ai_人工知能概論_鈴木悠一Dic 1707 ai_人工知能概論_鈴木悠一
Dic 1707 ai_人工知能概論_鈴木悠一
 

Lucene/Solr 用形態素解析システムのご紹介 ベイシス・テクノロジー

  • 1. Solr/Lucene 向け自然言語処理製品のご紹介 シニア・ソフトウェア・エンジニア 平賀 一昭 ベイシス・テクノロジー株式会社 www.basistech.jp
  • 2. Basis Technology 概要 Basis Technology Corporation Carl Hoffman, CEO 以下MIT出身者を中心に、 1995年に設立 ベイシス・テクノロジー株式会社 2000年に、初の米国外オフィスとして設立
  • 3. カスタマー この他にも、多くの検索エンジン、政府、軍/情報機関などで利用されてい ます。特にここ数年は、商用エンジンから、Solr/Lucene への移行とあわ せ、弊社自然言語処理プラットフォームの採用が増えています。
  • 4. Rosette® 言語処理プラットフォーム 010.03.12 H21年度 科研「情報爆発IT基盤」プロジェ クトシンポジウムを東京大学本郷キャンパス工学部 新2号館1F213大講義室にて開催致します。本シンポ ジウムは、IPSJ50周年記念全国大会と連動、「ITコ リドー」3月6日(土)~3月12日(金)として連続開催致 Web などの非構造化データ、ある します。 事前にWebページより参加登録をお願いします(参加 いは、JDBC経由でフィードされる 登録受付中)。 2009.11.24 2009.11.02 科研「情報爆発IT基盤」 データなど 評価助言委員会委員長の米澤明憲先生(東京大学情報 理工学系研究科教授・情報基盤センター長)が平成21 年秋の紫綬褒章を受章されました(11月16日伝達式)。
  • 5. Rosette® 言語処理プラットフォーム 010.03.12 H21年度 科研「情報爆発IT基盤」プロジェ クトシンポジウムを東京大学本郷キャンパス工学部 新2号館1F213大講義室にて開催致します。本シンポ ジウムは、IPSJ50周年記念全国大会と連動、「ITコ リドー」3月6日(土)~3月12日(金)として連続開催致 します。 事前にWebページより参加登録をお願いします(参加 登録受付中)。 2009.11.24 2009.11.02 科研「情報爆発IT基盤」 評価助言委員会委員長の米澤明憲先生(東京大学情報 構造化データ 理工学系研究科教授・情報基盤センター長)が平成21 年秋の紫綬褒章を受章されました(11月16日伝達式)。
  • 6. Rosette® 言語処理プラットフォーム API Rosette® Rosette® Rosette® Rosette® ユーザ個々の 言語判別 Unicode対応 形態素解析 固有表現抽出 アプリケーショ ン システム ライブラリ システム システム
  • 7. Rosette® 言語・文字コード判別システム (RLI) 「言語」と「文字コード」を判別します 世界の55言語・39種類の文字コードを判別 日本語、中国語、朝鮮語、英語、ドイツ語、フランス語、ロシア語 等 平均判別精度 : 99.45% 日本語 JIS : 100% 朝鮮語 EUC-KR : 100% 中国語 GB-2312 : 100% ※約1KBのデータを利用したテスト結果
  • 9. Rosette® ユニコード対応ライブラリ (RCLU) Unicode と外部文字コードの相互変換を行います 文字コード変換 170種類以上の文字コードに対応 Shift-JIS ⇔ Unicode GB18030 ⇔ Unicode テキスト正規化 大文字 ⇔ 小文字 Unicode TEXT ⇔ unicode text 半角 ⇔ 全角 ABCカンパニー ⇔ ABCカンパニー ひらがな ⇔ カタカナ
  • 10. Rosette® 形態素解析システム (RBL) : 日本語版の特徴 自然文の入力を形態素へ分割します 分かち書き(テキストを単語に分割) 独自開発の解析アルゴリズム 50万語の形態素解析辞書を標準搭載し、6ヶ月ごとにアップデート 品詞出力、名詞句抽出 ユーザー定義辞書 複数の辞書が使用可能 ストップワード判別 「された」「の」、「は」、「か」などの不要語を認識 カスタマイズ可 「読み」の出力
  • 11. Rosette® 形態素解析システム (RBL) : 日本語版の特徴 (cont.) カタカナ表記ゆれ対応 (約 9,000 語) ダンスセラピー ← ダンスセラピ/ダンステラピー ファミコン ← ファミリーコンピュータ/ファミリーコンピューター ベネチア ← ベニス/ベネツィア/ヴェネチア/ヴェネツィア 漢字の旧字体サポート (約 89,000 語) 渡辺 ← 渡邊 大学 ← 大學 高島 ← 髙島 類義語対応 (ユーザー辞書により対応可能) Honda ← ホンダ、本田技研工業
  • 12. Rosette® 形態素解析システム (RBL) : 主要言語対応状況 単語分割 ステミング 複合語分解 品詞解析 文尾検出 名詞句抽出 読み (基本化) 日本語 ○ ○ ○ ○ ○ ○ ○ 朝鮮語 ○ ○ ○ ○ ○ ○ N 中国語 ○ ○ ○ ○ ○ (簡・繁) n/a n/a 英語 ○ ○ n/a ○ ○ ○ n/a アラビア語 ○ ○ n/a ○ ○ ○ ○ ロシア語 ○ ○ n/a ○ ○ N N フランス語 ○ ○ n/a ○ ○ ○ n/a イタリア語 ○ ○ n/a ○ ○ ○ n/a ドイツ語 ○ ○ ○ ○ ○ ○ n/a スペイン語 ○ ○ n/a ○ ○ ○ n/a ポルトガル語、オランダ語、ギリシャ語、ハンガリー語、ポーランド語、チェコ語、近代ペルシア語、ウルドゥ語にも 対応しています。 N - 未対応、n/a - この言語には該当せず
  • 13. Rosette® 固有表現抽出システム (REX) 固有表現(Named Entity)を抽出します 固有名詞 抽出すべき語の「文脈パターン」を事前学習 人名、地名、組織名、施設名、国籍、役職等を識別 特定パターンの語句 与えられた正規表現と一致するパターンの文字列 日時、電話番号、URL、製品型番など ユーザー定義可能 用語辞書(ガゼティア) ユーザーが指定した語句との一致
  • 14. Rosette® 固有表現抽出システム (REX) : 主要言語対応状況 人名 組織名 場所 都市名 施設 役職 日本語 ○ ○ ○ ○ ○ ○ 朝鮮語 ○ ○ ○ ○ ○ ○ 中国語 ○ ○ ○ ○ ○ ○ (簡・繁) 英語 ○ ○ ○ ○ ○ ○ アラビア語 ○ ○ ○ ○ ○ ○ ロシア語 ○ ○ ○ ○ ○ ○ フランス語 ○ ○ ○ X X ○ イタリア語 ○ ○ ○ X X ○ ドイツ語 ○ ○ ○ X X ○ スペイン語 ○ ○ ○ X X ○ 上記言語以外に、オランダ語、ポルトガル語、ウルドゥ語、近代ペルシア語をサポートしています。
  • 15. Rosette® 言語処理プラットフォーム : 提供形態 SDK による提供 シンプルなAPIのライブラリ 各国言語共通のAPI C++, C, C#, Java アプリケーションから利用可 Solr/Lucene向けパッケージには、Analyzer/Factory ソースコードが付属 サポートプラットフォーム Windows, Linux, Solaris, Mac OS X 等 その他主要プラットフォームをサポート ライセンス形態 年間ライセンスなど E-mail による技術サポート
  • 16. 次世代サーチ・テクノロジー・フォーラム 2010 主催:ベイシス・テクノロジー株式会社 開催日: 2010年4月22日(木) 時間: セミナー 9:30-16:30、 展示 12:00-16:30 会場: 国際文化会館 (東京 六本木) 申込: 3月中旬より以下のURLで受付開始 http://www.basistech.co.jp/forum/2010/ 参加費: 無料 協賛パートナー