Contenu connexe
Similaire à Lucene/Solr 用形態素解析システムのご紹介 ベイシス・テクノロジー (20)
Lucene/Solr 用形態素解析システムのご紹介 ベイシス・テクノロジー
- 2. Basis Technology 概要
Basis Technology Corporation
Carl Hoffman, CEO 以下MIT出身者を中心に、
1995年に設立
ベイシス・テクノロジー株式会社
2000年に、初の米国外オフィスとして設立
- 4. Rosette® 言語処理プラットフォーム
010.03.12 H21年度 科研「情報爆発IT基盤」プロジェ
クトシンポジウムを東京大学本郷キャンパス工学部
新2号館1F213大講義室にて開催致します。本シンポ
ジウムは、IPSJ50周年記念全国大会と連動、「ITコ
リドー」3月6日(土)~3月12日(金)として連続開催致
Web などの非構造化データ、ある
します。
事前にWebページより参加登録をお願いします(参加 いは、JDBC経由でフィードされる
登録受付中)。
2009.11.24 2009.11.02 科研「情報爆発IT基盤」 データなど
評価助言委員会委員長の米澤明憲先生(東京大学情報
理工学系研究科教授・情報基盤センター長)が平成21
年秋の紫綬褒章を受章されました(11月16日伝達式)。
- 5. Rosette® 言語処理プラットフォーム
010.03.12 H21年度 科研「情報爆発IT基盤」プロジェ
クトシンポジウムを東京大学本郷キャンパス工学部
新2号館1F213大講義室にて開催致します。本シンポ
ジウムは、IPSJ50周年記念全国大会と連動、「ITコ
リドー」3月6日(土)~3月12日(金)として連続開催致
します。
事前にWebページより参加登録をお願いします(参加
登録受付中)。
2009.11.24 2009.11.02 科研「情報爆発IT基盤」
評価助言委員会委員長の米澤明憲先生(東京大学情報
構造化データ
理工学系研究科教授・情報基盤センター長)が平成21
年秋の紫綬褒章を受章されました(11月16日伝達式)。
- 6. Rosette® 言語処理プラットフォーム
API
Rosette® Rosette® Rosette® Rosette®
ユーザ個々の
言語判別 Unicode対応 形態素解析 固有表現抽出 アプリケーショ
ン
システム ライブラリ システム システム
- 7. Rosette® 言語・文字コード判別システム (RLI)
「言語」と「文字コード」を判別します
世界の55言語・39種類の文字コードを判別
日本語、中国語、朝鮮語、英語、ドイツ語、フランス語、ロシア語 等
平均判別精度 : 99.45%
日本語 JIS : 100%
朝鮮語 EUC-KR : 100%
中国語 GB-2312 : 100%
※約1KBのデータを利用したテスト結果
- 9. Rosette® ユニコード対応ライブラリ (RCLU)
Unicode と外部文字コードの相互変換を行います
文字コード変換
170種類以上の文字コードに対応
Shift-JIS ⇔ Unicode
GB18030 ⇔ Unicode
テキスト正規化
大文字 ⇔ 小文字
Unicode TEXT ⇔ unicode text
半角 ⇔ 全角
ABCカンパニー ⇔ ABCカンパニー
ひらがな ⇔ カタカナ
- 10. Rosette® 形態素解析システム (RBL) : 日本語版の特徴
自然文の入力を形態素へ分割します
分かち書き(テキストを単語に分割)
独自開発の解析アルゴリズム
50万語の形態素解析辞書を標準搭載し、6ヶ月ごとにアップデート
品詞出力、名詞句抽出
ユーザー定義辞書
複数の辞書が使用可能
ストップワード判別
「された」「の」、「は」、「か」などの不要語を認識
カスタマイズ可
「読み」の出力
- 11. Rosette® 形態素解析システム (RBL) : 日本語版の特徴 (cont.)
カタカナ表記ゆれ対応 (約 9,000 語)
ダンスセラピー ← ダンスセラピ/ダンステラピー
ファミコン ← ファミリーコンピュータ/ファミリーコンピューター
ベネチア ← ベニス/ベネツィア/ヴェネチア/ヴェネツィア
漢字の旧字体サポート (約 89,000 語)
渡辺 ← 渡邊
大学 ← 大學
高島 ← 髙島
類義語対応 (ユーザー辞書により対応可能)
Honda ← ホンダ、本田技研工業
- 12. Rosette® 形態素解析システム (RBL) : 主要言語対応状況
単語分割 ステミング 複合語分解 品詞解析 文尾検出 名詞句抽出 読み
(基本化)
日本語 ○ ○ ○ ○ ○ ○ ○
朝鮮語 ○ ○ ○ ○ ○ ○ N
中国語 ○ ○ ○ ○ ○
(簡・繁) n/a n/a
英語 ○ ○ n/a ○ ○ ○ n/a
アラビア語 ○ ○ n/a ○ ○ ○ ○
ロシア語 ○ ○ n/a ○ ○ N N
フランス語 ○ ○ n/a ○ ○ ○ n/a
イタリア語 ○ ○ n/a ○ ○ ○ n/a
ドイツ語 ○ ○ ○ ○ ○ ○ n/a
スペイン語 ○ ○ n/a ○ ○ ○ n/a
ポルトガル語、オランダ語、ギリシャ語、ハンガリー語、ポーランド語、チェコ語、近代ペルシア語、ウルドゥ語にも
対応しています。
N - 未対応、n/a - この言語には該当せず
- 13. Rosette® 固有表現抽出システム (REX)
固有表現(Named Entity)を抽出します
固有名詞
抽出すべき語の「文脈パターン」を事前学習
人名、地名、組織名、施設名、国籍、役職等を識別
特定パターンの語句
与えられた正規表現と一致するパターンの文字列
日時、電話番号、URL、製品型番など
ユーザー定義可能
用語辞書(ガゼティア)
ユーザーが指定した語句との一致
- 14. Rosette® 固有表現抽出システム (REX) : 主要言語対応状況
人名 組織名 場所 都市名 施設 役職
日本語 ○ ○ ○ ○ ○ ○
朝鮮語 ○ ○ ○ ○ ○ ○
中国語 ○ ○ ○ ○ ○ ○
(簡・繁)
英語 ○ ○ ○ ○ ○ ○
アラビア語 ○ ○ ○ ○ ○ ○
ロシア語 ○ ○ ○ ○ ○ ○
フランス語 ○ ○ ○ X X ○
イタリア語 ○ ○ ○ X X ○
ドイツ語 ○ ○ ○ X X ○
スペイン語 ○ ○ ○ X X ○
上記言語以外に、オランダ語、ポルトガル語、ウルドゥ語、近代ペルシア語をサポートしています。
- 15. Rosette® 言語処理プラットフォーム : 提供形態
SDK による提供
シンプルなAPIのライブラリ
各国言語共通のAPI
C++, C, C#, Java アプリケーションから利用可
Solr/Lucene向けパッケージには、Analyzer/Factory ソースコードが付属
サポートプラットフォーム
Windows, Linux, Solaris, Mac OS X 等
その他主要プラットフォームをサポート
ライセンス形態
年間ライセンスなど
E-mail による技術サポート