23. Screw が提供する機能 1
必要な処理を順番に適用する
• 処理の順番は設定ファイルに記述
• 例:言語同定→単語分割→単語正規化 …
入力文書 言語同定 アプリケーション
I would 単語分割 検索
like to have
a cup of
coffee … 単語正規化 レコメンド
…
22
24. イメージ:Screw の出力
入力文書を言語処理ツールで適用した結果が出力される
• 出力:JSON 形式
入力文書 {
…,
Tokenized: [General,
General Electric is an
言語同定 Electric, is, an, American
American corporation, incorporated
corporation …],
incorporated in New 単語分割
Lemmatized: [General,
York and Electric, is, an, American
headquartered in 単語正規化 corporation, incorporat…],
United States Location: [United States,
New York],
… …
}
23
25. Screw が提供する機能 2
言語毎に必要な処理を適用
• 入力文書の言語を自動同定した上で入力言語用のツール
を適用する
• NOTE: アプリケーションは入力言語を意識しなくてよ
い
言語同定器
入力文書 アプリケーション
日本語 単語分割 英語 単語分割
I would
like to have
検索
a cup of 日本語 正規化器 英語 正規化器
coffee … レコメンド
… …
28. Screw の利用例:多言語検索
状況:文書集合が複数の言語を含む
• 必要な言語処理は Screw が全てやってくれる
入力文書(複数言語)
私は蟹が好き
です … 言語処理
I would
like to have 言語同定
a cup of
coffee …
単語分割 検索
インデクシング
単語正規化 レコメンド
クエリ
coffee …
クエリ発行
27
32. 将来の計画: Jubatus, Bazil との連携 1
• Jubatus, Bazil への入力(多言語)の前処理を行い、分類
精度を向上させる。
… 言語処理
単語分割
入力文書
言語同定
I would
like to have 単語正規化
a cup of
coffee …
…
31
33. 将来の計画: Jubatus, Bazil との連携 2
Screw が処理中の文書を Jubatus, Bazil に投げ、機械学習等
の結果を利用できるようにする。
… 言語処理
単語分割
入力文書 アプリケーション
言語同定
I would BI
like to have Jubatus 接続
a cup of
coffee … 広告
…
32
34. まとめ
• 統合検索 プラットフォーム Sedue について紹介
• 多言語解析基盤 Screw のご紹介
Confidential : Need To Known 33