SlideShare a Scribd company logo
1 of 35
Download to read offline
グローバル化する情報処理
株式会社 Preferred Infrastructure
研究開発部門 リサーチャー
伊藤 敬彦
自己紹介

•   2007年奈良先端科学技術大学院大学博士後期課程修了
    (工学博士)
•   2007年ファストサーチ&トランスファ株式会社入社
•   2009年株式会社ミクシィ入社
•   2012年株式会社プリファードインフラストラクチャーに
    て検索エンジン Sedue の開発、国際化に従事




                  1
発表内容

•   検索プラットフォーム Sedue のご紹介
•   多言語処理に関する弊社の取り組み




                  2
発表内容

•   検索プラットフォーム Sedue のご紹介
•   多言語処理に関する弊社の取り組み




                  3
統合検索プラットフォーム


     4
統合検索プラットフォーム Sedue

•   SSD に最適化させた高性能な検索を提供
•   特殊な検索方式(接尾辞配列)を採用
    ➥   どの言語でももれ無く高速に検索
•   参考:多くの検索エンジンが採用する検索方式
    (転置インデクス、N-Gram)
    •   言語サポートが必要、もしくは処理速度に問題




                  5
Sedue:製品提供/技術提供代表事例

メディア業界
 •   日経BP社様   全社横断検索
 •   朝日新聞社様    公式ニュースサイト      朝日digital
 •   株式会社インプレスビジネスメディア様
 •   日本放送協会様    NHKニュース
 •   株式会社電通様    ザッピングエンジン「XAPPY」


EC/Webサービス業界
 •   株式会社イプロス様    製造技術データベースサイト
 •   国立情報学研究所様    図書情報サービスWebcat Plus
 •   株式会社エフルート様    モバイル検索サービス
 •   株式会社コマースリンク様      ショッピングサーチ.jp



                          6
Sedue が提供する機能

•   Sedue はコアである検索インデクス以外に検索補助、
    および導入を支援する仕組みを提供


•   Sedue が提供する機能の抜粋
    •   レコメンド機能、サジェスト機能
    •   ドリルダウン機能、高いカスタマイズ性
    •   リアルタイム検索




                   7
Sedueの機能:検索とレコメンドの統合




         検索を行ったユーザーに「この文
         書も興味があるかもしれません」
         と、オススメの提示が実現
Apache Solr との比較
       Sedue                Solr
サポート コンサルティング、インストール、運
                            インストール、運用についてのみサポー
体制     用サポート、また開発チームとの連携
                            ト。
       が可能。

                            JVM のガべージコレクションが起こる可
安定性    ガベージコレクションはない。
                            能性。



       ・クエリ補正、補完            ・結果のクラスタリング
付加機能 ・レコメンド:コンテンツベース、行 ・クエリ補完
     動履歴ベース            ただし、マルチバイト文字は未対応


検索の完
       接尾辞配列による漏れのない、完全な 転置ファイルを利用した場合、検索漏れ
全性
       検索を実現。               が発生する
                        9
発表内容

•   検索エンジン Sedue のご紹介
•   多言語処理に関する弊社の取り組み




                  10
多言語処理とは?

注意: 多言語処理は翻訳ではない。


多言語処理:
 •   システム、アプリケーションの機能が任意の言語で
     動作させる、精度を向上させる処理
 •   言語によって全く利用できないということがないよ
     うにサポートする処理




                  11
多言語処理を行う背景

はじめに弊社が多言語処理を行うことになった背景と現状
の問題点について共有する
 •   サービスのグローバル化
 •   言語の利用状況
 •   会社組織のグローバル化




               12
背景:サービスのグローバル化

   •     Web サービスが扱う言語の種類は多様化している
   •     Twitter の場合、非英語は 60% であり、非英語の伸び
         が著しい



                                                                                非英語 61%




                                                                                英語 39%
                                                                                2010年時は50%



                                                                          13
http://semiocast.com/publications/2011_11_24_Arabic_highest_growth_on_Twitter
背景: 主要言語の利用状況
 言語                  第一言語:単位                     言語                 第一言語:単位
                     100万人                                          100万人
 中国語                 845                         ジャワ語               85
 スペイン語               329                         ベトナム語              69
                                                 フランス語              68
 英語                  328
                                                 韓国語                66
 ヒンドゥー語              240
                                                 トルコ語               51
 アラビア語               280                         イタリア語              62
 ポルトガル語              178                         ペルシア語              39

 ロシア語                144                         マレー語               37
                                                 タイ語                26
 日本語                 122
 ドイツ語                101


http://en.wikipedia.org/wiki/List_of_languages_by_number_of_native_speakers
                                                  14
                                                                              より
背景:会社組織のグローバル化

•   日本企業の現地法人数: 24,000 社
•   日本企業が進出した国と地域:130 カ国
    •   海外進出企業データ 2012 より




    社内文書が単一の言語であるとことが仮定できない




                       15
現状の問題点:多言語処理ツールの不備

多くの既存のアプリケーションは特定の言語以外を扱うよ
うに設計されていない
    •   既存のアプリケーション: 検索エンジン、レコメンド、
        ソーシャルモニタリング、文書分類・整理、マーケ
        ティングツール
        -   言語によっては全く使用できない
➥   現地法人の従業員によっては検索等の社内ツール、アプ
    リケーションを全く利用できない。


                     16
多言語処理:弊社の既存技術

•   Sedue:検索プラットフォーム
    •   言語に依存しない検索方式(接尾辞配列)を採用
    •   どの言語でも漏れ無く高速に検索できる
•   Bazil / Jubatus:機械学習基盤
    •   正解データさえあれば、任意の言語に対応できる


    さらに精度を向上させるには言語ツールの整備が必
    要!


                     17
言語ツールの例:単語の正規化

•   単語の表層の変化を正規化する処理
    •   入力: “tokenizing is important”
    •   出力: “tokeniz is important”


•   検索エンジンにおけるメリット:表層の変化を正規化す
    ることで、検索精度を向上できる。


•   注意:表層の変化は言語によって異なるため、言語毎に
    実装する必要がある。

                            18
複数の言語を扱う難しさ

•   使用するツールの数が多い           言語同定
                                   単語分割
    -   ツールの数=言語×ツールの種類
                              単語正規化

                                   評判分析
                          固有表現抽出
                                   構文解析


•   アプリケーションが任意の言語で動作するには
    ➥   各言語毎に存在するツール群を組み合わせる必要
    ➥   各アプリケーション毎に作り込むとコストがかかる


                    19
多言語解析基盤: Screw の開発

•   アプリケーションが任意の言語で動作することをサポー
    ト
    •   Screw を既存のアプリケーションに組み込むことで
        複数の言語に対応、精度を向上させる


•   Screw は任意のアプリケーションに対応できるように
    柔軟な設定ができる




                   20
多言語解析基盤:Screw の機能

1. アプリケーションが必要とする入力処理を設定された
  順番に適用する
2. 入力言語に応じて必要なツールが自動で適用される
3. 柔軟な設定




             21
Screw が提供する機能 1

必要な処理を順番に適用する
   •   処理の順番は設定ファイルに記述
   •   例:言語同定→単語分割→単語正規化 …



入力文書            言語同定         アプリケーション

    I would     単語分割            検索
 like to have
    a cup of
   coffee …     単語正規化         レコメンド

                 …

                  22
イメージ:Screw の出力

 入力文書を言語処理ツールで適用した結果が出力される
     •   出力:JSON 形式
入力文書                               {
                                   …,
                                   Tokenized: [General,
General Electric is an
                         言語同定      Electric, is, an, American
American                           corporation, incorporated
corporation                        …],
incorporated in New      単語分割
                                   Lemmatized: [General,
York and                           Electric, is, an, American
headquartered in         単語正規化     corporation, incorporat…],
United States                      Location: [United States,
                                   New York],
                          …        …
                                   }




                              23
Screw が提供する機能 2

 言語毎に必要な処理を適用
 •   入力文書の言語を自動同定した上で入力言語用のツール
     を適用する
 •   NOTE: アプリケーションは入力言語を意識しなくてよ
     い

                       言語同定器
入力文書                                 アプリケーション
                日本語 単語分割   英語 単語分割
    I would
 like to have
                                        検索
    a cup of    日本語 正規化器   英語 正規化器
   coffee …                           レコメンド
                   …           …
Screw が提供する機能 3

柔軟な設定
•   必要な処理の流れはすべて設定
    ファイルに記述              言語同定
    •   アプリケーション毎、案件毎    単語分割
        に調整可能
                        単語正規化
•   新たに必要になった言語、ツー
                          …
                        固有表現抽出
    ルの組み込みコストも低い
                          …




                  25
Screw の利用例:検索エンジン
検索精度を向上させるためのツール群が適用される
    •   入力:文書、クエリの二種類

入力文書
                        … 言語処理
     I would
  like to have   単語分割
     a cup of
    coffee …
                 言語同定             検索
 インデクシング
                 単語正規化           レコメンド
クエリ
 coffee           …
 クエリ発行

                   26
Screw の利用例:多言語検索
 状況:文書集合が複数の言語を含む
    •    必要な言語処理は Screw が全てやってくれる

入力文書(複数言語)


私は蟹が好き
  です                          … 言語処理
           I would
        like to have   言語同定
           a cup of
          coffee …
                       単語分割             検索
 インデクシング
                       単語正規化           レコメンド
クエリ
  coffee                …
 クエリ発行
                         27
現状のご報告

•   Sedue の次期バージョンで多言語機能 (Screw のイン
    テグレーション) をリリース
•   サポート言語:日本語、英語、中国語




                  28
ロードマップ: 基本機能をサポートする言語
(2012年9月時点     今後変更することもございます)



2012/9 日本語、英語、中国語


         スペイン語、ポルトガル語、ドイツ語、フランス語
2013/3


         タイ語、ロシア語、アラビア語、イタリア語、ヒンディー語
2013/9

       ギリシア語、フィンランド語、オランダ語、チェコ語、
2014/3 ベトナム語等




                    29
将来の計画:Screw を単体で提供

既存のアプリケーションを多言語化、国際展開するための
フレームワークとしてリリース
 •   アプリケーション:BI・マーケティング、文書マイ
     ニング、広告最適化

                       … 言語処理
                                既存アプリ
                 単語分割           ケーション
入力文書
                 言語同定            BI
    I would
 like to have
    a cup of    単語正規化            広告
   coffee …

                  …
                  30
将来の計画: Jubatus, Bazil との連携 1

•   Jubatus, Bazil への入力(多言語)の前処理を行い、分類
    精度を向上させる。



                        … 言語処理

                   単語分割
入力文書
                   言語同定
       I would
    like to have   単語正規化
       a cup of
      coffee …
                    …


                        31
将来の計画: Jubatus, Bazil との連携 2

Screw が処理中の文書を Jubatus, Bazil に投げ、機械学習等
の結果を利用できるようにする。



                        … 言語処理

                 単語分割
入力文書                             アプリケーション
                 言語同定
    I would                         BI
 like to have   Jubatus 接続
    a cup of
   coffee …                        広告
                    …


                        32
まとめ

•    統合検索 プラットフォーム Sedue について紹介
•    多言語解析基盤 Screw のご紹介




Confidential : Need To Known   33
ご清聴ありがとうございました




         34

More Related Content

Viewers also liked

2015 lodc&UDC ゴミ多言語変換用データ基盤
2015 lodc&UDC ゴミ多言語変換用データ基盤2015 lodc&UDC ゴミ多言語変換用データ基盤
2015 lodc&UDC ゴミ多言語変換用データ基盤Takuya Yamagata
 
怪しいWindowsプログラミング
怪しいWindowsプログラミング怪しいWindowsプログラミング
怪しいWindowsプログラミングnagoya313
 
C++コミュニティーの中心でC++をDISる
C++コミュニティーの中心でC++をDISるC++コミュニティーの中心でC++をDISる
C++コミュニティーの中心でC++をDISるHideyuki Tanaka
 
Yesodを支える技術
Yesodを支える技術Yesodを支える技術
Yesodを支える技術Hiromi Ishii
 
IdrisでWebアプリを書く
IdrisでWebアプリを書くIdrisでWebアプリを書く
IdrisでWebアプリを書くHideyuki Tanaka
 
PFIセミナー 2013/02/28 「プログラミング言語の今」
PFIセミナー 2013/02/28 「プログラミング言語の今」PFIセミナー 2013/02/28 「プログラミング言語の今」
PFIセミナー 2013/02/28 「プログラミング言語の今」Preferred Networks
 
関数プログラミング入門
関数プログラミング入門関数プログラミング入門
関数プログラミング入門Hideyuki Tanaka
 
大規模Redisサーバ縮小化の戦い
大規模Redisサーバ縮小化の戦い大規模Redisサーバ縮小化の戦い
大規模Redisサーバ縮小化の戦いYuto Komai
 
できる!並列・並行プログラミング
できる!並列・並行プログラミングできる!並列・並行プログラミング
できる!並列・並行プログラミングPreferred Networks
 
ディープラーニングの最新動向
ディープラーニングの最新動向ディープラーニングの最新動向
ディープラーニングの最新動向Preferred Networks
 
IPAB2017 深層学習を使った新薬の探索から創造へ
IPAB2017 深層学習を使った新薬の探索から創造へIPAB2017 深層学習を使った新薬の探索から創造へ
IPAB2017 深層学習を使った新薬の探索から創造へPreferred Networks
 
Seo camp paris - A chaque enjeu, sa stratégie - Tips & REX
Seo camp paris - A chaque enjeu, sa stratégie - Tips & REX Seo camp paris - A chaque enjeu, sa stratégie - Tips & REX
Seo camp paris - A chaque enjeu, sa stratégie - Tips & REX Intuiti
 
機械学習の理論と実践
機械学習の理論と実践機械学習の理論と実践
機械学習の理論と実践Preferred Networks
 

Viewers also liked (20)

2015 lodc&UDC ゴミ多言語変換用データ基盤
2015 lodc&UDC ゴミ多言語変換用データ基盤2015 lodc&UDC ゴミ多言語変換用データ基盤
2015 lodc&UDC ゴミ多言語変換用データ基盤
 
Ppl
PplPpl
Ppl
 
Digital Signature and PKI
Digital Signature and PKIDigital Signature and PKI
Digital Signature and PKI
 
Icfp2009
Icfp2009Icfp2009
Icfp2009
 
怪しいWindowsプログラミング
怪しいWindowsプログラミング怪しいWindowsプログラミング
怪しいWindowsプログラミング
 
Yesod勉強会
Yesod勉強会Yesod勉強会
Yesod勉強会
 
C++コミュニティーの中心でC++をDISる
C++コミュニティーの中心でC++をDISるC++コミュニティーの中心でC++をDISる
C++コミュニティーの中心でC++をDISる
 
Xpath in-lens
Xpath in-lensXpath in-lens
Xpath in-lens
 
Monad tutorial
Monad tutorialMonad tutorial
Monad tutorial
 
Yesodを支える技術
Yesodを支える技術Yesodを支える技術
Yesodを支える技術
 
IdrisでWebアプリを書く
IdrisでWebアプリを書くIdrisでWebアプリを書く
IdrisでWebアプリを書く
 
PFIセミナー 2013/02/28 「プログラミング言語の今」
PFIセミナー 2013/02/28 「プログラミング言語の今」PFIセミナー 2013/02/28 「プログラミング言語の今」
PFIセミナー 2013/02/28 「プログラミング言語の今」
 
関数プログラミング入門
関数プログラミング入門関数プログラミング入門
関数プログラミング入門
 
大規模Redisサーバ縮小化の戦い
大規模Redisサーバ縮小化の戦い大規模Redisサーバ縮小化の戦い
大規模Redisサーバ縮小化の戦い
 
一般向けのDeep Learning
一般向けのDeep Learning一般向けのDeep Learning
一般向けのDeep Learning
 
できる!並列・並行プログラミング
できる!並列・並行プログラミングできる!並列・並行プログラミング
できる!並列・並行プログラミング
 
ディープラーニングの最新動向
ディープラーニングの最新動向ディープラーニングの最新動向
ディープラーニングの最新動向
 
IPAB2017 深層学習を使った新薬の探索から創造へ
IPAB2017 深層学習を使った新薬の探索から創造へIPAB2017 深層学習を使った新薬の探索から創造へ
IPAB2017 深層学習を使った新薬の探索から創造へ
 
Seo camp paris - A chaque enjeu, sa stratégie - Tips & REX
Seo camp paris - A chaque enjeu, sa stratégie - Tips & REX Seo camp paris - A chaque enjeu, sa stratégie - Tips & REX
Seo camp paris - A chaque enjeu, sa stratégie - Tips & REX
 
機械学習の理論と実践
機械学習の理論と実践機械学習の理論と実践
機械学習の理論と実践
 

Similar to Session2:「グローバル化する情報処理」/伊藤敬彦

Quipperエンジニアセミナー 20121107
Quipperエンジニアセミナー 20121107Quipperエンジニアセミナー 20121107
Quipperエンジニアセミナー 20121107Akifumi Yokoi
 
SIG-Glocalization #13「アプリの海外展開、どうしていますか?」講演スライド
SIG-Glocalization #13「アプリの海外展開、どうしていますか?」講演スライドSIG-Glocalization #13「アプリの海外展開、どうしていますか?」講演スライド
SIG-Glocalization #13「アプリの海外展開、どうしていますか?」講演スライドIGDA JAPAN
 
Pythonを含む多くのプログラミング言語を扱う処理フレームワークとパターン、鷲崎弘宜、PyConJP 2016 招待講演
Pythonを含む多くのプログラミング言語を扱う処理フレームワークとパターン、鷲崎弘宜、PyConJP 2016 招待講演Pythonを含む多くのプログラミング言語を扱う処理フレームワークとパターン、鷲崎弘宜、PyConJP 2016 招待講演
Pythonを含む多くのプログラミング言語を扱う処理フレームワークとパターン、鷲崎弘宜、PyConJP 2016 招待講演Hironori Washizaki
 
ひとりドキュメント担当の仕事を楽しむ
ひとりドキュメント担当の仕事を楽しむひとりドキュメント担当の仕事を楽しむ
ひとりドキュメント担当の仕事を楽しむsoishino
 
楽天がCloud foundryを選んだ理由
楽天がCloud foundryを選んだ理由楽天がCloud foundryを選んだ理由
楽天がCloud foundryを選んだ理由Rakuten Group, Inc.
 
DSLによる要求獲得でスーパーアジャイル
DSLによる要求獲得でスーパーアジャイルDSLによる要求獲得でスーパーアジャイル
DSLによる要求獲得でスーパーアジャイル陽平 山口
 
Lucene/Solr 用形態素解析システムのご紹介 ベイシス・テクノロジー
Lucene/Solr 用形態素解析システムのご紹介 ベイシス・テクノロジーLucene/Solr 用形態素解析システムのご紹介 ベイシス・テクノロジー
Lucene/Solr 用形態素解析システムのご紹介 ベイシス・テクノロジーBasis Technology K.K.
 
エンジニアという職業について
エンジニアという職業についてエンジニアという職業について
エンジニアという職業についてHisatoshi Kikumoto
 
密着!わたしのコンソールアプリ開発環境
密着!わたしのコンソールアプリ開発環境密着!わたしのコンソールアプリ開発環境
密着!わたしのコンソールアプリ開発環境Fumihito Yokoyama
 
Sphinxで作る貢献しやすい ドキュメント翻訳の仕組み
Sphinxで作る貢献しやすいドキュメント翻訳の仕組みSphinxで作る貢献しやすいドキュメント翻訳の仕組み
Sphinxで作る貢献しやすい ドキュメント翻訳の仕組みTakayuki Shimizukawa
 
devsami kansai 2012 #c2
devsami kansai 2012 #c2devsami kansai 2012 #c2
devsami kansai 2012 #c2Yushi_Takagi
 
ソニーでElectronアプリをリリースしてみた
ソニーでElectronアプリをリリースしてみたソニーでElectronアプリをリリースしてみた
ソニーでElectronアプリをリリースしてみたYasuharu Seki
 
できる!スマホアプリ:Webからはじまるアプリ
できる!スマホアプリ:Webからはじまるアプリできる!スマホアプリ:Webからはじまるアプリ
できる!スマホアプリ:WebからはじまるアプリMasami Yabushita
 
言語処理するのに Python でいいの? #PyDataTokyo
言語処理するのに Python でいいの? #PyDataTokyo言語処理するのに Python でいいの? #PyDataTokyo
言語処理するのに Python でいいの? #PyDataTokyoShuyo Nakatani
 
SD_General_Presentation_ar
SD_General_Presentation_arSD_General_Presentation_ar
SD_General_Presentation_ardrtalal46
 
2011年10月21日
2011年10月21日2011年10月21日
2011年10月21日nukaemon
 
eZ Publish 2012年4月勉強会 - eZ Publish設計ベストプラクティス
eZ Publish 2012年4月勉強会 - eZ Publish設計ベストプラクティスeZ Publish 2012年4月勉強会 - eZ Publish設計ベストプラクティス
eZ Publish 2012年4月勉強会 - eZ Publish設計ベストプラクティスericsagnes
 
Tizen 2.0 alpha でサポートされなかった native api
Tizen 2.0 alpha でサポートされなかった native apiTizen 2.0 alpha でサポートされなかった native api
Tizen 2.0 alpha でサポートされなかった native apiNaruto TAKAHASHI
 
Scalable Generator: Using Scala in SIer Business (ScalaMatsuri)
Scalable Generator: Using Scala in SIer Business (ScalaMatsuri)Scalable Generator: Using Scala in SIer Business (ScalaMatsuri)
Scalable Generator: Using Scala in SIer Business (ScalaMatsuri)TIS Inc.
 

Similar to Session2:「グローバル化する情報処理」/伊藤敬彦 (20)

Quipperエンジニアセミナー 20121107
Quipperエンジニアセミナー 20121107Quipperエンジニアセミナー 20121107
Quipperエンジニアセミナー 20121107
 
SIG-Glocalization #13「アプリの海外展開、どうしていますか?」講演スライド
SIG-Glocalization #13「アプリの海外展開、どうしていますか?」講演スライドSIG-Glocalization #13「アプリの海外展開、どうしていますか?」講演スライド
SIG-Glocalization #13「アプリの海外展開、どうしていますか?」講演スライド
 
Pythonを含む多くのプログラミング言語を扱う処理フレームワークとパターン、鷲崎弘宜、PyConJP 2016 招待講演
Pythonを含む多くのプログラミング言語を扱う処理フレームワークとパターン、鷲崎弘宜、PyConJP 2016 招待講演Pythonを含む多くのプログラミング言語を扱う処理フレームワークとパターン、鷲崎弘宜、PyConJP 2016 招待講演
Pythonを含む多くのプログラミング言語を扱う処理フレームワークとパターン、鷲崎弘宜、PyConJP 2016 招待講演
 
ひとりドキュメント担当の仕事を楽しむ
ひとりドキュメント担当の仕事を楽しむひとりドキュメント担当の仕事を楽しむ
ひとりドキュメント担当の仕事を楽しむ
 
楽天がCloud foundryを選んだ理由
楽天がCloud foundryを選んだ理由楽天がCloud foundryを選んだ理由
楽天がCloud foundryを選んだ理由
 
DSLによる要求獲得でスーパーアジャイル
DSLによる要求獲得でスーパーアジャイルDSLによる要求獲得でスーパーアジャイル
DSLによる要求獲得でスーパーアジャイル
 
Lucene/Solr 用形態素解析システムのご紹介 ベイシス・テクノロジー
Lucene/Solr 用形態素解析システムのご紹介 ベイシス・テクノロジーLucene/Solr 用形態素解析システムのご紹介 ベイシス・テクノロジー
Lucene/Solr 用形態素解析システムのご紹介 ベイシス・テクノロジー
 
エンジニアという職業について
エンジニアという職業についてエンジニアという職業について
エンジニアという職業について
 
密着!わたしのコンソールアプリ開発環境
密着!わたしのコンソールアプリ開発環境密着!わたしのコンソールアプリ開発環境
密着!わたしのコンソールアプリ開発環境
 
Sphinxで作る貢献しやすい ドキュメント翻訳の仕組み
Sphinxで作る貢献しやすいドキュメント翻訳の仕組みSphinxで作る貢献しやすいドキュメント翻訳の仕組み
Sphinxで作る貢献しやすい ドキュメント翻訳の仕組み
 
devsami kansai 2012 #c2
devsami kansai 2012 #c2devsami kansai 2012 #c2
devsami kansai 2012 #c2
 
ソニーでElectronアプリをリリースしてみた
ソニーでElectronアプリをリリースしてみたソニーでElectronアプリをリリースしてみた
ソニーでElectronアプリをリリースしてみた
 
できる!スマホアプリ:Webからはじまるアプリ
できる!スマホアプリ:Webからはじまるアプリできる!スマホアプリ:Webからはじまるアプリ
できる!スマホアプリ:Webからはじまるアプリ
 
言語処理するのに Python でいいの? #PyDataTokyo
言語処理するのに Python でいいの? #PyDataTokyo言語処理するのに Python でいいの? #PyDataTokyo
言語処理するのに Python でいいの? #PyDataTokyo
 
OSC福岡 20111203
OSC福岡 20111203OSC福岡 20111203
OSC福岡 20111203
 
SD_General_Presentation_ar
SD_General_Presentation_arSD_General_Presentation_ar
SD_General_Presentation_ar
 
2011年10月21日
2011年10月21日2011年10月21日
2011年10月21日
 
eZ Publish 2012年4月勉強会 - eZ Publish設計ベストプラクティス
eZ Publish 2012年4月勉強会 - eZ Publish設計ベストプラクティスeZ Publish 2012年4月勉強会 - eZ Publish設計ベストプラクティス
eZ Publish 2012年4月勉強会 - eZ Publish設計ベストプラクティス
 
Tizen 2.0 alpha でサポートされなかった native api
Tizen 2.0 alpha でサポートされなかった native apiTizen 2.0 alpha でサポートされなかった native api
Tizen 2.0 alpha でサポートされなかった native api
 
Scalable Generator: Using Scala in SIer Business (ScalaMatsuri)
Scalable Generator: Using Scala in SIer Business (ScalaMatsuri)Scalable Generator: Using Scala in SIer Business (ScalaMatsuri)
Scalable Generator: Using Scala in SIer Business (ScalaMatsuri)
 

More from Preferred Networks

PodSecurityPolicy からGatekeeper に移行しました / Kubernetes Meetup Tokyo #57
PodSecurityPolicy からGatekeeper に移行しました / Kubernetes Meetup Tokyo #57PodSecurityPolicy からGatekeeper に移行しました / Kubernetes Meetup Tokyo #57
PodSecurityPolicy からGatekeeper に移行しました / Kubernetes Meetup Tokyo #57Preferred Networks
 
Optunaを使ったHuman-in-the-loop最適化の紹介 - 2023/04/27 W&B 東京ミートアップ #3
Optunaを使ったHuman-in-the-loop最適化の紹介 - 2023/04/27 W&B 東京ミートアップ #3Optunaを使ったHuman-in-the-loop最適化の紹介 - 2023/04/27 W&B 東京ミートアップ #3
Optunaを使ったHuman-in-the-loop最適化の紹介 - 2023/04/27 W&B 東京ミートアップ #3Preferred Networks
 
Kubernetes + containerd で cgroup v2 に移行したら "failed to create fsnotify watcher...
Kubernetes + containerd で cgroup v2 に移行したら "failed to create fsnotify watcher...Kubernetes + containerd で cgroup v2 に移行したら "failed to create fsnotify watcher...
Kubernetes + containerd で cgroup v2 に移行したら "failed to create fsnotify watcher...Preferred Networks
 
深層学習の新しい応用と、 それを支える計算機の進化 - Preferred Networks CEO 西川徹 (SEMICON Japan 2022 Ke...
深層学習の新しい応用と、 それを支える計算機の進化 - Preferred Networks CEO 西川徹 (SEMICON Japan 2022 Ke...深層学習の新しい応用と、 それを支える計算機の進化 - Preferred Networks CEO 西川徹 (SEMICON Japan 2022 Ke...
深層学習の新しい応用と、 それを支える計算機の進化 - Preferred Networks CEO 西川徹 (SEMICON Japan 2022 Ke...Preferred Networks
 
Kubernetes ControllerをScale-Outさせる方法 / Kubernetes Meetup Tokyo #55
Kubernetes ControllerをScale-Outさせる方法 / Kubernetes Meetup Tokyo #55Kubernetes ControllerをScale-Outさせる方法 / Kubernetes Meetup Tokyo #55
Kubernetes ControllerをScale-Outさせる方法 / Kubernetes Meetup Tokyo #55Preferred Networks
 
Kaggle Happywhaleコンペ優勝解法でのOptuna使用事例 - 2022/12/10 Optuna Meetup #2
Kaggle Happywhaleコンペ優勝解法でのOptuna使用事例 - 2022/12/10 Optuna Meetup #2Kaggle Happywhaleコンペ優勝解法でのOptuna使用事例 - 2022/12/10 Optuna Meetup #2
Kaggle Happywhaleコンペ優勝解法でのOptuna使用事例 - 2022/12/10 Optuna Meetup #2Preferred Networks
 
最新リリース:Optuna V3の全て - 2022/12/10 Optuna Meetup #2
最新リリース:Optuna V3の全て - 2022/12/10 Optuna Meetup #2最新リリース:Optuna V3の全て - 2022/12/10 Optuna Meetup #2
最新リリース:Optuna V3の全て - 2022/12/10 Optuna Meetup #2Preferred Networks
 
Optuna Dashboardの紹介と設計解説 - 2022/12/10 Optuna Meetup #2
Optuna Dashboardの紹介と設計解説 - 2022/12/10 Optuna Meetup #2Optuna Dashboardの紹介と設計解説 - 2022/12/10 Optuna Meetup #2
Optuna Dashboardの紹介と設計解説 - 2022/12/10 Optuna Meetup #2Preferred Networks
 
スタートアップが提案する2030年の材料開発 - 2022/11/11 QPARC講演
スタートアップが提案する2030年の材料開発 - 2022/11/11 QPARC講演スタートアップが提案する2030年の材料開発 - 2022/11/11 QPARC講演
スタートアップが提案する2030年の材料開発 - 2022/11/11 QPARC講演Preferred Networks
 
Deep Learningのための専用プロセッサ「MN-Core」の開発と活用(2022/10/19東大大学院「 融合情報学特別講義Ⅲ」)
Deep Learningのための専用プロセッサ「MN-Core」の開発と活用(2022/10/19東大大学院「 融合情報学特別講義Ⅲ」)Deep Learningのための専用プロセッサ「MN-Core」の開発と活用(2022/10/19東大大学院「 融合情報学特別講義Ⅲ」)
Deep Learningのための専用プロセッサ「MN-Core」の開発と活用(2022/10/19東大大学院「 融合情報学特別講義Ⅲ」)Preferred Networks
 
PFNにおける研究開発(2022/10/19 東大大学院「融合情報学特別講義Ⅲ」)
PFNにおける研究開発(2022/10/19 東大大学院「融合情報学特別講義Ⅲ」)PFNにおける研究開発(2022/10/19 東大大学院「融合情報学特別講義Ⅲ」)
PFNにおける研究開発(2022/10/19 東大大学院「融合情報学特別講義Ⅲ」)Preferred Networks
 
自然言語処理を 役立てるのはなぜ難しいのか(2022/10/25東大大学院「自然言語処理応用」)
自然言語処理を 役立てるのはなぜ難しいのか(2022/10/25東大大学院「自然言語処理応用」)自然言語処理を 役立てるのはなぜ難しいのか(2022/10/25東大大学院「自然言語処理応用」)
自然言語処理を 役立てるのはなぜ難しいのか(2022/10/25東大大学院「自然言語処理応用」)Preferred Networks
 
Kubernetes にこれから入るかもしれない注目機能!(2022年11月版) / TechFeed Experts Night #7 〜 コンテナ技術を語る
Kubernetes にこれから入るかもしれない注目機能!(2022年11月版) / TechFeed Experts Night #7 〜 コンテナ技術を語るKubernetes にこれから入るかもしれない注目機能!(2022年11月版) / TechFeed Experts Night #7 〜 コンテナ技術を語る
Kubernetes にこれから入るかもしれない注目機能!(2022年11月版) / TechFeed Experts Night #7 〜 コンテナ技術を語るPreferred Networks
 
Matlantis™のニューラルネットワークポテンシャルPFPの適用範囲拡張
Matlantis™のニューラルネットワークポテンシャルPFPの適用範囲拡張Matlantis™のニューラルネットワークポテンシャルPFPの適用範囲拡張
Matlantis™のニューラルネットワークポテンシャルPFPの適用範囲拡張Preferred Networks
 
PFNのオンプレ計算機クラスタの取り組み_第55回情報科学若手の会
PFNのオンプレ計算機クラスタの取り組み_第55回情報科学若手の会PFNのオンプレ計算機クラスタの取り組み_第55回情報科学若手の会
PFNのオンプレ計算機クラスタの取り組み_第55回情報科学若手の会Preferred Networks
 
続・PFN のオンプレML基盤の取り組み / オンプレML基盤 on Kubernetes 〜PFN、ヤフー〜 #2
続・PFN のオンプレML基盤の取り組み / オンプレML基盤 on Kubernetes 〜PFN、ヤフー〜 #2続・PFN のオンプレML基盤の取り組み / オンプレML基盤 on Kubernetes 〜PFN、ヤフー〜 #2
続・PFN のオンプレML基盤の取り組み / オンプレML基盤 on Kubernetes 〜PFN、ヤフー〜 #2Preferred Networks
 
Kubernetes Service Account As Multi-Cloud Identity / Cloud Native Security Co...
Kubernetes Service Account As Multi-Cloud Identity / Cloud Native Security Co...Kubernetes Service Account As Multi-Cloud Identity / Cloud Native Security Co...
Kubernetes Service Account As Multi-Cloud Identity / Cloud Native Security Co...Preferred Networks
 
KubeCon + CloudNativeCon Europe 2022 Recap / Kubernetes Meetup Tokyo #51 / #k...
KubeCon + CloudNativeCon Europe 2022 Recap / Kubernetes Meetup Tokyo #51 / #k...KubeCon + CloudNativeCon Europe 2022 Recap / Kubernetes Meetup Tokyo #51 / #k...
KubeCon + CloudNativeCon Europe 2022 Recap / Kubernetes Meetup Tokyo #51 / #k...Preferred Networks
 
KubeCon + CloudNativeCon Europe 2022 Recap - Batch/HPCの潮流とScheduler拡張事例 / Kub...
KubeCon + CloudNativeCon Europe 2022 Recap - Batch/HPCの潮流とScheduler拡張事例 / Kub...KubeCon + CloudNativeCon Europe 2022 Recap - Batch/HPCの潮流とScheduler拡張事例 / Kub...
KubeCon + CloudNativeCon Europe 2022 Recap - Batch/HPCの潮流とScheduler拡張事例 / Kub...Preferred Networks
 
独断と偏見で選んだ Kubernetes 1.24 の注目機能と今後! / Kubernetes Meetup Tokyo 50
独断と偏見で選んだ Kubernetes 1.24 の注目機能と今後! / Kubernetes Meetup Tokyo 50独断と偏見で選んだ Kubernetes 1.24 の注目機能と今後! / Kubernetes Meetup Tokyo 50
独断と偏見で選んだ Kubernetes 1.24 の注目機能と今後! / Kubernetes Meetup Tokyo 50Preferred Networks
 

More from Preferred Networks (20)

PodSecurityPolicy からGatekeeper に移行しました / Kubernetes Meetup Tokyo #57
PodSecurityPolicy からGatekeeper に移行しました / Kubernetes Meetup Tokyo #57PodSecurityPolicy からGatekeeper に移行しました / Kubernetes Meetup Tokyo #57
PodSecurityPolicy からGatekeeper に移行しました / Kubernetes Meetup Tokyo #57
 
Optunaを使ったHuman-in-the-loop最適化の紹介 - 2023/04/27 W&B 東京ミートアップ #3
Optunaを使ったHuman-in-the-loop最適化の紹介 - 2023/04/27 W&B 東京ミートアップ #3Optunaを使ったHuman-in-the-loop最適化の紹介 - 2023/04/27 W&B 東京ミートアップ #3
Optunaを使ったHuman-in-the-loop最適化の紹介 - 2023/04/27 W&B 東京ミートアップ #3
 
Kubernetes + containerd で cgroup v2 に移行したら "failed to create fsnotify watcher...
Kubernetes + containerd で cgroup v2 に移行したら "failed to create fsnotify watcher...Kubernetes + containerd で cgroup v2 に移行したら "failed to create fsnotify watcher...
Kubernetes + containerd で cgroup v2 に移行したら "failed to create fsnotify watcher...
 
深層学習の新しい応用と、 それを支える計算機の進化 - Preferred Networks CEO 西川徹 (SEMICON Japan 2022 Ke...
深層学習の新しい応用と、 それを支える計算機の進化 - Preferred Networks CEO 西川徹 (SEMICON Japan 2022 Ke...深層学習の新しい応用と、 それを支える計算機の進化 - Preferred Networks CEO 西川徹 (SEMICON Japan 2022 Ke...
深層学習の新しい応用と、 それを支える計算機の進化 - Preferred Networks CEO 西川徹 (SEMICON Japan 2022 Ke...
 
Kubernetes ControllerをScale-Outさせる方法 / Kubernetes Meetup Tokyo #55
Kubernetes ControllerをScale-Outさせる方法 / Kubernetes Meetup Tokyo #55Kubernetes ControllerをScale-Outさせる方法 / Kubernetes Meetup Tokyo #55
Kubernetes ControllerをScale-Outさせる方法 / Kubernetes Meetup Tokyo #55
 
Kaggle Happywhaleコンペ優勝解法でのOptuna使用事例 - 2022/12/10 Optuna Meetup #2
Kaggle Happywhaleコンペ優勝解法でのOptuna使用事例 - 2022/12/10 Optuna Meetup #2Kaggle Happywhaleコンペ優勝解法でのOptuna使用事例 - 2022/12/10 Optuna Meetup #2
Kaggle Happywhaleコンペ優勝解法でのOptuna使用事例 - 2022/12/10 Optuna Meetup #2
 
最新リリース:Optuna V3の全て - 2022/12/10 Optuna Meetup #2
最新リリース:Optuna V3の全て - 2022/12/10 Optuna Meetup #2最新リリース:Optuna V3の全て - 2022/12/10 Optuna Meetup #2
最新リリース:Optuna V3の全て - 2022/12/10 Optuna Meetup #2
 
Optuna Dashboardの紹介と設計解説 - 2022/12/10 Optuna Meetup #2
Optuna Dashboardの紹介と設計解説 - 2022/12/10 Optuna Meetup #2Optuna Dashboardの紹介と設計解説 - 2022/12/10 Optuna Meetup #2
Optuna Dashboardの紹介と設計解説 - 2022/12/10 Optuna Meetup #2
 
スタートアップが提案する2030年の材料開発 - 2022/11/11 QPARC講演
スタートアップが提案する2030年の材料開発 - 2022/11/11 QPARC講演スタートアップが提案する2030年の材料開発 - 2022/11/11 QPARC講演
スタートアップが提案する2030年の材料開発 - 2022/11/11 QPARC講演
 
Deep Learningのための専用プロセッサ「MN-Core」の開発と活用(2022/10/19東大大学院「 融合情報学特別講義Ⅲ」)
Deep Learningのための専用プロセッサ「MN-Core」の開発と活用(2022/10/19東大大学院「 融合情報学特別講義Ⅲ」)Deep Learningのための専用プロセッサ「MN-Core」の開発と活用(2022/10/19東大大学院「 融合情報学特別講義Ⅲ」)
Deep Learningのための専用プロセッサ「MN-Core」の開発と活用(2022/10/19東大大学院「 融合情報学特別講義Ⅲ」)
 
PFNにおける研究開発(2022/10/19 東大大学院「融合情報学特別講義Ⅲ」)
PFNにおける研究開発(2022/10/19 東大大学院「融合情報学特別講義Ⅲ」)PFNにおける研究開発(2022/10/19 東大大学院「融合情報学特別講義Ⅲ」)
PFNにおける研究開発(2022/10/19 東大大学院「融合情報学特別講義Ⅲ」)
 
自然言語処理を 役立てるのはなぜ難しいのか(2022/10/25東大大学院「自然言語処理応用」)
自然言語処理を 役立てるのはなぜ難しいのか(2022/10/25東大大学院「自然言語処理応用」)自然言語処理を 役立てるのはなぜ難しいのか(2022/10/25東大大学院「自然言語処理応用」)
自然言語処理を 役立てるのはなぜ難しいのか(2022/10/25東大大学院「自然言語処理応用」)
 
Kubernetes にこれから入るかもしれない注目機能!(2022年11月版) / TechFeed Experts Night #7 〜 コンテナ技術を語る
Kubernetes にこれから入るかもしれない注目機能!(2022年11月版) / TechFeed Experts Night #7 〜 コンテナ技術を語るKubernetes にこれから入るかもしれない注目機能!(2022年11月版) / TechFeed Experts Night #7 〜 コンテナ技術を語る
Kubernetes にこれから入るかもしれない注目機能!(2022年11月版) / TechFeed Experts Night #7 〜 コンテナ技術を語る
 
Matlantis™のニューラルネットワークポテンシャルPFPの適用範囲拡張
Matlantis™のニューラルネットワークポテンシャルPFPの適用範囲拡張Matlantis™のニューラルネットワークポテンシャルPFPの適用範囲拡張
Matlantis™のニューラルネットワークポテンシャルPFPの適用範囲拡張
 
PFNのオンプレ計算機クラスタの取り組み_第55回情報科学若手の会
PFNのオンプレ計算機クラスタの取り組み_第55回情報科学若手の会PFNのオンプレ計算機クラスタの取り組み_第55回情報科学若手の会
PFNのオンプレ計算機クラスタの取り組み_第55回情報科学若手の会
 
続・PFN のオンプレML基盤の取り組み / オンプレML基盤 on Kubernetes 〜PFN、ヤフー〜 #2
続・PFN のオンプレML基盤の取り組み / オンプレML基盤 on Kubernetes 〜PFN、ヤフー〜 #2続・PFN のオンプレML基盤の取り組み / オンプレML基盤 on Kubernetes 〜PFN、ヤフー〜 #2
続・PFN のオンプレML基盤の取り組み / オンプレML基盤 on Kubernetes 〜PFN、ヤフー〜 #2
 
Kubernetes Service Account As Multi-Cloud Identity / Cloud Native Security Co...
Kubernetes Service Account As Multi-Cloud Identity / Cloud Native Security Co...Kubernetes Service Account As Multi-Cloud Identity / Cloud Native Security Co...
Kubernetes Service Account As Multi-Cloud Identity / Cloud Native Security Co...
 
KubeCon + CloudNativeCon Europe 2022 Recap / Kubernetes Meetup Tokyo #51 / #k...
KubeCon + CloudNativeCon Europe 2022 Recap / Kubernetes Meetup Tokyo #51 / #k...KubeCon + CloudNativeCon Europe 2022 Recap / Kubernetes Meetup Tokyo #51 / #k...
KubeCon + CloudNativeCon Europe 2022 Recap / Kubernetes Meetup Tokyo #51 / #k...
 
KubeCon + CloudNativeCon Europe 2022 Recap - Batch/HPCの潮流とScheduler拡張事例 / Kub...
KubeCon + CloudNativeCon Europe 2022 Recap - Batch/HPCの潮流とScheduler拡張事例 / Kub...KubeCon + CloudNativeCon Europe 2022 Recap - Batch/HPCの潮流とScheduler拡張事例 / Kub...
KubeCon + CloudNativeCon Europe 2022 Recap - Batch/HPCの潮流とScheduler拡張事例 / Kub...
 
独断と偏見で選んだ Kubernetes 1.24 の注目機能と今後! / Kubernetes Meetup Tokyo 50
独断と偏見で選んだ Kubernetes 1.24 の注目機能と今後! / Kubernetes Meetup Tokyo 50独断と偏見で選んだ Kubernetes 1.24 の注目機能と今後! / Kubernetes Meetup Tokyo 50
独断と偏見で選んだ Kubernetes 1.24 の注目機能と今後! / Kubernetes Meetup Tokyo 50
 

Session2:「グローバル化する情報処理」/伊藤敬彦

  • 2. 自己紹介 • 2007年奈良先端科学技術大学院大学博士後期課程修了 (工学博士) • 2007年ファストサーチ&トランスファ株式会社入社 • 2009年株式会社ミクシィ入社 • 2012年株式会社プリファードインフラストラクチャーに て検索エンジン Sedue の開発、国際化に従事 1
  • 3. 発表内容 • 検索プラットフォーム Sedue のご紹介 • 多言語処理に関する弊社の取り組み 2
  • 4. 発表内容 • 検索プラットフォーム Sedue のご紹介 • 多言語処理に関する弊社の取り組み 3
  • 6. 統合検索プラットフォーム Sedue • SSD に最適化させた高性能な検索を提供 • 特殊な検索方式(接尾辞配列)を採用 ➥ どの言語でももれ無く高速に検索 • 参考:多くの検索エンジンが採用する検索方式 (転置インデクス、N-Gram) • 言語サポートが必要、もしくは処理速度に問題 5
  • 7. Sedue:製品提供/技術提供代表事例 メディア業界 • 日経BP社様 全社横断検索 • 朝日新聞社様 公式ニュースサイト 朝日digital • 株式会社インプレスビジネスメディア様 • 日本放送協会様 NHKニュース • 株式会社電通様 ザッピングエンジン「XAPPY」 EC/Webサービス業界 • 株式会社イプロス様 製造技術データベースサイト • 国立情報学研究所様 図書情報サービスWebcat Plus • 株式会社エフルート様 モバイル検索サービス • 株式会社コマースリンク様 ショッピングサーチ.jp 6
  • 8. Sedue が提供する機能 • Sedue はコアである検索インデクス以外に検索補助、 および導入を支援する仕組みを提供 • Sedue が提供する機能の抜粋 • レコメンド機能、サジェスト機能 • ドリルダウン機能、高いカスタマイズ性 • リアルタイム検索 7
  • 9. Sedueの機能:検索とレコメンドの統合 検索を行ったユーザーに「この文 書も興味があるかもしれません」 と、オススメの提示が実現
  • 10. Apache Solr との比較 Sedue Solr サポート コンサルティング、インストール、運 インストール、運用についてのみサポー 体制 用サポート、また開発チームとの連携 ト。 が可能。 JVM のガべージコレクションが起こる可 安定性 ガベージコレクションはない。 能性。 ・クエリ補正、補完 ・結果のクラスタリング 付加機能 ・レコメンド:コンテンツベース、行 ・クエリ補完 動履歴ベース ただし、マルチバイト文字は未対応 検索の完 接尾辞配列による漏れのない、完全な 転置ファイルを利用した場合、検索漏れ 全性 検索を実現。 が発生する 9
  • 11. 発表内容 • 検索エンジン Sedue のご紹介 • 多言語処理に関する弊社の取り組み 10
  • 12. 多言語処理とは? 注意: 多言語処理は翻訳ではない。 多言語処理: • システム、アプリケーションの機能が任意の言語で 動作させる、精度を向上させる処理 • 言語によって全く利用できないということがないよ うにサポートする処理 11
  • 13. 多言語処理を行う背景 はじめに弊社が多言語処理を行うことになった背景と現状 の問題点について共有する • サービスのグローバル化 • 言語の利用状況 • 会社組織のグローバル化 12
  • 14. 背景:サービスのグローバル化 • Web サービスが扱う言語の種類は多様化している • Twitter の場合、非英語は 60% であり、非英語の伸び が著しい 非英語 61% 英語 39% 2010年時は50% 13 http://semiocast.com/publications/2011_11_24_Arabic_highest_growth_on_Twitter
  • 15. 背景: 主要言語の利用状況 言語 第一言語:単位 言語 第一言語:単位 100万人 100万人 中国語 845 ジャワ語 85 スペイン語 329 ベトナム語 69 フランス語 68 英語 328 韓国語 66 ヒンドゥー語 240 トルコ語 51 アラビア語 280 イタリア語 62 ポルトガル語 178 ペルシア語 39 ロシア語 144 マレー語 37 タイ語 26 日本語 122 ドイツ語 101 http://en.wikipedia.org/wiki/List_of_languages_by_number_of_native_speakers 14 より
  • 16. 背景:会社組織のグローバル化 • 日本企業の現地法人数: 24,000 社 • 日本企業が進出した国と地域:130 カ国 • 海外進出企業データ 2012 より 社内文書が単一の言語であるとことが仮定できない 15
  • 17. 現状の問題点:多言語処理ツールの不備 多くの既存のアプリケーションは特定の言語以外を扱うよ うに設計されていない • 既存のアプリケーション: 検索エンジン、レコメンド、 ソーシャルモニタリング、文書分類・整理、マーケ ティングツール - 言語によっては全く使用できない ➥ 現地法人の従業員によっては検索等の社内ツール、アプ リケーションを全く利用できない。 16
  • 18. 多言語処理:弊社の既存技術 • Sedue:検索プラットフォーム • 言語に依存しない検索方式(接尾辞配列)を採用 • どの言語でも漏れ無く高速に検索できる • Bazil / Jubatus:機械学習基盤 • 正解データさえあれば、任意の言語に対応できる さらに精度を向上させるには言語ツールの整備が必 要! 17
  • 19. 言語ツールの例:単語の正規化 • 単語の表層の変化を正規化する処理 • 入力: “tokenizing is important” • 出力: “tokeniz is important” • 検索エンジンにおけるメリット:表層の変化を正規化す ることで、検索精度を向上できる。 • 注意:表層の変化は言語によって異なるため、言語毎に 実装する必要がある。 18
  • 20. 複数の言語を扱う難しさ • 使用するツールの数が多い 言語同定 単語分割 - ツールの数=言語×ツールの種類 単語正規化 評判分析 固有表現抽出 構文解析 • アプリケーションが任意の言語で動作するには ➥ 各言語毎に存在するツール群を組み合わせる必要 ➥ 各アプリケーション毎に作り込むとコストがかかる 19
  • 21. 多言語解析基盤: Screw の開発 • アプリケーションが任意の言語で動作することをサポー ト • Screw を既存のアプリケーションに組み込むことで 複数の言語に対応、精度を向上させる • Screw は任意のアプリケーションに対応できるように 柔軟な設定ができる 20
  • 22. 多言語解析基盤:Screw の機能 1. アプリケーションが必要とする入力処理を設定された 順番に適用する 2. 入力言語に応じて必要なツールが自動で適用される 3. 柔軟な設定 21
  • 23. Screw が提供する機能 1 必要な処理を順番に適用する • 処理の順番は設定ファイルに記述 • 例:言語同定→単語分割→単語正規化 … 入力文書 言語同定 アプリケーション I would 単語分割 検索 like to have a cup of coffee … 単語正規化 レコメンド … 22
  • 24. イメージ:Screw の出力 入力文書を言語処理ツールで適用した結果が出力される • 出力:JSON 形式 入力文書 { …, Tokenized: [General, General Electric is an 言語同定 Electric, is, an, American American corporation, incorporated corporation …], incorporated in New 単語分割 Lemmatized: [General, York and Electric, is, an, American headquartered in 単語正規化 corporation, incorporat…], United States Location: [United States, New York], … … } 23
  • 25. Screw が提供する機能 2 言語毎に必要な処理を適用 • 入力文書の言語を自動同定した上で入力言語用のツール を適用する • NOTE: アプリケーションは入力言語を意識しなくてよ い 言語同定器 入力文書 アプリケーション 日本語 単語分割 英語 単語分割 I would like to have 検索 a cup of 日本語 正規化器 英語 正規化器 coffee … レコメンド … …
  • 26. Screw が提供する機能 3 柔軟な設定 • 必要な処理の流れはすべて設定 ファイルに記述 言語同定 • アプリケーション毎、案件毎 単語分割 に調整可能 単語正規化 • 新たに必要になった言語、ツー … 固有表現抽出 ルの組み込みコストも低い … 25
  • 27. Screw の利用例:検索エンジン 検索精度を向上させるためのツール群が適用される • 入力:文書、クエリの二種類 入力文書 … 言語処理 I would like to have 単語分割 a cup of coffee … 言語同定 検索 インデクシング 単語正規化 レコメンド クエリ coffee … クエリ発行 26
  • 28. Screw の利用例:多言語検索 状況:文書集合が複数の言語を含む • 必要な言語処理は Screw が全てやってくれる 入力文書(複数言語) 私は蟹が好き です … 言語処理 I would like to have 言語同定 a cup of coffee … 単語分割 検索 インデクシング 単語正規化 レコメンド クエリ coffee … クエリ発行 27
  • 29. 現状のご報告 • Sedue の次期バージョンで多言語機能 (Screw のイン テグレーション) をリリース • サポート言語:日本語、英語、中国語 28
  • 30. ロードマップ: 基本機能をサポートする言語 (2012年9月時点 今後変更することもございます) 2012/9 日本語、英語、中国語 スペイン語、ポルトガル語、ドイツ語、フランス語 2013/3 タイ語、ロシア語、アラビア語、イタリア語、ヒンディー語 2013/9 ギリシア語、フィンランド語、オランダ語、チェコ語、 2014/3 ベトナム語等 29
  • 31. 将来の計画:Screw を単体で提供 既存のアプリケーションを多言語化、国際展開するための フレームワークとしてリリース • アプリケーション:BI・マーケティング、文書マイ ニング、広告最適化 … 言語処理 既存アプリ 単語分割 ケーション 入力文書 言語同定 BI I would like to have a cup of 単語正規化 広告 coffee … … 30
  • 32. 将来の計画: Jubatus, Bazil との連携 1 • Jubatus, Bazil への入力(多言語)の前処理を行い、分類 精度を向上させる。 … 言語処理 単語分割 入力文書 言語同定 I would like to have 単語正規化 a cup of coffee … … 31
  • 33. 将来の計画: Jubatus, Bazil との連携 2 Screw が処理中の文書を Jubatus, Bazil に投げ、機械学習等 の結果を利用できるようにする。 … 言語処理 単語分割 入力文書 アプリケーション 言語同定 I would BI like to have Jubatus 接続 a cup of coffee … 広告 … 32
  • 34. まとめ • 統合検索 プラットフォーム Sedue について紹介 • 多言語解析基盤 Screw のご紹介 Confidential : Need To Known 33