SlideShare une entreprise Scribd logo
1  sur  28
Télécharger pour lire hors ligne
大規模日本語ブログコーパスにおける
   言語モデルの構築と評価

      ヤフー株式会社
     奥野陽 颯々野学
概要

    • 大規模言語モデルのトレードオフを調
      査
    • Web日本語Nグラムを評価
    • ブログから言語モデルを構築・評価




2
発表の構成

    • 背景・目的
    • 大規模言語モデルの構築と評価
    • 実験




3
発表の構成

    • 背景・目的
     – 言語モデルとは
     – 大規模コーパスの利用
     – 研究の目的
    • 大規模言語モデルの構築と評価
    • 実験

4
背景・目的(1)

    • 言語モデルとは [北ら, 1999]
     – 文の確率をモデル化
     – 仮名漢字変換などに応用 [森ら, 1999]
     – 訓練コーパスから推定

    例: P(私の名前は中野です)
              >




        P(はです中野名前のは私)
5
背景・目的(2)

    • 近年、大規模コーパスが普及
     – Webからコーパスが入手可能に
     – 統計的な手法では恩恵が大きい


    • しかし…



6
背景・目的(3)

    • 構築時の問題点
     – 多くの計算とメモリを必要とする
     – 1台のコンピュータに保存できない
    • 利用時の問題点
     – 検索などのリアルタイム処理が必要
     – モデルサイズがメモリに収まらない


7
背景・目的(4)

    • データ量と性能はトレードオフの関係
    • 適切なバランスの選択が必要


    研究の目的:

     大規模な言語モデルを利用する上で
     のトレードオフを明らかにすること

8
発表の構成

    • 背景・目的
    • 大規模言語モデルの構築と評価
     – 単語N-gramモデル
     – スムージング方式
     – クロスエントロピーによる評価
     – MapReduceを用いたN-gram集計
    • 実験
9
単語N-gramモデル

     • 課題:文(単語列)の生成確率を推定
     • アプローチ:マルコフモデル


     • 単純な最尤推定:


     • しかし…
              ゼロ頻度問題
10
Dirichletスムージング

     • ゼロ頻度問題に対処:スムージング
     • N-gram確率を(N-1)-gramを用いて補完




     • 再帰的に適用し、1-gramは最尤推定


11
Kneser-Neyスムージング   [Kneserら, 1995]



     • 工夫1:低頻度語の影響を下げる



     • 工夫2:低次のN-gramを滑らかにする



           :abの後ろに続く単語の種類数

12
クロスエントロピー

     • 評価指標:クロスエントロピー



      – テストコーパスを用いて評価
      – 値が小さいほど性能が良い
      – 単位:ビット
      – パープレキシティの対数
13
MapReduceによるN-gram集計

     • 言語モデルにはN-gram頻度が必要
     • 大規模コーパスの集計は並列化が必須
     • Hadoop MapReduceによるN-gram集
       計
     • 形態素解析で分かち書き



14
MapReduceとは         [Jeffreyら, 2004]



           doc     doc              doc

           map    map              map

     Shuffle

         reduce   reduce          reduce

        n-gram    n-gram          n-gram
15
擬似コード




16
発表の構成

     • 背景・目的
     • 大規模言語モデルの構築と評価
     • 実験
      – Web日本語Nグラムを用いた予備実験
      – 大規模ブログコーパスの集計
      – 大規模言語モデルの評価


17
予備実験設定

     • 目的:Webとブログの違いを確認
     • Web日本語Nグラム[工藤ら, 2007]を評価
     • テストコーパス:Wikipediaとブログから
      1000文
     • パラメータ
      – αとDは最良の値を自動推定
      – 1から10000の間で10倍おきに試した


18
予備実験結果

             クロスエントロピー(bit)




     Web日本語NグラムはBlogよりWikipediaに近い
19
実験設定

     • 訓練コーパス
      – Yahoo! ブログ検索のデータ1年分
      – LZO圧縮状態で約2TB
      – Yahoo! 形態素解析APIと同等の処理
     • Hadoopクラスタ
      – 20台(マスター1台+スレーブ19台)



20
集計時間

     コーパスサイズを変えて集計時間を測定
        処理
       形態素解析




                    ☓
                    ☓
                        集計不可
                    ☓
                    ☓
        ※単位は 時間:分
21
評価実験設定

     • モデルサイズを変えて性能評価
      – しきい値以下のN-gramを削除
      – しきい値を10000から100まで変化
     • 実験設定
      – 訓練コーパス:ブログ860GB
      – テストコーパス:ブログ1000文
      – スムージング:Dirichlet
      – パラメータ:予備実験と同様
22
評価実験結果

          クロスエントロピー(bit)とモデルサイズ(byte)

     閾値




           モバイル        PC       クラウド
23
具体例


     「Yahoo」で始まる3-gram   高頻度な3-gramの上位10件




24
参考文献

•   北研二, 辻井潤一. 確率的言語モデル. 東京大学出版会, 1999.
•   森信介, 土屋雅稔, 山地治, 長尾真. 確率的モデルによる仮名漢字変
    換. 情報処理学会論文誌, Vol.40, No.7, pp.2946-2953, 1999.
•   Kneser R., Ney H.. Improved backing-off for Mgram language
    modeling. ICASSP, pp.181-184, vol.1, 1995.
•   Jeffrey Dean, Sanjay Ghemawat. MapReduce: Simplified Data
    Processing on Large Clusters. OSDI, December, 2004.
•   工藤拓, 賀沢秀人, Web 日本語N グラム第1版, 言語資源協会発行,
    2007.
結論

     • Webとブログはコーパスの性質が異な
       る
     • モデルサイズと性能はトレードオフ
     • ユースケースに合わせた選択が必要




26
今後の課題

     • 言語モデルの圧縮、クラスモデル
     • アプリケーションでの評価




27
ご清聴ありがとうございました




                 28

Contenu connexe

Similaire à 大規模日本語ブログコーパスにおける言語モデルの構築と評価

[DL輪読会]It's not just size that maters small language models are also few sho...
[DL輪読会]It's not just size that maters  small language models are also few sho...[DL輪読会]It's not just size that maters  small language models are also few sho...
[DL輪読会]It's not just size that maters small language models are also few sho...Deep Learning JP
 
読書会のすすめ
読書会のすすめ読書会のすすめ
読書会のすすめSatoshi Noto
 
Tree-to-Sequence Attentional Neural Machine Translation (ACL 2016)
Tree-to-Sequence Attentional Neural Machine Translation (ACL 2016)Tree-to-Sequence Attentional Neural Machine Translation (ACL 2016)
Tree-to-Sequence Attentional Neural Machine Translation (ACL 2016)Toru Fujino
 
111015 tokyo scipy2_ディスカッション
111015 tokyo scipy2_ディスカッション111015 tokyo scipy2_ディスカッション
111015 tokyo scipy2_ディスカッションShohei Hido
 
Sakuteki02 yokkuns
Sakuteki02 yokkunsSakuteki02 yokkuns
Sakuteki02 yokkunsYohei Sato
 
マトリックス型テキスト編集モデルによる編集操作ログの実際と分析方針
マトリックス型テキスト編集モデルによる編集操作ログの実際と分析方針マトリックス型テキスト編集モデルによる編集操作ログの実際と分析方針
マトリックス型テキスト編集モデルによる編集操作ログの実際と分析方針yamahige
 
Segmenting Sponteneous Japanese using MDL principle
Segmenting Sponteneous Japanese using MDL principleSegmenting Sponteneous Japanese using MDL principle
Segmenting Sponteneous Japanese using MDL principleYusuke Matsubara
 
GeneratingWikipedia_ICLR18_論文紹介
GeneratingWikipedia_ICLR18_論文紹介GeneratingWikipedia_ICLR18_論文紹介
GeneratingWikipedia_ICLR18_論文紹介Masayoshi Kondo
 
Generating Better Search Engine Text Advertisements with Deep Reinforcement L...
Generating Better Search Engine Text Advertisements with Deep Reinforcement L...Generating Better Search Engine Text Advertisements with Deep Reinforcement L...
Generating Better Search Engine Text Advertisements with Deep Reinforcement L...harmonylab
 
Prophet入門【Python編】Facebookの時系列予測ツール
Prophet入門【Python編】Facebookの時系列予測ツールProphet入門【Python編】Facebookの時系列予測ツール
Prophet入門【Python編】Facebookの時系列予測ツールhoxo_m
 
Infer.NETを使ってLDAを実装してみた
Infer.NETを使ってLDAを実装してみたInfer.NETを使ってLDAを実装してみた
Infer.NETを使ってLDAを実装してみた正志 坪坂
 
LET2011: Rによる教育データ分析入門
LET2011: Rによる教育データ分析入門LET2011: Rによる教育データ分析入門
LET2011: Rによる教育データ分析入門Yuichiro Kobayashi
 
読解支援@2015 06-05
読解支援@2015 06-05読解支援@2015 06-05
読解支援@2015 06-05sekizawayuuki
 
Reinforcement learning based text style transfer without parallel training co...
Reinforcement learning based text style transfer without parallel training co...Reinforcement learning based text style transfer without parallel training co...
Reinforcement learning based text style transfer without parallel training co...ryoma yoshimura
 
[DL輪読会]Meta-Learning Probabilistic Inference for Prediction
[DL輪読会]Meta-Learning Probabilistic Inference for Prediction[DL輪読会]Meta-Learning Probabilistic Inference for Prediction
[DL輪読会]Meta-Learning Probabilistic Inference for PredictionDeep Learning JP
 
Variational Template Machine for Data-to-Text Generation
Variational Template Machine for Data-to-Text GenerationVariational Template Machine for Data-to-Text Generation
Variational Template Machine for Data-to-Text Generationharmonylab
 
Chainer with natural language processing hands on
Chainer with natural language processing hands onChainer with natural language processing hands on
Chainer with natural language processing hands onOgushi Masaya
 
Reusing weights in subword aware neural language models
Reusing weights in subword aware neural language modelsReusing weights in subword aware neural language models
Reusing weights in subword aware neural language models広樹 本間
 
Graph-to-Sequence Learning using Gated Graph Neural Networks. [ACL'18] 論文紹介
Graph-to-Sequence Learning using Gated Graph Neural Networks. [ACL'18] 論文紹介Graph-to-Sequence Learning using Gated Graph Neural Networks. [ACL'18] 論文紹介
Graph-to-Sequence Learning using Gated Graph Neural Networks. [ACL'18] 論文紹介Masayoshi Kondo
 

Similaire à 大規模日本語ブログコーパスにおける言語モデルの構築と評価 (20)

[DL輪読会]It's not just size that maters small language models are also few sho...
[DL輪読会]It's not just size that maters  small language models are also few sho...[DL輪読会]It's not just size that maters  small language models are also few sho...
[DL輪読会]It's not just size that maters small language models are also few sho...
 
読書会のすすめ
読書会のすすめ読書会のすすめ
読書会のすすめ
 
Tree-to-Sequence Attentional Neural Machine Translation (ACL 2016)
Tree-to-Sequence Attentional Neural Machine Translation (ACL 2016)Tree-to-Sequence Attentional Neural Machine Translation (ACL 2016)
Tree-to-Sequence Attentional Neural Machine Translation (ACL 2016)
 
111015 tokyo scipy2_ディスカッション
111015 tokyo scipy2_ディスカッション111015 tokyo scipy2_ディスカッション
111015 tokyo scipy2_ディスカッション
 
Sakuteki02 yokkuns
Sakuteki02 yokkunsSakuteki02 yokkuns
Sakuteki02 yokkuns
 
マトリックス型テキスト編集モデルによる編集操作ログの実際と分析方針
マトリックス型テキスト編集モデルによる編集操作ログの実際と分析方針マトリックス型テキスト編集モデルによる編集操作ログの実際と分析方針
マトリックス型テキスト編集モデルによる編集操作ログの実際と分析方針
 
Segmenting Sponteneous Japanese using MDL principle
Segmenting Sponteneous Japanese using MDL principleSegmenting Sponteneous Japanese using MDL principle
Segmenting Sponteneous Japanese using MDL principle
 
GeneratingWikipedia_ICLR18_論文紹介
GeneratingWikipedia_ICLR18_論文紹介GeneratingWikipedia_ICLR18_論文紹介
GeneratingWikipedia_ICLR18_論文紹介
 
Generating Better Search Engine Text Advertisements with Deep Reinforcement L...
Generating Better Search Engine Text Advertisements with Deep Reinforcement L...Generating Better Search Engine Text Advertisements with Deep Reinforcement L...
Generating Better Search Engine Text Advertisements with Deep Reinforcement L...
 
Prophet入門【Python編】Facebookの時系列予測ツール
Prophet入門【Python編】Facebookの時系列予測ツールProphet入門【Python編】Facebookの時系列予測ツール
Prophet入門【Python編】Facebookの時系列予測ツール
 
Infer.NETを使ってLDAを実装してみた
Infer.NETを使ってLDAを実装してみたInfer.NETを使ってLDAを実装してみた
Infer.NETを使ってLDAを実装してみた
 
LET2011: Rによる教育データ分析入門
LET2011: Rによる教育データ分析入門LET2011: Rによる教育データ分析入門
LET2011: Rによる教育データ分析入門
 
読解支援@2015 06-05
読解支援@2015 06-05読解支援@2015 06-05
読解支援@2015 06-05
 
Reinforcement learning based text style transfer without parallel training co...
Reinforcement learning based text style transfer without parallel training co...Reinforcement learning based text style transfer without parallel training co...
Reinforcement learning based text style transfer without parallel training co...
 
PFI Christmas seminar 2009
PFI Christmas seminar 2009PFI Christmas seminar 2009
PFI Christmas seminar 2009
 
[DL輪読会]Meta-Learning Probabilistic Inference for Prediction
[DL輪読会]Meta-Learning Probabilistic Inference for Prediction[DL輪読会]Meta-Learning Probabilistic Inference for Prediction
[DL輪読会]Meta-Learning Probabilistic Inference for Prediction
 
Variational Template Machine for Data-to-Text Generation
Variational Template Machine for Data-to-Text GenerationVariational Template Machine for Data-to-Text Generation
Variational Template Machine for Data-to-Text Generation
 
Chainer with natural language processing hands on
Chainer with natural language processing hands onChainer with natural language processing hands on
Chainer with natural language processing hands on
 
Reusing weights in subword aware neural language models
Reusing weights in subword aware neural language modelsReusing weights in subword aware neural language models
Reusing weights in subword aware neural language models
 
Graph-to-Sequence Learning using Gated Graph Neural Networks. [ACL'18] 論文紹介
Graph-to-Sequence Learning using Gated Graph Neural Networks. [ACL'18] 論文紹介Graph-to-Sequence Learning using Gated Graph Neural Networks. [ACL'18] 論文紹介
Graph-to-Sequence Learning using Gated Graph Neural Networks. [ACL'18] 論文紹介
 

Plus de Yahoo!デベロッパーネットワーク

ヤフーでは開発迅速性と品質のバランスをどう取ってるか
ヤフーでは開発迅速性と品質のバランスをどう取ってるかヤフーでは開発迅速性と品質のバランスをどう取ってるか
ヤフーでは開発迅速性と品質のバランスをどう取ってるかYahoo!デベロッパーネットワーク
 
データの価値を最大化させるためのデザイン~データビジュアライゼーションの方法~ #devsumi 17-E-2
データの価値を最大化させるためのデザイン~データビジュアライゼーションの方法~ #devsumi 17-E-2データの価値を最大化させるためのデザイン~データビジュアライゼーションの方法~ #devsumi 17-E-2
データの価値を最大化させるためのデザイン~データビジュアライゼーションの方法~ #devsumi 17-E-2Yahoo!デベロッパーネットワーク
 
ヤフーを支えるセキュリティ ~サイバー攻撃を防ぐエンジニアの仕事とは~ #yjtc
ヤフーを支えるセキュリティ ~サイバー攻撃を防ぐエンジニアの仕事とは~ #yjtcヤフーを支えるセキュリティ ~サイバー攻撃を防ぐエンジニアの仕事とは~ #yjtc
ヤフーを支えるセキュリティ ~サイバー攻撃を防ぐエンジニアの仕事とは~ #yjtcYahoo!デベロッパーネットワーク
 
Yahoo! JAPANのIaaSを支えるKubernetesクラスタ、アップデート自動化への挑戦 #yjtc
Yahoo! JAPANのIaaSを支えるKubernetesクラスタ、アップデート自動化への挑戦 #yjtcYahoo! JAPANのIaaSを支えるKubernetesクラスタ、アップデート自動化への挑戦 #yjtc
Yahoo! JAPANのIaaSを支えるKubernetesクラスタ、アップデート自動化への挑戦 #yjtcYahoo!デベロッパーネットワーク
 
ヤフーのAIプラットフォーム紹介 ~AIテックカンパニーを支えるデータ基盤~ #yjtc
ヤフーのAIプラットフォーム紹介 ~AIテックカンパニーを支えるデータ基盤~ #yjtcヤフーのAIプラットフォーム紹介 ~AIテックカンパニーを支えるデータ基盤~ #yjtc
ヤフーのAIプラットフォーム紹介 ~AIテックカンパニーを支えるデータ基盤~ #yjtcYahoo!デベロッパーネットワーク
 
新技術を使った次世代の商品の見せ方 ~ヤフオク!のマルチビュー機能~ #yjtc
新技術を使った次世代の商品の見せ方 ~ヤフオク!のマルチビュー機能~ #yjtc新技術を使った次世代の商品の見せ方 ~ヤフオク!のマルチビュー機能~ #yjtc
新技術を使った次世代の商品の見せ方 ~ヤフオク!のマルチビュー機能~ #yjtcYahoo!デベロッパーネットワーク
 
PC版Yahoo!メールリニューアル ~サービスのUI/UX統合と改善プロセス~ #yjtc
PC版Yahoo!メールリニューアル ~サービスのUI/UX統合と改善プロセス~ #yjtcPC版Yahoo!メールリニューアル ~サービスのUI/UX統合と改善プロセス~ #yjtc
PC版Yahoo!メールリニューアル ~サービスのUI/UX統合と改善プロセス~ #yjtcYahoo!デベロッパーネットワーク
 
モブデザインによる多職種チームのコミュニケーション改善 #yjtc
モブデザインによる多職種チームのコミュニケーション改善 #yjtcモブデザインによる多職種チームのコミュニケーション改善 #yjtc
モブデザインによる多職種チームのコミュニケーション改善 #yjtcYahoo!デベロッパーネットワーク
 
ユーザーの地域を考慮した検索入力補助機能の改善の試み #yjtc
ユーザーの地域を考慮した検索入力補助機能の改善の試み #yjtcユーザーの地域を考慮した検索入力補助機能の改善の試み #yjtc
ユーザーの地域を考慮した検索入力補助機能の改善の試み #yjtcYahoo!デベロッパーネットワーク
 

Plus de Yahoo!デベロッパーネットワーク (20)

ゼロから始める転移学習
ゼロから始める転移学習ゼロから始める転移学習
ゼロから始める転移学習
 
継続的なモデルモニタリングを実現するKubernetes Operator
継続的なモデルモニタリングを実現するKubernetes Operator継続的なモデルモニタリングを実現するKubernetes Operator
継続的なモデルモニタリングを実現するKubernetes Operator
 
ヤフーでは開発迅速性と品質のバランスをどう取ってるか
ヤフーでは開発迅速性と品質のバランスをどう取ってるかヤフーでは開発迅速性と品質のバランスをどう取ってるか
ヤフーでは開発迅速性と品質のバランスをどう取ってるか
 
オンプレML基盤on Kubernetes パネルディスカッション
オンプレML基盤on Kubernetes パネルディスカッションオンプレML基盤on Kubernetes パネルディスカッション
オンプレML基盤on Kubernetes パネルディスカッション
 
LakeTahoe
LakeTahoeLakeTahoe
LakeTahoe
 
オンプレML基盤on Kubernetes 〜Yahoo! JAPAN AIPF〜
オンプレML基盤on Kubernetes 〜Yahoo! JAPAN AIPF〜オンプレML基盤on Kubernetes 〜Yahoo! JAPAN AIPF〜
オンプレML基盤on Kubernetes 〜Yahoo! JAPAN AIPF〜
 
Persistent-memory-native Database High-availability Feature
Persistent-memory-native Database High-availability FeaturePersistent-memory-native Database High-availability Feature
Persistent-memory-native Database High-availability Feature
 
データの価値を最大化させるためのデザイン~データビジュアライゼーションの方法~ #devsumi 17-E-2
データの価値を最大化させるためのデザイン~データビジュアライゼーションの方法~ #devsumi 17-E-2データの価値を最大化させるためのデザイン~データビジュアライゼーションの方法~ #devsumi 17-E-2
データの価値を最大化させるためのデザイン~データビジュアライゼーションの方法~ #devsumi 17-E-2
 
eコマースと実店舗の相互利益を目指したデザイン #yjtc
eコマースと実店舗の相互利益を目指したデザイン #yjtceコマースと実店舗の相互利益を目指したデザイン #yjtc
eコマースと実店舗の相互利益を目指したデザイン #yjtc
 
ヤフーを支えるセキュリティ ~サイバー攻撃を防ぐエンジニアの仕事とは~ #yjtc
ヤフーを支えるセキュリティ ~サイバー攻撃を防ぐエンジニアの仕事とは~ #yjtcヤフーを支えるセキュリティ ~サイバー攻撃を防ぐエンジニアの仕事とは~ #yjtc
ヤフーを支えるセキュリティ ~サイバー攻撃を防ぐエンジニアの仕事とは~ #yjtc
 
Yahoo! JAPANのIaaSを支えるKubernetesクラスタ、アップデート自動化への挑戦 #yjtc
Yahoo! JAPANのIaaSを支えるKubernetesクラスタ、アップデート自動化への挑戦 #yjtcYahoo! JAPANのIaaSを支えるKubernetesクラスタ、アップデート自動化への挑戦 #yjtc
Yahoo! JAPANのIaaSを支えるKubernetesクラスタ、アップデート自動化への挑戦 #yjtc
 
ビッグデータから人々のムードを捉える #yjtc
ビッグデータから人々のムードを捉える #yjtcビッグデータから人々のムードを捉える #yjtc
ビッグデータから人々のムードを捉える #yjtc
 
サイエンス領域におけるMLOpsの取り組み #yjtc
サイエンス領域におけるMLOpsの取り組み #yjtcサイエンス領域におけるMLOpsの取り組み #yjtc
サイエンス領域におけるMLOpsの取り組み #yjtc
 
ヤフーのAIプラットフォーム紹介 ~AIテックカンパニーを支えるデータ基盤~ #yjtc
ヤフーのAIプラットフォーム紹介 ~AIテックカンパニーを支えるデータ基盤~ #yjtcヤフーのAIプラットフォーム紹介 ~AIテックカンパニーを支えるデータ基盤~ #yjtc
ヤフーのAIプラットフォーム紹介 ~AIテックカンパニーを支えるデータ基盤~ #yjtc
 
Yahoo! JAPAN Tech Conference 2022 Day2 Keynote #yjtc
Yahoo! JAPAN Tech Conference 2022 Day2 Keynote #yjtcYahoo! JAPAN Tech Conference 2022 Day2 Keynote #yjtc
Yahoo! JAPAN Tech Conference 2022 Day2 Keynote #yjtc
 
新技術を使った次世代の商品の見せ方 ~ヤフオク!のマルチビュー機能~ #yjtc
新技術を使った次世代の商品の見せ方 ~ヤフオク!のマルチビュー機能~ #yjtc新技術を使った次世代の商品の見せ方 ~ヤフオク!のマルチビュー機能~ #yjtc
新技術を使った次世代の商品の見せ方 ~ヤフオク!のマルチビュー機能~ #yjtc
 
PC版Yahoo!メールリニューアル ~サービスのUI/UX統合と改善プロセス~ #yjtc
PC版Yahoo!メールリニューアル ~サービスのUI/UX統合と改善プロセス~ #yjtcPC版Yahoo!メールリニューアル ~サービスのUI/UX統合と改善プロセス~ #yjtc
PC版Yahoo!メールリニューアル ~サービスのUI/UX統合と改善プロセス~ #yjtc
 
モブデザインによる多職種チームのコミュニケーション改善 #yjtc
モブデザインによる多職種チームのコミュニケーション改善 #yjtcモブデザインによる多職種チームのコミュニケーション改善 #yjtc
モブデザインによる多職種チームのコミュニケーション改善 #yjtc
 
「新しいおうち探し」のためのAIアシスト検索 #yjtc
「新しいおうち探し」のためのAIアシスト検索 #yjtc「新しいおうち探し」のためのAIアシスト検索 #yjtc
「新しいおうち探し」のためのAIアシスト検索 #yjtc
 
ユーザーの地域を考慮した検索入力補助機能の改善の試み #yjtc
ユーザーの地域を考慮した検索入力補助機能の改善の試み #yjtcユーザーの地域を考慮した検索入力補助機能の改善の試み #yjtc
ユーザーの地域を考慮した検索入力補助機能の改善の試み #yjtc
 

Dernier

NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NTT DATA Technology & Innovation
 
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video UnderstandingToru Tamaki
 
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Gamesatsushi061452
 
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)Hiroshi Tomioka
 
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)Hiroshi Tomioka
 
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイスLoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイスCRI Japan, Inc.
 
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。iPride Co., Ltd.
 
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルLoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルCRI Japan, Inc.
 
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...Toru Tamaki
 
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半        2024/04/26の勉強会で発表されたものです。新人研修 後半        2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。iPride Co., Ltd.
 
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。iPride Co., Ltd.
 

Dernier (11)

NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
 
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
 
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
 
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
 
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
 
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイスLoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
 
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
 
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルLoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
 
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
 
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半        2024/04/26の勉強会で発表されたものです。新人研修 後半        2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。
 
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
 

大規模日本語ブログコーパスにおける言語モデルの構築と評価

  • 1. 大規模日本語ブログコーパスにおける 言語モデルの構築と評価 ヤフー株式会社 奥野陽 颯々野学
  • 2. 概要 • 大規模言語モデルのトレードオフを調 査 • Web日本語Nグラムを評価 • ブログから言語モデルを構築・評価 2
  • 3. 発表の構成 • 背景・目的 • 大規模言語モデルの構築と評価 • 実験 3
  • 4. 発表の構成 • 背景・目的 – 言語モデルとは – 大規模コーパスの利用 – 研究の目的 • 大規模言語モデルの構築と評価 • 実験 4
  • 5. 背景・目的(1) • 言語モデルとは [北ら, 1999] – 文の確率をモデル化 – 仮名漢字変換などに応用 [森ら, 1999] – 訓練コーパスから推定 例: P(私の名前は中野です) > P(はです中野名前のは私) 5
  • 6. 背景・目的(2) • 近年、大規模コーパスが普及 – Webからコーパスが入手可能に – 統計的な手法では恩恵が大きい • しかし… 6
  • 7. 背景・目的(3) • 構築時の問題点 – 多くの計算とメモリを必要とする – 1台のコンピュータに保存できない • 利用時の問題点 – 検索などのリアルタイム処理が必要 – モデルサイズがメモリに収まらない 7
  • 8. 背景・目的(4) • データ量と性能はトレードオフの関係 • 適切なバランスの選択が必要 研究の目的: 大規模な言語モデルを利用する上で のトレードオフを明らかにすること 8
  • 9. 発表の構成 • 背景・目的 • 大規模言語モデルの構築と評価 – 単語N-gramモデル – スムージング方式 – クロスエントロピーによる評価 – MapReduceを用いたN-gram集計 • 実験 9
  • 10. 単語N-gramモデル • 課題:文(単語列)の生成確率を推定 • アプローチ:マルコフモデル • 単純な最尤推定: • しかし… ゼロ頻度問題 10
  • 11. Dirichletスムージング • ゼロ頻度問題に対処:スムージング • N-gram確率を(N-1)-gramを用いて補完 • 再帰的に適用し、1-gramは最尤推定 11
  • 12. Kneser-Neyスムージング [Kneserら, 1995] • 工夫1:低頻度語の影響を下げる • 工夫2:低次のN-gramを滑らかにする :abの後ろに続く単語の種類数 12
  • 13. クロスエントロピー • 評価指標:クロスエントロピー – テストコーパスを用いて評価 – 値が小さいほど性能が良い – 単位:ビット – パープレキシティの対数 13
  • 14. MapReduceによるN-gram集計 • 言語モデルにはN-gram頻度が必要 • 大規模コーパスの集計は並列化が必須 • Hadoop MapReduceによるN-gram集 計 • 形態素解析で分かち書き 14
  • 15. MapReduceとは [Jeffreyら, 2004] doc doc doc map map map Shuffle reduce reduce reduce n-gram n-gram n-gram 15
  • 17. 発表の構成 • 背景・目的 • 大規模言語モデルの構築と評価 • 実験 – Web日本語Nグラムを用いた予備実験 – 大規模ブログコーパスの集計 – 大規模言語モデルの評価 17
  • 18. 予備実験設定 • 目的:Webとブログの違いを確認 • Web日本語Nグラム[工藤ら, 2007]を評価 • テストコーパス:Wikipediaとブログから 1000文 • パラメータ – αとDは最良の値を自動推定 – 1から10000の間で10倍おきに試した 18
  • 19. 予備実験結果 クロスエントロピー(bit) Web日本語NグラムはBlogよりWikipediaに近い 19
  • 20. 実験設定 • 訓練コーパス – Yahoo! ブログ検索のデータ1年分 – LZO圧縮状態で約2TB – Yahoo! 形態素解析APIと同等の処理 • Hadoopクラスタ – 20台(マスター1台+スレーブ19台) 20
  • 21. 集計時間 コーパスサイズを変えて集計時間を測定 処理 形態素解析 ☓ ☓ 集計不可 ☓ ☓ ※単位は 時間:分 21
  • 22. 評価実験設定 • モデルサイズを変えて性能評価 – しきい値以下のN-gramを削除 – しきい値を10000から100まで変化 • 実験設定 – 訓練コーパス:ブログ860GB – テストコーパス:ブログ1000文 – スムージング:Dirichlet – パラメータ:予備実験と同様 22
  • 23. 評価実験結果 クロスエントロピー(bit)とモデルサイズ(byte) 閾値 モバイル PC クラウド 23
  • 24. 具体例 「Yahoo」で始まる3-gram 高頻度な3-gramの上位10件 24
  • 25. 参考文献 • 北研二, 辻井潤一. 確率的言語モデル. 東京大学出版会, 1999. • 森信介, 土屋雅稔, 山地治, 長尾真. 確率的モデルによる仮名漢字変 換. 情報処理学会論文誌, Vol.40, No.7, pp.2946-2953, 1999. • Kneser R., Ney H.. Improved backing-off for Mgram language modeling. ICASSP, pp.181-184, vol.1, 1995. • Jeffrey Dean, Sanjay Ghemawat. MapReduce: Simplified Data Processing on Large Clusters. OSDI, December, 2004. • 工藤拓, 賀沢秀人, Web 日本語N グラム第1版, 言語資源協会発行, 2007.
  • 26. 結論 • Webとブログはコーパスの性質が異な る • モデルサイズと性能はトレードオフ • ユースケースに合わせた選択が必要 26
  • 27. 今後の課題 • 言語モデルの圧縮、クラスモデル • アプリケーションでの評価 27