大規模日本語ブログコーパスにおける言語モデルの構築と評価

大規模日本語ブログコーパスにおける
言語モデルの構築と評価

ヤフー株式会社
奥野陽颯々野学

概要

• 大規模言語モデルのトレードオフを調
査
• Web日本語Nグラムを評価
• ブログから言語モデルを構築・評価

2

発表の構成

• 背景・目的
• 大規模言語モデルの構築と評価
• 実験

3

発表の構成

• 背景・目的
– 言語モデルとは
– 大規模コーパスの利用
– 研究の目的
• 実験

4

背景・目的(1)

• 言語モデルとは [北ら, 1999]
– 文の確率をモデル化
– 仮名漢字変換などに応用 [森ら, 1999]
– 訓練コーパスから推定

例： P(私の名前は中野です）
＞

P(はです中野名前のは私）
5

背景・目的(2)

• 近年、大規模コーパスが普及
– Webからコーパスが入手可能に
– 統計的な手法では恩恵が大きい

• しかし…

6

背景・目的(3)

• 構築時の問題点
– 多くの計算とメモリを必要とする
– 1台のコンピュータに保存できない
• 利用時の問題点
– 検索などのリアルタイム処理が必要
– モデルサイズがメモリに収まらない

7

背景・目的(4)

• データ量と性能はトレードオフの関係
• 適切なバランスの選択が必要

研究の目的：

大規模な言語モデルを利用する上で
のトレードオフを明らかにすること

8

発表の構成

• 背景・目的
– 単語N-gramモデル
– スムージング方式
– クロスエントロピーによる評価
– MapReduceを用いたN-gram集計
• 実験
9

単語N-gramモデル

• 課題：文（単語列）の生成確率を推定
• アプローチ：マルコフモデル

• 単純な最尤推定：

• しかし…
ゼロ頻度問題
10

Dirichletスムージング

• ゼロ頻度問題に対処：スムージング
• N-gram確率を(N-1)-gramを用いて補完

• 再帰的に適用し、1-gramは最尤推定

11

Kneser-Neyスムージング [Kneserら, 1995]

• 工夫1：低頻度語の影響を下げる

• 工夫2：低次のN-gramを滑らかにする

：abの後ろに続く単語の種類数

12

クロスエントロピー

• 評価指標：クロスエントロピー

– テストコーパスを用いて評価
– 値が小さいほど性能が良い
– 単位：ビット
– パープレキシティの対数
13

MapReduceによるN-gram集計

• 言語モデルにはN-gram頻度が必要
• 大規模コーパスの集計は並列化が必須
• Hadoop MapReduceによるN-gram集
計
• 形態素解析で分かち書き

14

MapReduceとは [Jeffreyら, 2004]

doc doc doc

map map map

Shuffle

reduce reduce reduce

n-gram n-gram n-gram
15

発表の構成

• 背景・目的
• 実験
– Web日本語Nグラムを用いた予備実験
– 大規模ブログコーパスの集計
– 大規模言語モデルの評価

17

予備実験設定

• 目的：Webとブログの違いを確認
• Web日本語Nグラム[工藤ら, 2007]を評価
• テストコーパス：Wikipediaとブログから
1000文
• パラメータ
– αとDは最良の値を自動推定
– 1から10000の間で10倍おきに試した

18

予備実験結果

クロスエントロピー(bit)

Web日本語NグラムはBlogよりWikipediaに近い
19

実験設定

• 訓練コーパス
– Yahoo! ブログ検索のデータ1年分
– LZO圧縮状態で約2TB
– Yahoo! 形態素解析APIと同等の処理
• Hadoopクラスタ
– 20台（マスター1台＋スレーブ19台）

20

集計時間

コーパスサイズを変えて集計時間を測定
処理
形態素解析

☓
☓
集計不可
☓
☓
※単位は時間：分
21

評価実験設定

• モデルサイズを変えて性能評価
– しきい値以下のN-gramを削除
– しきい値を10000から100まで変化
• 実験設定
– 訓練コーパス：ブログ860GB
– テストコーパス：ブログ1000文
– スムージング：Dirichlet
– パラメータ：予備実験と同様
22

評価実験結果

クロスエントロピー(bit)とモデルサイズ(byte)

閾値

モバイル PC クラウド
23

具体例

「Yahoo」で始まる3-gram 高頻度な3-gramの上位10件

24

参考文献

• 北研二, 辻井潤一. 確率的言語モデル. 東京大学出版会, 1999.
• 森信介, 土屋雅稔, 山地治, 長尾真. 確率的モデルによる仮名漢字変
換. 情報処理学会論文誌, Vol.40, No.7, pp.2946-2953, 1999.
• Kneser R., Ney H.. Improved backing-off for Mgram language
modeling. ICASSP, pp.181-184, vol.1, 1995.
• Jeffrey Dean, Sanjay Ghemawat. MapReduce: Simplified Data
Processing on Large Clusters. OSDI, December, 2004.
• 工藤拓, 賀沢秀人, Web 日本語N グラム第１版, 言語資源協会発行,
2007.

結論

• Webとブログはコーパスの性質が異な
る
• モデルサイズと性能はトレードオフ
• ユースケースに合わせた選択が必要

26

今後の課題

• 言語モデルの圧縮、クラスモデル
• アプリケーションでの評価

27

ご清聴ありがとうございました

28

大規模日本語ブログコーパスにおける言語モデルの構築と評価

Recommandé

Recommandé

Contenu connexe

Similaire à 大規模日本語ブログコーパスにおける言語モデルの構築と評価

Similaire à 大規模日本語ブログコーパスにおける言語モデルの構築と評価 (20)

Plus de Yahoo!デベロッパーネットワーク

Plus de Yahoo!デベロッパーネットワーク (20)

Dernier

Dernier (11)

大規模日本語ブログコーパスにおける言語モデルの構築と評価