Contenu connexe
Similaire à 大規模日本語ブログコーパスにおける言語モデルの構築と評価
Similaire à 大規模日本語ブログコーパスにおける言語モデルの構築と評価 (20)
Plus de Yahoo!デベロッパーネットワーク
Plus de Yahoo!デベロッパーネットワーク (20)
大規模日本語ブログコーパスにおける言語モデルの構築と評価
- 2. 概要
• 大規模言語モデルのトレードオフを調
査
• Web日本語Nグラムを評価
• ブログから言語モデルを構築・評価
2
- 3. 発表の構成
• 背景・目的
• 大規模言語モデルの構築と評価
• 実験
3
- 4. 発表の構成
• 背景・目的
– 言語モデルとは
– 大規模コーパスの利用
– 研究の目的
• 大規模言語モデルの構築と評価
• 実験
4
- 5. 背景・目的(1)
• 言語モデルとは [北ら, 1999]
– 文の確率をモデル化
– 仮名漢字変換などに応用 [森ら, 1999]
– 訓練コーパスから推定
例: P(私の名前は中野です)
>
P(はです中野名前のは私)
5
- 6. 背景・目的(2)
• 近年、大規模コーパスが普及
– Webからコーパスが入手可能に
– 統計的な手法では恩恵が大きい
• しかし…
6
- 7. 背景・目的(3)
• 構築時の問題点
– 多くの計算とメモリを必要とする
– 1台のコンピュータに保存できない
• 利用時の問題点
– 検索などのリアルタイム処理が必要
– モデルサイズがメモリに収まらない
7
- 8. 背景・目的(4)
• データ量と性能はトレードオフの関係
• 適切なバランスの選択が必要
研究の目的:
大規模な言語モデルを利用する上で
のトレードオフを明らかにすること
8
- 9. 発表の構成
• 背景・目的
• 大規模言語モデルの構築と評価
– 単語N-gramモデル
– スムージング方式
– クロスエントロピーによる評価
– MapReduceを用いたN-gram集計
• 実験
9
- 10. 単語N-gramモデル
• 課題:文(単語列)の生成確率を推定
• アプローチ:マルコフモデル
• 単純な最尤推定:
• しかし…
ゼロ頻度問題
10
- 11. Dirichletスムージング
• ゼロ頻度問題に対処:スムージング
• N-gram確率を(N-1)-gramを用いて補完
• 再帰的に適用し、1-gramは最尤推定
11
- 12. Kneser-Neyスムージング [Kneserら, 1995]
• 工夫1:低頻度語の影響を下げる
• 工夫2:低次のN-gramを滑らかにする
:abの後ろに続く単語の種類数
12
- 13. クロスエントロピー
• 評価指標:クロスエントロピー
– テストコーパスを用いて評価
– 値が小さいほど性能が良い
– 単位:ビット
– パープレキシティの対数
13
- 14. MapReduceによるN-gram集計
• 言語モデルにはN-gram頻度が必要
• 大規模コーパスの集計は並列化が必須
• Hadoop MapReduceによるN-gram集
計
• 形態素解析で分かち書き
14
- 15. MapReduceとは [Jeffreyら, 2004]
doc doc doc
map map map
Shuffle
reduce reduce reduce
n-gram n-gram n-gram
15
- 17. 発表の構成
• 背景・目的
• 大規模言語モデルの構築と評価
• 実験
– Web日本語Nグラムを用いた予備実験
– 大規模ブログコーパスの集計
– 大規模言語モデルの評価
17
- 18. 予備実験設定
• 目的:Webとブログの違いを確認
• Web日本語Nグラム[工藤ら, 2007]を評価
• テストコーパス:Wikipediaとブログから
1000文
• パラメータ
– αとDは最良の値を自動推定
– 1から10000の間で10倍おきに試した
18
- 19. 予備実験結果
クロスエントロピー(bit)
Web日本語NグラムはBlogよりWikipediaに近い
19
- 20. 実験設定
• 訓練コーパス
– Yahoo! ブログ検索のデータ1年分
– LZO圧縮状態で約2TB
– Yahoo! 形態素解析APIと同等の処理
• Hadoopクラスタ
– 20台(マスター1台+スレーブ19台)
20
- 21. 集計時間
コーパスサイズを変えて集計時間を測定
処理
形態素解析
☓
☓
集計不可
☓
☓
※単位は 時間:分
21
- 22. 評価実験設定
• モデルサイズを変えて性能評価
– しきい値以下のN-gramを削除
– しきい値を10000から100まで変化
• 実験設定
– 訓練コーパス:ブログ860GB
– テストコーパス:ブログ1000文
– スムージング:Dirichlet
– パラメータ:予備実験と同様
22
- 23. 評価実験結果
クロスエントロピー(bit)とモデルサイズ(byte)
閾値
モバイル PC クラウド
23
- 24. 具体例
「Yahoo」で始まる3-gram 高頻度な3-gramの上位10件
24
- 25. 参考文献
• 北研二, 辻井潤一. 確率的言語モデル. 東京大学出版会, 1999.
• 森信介, 土屋雅稔, 山地治, 長尾真. 確率的モデルによる仮名漢字変
換. 情報処理学会論文誌, Vol.40, No.7, pp.2946-2953, 1999.
• Kneser R., Ney H.. Improved backing-off for Mgram language
modeling. ICASSP, pp.181-184, vol.1, 1995.
• Jeffrey Dean, Sanjay Ghemawat. MapReduce: Simplified Data
Processing on Large Clusters. OSDI, December, 2004.
• 工藤拓, 賀沢秀人, Web 日本語N グラム第1版, 言語資源協会発行,
2007.
- 26. 結論
• Webとブログはコーパスの性質が異な
る
• モデルサイズと性能はトレードオフ
• ユースケースに合わせた選択が必要
26
- 27. 今後の課題
• 言語モデルの圧縮、クラスモデル
• アプリケーションでの評価
27