未出現事象の出現確率

N-gramモデル
未出現事象の扱い
Back-off smoothing
Good-Turingの推定
N-gramとスムージング
中川裕志

文字列の統計的モデル
１次元文字列
１次元単語列
とりあえず単語列の場合として話を進める
単語列w1
nの生起確率を各単語の条件付確率でモデル化
n
n CCCCC 1321 
n
n wwwww 1321 
)|(),....,|()|()()( 1
12131211

 n
n
n
wwPwwwPwwPwPwP
各項のwnの条件付確率が文字列のモデル。これが直前のN-1単語に依存する
モデルをN-gramモデルという
)|()|( 11
1



 n
Nnn
n
n wwPwwP

1-gramモデルだと、言語モデルはP(wn) す
なわち、各単語の（コーパスにおける）生起確
率だけで決まる。
大胆な近似だが、計算が容易で、計算量も少
ない。
情報検索では基本的モデルとして使われる
Bag of Wordsモデル

Nグラム
 Nグラムとは言語を特徴つける簡単な方法（言語モデル）
 ある言語単位（音素、文字、単語、品詞など）を選ぶ。その言語単位のN個
連続をマルコフモデルで表したものをNグラム（N-gram)という。特に言語単
位を陽に指定する場合、「言語単位名Nグラム」（例えば、単語２グラム）とい
う。
 単独の言語単位のモデルを unigram、２個の連続を bigram、３個の連続を
trigram という。（zero-gram とは、全ての単語が等確率で生起するモデル）
 異なり数を計算してみよう。
 （１）英語の文字２グラムの総数
 （２）日本語のモーラ２グラムの総数。
 モーラ（拍）とは、ひらがな１文字同じ長さの音の単位。「ん」「っ」「－」は1モ
ーラ。
 なお、音節(syllable)とは、「（子音）（半母音）母音（モーラ音素）」
 （３）日本語の文字2グラムの総数
 （４）日本語の単語2グラムの総数
 （５）日本語の品詞2グラムの総数

Nグラムの計算
 ある言語におけるNグラムの種類の総数はとても大きすぎて計算できない場
合が多い。実際のテキストにおいて出現したNグラムによって言語（の部分
集合）を特徴つける。そこで、テキストにおけるNグラムの計算法が必要。
 ありがとう ……
う…
とう…
がとう…
りがとう…
ありがとう…
辞書式に
整列
1:ありがとう
…
2:う…
3:がとう…
4:とう…
5:りがとう…
整列したポイ
ンタの配列
整列したポインタの配列をサフィックスアレイという。先頭部分に同じ文字
列を持つものが隣接ないし近接する。
近所を見回せば、同じNグラムが何個あるかという統計を簡単に計算できる。

KWIC ( Key Word In Context )
 ある言語表現がどのような文脈に現れるかを、与えられたコーパスにおいて
列挙したもの。
 辞書式に整列したテキストへのポインタの配列（Nグラムの計算に利用する
もの）を使えば、容易に抽出できる。
 Nグラムの計算のページの「Nグラム」に対するKWICは以下の通り。
-----------------------------------------------------------------------------------------------
前の文脈 Key Word 後の文脈
------------------------------------------------------------------------------------------------
ある言語における Nグラムの総数はとても大きすぎて
ストにおいて出現した Nグラムによって言語（の部分集合）
テキストにおける Nグラムの計算法が必要。
------------------------------------------------------------------------------------------------
 Key Word がどのような単語や表現と共起するかという情報を得られる。共
起情報は自然言語処理において必須の情報。

Ｎグラムの確率モデル
 NグラムはN言語単位の連鎖のモデルだが、言語単位としては、文
字、単語、品詞などなんでも採用できる。
 まず、N言語単位の連鎖は、、ただしCはコ
ーパス中の頻度.
 コーパスの文を単語のＮ重マルコフ過程つまり直前のN単語から次
に現れる単語を予測するモデルにしたい。一般にN-1重マルコフ過
程とは、現在の状態がN-1個前の入力に依存してきまる確率プロセ
ス
 つまり、である。
 これは条件つき確率で
)C(
)C(
)p(
11
11
11
i-i-N
ii-i-N
i-i-Ni
...ww
w...ww
...w|ww


 
)C( 21 N....www
)p( 11 i-i-Ni ...w|ww 

Ｎグラムの生起確率を求めるその１
 最尤推定法
単語のＮ-1重マルコフ過程
相対頻度CからＮグラムの生起確率を推定
 Ｎが大きいと信頼性の高いＮグラム推定ができない。
 コーパスにおいては相対頻度が０のＮグラムがたくさん
現れる。（データスパースネス問題）
 加算法：単に分母分子に適当な数を足す。
分子が０の場合は単にδを分子とする。簡単だがあまり精度がよくない。
Vはコーパス中の異なり語数
)...wC(w
)w...wC(w
)...w|wp(w
n-
nn-
n-n
11
11
11 
   
   
 
  V...wwC
...wwC
where
V...wwC
)w...wC(w
V...wwC
w...wwC
...w|wwP
n-11
n-11
n-11
nn-11
n-11
nn-11
n-11n











1
)1(

Back-off smoothing（元データの頻度）
実際に出現した単語(８個）出現していないが、こ
れから出現する可能性
がある単語(5個）
0
1
2
3
4
5
6
7
8
9
1 2 3 4 5 6 7 8 9 10 11 12 13
系列1

各単語の頻度にδ（＝１）を加算
0
1
2
3
4
5
6
7
8
9
10
1 2 3 4 5 6 7 8 9 10 11 12 13
系列2
系列1
実際に出現した単語(８個）出現していないが、こ
れから出現する可能性
がある単語(5個）

Back-off smoothing（確率を計算しなおす）
0
1
2
3
4
5
6
7
8
9
10
1 2 3 4 5 6 7 8 9 10 11 12 13
系列2
系列1
0
0.05
0.1
0.15
0.2
0.25
0.3
1 2 3 4 5 6 7 8 9 10 11 12 13
系列1
系列2
原データ
確率

N-gram をN-1-gram, N-2-gramで平滑化
（以下はN＝３の場合で説明）
最適値を推定
使ってで除けておいた部分をはコーパスで上の計算ただし　 


,
0)wC(wif
)(w
)VofC(all
)C(w
and0)wwC(wif
)C(w
)wC(w
0)wwC(wif
)wC(w
)wwC(w
)ww|P(w i1-i
i
i
i1-i2-i
1-i
i1-i
i1-i2-i
1-i2-i
i1-i2-i
2-i1-ii 













otherwiseP
 
部分で最適値を推定
いた算で使わずに除けておはコーパスから上の計ただし　 
 )w|(wPˆ1
)wC(w
)wwC(w
)ww|(wPˆ
1-ii
1-i2-i
i1-i2-i
2-i1-ii 
＾Pの再帰的定義＾Pの再帰的定義

抽象化すると未出現事象の扱い
 観測データ（教師データ）の数が十分に大きくない場
合は、本来、出現する可能性のある事象が教師
データに含まれないことがある。
例：サイコロを5回振って教師データを作っても、出ない目
が必ず一つはある。
例：新聞記事10年分のテキストから単語の出現頻度を計
算しても、出現していない単語があるかもしれない。
 本来、出現する可能性がある事象ではあるが、観
測データに出現していないものが、別のコーパスで
出現する確率をどのように評価しておけばよいか？
スムージング
これは、未知のデータを扱う場合に重要

 Good-Turingの推定
語数NのコーパスD(N)中でr回出現する異なり単語数をNrとする。すると
D(N)中でr回出現する単語が別のコーパスD*(N)に出現回数r*を次の
式で推定するのがGood-Turingの推定
注） rが最大のときはr +1が定義できないので、r*=r とするしかない。r
が小さいときが重要なので、これでもよいであろう。
...NNNNrN
r
r  

321
0
32
 
r
r*
N
N
rr 11 
単語の生起確率を求める場合のスムージング

語数Nのコーパス中でr回出現する単語の数をNrとする。すると
ここでコーパスにｒ回出現する単語ｗの頻度を次の式で推定するのがGood-
Turingの推定
 一方、1回以上出現した単語の相対頻度の総和を求めると
コーパスに出現しない全単語の頻度の合計の推定確率0*は
 なお、をディスカウント係数という。
.32 321
0
..NNNNrN
r
r  
 
r
r*
N
N
rr 11 
N
N
N
NN
N
Nr
N
rN
r
r
r
*
r 132
0
1
0
1
32)1(










N
N1*
0 
r
r
d
*


Good-Turingの推定の導出
• 母集団における異なり単語数をM、単語wiの出
現確率をP(i)とする。
• wi が語数（サイズ）Nの実際に得られたコーパス
D(N)中で出現する回数をc(i)
• wiがサイズNのコーパス中にr回出現する確率は
• コーパスD(N)で全単語についてr回出現する確
率の総和は
        )1(1);(  
　　　rNr
rN iPiPCNDicrP
           )2(1);(;
11
  



　　
M
i
rNr
rN
M
i
iPiPCNDicrPNDrP

• D(N)で各単語がr回出現したという条件の
下でwiがコーパスD(N)中にr回出現(c(i)=r)
する条件付き確率は
   
 
    
    
)3(
1
1
);(
));((
);|)((
1

 







　　　M
i
rNr
rN
rNr
rN
iPiPC
iPiPC
NDrP
NDicrP
NDricrP
コーパスD(N)で各単語がr回出現したという条件の下
で、全ての単語が大きさNの別のコーパスD*(N)で出
現する確率の期待値は(4)
       )4(
))(1()(
))(1()(
;|)()()];|([
1
1
1
1
*

 
 
 





　　　M
i
rNr
rN
M
i
rNr
rN
M
i iPiPC
iPiPC
NDricrPiPNDrNDPE

    )5(
);(
)1;1(
1
1
)];|([
1
1
(4)
*








NrP
NrP
N
r
NDrNDPE
C
N
r
C rNrN を用いて書き直すとを式＋１＋１
この結果を使うと、実際に得られたサイズNのコーパス
D(N)でr回出現した単語が、サイズNの別のコーパス
D*(N)で出現する回数の期待値r*は次式となる
     
 
  の推定式　　となる。　　　　　　　　
で近似すると　　，回出現した回数回、に出現した　コーパス
のサイズを各々実際に得られたと　さらに
でありが十分大きく　ここで
TuringGood)7(1
1
);()1;1(
0/1
)6(
);(
)1;1(
/11
1
);(
)1;1(
1
1
,|
1*
1
**















r
r
rr
N
N
rr
NNrrND
NNNrPNNrP
NN
NNrP
NNrP
N
r
NrP
NrP
N
r
NNNDrNDPEr

Good-Turingを用いたスムージング：Ｋａｔｚ
 
 
 
 
     











0if|
0if
|
12112
12
12
12
*
12
iiiiiKatzii
iii
ii
iii
iiiKatz
wwwCwwPww
wwwC
wwC
wwwC
wwwP

Kneser-Neyスムージング：
最も安定して良い性能
 
   
 
 
  
   







 
v i
ii
ii
ii
wwwCiii
iiiKN
vwwCw
wwwCw
ww
wwC
DwwwC
wwwP iii
1
1
12
12
12
12
|
|
| 12

Discountする部分。
テストデータを用いて
最適値を求める。近
似的には下の式
21
1
2
1
2
gram-n)2(
gram-n)1(
ff
f
Dc
f
f




の異なり数の頻度
の異なり数の頻度

未出現事象の出現確率

Recommandé

Recommandé

Contenu connexe

Tendances

Tendances (20)

Plus de Hiroshi Nakagawa

Plus de Hiroshi Nakagawa (20)

Dernier

Dernier (9)

未出現事象の出現確率