事象の存在は知られているが、観測データの中に出現しない事象が別の観測データを得たとき何回出現するかという期待値の計算は重要である。特に言語の場合、語彙=事象 となるので、語彙数が10万~100万と膨大なので相当数のテキストを集めての出現しないことが多い。そこで、実際得られた観測データ集合の各語彙の出現回数を用いて、未出現の語彙の出現回数の期待値を計算する方法について述べる。このためにはいろいろな方法があるが、古典的なGood-Turingの推定、および自然言語処理で用いられる各種のスムージング手法について説明する。