12. トライ その5
✘ 文章長が短いデータに対するクラス分類
○ Distributional Representations of Words for Short Text Classification
○ クラスごとに意味空間上に多次元正規分布を最尤推定で捉え、文書が各ク
ラスに属する確率を比較する
○ 母集団の9割に対して正解率は 25%。
■ bag of wordsモデルは 45〜55%
○ 「飲食」と「食料品」で間違え => 意味はなんとなく捉えられている
○ クラス間のトピックが似通っている、語の意味を考慮すると、逆に性能が下
がってしまう。