Contenu connexe
Similaire à Lispmeetup48 cl-online-learningによる文書分類
Similaire à Lispmeetup48 cl-online-learningによる文書分類 (16)
Lispmeetup48 cl-online-learningによる文書分類
- 5. 形態素解析器: cl-igo
● MeCab互換の形態素解析器
– MeCabの辞書をJavaプログラムで変換して使う
– 解析時はCommon Lispのみ
CLUSER> (igo:loadtagger "/path/to/igo/ipadic/")
#<IGO::TAGGER {1003B89C43}>
CLUSER> (igo:parse "隣の客はよく柿食う客だ。")
(("隣" "名詞,一般,*,*,*,*,隣,トナリ,トナリ" 0)
("の" "助詞,連体化,*,*,*,*,の,ノ,ノ" 1)
("客" "名詞,一般,*,*,*,*,客,キャク,キャク" 2)
("は" "助詞,係助詞,*,*,*,*,は,ハ,ワ" 3)
("よく" "副詞,一般,*,*,*,*,よく,ヨク,ヨク" 4)
("柿" "名詞,一般,*,*,*,*,柿,カキ,カキ" 6)
("食う" "動詞,自立,*,*,五段・ワ行促音便,基本形,食う,クウ,クウ" 7)
("客" "名詞,一般,*,*,*,*,客,キャク,キャク" 9)
("だ" "助動詞,*,*,*,特殊・ダ,基本形,だ,ダ,ダ" 10)
("。" "記号,句点,*,*,*,*,。,。,。" 11))
- 7. 特徴量: TF-IDF
● Term Frequency–Inverse Document Frequency
● t: 単語、 d: 文書
● :文書d中の単語tの出現回数
● D : 全文書数
● df(t) : 単語tが出現する文書数
●
文書分類でよく使われる特徴量
- 8. 特徴量: TF-IDF
● Term Frequency–Inverse Document Frequency
● t: 単語、 d: 文書
● :文書d中の単語tの出現頻度
● D : 全文書数
● df(t) : 単語tが出現する文書数
ある1文書の中で単語tがどれだけ重要か
(dを固定すると疎ベクトル)
全文書を横断して単語tがどれだけ
一般的か (密ベクトル)
- 14. cl-online-learning: ベンチマーク
● a9aデータ (二値分類)
● MNIST (マルチクラス分類)
データ読み込みから学習
完了までの時間
テストデータでの正答率
cl-online-learning
(AROW, Sparse)
26.0 secs 94.65%
LIBLINEAR 146.8 secs 91.69%
データ読み込みから1000
エポック学習するまでの時
間
テストデータでの正答率
cl-online-learning
(AROW, Sparse)
3.829 secs 84.964066%
AROW++ (C++) 58.328 secs 84.989%
- 15. 文書分類の例: livedoorニュースコーパス
● livedoorニュースの記事を9カテゴリに分けたもの
– http://www.rondhuit.com/download.html#ldcc
●http://news.livedoor.com/article/detail/5914835/
2011-10-05T18:12:00+0900
毎年話題になるベストジーニスト賞の偏り
今年のベストジーニスト一般選出部門に相葉雅紀、黒木メイサが選出された。その選出が“5年ぶりの新顔”と話
題になっている。
・ベストジーニスト2011に相葉雅紀&黒木メイサ 5年ぶり“新顔”
“5年ぶりの新顔”とは一体どういうことなのか、過去の記録を確認してみたところ、
驚くべき結果が明らかになった。
ベストジーニストには、一般選出部門と協議会選出部門がある。“5年ぶりの新顔”が出た一般選出部門は、全国
からの一般投票で選ばれる、とされている。
ところが、男性はジャニーズ事務所の、女性はエイベックスの芸能人ばかりが選出されていることがわかる。