4. はじめに
・自然言語処理について
・コンピュータでテキストを 分析 させる試み
・ Micr o so ft の 選 ぶ 、 10年 後 テ ク ノ ロ ジ ー 分 野 で ホ ッ ト な 職 業 !
・ The Top Three hottest new majors for a career in technology
D at a Mining/ Mac hine Lear ning/ AI / Nat ur al Language P r oc essing
( デ ー タ マ イ ニ ン グ / 機 械 学 習 / 人工 知 能 / 自 然 言 語 処 理 ) ← コ レ
B usiness I nt elligenc e/ C ompet it ive I nt elligenc e
(ビジネスインテリジェンス/競合調査)
Analy t ic s/ S t at ist ic s
(分析/統計)
Mi cr osoft JobsBl og より引用
ht t p:/ / j obsbl og.com/ bl og/ t op- t hr e e - ne w- t e ch- m aj or s/
6. 1/ 4 単語の辞書を用意
辞書選び
何種類も無料で配布されてる
単 語 だ け が 必 要 な の で 、 基 本 的 に ど れ で も OK
主要なものはこの三つ
IPA - dic
N A IS T - dic
U n iD ic
単 語 数 は N A IS T - dic < U n iD ic < IPA - dic
・ 今 回 は IPA - dicを 使 用 ( Me Ca bに 付 属 し て い た せ い )
29. 豆 知識的 な 応用 事例
・ N -g r am
N - gr a mに よ る 誤 字 候 補 の 絞 り
- 類似文字の索引にも使える
- コピペ論文を検出する論文まであった
剽窃レポート発見に利用する1文単位での検索クエリ作成手法
http: / / c i. nii. ac . jp/ naid/ 1 1 0 0 0 7 4 6 7 2 4 8
30. 豆 知識的 な 応用 事例
・ EM-b ased Er r or Mod el
E M- ba se d E r r o r Mo de l
・検索エンジンからスペルミスを機械学習
・あまり詳しくない
・引用すると
・(検索エンジンの)クエリログからクエリの訂正を行う
・誤りと正解のペアデータは必要ない
・ ク エ リ ロ グ は 10 15%の ス ペ ル ミ ス を
含むので、ここから学習
引 用 : ス ペ ル 訂 正 エ ン ジ ン に つ い て の サ ー ベ イ # T okyoN LP
http : / / www. slid e share . ne t/ nokuno/ tokyonlp 0 5 -sp e ll-corre ction
32. 参考文献
・「入門自然言語処理」
オ ラ イ リ ー ジ ャ パ ン 2010年 11月 発 行 , 592ペ ー ジ
・スペル修正プログラムはどう書くか
h t t p: //bit . ly/c3B H f
・スペルミス修正プログラムを作ろう
h t t p: //slide sh a . r e /qgh ImL
・スペル訂正エンジンのサーベイ
h t t p: //slide sh a . r e /g7S ImR