Ce diaporama a bien été signalé.
Nous utilisons votre profil LinkedIn et vos données d’activité pour vous proposer des publicités personnalisées et pertinentes. Vous pouvez changer vos préférences de publicités à tout moment.

単語コレクター(文章自動校正器)

単語コレクター(文章自動校正器)

  • Identifiez-vous pour voir les commentaires

単語コレクター(文章自動校正器)

  1. 1. 単語コレクター (文章自動校正器) チーム ML 中 翔吾 大郷 友海
  2. 2. 動機 ● 作成した文章が正しい日本語を使っているか自動で校正 してほしい – 人手で確認するのが面倒&抜けが出てくる可能性も・・・ そこでJubatusと読売新聞データを使って 自動校正しようと思った! – ただし、新聞記事の本文は正しい日本語が使われているもの と仮定 – 今回は読売新聞データをつかっているので、 新米記者が書いた記事を自動校正することを想定 – 名前の意味:単語をcorrect(正しい)にする、collect(集める)
  3. 3. アーキテクチャ(学習) Jubatus (分類)読売新聞 データ.txt Mecab 単語群 語彙数のクラス に分類
  4. 4. アーキテクチャ(使用時) Jubatus (分類)入力文章.txt Mecab 単語群 分類された単語 を結合 出力文章.txt
  5. 5. 入力データ mecabで分かち書きした単語を、 1単語タイプ=1クラスラベルとして学習
  6. 6. 分類結果 [結果] : [入力] 入力自身と同じラベルのクラスに分類された。
  7. 7. 分類結果② [結果] : [入力]
  8. 8. (課題1)望む出力:「ほんま」→「本当」  ・「ほんま」が学習データに含まれていた場合、  出力が修正されない(「ほんま」→「ほんま」) 課題 (課題2):「晴れ」→「定例」 「今日は」→「定例」 「とっても」→「定例」  ・学習した単語数が少ないと、不明な分類結果となる
  9. 9. 課題 (課題3):「し」→「し」 「ます」→「ます」 「た」→「た」  望ましい出力: 「し」→「し」  「ます」→「まし」  「た」→「た」  ・ 単語に分割して直接入力しているため、前後の単語 を考慮せずに最小の単語で分類されてしまう。 そこで・・・
  10. 10. 課題 (課題3):「し」→「し」 「ます」→「ます」 「た」→「た」 入力単語を2単語一組として結合して学習する 例:
  11. 11. 分類結果③ [結果] : [入力] 「しまし」を学習することはできた
  12. 12. まとめ ・単語自身を学習することができた ・近い単語の分類(=校正)については未確認 ・単語のみの学習では不十分 →前後の文脈(単語の使用方法)を考慮 →入力を文章にする、idf等のデータ変換方法の検証 が必要

×