単語コレクター（文章自動校正器）

単語コレクター
（文章自動校正器）
チーム ML
中翔吾
大郷友海

動機
●
作成した文章が正しい日本語を使っているか自動で校正
してほしい
– 人手で確認するのが面倒&抜けが出てくる可能性も・・・
そこでJubatusと読売新聞データを使って
自動校正しようと思った！
– ただし、新聞記事の本文は正しい日本語が使われているもの
と仮定
– 今回は読売新聞データをつかっているので、
新米記者が書いた記事を自動校正することを想定
– 名前の意味：単語をcorrect(正しい)にする、collect(集める)

アーキテクチャ(学習)
Jubatus
(分類)読売新聞
データ.txt Mecab
単語群
語彙数のクラス
に分類

アーキテクチャ(使用時)
Jubatus
(分類)入力文章.txt Mecab
単語群分類された単語
を結合
出力文章.txt

入力データ
mecabで分かち書きした単語を、
１単語タイプ＝１クラスラベルとして学習

分類結果
[結果]　：　[入力]
入力自身と同じラベルのクラスに分類された。

分類結果②
[結果]　：　[入力]

（課題１）望む出力：「ほんま」→「本当」
　・「ほんま」が学習データに含まれていた場合、
　出力が修正されない（「ほんま」→「ほんま」）
課題
（課題２）：「晴れ」→「定例」
「今日は」→「定例」
「とっても」→「定例」
　・学習した単語数が少ないと、不明な分類結果となる

課題
（課題３）：「し」→「し」
「ます」→「ます」
「た」→「た」
　望ましい出力：「し」→「し」
　「ます」→「まし」
　「た」→「た」
　・単語に分割して直接入力しているため、前後の単語
を考慮せずに最小の単語で分類されてしまう。
そこで・・・

課題
（課題３）：「し」→「し」
「ます」→「ます」
「た」→「た」
入力単語を２単語一組として結合して学習する
例：

分類結果③
[結果]　：　[入力]
「しまし」を学習することはできた

まとめ
・単語自身を学習することができた
・近い単語の分類（＝校正）については未確認
・単語のみの学習では不十分
→前後の文脈（単語の使用方法）を考慮
→入力を文章にする、idf等のデータ変換方法の検証
が必要

単語コレクター（文章自動校正器）

Recommandé

Recommandé

Contenu connexe

Tendances

Tendances (20)

En vedette

En vedette (20)

Plus de JubatusOfficial

Plus de JubatusOfficial (8)

単語コレクター（文章自動校正器）