SlideShare une entreprise Scribd logo
1  sur  26
ブートストラップ手法を用
いた学習不用語の除去
株式会社VOYAGE GROUP
中野智文
目的
● 専門英語コーパスから学習語彙の抽出
● 科学技術英語コーパス
→理工学部向け 語彙学習教材
語彙を含む文章
語彙の抽出
● 一般的には語彙の頻度
コーパス中の語彙の出現数
本当にOK?
特定の文書のみ語彙が大量に出現
● 特定の文書のみに大量に出現する語彙(提
案した手法の名称やシステム名)
● 頻度で見ると上位に
● 本当にその語彙は学習者にとって重要?
→これを学習不要語とよぶことに
文書頻度(Document Frequency)
語彙の出現数ではなく、出現した文書の数
● 一つの文書に1000回出現した語彙
● 1000の文書に1回づつ出現した語彙
● 1文書
● 1000文書
文書頻度の欠点
文書長が無視される
文書長が異なるコーパスでの比較
● 4000語の論文のコーパス
● 100語のアブストラクト
昨年の研究
文書長を考慮した文書頻度的な最尤推定手法
[中野 2014] (ちょっとタイトルは違います)
語彙の出現確率の最尤推定
ざっくりいうと、
100万語のコーパスで、100回出現しました。
100/1,000,000 = 0.01%
なぜ0.01%ですか?
0.01%のときに最も尤度(次の式)が大きい
文書長付き文書頻度的な語彙出現確率
文書長(語数)が(102, 403, 1500, 3234,
… )となるそれぞれの文書で1回以上出現し、
文書長が(323, 6040, ….) となる文書で1回も出
現しませんでした。
次の尤度式を最も大きくする出現頻度を求める
つづき
いろいろと近似して次を最大化します
さっきよりも難しくなったようにも見えますが
いいんです。これで。
(以上昨年の研究の紹介でした)
中央値
平均値のかわりに中央値を使うと、外れ値にた
いしてロバスト(堅牢)になる
特定の文書のみに出現するのも一種の外れ値。
使えないだろうか。
延べ語数100万語に100語。
有るか無いかの2値なので、中央値は無い。
再標本(リサンプリング)して中央値
11/20
4/10
4/9
7/10
4/9
9/15
サンプル文書数のトレードオフ
外れ値(すなわち特定文書)が50%以上で含ま
れるようなサンプリングを行ってしまうと、中
央値も外れ値の影響を受ける
→サンプル文書数は少ないほうが良い
サンプル文書数が少な過ぎると、サンプリング
後の語彙頻度が0となり、その結果、中央値が0
となる。
→サンプル文書数は多いほうが良い
サンプル文書数
その語彙の文書出現率:
その語彙の文書頻度/全文書数
その逆数より少し多い程度をサンプル文書数と
する。
中央値が0になった場合は上記の数を少し増や
し再試行する。
実験
コーパス:Nature
● 1,377文書
● 総語数260万語
実験方法:[中野 2014]に準じる
● 提案手法(リサンプリングによる中央値)
● コーパス全体による単語出現頻度との差
o この差をズレと呼び特定文書のみ出現す
る語彙では大きくなる傾向がある
o →ズレが大きい物を不要語とよんでいる
結果
提案手法 昨年手法
結果 提案手法 昨年手法
結果 (fig)
提案手法 昨年手法
昨年手法だと、fig は学習不要語
結果(we, was, were など)
提案手法 昨年手法
結果 (cells)
提案手法 昨年手法
結果 (cell)
提案手法 昨年手法
結果 (supplementary)
supplementary firing として使われることが多い
提案手法 昨年手法
特定の文書にしか出現しない場合
5/20
0/10
0/9
5/10
0/9
5/15
まとめ
● 特定の文書に集中する語を見つけるために、
再標本をして中央値を求め、それと元の出
現率とのズレを求める。
● 昨年の手法と比べシンプルではあるが、か
なり似た結果となった。
● ただし、この方法は、
o 特定の文書以外に多少出現しないとうま
くいかない可能性がある。
o リサンプリングなので、毎回結果が多少
異なる
コメント
もっと複雑になっていくのですか?
→シンプルにしたつもりです。
よくなったのですか?
→結果は良くなっていません。
むしろ悪くなりました。
ただ、方法としてはシンプルになりました。
語彙の分布を単独に評価すればよいのでは。
→次はそこをターゲットとします。

Contenu connexe

En vedette

6章 最適腕識別とA/Bテスト
6章 最適腕識別とA/Bテスト6章 最適腕識別とA/Bテスト
6章 最適腕識別とA/Bテスト智文 中野
 
Wilson score intervalを使った信頼区間の応用
Wilson score intervalを使った信頼区間の応用Wilson score intervalを使った信頼区間の応用
Wilson score intervalを使った信頼区間の応用智文 中野
 
ノンパラメトリックベイズ4章クラスタリング
ノンパラメトリックベイズ4章クラスタリングノンパラメトリックベイズ4章クラスタリング
ノンパラメトリックベイズ4章クラスタリング智文 中野
 
MLaPP 5章 「ベイズ統計学」
MLaPP 5章 「ベイズ統計学」MLaPP 5章 「ベイズ統計学」
MLaPP 5章 「ベイズ統計学」moterech
 
異常検知と変化検知 7章方向データの異常検知
異常検知と変化検知 7章方向データの異常検知異常検知と変化検知 7章方向データの異常検知
異常検知と変化検知 7章方向データの異常検知智文 中野
 
1 5.パラメトリックブートストラップ検定と確率分布
1 5.パラメトリックブートストラップ検定と確率分布1 5.パラメトリックブートストラップ検定と確率分布
1 5.パラメトリックブートストラップ検定と確率分布logics-of-blue
 
【Zansa】第17回 ブートストラップ法入門
【Zansa】第17回 ブートストラップ法入門【Zansa】第17回 ブートストラップ法入門
【Zansa】第17回 ブートストラップ法入門Zansa
 
2015 Upload Campaigns Calendar - SlideShare
2015 Upload Campaigns Calendar - SlideShare2015 Upload Campaigns Calendar - SlideShare
2015 Upload Campaigns Calendar - SlideShareSlideShare
 
What to Upload to SlideShare
What to Upload to SlideShareWhat to Upload to SlideShare
What to Upload to SlideShareSlideShare
 
Getting Started With SlideShare
Getting Started With SlideShareGetting Started With SlideShare
Getting Started With SlideShareSlideShare
 

En vedette (11)

6章 最適腕識別とA/Bテスト
6章 最適腕識別とA/Bテスト6章 最適腕識別とA/Bテスト
6章 最適腕識別とA/Bテスト
 
Wilson score intervalを使った信頼区間の応用
Wilson score intervalを使った信頼区間の応用Wilson score intervalを使った信頼区間の応用
Wilson score intervalを使った信頼区間の応用
 
ノンパラメトリックベイズ4章クラスタリング
ノンパラメトリックベイズ4章クラスタリングノンパラメトリックベイズ4章クラスタリング
ノンパラメトリックベイズ4章クラスタリング
 
120225 bootstrap
120225 bootstrap120225 bootstrap
120225 bootstrap
 
MLaPP 5章 「ベイズ統計学」
MLaPP 5章 「ベイズ統計学」MLaPP 5章 「ベイズ統計学」
MLaPP 5章 「ベイズ統計学」
 
異常検知と変化検知 7章方向データの異常検知
異常検知と変化検知 7章方向データの異常検知異常検知と変化検知 7章方向データの異常検知
異常検知と変化検知 7章方向データの異常検知
 
1 5.パラメトリックブートストラップ検定と確率分布
1 5.パラメトリックブートストラップ検定と確率分布1 5.パラメトリックブートストラップ検定と確率分布
1 5.パラメトリックブートストラップ検定と確率分布
 
【Zansa】第17回 ブートストラップ法入門
【Zansa】第17回 ブートストラップ法入門【Zansa】第17回 ブートストラップ法入門
【Zansa】第17回 ブートストラップ法入門
 
2015 Upload Campaigns Calendar - SlideShare
2015 Upload Campaigns Calendar - SlideShare2015 Upload Campaigns Calendar - SlideShare
2015 Upload Campaigns Calendar - SlideShare
 
What to Upload to SlideShare
What to Upload to SlideShareWhat to Upload to SlideShare
What to Upload to SlideShare
 
Getting Started With SlideShare
Getting Started With SlideShareGetting Started With SlideShare
Getting Started With SlideShare
 

Similaire à ブートストラップ手法を用いた学習不用語の除去(言語と統計2015)

さくさくテキストマイニング入門セッション
さくさくテキストマイニング入門セッションさくさくテキストマイニング入門セッション
さくさくテキストマイニング入門セッションantibayesian 俺がS式だ
 
20120731 ALC Eijiro User Meeting
20120731 ALC Eijiro User Meeting20120731 ALC Eijiro User Meeting
20120731 ALC Eijiro User Meetingakikom0819
 
日本語の語彙的換言知識の質的評価
日本語の語彙的換言知識の質的評価日本語の語彙的換言知識の質的評価
日本語の語彙的換言知識の質的評価Tomoyuki Kajiwara
 
MT勉強会 第4回 換言事例の収集ー日英基本構文を対象としてー
MT勉強会 第4回 換言事例の収集ー日英基本構文を対象としてーMT勉強会 第4回 換言事例の収集ー日英基本構文を対象としてー
MT勉強会 第4回 換言事例の収集ー日英基本構文を対象としてーKanji Takahashi
 
科学技術英語の考え方と学習ツール Mindset and Learning Tools for Scientific English Proficiency
科学技術英語の考え方と学習ツール Mindset and Learning Tools for Scientific English Proficiency科学技術英語の考え方と学習ツール Mindset and Learning Tools for Scientific English Proficiency
科学技術英語の考え方と学習ツール Mindset and Learning Tools for Scientific English ProficiencyAsahiko Matsuda
 
ナイーブベイズによる言語判定
ナイーブベイズによる言語判定ナイーブベイズによる言語判定
ナイーブベイズによる言語判定Shuyo Nakatani
 
言語資源と付き合う
言語資源と付き合う言語資源と付き合う
言語資源と付き合うYuya Unno
 
160213 反復練習の必然性を生む仕掛けづくり
160213 反復練習の必然性を生む仕掛けづくり160213 反復練習の必然性を生む仕掛けづくり
160213 反復練習の必然性を生む仕掛けづくりTomonari Kuroda
 
2015 yef matsui_presentation公開版
2015 yef matsui_presentation公開版2015 yef matsui_presentation公開版
2015 yef matsui_presentation公開版Takashi Matsui
 
20170114 lod challenge
20170114 lod challenge20170114 lod challenge
20170114 lod challengezuhitoslide
 
中学英語検定教科書に出現する連語の分類:体系的な提示に向けた試案
中学英語検定教科書に出現する連語の分類:体系的な提示に向けた試案中学英語検定教科書に出現する連語の分類:体系的な提示に向けた試案
中学英語検定教科書に出現する連語の分類:体系的な提示に向けた試案KateConference
 
Introduction to linguaphone 2013 mar
Introduction to linguaphone 2013 marIntroduction to linguaphone 2013 mar
Introduction to linguaphone 2013 marYoko Morisawa
 
Machine Learning Seminar (5)
Machine Learning Seminar (5)Machine Learning Seminar (5)
Machine Learning Seminar (5)Tomoya Nakayama
 
第三回さくさくテキストマイニング勉強会 入門セッション
第三回さくさくテキストマイニング勉強会 入門セッション第三回さくさくテキストマイニング勉強会 入門セッション
第三回さくさくテキストマイニング勉強会 入門セッションantibayesian 俺がS式だ
 

Similaire à ブートストラップ手法を用いた学習不用語の除去(言語と統計2015) (15)

さくさくテキストマイニング入門セッション
さくさくテキストマイニング入門セッションさくさくテキストマイニング入門セッション
さくさくテキストマイニング入門セッション
 
20120731 ALC Eijiro User Meeting
20120731 ALC Eijiro User Meeting20120731 ALC Eijiro User Meeting
20120731 ALC Eijiro User Meeting
 
日本語の語彙的換言知識の質的評価
日本語の語彙的換言知識の質的評価日本語の語彙的換言知識の質的評価
日本語の語彙的換言知識の質的評価
 
Jacet2014ykondo_final
Jacet2014ykondo_finalJacet2014ykondo_final
Jacet2014ykondo_final
 
MT勉強会 第4回 換言事例の収集ー日英基本構文を対象としてー
MT勉強会 第4回 換言事例の収集ー日英基本構文を対象としてーMT勉強会 第4回 換言事例の収集ー日英基本構文を対象としてー
MT勉強会 第4回 換言事例の収集ー日英基本構文を対象としてー
 
科学技術英語の考え方と学習ツール Mindset and Learning Tools for Scientific English Proficiency
科学技術英語の考え方と学習ツール Mindset and Learning Tools for Scientific English Proficiency科学技術英語の考え方と学習ツール Mindset and Learning Tools for Scientific English Proficiency
科学技術英語の考え方と学習ツール Mindset and Learning Tools for Scientific English Proficiency
 
ナイーブベイズによる言語判定
ナイーブベイズによる言語判定ナイーブベイズによる言語判定
ナイーブベイズによる言語判定
 
言語資源と付き合う
言語資源と付き合う言語資源と付き合う
言語資源と付き合う
 
160213 反復練習の必然性を生む仕掛けづくり
160213 反復練習の必然性を生む仕掛けづくり160213 反復練習の必然性を生む仕掛けづくり
160213 反復練習の必然性を生む仕掛けづくり
 
2015 yef matsui_presentation公開版
2015 yef matsui_presentation公開版2015 yef matsui_presentation公開版
2015 yef matsui_presentation公開版
 
20170114 lod challenge
20170114 lod challenge20170114 lod challenge
20170114 lod challenge
 
中学英語検定教科書に出現する連語の分類:体系的な提示に向けた試案
中学英語検定教科書に出現する連語の分類:体系的な提示に向けた試案中学英語検定教科書に出現する連語の分類:体系的な提示に向けた試案
中学英語検定教科書に出現する連語の分類:体系的な提示に向けた試案
 
Introduction to linguaphone 2013 mar
Introduction to linguaphone 2013 marIntroduction to linguaphone 2013 mar
Introduction to linguaphone 2013 mar
 
Machine Learning Seminar (5)
Machine Learning Seminar (5)Machine Learning Seminar (5)
Machine Learning Seminar (5)
 
第三回さくさくテキストマイニング勉強会 入門セッション
第三回さくさくテキストマイニング勉強会 入門セッション第三回さくさくテキストマイニング勉強会 入門セッション
第三回さくさくテキストマイニング勉強会 入門セッション
 

ブートストラップ手法を用いた学習不用語の除去(言語と統計2015)