SlideShare une entreprise Scribd logo
1  sur  15
Télécharger pour lire hors ligne
発表者:塩田健人
u  どんな問題を解いた?
u  理解されている語彙数の調査はされてきたが、使用されて
いる語彙数の調査は行われていなかった。
→今までは時間とコストがかかりすぎる手法しかなかった
被験者が発する単語を24時間ずっと録音したり、速記したりした
3人しか調査できてない…
→バイアスがかかる
「調査している」という環境が被験者の平常時とは異なるため、調
査時の発話内容は平常時と異なってしまう
u  どうやって解いた?
u  Twitterの発言を利用
u  10万人の対象者が実際に使用した語彙を調査
調査方向	
 網羅性	
 調査間隔	
 調査期間	
SLS 前向き	
 6,000人
(現在まで26人継続)	
7年間隔	
 49年〜	
岡崎敬語調査	
 前向き	
 300〜400人
(現在まで20人継続)
20年・36年間隔	
 55年〜	
鶴岡調査	
 前向き	
 500人
(現在まで53人継続)
うち24時間調査は3人	
20年間隔	
 50年〜	
本研究	
 後ろ向き	
 100,000人	
 1日間隔	
 5ヶ月	
前向き:観察対象を定期的に調査する方法
後ろ向き:過去のデータを使用し、調査する方法	
口語体の書き言葉をみなせるが、実際の発話とは異なる
短期間であることは言語変化の観察期間には不十分
本研究の場合、Twitterが潰れたら調査できなくなる
u  調査対象
u  データ期間: 2009/11/3 ~ 2010/3/25 (125日間)
u  ユーザー数: 約10万人
u  ユーザー抽出条件
u  毎月5ツイート以上していること
u  総発言数が5,000件以上
u  最初の100ツイート中に「の」が含まれていること
→非日本語使用者を除くため
「線」、「曲」などは日本語使用者でなくても使う可能性があるから
u  全ツイート数: 約2.5億ツイート
u  全形態素数: 約43億語
u  形態素解析にはjuman7.0
u  数万語が使われるには相当時間がかかる
u  どれだけ観察しても対象者の使用する全ての語が使
われたなどの保証はない
ジップの法則を使う
出現頻度がk番目に大きい要素が1/kに比例する経験則
ジップの法則を使って…
一定期間に対象者が発言した語数からその対象者が
使用するであろう潜在的な語彙数Nを推測する
例	
逆に1,000トークン集めて509タイプ得られたならば…
→その人の語彙数は10,000語である
N = 1,000 ~ 50,000まで1,000刻みの語彙数の曲線50本を利用
X : 語彙数	
Y:ユーザー数
ユーザーが使用している語彙数
ある語がどれくらい使われているかを調査可能
u  同じ出現頻度であっても多くの人が使っていれば、
その語はより一般的な語であると言える
Y:語のユーザー数	
X : 語の使用頻度
u  形態素単位での集計バイアス
u  単語の集計を形態素単位で行っているため、複合動詞で
カウントされない語が存在する
例 サンシャイン牧場 → サンシャイン + 牧場
u  ユーザーのバイアス
u  Twitterを使用している人に限定される
u  30%のユーザーが東京に集中、20代のユーザーが多い
u  環境のバイアス
u  キーボード、スマートフォンでの入力が語彙に影響してい
る可能性あり
u  これまで、日本人の平均使用語彙量についてわからないとさ
れてきたが、本研究で8,000語と推定
u  関連研究で推定されていた理解語彙数は40,000語
u  語のユーザー数を調査
語の使用率によって一般的な語と非一般的な語のリストを作成
理解できている語の1/5しか使用していない
なぜこの差が生じるのか要研究
読解支援6 19
読解支援6 19
読解支援6 19

Contenu connexe

En vedette

読解支援6 26
読解支援6 26読解支援6 26
読解支援6 26kentshioda
 
読解支援_2本目
読解支援_2本目読解支援_2本目
読解支援_2本目kentshioda
 
Naacl 読み会
Naacl 読み会Naacl 読み会
Naacl 読み会kentshioda
 
読解支援_2本目
読解支援_2本目読解支援_2本目
読解支援_2本目kentshioda
 
読解支援_1本目
読解支援_1本目読解支援_1本目
読解支援_1本目kentshioda
 
日本語学習者の文章読解支援のための語彙制限 ブースター
日本語学習者の文章読解支援のための語彙制限 ブースター日本語学習者の文章読解支援のための語彙制限 ブースター
日本語学習者の文章読解支援のための語彙制限 ブースターkentshioda
 

En vedette (6)

読解支援6 26
読解支援6 26読解支援6 26
読解支援6 26
 
読解支援_2本目
読解支援_2本目読解支援_2本目
読解支援_2本目
 
Naacl 読み会
Naacl 読み会Naacl 読み会
Naacl 読み会
 
読解支援_2本目
読解支援_2本目読解支援_2本目
読解支援_2本目
 
読解支援_1本目
読解支援_1本目読解支援_1本目
読解支援_1本目
 
日本語学習者の文章読解支援のための語彙制限 ブースター
日本語学習者の文章読解支援のための語彙制限 ブースター日本語学習者の文章読解支援のための語彙制限 ブースター
日本語学習者の文章読解支援のための語彙制限 ブースター
 

読解支援6 19