読解支援6 19
- 3. 調査方向
網羅性
調査間隔
調査期間
SLS 前向き
6,000人
(現在まで26人継続)
7年間隔
49年〜
岡崎敬語調査
前向き
300〜400人
(現在まで20人継続)
20年・36年間隔
55年〜
鶴岡調査
前向き
500人
(現在まで53人継続)
うち24時間調査は3人
20年間隔
50年〜
本研究
後ろ向き
100,000人
1日間隔
5ヶ月
前向き:観察対象を定期的に調査する方法
後ろ向き:過去のデータを使用し、調査する方法
口語体の書き言葉をみなせるが、実際の発話とは異なる
短期間であることは言語変化の観察期間には不十分
本研究の場合、Twitterが潰れたら調査できなくなる
- 4. u 調査対象
u データ期間: 2009/11/3 ~ 2010/3/25 (125日間)
u ユーザー数: 約10万人
u ユーザー抽出条件
u 毎月5ツイート以上していること
u 総発言数が5,000件以上
u 最初の100ツイート中に「の」が含まれていること
→非日本語使用者を除くため
「線」、「曲」などは日本語使用者でなくても使う可能性があるから
u 全ツイート数: 約2.5億ツイート
u 全形態素数: 約43億語
u 形態素解析にはjuman7.0