Webdbf20121. 第5回Webとデータベースに関するフォーラム
(WebDBForum2012) 11/20,21 @秋葉原ダイビル
デンドログラムを用いた
震災時におけるMention・Hashtag
ツイートの利用傾向分析
静岡県立大学大学院
小出明弘
5. ソーシャルメディアにおける課題
タイムラインの A B
埋め尽くし
ユーザA:ヨウ素剤を持っていない人は… C
ユーザB:ヨウ素剤を持っていない人は…
ユーザC:ヨウ素剤を持っていない人は…
ユーザD:ヨウ素剤を持っていない人は… D
ユーザE:山手線が復旧したらしい…
ユーザF:ヨウ素剤を持っていない人は…
E
・・・ F
• 情報の乱発
同じような内容を投稿し続ける
ユーザのタイムラインが埋まる
情報の獲得が困難
9. Hashtagの定義と性質
今日はWebDB.#WebDBf2012
今日はWebDB. WebDB参加します#WebDBf2012
#WebDBf2012 WebDB楽しみ#WebDBf2012
・・・
WebDB楽しみ
#WebDBf2012 検索“#WebDBf2012”
WebDB参加します
#WebDBf2012
• 発言の共有
同じハッシュタグを付けたツイートをグループ化
検索することでツイートをまとめて閲覧
11. Mentionの性質と定義
UserA
今日はWebDB
今日はFIT2012
です. UserA です.
UserB 閲覧 RT@UserA:今日
はWebDBです. 閲覧
閲覧
@UserA 楽しみ
ですね!
UserC UserD UserB
• 使用法
他ユーザのツイートへの言及
他ユーザのツイートをフォロワーへ伝達
フォローユーザとの相互のやりとり
12. 使用データ
• Twitterツイートデータ
2011年3月7日~2011年3月15日の9日間
3月11日12:00:00で分割→震災前,震災後データ
アクティブユーザ数:4,183,194人
• HashtagツイートとMentionツイート(全期間)
総Hashtag数:15,946,498
一度でも使われたHashtag数:562,229
総Mention数:120,183,231
15. ツイートユーザ集合
• Hashtag,Mentionツイートしたユーザ集合
Mention
低類似
高類似 同一ユーザによる複数ツイート
自分へのツイートは考慮しない
2 3 5
2 3
・・・・・・・・・・・・・・・・・・・・・・・
• ユーザ集合を特徴量に 𝑀 = 4,183,194
4,183,194次元のベクトル
𝑖
𝒃 𝑖 = [𝑏 𝑖,1 , … , 𝑏 𝑖,𝑀 ]
16. 類似度の算出
• ツイートタイミング行列𝑨 • ツイートユーザ行列𝑩
𝑨 = [𝒂1 ⋯ 𝒂 𝑁 ] 𝑇 𝑩 = [𝒃1 ⋯ 𝒃 𝑁 ] 𝑇
𝑁 =Hashtag数,アクティブユーザ数
• 任意のユーザ,Hashtag ,𝑖と𝑗の類似度𝜌
類似度にはコサイン類似度
ツイートタイミングの場合 ツイートユーザの場合
108 𝑎 𝑖,𝑛 ∙𝑎 𝑗,𝑛 𝑀 𝑏 𝑖,𝑚 ∙𝑏 𝑗,𝑚
𝑛=1 𝑚=1
𝜌 𝑖, 𝑗 = 𝜌 𝑖, 𝑗 =
108
𝑛=1 𝑎2 ∙
𝑖,𝑛
108
𝑛=1 𝑎2
𝑗,𝑛
𝑀
𝑚=1 𝑏2 ∙
𝑖,𝑚
𝑀
𝑚=1 𝑏2
𝑗,𝑚
19. 実験
• 基本分析
震災前後でのツイート数変化
全Hashtagツイート,Mentionツイート対象
• デンドログラム可視化
対象
最もツイートされたHashtag上位1000件
最もMentionツイートされたユーザ上位1000件
注目Hashtag,ユーザの変化を分析
22. 注目の変化
• 震災前後での上位1000Hashtag,ユーザ集合の変化
震災前上位1000Hashtag,ユーザ集合
𝑋 = {𝑥1 , … , 𝑥1000 }
震災後上位1000Hashtag,ユーザ集合
𝑌 = {𝑦1 , … , 𝑦1000 }
|𝑋∩𝑌|
• 集合間のJaccard係数を算出 𝐽 𝑋, 𝑌 = |𝑋∪𝑌|
Hashtag Mention
Jaccard係数 0.291 0.095
• 震災の影響を受け注目Hashtag,ユーザが変化
23. Hashtag:ツイートタイミング
震災前 震災後
1.0
Top1-333
Top334-666
0.75
Top667-1000
Distance
0.5
0.25
0
24. Hashtag:ツイートタイミング
震災前 震災後
1.0
Top1-333
Top334-666
0.75
Top667-1000
Distance
0.5 2つのノードの組がきわめて類似
そのほかとはそれほど類似しない
0.25
“#hanshin”と”tigers”
“ameba”と”ameblo”など
0
25. Hashtag:ツイートタイミング
震災前 震災後
1.0
Top1-333
Top334-666
0.75
Top667-1000
Distance
0.5
0.25
0
• 極めて類似したノード集合(“eigo”,”travel”,”art”など)
• Botや企業アカウント→震災直後は自粛傾向
26. Hashtag:ツイートユーザ
震災前 震災後
1.0
0.75
Distance
0.5
0.25
0
• 全体的に距離が遠くなる
ツイートタイミングに比べ非常に高次元
27. Hashtag:ツイートユーザ
震災前 震災後
1.0
0.75
Distance
0.5
0.25
0
• 全体的な傾向に大きな差はない
Hashtag自体は震災前後で大きく入れ替わり
28. Mention:ツイートタイミング
震災前 震災後
1.0
Top1-333
Top334-666
0.75 Top667-1000
Distance
0.5
0.25
0
29. Mention:ツイートタイミング
震災前 震災後
1.0
Top1-333
Top334-666
0.75 Top667-1000
Distance
0.5
0.25
0
• 複数の類似したノード集合
短い時間幅で注目ユーザが次々変化
30. Mention:ツイートユーザ
震災前 震災後
1.0
0.75
Distance
0.5
0.25 Top1-333
Top334-666
Top667-1000
0
31. Mention:ツイートユーザ
震災前 震災後
1.0
0.75
Distance
0.5
0.25 Top1-333
Top334-666
Top667-1000
0
• 震災前:複数の類似したノード集合
ユーザごとの興味に応じたツイート
32. Mention:ツイートユーザ
震災前 震災後
1.0
0.75
Distance
0.5
0.25 Top1-333
Top334-666
Top667-1000
0
• 震災後:ノードが直線に近い状態で配置
話題が震災関連→ユーザの言動の類似
36. ユーザの利用傾向の変化
• Hashtag
注目Hashtagは大きく変化
使われ方に顕著な変化は見られない
• Mention
震災前は「返信」型のツイート
震災後は「引用」型に遷移
message
message message
震災
37. 最小全域木の採用理由
最小全域木 群平均法
1.0
0.75
Distance
0.5
0.25
0
• ツイートタイミングをランダム化
最小全域木と群平均法で比較
38. 最小全域木の採用理由
最小全域木 群平均法
1.0
0.75
Distance
0.5
0.25
0
• 群平均法:分類感度がよく細かいクラスタ形成
データの特性と不一致
40. 今後の課題・展開
本稿:マクロな視点での分析
ミクロな視点での分析
• ツイート内容, ネットワーク構造などを考慮
利用傾向の変化をモデリング
• 問題点,ボトルネックの把握,改善策検討
• ソーシャルメディアを有効活用するための条件把握