Webdbf2012

第5回Webとデータベースに関するフォーラム
(WebDBForum2012) 11/20,21 @秋葉原ダイビル

デンドログラムを用いた
震災時におけるMention・Hashtag
ツイートの利用傾向分析

静岡県立大学大学院
小出明弘

東日本大震災
2011年3月11日14:46:18発生，観測史上最大

• 情報インフラに甚大な被害
 通信，交通の断絶

• 広域的かつ甚大な被害
 情報伝達の空白地域発生

マスメディアの限界
「情報空白化」を最小限にする多くの取り組み
出典：平成 23 年版情報通信白書

代表的取り組み
• 企業エンジニアによる支援システム
 Google：パーソンファインダー，ライフラインマップ
 OSMFJ：shinsai.info(復興支援プラットフォーム)

震災時におけるICTの利用

• 国民が情報の発信主体
 ソーシャルメディアの利用(Twitter,Facebookなど)
 素早い情報の拡散・情報共有

新たなメディアとしての期待

ソーシャルメディアにおける課題
• デマ情報の拡散
 ツイートが真偽不明なまま拡散
 ユーザが混乱
 「有害物質の雨」，「イソジンによるヨウ素剤代用」

ヨウ素剤を持っていない人は
イソジンで代用できます。

即座に大量の
ユーザに伝達

ソーシャルメディアにおける課題
タイムラインの A B
埋め尽くし
ユーザA：ヨウ素剤を持っていない人は… C
ユーザB：ヨウ素剤を持っていない人は…
ユーザC：ヨウ素剤を持っていない人は…
ユーザD：ヨウ素剤を持っていない人は… D
ユーザE：山手線が復旧したらしい…
ユーザF：ヨウ素剤を持っていない人は…
E
・・・ F

• 情報の乱発
 同じような内容を投稿し続ける
 ユーザのタイムラインが埋まる
 情報の獲得が困難

モチベーション

• ソーシャルメディアでは何が起きていたのか
 震災による投稿スタイルの変化
 ユーザが注目した話題は？ユーザは？

• 災害時のユーザ行動モデリング
 何が大きく変化し，問題点となるのはどこか把握
 非常時における情報伝達，共有の効率化

本稿の概要
• Twitter上での震災の影響を実証的分析
 代表的なツイート機能に着目
 Hashtagツイート，Mentionツイート
 震災前後での利用傾向の変化をマクロに分析
 期間内の注目Hashtag，被Mentionユーザを対象

• 得られた知見
 Hashtagツイートの利用傾向→変化小
 Mentionツイートの利用傾向→変化大

Hashtagの定義と性質
• 使用法
 ツイート内に”#キーワード”で明記
 本稿データではキーワードは英数字のみ

Hashtagの定義と性質
今日はWebDB．#WebDBf2012
今日はWebDB． WebDB参加します#WebDBf2012
#WebDBf2012 WebDB楽しみ#WebDBf2012
・・・

WebDB楽しみ
#WebDBf2012 検索“#WebDBf2012”
WebDB参加します
#WebDBf2012

• 発言の共有
 同じハッシュタグを付けたツイートをグループ化
検索することでツイートをまとめて閲覧

Mentionの定義と性質
• 使用法
 ツイート内に”@user名”で明記

Mentionの性質と定義
UserA
今日はWebDB
今日はFIT2012
です． UserA です．

UserB 閲覧 RT@UserA:今日
はWebDBです．閲覧

閲覧
@UserA 楽しみ
ですね！
UserC UserD UserB

• 使用法
 他ユーザのツイートへの言及
 他ユーザのツイートをフォロワーへ伝達
 フォローユーザとの相互のやりとり

使用データ
• Twitterツイートデータ
 2011年3月7日～2011年3月15日の9日間
3月11日12:00:00で分割→震災前，震災後データ
アクティブユーザ数：4,183,194人

• HashtagツイートとMentionツイート(全期間)
 総Hashtag数：15,946,498
 一度でも使われたHashtag数：562,229
 総Mention数：120,183,231

アプローチ
• 利用傾向の変化を表すもの
注目されたHashtag，被Mentionユーザの変化
Hashtag間，被Mentionユーザ間の類似関係

• マクロな分析
 類似関係を簡易的に表現
 注目されたHashtag間，ユーザ間の関係把握

• 多面的評価
 ユーザのツイート傾向を表す2つの特徴
 ツイートしたタイミング
 ツイートしたユーザの集合

ツイートタイミング
• Hashtag,Mentionがツイートされた時間に基づく
Mention

𝑖 3/11/14:50:10

Tweet
3/11/16:30:00

3/11/17:10:20
Time
・
・
・
• 1時間単位でのツイート数を特徴量に
 震災前後でそれぞれ108次元のベクトル
𝑖
𝒂 𝑖 = [𝑎 𝑖,1 , … , 𝑎 𝑖,108 ]

ツイートユーザ集合
• Hashtag,Mentionツイートしたユーザ集合
Mention
低類似
高類似同一ユーザによる複数ツイート
自分へのツイートは考慮しない
2 3 5
2 3
・・・・・・・・・・・・・・・・・・・・・・・
• ユーザ集合を特徴量に 𝑀 = 4,183,194
 4,183,194次元のベクトル
𝑖
𝒃 𝑖 = [𝑏 𝑖,1 , … , 𝑏 𝑖,𝑀 ]

類似度の算出
• ツイートタイミング行列𝑨 • ツイートユーザ行列𝑩
𝑨 = [𝒂1 ⋯ 𝒂 𝑁 ] 𝑇 𝑩 = [𝒃1 ⋯ 𝒃 𝑁 ] 𝑇
𝑁 =Hashtag数，アクティブユーザ数

• 任意のユーザ，Hashtag ，𝑖と𝑗の類似度𝜌
 類似度にはコサイン類似度

ツイートタイミングの場合ツイートユーザの場合
108 𝑎 𝑖,𝑛 ∙𝑎 𝑗,𝑛 𝑀 𝑏 𝑖,𝑚 ∙𝑏 𝑗,𝑚
𝑛=1 𝑚=1
𝜌 𝑖, 𝑗 = 𝜌 𝑖, 𝑗 =
108
𝑛=1 𝑎2 ∙
𝑖,𝑛
108
𝑛=1 𝑎2
𝑗,𝑛
𝑀
𝑚=1 𝑏2 ∙
𝑖,𝑚
𝑀
𝑚=1 𝑏2
𝑗,𝑚

距離の算出と最小全域木
• ユーザ，Hashtag間の類似度を距離に変換
 𝑆 × 𝑆の距離行列𝐷を作成

𝑑 𝑖, 𝑗 = (1 − 𝜌 𝑖, 𝑗 ) S:注目Hashtag,ユーザ数

• 距離に基づいてエッジを張る
 重み付き完全グラフ𝐺 𝑐 = (𝑉, 𝐸)を構築
𝐺𝑐
• 𝐺 𝑐 から最小全域木𝑇を作成
 クラスカル法を使用[Kruskal56]

デンドログラム可視化

• 最小全域木によりユーザの
類似関係を簡易的に表現

• 類似関係をより明らかに類似度：低

• 階層クラスタリングで用いら
れるデンドログラムを使用

※階層クラスタリングにおける最短距離法
類似度：高

実験
• 基本分析
震災前後でのツイート数変化
全Hashtagツイート，Mentionツイート対象

• デンドログラム可視化
対象
 最もツイートされたHashtag上位1000件
 最もMentionツイートされたユーザ上位1000件
注目Hashtag，ユーザの変化を分析

1時間後毎のツイート数分布

• 震災時にMentionツイート数が急激に増加
• 震災により周期性が崩れる

ツイート数分布
Hashtagツイート Mentionツイート

• Hashtagツイートはそれほど変化なし
• Mentionツイートは裾の広い分布に

注目の変化
• 震災前後での上位1000Hashtag，ユーザ集合の変化
震災前上位1000Hashtag，ユーザ集合
𝑋 = {𝑥1 , … , 𝑥1000 }
震災後上位1000Hashtag，ユーザ集合
𝑌 = {𝑦1 , … , 𝑦1000 }
|𝑋∩𝑌|
• 集合間のJaccard係数を算出 𝐽 𝑋, 𝑌 = |𝑋∪𝑌|
Hashtag Mention
Jaccard係数 0.291 0.095

• 震災の影響を受け注目Hashtag,ユーザが変化

Hashtag：ツイートタイミング
震災前震災後
1.0
Top1-333
Top334-666
0.75
Top667-1000
Distance

0.5

0.25

0

震災前震災後
1.0
Top1-333
Top334-666
0.75
Top667-1000
Distance

0.5 2つのノードの組がきわめて類似
そのほかとはそれほど類似しない
0.25
“#hanshin”と”tigers”
“ameba”と”ameblo”など
0

震災前震災後
1.0
Top1-333
Top334-666
0.75
Top667-1000
Distance

0.5

0.25

0
• 極めて類似したノード集合(“eigo”,”travel”,”art”など)
• Botや企業アカウント→震災直後は自粛傾向

Hashtag：ツイートユーザ
震災前震災後
1.0

0.75
Distance

0.5

0.25

0
• 全体的に距離が遠くなる
 ツイートタイミングに比べ非常に高次元

Hashtag：ツイートユーザ
震災前震災後
1.0

0.75
Distance

0.5

0.25

0
• 全体的な傾向に大きな差はない
 Hashtag自体は震災前後で大きく入れ替わり

Mention：ツイートタイミング
震災前震災後
1.0
Top1-333
Top334-666
0.75 Top667-1000
Distance

0.5

0.25

0

Mention：ツイートタイミング
震災前震災後
1.0
Top1-333
Top334-666
0.75 Top667-1000
Distance

0.5

0.25

0
• 複数の類似したノード集合
 短い時間幅で注目ユーザが次々変化

Mention：ツイートユーザ
震災前震災後
1.0

0.75
Distance

0.5

0.25 Top1-333
Top334-666
Top667-1000
0

震災前震災後
1.0

0.75
Distance

0.5

0.25 Top1-333
Top334-666
Top667-1000
0
• 震災前：複数の類似したノード集合
 ユーザごとの興味に応じたツイート

震災前震災後
1.0

0.75
Distance

0.5

0.25 Top1-333
Top334-666
Top667-1000
0
• 震災後：ノードが直線に近い状態で配置
 話題が震災関連→ユーザの言動の類似

考察：Mentionツイート変化
• ツイートタイミング
震災後：短い時間幅で注目ユーザ変化
• ツイートユーザ
震災後：ユーザ言動の類似

• Mentionツイートの特徴
「返信」…親しいユーザ間でのやり取り，著名人へ
の一方的なもの(Reply機能)
「引用」…有用なツイートや多くのユーザに伝えた
い情報を拡散(Retweet機能)

ReplyとRetweetの変化
• MentionからReplyとRetweet抽出

• 震災前：ReplyとRetweetは約10倍の開き
• 震災後：ReplyとRetweetはほぼ同量に

ユーザ毎の平均ツイート数
• 注目ユーザに対する各ユーザの平均Mention数

• 震災前：Mentionツイートの頻繁な繰り返し
• 震災後：ほとんど繰り返されない

ユーザの利用傾向の変化
• Hashtag
注目Hashtagは大きく変化
使われ方に顕著な変化は見られない
• Mention
震災前は「返信」型のツイート
震災後は「引用」型に遷移

message
message message
震災

最小全域木の採用理由
最小全域木群平均法
1.0

0.75
Distance

0.5

0.25

0
• ツイートタイミングをランダム化
最小全域木と群平均法で比較

最小全域木の採用理由
最小全域木群平均法
1.0

0.75
Distance

0.5

0.25

0
• 群平均法：分類感度がよく細かいクラスタ形成
データの特性と不一致

まとめ
• 震災前後でのTwitter利用傾向変化
Hashtag,Mentionツイートに着目
ツイート傾向の変化をマクロに分析
• 得られた結果
Hashtagには顕著な傾向の変化は見られない
Mentionには顕著な傾向の変化

• 詳細な分析
Mentionは返信型から引用型へ遷移
最小全域木の妥当性を確認

今後の課題・展開
本稿：マクロな視点での分析

ミクロな視点での分析
• ツイート内容，ネットワーク構造などを考慮

利用傾向の変化をモデリング
• 問題点，ボトルネックの把握，改善策検討
• ソーシャルメディアを有効活用するための条件把握

関連活動
• 東日本大震災ビックデータワークショップ
 Google,TwitterJapanを中心としたプロジェクト
 震災時データの分析
 次の災害に向けた知識発見，サービスの開発

• 異種協調型災害常用支援システム実現に向
けた基盤技術の構築(CHIDRI)
 情報系研究者が災害時に貢献するための準備
 災害時，即座にサービスリリースする体制づくり
 研究のための情報共有体制の検討

Webdbf2012

Recommandé

Recommandé

Contenu connexe

En vedette

En vedette (20)

Webdbf2012