SlideShare une entreprise Scribd logo
1  sur  41
Télécharger pour lire hors ligne
第5回Webとデータベースに関するフォーラム
     (WebDBForum2012) 11/20,21 @秋葉原ダイビル




  デンドログラムを用いた
震災時におけるMention・Hashtag
  ツイートの利用傾向分析

    静岡県立大学大学院
       小出明弘
東日本大震災
2011年3月11日14:46:18発生,観測史上最大

• 情報インフラに甚大な被害
   通信,交通の断絶

• 広域的かつ甚大な被害
   情報伝達の空白地域発生


       マスメディアの限界
 「情報空白化」を最小限にする多くの取り組み
             出典:平成 23 年版 情報通信白書
代表的取り組み
• 企業エンジニアによる支援システム
 Google:パーソンファインダー,ライフラインマップ
 OSMFJ:shinsai.info(復興支援プラットフォーム)

    震災時におけるICTの利用

• 国民が情報の発信主体
 ソーシャルメディアの利用(Twitter,Facebookなど)
   素早い情報の拡散・情報共有

    新たなメディアとしての期待
ソーシャルメディアにおける課題
• デマ情報の拡散
 ツイートが真偽不明なまま拡散
 ユーザが混乱
   「有害物質の雨」,「イソジンによるヨウ素剤代用」

ヨウ素剤を持っていない人は
イソジンで代用できます。




  即座に大量の
  ユーザに伝達
ソーシャルメディアにおける課題
    タイムラインの           A       B
     埋め尽くし
ユーザA:ヨウ素剤を持っていない人は…                   C
ユーザB:ヨウ素剤を持っていない人は…
ユーザC:ヨウ素剤を持っていない人は…
ユーザD:ヨウ素剤を持っていない人は…                   D
ユーザE:山手線が復旧したらしい…
ユーザF:ヨウ素剤を持っていない人は…
                                  E
・・・                       F

• 情報の乱発
 同じような内容を投稿し続ける
 ユーザのタイムラインが埋まる
 情報の獲得が困難
モチベーション

• ソーシャルメディアでは何が起きていたのか
 震災による投稿スタイルの変化
 ユーザが注目した話題は?ユーザは?


• 災害時のユーザ行動モデリング
 何が大きく変化し,問題点となるのはどこか把握
 非常時における情報伝達,共有の効率化
本稿の概要
• Twitter上での震災の影響を実証的分析
 代表的なツイート機能に着目
   Hashtagツイート,Mentionツイート
 震災前後での利用傾向の変化をマクロに分析
   期間内の注目Hashtag,被Mentionユーザを対象

• 得られた知見
  Hashtagツイートの利用傾向→変化小
  Mentionツイートの利用傾向→変化大
Hashtagの定義と性質
• 使用法
 ツイート内に”#キーワード”で明記
 本稿データではキーワードは英数字のみ
Hashtagの定義と性質
                                     今日はWebDB.#WebDBf2012
                今日はWebDB.            WebDB参加します#WebDBf2012
                #WebDBf2012          WebDB楽しみ#WebDBf2012
                                     ・・・


                       WebDB楽しみ
                       #WebDBf2012        検索“#WebDBf2012”
  WebDB参加します
  #WebDBf2012




• 発言の共有
 同じハッシュタグを付けたツイートをグループ化
検索することでツイートをまとめて閲覧
Mentionの定義と性質
• 使用法
 ツイート内に”@user名”で明記
Mentionの性質と定義
           UserA
                   今日はWebDB
                                                  今日はFIT2012
                   です.                    UserA   です.

    UserB 閲覧       RT@UserA:今日
                   はWebDBです.         閲覧

                                             閲覧
                                                  @UserA 楽しみ
                                                  ですね!
UserC                   UserD    UserB

  • 使用法
     他ユーザのツイートへの言及
       他ユーザのツイートをフォロワーへ伝達
       フォローユーザとの相互のやりとり
使用データ
• Twitterツイートデータ
  2011年3月7日~2011年3月15日の9日間
 3月11日12:00:00で分割→震災前,震災後データ
 アクティブユーザ数:4,183,194人

• HashtagツイートとMentionツイート(全期間)
  総Hashtag数:15,946,498
  一度でも使われたHashtag数:562,229
  総Mention数:120,183,231
アプローチ
• 利用傾向の変化を表すもの
注目されたHashtag,被Mentionユーザの変化
Hashtag間,被Mentionユーザ間の類似関係

• マクロな分析
 類似関係を簡易的に表現
   注目されたHashtag間,ユーザ間の関係把握

• 多面的評価
 ユーザのツイート傾向を表す2つの特徴
   ツイートしたタイミング
   ツイートしたユーザの集合
ツイートタイミング
• Hashtag,Mentionがツイートされた時間に基づく
    Mention

𝑖      3/11/14:50:10




                                Tweet
         3/11/16:30:00

        3/11/17:10:20
                                        Time
              ・
              ・
              ・
• 1時間単位でのツイート数を特徴量に
     震災前後でそれぞれ108次元のベクトル
          𝑖
              𝒂 𝑖 = [𝑎 𝑖,1 , … , 𝑎 𝑖,108 ]
ツイートユーザ集合
• Hashtag,Mentionツイートしたユーザ集合
    Mention
                    低類似
       高類似                     同一ユーザによる複数ツイート
                               自分へのツイートは考慮しない
2                  3          5
  2           3
 ・・・・・・・・・・・・・・・・・・・・・・・
• ユーザ集合を特徴量に                        𝑀 = 4,183,194
  4,183,194次元のベクトル
            𝑖
                𝒃 𝑖 = [𝑏 𝑖,1 , … , 𝑏 𝑖,𝑀 ]
類似度の算出
• ツイートタイミング行列𝑨                             • ツイートユーザ行列𝑩
       𝑨 = [𝒂1 ⋯ 𝒂 𝑁 ] 𝑇                       𝑩 = [𝒃1 ⋯ 𝒃 𝑁 ] 𝑇
             𝑁 =Hashtag数,アクティブユーザ数

• 任意のユーザ,Hashtag ,𝑖と𝑗の類似度𝜌
   類似度にはコサイン類似度


 ツイートタイミングの場合                                 ツイートユーザの場合
              108    𝑎 𝑖,𝑛 ∙𝑎 𝑗,𝑛                       𝑀     𝑏 𝑖,𝑚 ∙𝑏 𝑗,𝑚
               𝑛=1                                      𝑚=1
𝜌 𝑖, 𝑗 =                                   𝜌 𝑖, 𝑗 =
           108
            𝑛=1   𝑎2 ∙
                   𝑖,𝑛
                           108
                            𝑛=1     𝑎2
                                     𝑗,𝑛
                                                      𝑀
                                                      𝑚=1   𝑏2 ∙
                                                             𝑖,𝑚
                                                                     𝑀
                                                                     𝑚=1     𝑏2
                                                                              𝑗,𝑚
距離の算出と最小全域木
• ユーザ,Hashtag間の類似度を距離に変換
  𝑆 × 𝑆の距離行列𝐷を作成

   𝑑 𝑖, 𝑗 =   (1 − 𝜌 𝑖, 𝑗 )   S:注目Hashtag,ユーザ数

• 距離に基づいてエッジを張る
  重み付き完全グラフ𝐺 𝑐 = (𝑉, 𝐸)を構築
                                        𝐺𝑐
• 𝐺 𝑐 から最小全域木𝑇を作成
  クラスカル法を使用[Kruskal56]
デンドログラム可視化

• 最小全域木によりユーザの
  類似関係を簡易的に表現

• 類似関係をより明らかに         類似度:低

• 階層クラスタリングで用いら
  れるデンドログラムを使用

※階層クラスタリングにおける最短距離法
                      類似度:高
実験
• 基本分析
 震災前後でのツイート数変化
 全Hashtagツイート,Mentionツイート対象

• デンドログラム可視化
 対象
   最もツイートされたHashtag上位1000件
   最もMentionツイートされたユーザ上位1000件
 注目Hashtag,ユーザの変化を分析
1時間後毎のツイート数分布




• 震災時にMentionツイート数が急激に増加
• 震災により周期性が崩れる
ツイート数分布
 Hashtagツイート       Mentionツイート




• Hashtagツイートはそれほど変化なし
• Mentionツイートは裾の広い分布に
注目の変化
• 震災前後での上位1000Hashtag,ユーザ集合の変化
    震災前上位1000Hashtag,ユーザ集合
        𝑋 = {𝑥1 , … , 𝑥1000 }
    震災後上位1000Hashtag,ユーザ集合
        𝑌 = {𝑦1 , … , 𝑦1000 }
                                         |𝑋∩𝑌|
• 集合間のJaccard係数を算出            𝐽 𝑋, 𝑌 =   |𝑋∪𝑌|
                 Hashtag       Mention
     Jaccard係数        0.291         0.095

• 震災の影響を受け注目Hashtag,ユーザが変化
Hashtag:ツイートタイミング
                       震災前      震災後
           1.0
                  Top1-333
                  Top334-666
       0.75
                  Top667-1000
Distance




           0.5


       0.25

             0
Hashtag:ツイートタイミング
                       震災前                     震災後
           1.0
                  Top1-333
                  Top334-666
       0.75
                  Top667-1000
Distance




           0.5               2つのノードの組がきわめて類似
                             そのほかとはそれほど類似しない
       0.25
                                 “#hanshin”と”tigers”
                                 “ameba”と”ameblo”など
             0
Hashtag:ツイートタイミング
                       震災前               震災後
           1.0
                  Top1-333
                  Top334-666
       0.75
                  Top667-1000
Distance




           0.5


       0.25

             0
             • 極めて類似したノード集合(“eigo”,”travel”,”art”など)
             • Botや企業アカウント→震災直後は自粛傾向
Hashtag:ツイートユーザ
                     震災前           震災後
           1.0


       0.75
Distance




           0.5


       0.25

             0
                 • 全体的に距離が遠くなる
                     ツイートタイミングに比べ非常に高次元
Hashtag:ツイートユーザ
                     震災前            震災後
           1.0


       0.75
Distance




           0.5


       0.25

             0
                 • 全体的な傾向に大きな差はない
                    Hashtag自体は震災前後で大きく入れ替わり
Mention:ツイートタイミング
                       震災前      震災後
           1.0
                  Top1-333
                  Top334-666
       0.75       Top667-1000
Distance




           0.5


       0.25

             0
Mention:ツイートタイミング
                        震災前      震災後
           1.0
                   Top1-333
                   Top334-666
       0.75        Top667-1000
Distance




           0.5


       0.25

             0
                 • 複数の類似したノード集合
                    短い時間幅で注目ユーザが次々変化
Mention:ツイートユーザ
                   震災前                 震災後
           1.0


       0.75
Distance




           0.5


       0.25              Top1-333
                         Top334-666
                         Top667-1000
             0
Mention:ツイートユーザ
                     震災前                 震災後
           1.0


       0.75
Distance




           0.5


       0.25                Top1-333
                           Top334-666
                           Top667-1000
             0
                 • 震災前:複数の類似したノード集合
                    ユーザごとの興味に応じたツイート
Mention:ツイートユーザ
                     震災前                 震災後
           1.0


       0.75
Distance




           0.5


       0.25                Top1-333
                           Top334-666
                           Top667-1000
             0
                 • 震災後:ノードが直線に近い状態で配置
                    話題が震災関連→ユーザの言動の類似
考察:Mentionツイート変化
• ツイートタイミング
 震災後:短い時間幅で注目ユーザ変化
• ツイートユーザ
 震災後:ユーザ言動の類似

• Mentionツイートの特徴
 「返信」…親しいユーザ間でのやり取り,著名人へ
  の一方的なもの(Reply機能)
 「引用」…有用なツイートや多くのユーザに伝えた
  い情報を拡散(Retweet機能)
ReplyとRetweetの変化
• MentionからReplyとRetweet抽出




• 震災前:ReplyとRetweetは約10倍の開き
• 震災後:ReplyとRetweetはほぼ同量に
ユーザ毎の平均ツイート数
• 注目ユーザに対する各ユーザの平均Mention数




• 震災前:Mentionツイートの頻繁な繰り返し
• 震災後:ほとんど繰り返されない
ユーザの利用傾向の変化
• Hashtag
  注目Hashtagは大きく変化
  使われ方に顕著な変化は見られない
• Mention
   震災前は「返信」型のツイート
   震災後は「引用」型に遷移

                               message
message              message
              震災
最小全域木の採用理由
                    最小全域木         群平均法
           1.0


       0.75
Distance




           0.5


       0.25

             0
           • ツイートタイミングをランダム化
                 最小全域木と群平均法で比較
最小全域木の採用理由
                 最小全域木     群平均法
           1.0


       0.75
Distance




           0.5


       0.25

             0
       • 群平均法:分類感度がよく細かいクラスタ形成
             データの特性と不一致
まとめ
• 震災前後でのTwitter利用傾向変化
 Hashtag,Mentionツイートに着目
 ツイート傾向の変化をマクロに分析
• 得られた結果
 Hashtagには顕著な傾向の変化は見られない
 Mentionには顕著な傾向の変化

• 詳細な分析
 Mentionは返信型から引用型へ遷移
 最小全域木の妥当性を確認
今後の課題・展開
    本稿:マクロな視点での分析


      ミクロな視点での分析
 • ツイート内容, ネットワーク構造などを考慮


   利用傾向の変化をモデリング
• 問題点,ボトルネックの把握,改善策検討
• ソーシャルメディアを有効活用するための条件把握
関連活動
• 東日本大震災ビックデータワークショップ
 Google,TwitterJapanを中心としたプロジェクト
 震災時データの分析
 次の災害に向けた知識発見,サービスの開発

• 異種協調型災害常用支援システム実現に向
  けた基盤技術の構築(CHIDRI)
  情報系研究者が災害時に貢献するための準備
  災害時,即座にサービスリリースする体制づくり
  研究のための情報共有体制の検討

Contenu connexe

En vedette

El petit negre. Claude Debussy
El petit negre. Claude DebussyEl petit negre. Claude Debussy
El petit negre. Claude Debussyroser_mv
 
บทที่ 3 หน่วยการทำงานที่สำคัญ
บทที่ 3 หน่วยการทำงานที่สำคัญบทที่ 3 หน่วยการทำงานที่สำคัญ
บทที่ 3 หน่วยการทำงานที่สำคัญArrat Krupeach
 
Verkostomainen ja luova tiimityö
Verkostomainen ja luova tiimityöVerkostomainen ja luova tiimityö
Verkostomainen ja luova tiimityöJuha Laamanen
 
TANEATISERETRIAS TEYXOS18
TANEATISERETRIAS TEYXOS18TANEATISERETRIAS TEYXOS18
TANEATISERETRIAS TEYXOS18eretrianews
 
Relatório Nacional de Acompanhamento dos Objetivos de Desenvolvimento do Milênio
Relatório Nacional de Acompanhamento dos Objetivos de Desenvolvimento do MilênioRelatório Nacional de Acompanhamento dos Objetivos de Desenvolvimento do Milênio
Relatório Nacional de Acompanhamento dos Objetivos de Desenvolvimento do MilênioPalácio do Planalto
 
Spiewnik - European carols
Spiewnik - European carolsSpiewnik - European carols
Spiewnik - European carolsMonika Ch
 
Stuktur dan fungsi hewan
Stuktur dan fungsi hewanStuktur dan fungsi hewan
Stuktur dan fungsi hewanWahib Ibrahim
 
web 2.0, maria tic
web 2.0, maria ticweb 2.0, maria tic
web 2.0, maria ticmariaticve
 
Responsive web design best practises lyhyt
Responsive web design best practises lyhytResponsive web design best practises lyhyt
Responsive web design best practises lyhytJuha Laamanen
 
中國名山
中國名山中國名山
中國名山0329cmh
 
Seleção de municípios para implantação de cursos de Medicina
Seleção de municípios para implantação de cursos de Medicina Seleção de municípios para implantação de cursos de Medicina
Seleção de municípios para implantação de cursos de Medicina Palácio do Planalto
 
Prodes 2014: Divulgação da taxa estimada de desmatamento da Amazônia Legal pa...
Prodes 2014: Divulgação da taxa estimada de desmatamento da Amazônia Legal pa...Prodes 2014: Divulgação da taxa estimada de desmatamento da Amazônia Legal pa...
Prodes 2014: Divulgação da taxa estimada de desmatamento da Amazônia Legal pa...Palácio do Planalto
 

En vedette (20)

Booosting 22nov12 creatief cluster delft cepezed
Booosting 22nov12 creatief cluster delft  cepezedBooosting 22nov12 creatief cluster delft  cepezed
Booosting 22nov12 creatief cluster delft cepezed
 
Presentation1
Presentation1Presentation1
Presentation1
 
El petit negre. Claude Debussy
El petit negre. Claude DebussyEl petit negre. Claude Debussy
El petit negre. Claude Debussy
 
Soal uas gasal
Soal uas gasalSoal uas gasal
Soal uas gasal
 
Baket
BaketBaket
Baket
 
Śniadanie Daje Moc
Śniadanie Daje MocŚniadanie Daje Moc
Śniadanie Daje Moc
 
บทที่ 3 หน่วยการทำงานที่สำคัญ
บทที่ 3 หน่วยการทำงานที่สำคัญบทที่ 3 หน่วยการทำงานที่สำคัญ
บทที่ 3 หน่วยการทำงานที่สำคัญ
 
Verkostomainen ja luova tiimityö
Verkostomainen ja luova tiimityöVerkostomainen ja luova tiimityö
Verkostomainen ja luova tiimityö
 
TANEATISERETRIAS TEYXOS18
TANEATISERETRIAS TEYXOS18TANEATISERETRIAS TEYXOS18
TANEATISERETRIAS TEYXOS18
 
Relatório Nacional de Acompanhamento dos Objetivos de Desenvolvimento do Milênio
Relatório Nacional de Acompanhamento dos Objetivos de Desenvolvimento do MilênioRelatório Nacional de Acompanhamento dos Objetivos de Desenvolvimento do Milênio
Relatório Nacional de Acompanhamento dos Objetivos de Desenvolvimento do Milênio
 
Spiewnik - European carols
Spiewnik - European carolsSpiewnik - European carols
Spiewnik - European carols
 
Stuktur dan fungsi hewan
Stuktur dan fungsi hewanStuktur dan fungsi hewan
Stuktur dan fungsi hewan
 
web 2.0, maria tic
web 2.0, maria ticweb 2.0, maria tic
web 2.0, maria tic
 
Responsive web design best practises lyhyt
Responsive web design best practises lyhytResponsive web design best practises lyhyt
Responsive web design best practises lyhyt
 
Śniadanie Daje Moc
Śniadanie Daje MocŚniadanie Daje Moc
Śniadanie Daje Moc
 
Śniadanie Daje Moc
Śniadanie Daje MocŚniadanie Daje Moc
Śniadanie Daje Moc
 
中國名山
中國名山中國名山
中國名山
 
Swiraans nieuws
Swiraans nieuwsSwiraans nieuws
Swiraans nieuws
 
Seleção de municípios para implantação de cursos de Medicina
Seleção de municípios para implantação de cursos de Medicina Seleção de municípios para implantação de cursos de Medicina
Seleção de municípios para implantação de cursos de Medicina
 
Prodes 2014: Divulgação da taxa estimada de desmatamento da Amazônia Legal pa...
Prodes 2014: Divulgação da taxa estimada de desmatamento da Amazônia Legal pa...Prodes 2014: Divulgação da taxa estimada de desmatamento da Amazônia Legal pa...
Prodes 2014: Divulgação da taxa estimada de desmatamento da Amazônia Legal pa...
 

Webdbf2012