SlideShare a Scribd company logo
1 of 41
Download to read offline
社会ネットワーク分析
  第5章について

    @Kshi_Kshi
  2012/08/23 (木)

                   1
本発表について
「オープンソースで学ぶ社会ネットワーク分析
   ソーシャルWebの「つながり」を見つけ出す」


      の5章についてたんたん述べるだけの
      内容となっております。

      Chapter 5: 「2モードネットワーク」


 おかしいところがあれば、(たくさんあるかと思います。)
 適時突っ込んでいただければと思います。
                                2
自己紹介
氏名等
 @Kshi_Kshi / 越川 兼地 (こしかわ けんじ)
所属等
 調布にある大学に通ってます。現在M2です。にわか情報系。
研究等
 只今論文執筆中、締切明日 8/24 (´∀`;)
 Title:「CRFを用いたメディア情報の抽出とLinked Data化
          ~ ソーシャルメディアとマスメディアの比較事例 ~」
その他
 近頃研究に追われ、ソーシャル的な活動は薄くなりがち。
 ランニングがマイブーム。

                                        3
前回の勉強会: 8/02(木)
西新宿から調布まで走って帰宅してみた。




                      4
前章までのおさらい
1章 「イントロダクション」
        @who_you_me http://bit.ly/PCsmcQ
2章 「グラフ理論スピード入門」
        @teruu      http://slidesha.re/RClpxR
3章 「中心性、権力、ボトルネック」
        @shigex     http://slidesha.re/MwxTDc
4章 「クリーク、クラスタ、コンポーネント」
        @kat_tin    http://slidesha.re/NguPNR

そして、今回は
 5章 「2モードネットワーク」
その前に
 軽く、前回までのおさらいをしようかと思います。


                                                5
1章のまとめ
• 本でやることを紹介した章
• 社会ネットワーク分析の世界へ

• 事例:
  – アクメコンサルティング
  – 監獄 / テロ組織
  – エジプト革命とTwitter
  “インフォーマルネットワーク”

• 弱い紐帯 / 強い紐帯 とかいろいろ。

 => SNAの話を聞いて、ワクワクしましたよね?

                            6
2章のキーワード
• グラフ
  – 有向 / 無向
  – 重みなし / 重みつき
  – 1モード(一部グラフ) / 2モード(二部グラフ) / マルチモード
• 表現方法:
  – 隣接行列 / エッジリスト / 隣接リスト
• 探索:
  – 深さ優先探索 / 幅優先探索 / 単純路と通路 / ダイクストラのアルゴ
    リズム
• グラフの定量化:
  – グラフの距離 (最短単純路, コストに基づく最短単純路 , ユークリッ
    ド距離)/ グラフの直径
• スモールワールド・ネットワーク


 => グラフ理論の基礎について学びました。

                                           7
3章のキーワード
• 中心性
 –   次数中心性
 –   近接中心性
 –   媒介中心性
 –   固有ベクトル中心性
• クラウトスコア / PageRank

 => ネットワーク分析の手がかりとなる
   重要な指標の中心性について学びました。

                         8
4章のキーワード
•   コンポーネント / サブグラフ
•   トライアド
•   クラスタ係数
•   構造的空隙 / 境界連結者
•   クリーク(完全サブグラフ)
•   階層的クラスタリング

    => ネットワークを眺めて、意味を解釈できるように
    なりました?
    中心性の指標を使って階層的クラスタリングできるよ
    うになった?
    (個人的にこの章の理解は怪しいので、鵜呑みにしないで下さい.)


                                      9
おさらい終了。
以降、5章について。述べていきます。




                     10
目次
5章「2モードネットワーク」 (10 pages)
 ① 選挙資金は選挙に影響を与えるか
 ② 2モードネットワークの理論
  所属関係ネットワーク
  属性ネットワーク
  少し数学
  実際の2モードネットワーク
  PACネットワーク
  候補者ネットワーク
 ③ マルチモードネットワークの拡張
 ④ 練習問題

                            11
2モードネットワークって ?
• 2モードネットワーク
 – 学術名称: ニ部グラフ / Biparite Graph

  頂点集合を二つの部分集合に分割して各集合内の頂点
  同士の間には辺が無いようにできるグラフのことである。
               Wikipedia – 2部グラフ: http://bit.ly/NFcGsY




                                                            各集合間での
                                 二部グラフ                      エッジは無し
今までの章で主に扱っていたグラフ
                   画像引用元: http://d.hatena.ne.jp/snatool/20111030/1319931225   12
ニ部グラフを分析する嬉しさ
• 世の中に存在する関係の多くはニ部グラフも
  しくは,マルチグラフだから。
 – 政治献金関係(候補者と献金する団体), 雇用関係
   (会社と従業員),twitterのお気に入り(ユーザと
   お気に入りツイート),etc…


• その他メリット:
 – 教えてください。

              事例紹介 => 次スライド

                                 13
目次
5章「2モードネットワーク」 (10 pages)
 ① 選挙資金は選挙に影響を与えるか
 ② 2モードネットワークの理論
  所属関係ネットワーク
  属性ネットワーク
  少し数学
  実際の2モードネットワーク
  PACネットワーク
  候補者ネットワーク
 ③ マルチモードネットワークの拡張
   練習問題

                            14
「選挙資金は選挙に影響を与えるか?」
                ノード:政治組織       / 政治活動委
緑ノードの圧倒的!存在感!    員会(PAC)
                 赤: 共和党
                 青: 民主党
                 緑: シングルイシューグループ
                 紫: 業界団体
                 黄: NPO

                エッジ: PAC間のリンク(資金がどこ
                 で使われたかに依存)
                 e.g.
                    • PAC-A 及び PAC-B が同じ候補者に献
                      金したら、この2つのノードはリンク
                      される。
                  => 共通に献金している相手が多け
                    れば多いほど、リンクが強いも
                    のに。最も強い線は太線になっ
                    てる。
         Q. なにこの太線? この3つのノードって何??
                                           15
冒頭の話の続き

民主党クラスタ

           生まれる権利を守る全米委員会

              AFL-CIO PAC (米最大の労働組合と委任
                        により1100万人の選挙票を
                        操れる団体)

                    NARAL(妊娠中絶権擁護全国連盟)




                    共和党クラスタ


    ヒラリー・クリントンを落選
    させることを目的としていた
    クラスタ
                                         16
冒頭の話の続き

• 世の中的背景:(米 2000年の選挙)
    民主党クラスタ

  労働組合票は民主党に流れていた。
          生まれる権利を守る全米委員会

                 AFL-CIO PAC (米最大の労働組合と委任
  共和党としては、下院を支配し与党になるた
                    により1100万人の選挙票を
                    操れる団体)
  めには、労働組合が牛耳っている地区(オハ
  イオ・ミシガン)で勝利しなければならな
              NARAL(妊娠中絶権擁護全国連盟)
  かった。

  共和党としては、労働組合票が欲しい。
             共和党クラスタ
   => 労働組合にとっておいしい政策を打つ必要があっ
     た。論争の的となる問題が中絶だった。
        ヒラリー・クリントンを落選
       させることを目的としていた
       クラスタ
                                            17
冒頭の話の続き

  民主党クラスタ
• ここで何が言いたかったのか?
             生まれる権利を守る全米委員会

                AFL-CIO PAC (米最大の労働組合と委任
ニ部グラフを分析することで、  により1100万人の選挙票を
                操れる団体)
世に起こっている事象やその問題の本
          NARAL(妊娠中絶権擁護全国連盟)
質に迫ることができたってこと。

                      共和党クラスタ


      ヒラリー・クリントンを落選
      させることを目的としていた
      クラスタ
                                           18
冒頭の話の続き

民主党クラスタ

           生まれる権利を守る全米委員会

              AFL-CIO PAC (米最大の労働組合と委任
                        により1100万人の選挙票を
                        操れる団体)

                    NARAL(妊娠中絶権擁護全国連盟)




                    共和党クラスタ


    ヒラリー・クリントンを落選
    させることを目的としていた
    クラスタ
                                         19
冒頭の話の続き
• ここで何が言いたかったのか?
   民主党クラスタ
 政治献金の関係(ニ部グラフ)を分析することで、世に起
            生まれる権利を守る全米委員会
 こっている事象やその問題の本質に迫ることができたっ
 てこと。               (米最大の労働組合と委任
                  AFL-CIO PAC
                                により1100万人の選挙票を
 (論争の的:中絶を認めるのか否か?,             操れる団体)
           ヒラリークリントン,…)
                 NARAL(妊娠中絶権擁護全国連盟)

 => ニ部グラフの分析って凄いでしょ ^_^

 じゃあ、どうやって分析したら、知見が獲得できるの?
                共和党クラスタ

                         => 次節で紹介
        ヒラリー・クリントンを落選
        させることを目的としていた
        クラスタ
                                                 20
目次
5章「2モードネットワーク」 (10 pages)
 ① 選挙資金は選挙に影響を与えるか
 ② 2モードネットワークの理論
  所属関係ネットワーク
  属性ネットワーク
  少し数学
  実際の2モードネットワーク
  PACネットワーク
  候補者ネットワーク
 ③ マルチモードネットワークの拡張
   練習問題

                            21
2モードネットワークの理論

                         もしかして
                         閉じたトライアドかも?


• とあるクラブの所属関係
 二部グラフからの推測:
   Q. AとBが同じメンバーなら、彼らは知り合いだろうか?
 <飛び交う憶測>
   入部時期が同じだったらその可能性が高いのでは?
   クラブのメンバー規模が大きかったら・・・?
   このクラブが全国に支店を持っていたら?
   ネットの会員という場合もありうる。うーん。。。

 このような憶測から分析を始めることができる!
      => Step.1 グラフからいろいろ憶測してみよう!
                                    22
続き
 少しグラフの規模を拡大してみた。

 • EFHは共通のグルー
   プに属している。
 こいつらの中には
   強い結びつきがあ
   りそう。

 • そうだ
 • 射影してみよう。

                    23
続き
          射影後
            他のネットワークのように
            分析が可能になった。

            前章にやった
              - アイランド法
射影            - クラスタ法
            が適しているらしい。

          Why? =>
            類似性や相関関係を求める
            ときに適している手法だか
            ら。

     Step2. 憶測をヒントにネットワークを射影して
     新しいネットワークを作り分析をする!
                             24
Q. えっでも・・・
   射影ってめんどくさくないですか???
   パッとできるんですか??
Q. えっでも・・・
   射影ってめんどくさくないですか???
   パッとできるんですか??


A. 転置行列の概念で解決さっ!

えっ誰・・・?




                    26
少し数学
           1       2           3       4           5



       A       B           C       D       E           F




                       1                       1
       A       B               C       E               F
                                   1
                           1               2
               1
                           D



           ※ 計算量 O(n * m * n)
                                                           27
2部グラフの分析まとめ
• 二部グラフの分析は

1. どこに関係がありそうか憶測する。
2. 憶測が顕著に現れるであろうネットワー
   クを作る。(転置行列を使う)
3. 前章までに行った分析等をしてみる。



                        28
実際の2モードネットワーク
• Networkxをつかって、実際に分析してみようという内容

• コード・データなど
  https://github.com/maksim2042/SNABook/tree/master/chapt
  er5
• データのサンプル




                                                            29
実際の2モードネットワーク




          コメント参照。
                    30
PACネットワーク
1. これを使って何ができるのだろ
   うか。まず、PACの所属関係ネッ
   トワークを計算しよう。        可視化!

2. コードがりがりして、ネット
   ワークを作る。(可視化に工夫は
   しよう。)

<知見>                  知見獲得
  このデータセットでもっとも強
  い関係は、IDがC00000422のオハ
  イオ州コロンバスに住むクレイ
  グ・アンダーソン博士とIDが
  C00000372の鉄路保全政治同盟と
  いう鉄道会社社員の労働組合PAC
  (ミシガン州サウスフィール
  ド)である。


                               31
PACネットワーク2
                              重要なノードだけを可視化するために、
1. 候補者ネットワークを作ろう。
                              ノイズになるノードをカットする基準を
                              得るために重みのヒストグラム化をした
2. 候補者ネットワークを計算するには、
   射影の向きを単純に逆にして、PAC
   の表ではなく候補者の表の射影グラ
   フを計算すればよい。
   => コードがりがり。 可視化!
<知見>
コアネットワーク(図5-7)には、明ら
  かに境界連結者候補によってつなが
  れたいくつかの密集したクラスタが     知見獲得
  含まれている。2000年には多くの民
  主党候補が保守的な傾向を示し、そ
  の結果、普段なら共和党を支援する
  人々から多額の献金を受け取ってい
  る。もちろん、それでも彼らは選挙
  では負けている。




                                              32
PACネットワーク2
                         重要なノードだけを可視化するために、
1. 候補者ネットワークを作ろう。
                         ノイズになるノードをカットする基準を
         練習問題            得るために重みのヒストグラム化をした
2. 候補者ネットワークを計算するには、
   射影の向きを単純に逆にして、PAC
   の表ではなく候補者の表の射影グラ
           階層的クラスタ分析(4.5節)を使えば、クラスタ
   フを計算すればよい。
           のなかに誰がいるのかを調べられる。境界連結者は、
   => コードがりがり。  可視化!
        媒介中心性(3.2.4節})かトライアドセンサス
        (4.3.7節)を使えば見つけられる。
<知見>
コアネットワーク(図5-7)には、明ら
        これらのテクニックは今までの章で説明したので、
  かに境界連結者候補によってつなが
  れたいくつかの密集したクラスタが 知見獲得
        読者への練習問題としておきたい
  含まれている。2000年には多くの民
  主党候補が保守的な傾向を示し、そ
  の結果、普段なら共和党を支援する
  人々から多額の献金を受け取ってい
  る。もちろん、それでも彼らは選挙
  では負けている。




                                         33
目次
5章「2モードネットワーク」 (10 pages)
 ① 選挙資金は選挙に影響を与えるか
 ② 2モードネットワークの理論
  所属関係ネットワーク
  属性ネットワーク
  少し数学
  実際の2モードネットワーク
  PACネットワーク
  候補者ネットワーク
 ③ マルチモードネットワークの拡張
   練習問題

                            34
マルチモードネットワークの拡張
• 分析の仕方は、
  基本的には、2部グラフの時と同じ。

1. どこに関係がありそうか憶測する。
2. 憶測が顕著に現れるであろうネットワークを作
   る。(転置行列を使う)
3. 前章までに行った分析等をしてみる。

•   この節で、複数種のノードからどのようなネッ
    トワークが作れるかの感覚を養うのが節の目的
    かと。

                            35
事例紹介
テキストからまるまる引用
アクメ株式会社という小さな機械メーカーがあるものとする。この
会社には、ある程度の数の社員がいて、何らかの命令系統のもとに
動いている。社員たちは、社内外に友人関係を持ち、何らかの専門
知識について正規の教育を受け、何かしらの資産を持っている。会
社が作っている装置は、部品と作業によって作られる。作業とは、
誰かがリソースに対してスキルを適用することである(つまり、ス
プロケットを作るには、旋盤の操作方法を知っていて、一定量の鉄
を持っている人が、時間を費やしてスプロケットを作らなければな
らない)。




                                 36
マルチモードネットワーク分析の
    感覚を養おう
       このマルチモードネットワークから

          こんなネットワークが作れる




                          37
練習問題
Question
  このモデルで実現可能な仕事をどのよう
  にして判断したらよいだろうか。
  (仕事を担当している人が仕事を完成させるため
  に必要なリソースを持っていたら、その仕事は
  達成可能だとしよう。)
Answer




                           38
5章 まとめ
• 二部グラフ及びマルチモードネットワー
  クの分析は

1. どこに関係がありそうか憶測する。
2. 憶測が顕著に現れるであろうネットワー
   クを作る。(転置行列を使う)
3. 前章までに行った分析等をしてみる。


                        39
ご清聴
ありがとうございました。




               40
本スライドに用いたフォント
コンセプト
 妹のような少女が一生懸命、丁寧に手書
 きで書いた文字をイメージしたフォント


「妹フォント」



      http://www.vector.co.jp/soft/winnt/writing/se496865.html 41

More Related Content

Similar to Sna book chapter_5

埼玉工業大学 2011年秋学期 ボランティアの研究 第10回 情報システム・ソーシャルメディアとボランティア
埼玉工業大学 2011年秋学期 ボランティアの研究 第10回 情報システム・ソーシャルメディアとボランティア埼玉工業大学 2011年秋学期 ボランティアの研究 第10回 情報システム・ソーシャルメディアとボランティア
埼玉工業大学 2011年秋学期 ボランティアの研究 第10回 情報システム・ソーシャルメディアとボランティアYoshihiko Suko (Ph.D) / BADO! Inc. of CEO
 
大規模ネットワークの性質と先端グラフアルゴリズム
大規模ネットワークの性質と先端グラフアルゴリズム大規模ネットワークの性質と先端グラフアルゴリズム
大規模ネットワークの性質と先端グラフアルゴリズムTakuya Akiba
 
Structural data analysis based on multilayer networks
Structural data analysis based on multilayer networksStructural data analysis based on multilayer networks
Structural data analysis based on multilayer networkstm1966
 
情報理工学院情報工学系村田研究室.pptx
情報理工学院情報工学系村田研究室.pptx情報理工学院情報工学系村田研究室.pptx
情報理工学院情報工学系村田研究室.pptxtm1966
 
MLaPP輪講 Chapter 1
MLaPP輪講 Chapter 1MLaPP輪講 Chapter 1
MLaPP輪講 Chapter 1ryuhmd
 
Recsys2015読み会_高橋
Recsys2015読み会_高橋Recsys2015読み会_高橋
Recsys2015読み会_高橋Ryo Takahashi
 
反応時間データをどう分析し図示するか
反応時間データをどう分析し図示するか反応時間データをどう分析し図示するか
反応時間データをどう分析し図示するかSAKAUE, Tatsuya
 
Graph-Neural-Recommendation-for-Social-Recommendation
Graph-Neural-Recommendation-for-Social-RecommendationGraph-Neural-Recommendation-for-Social-Recommendation
Graph-Neural-Recommendation-for-Social-RecommendationShumpeiKikuta
 
複合システムネットワーク論を読む(公開版)
複合システムネットワーク論を読む(公開版)複合システムネットワーク論を読む(公開版)
複合システムネットワーク論を読む(公開版)考司 小杉
 
Otsuma(2010713)
Otsuma(2010713)Otsuma(2010713)
Otsuma(2010713)真 岡本
 
20090827 ku-librarians勉強会 #114 : Wikipediaをいかに使いこなすか? ---知識抽出、情報ナビゲーション、そしてトピ...
20090827 ku-librarians勉強会 #114 : Wikipediaをいかに使いこなすか? ---知識抽出、情報ナビゲーション、そしてトピ...20090827 ku-librarians勉強会 #114 : Wikipediaをいかに使いこなすか? ---知識抽出、情報ナビゲーション、そしてトピ...
20090827 ku-librarians勉強会 #114 : Wikipediaをいかに使いこなすか? ---知識抽出、情報ナビゲーション、そしてトピ...kulibrarians
 
深層学習の数理
深層学習の数理深層学習の数理
深層学習の数理Taiji Suzuki
 

Similar to Sna book chapter_5 (14)

埼玉工業大学 2011年秋学期 ボランティアの研究 第10回 情報システム・ソーシャルメディアとボランティア
埼玉工業大学 2011年秋学期 ボランティアの研究 第10回 情報システム・ソーシャルメディアとボランティア埼玉工業大学 2011年秋学期 ボランティアの研究 第10回 情報システム・ソーシャルメディアとボランティア
埼玉工業大学 2011年秋学期 ボランティアの研究 第10回 情報システム・ソーシャルメディアとボランティア
 
大規模ネットワークの性質と先端グラフアルゴリズム
大規模ネットワークの性質と先端グラフアルゴリズム大規模ネットワークの性質と先端グラフアルゴリズム
大規模ネットワークの性質と先端グラフアルゴリズム
 
Structural data analysis based on multilayer networks
Structural data analysis based on multilayer networksStructural data analysis based on multilayer networks
Structural data analysis based on multilayer networks
 
情報理工学院情報工学系村田研究室.pptx
情報理工学院情報工学系村田研究室.pptx情報理工学院情報工学系村田研究室.pptx
情報理工学院情報工学系村田研究室.pptx
 
MLaPP輪講 Chapter 1
MLaPP輪講 Chapter 1MLaPP輪講 Chapter 1
MLaPP輪講 Chapter 1
 
Recsys2015読み会_高橋
Recsys2015読み会_高橋Recsys2015読み会_高橋
Recsys2015読み会_高橋
 
反応時間データをどう分析し図示するか
反応時間データをどう分析し図示するか反応時間データをどう分析し図示するか
反応時間データをどう分析し図示するか
 
Graph-Neural-Recommendation-for-Social-Recommendation
Graph-Neural-Recommendation-for-Social-RecommendationGraph-Neural-Recommendation-for-Social-Recommendation
Graph-Neural-Recommendation-for-Social-Recommendation
 
複合システムネットワーク論を読む(公開版)
複合システムネットワーク論を読む(公開版)複合システムネットワーク論を読む(公開版)
複合システムネットワーク論を読む(公開版)
 
Otsuma(2010713)
Otsuma(2010713)Otsuma(2010713)
Otsuma(2010713)
 
Machine learning
Machine learningMachine learning
Machine learning
 
What socialmedia is
What socialmedia isWhat socialmedia is
What socialmedia is
 
20090827 ku-librarians勉強会 #114 : Wikipediaをいかに使いこなすか? ---知識抽出、情報ナビゲーション、そしてトピ...
20090827 ku-librarians勉強会 #114 : Wikipediaをいかに使いこなすか? ---知識抽出、情報ナビゲーション、そしてトピ...20090827 ku-librarians勉強会 #114 : Wikipediaをいかに使いこなすか? ---知識抽出、情報ナビゲーション、そしてトピ...
20090827 ku-librarians勉強会 #114 : Wikipediaをいかに使いこなすか? ---知識抽出、情報ナビゲーション、そしてトピ...
 
深層学習の数理
深層学習の数理深層学習の数理
深層学習の数理
 

More from Kenji Koshikawa

[International Asian LOD Challenge Day 2012]LOD generation of Social and Mass...
[International Asian LOD Challenge Day 2012]LOD generation of Social and Mass...[International Asian LOD Challenge Day 2012]LOD generation of Social and Mass...
[International Asian LOD Challenge Day 2012]LOD generation of Social and Mass...Kenji Koshikawa
 
[JAWS2012]CRFを用いた メディア情報の抽出とLinked Data化 ~ ソーシャルメディアとマスメディアの比較事例 ~
[JAWS2012]CRFを用いた メディア情報の抽出とLinked Data化 ~ ソーシャルメディアとマスメディアの比較事例 ~[JAWS2012]CRFを用いた メディア情報の抽出とLinked Data化 ~ ソーシャルメディアとマスメディアの比較事例 ~
[JAWS2012]CRFを用いた メディア情報の抽出とLinked Data化 ~ ソーシャルメディアとマスメディアの比較事例 ~Kenji Koshikawa
 
集合知プログラミング 第6章 ドキュメントとフィルタリング~draft
集合知プログラミング 第6章 ドキュメントとフィルタリング~draft集合知プログラミング 第6章 ドキュメントとフィルタリング~draft
集合知プログラミング 第6章 ドキュメントとフィルタリング~draftKenji Koshikawa
 
Code jam japan2011 練習問題A
Code jam japan2011 練習問題ACode jam japan2011 練習問題A
Code jam japan2011 練習問題AKenji Koshikawa
 
Google code jam japan2011 練習問題a
Google code jam japan2011 練習問題aGoogle code jam japan2011 練習問題a
Google code jam japan2011 練習問題aKenji Koshikawa
 
[WWW Conference 2011]Information Credibility on Twitter
[WWW Conference 2011]Information Credibility on Twitter[WWW Conference 2011]Information Credibility on Twitter
[WWW Conference 2011]Information Credibility on TwitterKenji Koshikawa
 

More from Kenji Koshikawa (8)

20130120
2013012020130120
20130120
 
Jaws2012 koshikawa
Jaws2012 koshikawaJaws2012 koshikawa
Jaws2012 koshikawa
 
[International Asian LOD Challenge Day 2012]LOD generation of Social and Mass...
[International Asian LOD Challenge Day 2012]LOD generation of Social and Mass...[International Asian LOD Challenge Day 2012]LOD generation of Social and Mass...
[International Asian LOD Challenge Day 2012]LOD generation of Social and Mass...
 
[JAWS2012]CRFを用いた メディア情報の抽出とLinked Data化 ~ ソーシャルメディアとマスメディアの比較事例 ~
[JAWS2012]CRFを用いた メディア情報の抽出とLinked Data化 ~ ソーシャルメディアとマスメディアの比較事例 ~[JAWS2012]CRFを用いた メディア情報の抽出とLinked Data化 ~ ソーシャルメディアとマスメディアの比較事例 ~
[JAWS2012]CRFを用いた メディア情報の抽出とLinked Data化 ~ ソーシャルメディアとマスメディアの比較事例 ~
 
集合知プログラミング 第6章 ドキュメントとフィルタリング~draft
集合知プログラミング 第6章 ドキュメントとフィルタリング~draft集合知プログラミング 第6章 ドキュメントとフィルタリング~draft
集合知プログラミング 第6章 ドキュメントとフィルタリング~draft
 
Code jam japan2011 練習問題A
Code jam japan2011 練習問題ACode jam japan2011 練習問題A
Code jam japan2011 練習問題A
 
Google code jam japan2011 練習問題a
Google code jam japan2011 練習問題aGoogle code jam japan2011 練習問題a
Google code jam japan2011 練習問題a
 
[WWW Conference 2011]Information Credibility on Twitter
[WWW Conference 2011]Information Credibility on Twitter[WWW Conference 2011]Information Credibility on Twitter
[WWW Conference 2011]Information Credibility on Twitter
 

Sna book chapter_5

  • 2. 本発表について 「オープンソースで学ぶ社会ネットワーク分析 ソーシャルWebの「つながり」を見つけ出す」 の5章についてたんたん述べるだけの 内容となっております。 Chapter 5: 「2モードネットワーク」 おかしいところがあれば、(たくさんあるかと思います。) 適時突っ込んでいただければと思います。 2
  • 3. 自己紹介 氏名等 @Kshi_Kshi / 越川 兼地 (こしかわ けんじ) 所属等 調布にある大学に通ってます。現在M2です。にわか情報系。 研究等 只今論文執筆中、締切明日 8/24 (´∀`;) Title:「CRFを用いたメディア情報の抽出とLinked Data化 ~ ソーシャルメディアとマスメディアの比較事例 ~」 その他 近頃研究に追われ、ソーシャル的な活動は薄くなりがち。 ランニングがマイブーム。 3
  • 5. 前章までのおさらい 1章 「イントロダクション」 @who_you_me http://bit.ly/PCsmcQ 2章 「グラフ理論スピード入門」 @teruu http://slidesha.re/RClpxR 3章 「中心性、権力、ボトルネック」 @shigex http://slidesha.re/MwxTDc 4章 「クリーク、クラスタ、コンポーネント」 @kat_tin http://slidesha.re/NguPNR そして、今回は 5章 「2モードネットワーク」 その前に 軽く、前回までのおさらいをしようかと思います。 5
  • 6. 1章のまとめ • 本でやることを紹介した章 • 社会ネットワーク分析の世界へ • 事例: – アクメコンサルティング – 監獄 / テロ組織 – エジプト革命とTwitter “インフォーマルネットワーク” • 弱い紐帯 / 強い紐帯 とかいろいろ。 => SNAの話を聞いて、ワクワクしましたよね? 6
  • 7. 2章のキーワード • グラフ – 有向 / 無向 – 重みなし / 重みつき – 1モード(一部グラフ) / 2モード(二部グラフ) / マルチモード • 表現方法: – 隣接行列 / エッジリスト / 隣接リスト • 探索: – 深さ優先探索 / 幅優先探索 / 単純路と通路 / ダイクストラのアルゴ リズム • グラフの定量化: – グラフの距離 (最短単純路, コストに基づく最短単純路 , ユークリッ ド距離)/ グラフの直径 • スモールワールド・ネットワーク => グラフ理論の基礎について学びました。 7
  • 8. 3章のキーワード • 中心性 – 次数中心性 – 近接中心性 – 媒介中心性 – 固有ベクトル中心性 • クラウトスコア / PageRank => ネットワーク分析の手がかりとなる 重要な指標の中心性について学びました。 8
  • 9. 4章のキーワード • コンポーネント / サブグラフ • トライアド • クラスタ係数 • 構造的空隙 / 境界連結者 • クリーク(完全サブグラフ) • 階層的クラスタリング => ネットワークを眺めて、意味を解釈できるように なりました? 中心性の指標を使って階層的クラスタリングできるよ うになった? (個人的にこの章の理解は怪しいので、鵜呑みにしないで下さい.) 9
  • 11. 目次 5章「2モードネットワーク」 (10 pages) ① 選挙資金は選挙に影響を与えるか ② 2モードネットワークの理論 所属関係ネットワーク 属性ネットワーク 少し数学 実際の2モードネットワーク PACネットワーク 候補者ネットワーク ③ マルチモードネットワークの拡張 ④ 練習問題 11
  • 12. 2モードネットワークって ? • 2モードネットワーク – 学術名称: ニ部グラフ / Biparite Graph 頂点集合を二つの部分集合に分割して各集合内の頂点 同士の間には辺が無いようにできるグラフのことである。 Wikipedia – 2部グラフ: http://bit.ly/NFcGsY 各集合間での 二部グラフ エッジは無し 今までの章で主に扱っていたグラフ 画像引用元: http://d.hatena.ne.jp/snatool/20111030/1319931225 12
  • 13. ニ部グラフを分析する嬉しさ • 世の中に存在する関係の多くはニ部グラフも しくは,マルチグラフだから。 – 政治献金関係(候補者と献金する団体), 雇用関係 (会社と従業員),twitterのお気に入り(ユーザと お気に入りツイート),etc… • その他メリット: – 教えてください。 事例紹介 => 次スライド 13
  • 14. 目次 5章「2モードネットワーク」 (10 pages) ① 選挙資金は選挙に影響を与えるか ② 2モードネットワークの理論 所属関係ネットワーク 属性ネットワーク 少し数学 実際の2モードネットワーク PACネットワーク 候補者ネットワーク ③ マルチモードネットワークの拡張 練習問題 14
  • 15. 「選挙資金は選挙に影響を与えるか?」 ノード:政治組織 / 政治活動委 緑ノードの圧倒的!存在感! 員会(PAC) 赤: 共和党 青: 民主党 緑: シングルイシューグループ 紫: 業界団体 黄: NPO エッジ: PAC間のリンク(資金がどこ で使われたかに依存) e.g. • PAC-A 及び PAC-B が同じ候補者に献 金したら、この2つのノードはリンク される。 => 共通に献金している相手が多け れば多いほど、リンクが強いも のに。最も強い線は太線になっ てる。 Q. なにこの太線? この3つのノードって何?? 15
  • 16. 冒頭の話の続き 民主党クラスタ 生まれる権利を守る全米委員会 AFL-CIO PAC (米最大の労働組合と委任 により1100万人の選挙票を 操れる団体) NARAL(妊娠中絶権擁護全国連盟) 共和党クラスタ ヒラリー・クリントンを落選 させることを目的としていた クラスタ 16
  • 17. 冒頭の話の続き • 世の中的背景:(米 2000年の選挙) 民主党クラスタ 労働組合票は民主党に流れていた。 生まれる権利を守る全米委員会 AFL-CIO PAC (米最大の労働組合と委任 共和党としては、下院を支配し与党になるた により1100万人の選挙票を 操れる団体) めには、労働組合が牛耳っている地区(オハ イオ・ミシガン)で勝利しなければならな NARAL(妊娠中絶権擁護全国連盟) かった。 共和党としては、労働組合票が欲しい。 共和党クラスタ => 労働組合にとっておいしい政策を打つ必要があっ た。論争の的となる問題が中絶だった。 ヒラリー・クリントンを落選 させることを目的としていた クラスタ 17
  • 18. 冒頭の話の続き 民主党クラスタ • ここで何が言いたかったのか? 生まれる権利を守る全米委員会 AFL-CIO PAC (米最大の労働組合と委任 ニ部グラフを分析することで、 により1100万人の選挙票を 操れる団体) 世に起こっている事象やその問題の本 NARAL(妊娠中絶権擁護全国連盟) 質に迫ることができたってこと。 共和党クラスタ ヒラリー・クリントンを落選 させることを目的としていた クラスタ 18
  • 19. 冒頭の話の続き 民主党クラスタ 生まれる権利を守る全米委員会 AFL-CIO PAC (米最大の労働組合と委任 により1100万人の選挙票を 操れる団体) NARAL(妊娠中絶権擁護全国連盟) 共和党クラスタ ヒラリー・クリントンを落選 させることを目的としていた クラスタ 19
  • 20. 冒頭の話の続き • ここで何が言いたかったのか? 民主党クラスタ 政治献金の関係(ニ部グラフ)を分析することで、世に起 生まれる権利を守る全米委員会 こっている事象やその問題の本質に迫ることができたっ てこと。 (米最大の労働組合と委任 AFL-CIO PAC により1100万人の選挙票を (論争の的:中絶を認めるのか否か?, 操れる団体) ヒラリークリントン,…) NARAL(妊娠中絶権擁護全国連盟) => ニ部グラフの分析って凄いでしょ ^_^ じゃあ、どうやって分析したら、知見が獲得できるの? 共和党クラスタ => 次節で紹介 ヒラリー・クリントンを落選 させることを目的としていた クラスタ 20
  • 21. 目次 5章「2モードネットワーク」 (10 pages) ① 選挙資金は選挙に影響を与えるか ② 2モードネットワークの理論 所属関係ネットワーク 属性ネットワーク 少し数学 実際の2モードネットワーク PACネットワーク 候補者ネットワーク ③ マルチモードネットワークの拡張 練習問題 21
  • 22. 2モードネットワークの理論 もしかして 閉じたトライアドかも? • とあるクラブの所属関係 二部グラフからの推測: Q. AとBが同じメンバーなら、彼らは知り合いだろうか? <飛び交う憶測> 入部時期が同じだったらその可能性が高いのでは? クラブのメンバー規模が大きかったら・・・? このクラブが全国に支店を持っていたら? ネットの会員という場合もありうる。うーん。。。 このような憶測から分析を始めることができる! => Step.1 グラフからいろいろ憶測してみよう! 22
  • 23. 続き 少しグラフの規模を拡大してみた。 • EFHは共通のグルー プに属している。 こいつらの中には 強い結びつきがあ りそう。 • そうだ • 射影してみよう。 23
  • 24. 続き 射影後 他のネットワークのように 分析が可能になった。 前章にやった - アイランド法 射影 - クラスタ法 が適しているらしい。 Why? => 類似性や相関関係を求める ときに適している手法だか ら。 Step2. 憶測をヒントにネットワークを射影して 新しいネットワークを作り分析をする! 24
  • 25. Q. えっでも・・・ 射影ってめんどくさくないですか??? パッとできるんですか??
  • 26. Q. えっでも・・・ 射影ってめんどくさくないですか??? パッとできるんですか?? A. 転置行列の概念で解決さっ! えっ誰・・・? 26
  • 27. 少し数学 1 2 3 4 5 A B C D E F 1 1 A B C E F 1 1 2 1 D ※ 計算量 O(n * m * n) 27
  • 28. 2部グラフの分析まとめ • 二部グラフの分析は 1. どこに関係がありそうか憶測する。 2. 憶測が顕著に現れるであろうネットワー クを作る。(転置行列を使う) 3. 前章までに行った分析等をしてみる。 28
  • 30. 実際の2モードネットワーク コメント参照。 30
  • 31. PACネットワーク 1. これを使って何ができるのだろ うか。まず、PACの所属関係ネッ トワークを計算しよう。 可視化! 2. コードがりがりして、ネット ワークを作る。(可視化に工夫は しよう。) <知見> 知見獲得 このデータセットでもっとも強 い関係は、IDがC00000422のオハ イオ州コロンバスに住むクレイ グ・アンダーソン博士とIDが C00000372の鉄路保全政治同盟と いう鉄道会社社員の労働組合PAC (ミシガン州サウスフィール ド)である。 31
  • 32. PACネットワーク2 重要なノードだけを可視化するために、 1. 候補者ネットワークを作ろう。 ノイズになるノードをカットする基準を 得るために重みのヒストグラム化をした 2. 候補者ネットワークを計算するには、 射影の向きを単純に逆にして、PAC の表ではなく候補者の表の射影グラ フを計算すればよい。 => コードがりがり。 可視化! <知見> コアネットワーク(図5-7)には、明ら かに境界連結者候補によってつなが れたいくつかの密集したクラスタが 知見獲得 含まれている。2000年には多くの民 主党候補が保守的な傾向を示し、そ の結果、普段なら共和党を支援する 人々から多額の献金を受け取ってい る。もちろん、それでも彼らは選挙 では負けている。 32
  • 33. PACネットワーク2 重要なノードだけを可視化するために、 1. 候補者ネットワークを作ろう。 ノイズになるノードをカットする基準を 練習問題 得るために重みのヒストグラム化をした 2. 候補者ネットワークを計算するには、 射影の向きを単純に逆にして、PAC の表ではなく候補者の表の射影グラ 階層的クラスタ分析(4.5節)を使えば、クラスタ フを計算すればよい。 のなかに誰がいるのかを調べられる。境界連結者は、 => コードがりがり。 可視化! 媒介中心性(3.2.4節})かトライアドセンサス (4.3.7節)を使えば見つけられる。 <知見> コアネットワーク(図5-7)には、明ら これらのテクニックは今までの章で説明したので、 かに境界連結者候補によってつなが れたいくつかの密集したクラスタが 知見獲得 読者への練習問題としておきたい 含まれている。2000年には多くの民 主党候補が保守的な傾向を示し、そ の結果、普段なら共和党を支援する 人々から多額の献金を受け取ってい る。もちろん、それでも彼らは選挙 では負けている。 33
  • 34. 目次 5章「2モードネットワーク」 (10 pages) ① 選挙資金は選挙に影響を与えるか ② 2モードネットワークの理論 所属関係ネットワーク 属性ネットワーク 少し数学 実際の2モードネットワーク PACネットワーク 候補者ネットワーク ③ マルチモードネットワークの拡張 練習問題 34
  • 35. マルチモードネットワークの拡張 • 分析の仕方は、 基本的には、2部グラフの時と同じ。 1. どこに関係がありそうか憶測する。 2. 憶測が顕著に現れるであろうネットワークを作 る。(転置行列を使う) 3. 前章までに行った分析等をしてみる。 • この節で、複数種のノードからどのようなネッ トワークが作れるかの感覚を養うのが節の目的 かと。 35
  • 36. 事例紹介 テキストからまるまる引用 アクメ株式会社という小さな機械メーカーがあるものとする。この 会社には、ある程度の数の社員がいて、何らかの命令系統のもとに 動いている。社員たちは、社内外に友人関係を持ち、何らかの専門 知識について正規の教育を受け、何かしらの資産を持っている。会 社が作っている装置は、部品と作業によって作られる。作業とは、 誰かがリソースに対してスキルを適用することである(つまり、ス プロケットを作るには、旋盤の操作方法を知っていて、一定量の鉄 を持っている人が、時間を費やしてスプロケットを作らなければな らない)。 36
  • 37. マルチモードネットワーク分析の 感覚を養おう このマルチモードネットワークから こんなネットワークが作れる 37
  • 38. 練習問題 Question このモデルで実現可能な仕事をどのよう にして判断したらよいだろうか。 (仕事を担当している人が仕事を完成させるため に必要なリソースを持っていたら、その仕事は 達成可能だとしよう。) Answer 38
  • 39. 5章 まとめ • 二部グラフ及びマルチモードネットワー クの分析は 1. どこに関係がありそうか憶測する。 2. 憶測が顕著に現れるであろうネットワー クを作る。(転置行列を使う) 3. 前章までに行った分析等をしてみる。 39