SlideShare une entreprise Scribd logo
1  sur  20
Télécharger pour lire hors ligne
WWW2018読み会
WebにおけるHuman Dynamics
武内慎 
株式会社サイバーエージェント 
秋葉原ラボ 
2018/08/03
自己紹介
武内 慎
<略歴>
・名古屋大学大学院 修士卒
 - 理学研究科 素粒子的宇宙論
・通信キャリア
 - ガラケー、スマホ開発関連業務
・2015〜 サイバーエージェント
 - DMP コンサル
 - 2017/3〜 自社サービスのデータ分析
            @秋葉原ラボ
<その他>
・趣味:料理
0. 自己紹介
1. 今回の発表概要
2. SIR-Hawkes: Linking Epidemic Models and
    Hawkes Processes to Model Diffusions in Finite Populations
3. Demarcating Endogenous and Exogenous
       Opinion Diffusion Process on Social Networks
4. 感想・まとめ
目次
<該当する Proceeding>
Social Network Analysis and
         Graph Algorithms for the Web
<今回発表する論文のテーマ>
Social Network Analysis ◯ (←個人的興味)
Graph Algorithms for the Web × (←  )
1.今回の発表概要
1.今回の発表概要
<ご紹介する論文とテーマ>
テーマ:情報拡散(カスケード)
対象論文:①SIR-Hawkes: Linking Epidemic Models and
       Hawkes Processes to Model Diffusions in Finite Populations
事象:群衆の同調行動(流行、バブル、デマの流布等)
テーマ:意見形成の力学(Opinion Dynamics)
対象論文:②Demarcating Endogenous and Exogenous
       Opinion Diffusion Process on Social Networks
事象:群衆のマクロな状態の変移(意見、言語、信条、文化等の時間変化)
※実験データはいずれも Twitterデータ
2.SIR-Hawkes
紹介論文①(テーマ:情報カスケード)
SIR-Hawkes: Linking Epidemic Models and
Hawkes Processes to Model Diffusions in Finite Populations
2.SIR-Hawkes
情報カスケードの最終的なサイズが予測できると嬉しい
 ・何が流行るかが流行る前にわかったら、いろいろ役立つ
 ・実際はかなり難しい [Duncan Watts 2011]
・カスケードを途中まで観測した後、
 最終的なカスケードサイズをより良く予測できるようなモデルを考えよう!
・そもそも、なぜカスケードサイズの予測が難しいの?
<研究のモチベーション>
2.SIR-Hawkes
情報カスケードの代表的な2つのモデルの関係を明らかにする
 ・2つのモデル
   − SIRモデル (疫学由来)
   − Hawkesモデル(金融学、地震学由来)
 ・各パラメータの対応付けを定式化
   → 片方の手法を、他方に流用可能に
 ・Hawkesモデルで情報カスケードを表現するために足りない要素を補完
   → 拡張モデル(HawkesN)の提案
HawkesNの評価
 ・実際のカスケードのデータセットでモデルの汎用性を評価
 ・カスケードサイズ分布を算出し、サイズ予測の困難性を実証
<アイデア・論文の流れ>
2.SIR-Hawkes
系の時間発展の様子個体の状態遷移イメージ
S(未感染)
I(感染中) R(回復済)
全体数 N (=S(t)+I(t)+R(t))
<SIR(Susceptible-Infected-Recovered)モデル>
2.SIR-Hawkes
系の時間発展の様子個体の状態遷移イメージ
(感染中) (回復済)
全体数 N
<HawkesNモデル(Hawkesモデルの拡張)>
N-Nt(未感染)
Nt(感染済)
t1の感染イベントによる
励起が減衰
2.SIR-Hawkes
<Linking HawkesN and SIR>
・モデリングする現象は HawkesNもSIRも同じ。それぞれのモデルの各要素の対応関係を考える。
SIR HawkesN
感染拡大
プロセス
① 未感染者 S が感染者 I に接触
② 一定確率 β で未感染者が感染
③ 感染者 I が増加、未感染者 S が減少
①② 確率 λ で感染が発生する
③ 感染発生で全体の感染確率が励起( Φの加算 )、
 未感染者 N-Nt が減少
回復
プロセス
① 一定確率 γ で感染者 I が回復
② 感染者 I が減少、回復者 R が増加
明示的な回復の描写はなく、代わりに、
①② 励起した感染確率が指数的に減衰 (※指数カーネル)
2.SIR-Hawkes
<Linking HawkesN and SIR>
・モデリングする現象は HawkesNもSIRも同じ。それぞれのモデルの各要素の対応関係を考える。
SIR HawkesN
感染拡大
プロセス
① 未感染者 S が感染者 I に接触
② 一定確率 β で未感染者が感染
③ 感染者 I が増加、未感染者 S が減少
①② 確率 λ で感染が発生する
③ 感染発生で全体の感染確率が励起( Φの加算 )、
 未感染者 N-Nt が減少
回復
プロセス
① 一定確率 γ で感染者 I が回復
② 感染者 I が減少、回復者 R が増加
明示的な回復の描写はなく、代わりに、
①② 励起した感染確率が指数的に減衰 (※指数カーネル)
S の減少速度は、
S (未感染者数)と、
I/N (感染者に会う確率 ) に
比例する
N=S(t)+I(t)+R(t) から、
S 一定の下で、dR/dt = -dI/dt
よってI(t) は γ で指数減衰する
SIRの新規感染の点過程と、 HawkesNの点過程が同じ強度関数 λ で記述出来ることが示せる (定理3.1)。
ただし、 μ = 0、β = κθ、γ = θ 。
<カスケードサイズ (最終的に感染した個体の総数)>
・SIRの時間発展はマルコフ連鎖で記述でき [Linda J 2008]、
 それを利用して最終的なカスケードサイズの確率分布が計算出来る。
SIRの状態空間
・時間発展:initial state からいずれかの
 absorbing statesに落ち着く
・回復:青矢印、感染:赤矢印
・absorbing statesにおけるN - S がカスケードサイズ
・initial state状態ベクトルに、遷移行列を 2N-1 ステップ回
 掛ければ必ずどこかの absorbing statesに遷移するので、
 その N - S の存在確率がカスケードサイズの確率分布になる。
・HawkesNでは、回復イベントを観測しないため
 代わりに回復確率の期待値を用いる。
2.SIR-Hawkes
2.SIR-Hawkes
<HawkesNの評価1>
・汎用性:実際のカスケードデータを前半 (任意の割合)と後半に分け、前半から後半の対数尤度を計算比較。
汎用性 Hawkes VS HawkesN
負の対数尤度
(低い方が良い)
・News、Seismicのデータセットで、HawkesNの中央値が低い
・ActiveRTではHawkesNは良くない
→ youtube関連のツイートデータ (古い音楽等の長期カスケード )
・観測データ(前半の割合)が多いと値が低くなる
→ HawkesNで全体数 N を考慮出来ていることの影響
2.SIR-Hawkes
<HawkesNの評価2>
・カスケードサイズ分布の変化:
 同じカスケードの異なる時点までのデータを元に HawkesNでカスケードサイズ分布を計算。
HawkesNによる
カスケードサイズ分布の変化
・最初のイベント時点でのサイズ分布 (黒線)は2峰性で、
 全く流行らないか流行るかの2パターン
 → 一般にカスケードサイズの予測が困難な理由
・イベントを観測するほどサイズ分布幅が狭くなる
3.Demarcating Endogenous and Exogenous Opinion Diffusion Process
紹介論文②(テーマ:Opinion Dynamics)
Demarcating Endogenous and Exogenous
       Opinion Diffusion Process on Social Networks
3.Demarcating Endogenous and Exogenous Opinion Diffusion Process
[modeling]ソーシャルネットワーク上の情報の流れの2重性
 ・opinion dynamicsは下記の2段階で駆動する
   ①外部ソース(ニュース等)がネットワーク内に共有される
   ② ネットワーク内で相互作用(議論)が行われる
 ・外的ユーザー(外部ソースの影響を受けやすいユーザー)と、
  内的ユーザー(外的でないユーザー)に分類してモデリングすると良さそう!
[sensing]通常、教師ラベルは存在しないため、教師なし学習で分類
 ・提案アルゴリズム(CherryPick)で、投稿とユーザーを分類
[control]全体の意見形成を効率的に制御
 ・少数の外的ユーザーの制御で全体の意見形成を制御できる
※opinion dynamicsには、上記のような各研究課題 (modeling, sensing, control)があり、
 それぞれ既存研究が存在している。
<アイデア・論文の流れ>
3.Demarcating Endogenous and Exogenous Opinion Diffusion Process
・分類
  :内的ユーザー
  :外的ユーザー
  :内的メッセージ
  :外的メッセージ
・内的メッセージの発生を
 多次元の点過程でモデリング
(※非対称な作用
    外的→内的 ◯、内的→外的 ×)
・最尤推定した際のモデルパラメータの
 分散が最小になるような分類を採用
(※内的メッセージとしてモデリングできない
ものを外的メッセージとする)
<モデル>
~~~~
~~~~
ソーシャルネットワーク
~~~~
~~~~
3.Demarcating Endogenous and Exogenous Opinion Diffusion Process
・最終的な意見形成の予測精度比較:
 各ユーザーの意見は [-1,1]の値で表現され、メッセージ内容から [Aniko Hannak 2012]で計算。
・意見制御のコスト比較:
 外的ユーザーから適当な制御メッセージを発生させ、
 初期意見を反転させるコスト (意訳)。
<評価>
※正負の符号のエラー率
4.感想・まとめ
・HawkesNはアイデアが面白く、モデル拡張が自然
・Demarcating Endogenous and Exogenousは証明がむずい
・『「既存モデルで簡略化されているが実際は重要」な要素を
 必要最低限取り入れて精度を改善』のパターンが多い印象

Contenu connexe

Plus de cyberagent

WebにおけるHuman Dynamics 武内慎
WebにおけるHuman Dynamics    武内慎WebにおけるHuman Dynamics    武内慎
WebにおけるHuman Dynamics 武内慎cyberagent
 
Webと経済学 數見拓朗
Webと経済学    數見拓朗Webと経済学    數見拓朗
Webと経済学 數見拓朗cyberagent
 
Data Engineering Meetup #1 持続可能なデータ基盤のためのデータの多様性に対する取り組み
Data Engineering Meetup #1 持続可能なデータ基盤のためのデータの多様性に対する取り組みData Engineering Meetup #1 持続可能なデータ基盤のためのデータの多様性に対する取り組み
Data Engineering Meetup #1 持続可能なデータ基盤のためのデータの多様性に対する取り組みcyberagent
 
継続的な開発スタイル AbemaTVのiOSアプリを週1でリリースしている話
継続的な開発スタイル AbemaTVのiOSアプリを週1でリリースしている話継続的な開発スタイル AbemaTVのiOSアプリを週1でリリースしている話
継続的な開発スタイル AbemaTVのiOSアプリを週1でリリースしている話cyberagent
 
AbemaTVにおける推薦システム
AbemaTVにおける推薦システムAbemaTVにおける推薦システム
AbemaTVにおける推薦システムcyberagent
 
AbemaTV レコメンド開発エンジニアによる RecSys 2018 参加レポート
AbemaTV レコメンド開発エンジニアによる RecSys 2018 参加レポートAbemaTV レコメンド開発エンジニアによる RecSys 2018 参加レポート
AbemaTV レコメンド開発エンジニアによる RecSys 2018 参加レポートcyberagent
 
機械学習エンジニアを見せたAWSの再:発明とは? 〜re:Invent 2018 参加レポート〜
機械学習エンジニアを見せたAWSの再:発明とは? 〜re:Invent 2018 参加レポート〜機械学習エンジニアを見せたAWSの再:発明とは? 〜re:Invent 2018 参加レポート〜
機械学習エンジニアを見せたAWSの再:発明とは? 〜re:Invent 2018 参加レポート〜cyberagent
 
インターネットテレビ局「AbemaTV」プロダクトの変遷
インターネットテレビ局「AbemaTV」プロダクトの変遷インターネットテレビ局「AbemaTV」プロダクトの変遷
インターネットテレビ局「AbemaTV」プロダクトの変遷cyberagent
 
番組宣伝に関するAbemaTV分析事例の紹介
番組宣伝に関するAbemaTV分析事例の紹介番組宣伝に関するAbemaTV分析事例の紹介
番組宣伝に関するAbemaTV分析事例の紹介cyberagent
 
WWW2018 論文読み会  Webと経済学
 WWW2018 論文読み会  Webと経済学 WWW2018 論文読み会  Webと経済学
WWW2018 論文読み会  Webと経済学cyberagent
 
WWW2018 論文読み会 Web Search and Mining
WWW2018 論文読み会 Web Search and MiningWWW2018 論文読み会 Web Search and Mining
WWW2018 論文読み会 Web Search and Miningcyberagent
 
サイバーエージェントの機械学習エンジニアが体験したGoogle I/O 2018
サイバーエージェントの機械学習エンジニアが体験したGoogle I/O 2018サイバーエージェントの機械学習エンジニアが体験したGoogle I/O 2018
サイバーエージェントの機械学習エンジニアが体験したGoogle I/O 2018cyberagent
 
ログ解析基盤におけるストリーム処理パイプラインについて
ログ解析基盤におけるストリーム処理パイプラインについてログ解析基盤におけるストリーム処理パイプラインについて
ログ解析基盤におけるストリーム処理パイプラインについてcyberagent
 
Orion an integrated multimedia content moderation system for web services
Orion  an integrated multimedia content moderation system for web servicesOrion  an integrated multimedia content moderation system for web services
Orion an integrated multimedia content moderation system for web servicescyberagent
 
Orion an integrated multimedia content moderation system for web services
Orion  an integrated multimedia content moderation system for web servicesOrion  an integrated multimedia content moderation system for web services
Orion an integrated multimedia content moderation system for web servicescyberagent
 
「これ危ない設定じゃないでしょうか」とヒアリングするための仕組み @AWS Summit Tokyo 2018
「これ危ない設定じゃないでしょうか」とヒアリングするための仕組み @AWS Summit Tokyo 2018「これ危ない設定じゃないでしょうか」とヒアリングするための仕組み @AWS Summit Tokyo 2018
「これ危ない設定じゃないでしょうか」とヒアリングするための仕組み @AWS Summit Tokyo 2018cyberagent
 
"マルチメディア機械学習" の取り組み
"マルチメディア機械学習"  の取り組み"マルチメディア機械学習"  の取り組み
"マルチメディア機械学習" の取り組みcyberagent
 
推薦アルゴリズムの今までとこれから
推薦アルゴリズムの今までとこれから推薦アルゴリズムの今までとこれから
推薦アルゴリズムの今までとこれからcyberagent
 
サイバージェント 秋葉原ラボのHBase 活用事例
サイバージェント 秋葉原ラボのHBase 活用事例サイバージェント 秋葉原ラボのHBase 活用事例
サイバージェント 秋葉原ラボのHBase 活用事例cyberagent
 
Presto on YARNの導入・運用
Presto on YARNの導入・運用Presto on YARNの導入・運用
Presto on YARNの導入・運用cyberagent
 

Plus de cyberagent (20)

WebにおけるHuman Dynamics 武内慎
WebにおけるHuman Dynamics    武内慎WebにおけるHuman Dynamics    武内慎
WebにおけるHuman Dynamics 武内慎
 
Webと経済学 數見拓朗
Webと経済学    數見拓朗Webと経済学    數見拓朗
Webと経済学 數見拓朗
 
Data Engineering Meetup #1 持続可能なデータ基盤のためのデータの多様性に対する取り組み
Data Engineering Meetup #1 持続可能なデータ基盤のためのデータの多様性に対する取り組みData Engineering Meetup #1 持続可能なデータ基盤のためのデータの多様性に対する取り組み
Data Engineering Meetup #1 持続可能なデータ基盤のためのデータの多様性に対する取り組み
 
継続的な開発スタイル AbemaTVのiOSアプリを週1でリリースしている話
継続的な開発スタイル AbemaTVのiOSアプリを週1でリリースしている話継続的な開発スタイル AbemaTVのiOSアプリを週1でリリースしている話
継続的な開発スタイル AbemaTVのiOSアプリを週1でリリースしている話
 
AbemaTVにおける推薦システム
AbemaTVにおける推薦システムAbemaTVにおける推薦システム
AbemaTVにおける推薦システム
 
AbemaTV レコメンド開発エンジニアによる RecSys 2018 参加レポート
AbemaTV レコメンド開発エンジニアによる RecSys 2018 参加レポートAbemaTV レコメンド開発エンジニアによる RecSys 2018 参加レポート
AbemaTV レコメンド開発エンジニアによる RecSys 2018 参加レポート
 
機械学習エンジニアを見せたAWSの再:発明とは? 〜re:Invent 2018 参加レポート〜
機械学習エンジニアを見せたAWSの再:発明とは? 〜re:Invent 2018 参加レポート〜機械学習エンジニアを見せたAWSの再:発明とは? 〜re:Invent 2018 参加レポート〜
機械学習エンジニアを見せたAWSの再:発明とは? 〜re:Invent 2018 参加レポート〜
 
インターネットテレビ局「AbemaTV」プロダクトの変遷
インターネットテレビ局「AbemaTV」プロダクトの変遷インターネットテレビ局「AbemaTV」プロダクトの変遷
インターネットテレビ局「AbemaTV」プロダクトの変遷
 
番組宣伝に関するAbemaTV分析事例の紹介
番組宣伝に関するAbemaTV分析事例の紹介番組宣伝に関するAbemaTV分析事例の紹介
番組宣伝に関するAbemaTV分析事例の紹介
 
WWW2018 論文読み会  Webと経済学
 WWW2018 論文読み会  Webと経済学 WWW2018 論文読み会  Webと経済学
WWW2018 論文読み会  Webと経済学
 
WWW2018 論文読み会 Web Search and Mining
WWW2018 論文読み会 Web Search and MiningWWW2018 論文読み会 Web Search and Mining
WWW2018 論文読み会 Web Search and Mining
 
サイバーエージェントの機械学習エンジニアが体験したGoogle I/O 2018
サイバーエージェントの機械学習エンジニアが体験したGoogle I/O 2018サイバーエージェントの機械学習エンジニアが体験したGoogle I/O 2018
サイバーエージェントの機械学習エンジニアが体験したGoogle I/O 2018
 
ログ解析基盤におけるストリーム処理パイプラインについて
ログ解析基盤におけるストリーム処理パイプラインについてログ解析基盤におけるストリーム処理パイプラインについて
ログ解析基盤におけるストリーム処理パイプラインについて
 
Orion an integrated multimedia content moderation system for web services
Orion  an integrated multimedia content moderation system for web servicesOrion  an integrated multimedia content moderation system for web services
Orion an integrated multimedia content moderation system for web services
 
Orion an integrated multimedia content moderation system for web services
Orion  an integrated multimedia content moderation system for web servicesOrion  an integrated multimedia content moderation system for web services
Orion an integrated multimedia content moderation system for web services
 
「これ危ない設定じゃないでしょうか」とヒアリングするための仕組み @AWS Summit Tokyo 2018
「これ危ない設定じゃないでしょうか」とヒアリングするための仕組み @AWS Summit Tokyo 2018「これ危ない設定じゃないでしょうか」とヒアリングするための仕組み @AWS Summit Tokyo 2018
「これ危ない設定じゃないでしょうか」とヒアリングするための仕組み @AWS Summit Tokyo 2018
 
"マルチメディア機械学習" の取り組み
"マルチメディア機械学習"  の取り組み"マルチメディア機械学習"  の取り組み
"マルチメディア機械学習" の取り組み
 
推薦アルゴリズムの今までとこれから
推薦アルゴリズムの今までとこれから推薦アルゴリズムの今までとこれから
推薦アルゴリズムの今までとこれから
 
サイバージェント 秋葉原ラボのHBase 活用事例
サイバージェント 秋葉原ラボのHBase 活用事例サイバージェント 秋葉原ラボのHBase 活用事例
サイバージェント 秋葉原ラボのHBase 活用事例
 
Presto on YARNの導入・運用
Presto on YARNの導入・運用Presto on YARNの導入・運用
Presto on YARNの導入・運用
 

WWW2018 論文読み会 WebにおけるHuman Dynamics