Ce diaporama a bien été signalé.
Nous utilisons votre profil LinkedIn et vos données d’activité pour vous proposer des publicités personnalisées et pertinentes. Vous pouvez changer vos préférences de publicités à tout moment.

テキストからのSNSユーザ位置推定手法と活用事例紹介

6 447 vues

Publié le

テキストからのSNSユーザ位置推定手法と活用事例紹介
〜twitterはエリアマーケティングに有効か〜

Publié dans : Ingénierie
  • Soyez le premier à commenter

テキストからのSNSユーザ位置推定手法と活用事例紹介

  1. 1. @arieee0 2015/03/21 1 テキストからのSNSユーザ 位置推定手法と活用事例紹介 ∼twitterはエリアマーケティングに有効か∼ 第44回 Tokyo Webmining
  2. 2. /39 自己紹介 2 @arieee0 「あり」 修士:データマイニング・自然言語処理 今後:春からEC企業でデータ分析職 データいじり( 分析)が好き! ex. 趣味で自分のデータを解析している 起床・就寝時刻,勉強時間,集中度,体重,英語勉強… 28項目を2年間記録し続けている
  3. 3. /39 自分のデータ分析 3 !10$ 0$ 10$ 20$ 30$ 40$ 50$ 2/20$ 2/27$ 3/5$ 3/12$ 3/19$ 3/26$ 4/2$ 4/9$ 4/16$ 4/23$ 4/30$ 5/7$ 5/14$ 5/21$ 5/28$ 6/4$ 6/11$ 6/18$ 6/25$ 7/2$ 7/9$ 7/16$ 7/23$ 7/30$ 8/6$ 8/13$ 8/20$ 8/27$ 9/3$ 9/10$ 9/17$ 9/24$ 春休みの 寝不足・勉強不足 研究室配属 学会論文提出 夏休み… 院試 sensprout 一日の評価関数を作って,一日の頑張りを可視化したり こういうグラフを見ると幸せな気持ちに
  4. 4. /39 アウトライン 4 ←詳しい部分 ←素人 ビジネス上での応用(使えそう or ここが問題 etc.) はぜひ議論させてください! • 従来のエリアマーケティング • twitterを用いたエリアマーケティング事例 • twitterエリアマーケティングにおける基礎技術 ‣ ユーザの属性推定 ‣ ユーザの位置推定
  5. 5. /39 従来のエリアマーケティング 統計情報 (人口・年代構成など)をベースに地域の特性 を理解し,地域に基づいたアクションを取る 5 例:コンビニ出店場所計画 半径750mの商圏内に競合店舗が なく,20-40代の人口が3000人 以上の地域を探索 他のアクション例としては,店舗サービス改良,地域限定 商品開発,観光施策,不動産活用など
  6. 6. /39 統計情報を用いた従来の エリアマーケティングの利点・欠点 6 ✔ 地域・人口カバー率,情報の正確性 ✘ 人々の移動・滞在情報 ex. 渋谷に買い物に来る人の特徴は? ✘ リアルタイム性 ex. 今年上野公園へお花見に来ている人の特徴は?
  7. 7. 7 モバイル位置情報データの利用 そこで、、
  8. 8. /39 様々な位置情報データ 8 • 携帯電話会社が提供するユーザ位置情報 • ナビアプリ等から取得するユーザ位置情報 • SNSの位置情報付き投稿を利用
  9. 9. /39 • 携帯電話会社が提供するユーザ位置情報 • ナビアプリ等から取得するユーザ位置情報 • SNSの位置情報付き投稿を利用 ex. モバイル空間統計 (docomo) • 全年代・地域をほぼカバー • 500m-1kmメッシュの現在地データ • 契約情報と照合させた信頼度の高いユーザ属性データ 良質データ!しかし,, * http://www.docomo.biz/html/service/spatial_statistics/ 様々な位置情報データ
  10. 10. /39 • 携帯電話会社が提供するユーザ位置情報 • ナビアプリ等から取得するユーザ位置情報 • SNSの位置情報付き投稿を利用 10 ex. google Now,NAVITIME for Japan ✔ アプリ内のユーザ設定等を活用して属性取得可 ✘ 本来の目的外でデータを利用したり,他者に提供するのは ユーザにメリットがなければ厳しい (必然的に自社アプリ) ✘ ある程度の規模のサービスでないとデータが十分収集で きない 様々な位置情報データ
  11. 11. /3911 ex. Twitterのgeotag (緯度経度情報)付きツイート ✔ オープンデータで誰でも利用 ✔ 投稿からユーザの趣味嗜好などを推定できる ✔ 口コミ情報を取得できる もっと活用されてもよい位置情報データ? 様々な位置情報データ • 携帯電話会社が提供するユーザ位置情報 • ナビアプリ等から取得するユーザ位置情報 • SNSの位置情報付き投稿を利用
  12. 12. /39 アウトライン • 従来のエリアマーケティング • twitterを用いたエリアマーケティング事例 • twitterエリアマーケティングにおける基礎技術 ‣ ユーザの属性推定 ‣ ユーザの位置推定 12
  13. 13. /39 エリアマーケティング情報提供会社 例: 株式会社ナイトレイ 13 横浜市観光イベント分析,野外音楽フェスのイベント効果分析, 商業施設の店舗開発,都市計画の意思決定のサポート • SNS投稿データ(twitter, foursquare?) を元にした,メッシュ単位 (250m ) ごとに訪れているユーザ情報・口コミ 情報を提供 • 休日平日&時間別集計 • カテゴリ別 (食事,買い物,旅行)集計 • 属性解析(性別,年齢,趣味嗜好)* http://nightley.jp/ 適用事例 提供データ
  14. 14. /3914*SNS等を利用した訪日外国人の意識分析 報告書(平成26年度)[観光庁] 訪日外国人への有効な観光施策の策定を目的に, twitter投稿から訪日外国人の興味関心を調査 twitter 処理フロー 日本に関連する 英語tweetの抽出 (134万人) 訪日に関するtweetを抽出 (GPS:0.4万人, 写真:2.4万人) 分析 事例1: 観光庁とNTTデータによる 訪日外国人観光客の意識分析
  15. 15. /3915*SNS等を利用した訪日外国人の意識分析 報告書(平成26年度)[観光庁] 訪日外国人への有効な観光施策の策定を目的に, twitter投稿から訪日外国人の興味関心を調査 twitter 処理フロー 訪日に関するtweetを抽出 (GPS:0.4万人, 写真:2.4万人) 分析 抽出条件:日本の地名(都道府県・主要都市)を含む 事例1: 観光庁とNTTデータによる 訪日外国人観光客の意識分析 日本に関連する 英語tweetの抽出 (134万人)
  16. 16. /3916*SNS等を利用した訪日外国人の意識分析 報告書(平成26年度)[観光庁] 訪日外国人への有効な観光施策の策定を目的に, twitter投稿から訪日外国人の興味関心を調査 twitter 処理フロー 訪日に関するtweetを抽出 (GPS:0.4万人, 写真:2.4万人) 分析 抽出条件:日本国内の緯度経度付き or 写真付き 事例1: 観光庁とNTTデータによる 訪日外国人観光客の意識分析 日本に関連する 英語tweetの抽出 (134万人)
  17. 17. /3917*SNS等を利用した訪日外国人の意識分析 報告書(平成26年度)[観光庁] 訪日外国人への有効な観光施策の策定を目的に, twitter投稿から訪日外国人の興味関心を調査 twitter 処理フロー 訪日に関するtweetを抽出 (GPS:0.4万人, 写真:2.4万人) 分析 場所ごとに共起しやすい単語や,「食べる」「見る」 などと関連が深い単語ランキングなどを調査 事例1: 観光庁とNTTデータによる 訪日外国人観光客の意識分析 日本に関連する 英語tweetの抽出 (134万人)
  18. 18. /39 調査結果(エリアごとの単語ランキング) 18 tweet人数 割合 単語 122 19.7% crossing 84 13.5% night tweet人数 割合 単語 16 19.7% anime 10 13.5% superpotato 10 10.8% maidcafe tweet人数 割合 単語 30 12.0% night 22 8.8% gyoen - - - 14 5.6% robotrestaurant 渋谷 (来訪者:620人) 秋葉原 (来訪者:93人) 新宿 (来訪者:249人) スクランブル交差点 レトロゲーム店, メイドカフェ
  19. 19. /39 事例2: 筆者による秩父観光客の調査実験 19 あの花!* *あの日見た花の名前を僕達はまだ知らない (2011年春に放送された秩父が舞台のいわゆるご当地アニメ) 秩父といえばもちろん,,,
  20. 20. /3920 • twitter投稿を用いてご当地アニメの影響度の可視化を試みる • リアルタイムな集計によりアニメの放映期間と秩父訪問者数と の連動を調査 • 集計はアニメを見て観光に訪れた聖地巡礼者か一般の観光客か をユーザの投稿内容を見て判定し,分別して行う 事例2: 筆者による秩父観光客の調査実験 概要
  21. 21. /39 処理フロー 21 ツイート中に以下のいずれかの表現を含む 1. [秩父の地名リスト] なう 2. I m at [秩父の地名リスト] 3. [秩父の地名リスト] (に・へ・まで)[来 た・到着した・着いた・いる etc.] 4. 秩父市内の緯度経度付きgeotagデータ アニメに関するキーワード・ハッシュタグを1回以上投稿 「あの花」「じんたん」「#anohana」等 秩父を訪問したかどうかの判定 (秩父訪問前に)アニメを視聴したかどうかの判定 twitter 時系列 で集計
  22. 22. /39 結果 22 0%# 10%# 20%# 30%# 40%# 50%# 60%# 70%# 80%# 90%# 100%# 0# 200# 400# 600# 800# 1000# 1200# 1400# 2011/4/1#2011/6/1#2011/8/1# 2011/10/1# 2011/12/1#2012/2/1#2012/4/1#2012/6/1#2012/8/1# 2012/10/1# 2012/12/1#2013/2/1#2013/4/1#2013/6/1#2013/8/1# 2013/10/1# 2013/12/1# (7 )# (7 )# (30 )# TV放映期間 劇場版公開 巡礼者の割合:徐々に低下 TV放映期間後,徐々に巡礼者の割合は減少 劇場版公開を前後して再び増加
  23. 23. /39 アウトライン • 従来のエリアマーケティング • twitterを用いたエリアマーケティング事例 • twitterエリアマーケティングにおける基礎技術 ‣ ユーザの属性推定 ‣ ユーザの位置推定 23
  24. 24. /39 エリアマーケティングに用いる場合における twitter投稿データの問題点 24 -> ユーザの投稿内容から属性・位置を推定しよう ユーザ属性情報がわからないことが多い • プロフィールに年齢や性別を記入しているユーザは少ない ユーザの位置情報付きのツイートもとても少ない • 全体の0.3%ほど
  25. 25. /39 属性・位置(居住地/現在地)推定方法 25 ルールベース 機械学習ベース 一人称が「俺」-> 男 終助詞が「わ」「の」-> 女 正解データを用意して,学習・推定する 性別: 位置: 地名辞典とのパターンマッチ 地名 + < なう/ (に) いる > など
  26. 26. /39 属性・位置(居住地・現在地)推定共通の 基本的流れ[機械学習ベース] 26 1. 正解データを用意する • 人手でアノテーションして作る(!) ‣ SVMで2値分類を行う際は,正例・負例ともに200件 あれば十分な精度が得られる [ + 14] • プロフィールやリストなどから自動的に判断し収集する ‣ 男子 , おやじ , ○○歳 , 会社員 など属性情報が プロフィールや被リスト名に含まれるユーザを自動収集 • 位置推定の場合,geotag付きツイートを正解データとして 流用できる
  27. 27. /3927 2. 分類問題として学習・推定を行う 性別: 男,女の2値分類 年代: 10代,20代,30代,40代の4クラス分類 職業: 「会社員」「それ以外」の2値分類, 「専業主婦」「それ以外」の2値分類…を繰り返す 位置: 47都道府県の47クラス分類,メッシュ単位で分類 次スライド以降ではこの中から位置推定に着目し, 基本的な論文を引用しながら具体的な手順について述べます 属性・位置(居住地・現在地)推定共通の 基本的流れ[機械学習ベース] 属性のクラス分割の一例
  28. 28. [Wing  &  Baldridge,  ACL  2011] Simple  supervised  document   geoloca?on  with  geodesic  grids 28
  29. 29. /3929 ✔緯度経度の間隔 (0.1 10 ) を開発データで適用 概要 地球の緯度経度で地域を分割し,位置情報付きツイートで 学習を行い,世界の英語使用者の居住地予測を行った研究 ✔セルの中心点をユーザの位置 として推定 ✔Bag of Wordsを素性に利用
  30. 30. /3930 手法 緯度経度により分割された地域 (セル) セルごとに文書 (BoW)を学習 位置情報付きツイートを 学習に利用
  31. 31. /3931 Retrieval from   which  cell? 手法 位置情報が付いていないツイート
  32. 32. /3932 represen6ng  point 位置情報が付いていないツイート Retrieval セルを決定し,ユーザ位置 を推定 (セルの中心地) 手法
  33. 33. /3933 Fine Coarse 地域分割における難しさ ✔ 推定地域が細かい ✘ 推定地域が粗い✘ 訓練データがスパース ✔ 訓練データが豊富 開発データで最適なグリッド間隔(0.1 10 )を 決定している
  34. 34. /39 Simple  Supervised  Model 34 1.  KL-­‐divergence  (論文中で最も良い結果) 2.  Naive  Bayes User   word  distribu6on Cell   word  distribu6on ユーザとセルの単語分布間の類似性を計算 最も類似しているセルを選択
  35. 35. /39 Experiment 35 Data Metrics Evalua6on 予測位置と実際の位置との誤差距離 [km] アメリカ本土内の9500ユーザから収集した38万件の 位置情報付きツイート 80 / 10 / 10 ロウンドロビン方式 (train,dev,test)
  36. 36. /39 Result 36 TwiHer 間隔  [°] 誤差中央値距離[km] KL-­‐divergence 5 479 Naive  Bayes 5 528 Cell  prior  maximum 0.1 726 Random 0.1 1217 proposed baseline ベースラインよりは良い精度だが 誤差中央値距離は479kmとかなり大きい
  37. 37. /39 cf. 筆者の研究結果 37 日本国内の日本語位置情報付きツイートデータ (約690万件)を 用いて,行政区分レベルで現在位置推定 (注意)データと推定粒度(居住地/現在地)が違うので先ほどの研究と単純な比較はできません. 分類精度の感覚をつかんでいただけたらと思います. 推定レベル ラベル数 分類精度[%] 誤差中央値距離[km] 都道府県 47 52.0 24.9 市区 962 20.2 52.5 (*) 過去の投稿を活用したマイクロブログユーザの現在位置推定[鈴木+ 15]
  38. 38. /39 この基本形からの涙ぐましい種々の工夫たち そして位置推定の闇の世界へ… 38 adap?ve  grid  [Roller+  ‘12] 訓練データ数を均等に分けるために 地域区分を適応的に変更 tweet  genera?ve  model    [Hong+  ‘12] ツイート生成 モデルを構築 潜在変数とし て地域を推定 過去の投稿内容や 係り受け関係にある動詞等 を素性として利用 [鈴木+ 15] 興味がある方は懇親会中にでも!
  39. 39. /39 まとめ • 投稿からユーザの趣味嗜好などの情報を得られる twitterを用いたエリアマーケティングは有用 • 現状では観光施策などを中心に用いられている模様 • 属性などの情報や位置情報の不足は機械学習によっ て部分的に推定することができる 39 ビジネス面,手法面等のさまざまな意見をお待ちして おります!

×