テキストからのSNSユーザ位置推定手法と活用事例紹介

@arieee0
2015/03/21
1
テキストからのSNSユーザ
位置推定手法と活用事例紹介
∼twitterはエリアマーケティングに有効か∼
第44回 Tokyo Webmining

/39
自己紹介
2
@arieee0 「あり」
修士：データマイニング・自然言語処理
今後：春からEC企業でデータ分析職
データいじり（分析）が好き！
ex. 趣味で自分のデータを解析している
起床・就寝時刻，勉強時間，集中度，体重，英語勉強…
28項目を2年間記録し続けている

/39
自分のデータ分析
3
!10$
0$
10$
20$
30$
40$
50$
2/20$
2/27$
3/5$
3/12$
3/19$
3/26$
4/2$
4/9$
4/16$
4/23$
4/30$
5/7$
5/14$
5/21$
5/28$
6/4$
6/11$
6/18$
6/25$
7/2$
7/9$
7/16$
7/23$
7/30$
8/6$
8/13$
8/20$
8/27$
9/3$
9/10$
9/17$
9/24$
春休みの
寝不足・勉強不足
研究室配属
学会論文提出
夏休み…
院試
sensprout
一日の評価関数を作って，一日の頑張りを可視化したり
こういうグラフを見ると幸せな気持ちに

/39
アウトライン
4
←詳しい部分
←素人
ビジネス上での応用（使えそう or ここが問題 etc.）
はぜひ議論させてください！
• 従来のエリアマーケティング
• twitterを用いたエリアマーケティング事例
• twitterエリアマーケティングにおける基礎技術
‣ ユーザの属性推定
‣ ユーザの位置推定

/39
従来のエリアマーケティング
統計情報 (人口・年代構成など)をベースに地域の特性
を理解し，地域に基づいたアクションを取る
5
例：コンビニ出店場所計画
半径750mの商圏内に競合店舗が
なく，20-40代の人口が3000人
以上の地域を探索
他のアクション例としては，店舗サービス改良，地域限定
商品開発，観光施策，不動産活用など

/39
統計情報を用いた従来の
エリアマーケティングの利点・欠点
6
✔ 地域・人口カバー率，情報の正確性
✘ 人々の移動・滞在情報
ex. 渋谷に買い物に来る人の特徴は？
✘ リアルタイム性
ex. 今年上野公園へお花見に来ている人の特徴は？

7
モバイル位置情報データの利用
そこで、、

/39
様々な位置情報データ
8
• 携帯電話会社が提供するユーザ位置情報
• ナビアプリ等から取得するユーザ位置情報
• SNSの位置情報付き投稿を利用

/39
ex. モバイル空間統計 (docomo)
• 全年代・地域をほぼカバー
• 500m-1kmメッシュの現在地データ
• 契約情報と照合させた信頼度の高いユーザ属性データ
良質データ！しかし，，
* http://www.docomo.biz/html/service/spatial_statistics/

/39
10
ex. google Now，NAVITIME for Japan
✔ アプリ内のユーザ設定等を活用して属性取得可
✘ 本来の目的外でデータを利用したり，他者に提供するのは
ユーザにメリットがなければ厳しい (必然的に自社アプリ)
✘ ある程度の規模のサービスでないとデータが十分収集で
きない

/3911
ex. Twitterのgeotag (緯度経度情報)付きツイート
✔ オープンデータで誰でも利用
✔ 投稿からユーザの趣味嗜好などを推定できる
✔ 口コミ情報を取得できる
もっと活用されてもよい位置情報データ？

/39
アウトライン
12

/39
エリアマーケティング情報提供会社
例: 株式会社ナイトレイ
13
横浜市観光イベント分析，野外音楽フェスのイベント効果分析，
商業施設の店舗開発，都市計画の意思決定のサポート
• SNS投稿データ(twitter, foursquare?)
を元にした，メッシュ単位 (250m )
ごとに訪れているユーザ情報・口コミ
情報を提供
• 休日平日＆時間別集計
• カテゴリ別 (食事，買い物，旅行)集計
• 属性解析（性別，年齢，趣味嗜好）* http://nightley.jp/
適用事例
提供データ

/3914*ＳＮＳ等を利用した訪日外国人の意識分析報告書（平成２６年度）[観光庁]
訪日外国人への有効な観光施策の策定を目的に，
twitter投稿から訪日外国人の興味関心を調査
twitter
処理フロー
日本に関連する
英語tweetの抽出
(134万人)
訪日に関するtweetを抽出
(GPS:0.4万人, 写真:2.4万人)
分析
事例1: 観光庁とNTTデータによる
訪日外国人観光客の意識分析

twitter
処理フロー
分析
抽出条件：日本の地名（都道府県・主要都市）を含む
(134万人)

twitter
処理フロー
分析
抽出条件：日本国内の緯度経度付き or 写真付き
(134万人)

twitter
処理フロー
分析
場所ごとに共起しやすい単語や，「食べる」「見る」
などと関連が深い単語ランキングなどを調査
(134万人)

/39
調査結果（エリアごとの単語ランキング）
18
tweet人数割合単語
122 19.7% crossing
84 13.5% night
16 19.7% anime
10 13.5% superpotato
10 10.8% maidcafe
30 12.0% night
22 8.8% gyoen
- - -
14 5.6% robotrestaurant
渋谷 (来訪者:620人) 秋葉原 (来訪者:93人)
新宿 (来訪者:249人)
スクランブル交差点
レトロゲーム店, メイドカフェ

/39
事例2: 筆者による秩父観光客の調査実験
19
あの花！*
*あの日見た花の名前を僕達はまだ知らない
(2011年春に放送された秩父が舞台のいわゆるご当地アニメ)
秩父といえばもちろん，，，

/3920
• twitter投稿を用いてご当地アニメの影響度の可視化を試みる
• リアルタイムな集計によりアニメの放映期間と秩父訪問者数と
の連動を調査
• 集計はアニメを見て観光に訪れた聖地巡礼者か一般の観光客か
をユーザの投稿内容を見て判定し，分別して行う
事例2: 筆者による秩父観光客の調査実験
概要

/39
処理フロー
21
ツイート中に以下のいずれかの表現を含む
1. [秩父の地名リスト] なう
2. I m at [秩父の地名リスト]
3. [秩父の地名リスト] （に・へ・まで）[来
た・到着した・着いた・いる etc.]
4. 秩父市内の緯度経度付きgeotagデータ
アニメに関するキーワード・ハッシュタグを1回以上投稿
「あの花」「じんたん」「#anohana」等
秩父を訪問したかどうかの判定
（秩父訪問前に）アニメを視聴したかどうかの判定
twitter
時系列
で集計

/39
結果
22
0%#
10%#
20%#
30%#
40%#
50%#
60%#
70%#
80%#
90%#
100%#
0#
200#
400#
600#
800#
1000#
1200#
1400#
2011/4/1#2011/6/1#2011/8/1#
2011/10/1#
2011/12/1#2012/2/1#2012/4/1#2012/6/1#2012/8/1#
2012/10/1#
2012/12/1#2013/2/1#2013/4/1#2013/6/1#2013/8/1#
2013/10/1#
2013/12/1#

(7 )#
(7 )#

(30 )#
TV放映期間劇場版公開
巡礼者の割合:徐々に低下
TV放映期間後，徐々に巡礼者の割合は減少
劇場版公開を前後して再び増加

/39
アウトライン
23

/39
エリアマーケティングに用いる場合における
twitter投稿データの問題点
24
-> ユーザの投稿内容から属性・位置を推定しよう
ユーザ属性情報がわからないことが多い
• プロフィールに年齢や性別を記入しているユーザは少ない
ユーザの位置情報付きのツイートもとても少ない
• 全体の0.3%ほど

/39
属性・位置（居住地/現在地）推定方法
25
ルールベース
機械学習ベース
一人称が「俺」-> 男
終助詞が「わ」「の」-> 女
正解データを用意して，学習・推定する
性別:
位置: 地名辞典とのパターンマッチ
地名 + < なう/ (に) いる > など

/39
属性・位置（居住地・現在地）推定共通の
基本的流れ[機械学習ベース]
26
1. 正解データを用意する
• 人手でアノテーションして作る（！）
‣ SVMで2値分類を行う際は，正例・負例ともに200件
あれば十分な精度が得られる [ + 14]
• プロフィールやリストなどから自動的に判断し収集する
‣ 男子，おやじ， ○○歳，会社員など属性情報が
プロフィールや被リスト名に含まれるユーザを自動収集
• 位置推定の場合，geotag付きツイートを正解データとして
流用できる

/3927
2. 分類問題として学習・推定を行う
性別: 男，女の2値分類
年代: 10代,20代,30代,40代の4クラス分類
職業: 「会社員」「それ以外」の2値分類，
「専業主婦」「それ以外」の2値分類…を繰り返す
位置: 47都道府県の47クラス分類，メッシュ単位で分類
次スライド以降ではこの中から位置推定に着目し，
基本的な論文を引用しながら具体的な手順について述べます
属性・位置（居住地・現在地）推定共通の
基本的流れ[機械学習ベース]
属性のクラス分割の一例

[Wing
&
Baldridge,
ACL
2011]
Simple
supervised
document

geoloca?on
with
geodesic
grids
28

/3929
✔緯度経度の間隔 (0.1 10 )
を開発データで適用
概要
地球の緯度経度で地域を分割し，位置情報付きツイートで
学習を行い，世界の英語使用者の居住地予測を行った研究
✔セルの中心点をユーザの位置
として推定
✔Bag of Wordsを素性に利用

/3930
手法
緯度経度により分割された地域 (セル) セルごとに文書 (BoW)を学習
位置情報付きツイートを
学習に利用

/3931
Retrieval
from

which
cell?
手法
位置情報が付いていないツイート

/3932
represen6ng
point
位置情報が付いていないツイート
Retrieval
セルを決定し，ユーザ位置
を推定 (セルの中心地)
手法

/3933
Fine Coarse
地域分割における難しさ
✔ 推定地域が細かい
✘ 推定地域が粗い✘ 訓練データがスパース
✔ 訓練データが豊富
開発データで最適なグリッド間隔(0.1 10 )を
決定している

/39
Simple
Supervised
Model
34
1.
KL-‐divergence
(論文中で最も良い結果)
2.
Naive
Bayes
User

word
distribu6on
Cell

word
distribu6on
ユーザとセルの単語分布間の類似性を計算
最も類似しているセルを選択

/39
Experiment
35
Data
Metrics
Evalua6on
予測位置と実際の位置との誤差距離 [km]
アメリカ本土内の9500ユーザから収集した38万件の
位置情報付きツイート
80 / 10 / 10 ロウンドロビン方式 (train,dev,test)

/39
Result
36
TwiHer
間隔
[°] 誤差中央値距離[km]
KL-‐divergence 5 479
Naive
Bayes 5 528
Cell
prior
maximum 0.1 726
Random 0.1 1217
proposed
baseline
ベースラインよりは良い精度だが
誤差中央値距離は479kmとかなり大きい

/39
cf. 筆者の研究結果
37
日本国内の日本語位置情報付きツイートデータ (約690万件)を
用いて，行政区分レベルで現在位置推定
(注意)データと推定粒度(居住地/現在地)が違うので先ほどの研究と単純な比較はできません．
分類精度の感覚をつかんでいただけたらと思います．
推定レベルラベル数分類精度[%] 誤差中央値距離[km]
都道府県 47 52.0 24.9
市区 962 20.2 52.5
(*) 過去の投稿を活用したマイクロブログユーザの現在位置推定[鈴木+ 15]

/39
この基本形からの涙ぐましい種々の工夫たち
そして位置推定の闇の世界へ…
38
adap?ve
grid
[Roller+
‘12]
訓練データ数を均等に分けるために
地域区分を適応的に変更
tweet
genera?ve
model

[Hong+
‘12]
ツイート生成
モデルを構築
潜在変数とし
て地域を推定
過去の投稿内容や
係り受け関係にある動詞等
を素性として利用
[鈴木+ 15]
興味がある方は懇親会中にでも！

/39
まとめ
• 投稿からユーザの趣味嗜好などの情報を得られる
twitterを用いたエリアマーケティングは有用
• 現状では観光施策などを中心に用いられている模様
• 属性などの情報や位置情報の不足は機械学習によっ
て部分的に推定することができる
39
ビジネス面，手法面等のさまざまな意見をお待ちして
おります！

テキストからのSNSユーザ位置推定手法と活用事例紹介

Recommandé

Recommandé

Contenu connexe

En vedette

En vedette (20)

Similaire à テキストからのSNSユーザ位置推定手法と活用事例紹介

Similaire à テキストからのSNSユーザ位置推定手法と活用事例紹介 (12)

テキストからのSNSユーザ位置推定手法と活用事例紹介