Soumettre la recherche
Mettre en ligne
テキストからのSNSユーザ位置推定手法と活用事例紹介
•
27 j'aime
•
9,287 vues
Yu Suzuki
Suivre
テキストからのSNSユーザ位置推定手法と活用事例紹介 〜twitterはエリアマーケティングに有効か〜
Lire moins
Lire la suite
Ingénierie
Signaler
Partager
Signaler
Partager
1 sur 39
Télécharger maintenant
Télécharger pour lire hors ligne
Recommandé
将来どうなるかを予測しながら作るマーケティングモデル
将来どうなるかを予測しながら作るマーケティングモデル
Takatsugu Kobayashi
オープニングトーク - 創設の思い・目的・進行方針 -データマイニング+WEB勉強会@東京
オープニングトーク - 創設の思い・目的・進行方針 -データマイニング+WEB勉強会@東京
Koichi Hamada
Big Data University Tokyo Meetup #6 (mlwith_spark) 配布資料
Big Data University Tokyo Meetup #6 (mlwith_spark) 配布資料
Atsushi Tsuchiya
とりあえずTwitterで日本語を集めてみよう
とりあえずTwitterで日本語を集めてみよう
s_wool
Permissioned ledger の基本
Permissioned ledger の基本
Tetsuyuki Oishi
Online User Location Inference Exploiting Spatiotemporal Correlations in Soci...
Online User Location Inference Exploiting Spatiotemporal Correlations in Soci...
Yuto Yamaguchi
[JAWS-UG AI支部] AWS AIアップデート
[JAWS-UG AI支部] AWS AIアップデート
Yasuhiro Matsuo
遺伝的アルゴリズム(Genetic Algorithm)を始めよう!
遺伝的アルゴリズム(Genetic Algorithm)を始めよう!
Kazuhide Okamura
Recommandé
将来どうなるかを予測しながら作るマーケティングモデル
将来どうなるかを予測しながら作るマーケティングモデル
Takatsugu Kobayashi
オープニングトーク - 創設の思い・目的・進行方針 -データマイニング+WEB勉強会@東京
オープニングトーク - 創設の思い・目的・進行方針 -データマイニング+WEB勉強会@東京
Koichi Hamada
Big Data University Tokyo Meetup #6 (mlwith_spark) 配布資料
Big Data University Tokyo Meetup #6 (mlwith_spark) 配布資料
Atsushi Tsuchiya
とりあえずTwitterで日本語を集めてみよう
とりあえずTwitterで日本語を集めてみよう
s_wool
Permissioned ledger の基本
Permissioned ledger の基本
Tetsuyuki Oishi
Online User Location Inference Exploiting Spatiotemporal Correlations in Soci...
Online User Location Inference Exploiting Spatiotemporal Correlations in Soci...
Yuto Yamaguchi
[JAWS-UG AI支部] AWS AIアップデート
[JAWS-UG AI支部] AWS AIアップデート
Yasuhiro Matsuo
遺伝的アルゴリズム(Genetic Algorithm)を始めよう!
遺伝的アルゴリズム(Genetic Algorithm)を始めよう!
Kazuhide Okamura
できる!遺伝的アルゴリズム
できる!遺伝的アルゴリズム
Maehana Tsuyoshi
これからの時代に! パソコン離れの中のパソコン選び
これからの時代に! パソコン離れの中のパソコン選び
teapipin
Spark MLlibではじめるスケーラブルな機械学習
Spark MLlibではじめるスケーラブルな機械学習
NTT DATA OSS Professional Services
アンカンファレンス @ 第50回 データマイニング+WEB @東京
アンカンファレンス @ 第50回 データマイニング+WEB @東京
Izumi Akiyama
イノベーション創発に資する人工知能基盤技術の創出と統合化
イノベーション創発に資する人工知能基盤技術の創出と統合化
Osaka University
人工知能Xファッション最前線
人工知能Xファッション最前線
Kazuki Baba
20161029 TVI Tokyowebmining Seminar for Share
20161029 TVI Tokyowebmining Seminar for Share
Yasushi Gunya
Sano tokyowebmining 201625_v04
Sano tokyowebmining 201625_v04
Masakazu Sano
Presto - Hadoop Conference Japan 2014
Presto - Hadoop Conference Japan 2014
Sadayuki Furuhashi
機械学習による積極的失業〜オウンドメディアの訪問予測
機械学習による積極的失業〜オウンドメディアの訪問予測
Teruyuki Sakaue
レコメンド研究のあれこれ
レコメンド研究のあれこれ
Masahiro Sato
計量経済学と 機械学習の交差点入り口 (公開用)
計量経済学と 機械学習の交差点入り口 (公開用)
Shota Yasui
Tokyo Webmining Talk1
Tokyo Webmining Talk1
Kenta Oono
VAE-type Deep Generative Models
VAE-type Deep Generative Models
Kenta Oono
物体認識 IoT サービスを支える技術 〜クラウドアーキテクチャから組込み深層学習まで〜
物体認識 IoT サービスを支える技術 〜クラウドアーキテクチャから組込み深層学習まで〜
Takashi Kaneda
投資会社から見た人工知能(Ai)の事業化トレンド
投資会社から見た人工知能(Ai)の事業化トレンド
Osaka University
DeNAの機械学習・深層学習活用した体験提供の挑戦
DeNAの機械学習・深層学習活用した体験提供の挑戦
Koichi Hamada
PPACA: Staying Compliant & Strategic
PPACA: Staying Compliant & Strategic
CBIZ, Inc.
How to Help a Jamaican Come on Time - Time-Based Productivity via Psychology ...
How to Help a Jamaican Come on Time - Time-Based Productivity via Psychology ...
Francis Wade
Como submeter seu case - CONIP 2017
Como submeter seu case - CONIP 2017
Informa TI GOV
大学生のTwitter利用に関する定量分析―利用目的とサービス設計の関係―
大学生のTwitter利用に関する定量分析―利用目的とサービス設計の関係―
Hisao Soyama
イベント企画運営の経験と実際 / The history of organizing events by me
イベント企画運営の経験と実際 / The history of organizing events by me
whywaita
Contenu connexe
En vedette
できる!遺伝的アルゴリズム
できる!遺伝的アルゴリズム
Maehana Tsuyoshi
これからの時代に! パソコン離れの中のパソコン選び
これからの時代に! パソコン離れの中のパソコン選び
teapipin
Spark MLlibではじめるスケーラブルな機械学習
Spark MLlibではじめるスケーラブルな機械学習
NTT DATA OSS Professional Services
アンカンファレンス @ 第50回 データマイニング+WEB @東京
アンカンファレンス @ 第50回 データマイニング+WEB @東京
Izumi Akiyama
イノベーション創発に資する人工知能基盤技術の創出と統合化
イノベーション創発に資する人工知能基盤技術の創出と統合化
Osaka University
人工知能Xファッション最前線
人工知能Xファッション最前線
Kazuki Baba
20161029 TVI Tokyowebmining Seminar for Share
20161029 TVI Tokyowebmining Seminar for Share
Yasushi Gunya
Sano tokyowebmining 201625_v04
Sano tokyowebmining 201625_v04
Masakazu Sano
Presto - Hadoop Conference Japan 2014
Presto - Hadoop Conference Japan 2014
Sadayuki Furuhashi
機械学習による積極的失業〜オウンドメディアの訪問予測
機械学習による積極的失業〜オウンドメディアの訪問予測
Teruyuki Sakaue
レコメンド研究のあれこれ
レコメンド研究のあれこれ
Masahiro Sato
計量経済学と 機械学習の交差点入り口 (公開用)
計量経済学と 機械学習の交差点入り口 (公開用)
Shota Yasui
Tokyo Webmining Talk1
Tokyo Webmining Talk1
Kenta Oono
VAE-type Deep Generative Models
VAE-type Deep Generative Models
Kenta Oono
物体認識 IoT サービスを支える技術 〜クラウドアーキテクチャから組込み深層学習まで〜
物体認識 IoT サービスを支える技術 〜クラウドアーキテクチャから組込み深層学習まで〜
Takashi Kaneda
投資会社から見た人工知能(Ai)の事業化トレンド
投資会社から見た人工知能(Ai)の事業化トレンド
Osaka University
DeNAの機械学習・深層学習活用した体験提供の挑戦
DeNAの機械学習・深層学習活用した体験提供の挑戦
Koichi Hamada
PPACA: Staying Compliant & Strategic
PPACA: Staying Compliant & Strategic
CBIZ, Inc.
How to Help a Jamaican Come on Time - Time-Based Productivity via Psychology ...
How to Help a Jamaican Come on Time - Time-Based Productivity via Psychology ...
Francis Wade
Como submeter seu case - CONIP 2017
Como submeter seu case - CONIP 2017
Informa TI GOV
En vedette
(20)
できる!遺伝的アルゴリズム
できる!遺伝的アルゴリズム
これからの時代に! パソコン離れの中のパソコン選び
これからの時代に! パソコン離れの中のパソコン選び
Spark MLlibではじめるスケーラブルな機械学習
Spark MLlibではじめるスケーラブルな機械学習
アンカンファレンス @ 第50回 データマイニング+WEB @東京
アンカンファレンス @ 第50回 データマイニング+WEB @東京
イノベーション創発に資する人工知能基盤技術の創出と統合化
イノベーション創発に資する人工知能基盤技術の創出と統合化
人工知能Xファッション最前線
人工知能Xファッション最前線
20161029 TVI Tokyowebmining Seminar for Share
20161029 TVI Tokyowebmining Seminar for Share
Sano tokyowebmining 201625_v04
Sano tokyowebmining 201625_v04
Presto - Hadoop Conference Japan 2014
Presto - Hadoop Conference Japan 2014
機械学習による積極的失業〜オウンドメディアの訪問予測
機械学習による積極的失業〜オウンドメディアの訪問予測
レコメンド研究のあれこれ
レコメンド研究のあれこれ
計量経済学と 機械学習の交差点入り口 (公開用)
計量経済学と 機械学習の交差点入り口 (公開用)
Tokyo Webmining Talk1
Tokyo Webmining Talk1
VAE-type Deep Generative Models
VAE-type Deep Generative Models
物体認識 IoT サービスを支える技術 〜クラウドアーキテクチャから組込み深層学習まで〜
物体認識 IoT サービスを支える技術 〜クラウドアーキテクチャから組込み深層学習まで〜
投資会社から見た人工知能(Ai)の事業化トレンド
投資会社から見た人工知能(Ai)の事業化トレンド
DeNAの機械学習・深層学習活用した体験提供の挑戦
DeNAの機械学習・深層学習活用した体験提供の挑戦
PPACA: Staying Compliant & Strategic
PPACA: Staying Compliant & Strategic
How to Help a Jamaican Come on Time - Time-Based Productivity via Psychology ...
How to Help a Jamaican Come on Time - Time-Based Productivity via Psychology ...
Como submeter seu case - CONIP 2017
Como submeter seu case - CONIP 2017
Similaire à テキストからのSNSユーザ位置推定手法と活用事例紹介
大学生のTwitter利用に関する定量分析―利用目的とサービス設計の関係―
大学生のTwitter利用に関する定量分析―利用目的とサービス設計の関係―
Hisao Soyama
イベント企画運営の経験と実際 / The history of organizing events by me
イベント企画運営の経験と実際 / The history of organizing events by me
whywaita
企業における統計学入門
企業における統計学入門
antibayesian 俺がS式だ
なぜ、外の勉強会やイベントに行くのか? 第6回 学生エンジニア限定LT大会!!! in 大阪 - 2017.11.25
なぜ、外の勉強会やイベントに行くのか? 第6回 学生エンジニア限定LT大会!!! in 大阪 - 2017.11.25
Masashi Maruya
第16回iPhoneアプリ開発勉強会発表資料
第16回iPhoneアプリ開発勉強会発表資料
Ke Ta
そのドキュメントは誰がために
そのドキュメントは誰がために
silpheed
Uec.R#3 YjdnJlpを使ってみた
Uec.R#3 YjdnJlpを使ってみた
Atsushi Hayakawa
(道具としての)データサイエンティストのつかい方
(道具としての)データサイエンティストのつかい方
Shohei Hido
Optimizing AIC in Questionnaire Analysis
Optimizing AIC in Questionnaire Analysis
T T
地理統計データ閲覧アプリケーション『Seseki』を活用した地域課題分析の促進
地理統計データ閲覧アプリケーション『Seseki』を活用した地域課題分析の促進
Kunihiko Miyoshi
どたばたかいぎ成果発表
どたばたかいぎ成果発表
Eric Sartre
「ウェブ分析論」~いただいた感想~
「ウェブ分析論」~いただいた感想~
Taku ogawa
Similaire à テキストからのSNSユーザ位置推定手法と活用事例紹介
(12)
大学生のTwitter利用に関する定量分析―利用目的とサービス設計の関係―
大学生のTwitter利用に関する定量分析―利用目的とサービス設計の関係―
イベント企画運営の経験と実際 / The history of organizing events by me
イベント企画運営の経験と実際 / The history of organizing events by me
企業における統計学入門
企業における統計学入門
なぜ、外の勉強会やイベントに行くのか? 第6回 学生エンジニア限定LT大会!!! in 大阪 - 2017.11.25
なぜ、外の勉強会やイベントに行くのか? 第6回 学生エンジニア限定LT大会!!! in 大阪 - 2017.11.25
第16回iPhoneアプリ開発勉強会発表資料
第16回iPhoneアプリ開発勉強会発表資料
そのドキュメントは誰がために
そのドキュメントは誰がために
Uec.R#3 YjdnJlpを使ってみた
Uec.R#3 YjdnJlpを使ってみた
(道具としての)データサイエンティストのつかい方
(道具としての)データサイエンティストのつかい方
Optimizing AIC in Questionnaire Analysis
Optimizing AIC in Questionnaire Analysis
地理統計データ閲覧アプリケーション『Seseki』を活用した地域課題分析の促進
地理統計データ閲覧アプリケーション『Seseki』を活用した地域課題分析の促進
どたばたかいぎ成果発表
どたばたかいぎ成果発表
「ウェブ分析論」~いただいた感想~
「ウェブ分析論」~いただいた感想~
テキストからのSNSユーザ位置推定手法と活用事例紹介
1.
@arieee0 2015/03/21 1 テキストからのSNSユーザ 位置推定手法と活用事例紹介 ∼twitterはエリアマーケティングに有効か∼ 第44回 Tokyo Webmining
2.
/39 自己紹介 2 @arieee0 「あり」 修士:データマイニング・自然言語処理 今後:春からEC企業でデータ分析職 データいじり( 分析)が好き! ex.
趣味で自分のデータを解析している 起床・就寝時刻,勉強時間,集中度,体重,英語勉強… 28項目を2年間記録し続けている
3.
/39 自分のデータ分析 3 !10$ 0$ 10$ 20$ 30$ 40$ 50$ 2/20$ 2/27$ 3/5$ 3/12$ 3/19$ 3/26$ 4/2$ 4/9$ 4/16$ 4/23$ 4/30$ 5/7$ 5/14$ 5/21$ 5/28$ 6/4$ 6/11$ 6/18$ 6/25$ 7/2$ 7/9$ 7/16$ 7/23$ 7/30$ 8/6$ 8/13$ 8/20$ 8/27$ 9/3$ 9/10$ 9/17$ 9/24$ 春休みの 寝不足・勉強不足 研究室配属 学会論文提出 夏休み… 院試 sensprout 一日の評価関数を作って,一日の頑張りを可視化したり こういうグラフを見ると幸せな気持ちに
4.
/39 アウトライン 4 ←詳しい部分 ←素人 ビジネス上での応用(使えそう or ここが問題
etc.) はぜひ議論させてください! • 従来のエリアマーケティング • twitterを用いたエリアマーケティング事例 • twitterエリアマーケティングにおける基礎技術 ‣ ユーザの属性推定 ‣ ユーザの位置推定
5.
/39 従来のエリアマーケティング 統計情報 (人口・年代構成など)をベースに地域の特性 を理解し,地域に基づいたアクションを取る 5 例:コンビニ出店場所計画 半径750mの商圏内に競合店舗が なく,20-40代の人口が3000人 以上の地域を探索 他のアクション例としては,店舗サービス改良,地域限定 商品開発,観光施策,不動産活用など
6.
/39 統計情報を用いた従来の エリアマーケティングの利点・欠点 6 ✔ 地域・人口カバー率,情報の正確性 ✘ 人々の移動・滞在情報 ex.
渋谷に買い物に来る人の特徴は? ✘ リアルタイム性 ex. 今年上野公園へお花見に来ている人の特徴は?
7.
7 モバイル位置情報データの利用 そこで、、
8.
/39 様々な位置情報データ 8 • 携帯電話会社が提供するユーザ位置情報 • ナビアプリ等から取得するユーザ位置情報 •
SNSの位置情報付き投稿を利用
9.
/39 • 携帯電話会社が提供するユーザ位置情報 • ナビアプリ等から取得するユーザ位置情報 •
SNSの位置情報付き投稿を利用 ex. モバイル空間統計 (docomo) • 全年代・地域をほぼカバー • 500m-1kmメッシュの現在地データ • 契約情報と照合させた信頼度の高いユーザ属性データ 良質データ!しかし,, * http://www.docomo.biz/html/service/spatial_statistics/ 様々な位置情報データ
10.
/39 • 携帯電話会社が提供するユーザ位置情報 • ナビアプリ等から取得するユーザ位置情報 •
SNSの位置情報付き投稿を利用 10 ex. google Now,NAVITIME for Japan ✔ アプリ内のユーザ設定等を活用して属性取得可 ✘ 本来の目的外でデータを利用したり,他者に提供するのは ユーザにメリットがなければ厳しい (必然的に自社アプリ) ✘ ある程度の規模のサービスでないとデータが十分収集で きない 様々な位置情報データ
11.
/3911 ex. Twitterのgeotag (緯度経度情報)付きツイート ✔
オープンデータで誰でも利用 ✔ 投稿からユーザの趣味嗜好などを推定できる ✔ 口コミ情報を取得できる もっと活用されてもよい位置情報データ? 様々な位置情報データ • 携帯電話会社が提供するユーザ位置情報 • ナビアプリ等から取得するユーザ位置情報 • SNSの位置情報付き投稿を利用
12.
/39 アウトライン • 従来のエリアマーケティング • twitterを用いたエリアマーケティング事例 •
twitterエリアマーケティングにおける基礎技術 ‣ ユーザの属性推定 ‣ ユーザの位置推定 12
13.
/39 エリアマーケティング情報提供会社 例: 株式会社ナイトレイ 13 横浜市観光イベント分析,野外音楽フェスのイベント効果分析, 商業施設の店舗開発,都市計画の意思決定のサポート • SNS投稿データ(twitter,
foursquare?) を元にした,メッシュ単位 (250m ) ごとに訪れているユーザ情報・口コミ 情報を提供 • 休日平日&時間別集計 • カテゴリ別 (食事,買い物,旅行)集計 • 属性解析(性別,年齢,趣味嗜好)* http://nightley.jp/ 適用事例 提供データ
14.
/3914*SNS等を利用した訪日外国人の意識分析 報告書(平成26年度)[観光庁] 訪日外国人への有効な観光施策の策定を目的に, twitter投稿から訪日外国人の興味関心を調査 twitter 処理フロー 日本に関連する 英語tweetの抽出 (134万人) 訪日に関するtweetを抽出 (GPS:0.4万人, 写真:2.4万人) 分析 事例1: 観光庁とNTTデータによる 訪日外国人観光客の意識分析
15.
/3915*SNS等を利用した訪日外国人の意識分析 報告書(平成26年度)[観光庁] 訪日外国人への有効な観光施策の策定を目的に, twitter投稿から訪日外国人の興味関心を調査 twitter 処理フロー 訪日に関するtweetを抽出 (GPS:0.4万人, 写真:2.4万人) 分析 抽出条件:日本の地名(都道府県・主要都市)を含む 事例1: 観光庁とNTTデータによる 訪日外国人観光客の意識分析 日本に関連する 英語tweetの抽出 (134万人)
16.
/3916*SNS等を利用した訪日外国人の意識分析 報告書(平成26年度)[観光庁] 訪日外国人への有効な観光施策の策定を目的に, twitter投稿から訪日外国人の興味関心を調査 twitter 処理フロー 訪日に関するtweetを抽出 (GPS:0.4万人, 写真:2.4万人) 分析 抽出条件:日本国内の緯度経度付き or
写真付き 事例1: 観光庁とNTTデータによる 訪日外国人観光客の意識分析 日本に関連する 英語tweetの抽出 (134万人)
17.
/3917*SNS等を利用した訪日外国人の意識分析 報告書(平成26年度)[観光庁] 訪日外国人への有効な観光施策の策定を目的に, twitter投稿から訪日外国人の興味関心を調査 twitter 処理フロー 訪日に関するtweetを抽出 (GPS:0.4万人, 写真:2.4万人) 分析 場所ごとに共起しやすい単語や,「食べる」「見る」 などと関連が深い単語ランキングなどを調査 事例1: 観光庁とNTTデータによる 訪日外国人観光客の意識分析 日本に関連する 英語tweetの抽出 (134万人)
18.
/39 調査結果(エリアごとの単語ランキング) 18 tweet人数 割合 単語 122
19.7% crossing 84 13.5% night tweet人数 割合 単語 16 19.7% anime 10 13.5% superpotato 10 10.8% maidcafe tweet人数 割合 単語 30 12.0% night 22 8.8% gyoen - - - 14 5.6% robotrestaurant 渋谷 (来訪者:620人) 秋葉原 (来訪者:93人) 新宿 (来訪者:249人) スクランブル交差点 レトロゲーム店, メイドカフェ
19.
/39 事例2: 筆者による秩父観光客の調査実験 19 あの花!* *あの日見た花の名前を僕達はまだ知らない (2011年春に放送された秩父が舞台のいわゆるご当地アニメ) 秩父といえばもちろん,,,
20.
/3920 • twitter投稿を用いてご当地アニメの影響度の可視化を試みる • リアルタイムな集計によりアニメの放映期間と秩父訪問者数と の連動を調査 •
集計はアニメを見て観光に訪れた聖地巡礼者か一般の観光客か をユーザの投稿内容を見て判定し,分別して行う 事例2: 筆者による秩父観光客の調査実験 概要
21.
/39 処理フロー 21 ツイート中に以下のいずれかの表現を含む 1. [秩父の地名リスト] なう 2.
I m at [秩父の地名リスト] 3. [秩父の地名リスト] (に・へ・まで)[来 た・到着した・着いた・いる etc.] 4. 秩父市内の緯度経度付きgeotagデータ アニメに関するキーワード・ハッシュタグを1回以上投稿 「あの花」「じんたん」「#anohana」等 秩父を訪問したかどうかの判定 (秩父訪問前に)アニメを視聴したかどうかの判定 twitter 時系列 で集計
22.
/39 結果 22 0%# 10%# 20%# 30%# 40%# 50%# 60%# 70%# 80%# 90%# 100%# 0# 200# 400# 600# 800# 1000# 1200# 1400# 2011/4/1#2011/6/1#2011/8/1# 2011/10/1# 2011/12/1#2012/2/1#2012/4/1#2012/6/1#2012/8/1# 2012/10/1# 2012/12/1#2013/2/1#2013/4/1#2013/6/1#2013/8/1# 2013/10/1# 2013/12/1# (7 )# (7 )# (30
)# TV放映期間 劇場版公開 巡礼者の割合:徐々に低下 TV放映期間後,徐々に巡礼者の割合は減少 劇場版公開を前後して再び増加
23.
/39 アウトライン • 従来のエリアマーケティング • twitterを用いたエリアマーケティング事例 •
twitterエリアマーケティングにおける基礎技術 ‣ ユーザの属性推定 ‣ ユーザの位置推定 23
24.
/39 エリアマーケティングに用いる場合における twitter投稿データの問題点 24 -> ユーザの投稿内容から属性・位置を推定しよう ユーザ属性情報がわからないことが多い • プロフィールに年齢や性別を記入しているユーザは少ない ユーザの位置情報付きのツイートもとても少ない •
全体の0.3%ほど
25.
/39 属性・位置(居住地/現在地)推定方法 25 ルールベース 機械学習ベース 一人称が「俺」-> 男 終助詞が「わ」「の」-> 女 正解データを用意して,学習・推定する 性別: 位置:
地名辞典とのパターンマッチ 地名 + < なう/ (に) いる > など
26.
/39 属性・位置(居住地・現在地)推定共通の 基本的流れ[機械学習ベース] 26 1. 正解データを用意する • 人手でアノテーションして作る(!) ‣
SVMで2値分類を行う際は,正例・負例ともに200件 あれば十分な精度が得られる [ + 14] • プロフィールやリストなどから自動的に判断し収集する ‣ 男子 , おやじ , ○○歳 , 会社員 など属性情報が プロフィールや被リスト名に含まれるユーザを自動収集 • 位置推定の場合,geotag付きツイートを正解データとして 流用できる
27.
/3927 2. 分類問題として学習・推定を行う 性別: 男,女の2値分類 年代:
10代,20代,30代,40代の4クラス分類 職業: 「会社員」「それ以外」の2値分類, 「専業主婦」「それ以外」の2値分類…を繰り返す 位置: 47都道府県の47クラス分類,メッシュ単位で分類 次スライド以降ではこの中から位置推定に着目し, 基本的な論文を引用しながら具体的な手順について述べます 属性・位置(居住地・現在地)推定共通の 基本的流れ[機械学習ベース] 属性のクラス分割の一例
28.
[Wing & Baldridge,
ACL 2011] Simple supervised document geoloca?on with geodesic grids 28
29.
/3929 ✔緯度経度の間隔 (0.1 10
) を開発データで適用 概要 地球の緯度経度で地域を分割し,位置情報付きツイートで 学習を行い,世界の英語使用者の居住地予測を行った研究 ✔セルの中心点をユーザの位置 として推定 ✔Bag of Wordsを素性に利用
30.
/3930 手法 緯度経度により分割された地域 (セル) セルごとに文書
(BoW)を学習 位置情報付きツイートを 学習に利用
31.
/3931 Retrieval from which cell? 手法 位置情報が付いていないツイート
32.
/3932 represen6ng point 位置情報が付いていないツイート Retrieval セルを決定し,ユーザ位置 を推定 (セルの中心地) 手法
33.
/3933 Fine Coarse 地域分割における難しさ ✔ 推定地域が細かい ✘
推定地域が粗い✘ 訓練データがスパース ✔ 訓練データが豊富 開発データで最適なグリッド間隔(0.1 10 )を 決定している
34.
/39 Simple Supervised Model 34 1.
KL-‐divergence (論文中で最も良い結果) 2. Naive Bayes User word distribu6on Cell word distribu6on ユーザとセルの単語分布間の類似性を計算 最も類似しているセルを選択
35.
/39 Experiment 35 Data Metrics Evalua6on 予測位置と実際の位置との誤差距離 [km] アメリカ本土内の9500ユーザから収集した38万件の 位置情報付きツイート 80 /
10 / 10 ロウンドロビン方式 (train,dev,test)
36.
/39 Result 36 TwiHer 間隔 [°] 誤差中央値距離[km] KL-‐divergence
5 479 Naive Bayes 5 528 Cell prior maximum 0.1 726 Random 0.1 1217 proposed baseline ベースラインよりは良い精度だが 誤差中央値距離は479kmとかなり大きい
37.
/39 cf. 筆者の研究結果 37 日本国内の日本語位置情報付きツイートデータ (約690万件)を 用いて,行政区分レベルで現在位置推定 (注意)データと推定粒度(居住地/現在地)が違うので先ほどの研究と単純な比較はできません. 分類精度の感覚をつかんでいただけたらと思います. 推定レベル
ラベル数 分類精度[%] 誤差中央値距離[km] 都道府県 47 52.0 24.9 市区 962 20.2 52.5 (*) 過去の投稿を活用したマイクロブログユーザの現在位置推定[鈴木+ 15]
38.
/39 この基本形からの涙ぐましい種々の工夫たち そして位置推定の闇の世界へ… 38 adap?ve grid [Roller+
‘12] 訓練データ数を均等に分けるために 地域区分を適応的に変更 tweet genera?ve model [Hong+ ‘12] ツイート生成 モデルを構築 潜在変数とし て地域を推定 過去の投稿内容や 係り受け関係にある動詞等 を素性として利用 [鈴木+ 15] 興味がある方は懇親会中にでも!
39.
/39 まとめ • 投稿からユーザの趣味嗜好などの情報を得られる twitterを用いたエリアマーケティングは有用 • 現状では観光施策などを中心に用いられている模様 •
属性などの情報や位置情報の不足は機械学習によっ て部分的に推定することができる 39 ビジネス面,手法面等のさまざまな意見をお待ちして おります!
Télécharger maintenant