単語・パラグラフの分散表現を用いたTwitterからの日本語評判情報抽出

DEIM 2016
単語・パラグラフの分散表現を⽤いた
Twitterからの⽇本語評判情報抽出
2016.2.29
奈良先端科学技術⼤学院⼤学情報科学研究科
知能コミュニケーション研究室・NAISTビッグデータプロジェクト
芥⼦育雄鈴⽊優吉野幸⼀郎中村哲
シャープ株式会社コンシューマーエレクトロニクスカンパニー
クラウドサービス推進センター
⼤原⼀⼈向井理朗
第8回データ⼯学と情報マネジメントに関するフォーラム

DEIM 2016
本発表の背景
•  背景1：⽂書の分散表現をニューラルネットで学習できる
パラグラフベクトルの提案 [Le, Mikolov, 2014.]
– 英語の感情分析ベンチマークを⽤いてState-of-the-Artの精度
»  5段階の極性判定精度は50%程度
– 課題：性能改善に必要な分散表現（ベクトル）の可読性
•  背景2：単語の意味ベクトルとブートストラップ学習を提案
[芥⼦, ⿊武者他, 1996, 1997, 1999, 2000.]
– 意味ベクトルの次元は266種類の特徴単語に対応，
基本単語約2万語については専⾨家が特徴単語を付与
– 課題：単語の意味の分散表現としての解像度
»  テキストにおける単語の出現順を考慮していない
»  単語の意味ベクトルはビットベクトル
2

DEIM 2016
本発表の概要
•  Ph.D研究の⽬的：意味ベクトルとパラグラフベクトルを統合し，
可読性の⾼いベクトルを⾃動で学習
•  本発表（Ph.D研究の第⼀段階）：
–  クラウドソーシングを利⽤してTwitterの⽇本語極性判定
ベンチマークを作成
–  ツイート中に出現する基本単語を特徴単語に展開し，
パラグラフベクトルのPV-DBOWモデルを利⽤して学習，
パラグラフベクトルと統合
–  パラグラフベクトルによる極性判定精度を平均2.3%上回る
•  ポジティブ・ネガティブの2クラス極性判定精度：84.5%
•  ニュートラルを含めた3クラス極性判定精度：67.5%
3

DEIM 2016
Twitterからの⽇本語評判情報抽出
-企業における⽤途-
•  テレビでの紹介やメディア報道に対してのリアルタイムの反響調査
•  ⼀定期間の広告などプロモーション効果の測定
•  ライバル製品との⽐較や製品品質に関する顧客の声（Voice of Customer）の活⽤
4
シャープの製品関連ツイートの時系列解析（2014/3/24～3/27）：

DEIM 2016
Twitterからの顧客の声（VoC）抽出
-ツイート解析の要件と解決策-
•  同じ意味の⾔葉のグルーピング
– ⼤量ラベル無しツイートによる単語ベクトルの学習
•  Twitterならではの表現，機能表現や係り受けを
踏まえた⽂の特徴を学習
– 単語の出現順を学習するパラグラフベクトル
（PV-DMモデル）
•  短⽂テキストの⽂脈情報（個⼈の意⾒）を明確化
– ツイート中に出現する基本単語を特徴単語に展開
5

DEIM 2016
提案⼿法-Twitterからの⽇本語評判
情報抽出（提案システム）-
•  訓練セット：
–  ラベルありツイートと
⼤量のラベル無し
ツイート
•  提案システムの流れ：
–  実線：訓練セット
（ツイート）の流れ
–  ⼆重線：テストセット
（ツイート）の流れ
–  破線：パラメータ調整
–  訓練セットのラベルは
教師あり学習の⼊⼒
6

PV-DM,PV-DBOW)
)

PV-DBOW)

DEIM 2016
提案⼿法-パラグラフベクトル-
•  PV-DMモデル：⽂脈ベクトルと次単語のベクトルとの内積が，周辺単語以外の単語ベクトルとの
内積より⼤きくなるように次単語のベクトルを予測
•  PV-DBOWモデル：パラグラフベクトルを元にパラグラフ内の単語をランダムにウインドウ⻑分
選択し，単語ベクトルを予測
•  パラメータ調整：ウインドウ⻑，ベクトル⻑，学習回数，中間層のベクトル（結合, 和，平均）
7
w -3)
w -
w
w -2)
INPUT Classiﬁer
PV-DBOW
Paragraph
id
Paragraph
id
w
INPUT
Concatenate/
Sum / Average
Classiﬁer
PV-DM
w -3
w -2
w t-1

DEIM 2016
提案⼿法-基本単語の意味ベクトル-
•  意味ベクトル
–  階層的に266種類の概念分類を特徴単語として選択
–  約2万語の基本単語に対して，各特徴単語との意味的・連想的関係を266次元の
ベクトルで表現（基本単語が特徴単語と関係ある場合は1,関係ない場合は0）
8
特徴単語
｛⼈間，悲しい，芸術，科学，興奮,…｝
基本単語
パイロット：（１,０,０,１,１,…）
例
•  ブートストラップ学習
–  仮説１: ⽂書の意味ベクトル
•  ⼀定数以上の基本単語が含まれていれば，その基本単語の意味ベクトルの
加重和によって，適切な⽂脈情報が表現可能
–  仮説2: 単語の意味ベクトル
•  単語が含まれている⽂書の意味ベクトルの加重和によって，適切な⽂脈情報を獲得
「パイロット」は，人間，科学，興奮
などの文脈で出現することを表現

DEIM 2016
提案⼿法-基本単語の意味ベクトル
（特徴単語）からパラグラフベクトルの学習
•  ツイート中の基本単語を特徴単語に展開し，ツイートの⽂脈情報を表現
–  パラグラフの意味ベクトル学習にPV-DBOWを活⽤
–  特徴単語に展開する基本単語の品詞，及び展開する特徴単語数の上限がパラメータ
9
A A 4 . 3 FullHD

DEIM 2016
Twitterからの⽇本語評判情報抽出の
実験-⼿順-
•  ⽬的：
–  商品企画や品質サポートにとって有益な個⼈の意⾒を
Twitterから抽出
•  対象：
–  2種類のスマートフォン製品ブランド（製品A, 製品B）
•  ツイートへのラベル付与：
–  ポジティブ：対象の製品ブランドに対して，
ポジティブな意⾒を発信しているツイート
–  ネガティブ：対象の製品ブランドに対して，
ネガティブな意⾒を発信しているツイート
–  ニュートラル：対象の製品ブランドに対して，
個⼈の意⾒を発信しているが，ポジティブでも
ネガティブでもないツイート
–  無関係：対象の製品ブランドに対しての
個⼈の意⾒を発信していないツイート
10
,
④
SVM)
⑤

DEIM 2016
ベンチマーク
•  約3万5千ツイートに対し，クラウドソーシングを利⽤して各ツイート5⼈の作業者
–  ラベル付与の費⽤は約2万円（現実的な予算で構築可能）
–  複数のラベルが１位で同数投票された“その他”のツイートや“無関係”のラベルが
付与されたツイートは対象外
•  クラウドソーシングに掛ける前段階のラベル無しツイートが約35万件
–  製品A，Bに関して収集したツイートでノイズ除去まで⾏ったもの
11

DEIM 2016
実験⽅法
1)  ベースライン（BoW）の評価実験
–  訓練セットとテストセット両⽅の語彙がBoWの次元
–  各ツイートから抽出された語彙の頻度がBoWの値
–  訓練セットのBoWに対して
4分割交差検定とグリッドサーチにより，SVMのカーネル関数と
ハイパーパラメータの値を決定
–  SVMの分類器とテストセットのBoWを⽤いて評価
2)  パラグラフベクトル（PVEC)の評価実験
–  最初にラベル無しツイートの単語ベクトル学習
–  上記単語ベクトルを初期値として，訓練セットのPVECを学習
–  最後にテストセットのPVECを学習（この時の単語ベクトルは凍結）
–  訓練セットのPVECに対して
–  SVMの分類器とテストセットのPVECを⽤いて評価 12

DEIM 2016
実験⽅法-提案⼿法-
3)  提案⼿法の評価実験
–  PVECの評価実験に追加して，
–  ラベル無しツイート中に含まれる基本単語を特徴単語に展開，
単語ベクトルをPV-DBOWで学習
–  訓練セット，テストセットを順に基本単語を特徴単語に展開し，
上記単語ベクトルを初期値として，PV-DBOWで学習
–  訓練セットのPVEC（PV-DMとPV-DBOW）と特徴単語展開を⾏って
作成したPV-DBOWを結合した特徴表現に対して，
–  SVMの分類器とテストセットの特徴表現（パラグラフベクトルの
PV-DM,PV-DBOWと提案⼿法のPV-DBOWを結合）を⽤いて評価
13

DEIM 2016
評価結果
14
4. A
BoW 57.5% 58.6% 73.9% 78.1%
PVEC 62.4% 62.3% 78.9% 80.1%
63.4% 64.7% 79.6% 81.0%
5. B
BoW 61.8% 65.1% 79.9% 80.1%
PVEC 64.7% 65.2% 81.7% 82.7%
66.3% 67.5% 82.9% 84.5%
製品Aのベンチマーク：
4,814ツイート
提案⼿法は，
・3クラス分類：2.4%(6.1%)
・2クラス分類：0.9%(2.9%)
PVEC(BoW)の精度を上回った．
製品Bのベンチマーク：
11,932ツイート
提案⼿法は，
・3クラス分類：2.3%(2.4%)
・2クラス分類：1.8%(4.4%)
PVEC(BoW)の精度を上回った．

DEIM 2016
考察
-ベンチマークサイズについて-
15
•  製品Bの訓練・テストセットを75%, 50%に削減した時のテストセットの評価
–  提案⼿法による精度改善はベンチマークサイズに依存しない
製品Aを含めて
平均2.3%向上
製品Aを含めて
さらに平均
2.3%向上

DEIM 2016
考察
-⼤規模な単語ベクトルの学習効果-
•  製品Bで⼤規模なラベル無しツイートの
単語ベクトルを初期値としなかった場合の評価
– 提案⼿法：平均4.0%，PVEC：平均4.6%精度が下がり，
単語ベクトルの効果あり
16
平均2.7%
向上

DEIM 2016
考察
-提案⼿法の成功例，失敗例-
•  提案⼿法により分類が正解に変わったツイート数，不正解に変わったツイート数
17
不正解→正解正解→不正解
ポジティブ 103 60
ネガティブ 54 54
ニュートラル 106 63
•  提案⼿法により分類が不正解から正解に変わったツイート例
○Positive→Negative
最悪製品B 防⽔だから⽔につけたらあら⼤変画⾯のなかに⽔が
【勢⼒・程度劣悪否定的多数・多量醜悪特殊・希有困難⽔棲⽣物海洋資源素材・
材料液体寒冷無⾊・透明様⼦・様態勢⼒・程度価値・質因果否定的困難誤謬
通信マスメディア⾊彩平⾯映像・画像電⼦⼯学コンピュータ⽔棲⽣物海洋資源
素材・材料液体寒冷無⾊・透明】

DEIM 2016
まとめ
•  Twitterからの⽇本語評判情報抽出システムを提案
–  パラグラフベクトルはベースライン（BoW）に対して，
極性判定の精度が平均2.3%向上
–  意味ベクトル辞書を⽤いることにより，パラグラフベクトルに対して，
さらに極性判定の精度が平均2.3%向上
•  Twitterの⽇本語極性判定ベンチマーク作成
–  英語ではTwitterを⽤いたシェアードタスク開催，
共通ベンチマークも公開されており，
State-of-the-Artの競争激化，NLP応⽤が急速に進展
–  ⽇本語の極性判定共通ベンチマーク，シェアードタスクの必要性
18

DEIM 2016
今後の展開
•  特徴抽出（PVEC，提案⼿法）を後段の教師あり学習からの
フィードバックループに⼊れる
– 誰でも扱えるツール化
– さらなる精度向上
•  単語ベクトルの初期値として，意味ベクトルを与える
– 可読性の⾼い単語・パラグラフベクトルの実現
– 提案システムの安定性向上
– デバッグ機能の実現
19

単語・パラグラフの分散表現を用いたTwitterからの日本語評判情報抽出

Recommandé

Recommandé

Contenu connexe

Similaire à 単語・パラグラフの分散表現を用いたTwitterからの日本語評判情報抽出

Similaire à 単語・パラグラフの分散表現を用いたTwitterからの日本語評判情報抽出 (20)

Plus de 奈良先端大情報科学研究科

Plus de 奈良先端大情報科学研究科 (20)