SlideShare une entreprise Scribd logo
1  sur  15
Télécharger pour lire hors ligne
Positive Unlabeled Learning for Deceptive Reviews Detectionby Y.Ren, etc 
担当:Quasi_quant2010 
1 EMNLP2014読み会@PFI 
【EMNLP2014読み会】
本論文を読んだ動機 -負例に偏ったデータにおける情報推薦の考察- 
2 EMNLP2014読み会@PFI 
データがスパース性を持つ場合、負例に偏ったデータが大半 
検索連動広告ではCTRが数% 
通常の識別モデルでは、データの大半が負例のため、汎化性能が低い 
低い汎化性能のため、10-fold・CVとかABテストとかで性能を担保する 
バイアス高い・・・ 
基本的な疑問 
人間の観測測度で、データがスパース性を持つのでは? 
神様の観測測度で、データはデンス性を持っているはず? 
PU(Positive Unlabeled) Learning 
データをスパースからデンスにし、スパース正則化でRecallを上げる 
今回の論文はスパース正則化ではない 
神様と人間の中間を目指す!! 
Likely Positive(注)後述とLikely Negativeにより情報がデンスになる 
例えば短文データの場合、同義語 への拡張が識別可能性を上げる
本論文のタスク具体例 -同じ商品なのに、レビューが全く違う- 
異なるユーザー嗜好でレビューが変化するのは望ましい 
ただし、ユーザーレビューが他ユーザーに有益とは限らない 
本論文は、ユーザーを欺くレビューを発見するタスクの実証 
ECサイトの品質向上を狙った応用が考えられる 
3 EMNLP2014読み会@PFI 
レビューがユーザー の役に立たない 
レビューがユーザー の役に立つ
アイディア①:スパースからデンスへ -|Reliable Negative| ≫|Positive| - 
典型的な例として、データが負例に偏っている場合がある 
負例ラベルを持つデータには、正例を持ってもよいものもある 
正例ラベル(=P)、ラベルなしデータ(=U)が与えられた時、 本当の意味での負例(RN)が識別できれば、U/RNが分かる 
U/RNをさらに、Likely Positive(LP)・Likely- -Negatibe(LN)として分類し、学習データをデンスにする ことで、学習関数の識別可能性を上げる ただし、本研究ではスパース正則化は議論の対象外 
4 EMNLP2014読み会@PFI
アイディア②:先行研究との違い -{Unlabelled/Reliable Negative}を使う- 
ノーテーション 
P = Positive samples 
U = Unlabelledsamples 
RN = Reliable Negative samples 
U/RN = Unlabelled/ Reliable Negative samples 
先行研究① 
P・RNをのみから学習関数を求める為、識別可能性に限界がある 
先行研究② 
P・RN・U/RNを使う 
本研究 
P・RN・U/RNを使い、学習関数を求める。他方、特徴量生成の 際、global・local特徴量を考慮する事で、識別可能性を高める 
5 EMNLP2014読み会@PFI 
U/RNをポジ・ネガを識別する特徴量ソースとして 
利用できれば苦労しないが・・・
先行研究の結果 -U/RNの活用と特徴量生成の工夫- 
6 EMNLP2014読み会@PFI 
U/RNをポジ・ネガ識別の新たな特徴量ソースとして 利用すれば識別可能性は上がる 
本研究では、global・local特徴量ソースをマージしている 
U/RNを使用 
-Global SPUL : global特徴量のみを考慮 
-Local SPUL : local特徴量のみを考慮 
-LELC : SPULと異なる点は、特徴量にglobal・local性を考慮しない 
U/RNを使用しない 
-Spy-EM : SpyでRNを抽出し、NBで学習関数推定 
-Roc-SVM : RocchioでRNを抽出し、SVMで学習関数推定 
ポジ・ネガ識別の特徴量 ソースとしてU/RNを利用 
[11 Xiao] IJCAI, Similarity-Based Approach for Positive and UnlabelledLearning
問題設定 -PU Learningと計算手順- 
Given 
Positiveデータとラベルなしデータ 
Positiveデータ、{“+1”:秋口には飲みたくなるビール} 
ラベルなしデータ、{“null”:苦みのあるプレミアムビール} 
Then 
Step1 : Reliable Negative Extraction 
Step2 : PとRNを使ったポジ・ネガの単語表現(ベクトル)作成 
Step3 : Step2で計算した単語表現によるLPとLN構築 
Step4 : P∪LP・RN∪LNを使った、ソフトSVMによる識別予測 
7 EMNLP2014読み会@PFI 
P 
U 
RN 
LP 
LN 
PとRNがポジ・ネガ を表現していれば よいLP・LN を構築できる・・・
PとRNを使ったポジ・ネガの単語表現構築 -LDAにより(文書内)単語に潜在意味を付与- 
抽出したRNにLDAを適用し、単語トピックを同定。 
次に、各レビュー文書を以下のような表現に変換; 
{“トピック”:青, “単語”:国境の長い, “φ”:1.0e-5} 
1レビューを上記JSONの集まりと考え、 k-meansでRNをクラスタリング(コサイン類似度) 
ただし、内積を計算する際、トピックが異なる場合はゼロ 
8 EMNLP2014読み会@PFI 
[持橋大地] 機械学習に基づく自然言語処理, IBIS 2013 tutorial 
論文中にはLDAを使ったとだけ 記述。Multi Grain-LDAなどの 記述なし。また、どの様にBoWを 作ったかも記述なし・・・ 
スパースなデータでk-meansで大丈夫? 
Sparse k-meansとかもあるが・・・
PとRNを使ったポジ・ネガの単語表現構築 -RNで作成したクラスターがネガ表現としてGood- 
PとRN(= Ui=1RNi)を使ってn個のp・nの単語ベクトル構築 
従来 
レビュー文にtf-idfを適用してからk-means 
割り引いた頻度情報でクラスタリング 
提案手法 
レビュー文にLDAを適用してからk-means 
潜在意味を獲得 
9 EMNLP2014読み会@PFI 
n 
n 
p・nがより リッチな情報に
P∪LP・RN∪LNを使った、識別予測(ソフトSVM) -新規性:Global・Local特徴量のマージ- 
Population Property : Global特徴量 
Individual Property : Local特徴量 
Similarity Weight : Global特徴量+ Local特徴量 
10 EMNLP2014読み会@PFI 
先行研究の 
SPUL Localに相当 
先行研究の 
SPUL Globalに相当 
提案手法の 
MPIPULに相当
データ 
- Positive and Unlabelled sample - 
 6977レビューがPositiveとして記録(TripAdvisor) 
 ただし、Positiveレビューの内、以下を除去 
1. 5つ星でないレビュー 
2. 英語でないレビュー 
3. 75文字未満のレビュー 
4. 初めてレビューを書き込んだ人の場合は、除去 
11 EMNLP2014読み会@PFI 
Likely Positiveとして機能す 
るのは1・3・4 
Positive Unlabelled 
訓練データ72 648 720 
Positive decceptive 
訓練データ360 360 720 
Positive decceptive 
テストデータ40 40 80 訓練データのデータ量を20%・30%・ 
40%と変えて頑強性も評価 
訓練データの内訳
結果① -人手の評価- 
3人にテストデータのラベルを予測させた 
個々人のバイアスを除くため、 
多数決による予測ラベル決定 
3人中2人がP(ポジ)と判断した時、P(ポジ) 
全会一致による欺くレビューの決定 
3人中3人がN(ネガ)と判断した時、N(ネガ) 
→ 人間は、ユーザーを欺くレビューを62.4%の正確性で予測 
12 EMNLP2014読み会@PFI 
注) 
ユーザーを欺くレビュー(ネガ) 
を予測できた場合。 
よくある、 
Precision is ポジ 
Recall isポジ+ネガ 
ではないので注意
結果② -実験結果:提案手法、MPIPUL - 
13 EMNLP2014読み会@PFI 
Global特徴量のみを考慮 
Local特徴量のみを考慮 
①LDAを用いた潜在意味獲得②Global・Local特徴量 をマージ 
LDAを利用したことによる性能向上の考察 
SPUL-local(global) vs SPUL-local(global)-ldaは・・・ 
Global・Local特徴量のマージによる性能向上の考察 
SPUL-local(global)-ldaとMPIPULを比較すべきでは・・・ 
スパースなデータにk-meansで大丈夫・・・ 
Stopwordを除きk-meansで文書クラスタリングした場合は・・・ 
Sparse k-meansあるけど・・・ 
本タスクの比較として適切でない
個人的な気づき -サービスのステージにおける手法選択- 
モデルという観点では、RN・Pが増えるほど半教師から 教師あり学習へ近づき、LP・LNに対する考察が深まる 
LP・LNの考察が性能向上という観点で重要!! 
実務という観点では、サービス開始時期はコールドスタート になるので、機械情報推薦する場合は拡張の工夫が必要。 本手法はLP・LNも考慮するので適している 
14 EMNLP2014読み会@PFI 
RN 
P 
---: サービス構築の為の累積コスト:企業利益(日次) 
時間 
サービス開始時期 
サービス安定時期
参考文献 
Positive Unlabeled Learning for Data Stream Classification 
Similarity-Based Approach for Positive and UnlabelledLearning 
The effect of adding relevance information in a relevance feedback environment 
Building Text Classifiers Using Positive and Unlabeled Examples 
Partially Supervised Classification of Text Documents 
Experimental Perspectives on Learning from Imbalanced Data 
15 EMNLP2014読み会@PFI

Contenu connexe

Plus de Takanori Nakai

Sentence-State LSTM for Text Representation
Sentence-State LSTM for Text RepresentationSentence-State LSTM for Text Representation
Sentence-State LSTM for Text RepresentationTakanori Nakai
 
WSDM2018 読み会 Latent cross making use of context in recurrent recommender syst...
WSDM2018 読み会 Latent cross making use of context in recurrent recommender syst...WSDM2018 読み会 Latent cross making use of context in recurrent recommender syst...
WSDM2018 読み会 Latent cross making use of context in recurrent recommender syst...Takanori Nakai
 
ICLR2017読み会 Data Noising as Smoothing in Neural Network Language Models @Dena
ICLR2017読み会 Data Noising as Smoothing in Neural Network Language Models @DenaICLR2017読み会 Data Noising as Smoothing in Neural Network Language Models @Dena
ICLR2017読み会 Data Noising as Smoothing in Neural Network Language Models @DenaTakanori Nakai
 
Note : Noise constastive estimation of unnormalized statictics methods
Note : Noise constastive estimation of unnormalized statictics methodsNote : Noise constastive estimation of unnormalized statictics methods
Note : Noise constastive estimation of unnormalized statictics methodsTakanori Nakai
 
Adaptive subgradient methods for online learning and stochastic optimization ...
Adaptive subgradient methods for online learning and stochastic optimization ...Adaptive subgradient methods for online learning and stochastic optimization ...
Adaptive subgradient methods for online learning and stochastic optimization ...Takanori Nakai
 
GBDTを使ったfeature transformationの適用例
GBDTを使ったfeature transformationの適用例GBDTを使ったfeature transformationの適用例
GBDTを使ったfeature transformationの適用例Takanori Nakai
 
Learning Better Embeddings for Rare Words Using Distributional Representations
Learning Better Embeddings for Rare Words Using Distributional RepresentationsLearning Better Embeddings for Rare Words Using Distributional Representations
Learning Better Embeddings for Rare Words Using Distributional RepresentationsTakanori Nakai
 
Preference-oriented Social Networks_Group Recommendation and Inference
Preference-oriented Social Networks_Group Recommendation and InferencePreference-oriented Social Networks_Group Recommendation and Inference
Preference-oriented Social Networks_Group Recommendation and InferenceTakanori Nakai
 
高次元データの統計:スパース正則化の近似誤差と推定誤差
高次元データの統計:スパース正則化の近似誤差と推定誤差高次元データの統計:スパース正則化の近似誤差と推定誤差
高次元データの統計:スパース正則化の近似誤差と推定誤差Takanori Nakai
 
Analysis of Learning from Positive and Unlabeled Data
Analysis of Learning from Positive and Unlabeled DataAnalysis of Learning from Positive and Unlabeled Data
Analysis of Learning from Positive and Unlabeled DataTakanori Nakai
 
Modeling Mass Protest Adoption in Social Network Communities using Geometric ...
Modeling Mass Protest Adoption in Social Network Communities using Geometric ...Modeling Mass Protest Adoption in Social Network Communities using Geometric ...
Modeling Mass Protest Adoption in Social Network Communities using Geometric ...Takanori Nakai
 
Similarity component analysis
Similarity component analysisSimilarity component analysis
Similarity component analysisTakanori Nakai
 
Query driven context aware recommendation
Query driven context aware recommendationQuery driven context aware recommendation
Query driven context aware recommendationTakanori Nakai
 
Unsupervised Graph-based Topic Labelling using DBpedia
Unsupervised Graph-based Topic Labelling using DBpediaUnsupervised Graph-based Topic Labelling using DBpedia
Unsupervised Graph-based Topic Labelling using DBpediaTakanori Nakai
 
Psychological Advertising_Exploring User Psychology for Click Prediction in S...
Psychological Advertising_Exploring User Psychology for Click Prediction in S...Psychological Advertising_Exploring User Psychology for Click Prediction in S...
Psychological Advertising_Exploring User Psychology for Click Prediction in S...Takanori Nakai
 
PUCKモデルの適用例:修論を仕上げた後、個人的にやっていたリサーチ
PUCKモデルの適用例:修論を仕上げた後、個人的にやっていたリサーチPUCKモデルの適用例:修論を仕上げた後、個人的にやっていたリサーチ
PUCKモデルの適用例:修論を仕上げた後、個人的にやっていたリサーチTakanori Nakai
 
金利期間構造について:Forward Martingale Measureの導出
金利期間構造について:Forward Martingale Measureの導出金利期間構造について:Forward Martingale Measureの導出
金利期間構造について:Forward Martingale Measureの導出Takanori Nakai
 
Topic discovery through data dependent and random projections
Topic discovery through data dependent and random projectionsTopic discovery through data dependent and random projections
Topic discovery through data dependent and random projectionsTakanori Nakai
 

Plus de Takanori Nakai (18)

Sentence-State LSTM for Text Representation
Sentence-State LSTM for Text RepresentationSentence-State LSTM for Text Representation
Sentence-State LSTM for Text Representation
 
WSDM2018 読み会 Latent cross making use of context in recurrent recommender syst...
WSDM2018 読み会 Latent cross making use of context in recurrent recommender syst...WSDM2018 読み会 Latent cross making use of context in recurrent recommender syst...
WSDM2018 読み会 Latent cross making use of context in recurrent recommender syst...
 
ICLR2017読み会 Data Noising as Smoothing in Neural Network Language Models @Dena
ICLR2017読み会 Data Noising as Smoothing in Neural Network Language Models @DenaICLR2017読み会 Data Noising as Smoothing in Neural Network Language Models @Dena
ICLR2017読み会 Data Noising as Smoothing in Neural Network Language Models @Dena
 
Note : Noise constastive estimation of unnormalized statictics methods
Note : Noise constastive estimation of unnormalized statictics methodsNote : Noise constastive estimation of unnormalized statictics methods
Note : Noise constastive estimation of unnormalized statictics methods
 
Adaptive subgradient methods for online learning and stochastic optimization ...
Adaptive subgradient methods for online learning and stochastic optimization ...Adaptive subgradient methods for online learning and stochastic optimization ...
Adaptive subgradient methods for online learning and stochastic optimization ...
 
GBDTを使ったfeature transformationの適用例
GBDTを使ったfeature transformationの適用例GBDTを使ったfeature transformationの適用例
GBDTを使ったfeature transformationの適用例
 
Learning Better Embeddings for Rare Words Using Distributional Representations
Learning Better Embeddings for Rare Words Using Distributional RepresentationsLearning Better Embeddings for Rare Words Using Distributional Representations
Learning Better Embeddings for Rare Words Using Distributional Representations
 
Preference-oriented Social Networks_Group Recommendation and Inference
Preference-oriented Social Networks_Group Recommendation and InferencePreference-oriented Social Networks_Group Recommendation and Inference
Preference-oriented Social Networks_Group Recommendation and Inference
 
高次元データの統計:スパース正則化の近似誤差と推定誤差
高次元データの統計:スパース正則化の近似誤差と推定誤差高次元データの統計:スパース正則化の近似誤差と推定誤差
高次元データの統計:スパース正則化の近似誤差と推定誤差
 
Analysis of Learning from Positive and Unlabeled Data
Analysis of Learning from Positive and Unlabeled DataAnalysis of Learning from Positive and Unlabeled Data
Analysis of Learning from Positive and Unlabeled Data
 
Modeling Mass Protest Adoption in Social Network Communities using Geometric ...
Modeling Mass Protest Adoption in Social Network Communities using Geometric ...Modeling Mass Protest Adoption in Social Network Communities using Geometric ...
Modeling Mass Protest Adoption in Social Network Communities using Geometric ...
 
Similarity component analysis
Similarity component analysisSimilarity component analysis
Similarity component analysis
 
Query driven context aware recommendation
Query driven context aware recommendationQuery driven context aware recommendation
Query driven context aware recommendation
 
Unsupervised Graph-based Topic Labelling using DBpedia
Unsupervised Graph-based Topic Labelling using DBpediaUnsupervised Graph-based Topic Labelling using DBpedia
Unsupervised Graph-based Topic Labelling using DBpedia
 
Psychological Advertising_Exploring User Psychology for Click Prediction in S...
Psychological Advertising_Exploring User Psychology for Click Prediction in S...Psychological Advertising_Exploring User Psychology for Click Prediction in S...
Psychological Advertising_Exploring User Psychology for Click Prediction in S...
 
PUCKモデルの適用例:修論を仕上げた後、個人的にやっていたリサーチ
PUCKモデルの適用例:修論を仕上げた後、個人的にやっていたリサーチPUCKモデルの適用例:修論を仕上げた後、個人的にやっていたリサーチ
PUCKモデルの適用例:修論を仕上げた後、個人的にやっていたリサーチ
 
金利期間構造について:Forward Martingale Measureの導出
金利期間構造について:Forward Martingale Measureの導出金利期間構造について:Forward Martingale Measureの導出
金利期間構造について:Forward Martingale Measureの導出
 
Topic discovery through data dependent and random projections
Topic discovery through data dependent and random projectionsTopic discovery through data dependent and random projections
Topic discovery through data dependent and random projections
 

Positive Unlabeled Learning for Deceptive Reviews Detection

  • 1. Positive Unlabeled Learning for Deceptive Reviews Detectionby Y.Ren, etc 担当:Quasi_quant2010 1 EMNLP2014読み会@PFI 【EMNLP2014読み会】
  • 2. 本論文を読んだ動機 -負例に偏ったデータにおける情報推薦の考察- 2 EMNLP2014読み会@PFI データがスパース性を持つ場合、負例に偏ったデータが大半 検索連動広告ではCTRが数% 通常の識別モデルでは、データの大半が負例のため、汎化性能が低い 低い汎化性能のため、10-fold・CVとかABテストとかで性能を担保する バイアス高い・・・ 基本的な疑問 人間の観測測度で、データがスパース性を持つのでは? 神様の観測測度で、データはデンス性を持っているはず? PU(Positive Unlabeled) Learning データをスパースからデンスにし、スパース正則化でRecallを上げる 今回の論文はスパース正則化ではない 神様と人間の中間を目指す!! Likely Positive(注)後述とLikely Negativeにより情報がデンスになる 例えば短文データの場合、同義語 への拡張が識別可能性を上げる
  • 3. 本論文のタスク具体例 -同じ商品なのに、レビューが全く違う- 異なるユーザー嗜好でレビューが変化するのは望ましい ただし、ユーザーレビューが他ユーザーに有益とは限らない 本論文は、ユーザーを欺くレビューを発見するタスクの実証 ECサイトの品質向上を狙った応用が考えられる 3 EMNLP2014読み会@PFI レビューがユーザー の役に立たない レビューがユーザー の役に立つ
  • 4. アイディア①:スパースからデンスへ -|Reliable Negative| ≫|Positive| - 典型的な例として、データが負例に偏っている場合がある 負例ラベルを持つデータには、正例を持ってもよいものもある 正例ラベル(=P)、ラベルなしデータ(=U)が与えられた時、 本当の意味での負例(RN)が識別できれば、U/RNが分かる U/RNをさらに、Likely Positive(LP)・Likely- -Negatibe(LN)として分類し、学習データをデンスにする ことで、学習関数の識別可能性を上げる ただし、本研究ではスパース正則化は議論の対象外 4 EMNLP2014読み会@PFI
  • 5. アイディア②:先行研究との違い -{Unlabelled/Reliable Negative}を使う- ノーテーション P = Positive samples U = Unlabelledsamples RN = Reliable Negative samples U/RN = Unlabelled/ Reliable Negative samples 先行研究① P・RNをのみから学習関数を求める為、識別可能性に限界がある 先行研究② P・RN・U/RNを使う 本研究 P・RN・U/RNを使い、学習関数を求める。他方、特徴量生成の 際、global・local特徴量を考慮する事で、識別可能性を高める 5 EMNLP2014読み会@PFI U/RNをポジ・ネガを識別する特徴量ソースとして 利用できれば苦労しないが・・・
  • 6. 先行研究の結果 -U/RNの活用と特徴量生成の工夫- 6 EMNLP2014読み会@PFI U/RNをポジ・ネガ識別の新たな特徴量ソースとして 利用すれば識別可能性は上がる 本研究では、global・local特徴量ソースをマージしている U/RNを使用 -Global SPUL : global特徴量のみを考慮 -Local SPUL : local特徴量のみを考慮 -LELC : SPULと異なる点は、特徴量にglobal・local性を考慮しない U/RNを使用しない -Spy-EM : SpyでRNを抽出し、NBで学習関数推定 -Roc-SVM : RocchioでRNを抽出し、SVMで学習関数推定 ポジ・ネガ識別の特徴量 ソースとしてU/RNを利用 [11 Xiao] IJCAI, Similarity-Based Approach for Positive and UnlabelledLearning
  • 7. 問題設定 -PU Learningと計算手順- Given Positiveデータとラベルなしデータ Positiveデータ、{“+1”:秋口には飲みたくなるビール} ラベルなしデータ、{“null”:苦みのあるプレミアムビール} Then Step1 : Reliable Negative Extraction Step2 : PとRNを使ったポジ・ネガの単語表現(ベクトル)作成 Step3 : Step2で計算した単語表現によるLPとLN構築 Step4 : P∪LP・RN∪LNを使った、ソフトSVMによる識別予測 7 EMNLP2014読み会@PFI P U RN LP LN PとRNがポジ・ネガ を表現していれば よいLP・LN を構築できる・・・
  • 8. PとRNを使ったポジ・ネガの単語表現構築 -LDAにより(文書内)単語に潜在意味を付与- 抽出したRNにLDAを適用し、単語トピックを同定。 次に、各レビュー文書を以下のような表現に変換; {“トピック”:青, “単語”:国境の長い, “φ”:1.0e-5} 1レビューを上記JSONの集まりと考え、 k-meansでRNをクラスタリング(コサイン類似度) ただし、内積を計算する際、トピックが異なる場合はゼロ 8 EMNLP2014読み会@PFI [持橋大地] 機械学習に基づく自然言語処理, IBIS 2013 tutorial 論文中にはLDAを使ったとだけ 記述。Multi Grain-LDAなどの 記述なし。また、どの様にBoWを 作ったかも記述なし・・・ スパースなデータでk-meansで大丈夫? Sparse k-meansとかもあるが・・・
  • 9. PとRNを使ったポジ・ネガの単語表現構築 -RNで作成したクラスターがネガ表現としてGood- PとRN(= Ui=1RNi)を使ってn個のp・nの単語ベクトル構築 従来 レビュー文にtf-idfを適用してからk-means 割り引いた頻度情報でクラスタリング 提案手法 レビュー文にLDAを適用してからk-means 潜在意味を獲得 9 EMNLP2014読み会@PFI n n p・nがより リッチな情報に
  • 10. P∪LP・RN∪LNを使った、識別予測(ソフトSVM) -新規性:Global・Local特徴量のマージ- Population Property : Global特徴量 Individual Property : Local特徴量 Similarity Weight : Global特徴量+ Local特徴量 10 EMNLP2014読み会@PFI 先行研究の SPUL Localに相当 先行研究の SPUL Globalに相当 提案手法の MPIPULに相当
  • 11. データ - Positive and Unlabelled sample -  6977レビューがPositiveとして記録(TripAdvisor)  ただし、Positiveレビューの内、以下を除去 1. 5つ星でないレビュー 2. 英語でないレビュー 3. 75文字未満のレビュー 4. 初めてレビューを書き込んだ人の場合は、除去 11 EMNLP2014読み会@PFI Likely Positiveとして機能す るのは1・3・4 Positive Unlabelled 訓練データ72 648 720 Positive decceptive 訓練データ360 360 720 Positive decceptive テストデータ40 40 80 訓練データのデータ量を20%・30%・ 40%と変えて頑強性も評価 訓練データの内訳
  • 12. 結果① -人手の評価- 3人にテストデータのラベルを予測させた 個々人のバイアスを除くため、 多数決による予測ラベル決定 3人中2人がP(ポジ)と判断した時、P(ポジ) 全会一致による欺くレビューの決定 3人中3人がN(ネガ)と判断した時、N(ネガ) → 人間は、ユーザーを欺くレビューを62.4%の正確性で予測 12 EMNLP2014読み会@PFI 注) ユーザーを欺くレビュー(ネガ) を予測できた場合。 よくある、 Precision is ポジ Recall isポジ+ネガ ではないので注意
  • 13. 結果② -実験結果:提案手法、MPIPUL - 13 EMNLP2014読み会@PFI Global特徴量のみを考慮 Local特徴量のみを考慮 ①LDAを用いた潜在意味獲得②Global・Local特徴量 をマージ LDAを利用したことによる性能向上の考察 SPUL-local(global) vs SPUL-local(global)-ldaは・・・ Global・Local特徴量のマージによる性能向上の考察 SPUL-local(global)-ldaとMPIPULを比較すべきでは・・・ スパースなデータにk-meansで大丈夫・・・ Stopwordを除きk-meansで文書クラスタリングした場合は・・・ Sparse k-meansあるけど・・・ 本タスクの比較として適切でない
  • 14. 個人的な気づき -サービスのステージにおける手法選択- モデルという観点では、RN・Pが増えるほど半教師から 教師あり学習へ近づき、LP・LNに対する考察が深まる LP・LNの考察が性能向上という観点で重要!! 実務という観点では、サービス開始時期はコールドスタート になるので、機械情報推薦する場合は拡張の工夫が必要。 本手法はLP・LNも考慮するので適している 14 EMNLP2014読み会@PFI RN P ---: サービス構築の為の累積コスト:企業利益(日次) 時間 サービス開始時期 サービス安定時期
  • 15. 参考文献 Positive Unlabeled Learning for Data Stream Classification Similarity-Based Approach for Positive and UnlabelledLearning The effect of adding relevance information in a relevance feedback environment Building Text Classifiers Using Positive and Unlabeled Examples Partially Supervised Classification of Text Documents Experimental Perspectives on Learning from Imbalanced Data 15 EMNLP2014読み会@PFI