research.pdf

研究紹介
広島市立大学大学院
知能工学専攻データ工学研究室
渡辺春希（2267026）

はじめに
・SNSの発展により多くの人が情報を発信できるようになった
・フェイクニュースが投稿され人々を混乱に巻き込んでいる
・人手によるファクトチェックでは時間がかかり情報の真偽を
即座に知ることが出来ない
機械学習や自然言語処理の技術を用いてフェイクニュースかどう
かテキスト分類を行う必要がある
3

研究課題
• 常に学習に必要なデータが十分にあるとは限らない
未知の話題やマイナーな話題など
• 少ないデータ量でもモデルを学習させる技術が必要
手法としてデータの拡張を使用
4

従来手法:EDA
・同義語置換，同義語挿入，単語移動は処理を𝑁回行う
・𝑁 = 𝛼𝑙を満たし，𝛼は単語の変換率，𝑙はテキストの単語数
・ストップワードに関しては変換を行わない
5
I have a pen
I have a pen I have a pen
I have a pen
I have a pencil
Pen have a I I have a
Pencil I have a pen
同義語置換
単語移動単語削除
同義語挿入

EDAの欠点
・同義語置換のみを行うように𝛼の値を設定
・EDAでは重要な単語に関して変形が行われる可能性がある．
・テキストの情報を損ねないようなデータ拡張が必要
Taro will do good
business together
Cocoyam will do salutary
stage business together
6

改善案
• 変形が行われた単語の品詞によってテキスト
の意味が変わりやすい
名詞主語や目的語が変化
動詞人物が行ったことが変化
データ拡張の際に指定された品詞の単語に関しては変形
が行われないようにする
7

提案手法：PDA
・データ拡張の際に変形を行わない単語の品詞を指定
・名詞を指定したため，Taroとbusinessは変形が行われない
・ストップワードにデータセットの頻出単語を追加
Taro will do good
business together
Cocoyam will do salutary
stage business together
Taro will do estimable
business unitedly
8
EDAで生成したテキスト
PDAで生成したテキスト

PDAによるフェイクニュース検出
9

使用データセット
• シリア戦争に関するデータセット，FA-KESを使用
• 426件のリアルニュースと378件のフェイクニュースから構成
• ラベル付けの基準は，死因，死者の数，殺害を行った組織
10

ラベル付け
11
・VDCの情報と比較し，Gower距離を
算出
・距離を基準にクラスタリングを行い
自動でラベル付け
2次元投影によるクラスタリング

実験設定
• 従来のEDAと提案手法を比較
• 7つの機械学習モデルとHybrid CNN-RNNを使用
• 提案手法のパラメータ
増やした数:2倍，3倍，4倍，5倍
品詞:名詞(NN)，動詞(VB)
操作:全て(ALL)，単語削除(RD)，同義語置換(SR)，
単語削除と同義語置換(RD&SR)
𝛼の値:0.05~0.10と0.10~0.50
12

Hybrid CNN-RNN
13
CNN LSTM 分類
CNNとLSRMを用いて分類を行う
空間的，時間的な特徴を抽出

実験結果
パラメータ正解率適合率再現率 F値
2倍,0.06,RD,
NN,K近傍法 0.621 0.616 0.654 0.635
3倍,0.10,RD,
VB,K近傍法 0.609 0.607 0.630 0.618
2倍,0.05,SR,
NN,アダブースト 0.602 0.598 0.642 0.619
2倍,0.30,
SR,K近傍法 0.615 0.634 0.556 0.592
3倍,0.30,
ALL,アダブースト 0.609 0.604 0.642 0.623
3倍,0.05,
RD&SR,SGD 0.609 0.621 0.568 0.594
提案手法による分類結果
EDAによる分類結果
14

考察
• 品詞の指定やストップワードの追加によりテキストの情報が保
持され，従来のEDAよりも高い正解率を示した
• データを増やす量を適切に選ぶ必要がある
15

まとめ
• テキストデータの拡張を行いフェイクニュース検出を行った
• 従来のEDAと比較し最も高い正解率を示した
PDA：62.1％
EDA：61.5％
• 今後の課題として異なるデータセットでも有効かどうか調査
することが挙げられる
16

現状
17
⚫マルチモーダルやグラフベースで検討するも...
⚫データの拡張や水増しは...
ある程度研究がされている
・再翻訳の使用。
・フェイクニュース検出のためのデータ拡張は
行われていない？
テキストデータの拡張論文からヒントを得る

提案アプローチ
19
①データ拡張 ②ラベル付与 ③学習，分類
①PDA,EDAを用いてテキストデータの拡張
②半教師あり学習などを用いて拡張されたデータのラベル付与
③モデルを学習させテストデータの分類
単語が変換すればラベルが変わる可能性がある。そこで

半教師あり学習：Delta-training
20
・事前学習済みの単語埋め込みはランダムに初期化された
単語埋め込みよりも優れているという仮説を使用
⚫“Delta-training: Simple Semi-Supervised Text
Classification using Pretrained Word Embeddings”
Hwiyeol Jo,Ceyda Cinarel.
(https://arxiv.org/abs/1901.07651)
・2つの学習器を用いたアンサンブル分類器

モデルの概要
21
①それぞれの分散表現でモデルの学習を行う
②検証データを用いて早期停止を行う
③学習したそれぞれのモデルを用いて未ラベルデータの分類
④異なる分類結果のデータを訓練データに追加する

Delta-trainingのイメージ
22
勉強で例えると...
A?B?
①難問（未知ラベル） ②質問（分類） ③判断（ラベル割り当て）
Bだな！
A! B!
①分からない問題に対し，2人の知り合いに質問する。
②二人の答えがともに違った。
③優秀な方の回答を参考にする。

実験設定
23
Epoch数：10
単語の分散表現：Gloveの100次元
入力の単語数：訓練データの1件当たりの平均単語数（約300）
最適化関数：Adam
損失関数：バイナリクロスエントロピー
評価指標
正解率,適合率,再現率,F値の5回の平均値を使用
使用モデル：Bi-LSTM,CNN

パラメータ：EDA,PDA
24
増やした数：2~5倍
品詞：名詞,動詞
操作：全て(ALL),単語削除(RD),同義語置換(SR),
単語削除と同義語置換(RD&SR)
αの値：0.05,0.10,0.50
・EDAに関しては品詞以外同じ
・合計 96+48=144種類のデータセットを作成した
・“FA-KES” の記事の日付が新しいテキストをテストデータとする

結果：PDA
25
SR,0.10,NN,3倍,Bi-LSTM 0.568 0.557 0.552 0.546
SR,0.05,VB,4倍,Bi-LSTM 0.565 0.555 0.549 0.546
SR,0.05,VB,2倍,Bi-LSTM 0.558 0.540 0.533 0.521
SR,0.10,VB,4倍,Bi-LSTM 0.558 0.546 0.544 0.542
ALL,0.50,VB,3倍,CNN 0.555 0.536 0.528 0.508
RD,0.50,NN,4倍,Bi-LSTM 0.581 0.579 0.577 0.575
RD,0.50,VB,4倍,Bi-LSTM 0.575 0.562 0.533 0.482
RD&SR,0.10,VB,4倍,Bi-LSTM 0.570 0.554 0.539 0.518
RD,0.10,VB,2倍,CNN 0.561 0.416 0.508 0.384
RD&SR,0.05,NN,2倍,CNN 0.560 0.629 0.505 0.372
PDAの上位5件
PDAのDelta-trainingの上位5件

結果：EDA
26
RD&SR,0.50,5倍,Bi-LSTM 0.570 0.552 0.541 0.522
RD&SR,0.50,4倍,Bi-LSTM 0.559 0.546 0.541 0.536
SR,0.50,5倍,Bi-LSTM 0.558 0.550 0.543 0.535
SR,0.50,2倍,Bi-LSTM 0.558 0.545 0.533 0.515
SR,0.10,2倍,CNN 0.555 0.537 0.526 0.506
EDAの上位5件
EDAのDelta-trainingの上位5件
RD&SR,0.50,4倍,Bi-LSTM 0.590 0.582 0.565 0.552
RD&SR,0.10,5倍,Bi-LSTM 0.589 0.580 0.567 0.558
ALL,0.05,4倍,Bi-LSTM 0.565 0.558 0.536 0.512
RD&SR,0.50,4倍,Bi-LSTM 0.565 0.544 0.522 0.462
RD&SR,0.50,5倍, Bi-LSTM 0.564 0.563 0.562 0.558

Delta-trainingのみの結果
27
RD&SR,0.50,4倍,Bi-LSTM(EDA) 0.590 0.582 0.565 0.552
RD&SR,0.10,5倍,Bi-LSTM(EDA) 0.589 0.580 0.567 0.558
RD,0.50,NN,4倍,Bi-LSTM(PDA) 0.581 0.579 0.577 0.575
RD,0.50,VB,4倍,Bi-LSTM(PDA) 0.575 0.562 0.533 0.482
RD&SR,0.10,VB,4倍,Bi-LSTM(PDA) 0.570 0.554 0.539 0.518
Delta-trainingの上位5件
Delta-trainingの下位5件
SR,0.10,3倍,Bi-LSTM(EDA) 0.407 0.378 0.389 0.379
SR,0.05,5倍,Bi-LSTM(EDA) 0.422 0.426 0.445 0.397
SR,0.05,NN,4倍,Bi-LSTM(PDA) 0.422 0.435 0.448 0.403
SR,0.50,VB,4倍,Bi-LSTM(PDA) 0.427 0.439 0.459 0.396
RD,0.10,VB,5倍,Bi-LSTM(PDA) 0.427 0.424 0.424 0.422

結果から考えたこと
28
⚫ PDA：変換する単語に制限を設けている
⚫ EDA：変換する単語に制限を設けていない
幅広いテキストデータが生成されやすい
生成されるテキストデータが似たようなものになりやすい
ラベル付与を行う場合，幅広いテキストデータを
生成する手法が効果的だと考えられる

今後行うこと
29
・追加されたデータの可視化の実施
Delta-trainingで追加されたデータ
は決定境界付近のデータなのか？
分散表現に対しt-SNEを用いて2次元上にプロットする

先行研究の結果
モデル正解率適合率再現率 F値
ロジスティック回帰(LR) 0.490 0.500 0.490 0.490
ランダムフォレスト(RF) 0.530 0.560 0.530 0.540
多項式ナイーブベイズ(MNB) 0.380 0.390 0.380 0.320
SGD 0.470 0.490 0.470 0.480
K近傍法(KNN) 0.570 0.580 0.570 0.570
決定木(DT) 0.550 0.560 0.550 0.550
アダブースト(AB) 0.470 0.490 0.470 0.470
Hybrid CNN-RNN 0.600 0.590 0.600 0.590
32

品詞を複数指定した場合
33
5倍,0.06,SR,
K近傍法 0.615 0.623 0.593 0.608
2倍,0.06,RD,
K近傍法 0.602 0.605 0.605 0.605
4倍,0.20,ALL,
K近傍法 0.602 0.613 0.568 0.590
複数の場合の分類結果
提案手法による分類結果
2倍,0.06,RD,
NN,K近傍法 0.621 0.616 0.654 0.635
3倍,0.10,RD,
VB,K近傍法 0.609 0.607 0.630 0.618
2倍,0.05,SR,
NN,アダブースト 0.602 0.598 0.642 0.619
単体の場合の分類結果

単語埋め込みの比較
34
TT:Randで正しい予測をし，Embで間違った予測をしたデータ
FT:Embで正しい予測をし，Randで間違った予測をしたデータ
FF:RandとEmbともに間違った予測をしたデータ

Self Trainingとの比較
35
異なるデータセットにおいてもDelta-trainingが優れている

research.pdf

Recommandé

Recommandé

Contenu connexe

En vedette

En vedette (20)

research.pdf