SlideShare une entreprise Scribd logo
1  sur  35
Télécharger pour lire hors ligne
研究紹介
広島市立大学大学院
知能工学専攻 データ工学研究室
渡辺 春希(2267026)
学部での研究
2
はじめに
・SNSの発展により多くの人が情報を発信できるようになった
・フェイクニュースが投稿され人々を混乱に巻き込んでいる
・人手によるファクトチェックでは時間がかかり情報の真偽を
即座に知ることが出来ない
機械学習や自然言語処理の技術を用いてフェイクニュースかどう
かテキスト分類を行う必要がある
3
研究課題
• 常に学習に必要なデータが十分にあるとは限らない
未知の話題やマイナーな話題など
• 少ないデータ量でもモデルを学習させる技術が必要
手法としてデータの拡張を使用
4
従来手法:EDA
・同義語置換,同義語挿入,単語移動は処理を𝑁回行う
・𝑁 = 𝛼𝑙を満たし,𝛼は単語の変換率,𝑙はテキストの単語数
・ストップワードに関しては変換を行わない
5
I have a pen
I have a pen I have a pen
I have a pen
I have a pencil
Pen have a I I have a
Pencil I have a pen
同義語置換
単語移動 単語削除
同義語挿入
EDAの欠点
・同義語置換のみを行うように𝛼の値を設定
・EDAでは重要な単語に関して変形が行われる可能性がある.
・テキストの情報を損ねないようなデータ拡張が必要
Taro will do good
business together
Cocoyam will do salutary
stage business together
6
改善案
• 変形が行われた単語の品詞によってテキスト
の意味が変わりやすい
名詞 主語や目的語が変化
動詞 人物が行ったことが変化
データ拡張の際に指定された品詞の単語に関しては変形
が行われないようにする
7
提案手法:PDA
・データ拡張の際に変形を行わない単語の品詞を指定
・名詞を指定したため,Taroとbusinessは変形が行われない
・ストップワードにデータセットの頻出単語を追加
Taro will do good
business together
Cocoyam will do salutary
stage business together
Taro will do estimable
business unitedly
8
EDAで生成したテキスト
PDAで生成したテキスト
PDAによるフェイクニュース検出
9
使用データセット
• シリア戦争に関するデータセット,FA-KESを使用
• 426件のリアルニュースと378件のフェイクニュースから構成
• ラベル付けの基準は,死因,死者の数,殺害を行った組織
10
ラベル付け
11
・VDCの情報と比較し,Gower距離を
算出
・距離を基準にクラスタリングを行い
自動でラベル付け
2次元投影によるクラスタリング
実験設定
• 従来のEDAと提案手法を比較
• 7つの機械学習モデルとHybrid CNN-RNNを使用
• 提案手法のパラメータ
増やした数:2倍,3倍,4倍,5倍
品詞:名詞(NN),動詞(VB)
操作:全て(ALL),単語削除(RD),同義語置換(SR),
単語削除と同義語置換(RD&SR)
𝛼の値:0.05~0.10と0.10~0.50
12
Hybrid CNN-RNN
13
CNN LSTM 分類
CNNとLSRMを用いて分類を行う
空間的,時間的な特徴を抽出
実験結果
パラメータ 正解率 適合率 再現率 F値
2倍,0.06,RD,
NN,K近傍法 0.621 0.616 0.654 0.635
3倍,0.10,RD,
VB,K近傍法 0.609 0.607 0.630 0.618
2倍,0.05,SR,
NN,アダブースト 0.602 0.598 0.642 0.619
パラメータ 正解率 適合率 再現率 F値
2倍,0.30,
SR,K近傍法 0.615 0.634 0.556 0.592
3倍,0.30,
ALL,アダブースト 0.609 0.604 0.642 0.623
3倍,0.05,
RD&SR,SGD 0.609 0.621 0.568 0.594
提案手法による分類結果
EDAによる分類結果
14
考察
• 品詞の指定やストップワードの追加によりテキストの情報が保
持され,従来のEDAよりも高い正解率を示した
• データを増やす量を適切に選ぶ必要がある
15
まとめ
• テキストデータの拡張を行いフェイクニュース検出を行った
• 従来のEDAと比較し最も高い正解率を示した
PDA:62.1%
EDA:61.5%
• 今後の課題として異なるデータセットでも有効かどうか調査
することが挙げられる
16
現状
17
⚫マルチモーダルやグラフベースで検討するも...
⚫データの拡張や水増しは...
ある程度研究がされている
・再翻訳の使用。
・フェイクニュース検出のためのデータ拡張は
行われていない?
テキストデータの拡張論文からヒントを得る
大学院での研究
18
提案アプローチ
19
①データ拡張 ②ラベル付与 ③学習,分類
①PDA,EDAを用いてテキストデータの拡張
②半教師あり学習などを用いて拡張されたデータのラベル付与
③モデルを学習させテストデータの分類
単語が変換すればラベルが変わる可能性がある。そこで
半教師あり学習:Delta-training
20
・事前学習済みの単語埋め込みはランダムに初期化された
単語埋め込みよりも優れているという仮説を使用
⚫“Delta-training: Simple Semi-Supervised Text
Classification using Pretrained Word Embeddings”
Hwiyeol Jo,Ceyda Cinarel.
(https://arxiv.org/abs/1901.07651)
・2つの学習器を用いたアンサンブル分類器
モデルの概要
21
①それぞれの分散表現でモデルの学習を行う
②検証データを用いて早期停止を行う
③学習したそれぞれのモデルを用いて未ラベルデータの分類
④異なる分類結果のデータを訓練データに追加する
Delta-trainingのイメージ
22
勉強で例えると...
A?B?
①難問(未知ラベル) ②質問(分類) ③判断(ラベル割り当て)
Bだな!
A! B!
①分からない問題に対し,2人の知り合いに質問する。
②二人の答えがともに違った。
③優秀な方の回答を参考にする。
実験設定
23
Epoch数:10
単語の分散表現:Gloveの100次元
入力の単語数:訓練データの1件当たりの平均単語数(約300)
最適化関数:Adam
損失関数:バイナリクロスエントロピー
評価指標
正解率,適合率,再現率,F値の5回の平均値を使用
使用モデル:Bi-LSTM,CNN
パラメータ:EDA,PDA
24
増やした数:2~5倍
品詞:名詞,動詞
操作:全て(ALL),単語削除(RD),同義語置換(SR),
単語削除と同義語置換(RD&SR)
αの値:0.05,0.10,0.50
・EDAに関しては品詞以外同じ
・合計 96+48=144種類のデータセットを作成した
・“FA-KES” の記事の日付が新しいテキストをテストデータとする
結果:PDA
25
パラメータ 正解率 適合率 再現率 F値
SR,0.10,NN,3倍,Bi-LSTM 0.568 0.557 0.552 0.546
SR,0.05,VB,4倍,Bi-LSTM 0.565 0.555 0.549 0.546
SR,0.05,VB,2倍,Bi-LSTM 0.558 0.540 0.533 0.521
SR,0.10,VB,4倍,Bi-LSTM 0.558 0.546 0.544 0.542
ALL,0.50,VB,3倍,CNN 0.555 0.536 0.528 0.508
パラメータ 正解率 適合率 再現率 F値
RD,0.50,NN,4倍,Bi-LSTM 0.581 0.579 0.577 0.575
RD,0.50,VB,4倍,Bi-LSTM 0.575 0.562 0.533 0.482
RD&SR,0.10,VB,4倍,Bi-LSTM 0.570 0.554 0.539 0.518
RD,0.10,VB,2倍,CNN 0.561 0.416 0.508 0.384
RD&SR,0.05,NN,2倍,CNN 0.560 0.629 0.505 0.372
PDAの上位5件
PDAのDelta-trainingの上位5件
結果:EDA
26
パラメータ 正解率 適合率 再現率 F値
RD&SR,0.50,5倍,Bi-LSTM 0.570 0.552 0.541 0.522
RD&SR,0.50,4倍,Bi-LSTM 0.559 0.546 0.541 0.536
SR,0.50,5倍,Bi-LSTM 0.558 0.550 0.543 0.535
SR,0.50,2倍,Bi-LSTM 0.558 0.545 0.533 0.515
SR,0.10,2倍,CNN 0.555 0.537 0.526 0.506
EDAの上位5件
EDAのDelta-trainingの上位5件
パラメータ 正解率 適合率 再現率 F値
RD&SR,0.50,4倍,Bi-LSTM 0.590 0.582 0.565 0.552
RD&SR,0.10,5倍,Bi-LSTM 0.589 0.580 0.567 0.558
ALL,0.05,4倍,Bi-LSTM 0.565 0.558 0.536 0.512
RD&SR,0.50,4倍,Bi-LSTM 0.565 0.544 0.522 0.462
RD&SR,0.50,5倍, Bi-LSTM 0.564 0.563 0.562 0.558
Delta-trainingのみの結果
27
パラメータ 正解率 適合率 再現率 F値
RD&SR,0.50,4倍,Bi-LSTM(EDA) 0.590 0.582 0.565 0.552
RD&SR,0.10,5倍,Bi-LSTM(EDA) 0.589 0.580 0.567 0.558
RD,0.50,NN,4倍,Bi-LSTM(PDA) 0.581 0.579 0.577 0.575
RD,0.50,VB,4倍,Bi-LSTM(PDA) 0.575 0.562 0.533 0.482
RD&SR,0.10,VB,4倍,Bi-LSTM(PDA) 0.570 0.554 0.539 0.518
Delta-trainingの上位5件
Delta-trainingの下位5件
パラメータ 正解率 適合率 再現率 F値
SR,0.10,3倍,Bi-LSTM(EDA) 0.407 0.378 0.389 0.379
SR,0.05,5倍,Bi-LSTM(EDA) 0.422 0.426 0.445 0.397
SR,0.05,NN,4倍,Bi-LSTM(PDA) 0.422 0.435 0.448 0.403
SR,0.50,VB,4倍,Bi-LSTM(PDA) 0.427 0.439 0.459 0.396
RD,0.10,VB,5倍,Bi-LSTM(PDA) 0.427 0.424 0.424 0.422
結果から考えたこと
28
⚫ PDA:変換する単語に制限を設けている
⚫ EDA:変換する単語に制限を設けていない
幅広いテキストデータが生成されやすい
生成されるテキストデータが似たようなものになりやすい
ラベル付与を行う場合,幅広いテキストデータを
生成する手法が効果的だと考えられる
今後行うこと
29
・追加されたデータの可視化の実施
Delta-trainingで追加されたデータ
は決定境界付近のデータなのか?
分散表現に対しt-SNEを用いて2次元上にプロットする
30
補足
先行研究の結果
モデル 正解率 適合率 再現率 F値
ロジスティック回帰(LR) 0.490 0.500 0.490 0.490
ランダムフォレスト(RF) 0.530 0.560 0.530 0.540
多項式ナイーブベイズ(MNB) 0.380 0.390 0.380 0.320
SGD 0.470 0.490 0.470 0.480
K近傍法(KNN) 0.570 0.580 0.570 0.570
決定木(DT) 0.550 0.560 0.550 0.550
アダブースト(AB) 0.470 0.490 0.470 0.470
Hybrid CNN-RNN 0.600 0.590 0.600 0.590
32
品詞を複数指定した場合
33
パラメータ 正解率 適合率 再現率 F値
5倍,0.06,SR,
K近傍法 0.615 0.623 0.593 0.608
2倍,0.06,RD,
K近傍法 0.602 0.605 0.605 0.605
4倍,0.20,ALL,
K近傍法 0.602 0.613 0.568 0.590
複数の場合の分類結果
提案手法による分類結果
パラメータ 正解率 適合率 再現率 F値
2倍,0.06,RD,
NN,K近傍法 0.621 0.616 0.654 0.635
3倍,0.10,RD,
VB,K近傍法 0.609 0.607 0.630 0.618
2倍,0.05,SR,
NN,アダブースト 0.602 0.598 0.642 0.619
単体の場合の分類結果
単語埋め込みの比較
34
TT:Randで正しい予測をし,Embで間違った予測をしたデータ
FT:Embで正しい予測をし,Randで間違った予測をしたデータ
FF:RandとEmbともに間違った予測をしたデータ
Self Trainingとの比較
35
異なるデータセットにおいてもDelta-trainingが優れている

Contenu connexe

En vedette

2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by Hubspot2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by HubspotMarius Sescu
 
Everything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPTEverything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPTExpeed Software
 
Product Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage EngineeringsProduct Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage EngineeringsPixeldarts
 
How Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthHow Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthThinkNow
 
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfAI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfmarketingartwork
 
PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024Neil Kimberley
 
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)contently
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024Albert Qian
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsKurio // The Social Media Age(ncy)
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Search Engine Journal
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summarySpeakerHub
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next Tessa Mero
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentLily Ray
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best PracticesVit Horky
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project managementMindGenius
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...RachelPearson36
 

En vedette (20)

2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by Hubspot2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by Hubspot
 
Everything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPTEverything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPT
 
Product Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage EngineeringsProduct Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage Engineerings
 
How Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthHow Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental Health
 
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfAI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
 
Skeleton Culture Code
Skeleton Culture CodeSkeleton Culture Code
Skeleton Culture Code
 
PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024
 
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie Insights
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search Intent
 
How to have difficult conversations
How to have difficult conversations How to have difficult conversations
How to have difficult conversations
 
Introduction to Data Science
Introduction to Data ScienceIntroduction to Data Science
Introduction to Data Science
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best Practices
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project management
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
 

research.pdf