Soumettre la recherche
Mettre en ligne
research.pdf
•
0 j'aime
•
14 vues
S
ssuserf94232
Suivre
Here's my research
Lire moins
Lire la suite
Données & analyses
Signaler
Partager
Signaler
Partager
1 sur 35
Télécharger maintenant
Télécharger pour lire hors ligne
Recommandé
information_fake_2.pdf
information_fake_2.pdf
ssuserf94232
make_information_search.pdf
make_information_search.pdf
ssuserf94232
Hiro it202105
Hiro it202105
ssuserf94232
Deeplearn4
Deeplearn4
ssuserf94232
Deeplearning3
Deeplearning3
ssuserf94232
Machine&data
Machine&data
ssuserf94232
Deep learning2
Deep learning2
ssuserf94232
Deeplearining1
Deeplearining1
ssuserf94232
Recommandé
information_fake_2.pdf
information_fake_2.pdf
ssuserf94232
make_information_search.pdf
make_information_search.pdf
ssuserf94232
Hiro it202105
Hiro it202105
ssuserf94232
Deeplearn4
Deeplearn4
ssuserf94232
Deeplearning3
Deeplearning3
ssuserf94232
Machine&data
Machine&data
ssuserf94232
Deep learning2
Deep learning2
ssuserf94232
Deeplearining1
Deeplearining1
ssuserf94232
2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by Hubspot
Marius Sescu
Everything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPT
Expeed Software
Product Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage Engineerings
Pixeldarts
How Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental Health
ThinkNow
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
marketingartwork
Skeleton Culture Code
Skeleton Culture Code
Skeleton Technologies
PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024
Neil Kimberley
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)
contently
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024
Albert Qian
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie Insights
Kurio // The Social Media Age(ncy)
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024
Search Engine Journal
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary
SpeakerHub
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd
Clark Boyd
Getting into the tech field. what next
Getting into the tech field. what next
Tessa Mero
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Lily Ray
How to have difficult conversations
How to have difficult conversations
Rajiv Jayarajah, MAppComm, ACC
Introduction to Data Science
Introduction to Data Science
Christy Abraham Joy
Time Management & Productivity - Best Practices
Time Management & Productivity - Best Practices
Vit Horky
The six step guide to practical project management
The six step guide to practical project management
MindGenius
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
RachelPearson36
Contenu connexe
En vedette
2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by Hubspot
Marius Sescu
Everything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPT
Expeed Software
Product Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage Engineerings
Pixeldarts
How Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental Health
ThinkNow
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
marketingartwork
Skeleton Culture Code
Skeleton Culture Code
Skeleton Technologies
PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024
Neil Kimberley
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)
contently
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024
Albert Qian
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie Insights
Kurio // The Social Media Age(ncy)
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024
Search Engine Journal
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary
SpeakerHub
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd
Clark Boyd
Getting into the tech field. what next
Getting into the tech field. what next
Tessa Mero
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Lily Ray
How to have difficult conversations
How to have difficult conversations
Rajiv Jayarajah, MAppComm, ACC
Introduction to Data Science
Introduction to Data Science
Christy Abraham Joy
Time Management & Productivity - Best Practices
Time Management & Productivity - Best Practices
Vit Horky
The six step guide to practical project management
The six step guide to practical project management
MindGenius
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
RachelPearson36
En vedette
(20)
2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by Hubspot
Everything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPT
Product Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage Engineerings
How Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental Health
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
Skeleton Culture Code
Skeleton Culture Code
PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie Insights
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd
Getting into the tech field. what next
Getting into the tech field. what next
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search Intent
How to have difficult conversations
How to have difficult conversations
Introduction to Data Science
Introduction to Data Science
Time Management & Productivity - Best Practices
Time Management & Productivity - Best Practices
The six step guide to practical project management
The six step guide to practical project management
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
research.pdf
1.
研究紹介 広島市立大学大学院 知能工学専攻 データ工学研究室 渡辺 春希(2267026)
2.
学部での研究 2
3.
はじめに ・SNSの発展により多くの人が情報を発信できるようになった ・フェイクニュースが投稿され人々を混乱に巻き込んでいる ・人手によるファクトチェックでは時間がかかり情報の真偽を 即座に知ることが出来ない 機械学習や自然言語処理の技術を用いてフェイクニュースかどう かテキスト分類を行う必要がある 3
4.
研究課題 • 常に学習に必要なデータが十分にあるとは限らない 未知の話題やマイナーな話題など • 少ないデータ量でもモデルを学習させる技術が必要 手法としてデータの拡張を使用 4
5.
従来手法:EDA ・同義語置換,同義語挿入,単語移動は処理を𝑁回行う ・𝑁 = 𝛼𝑙を満たし,𝛼は単語の変換率,𝑙はテキストの単語数 ・ストップワードに関しては変換を行わない 5 I
have a pen I have a pen I have a pen I have a pen I have a pencil Pen have a I I have a Pencil I have a pen 同義語置換 単語移動 単語削除 同義語挿入
6.
EDAの欠点 ・同義語置換のみを行うように𝛼の値を設定 ・EDAでは重要な単語に関して変形が行われる可能性がある. ・テキストの情報を損ねないようなデータ拡張が必要 Taro will do
good business together Cocoyam will do salutary stage business together 6
7.
改善案 • 変形が行われた単語の品詞によってテキスト の意味が変わりやすい 名詞 主語や目的語が変化 動詞
人物が行ったことが変化 データ拡張の際に指定された品詞の単語に関しては変形 が行われないようにする 7
8.
提案手法:PDA ・データ拡張の際に変形を行わない単語の品詞を指定 ・名詞を指定したため,Taroとbusinessは変形が行われない ・ストップワードにデータセットの頻出単語を追加 Taro will do
good business together Cocoyam will do salutary stage business together Taro will do estimable business unitedly 8 EDAで生成したテキスト PDAで生成したテキスト
9.
PDAによるフェイクニュース検出 9
10.
使用データセット • シリア戦争に関するデータセット,FA-KESを使用 • 426件のリアルニュースと378件のフェイクニュースから構成 •
ラベル付けの基準は,死因,死者の数,殺害を行った組織 10
11.
ラベル付け 11 ・VDCの情報と比較し,Gower距離を 算出 ・距離を基準にクラスタリングを行い 自動でラベル付け 2次元投影によるクラスタリング
12.
実験設定 • 従来のEDAと提案手法を比較 • 7つの機械学習モデルとHybrid
CNN-RNNを使用 • 提案手法のパラメータ 増やした数:2倍,3倍,4倍,5倍 品詞:名詞(NN),動詞(VB) 操作:全て(ALL),単語削除(RD),同義語置換(SR), 単語削除と同義語置換(RD&SR) 𝛼の値:0.05~0.10と0.10~0.50 12
13.
Hybrid CNN-RNN 13 CNN LSTM
分類 CNNとLSRMを用いて分類を行う 空間的,時間的な特徴を抽出
14.
実験結果 パラメータ 正解率 適合率
再現率 F値 2倍,0.06,RD, NN,K近傍法 0.621 0.616 0.654 0.635 3倍,0.10,RD, VB,K近傍法 0.609 0.607 0.630 0.618 2倍,0.05,SR, NN,アダブースト 0.602 0.598 0.642 0.619 パラメータ 正解率 適合率 再現率 F値 2倍,0.30, SR,K近傍法 0.615 0.634 0.556 0.592 3倍,0.30, ALL,アダブースト 0.609 0.604 0.642 0.623 3倍,0.05, RD&SR,SGD 0.609 0.621 0.568 0.594 提案手法による分類結果 EDAによる分類結果 14
15.
考察 • 品詞の指定やストップワードの追加によりテキストの情報が保 持され,従来のEDAよりも高い正解率を示した • データを増やす量を適切に選ぶ必要がある 15
16.
まとめ • テキストデータの拡張を行いフェイクニュース検出を行った • 従来のEDAと比較し最も高い正解率を示した PDA:62.1% EDA:61.5% •
今後の課題として異なるデータセットでも有効かどうか調査 することが挙げられる 16
17.
現状 17 ⚫マルチモーダルやグラフベースで検討するも... ⚫データの拡張や水増しは... ある程度研究がされている ・再翻訳の使用。 ・フェイクニュース検出のためのデータ拡張は 行われていない? テキストデータの拡張論文からヒントを得る
18.
大学院での研究 18
19.
提案アプローチ 19 ①データ拡張 ②ラベル付与 ③学習,分類 ①PDA,EDAを用いてテキストデータの拡張 ②半教師あり学習などを用いて拡張されたデータのラベル付与 ③モデルを学習させテストデータの分類 単語が変換すればラベルが変わる可能性がある。そこで
20.
半教師あり学習:Delta-training 20 ・事前学習済みの単語埋め込みはランダムに初期化された 単語埋め込みよりも優れているという仮説を使用 ⚫“Delta-training: Simple Semi-Supervised
Text Classification using Pretrained Word Embeddings” Hwiyeol Jo,Ceyda Cinarel. (https://arxiv.org/abs/1901.07651) ・2つの学習器を用いたアンサンブル分類器
21.
モデルの概要 21 ①それぞれの分散表現でモデルの学習を行う ②検証データを用いて早期停止を行う ③学習したそれぞれのモデルを用いて未ラベルデータの分類 ④異なる分類結果のデータを訓練データに追加する
22.
Delta-trainingのイメージ 22 勉強で例えると... A?B? ①難問(未知ラベル) ②質問(分類) ③判断(ラベル割り当て) Bだな! A!
B! ①分からない問題に対し,2人の知り合いに質問する。 ②二人の答えがともに違った。 ③優秀な方の回答を参考にする。
23.
実験設定 23 Epoch数:10 単語の分散表現:Gloveの100次元 入力の単語数:訓練データの1件当たりの平均単語数(約300) 最適化関数:Adam 損失関数:バイナリクロスエントロピー 評価指標 正解率,適合率,再現率,F値の5回の平均値を使用 使用モデル:Bi-LSTM,CNN
24.
パラメータ:EDA,PDA 24 増やした数:2~5倍 品詞:名詞,動詞 操作:全て(ALL),単語削除(RD),同義語置換(SR), 単語削除と同義語置換(RD&SR) αの値:0.05,0.10,0.50 ・EDAに関しては品詞以外同じ ・合計 96+48=144種類のデータセットを作成した ・“FA-KES” の記事の日付が新しいテキストをテストデータとする
25.
結果:PDA 25 パラメータ 正解率 適合率
再現率 F値 SR,0.10,NN,3倍,Bi-LSTM 0.568 0.557 0.552 0.546 SR,0.05,VB,4倍,Bi-LSTM 0.565 0.555 0.549 0.546 SR,0.05,VB,2倍,Bi-LSTM 0.558 0.540 0.533 0.521 SR,0.10,VB,4倍,Bi-LSTM 0.558 0.546 0.544 0.542 ALL,0.50,VB,3倍,CNN 0.555 0.536 0.528 0.508 パラメータ 正解率 適合率 再現率 F値 RD,0.50,NN,4倍,Bi-LSTM 0.581 0.579 0.577 0.575 RD,0.50,VB,4倍,Bi-LSTM 0.575 0.562 0.533 0.482 RD&SR,0.10,VB,4倍,Bi-LSTM 0.570 0.554 0.539 0.518 RD,0.10,VB,2倍,CNN 0.561 0.416 0.508 0.384 RD&SR,0.05,NN,2倍,CNN 0.560 0.629 0.505 0.372 PDAの上位5件 PDAのDelta-trainingの上位5件
26.
結果:EDA 26 パラメータ 正解率 適合率
再現率 F値 RD&SR,0.50,5倍,Bi-LSTM 0.570 0.552 0.541 0.522 RD&SR,0.50,4倍,Bi-LSTM 0.559 0.546 0.541 0.536 SR,0.50,5倍,Bi-LSTM 0.558 0.550 0.543 0.535 SR,0.50,2倍,Bi-LSTM 0.558 0.545 0.533 0.515 SR,0.10,2倍,CNN 0.555 0.537 0.526 0.506 EDAの上位5件 EDAのDelta-trainingの上位5件 パラメータ 正解率 適合率 再現率 F値 RD&SR,0.50,4倍,Bi-LSTM 0.590 0.582 0.565 0.552 RD&SR,0.10,5倍,Bi-LSTM 0.589 0.580 0.567 0.558 ALL,0.05,4倍,Bi-LSTM 0.565 0.558 0.536 0.512 RD&SR,0.50,4倍,Bi-LSTM 0.565 0.544 0.522 0.462 RD&SR,0.50,5倍, Bi-LSTM 0.564 0.563 0.562 0.558
27.
Delta-trainingのみの結果 27 パラメータ 正解率 適合率
再現率 F値 RD&SR,0.50,4倍,Bi-LSTM(EDA) 0.590 0.582 0.565 0.552 RD&SR,0.10,5倍,Bi-LSTM(EDA) 0.589 0.580 0.567 0.558 RD,0.50,NN,4倍,Bi-LSTM(PDA) 0.581 0.579 0.577 0.575 RD,0.50,VB,4倍,Bi-LSTM(PDA) 0.575 0.562 0.533 0.482 RD&SR,0.10,VB,4倍,Bi-LSTM(PDA) 0.570 0.554 0.539 0.518 Delta-trainingの上位5件 Delta-trainingの下位5件 パラメータ 正解率 適合率 再現率 F値 SR,0.10,3倍,Bi-LSTM(EDA) 0.407 0.378 0.389 0.379 SR,0.05,5倍,Bi-LSTM(EDA) 0.422 0.426 0.445 0.397 SR,0.05,NN,4倍,Bi-LSTM(PDA) 0.422 0.435 0.448 0.403 SR,0.50,VB,4倍,Bi-LSTM(PDA) 0.427 0.439 0.459 0.396 RD,0.10,VB,5倍,Bi-LSTM(PDA) 0.427 0.424 0.424 0.422
28.
結果から考えたこと 28 ⚫ PDA:変換する単語に制限を設けている ⚫ EDA:変換する単語に制限を設けていない 幅広いテキストデータが生成されやすい 生成されるテキストデータが似たようなものになりやすい ラベル付与を行う場合,幅広いテキストデータを 生成する手法が効果的だと考えられる
29.
今後行うこと 29 ・追加されたデータの可視化の実施 Delta-trainingで追加されたデータ は決定境界付近のデータなのか? 分散表現に対しt-SNEを用いて2次元上にプロットする
30.
30
31.
補足
32.
先行研究の結果 モデル 正解率 適合率
再現率 F値 ロジスティック回帰(LR) 0.490 0.500 0.490 0.490 ランダムフォレスト(RF) 0.530 0.560 0.530 0.540 多項式ナイーブベイズ(MNB) 0.380 0.390 0.380 0.320 SGD 0.470 0.490 0.470 0.480 K近傍法(KNN) 0.570 0.580 0.570 0.570 決定木(DT) 0.550 0.560 0.550 0.550 アダブースト(AB) 0.470 0.490 0.470 0.470 Hybrid CNN-RNN 0.600 0.590 0.600 0.590 32
33.
品詞を複数指定した場合 33 パラメータ 正解率 適合率
再現率 F値 5倍,0.06,SR, K近傍法 0.615 0.623 0.593 0.608 2倍,0.06,RD, K近傍法 0.602 0.605 0.605 0.605 4倍,0.20,ALL, K近傍法 0.602 0.613 0.568 0.590 複数の場合の分類結果 提案手法による分類結果 パラメータ 正解率 適合率 再現率 F値 2倍,0.06,RD, NN,K近傍法 0.621 0.616 0.654 0.635 3倍,0.10,RD, VB,K近傍法 0.609 0.607 0.630 0.618 2倍,0.05,SR, NN,アダブースト 0.602 0.598 0.642 0.619 単体の場合の分類結果
34.
単語埋め込みの比較 34 TT:Randで正しい予測をし,Embで間違った予測をしたデータ FT:Embで正しい予測をし,Randで間違った予測をしたデータ FF:RandとEmbともに間違った予測をしたデータ
35.
Self Trainingとの比較 35 異なるデータセットにおいてもDelta-trainingが優れている
Télécharger maintenant