SlideShare une entreprise Scribd logo
1  sur  38
依存構造に基づく
単語から語義の分散表現への細分化
芦原和樹* 梶原智之** 荒瀬由紀* 内田諭†
*大阪大学大学院情報科学研究科
**大阪大学データビリティフロンティア機構
†九州大学大学院言語文化研究院
目次
1. 研究背景
2. 研究目的
3. 提案手法
4. 評価実験
1. 実験設定
2. 意味的類似度推定タスク
3. 語彙的換言タスク
5. まとめ
2
研究背景
• 多くのNLPタスクで分散表現が使われている
• SGNS[1](Skipgram with Negative Sampling)や
CBOW[2](Continuous Bag-of-Words)は多義語を
1つの分散表現で表す
• 品詞ごとに異なる分散表現を割り当てる[3]
• ex)well_noun、well_adv
• トピックごとに異なる分散表現を割り当てる[4]
• ex)bat_sport、bat _animal
[1] Mikolov et al. : Distributed Representations of Words and Phrases and their Compositionality (NIPS 2013)
[2] Mikolov et al. : Efficient Estimation of Word Representations in Vector Space (ICLR 2013)
[3] Paetzold and Specia : Unsupervised Lexical Simplification for Non-Native Speakers (AAAI 2016)
[4] Fadaee et al. : Learning Topic-Sensitive Word Representations (ACL 2017) 3
品詞・トピックでは粒度が粗い
I ate a soft cheese.
I drank soft drinks.
トピック:food
soft:形容詞
tender
(やわらかい)
non-alcoholic
(ノンアルコールの)
さらに細かい粒度で区別する必要がある
4
本研究の目的
品詞やトピックよりもさらに細かい粒度で多義語を区別
文中で依存関係にある単語(context-word)ごとに
語義を区別する
I ate a soft cheese.
I drunk soft drinks.
それぞれを区別して扱う
soft_cheese
soft_drink
5
データスパースネス問題の解決
• 各単語とcontext-wordの組み合わせ数は膨大
→各単語が多くの分散表現を持つ
• 低頻度な単語とcontext-wordの組が存在
→学習がうまく進まない
• 各単語を原形化
• 事前学習と事後学習の2段階に分ける
• 低頻度な組は初期値の近傍にとどまる
• 大きく意味が外れない
6
提案手法
事前学習
• 通常のCBOWを用いて分散表現の獲得
事後学習
• 学習データ中からcontext-wordの集合を獲得
• context-wordごとに分散表現を与える
7
提案手法(事後学習)
学習データ中の各単語からcontext-wordの集合を獲得
… the robots catch cats and dogs … robot、cat、dog
a
cat
the
catch_robot
robot
……
a
cat
the
catch_cat
robot
……
a
cat
the
catch_dog
robot
… 8…
提案手法
9
soft_cheese :tender
soft_drink :non-alcoholic
soft_iron :低頻度語
word :soft
context-word:cheese, drink, iron
Vector space
soft
tender
non-alcoholic
事前学習
提案手法
10
Vector space
soft
tender
non-alcoholic
soft_iron
soft_drink
事後学習
word :soft
context-word:cheese, drink, iron
soft_cheese :tender
soft_drink :non-alcoholic
soft_iron :低頻度語
soft_cheese
評価実験
•実験設定
•意味的類似度推定タスク
•語彙的換言タスク
11
前処理
• English Wikipedia[5] の本文約10億文を利用
• 品詞タグ付け及び依存構造解析のために
Stanford Parser[6] を使用
• 出現回数200回以下の単語を< 𝑢𝑛𝑘 >タグに置き換え
→約11万語を使用
• 事前学習・事後学習はともにCBOWのアルゴリズム
[5] https://dumps.wikimedia.org/enwiki/20170601/
[6] Manning et al. : The Stanford CoreNLP Natural Language Processing Toolkit (ACL 2014)
12
比較手法
• CBOWのアルゴリズムを利用
• 各単語に1つの分散表現を割り当てる
CBOW
• SGNSのアルゴリズムを利用
• 各単語に1つの分散表現を割り当てる
SGNS
• 文脈の類似度に基づくクラスタリング
• 各単語に複数の分散表現の割り当てる
MSSG[7]
• 各単語に品詞ごとの分散表現を割り当てるPOS
• 各単語にトピックごとの分散表現を割り当てるTOPIC
13[7] Neelakantan et al. : Efficient Non-parametric Estimation of Multiple Embeddings per Word in Vector Space (EMNLP 2014)
評価実験
• 意味的類似度推定タスク
• タスク説明
• 意味的類似度の推定手法
• 結果
• 先行研究との比較
• 語彙の網羅性に関する考察
• 語彙的換言タスク
• タスク説明
• ランク付け手法
• 結果
• ランク付け手法の比較
• 先行研究との比較
• データセットの違いによる考察
• 出現頻度の考察
14
評価実験
• 意味的類似度推定タスク
• タスク説明
• 意味的類似度の推定手法
• 結果
• 先行研究との比較
• 語彙の網羅性に関する考察
• 語彙的換言タスク
• タスク説明
• ランク付け手法
• 結果
• ランク付け手法の比較
• 先行研究との比較
• データセットの違いによる考察
• 出現頻度の考察
15
評価実験(意味的類似度推定タスク)
Stanford Contextual Word Similarity(SCWS)[8]
creditとmoneyの類似度を推測する
In 1955 the Soviet Union forwarded $ 100 million in credit to
Afghanistan, which financed public transportation, airports, etc.
Only congress has the authority to coin this money that should
be used by the States.
多義性を考慮した類似度推定が必要
[8] Huang, et al. : Improving Word Representations via Global Context and Multiple Word Prototypes (ACL 2012)
16
意味的類似度の推定
• 𝑆 𝑎𝑣𝑔 =
1
|𝑉 𝑖||𝑉 𝑗| 𝑣 𝑖∈𝑉 𝑖,𝑣 𝑗∈𝑉 𝑗
cos(𝑣𝑖, 𝑣𝑗)
• 𝑆 𝑚𝑎𝑥 = 𝑚𝑎𝑥
𝑣 𝑖∈𝑉 𝑖,𝑣 𝑗∈𝑉 𝑗
cos(𝑣𝑖, 𝑣𝑗)
• 𝑆 𝑚𝑖𝑛 = 𝑚𝑖𝑛
𝑣 𝑖∈𝑉 𝑖,𝑣 𝑗∈𝑉 𝑗
cos(𝑣𝑖, 𝑣𝑗)
語彙にないため類似度を出せない場合は
2単語間の単純な余弦類似度
17
𝑉:context-wordで与えられた
分散表現の集合
意味的類似度の推定
18
context-word
target1 A, B
target2 X, Y, Z
target1_A 0.30
0.40
0.45
target1_B target2_X
target2_Y
target2_Z
target2_X
target2_Y
target2_Z
0.50
0.80
0.60
𝑆 𝑎𝑣𝑔 = 0.51
𝑆 𝑚𝑎𝑥 = 0.80
𝑆 𝑚𝑖𝑛 = 0.50
評価実験
• 意味的類似度推定タスク
• タスク説明
• 意味的類似度の推定手法
• 結果
• 先行研究との比較
• 語彙の網羅性に関する考察
• 語彙的換言タスク
• タスク説明
• ランク付け手法
• 結果
• ランク付け手法の比較
• 先行研究との比較
• データセットの違いによる考察
• 出現頻度の考察
19
実験結果(意味的類似度の推定)
表:スピアマンの順位相関係数
Model Spearman`s 𝜌
𝑆𝐺𝑁𝑆 [9] 0.59
𝑀𝑆𝑆𝐺 [9] 0.61
𝑇𝑂𝑃𝐼𝐶 [9] 0.61
𝐶𝐵𝑂𝑊 0.63
𝑃𝑂𝑆 0.64
𝑂𝑢𝑟𝑠 (𝑆 𝑎𝑣𝑔) 0.64
𝑂𝑢𝑟𝑠 (𝑆 𝑚𝑎𝑥) 0.64
𝑂𝑢𝑟𝑠 (𝑆 𝑚𝑖𝑛) 0.63
𝑂𝑢𝑟𝑠 + 𝑃𝑂𝑆 (𝑆 𝑎𝑣𝑔) 0.65
𝑂𝑢𝑟𝑠 + 𝑃𝑂𝑆 (𝑆 𝑚𝑎𝑥) 0.64
𝑂𝑢𝑒𝑟𝑠 + 𝑃𝑂𝑆 (𝑆 𝑚𝑖𝑛) 0.65
[9] Fadaee et al. : Learning Topic-Sensitive Word Representations (ACL 2017) 20
語彙の網羅性
表:意味的類似度推定タスクにおける語彙の網羅性
In vocabulary / All tokens
Ours 7297 / 8772 83.2 %
Ours + POS 7058 / 8772 80.5 %
8割以上の分散表現が語彙に含まれている
21
事後学習で得られた分散表現をどの程度利用できているのか
(語彙外の場合は事前学習した分散表現を利用)
評価実験
• 意味的類似度推定タスク
• タスク説明
• 意味的類似度の推定手法
• 結果
• 先行研究との比較
• 語彙の網羅性に関する考察
• 語彙的換言タスク
• タスク説明
• ランク付け手法
• 結果
• ランク付け手法の比較
• 先行研究との比較
• データセットの違いによる考察
• 出現頻度の考察
22
評価実験(語彙的換言タスク)
表:語彙的換言タスク例
ターゲット clear
言い換え候補群 improve, change, remove, take, free, above, empty, …
TEXT1 …, I am well taken care of until the weather finally clears.
言い換え可能単語 improve (4) , change (1) , …
TEXT2 When he stands , he begins to clear the dishes from the table.
言い換え可能単語 remove (4) , take (1) , …
文脈を考慮しつつランク付けをする必要がある
文脈中での単語の意味を考慮する必要がある
23
データセット
• 201種類のターゲット
• 各ターゲットに10種類の文脈
• 5名のアノテータが最大3種類ずつ言い換えを付与
LS-SE[10]
• 15629個のインスタンス
• 6名のアノテータが最大3種類ずつ言い換えを付与
LS-CIC[11]
[10] McCarthy and Navigli : SemEval-2007 Task 10: English Lexical Substitution Task (SemEval 2007)
[11] Kremer et al. : What Substitutes Tell Us - Analysis of an “All-Words” Lexical Substitution Corpus (EACL 2014)
言い換え候補を付与した
アノテータの人数を重みとする
24
言い換え候補のランク付け
ターゲットの分散表現 :𝑣t
言い換え候補群の分散表現 :𝑣 𝑝
• cos(𝑣𝑡, 𝑣 𝑝)
• 単純な2単語間の余弦類似度cos
• 𝑠 cos 𝑣𝑡, 𝑣 𝑝 + 𝜔 𝑖∈𝑠 cos(𝜔𝑖, 𝑣 𝑝)
• sはターゲットを含む1文
• 文脈との類似度も考慮する
balAddCos[12]
[12] Melamud et al. : A Simple Word Embedding Model for Lexical Substitution
(In Proc. of the Workshop on Vector Space Modeling for NLP 2015)
25
言い換え候補のランク付け
26
意味的類似度推定タスク
TEXT1
In 1955 the Soviet Union forwarded $ 100 million in
credit to Afghanistan, which …
TEXT2
Only congress has the authority to coin this money
that should be used by the States.
語彙的換言タスク
ターゲット clear
言い換え候補群 improve, change, remove, take, free, above, empty, …
TEXT1 …, I am well taken care of until the weather finally clears.
TEXT2 …, I am well taken care of until the weather finally improve.
TEXT3 …, I am well taken care of until the weather finally change.
共通のcontext-wordのみを考慮可能
言い換え候補のランク付け
𝑆 𝑎𝑣𝑔, 𝑆 𝑚𝑎𝑥, 𝑆 𝑚𝑖𝑛に加え、・・・
• 𝑆 𝑎𝑣𝑔𝑐 =
1
|𝐶𝑡| 𝑐 𝑡∈𝐶𝑡, 𝑠𝑖𝑚 ( 𝑣𝑒𝑐 𝑤𝑡, 𝑐𝑡 , 𝑣𝑒𝑐 𝑤 𝑝, 𝑐𝑡 )
• 𝑆 𝑚𝑎𝑥𝑐 = max
𝑣 𝑖∈𝑉 𝑖,𝑣 𝑗∈𝑉 𝑗
cos(𝑣𝑖, 𝑣𝑗)
• 𝑆 𝑚𝑖𝑛𝑐 = m𝑖𝑛
𝑣 𝑖∈𝑉 𝑖,𝑣 𝑗∈𝑉 𝑗
cos(𝑣𝑖, 𝑣𝑗)
• sim(・, ・) :CosまたはbalAddCos
• vec(・, ・) :context-wordから得られる分散表現
27
𝐶𝑡:context-wordの集合
評価実験
• 意味的類似度推定タスク
• タスク説明
• 意味的類似度の推定手法
• 結果
• 先行研究との比較
• 語彙の網羅性に関する考察
• 語彙的換言タスク
• タスク説明
• ランク付け手法
• 結果
• ランク付け手法の比較
• 先行研究との比較
• データセットの違いによる考察
• 出現頻度の考察
28
実験結果①(語彙的換言タスク)
29
Model
LS-SE LS-CIC
Cos balAddCos Cos balAddCos
𝑂𝑢𝑟𝑠 (𝑆 𝑎𝑣𝑔) 47.0 47.2 45.7 45.9
𝑂𝑢𝑟𝑠 (𝑆 𝑚𝑎𝑥) 48.4 48.5 46.4 46.5
𝑂𝑢𝑟𝑠 (𝑆 𝑚𝑖𝑛) 45.0 31.1 44.4 44.6
𝑂𝑢𝑟𝑠 + 𝑃𝑂𝑆 (𝑆 𝑎𝑣𝑔) 46.7 47.0 45.7 45.9
𝑂𝑢𝑟𝑠 + 𝑃𝑂𝑆 (𝑆 𝑚𝑎𝑥) 47.7 48.1 46.3 46.5
𝑂𝑢𝑟𝑠 + 𝑃𝑂𝑆 (𝑆 𝑚𝑖𝑛) 45.4 30.6 45.3 45.5
𝑂𝑢𝑟𝑠 (𝑆 𝑎𝑣𝑔𝑐) 47.4 47.7 46.1 46.2
𝑂𝑢𝑟𝑠 (𝑆 𝑚𝑎𝑥𝑐) 48.4 48.5 46.4 46.5
𝑂𝑢𝑟𝑠 (𝑆 𝑚𝑖𝑛𝑐) 45.5 30.4 45.2 45.5
𝑂𝑢𝑟𝑠 + 𝑃𝑂𝑆 (𝑆 𝑎𝑣𝑔𝑐) 46.9 47.4 47.7 47.8
𝑂𝑢𝑟𝑠 + 𝑃𝑂𝑆 (𝑆 𝑚𝑎𝑥𝑐) 47.7 48.0 48.1 48.2
𝑂𝑢𝑟𝑠 + 𝑃𝑂𝑆 (𝑆 𝑚𝑖𝑛𝑐) 45.5 30.1 46.9 47.1
全組み合わせの
context-word
共通の
context-word
評価実験
• 意味的類似度推定タスク
• タスク説明
• 意味的類似度の推定手法
• 結果
• 先行研究との比較
• 語彙の網羅性に関する考察
• 語彙的換言タスク
• タスク説明
• ランク付け手法
• 結果
• ランク付け手法の比較
• 先行研究との比較
• データセットの違いによる考察
• 出現頻度の考察
30
実験結果②(語彙的換言タスク)
31
表:GAPスコア②
Model
LS-SE LS-CIC
Cos balAddCos Cos balAddCos
𝑆𝐺𝑁𝑆 [13] 40.5 40.9 32.1 36.1
𝑀𝑆𝑆𝐺 [13] 41.1 NA 37.8 NA
𝑇𝑂𝑃𝐼𝐶 [13] NA 42.8 NA 40.9
𝐶𝐵𝑂𝑊 41.0 40.1 44.1 44.4
𝑃𝑂𝑆 41.8 42.1 46.5 46.7
𝑂𝑢𝑟𝑠 (𝑆 𝑚𝑎𝑥) 48.4 48.5 46.4 46.5
𝑂𝑢𝑟𝑠 + 𝑃𝑂𝑆 (𝑆 𝑚𝑎𝑥) 47.7 48.1 46.3 46.5
𝑂𝑢𝑟𝑠 (𝑆 𝑚𝑎𝑥𝑐) 48.4 48.5 46.4 46.5
𝑂𝑢𝑟𝑠 + 𝑃𝑂𝑆 (𝑆 𝑚𝑎𝑥𝑐) 47.7 48.0 48.1 48.2
[13] Fadaee et al. : Learning Topic-Sensitive Word Representations (ACL 2017)
出力例
32
表:出力例
ターゲット hard
TEXT1
... you are carrying on two conversations at once and you are
required to listen hard.
出力 carefully (4), intensively (0), closely(1), intently(1), seriously (0), ...
TEXT2
One event in particular hits the platoon hard : the death of its
platoon leader, ...
出力 badly (3), heavily (0), strongly (0), severely (1), firmly (0), ...
• 重みが大きい候補を上位にランク付けできている
• 異なる候補を出力できている
評価実験
• 意味的類似度推定タスク
• タスク説明
• 意味的類似度の推定手法
• 結果
• 先行研究との比較
• 語彙の網羅性に関する考察
• 語彙的換言タスク
• タスク説明
• ランク付け手法
• 結果
• ランク付け手法の比較
• 先行研究との比較
• データセットの違いによる考察
• 出現頻度の考察
33
実験結果②(語彙的換言タスク)
34
表:GAPスコア②
Model
LS-SE LS-CIC
Cos balAddCos Cos balAddCos
𝑆𝐺𝑁𝑆 40.5 40.9 32.1 36.1
𝑀𝑆𝑆𝐺 41.1 NA 37.8 NA
𝑇𝑂𝑃𝐼𝐶 NA 42.8 NA 40.9
𝐶𝐵𝑂𝑊 41.0 40.1 44.1 44.4
𝑃𝑂𝑆 41.8 42.1 46.5 46.7
𝑂𝑢𝑟𝑠 (𝑆 𝑚𝑎𝑥) 48.4 48.5 46.4 46.5
𝑂𝑢𝑟𝑠 + 𝑃𝑂𝑆 (𝑆 𝑚𝑎𝑥) 47.7 48.1 46.3 46.5
𝑂𝑢𝑟𝑠 (𝑆 𝑚𝑎𝑥𝑐) 48.4 48.5 46.4 46.5
𝑂𝑢𝑟𝑠 + 𝑃𝑂𝑆 (𝑆 𝑚𝑎𝑥𝑐) 47.7 48.0 48.1 48.2
実験結果
表:語彙的換言タスクにおける語彙の網羅性
Coverage
LS-SE
Ours 82.2 %
Ours + POS 79.7 %
LS-CIC
Ours 73.4 %
Ours + POS 71.7 %
35
LS-SEの方が語彙の網羅率が高い
語彙の網羅性が高ければ性能がより大きく改善される
評価実験
• 意味的類似度推定タスク
• タスク説明
• 意味的類似度の推定手法
• 結果
• 先行研究との比較
• 語彙の網羅性に関する考察
• 語彙的換言タスク
• タスク説明
• ランク付け手法
• 結果
• ランク付け手法の比較
• 先行研究との比較
• データセットの違いによる考察
• 出現頻度の考察
36
出現頻度が精度に与える影響
表:context-word の出現頻度が与える影響
Model LS-SE LS-CIC
𝐶𝐵𝑂𝑊 40.1 44.4
𝑂𝑢𝑟𝑠
5回以下 41.6 44.3
100回以上 43.3 45.6
全て 48.5 46.5
𝑃𝑂𝑆 42.1 46.7
𝑂𝑢𝑟𝑠 + 𝑃𝑂𝑆
5回以下 42.8 46.7
100回以上 43.6 47.6
全て 48.0 48.2
37
𝑂𝑢𝑟𝑠 𝑆 𝑚𝑎𝑥𝑐 , 𝑏𝑎𝑙𝐴𝑑𝑑𝐶𝑜𝑠
依存構造に基づく
単語から語義の分散表現への細分化
• 1つの単語に複数の分散表現を割り当てる手法の提案
• 依存構造関係の利用
• 意味的類似度推定タスクと
語彙的換言タスクで高い性能を示す
• 事前学習による効果の確認
38

Contenu connexe

Tendances

文法性判断課題における反応時間と主観的測度は正答率を予測するか:文法項目の違いに焦点をあてて
文法性判断課題における反応時間と主観的測度は正答率を予測するか:文法項目の違いに焦点をあてて文法性判断課題における反応時間と主観的測度は正答率を予測するか:文法項目の違いに焦点をあてて
文法性判断課題における反応時間と主観的測度は正答率を予測するか:文法項目の違いに焦点をあててYu Tamura
 
【論文紹介】Distributed Representations of Sentences and Documents
【論文紹介】Distributed Representations of Sentences and Documents【論文紹介】Distributed Representations of Sentences and Documents
【論文紹介】Distributed Representations of Sentences and DocumentsTomofumi Yoshida
 
Learning Composition Models for Phrase Embeddings
Learning Composition Models for Phrase EmbeddingsLearning Composition Models for Phrase Embeddings
Learning Composition Models for Phrase EmbeddingsSho Takase
 
All-but-the-Top: Simple and Effective Postprocessing for Word Representations
All-but-the-Top: Simple and Effective Postprocessing for Word RepresentationsAll-but-the-Top: Simple and Effective Postprocessing for Word Representations
All-but-the-Top: Simple and Effective Postprocessing for Word RepresentationsMakoto Takenaka
 
Supervised Learning of Universal Sentence Representations from Natural Langua...
Supervised Learning of Universal Sentence Representations from Natural Langua...Supervised Learning of Universal Sentence Representations from Natural Langua...
Supervised Learning of Universal Sentence Representations from Natural Langua...Naoaki Okazaki
 
単語・句の分散表現の学習
単語・句の分散表現の学習単語・句の分散表現の学習
単語・句の分散表現の学習Naoaki Okazaki
 
[NeurIPS2018読み会@PFN] On the Dimensionality of Word Embedding
[NeurIPS2018読み会@PFN] On the Dimensionality of Word Embedding[NeurIPS2018読み会@PFN] On the Dimensionality of Word Embedding
[NeurIPS2018読み会@PFN] On the Dimensionality of Word EmbeddingMakoto Takenaka
 
Neural word embedding as implicit matrix factorization の論文紹介
Neural word embedding as implicit matrix factorization の論文紹介Neural word embedding as implicit matrix factorization の論文紹介
Neural word embedding as implicit matrix factorization の論文紹介Masanao Ochi
 
STAIR Lab Seminar 202105
STAIR Lab Seminar 202105STAIR Lab Seminar 202105
STAIR Lab Seminar 202105Sho Takase
 
Deep neural models of semantic shift
Deep neural models of semantic shiftDeep neural models of semantic shift
Deep neural models of semantic shiftMakoto Takenaka
 
BERTに関して
BERTに関してBERTに関して
BERTに関してSaitama Uni
 
修士論文発表:「非負値行列分解における漸近的Bayes汎化誤差」
修士論文発表:「非負値行列分解における漸近的Bayes汎化誤差」修士論文発表:「非負値行列分解における漸近的Bayes汎化誤差」
修士論文発表:「非負値行列分解における漸近的Bayes汎化誤差」Naoki Hayashi
 
【招待講演】パラメータ制約付き行列分解のベイズ汎化誤差解析【StatsML若手シンポ2020】
【招待講演】パラメータ制約付き行列分解のベイズ汎化誤差解析【StatsML若手シンポ2020】【招待講演】パラメータ制約付き行列分解のベイズ汎化誤差解析【StatsML若手シンポ2020】
【招待講演】パラメータ制約付き行列分解のベイズ汎化誤差解析【StatsML若手シンポ2020】Naoki Hayashi
 
教育データマイニングによる英語学習の実態把握
教育データマイニングによる英語学習の実態把握教育データマイニングによる英語学習の実態把握
教育データマイニングによる英語学習の実態把握Yuichiro Kobayashi
 
【学会発表】LDAにおけるベイズ汎化誤差の厳密な漸近形【IBIS2020】
【学会発表】LDAにおけるベイズ汎化誤差の厳密な漸近形【IBIS2020】【学会発表】LDAにおけるベイズ汎化誤差の厳密な漸近形【IBIS2020】
【学会発表】LDAにおけるベイズ汎化誤差の厳密な漸近形【IBIS2020】Naoki Hayashi
 
トピックモデル
トピックモデルトピックモデル
トピックモデル貴之 八木
 
Learning to automatically solve algebra word problems
Learning to automatically solve algebra word problemsLearning to automatically solve algebra word problems
Learning to automatically solve algebra word problemsNaoaki Okazaki
 
LET2011: Rによる教育データ分析入門
LET2011: Rによる教育データ分析入門LET2011: Rによる教育データ分析入門
LET2011: Rによる教育データ分析入門Yuichiro Kobayashi
 

Tendances (20)

文法性判断課題における反応時間と主観的測度は正答率を予測するか:文法項目の違いに焦点をあてて
文法性判断課題における反応時間と主観的測度は正答率を予測するか:文法項目の違いに焦点をあてて文法性判断課題における反応時間と主観的測度は正答率を予測するか:文法項目の違いに焦点をあてて
文法性判断課題における反応時間と主観的測度は正答率を予測するか:文法項目の違いに焦点をあてて
 
【論文紹介】Distributed Representations of Sentences and Documents
【論文紹介】Distributed Representations of Sentences and Documents【論文紹介】Distributed Representations of Sentences and Documents
【論文紹介】Distributed Representations of Sentences and Documents
 
Learning Composition Models for Phrase Embeddings
Learning Composition Models for Phrase EmbeddingsLearning Composition Models for Phrase Embeddings
Learning Composition Models for Phrase Embeddings
 
All-but-the-Top: Simple and Effective Postprocessing for Word Representations
All-but-the-Top: Simple and Effective Postprocessing for Word RepresentationsAll-but-the-Top: Simple and Effective Postprocessing for Word Representations
All-but-the-Top: Simple and Effective Postprocessing for Word Representations
 
Supervised Learning of Universal Sentence Representations from Natural Langua...
Supervised Learning of Universal Sentence Representations from Natural Langua...Supervised Learning of Universal Sentence Representations from Natural Langua...
Supervised Learning of Universal Sentence Representations from Natural Langua...
 
単語・句の分散表現の学習
単語・句の分散表現の学習単語・句の分散表現の学習
単語・句の分散表現の学習
 
[NeurIPS2018読み会@PFN] On the Dimensionality of Word Embedding
[NeurIPS2018読み会@PFN] On the Dimensionality of Word Embedding[NeurIPS2018読み会@PFN] On the Dimensionality of Word Embedding
[NeurIPS2018読み会@PFN] On the Dimensionality of Word Embedding
 
Neural word embedding as implicit matrix factorization の論文紹介
Neural word embedding as implicit matrix factorization の論文紹介Neural word embedding as implicit matrix factorization の論文紹介
Neural word embedding as implicit matrix factorization の論文紹介
 
STAIR Lab Seminar 202105
STAIR Lab Seminar 202105STAIR Lab Seminar 202105
STAIR Lab Seminar 202105
 
数式からみるWord2Vec
数式からみるWord2Vec数式からみるWord2Vec
数式からみるWord2Vec
 
Deep neural models of semantic shift
Deep neural models of semantic shiftDeep neural models of semantic shift
Deep neural models of semantic shift
 
BERTに関して
BERTに関してBERTに関して
BERTに関して
 
修士論文発表:「非負値行列分解における漸近的Bayes汎化誤差」
修士論文発表:「非負値行列分解における漸近的Bayes汎化誤差」修士論文発表:「非負値行列分解における漸近的Bayes汎化誤差」
修士論文発表:「非負値行列分解における漸近的Bayes汎化誤差」
 
【招待講演】パラメータ制約付き行列分解のベイズ汎化誤差解析【StatsML若手シンポ2020】
【招待講演】パラメータ制約付き行列分解のベイズ汎化誤差解析【StatsML若手シンポ2020】【招待講演】パラメータ制約付き行列分解のベイズ汎化誤差解析【StatsML若手シンポ2020】
【招待講演】パラメータ制約付き行列分解のベイズ汎化誤差解析【StatsML若手シンポ2020】
 
教育データマイニングによる英語学習の実態把握
教育データマイニングによる英語学習の実態把握教育データマイニングによる英語学習の実態把握
教育データマイニングによる英語学習の実態把握
 
【学会発表】LDAにおけるベイズ汎化誤差の厳密な漸近形【IBIS2020】
【学会発表】LDAにおけるベイズ汎化誤差の厳密な漸近形【IBIS2020】【学会発表】LDAにおけるベイズ汎化誤差の厳密な漸近形【IBIS2020】
【学会発表】LDAにおけるベイズ汎化誤差の厳密な漸近形【IBIS2020】
 
トピックモデル
トピックモデルトピックモデル
トピックモデル
 
Learning to automatically solve algebra word problems
Learning to automatically solve algebra word problemsLearning to automatically solve algebra word problems
Learning to automatically solve algebra word problems
 
LET2011: Rによる教育データ分析入門
LET2011: Rによる教育データ分析入門LET2011: Rによる教育データ分析入門
LET2011: Rによる教育データ分析入門
 
J-SLA2015-HIRANO
J-SLA2015-HIRANOJ-SLA2015-HIRANO
J-SLA2015-HIRANO
 

Similaire à Nl237 presentation

seminar-paper_ForeignAccentConv.pptx
seminar-paper_ForeignAccentConv.pptxseminar-paper_ForeignAccentConv.pptx
seminar-paper_ForeignAccentConv.pptxNatsumi KOBAYASHI
 
Segmenting Sponteneous Japanese using MDL principle
Segmenting Sponteneous Japanese using MDL principleSegmenting Sponteneous Japanese using MDL principle
Segmenting Sponteneous Japanese using MDL principleYusuke Matsubara
 
深層ニューラルネットワーク による知識の自動獲得・推論
深層ニューラルネットワークによる知識の自動獲得・推論深層ニューラルネットワークによる知識の自動獲得・推論
深層ニューラルネットワーク による知識の自動獲得・推論Naoaki Okazaki
 
CluBERT: A Cluster-Based Approach for Learning Sense Distributions in Multipl...
CluBERT: A Cluster-Based Approach for Learning Sense Distributions in Multipl...CluBERT: A Cluster-Based Approach for Learning Sense Distributions in Multipl...
CluBERT: A Cluster-Based Approach for Learning Sense Distributions in Multipl...禎晃 山崎
 
意味表現の学習
意味表現の学習意味表現の学習
意味表現の学習nozyh
 
充足可能性問題のいろいろ
充足可能性問題のいろいろ充足可能性問題のいろいろ
充足可能性問題のいろいろHiroshi Yamashita
 
SIGIR2012勉強会 23 Learning to Rank
SIGIR2012勉強会 23 Learning to RankSIGIR2012勉強会 23 Learning to Rank
SIGIR2012勉強会 23 Learning to Ranksleepy_yoshi
 
LET関西メソ研20140915公開版
LET関西メソ研20140915公開版LET関西メソ研20140915公開版
LET関西メソ研20140915公開版youwatari
 
深層学習を用いた文生成モデルの歴史と研究動向
深層学習を用いた文生成モデルの歴史と研究動向深層学習を用いた文生成モデルの歴史と研究動向
深層学習を用いた文生成モデルの歴史と研究動向Shunta Ito
 
自然言語処理分野の最前線(ステアラボ人工知能シンポジウム2017)
自然言語処理分野の最前線(ステアラボ人工知能シンポジウム2017)自然言語処理分野の最前線(ステアラボ人工知能シンポジウム2017)
自然言語処理分野の最前線(ステアラボ人工知能シンポジウム2017)STAIR Lab, Chiba Institute of Technology
 
WordNetで作ろう! 言語横断検索サービス
WordNetで作ろう! 言語横断検索サービスWordNetで作ろう! 言語横断検索サービス
WordNetで作ろう! 言語横断検索サービスShintaro Takemura
 
Generating Better Search Engine Text Advertisements with Deep Reinforcement L...
Generating Better Search Engine Text Advertisements with Deep Reinforcement L...Generating Better Search Engine Text Advertisements with Deep Reinforcement L...
Generating Better Search Engine Text Advertisements with Deep Reinforcement L...harmonylab
 
Query and output generating words by querying distributed word representatio...
Query and output  generating words by querying distributed word representatio...Query and output  generating words by querying distributed word representatio...
Query and output generating words by querying distributed word representatio...ryoma yoshimura
 
読書会 「トピックモデルによる統計的潜在意味解析」 第6回 4.3節 潜在意味空間における分類問題
読書会 「トピックモデルによる統計的潜在意味解析」 第6回 4.3節 潜在意味空間における分類問題読書会 「トピックモデルによる統計的潜在意味解析」 第6回 4.3節 潜在意味空間における分類問題
読書会 「トピックモデルによる統計的潜在意味解析」 第6回 4.3節 潜在意味空間における分類問題健児 青木
 
第8回スキル養成講座講義資料.pdf
第8回スキル養成講座講義資料.pdf第8回スキル養成講座講義資料.pdf
第8回スキル養成講座講義資料.pdfkeiodig
 
Appendix document of Chapter 6 for Mining Text Data
Appendix document of Chapter 6 for Mining Text Data Appendix document of Chapter 6 for Mining Text Data
Appendix document of Chapter 6 for Mining Text Data Yuki Nakayama
 
Rm20140702 11key
Rm20140702 11keyRm20140702 11key
Rm20140702 11keyyouwatari
 
続・わかりやすいパターン認識第5章
続・わかりやすいパターン認識第5章続・わかりやすいパターン認識第5章
続・わかりやすいパターン認識第5章Roy Ray
 

Similaire à Nl237 presentation (20)

seminar-paper_ForeignAccentConv.pptx
seminar-paper_ForeignAccentConv.pptxseminar-paper_ForeignAccentConv.pptx
seminar-paper_ForeignAccentConv.pptx
 
Segmenting Sponteneous Japanese using MDL principle
Segmenting Sponteneous Japanese using MDL principleSegmenting Sponteneous Japanese using MDL principle
Segmenting Sponteneous Japanese using MDL principle
 
深層ニューラルネットワーク による知識の自動獲得・推論
深層ニューラルネットワークによる知識の自動獲得・推論深層ニューラルネットワークによる知識の自動獲得・推論
深層ニューラルネットワーク による知識の自動獲得・推論
 
深層学習による自然言語処理の研究動向
深層学習による自然言語処理の研究動向深層学習による自然言語処理の研究動向
深層学習による自然言語処理の研究動向
 
CluBERT: A Cluster-Based Approach for Learning Sense Distributions in Multipl...
CluBERT: A Cluster-Based Approach for Learning Sense Distributions in Multipl...CluBERT: A Cluster-Based Approach for Learning Sense Distributions in Multipl...
CluBERT: A Cluster-Based Approach for Learning Sense Distributions in Multipl...
 
意味表現の学習
意味表現の学習意味表現の学習
意味表現の学習
 
充足可能性問題のいろいろ
充足可能性問題のいろいろ充足可能性問題のいろいろ
充足可能性問題のいろいろ
 
SIGIR2012勉強会 23 Learning to Rank
SIGIR2012勉強会 23 Learning to RankSIGIR2012勉強会 23 Learning to Rank
SIGIR2012勉強会 23 Learning to Rank
 
LET関西メソ研20140915公開版
LET関西メソ研20140915公開版LET関西メソ研20140915公開版
LET関西メソ研20140915公開版
 
2016word embbed
2016word embbed2016word embbed
2016word embbed
 
深層学習を用いた文生成モデルの歴史と研究動向
深層学習を用いた文生成モデルの歴史と研究動向深層学習を用いた文生成モデルの歴史と研究動向
深層学習を用いた文生成モデルの歴史と研究動向
 
自然言語処理分野の最前線(ステアラボ人工知能シンポジウム2017)
自然言語処理分野の最前線(ステアラボ人工知能シンポジウム2017)自然言語処理分野の最前線(ステアラボ人工知能シンポジウム2017)
自然言語処理分野の最前線(ステアラボ人工知能シンポジウム2017)
 
WordNetで作ろう! 言語横断検索サービス
WordNetで作ろう! 言語横断検索サービスWordNetで作ろう! 言語横断検索サービス
WordNetで作ろう! 言語横断検索サービス
 
Generating Better Search Engine Text Advertisements with Deep Reinforcement L...
Generating Better Search Engine Text Advertisements with Deep Reinforcement L...Generating Better Search Engine Text Advertisements with Deep Reinforcement L...
Generating Better Search Engine Text Advertisements with Deep Reinforcement L...
 
Query and output generating words by querying distributed word representatio...
Query and output  generating words by querying distributed word representatio...Query and output  generating words by querying distributed word representatio...
Query and output generating words by querying distributed word representatio...
 
読書会 「トピックモデルによる統計的潜在意味解析」 第6回 4.3節 潜在意味空間における分類問題
読書会 「トピックモデルによる統計的潜在意味解析」 第6回 4.3節 潜在意味空間における分類問題読書会 「トピックモデルによる統計的潜在意味解析」 第6回 4.3節 潜在意味空間における分類問題
読書会 「トピックモデルによる統計的潜在意味解析」 第6回 4.3節 潜在意味空間における分類問題
 
第8回スキル養成講座講義資料.pdf
第8回スキル養成講座講義資料.pdf第8回スキル養成講座講義資料.pdf
第8回スキル養成講座講義資料.pdf
 
Appendix document of Chapter 6 for Mining Text Data
Appendix document of Chapter 6 for Mining Text Data Appendix document of Chapter 6 for Mining Text Data
Appendix document of Chapter 6 for Mining Text Data
 
Rm20140702 11key
Rm20140702 11keyRm20140702 11key
Rm20140702 11key
 
続・わかりやすいパターン認識第5章
続・わかりやすいパターン認識第5章続・わかりやすいパターン認識第5章
続・わかりやすいパターン認識第5章
 

Nl237 presentation

Notes de l'éditeur

  1. 語義を分けない事前学習と語義を分ける事後学習
  2. a cat逆
  3. _以下移動させる 言い方 1個ずつ移動させていく
  4. リファレンスMSSG 1対1、1対多の色を変える
  5. context-wordは複数存在する可能性があるため、2単語間の類似度のとり方も様々考えられます。 そこで今回、2単語間の類似度の測り方としまして3つを採用しました。 Savg では,それぞれの文脈に出現する全てのcontext-word を等しく考慮して,所与の文脈中での単語間の意味的類似度を推定する. Smax およびSmin では,それぞれの文脈に出現するcontext-word の重要度は異なると仮定し,代表的な1 組のみを考慮して,所与の文脈中での単語間の意味的類似度を推定する. maxでは最も類似度が高くなる組み合わせのcontext-wordを採用し、 minでは類似度の下限値が最も高くなる組み合わせのcontext-wordを採用します。 語彙外の場合は余弦類似度
  6. 類似度の最大値の0.8を2単語間の類似度とします。 この時、context-wordの代表的な1組として、target1はBをtarget2ではYが選ばれたことになります。 Sminでは、類似度の最小値をまず抽出し、その中で最も値が大きいものを採用します。 今回であれば、context-wordの代表的な1組として、targetはでBをtarget2ではXが選ばれたことになります。
  7. 結果は、人手でアノテーションされたスコアとシステムが出した類似度とのスピアマン相関係数を用いて評価しています。 SGNS,MSSG,TOPIC の結果は文献で報告されている値である. CBOW [2] およびPOS [11] は,提案手法と同じ学習データおよび実験設定で我々が再実装したものである. Oursは単語のみ,Ours+POS は単語とその品詞を用いる提案手法である. 結果から,context-word を用いるモデルがcontext-word を用いないモデルよりもわずかに高い性能を示すことが分かる.
  8. 事後学習で得られた分散表現をどの程度利用できているのかを調査しました。 今回、語彙外の場合は事前学習した分散表現を利用しているため、語彙外の単語が多ければ提案手法が利用されていないということになります。 こちらに示すものが、context-word によって与えられる分散表現がどれだけ語彙に含まれているかを調べたものである.品詞情報を付与した場合でも,8 割以上の分散表現が語彙に含まれていることが分かる. これは、多くの場合、提案手法を用いて類似度を推定できていることを示している。
  9. ターゲット単語と言い換え候補群が与えられる。 そして、ターゲットが含まれる文脈が与えられ、文脈中のターゲット単語がどの言い換え候補群と言い換え可能かをランク付けするタスクである。 また、文脈を考慮した言い換えのため、TEXT1、TEXT2のように同一の単語であっても異なる単語が言い換え可能単語となることがある。 各文脈中のターゲット単語には、予めアノテータが言い換え可能単語の生成を行っている。 括弧内に示している数字はその候補を生成したアノテータの人数を示す。 今回のタスクでは、重みが大きいものをより上位にランク付けすることが望まれる。
  10. 2010のインスタンス
  11. P20 ¥とマージ
  12. 単語間の意味的類似度推定タスクとは異なり,本タスクではターゲット単語と言い換え候補群の文脈が共通のため,共通のcontext-wordのみを考慮して,より正確に文脈を考慮することができる.
  13. 前ページに両タスク、文脈共通の話 先ほど紹介した類似度の取り方であれば、全ての組の総当たりの類似度を出していました。 しかし、この推定手法では、同一のcontext-wordを付与した同士の類似度のみを図っています。
  14. 人手で定義された言い換えランク付けと,システムが推定した言い換えランク付けは,GAPを用いて評価される.GAP は語彙的換言タスクで広く用いられる評価尺度であり,正解事例の重みを考慮してランク付けを評価できる.本タスクでは,各言い換え候補を付与したアノテータの人数が重みとなる.GAPは100が最大であり、大きいほどよりよいランク付けであることを示す。 多くの手法においてbalAddCosで高い性能を示している。単語間の類似度のみを見るのではなく、文全体を考慮に入れる方がより精度を高められることが分かる。 また,複数のcontext-word を利用できるとき,Smaxc が最も高い性能を示している.これらの結果から,同一のcontext-word によって与えられる分散表現を用いることで,全てのcontext-word を考慮するよりも高精度に単語間の置換可能性を推定できると言える. Savgc の性能がSmaxcに及ばないのは,各分散表現の影響が平均することによって軽視されるからである.ターゲット単語の語義をピンポイントで表現できるcontext-word が存在したとしても,平 均することによってその影響が薄れてしまう. また,Smincでは類似度の下限値を基準にランク付けしていますが、それよりもSmaxcの最大値を基準とした方がよいことを示しています。 であ れば,その文中での意味を表していないcontext-word は類似度が低くても無視されるが,Sminc ではその影響を受 けるため,性能が低下したと考えられる.
  15. これらの結果から,context-word を用いて単語に複数の分散表現を割り当てる提案手法が,トピックや品詞を用いる既存手法に比べて効果的に語義を捉えることができると言える
  16. 太字がターゲット単語 最も多くのアノテータによって付与された言い換え候補を最上位にランク付けできている. 異なる出力をできている。
  17. LS-SE データセットとLS-CIC データセットの結果を比較すると,context-word を用いるときのGAPスコアの改善は,前者の方が大きいことが分かる. これは,context-wordにより与えられる分散表現が語彙に含まれるか否かに依存する.
  18. LS-SE データセットにおける語彙の網羅性はLS-CIC データセットにおける語彙の網羅性よりも約9 ポイント高い.語彙の網羅性が高いLS-SE データセットでは,context-word を用いる影響がより大きく,本タスクの性能がより大きく改善されたと考えられる.
  19. 次に,学習データにおけるcontext-word の出現頻度が,分散表現の学習にどのような影響を与えているのか検証した.ここでは,両方のデータセットで高いGAP スコアを示したOurs(Smaxc) におけるbalAddCos の類似尺度を用いる.検証のため,新たに2 つのモデルを構築した.1 つは学習データにおいて出現頻度が5 回以下のcontext-wordのみを用いた分散表現を使用する.もう1 つは出現頻度が100 回以上のcontext-word のみを用いる.表7 に,LS-SEデータセットおよびLS-CIC データセットにおける各モデルのGAP スコアを示す. 出現頻度が5 回以下の低頻度なcontext-word のみを使用した場合でも,GAP スコアが向上していることが分かる.つまり,提案手法では事前学習 によってデータスパースネス問題を軽減できていると言える.また,出現頻度が100 回以上の高頻度なcontext-wordを用いて訓練された分散表現は,より大きくGAP スコア を改善した.さらに,全てのcontext-word を考慮すると,GAP スコアは大幅に改善されることが示された.
  20. そこまで多義語を必要としていなかった。 固有名詞に引っ張られすぎた。 データの平均値をとったがそれが悪かった。 誤ったCWを取ってきた。(異なる) 意味を定めるCWが存在しなかった。
  21. _以下移動させる 言い方 1個ずつ移動させていく
  22. 実験結果①を持ってきて言いたいところを強調
  23. _以下移動させる 言い方 1個ずつ移動させていく