SlideShare une entreprise Scribd logo
1  sur  22
Natural Language Processing and Computational Linguistics Research Group at The Tokyo Metropolitan University
2018年6月21日
読み手 竹中誠(小町研)
特に断わりがない限り図表は論文より引用
NAACL2018
Natural Language Processing and Computational Linguistics Research Group at The Tokyo Metropolitan University
背景
• 単語の意味変化を捉えたい→Diachronic model(通時的モデル)
• 従来手法では時間方向はある区間(time bin)で切っていた
• time bin内では時刻非依存(synchronic model)
• time binの問題点
• 区切り方が非自明
• 広くても分解能が悪い
• かといって狭くするとデータが足りない(Data Issue)
1
Natural Language Processing and Computational Linguistics Research Group at The Tokyo Metropolitan University
この論文の貢献
• 通時的分散表現モデルとして、時刻方向に連続なモデルをつ
くった
• 単語の意味変化を評価するタスクをつくった
• 単語の意味変化の速さ(速度)を捉えられることを示した
(分散表現がtに関して微分可能なので解析的に速さが決まるこ
とが嬉しい)
2
Natural Language Processing and Computational Linguistics Research Group at The Tokyo Metropolitan University
時間を連続的に扱えるとなにが嬉しいか
• そもそも時間は連続だから
• 単語の意味の変化は ”徐々に” 起きうるものなので、binに区切
るのではなく連続量として取り扱うことで意味の変化を”滑ら
か”に表現したい
3
Natural Language Processing and Computational Linguistics Research Group at The Tokyo Metropolitan University
従来手法
• 従来手法は時間方向を time binで分割するモデル
• 主な違いは bin 幅と bin 間(時間方向)の依存性の入れ方
• LargeBin (Hamilton et al., 2016b)
• 10年区切りでSGNS(synchronic)で学習したモデル
• bin 間に依存関係は入れない
• SmallBinPreInit (Kim et al., 2014)
• 1年区切りでSGNS(synchronic)で学習したモデル
• Data issue への対策としてt=t’-1のモデルでt=t’のbinを事前学習する
• SmallBinReg (Bamler and Mandt, 2017)
• ターゲット単語と文脈単語をガウシアンの平均で点推定(MAP推定)
• 一発目の事前分布:N(0, α1I)
• bin間の依存関係はベイズ更新で入れる
• t=t’-1の事後分布の平均を平均とするガウシアンをt=t’の事前分布に用いる
• 分散は単位行列Iの定数α倍。αはハイパパラメタ。
4
Natural Language Processing and Computational Linguistics Research Group at The Tokyo Metropolitan University
提案手法:DiffTime
• 基本的なアイデア
• NNで連続空間に埋め込む
• 時間空間と単語空間をがっちゃんこ
• →時間依存の単語分散表現ができた。
Time Component
Word Component
Integration Component
5
Natural Language Processing and Computational Linguistics Research Group at The Tokyo Metropolitan University
DiffTimeのロス関数
• SGNSの拡張
• SGNSの正例 (w,c)
• DiffTimeの正例 (w,c,t)
• NegativeSamplingは同様にk個の負例を unigram 分布 Pd から
ランダムサンプリング
6
普通のSGNSのロス(1単語)→
Natural Language Processing and Computational Linguistics Research Group at The Tokyo Metropolitan University
Training
• Google books ngram corpus 110年分
• English Fiction
• 1900〜2009年
• 出版数で単語頻度を正規化(5倍違うので)
• コーパスから(word, context, year, freq)のタプルを構成
• sub-sampling’ t = 10^-5
7
Natural Language Processing and Computational Linguistics Research Group at The Tokyo Metropolitan University
Evaluation(Synchronic)
• そもそも Synchronic な埋め込みができているかを Time 固定
で評価する
• MEN Word Similarity タスク
• 2単語と人手の類似度スコア
• スピアマンの相関係数:ρ
• 結果
• すべてのモデルで先行研究とコンパラ
• →よさそう
8
Natural Language Processing and Computational Linguistics Research Group at The Tokyo Metropolitan University
Evaluation(Diachronic)
• そのままでは定量評価できない(goldがない)
• そこで、単語の意味変化を捉えるタスクを提案
• →Synthetic Task
• 2単語の合成語(Synthetic word)の意味の変化を考える
• 合成語の意味が、片方の単語の意味からもう一方の単語の意味へ変化
したと考える
• 変化の仕方をシグモイド曲線でモデル化
9
Natural Language Processing and Computational Linguistics Research Group at The Tokyo Metropolitan University
Synthetic Word(合成語)
• 実単語 r1,r2を単にくっつけた仮想的な単語r1○r2
• e.g. r1=banana, r2=lobster → r1○r2 = banana○lobster
• r1,r2 は BLESS dataset の異なるクラスからランダムに選ぶ
• r1○r2 と r1 or r2 の類似性を評価したい
• どうやって評価するか?
• r1 or r2 と同じ BLESS クラスに属する全単語の重心と、r1○r2の類
似度で評価する
• →BLESSデータセットは単語にクラスがついていて嬉しい(次頁)
10
Natural Language Processing and Computational Linguistics Research Group at The Tokyo Metropolitan University
Appendix. BLESS dataset
• BLESSとは
• (単語、単語クラス、関係)のタプルになったデータ
• クラスがfruitの単語たち(下右図はオリジナルBLESS)
• 本研究では10年区切りで頻度上位20000語のみ使う
• →fruitクラスの単語は7個になった(下左図)
11
Natural Language Processing and Computational Linguistics Research Group at The Tokyo Metropolitan University
Sigmoidal Path
• r1とr2 間の意味遷移のパスをシグモイドで定義
• パス(gold)はランダムに生成する
• e.g. banana○lobster
• bananaの意味とlobsterの意味間を遷移する
• s=0.05
• 意味の変化の”どの程度徐々に“かを表す
• m=1957
• bananaとlobsterの意味に等しい時点が1957年
s =
m =
s,mは下記の区間の一様分布から選ぶ
・s→∞ で step function
・shift(t=m) = 0.5 なので、
m は合成語 r1○r2が、r1とr2の両方の意味
を同程度に持つ時点であることを意味する。
12
time
r1○r2 の r1 の意味成分量
r1○r2 の r2 の意味成分量
グラフ出典:https://ja.wikipedia.org/wiki/シグモイド
Natural Language Processing and Computational Linguistics Research Group at The Tokyo Metropolitan University
合成語をコーパスに組み込む
• google books ngram →(word, context, year, freq)をつくったので、これに組み込む
• word = r1 の全タプルに関して、下記の置換を実施
• w → r1○r2
• freq → freq x shift(t, r1○r2)
• word = r2 の全タプルに関して、下記の置換を実施
• w → r1○r2
• freq → freq x (1-shift(t, r1○r2))
• 例えば、banana○lobster の場合
• (banana, Malaysia, year, freq)
→ banana○lobster, Malaysia, year,freq*(shift(year, banana○lobster)
• (lobster, claws, year, freq)
→ banana○lobster, claws, year, freq*(1-shift(year, banana○lobster))
• 何をしていることになるのか?
• r1 の意味として r1○r2 が出現し、r2 の意味として 1○r2 が出現するコーパスに改造している
• 時刻tにおける r1○r2 の意味比率は、それぞれの頻度がコントロールするものとし、時刻tの r1○r2 の意味の偏りをあらわすshift
と(1-shift)で元々の頻度を調整する
• これにより、 r1○r2の意味を構成する意味比率が、時刻発展に伴い r1 の意味から r2 の意味へなめらかに(sigmoidal)に変化
していく様をモデル化することができる
13
Natural Language Processing and Computational Linguistics Research Group at The Tokyo Metropolitan University
モデルの定量評価
• 合成語を組み込んだコーパスでモデルを訓練する
• モデルは r1○r2 や r1と同じクラスの他の単語の類似度を予測する
• r1○r2 の r1 との類似度とr2への非類似度は、得られた分散表現で下記のように評価可能
• モデルの性能は、モデル予測とshift(gold)の二乗誤差を時間方向に積分したもので評価
r1○r2と、cls1の重心との類似度
14
・cls1は、r1が属するBLESSのクラスの単語の集合
・cls2は、r2が属するBLESSのクラスの単語の集合
r1○r2と、cls2の重心との類似度
gold
Natural Language Processing and Computational Linguistics Research Group at The Tokyo Metropolitan University
モデルの定量評価
• 15の合成語を3セット、合計45の合成語の平均 MSE の結果
• 提案手法(DiffTime)が先行研究を outperform
• 合成語の意味の変化もなめらかに表現できた
15
提案手法
提案手法
Natural Language Processing and Computational Linguistics Research Group at The Tokyo Metropolitan University
モデルの限界
• 合成語を仮定している
• 実世界は合成語だけではない
• 二つの語義間の遷移だけの決め打ちモデル
• gaining/losingやnarrowing/broadeningのような共通の変化を説明
できない
• 意味変化の曲線を sigmoidal に限定している
16
Natural Language Processing and Computational Linguistics Research Group at The Tokyo Metropolitan University
意味変化のスピード
• 通時分散表現 usew(w,t) が t に関して微分可能なモデルなので、
tで微分すればすなわちそれが意味変化のスピード
• いくつかの単語に関して、近傍単語とのcos-simの変化と意味
変化のスピードを対応させてみた(次頁)
17
Natural Language Processing and Computational Linguistics Research Group at The Tokyo Metropolitan University 18
Natural Language Processing and Computational Linguistics Research Group at The Tokyo Metropolitan University
いくつかの単語の意味の変化について
• apple
• Apple Inc.の意味に変化してそうだが、ずっとスピード一定で近傍単語も変化なし
• コーパスのジャンルがフィクションだからかも
• gay
• 1950年ごろにドラスティックな変化がある
• 1900年のmid〜lateにかけて(Harper2014と無矛盾)
• mail
• mailをおくる手段がかわったので変化している(email)
• 変化しているものの、gayほどではないのは、sendとかreceiveとか共通している単語があるから
• canadian
• 近傍単語が地理的な意味の単語から civil な単語へシフトしている
• 1900初頭にカナダ人のアイデンティティ形成な大きななんかがあったらしい(独立→WWⅠ?(Francis1997参
照とのこと)
• cell
• 1980にスパイク→近傍には、pagerやhandset、cell phoneの普及とマッチ
• 予測に反して早い段階でスピード≠0になっているのは、時間を連続的に扱ったがための弱点(意図しない補
間)
19
Natural Language Processing and Computational Linguistics Research Group at The Tokyo Metropolitan University
time period の同定
• h1の活性化関数がtanhなので、h1の符号反転前後(h1=0の
とき)を time pointと解釈
• time pointsをプロットしたのがFig5→
• 1940sまでは等間隔に分布
• 1950s-1956sは大きなバースト
• 1980sは2つ存在
• モデルが意味変化の増大を捉えている
• ただし、この解析は微妙
• 100ノードある h1 のうち 0 になるのは16%
• ほとんどの h1 のノードは time periods 間の遷移に寄与しない
20
Natural Language Processing and Computational Linguistics Research Group at The Tokyo Metropolitan University
まとめ
• 通時的分散表現のモデルを構築した
• 単語の意味変化をどれくらい正確にモデル化できているかを定
量化するための合成語のタスクをつくりモデル間の比較を可能
とした
• モデルが微分可能であることをつかって意味の変化スピードを
示した
21

Contenu connexe

Tendances

Tendances (20)

【DL輪読会】Perceiver io a general architecture for structured inputs & outputs
【DL輪読会】Perceiver io  a general architecture for structured inputs & outputs 【DL輪読会】Perceiver io  a general architecture for structured inputs & outputs
【DL輪読会】Perceiver io a general architecture for structured inputs & outputs
 
[DL輪読会]Flow-based Deep Generative Models
[DL輪読会]Flow-based Deep Generative Models[DL輪読会]Flow-based Deep Generative Models
[DL輪読会]Flow-based Deep Generative Models
 
Transformerを多層にする際の勾配消失問題と解決法について
Transformerを多層にする際の勾配消失問題と解決法についてTransformerを多層にする際の勾配消失問題と解決法について
Transformerを多層にする際の勾配消失問題と解決法について
 
近年のHierarchical Vision Transformer
近年のHierarchical Vision Transformer近年のHierarchical Vision Transformer
近年のHierarchical Vision Transformer
 
論文紹介 Pixel Recurrent Neural Networks
論文紹介 Pixel Recurrent Neural Networks論文紹介 Pixel Recurrent Neural Networks
論文紹介 Pixel Recurrent Neural Networks
 
深層学習と確率プログラミングを融合したEdwardについて
深層学習と確率プログラミングを融合したEdwardについて深層学習と確率プログラミングを融合したEdwardについて
深層学習と確率プログラミングを融合したEdwardについて
 
機械学習の理論と実践
機械学習の理論と実践機械学習の理論と実践
機械学習の理論と実践
 
【DL輪読会】Egocentric Video Task Translation (CVPR 2023 Highlight)
【DL輪読会】Egocentric Video Task Translation (CVPR 2023 Highlight)【DL輪読会】Egocentric Video Task Translation (CVPR 2023 Highlight)
【DL輪読会】Egocentric Video Task Translation (CVPR 2023 Highlight)
 
画像生成・生成モデル メタサーベイ
画像生成・生成モデル メタサーベイ画像生成・生成モデル メタサーベイ
画像生成・生成モデル メタサーベイ
 
トピックモデルの基礎と応用
トピックモデルの基礎と応用トピックモデルの基礎と応用
トピックモデルの基礎と応用
 
指数分布とポアソン分布のいけない関係
指数分布とポアソン分布のいけない関係指数分布とポアソン分布のいけない関係
指数分布とポアソン分布のいけない関係
 
深層ニューラルネットワークの積分表現(Deepを定式化する数学)
深層ニューラルネットワークの積分表現(Deepを定式化する数学)深層ニューラルネットワークの積分表現(Deepを定式化する数学)
深層ニューラルネットワークの積分表現(Deepを定式化する数学)
 
トピックモデルの評価指標 Perplexity とは何なのか?
トピックモデルの評価指標 Perplexity とは何なのか?トピックモデルの評価指標 Perplexity とは何なのか?
トピックモデルの評価指標 Perplexity とは何なのか?
 
最適輸送の解き方
最適輸送の解き方最適輸送の解き方
最適輸送の解き方
 
[DL輪読会]A Bayesian Perspective on Generalization and Stochastic Gradient Descent
 [DL輪読会]A Bayesian Perspective on Generalization and Stochastic Gradient Descent [DL輪読会]A Bayesian Perspective on Generalization and Stochastic Gradient Descent
[DL輪読会]A Bayesian Perspective on Generalization and Stochastic Gradient Descent
 
J-LIWC2015の紹介
J-LIWC2015の紹介J-LIWC2015の紹介
J-LIWC2015の紹介
 
[論文解説]KGAT:Knowledge Graph Attention Network for Recommendation
[論文解説]KGAT:Knowledge Graph Attention Network for Recommendation[論文解説]KGAT:Knowledge Graph Attention Network for Recommendation
[論文解説]KGAT:Knowledge Graph Attention Network for Recommendation
 
[DL輪読会]Adversarial Feature Matching for Text Generation
[DL輪読会]Adversarial Feature Matching for Text Generation[DL輪読会]Adversarial Feature Matching for Text Generation
[DL輪読会]Adversarial Feature Matching for Text Generation
 
Transformerを雰囲気で理解する
Transformerを雰囲気で理解するTransformerを雰囲気で理解する
Transformerを雰囲気で理解する
 
[DL輪読会]Unsupervised Neural Machine Translation
[DL輪読会]Unsupervised Neural Machine Translation [DL輪読会]Unsupervised Neural Machine Translation
[DL輪読会]Unsupervised Neural Machine Translation
 

Similaire à Deep neural models of semantic shift

言語資源と付き合う
言語資源と付き合う言語資源と付き合う
言語資源と付き合う
Yuya Unno
 
Dynamic Entity Representations in Neural Language Models
Dynamic Entity Representations in Neural Language ModelsDynamic Entity Representations in Neural Language Models
Dynamic Entity Representations in Neural Language Models
Shun Kiyono
 
形態素解析の過去・現在・未来
形態素解析の過去・現在・未来形態素解析の過去・現在・未来
形態素解析の過去・現在・未来
Preferred Networks
 

Similaire à Deep neural models of semantic shift (6)

All-but-the-Top: Simple and Effective Postprocessing for Word Representations
All-but-the-Top: Simple and Effective Postprocessing for Word RepresentationsAll-but-the-Top: Simple and Effective Postprocessing for Word Representations
All-but-the-Top: Simple and Effective Postprocessing for Word Representations
 
言語資源と付き合う
言語資源と付き合う言語資源と付き合う
言語資源と付き合う
 
一般化線形混合モデル入門の入門
一般化線形混合モデル入門の入門一般化線形混合モデル入門の入門
一般化線形混合モデル入門の入門
 
[NeurIPS2018読み会@PFN] On the Dimensionality of Word Embedding
[NeurIPS2018読み会@PFN] On the Dimensionality of Word Embedding[NeurIPS2018読み会@PFN] On the Dimensionality of Word Embedding
[NeurIPS2018読み会@PFN] On the Dimensionality of Word Embedding
 
Dynamic Entity Representations in Neural Language Models
Dynamic Entity Representations in Neural Language ModelsDynamic Entity Representations in Neural Language Models
Dynamic Entity Representations in Neural Language Models
 
形態素解析の過去・現在・未来
形態素解析の過去・現在・未来形態素解析の過去・現在・未来
形態素解析の過去・現在・未来
 

Plus de Makoto Takenaka

Plus de Makoto Takenaka (6)

[論文紹介] Understanding and improving transformer from a multi particle dynamic ...
[論文紹介] Understanding and improving transformer from a multi particle dynamic ...[論文紹介] Understanding and improving transformer from a multi particle dynamic ...
[論文紹介] Understanding and improving transformer from a multi particle dynamic ...
 
[論文紹介] Towards Understanding Linear Word Analogies
[論文紹介] Towards Understanding Linear Word Analogies[論文紹介] Towards Understanding Linear Word Analogies
[論文紹介] Towards Understanding Linear Word Analogies
 
Lpixel論文読み会資料 "Interpretation of neural network is fragile"
Lpixel論文読み会資料 "Interpretation of neural network is fragile"Lpixel論文読み会資料 "Interpretation of neural network is fragile"
Lpixel論文読み会資料 "Interpretation of neural network is fragile"
 
Understanding the origin of bias in word embeddings
Understanding the origin of bias in word embeddingsUnderstanding the origin of bias in word embeddings
Understanding the origin of bias in word embeddings
 
multimodal word distributions
multimodal word distributionsmultimodal word distributions
multimodal word distributions
 
Adversarial Multi-task Learning for Text Classification
Adversarial Multi-task Learning for Text ClassificationAdversarial Multi-task Learning for Text Classification
Adversarial Multi-task Learning for Text Classification
 

Deep neural models of semantic shift

  • 1. Natural Language Processing and Computational Linguistics Research Group at The Tokyo Metropolitan University 2018年6月21日 読み手 竹中誠(小町研) 特に断わりがない限り図表は論文より引用 NAACL2018
  • 2. Natural Language Processing and Computational Linguistics Research Group at The Tokyo Metropolitan University 背景 • 単語の意味変化を捉えたい→Diachronic model(通時的モデル) • 従来手法では時間方向はある区間(time bin)で切っていた • time bin内では時刻非依存(synchronic model) • time binの問題点 • 区切り方が非自明 • 広くても分解能が悪い • かといって狭くするとデータが足りない(Data Issue) 1
  • 3. Natural Language Processing and Computational Linguistics Research Group at The Tokyo Metropolitan University この論文の貢献 • 通時的分散表現モデルとして、時刻方向に連続なモデルをつ くった • 単語の意味変化を評価するタスクをつくった • 単語の意味変化の速さ(速度)を捉えられることを示した (分散表現がtに関して微分可能なので解析的に速さが決まるこ とが嬉しい) 2
  • 4. Natural Language Processing and Computational Linguistics Research Group at The Tokyo Metropolitan University 時間を連続的に扱えるとなにが嬉しいか • そもそも時間は連続だから • 単語の意味の変化は ”徐々に” 起きうるものなので、binに区切 るのではなく連続量として取り扱うことで意味の変化を”滑ら か”に表現したい 3
  • 5. Natural Language Processing and Computational Linguistics Research Group at The Tokyo Metropolitan University 従来手法 • 従来手法は時間方向を time binで分割するモデル • 主な違いは bin 幅と bin 間(時間方向)の依存性の入れ方 • LargeBin (Hamilton et al., 2016b) • 10年区切りでSGNS(synchronic)で学習したモデル • bin 間に依存関係は入れない • SmallBinPreInit (Kim et al., 2014) • 1年区切りでSGNS(synchronic)で学習したモデル • Data issue への対策としてt=t’-1のモデルでt=t’のbinを事前学習する • SmallBinReg (Bamler and Mandt, 2017) • ターゲット単語と文脈単語をガウシアンの平均で点推定(MAP推定) • 一発目の事前分布:N(0, α1I) • bin間の依存関係はベイズ更新で入れる • t=t’-1の事後分布の平均を平均とするガウシアンをt=t’の事前分布に用いる • 分散は単位行列Iの定数α倍。αはハイパパラメタ。 4
  • 6. Natural Language Processing and Computational Linguistics Research Group at The Tokyo Metropolitan University 提案手法:DiffTime • 基本的なアイデア • NNで連続空間に埋め込む • 時間空間と単語空間をがっちゃんこ • →時間依存の単語分散表現ができた。 Time Component Word Component Integration Component 5
  • 7. Natural Language Processing and Computational Linguistics Research Group at The Tokyo Metropolitan University DiffTimeのロス関数 • SGNSの拡張 • SGNSの正例 (w,c) • DiffTimeの正例 (w,c,t) • NegativeSamplingは同様にk個の負例を unigram 分布 Pd から ランダムサンプリング 6 普通のSGNSのロス(1単語)→
  • 8. Natural Language Processing and Computational Linguistics Research Group at The Tokyo Metropolitan University Training • Google books ngram corpus 110年分 • English Fiction • 1900〜2009年 • 出版数で単語頻度を正規化(5倍違うので) • コーパスから(word, context, year, freq)のタプルを構成 • sub-sampling’ t = 10^-5 7
  • 9. Natural Language Processing and Computational Linguistics Research Group at The Tokyo Metropolitan University Evaluation(Synchronic) • そもそも Synchronic な埋め込みができているかを Time 固定 で評価する • MEN Word Similarity タスク • 2単語と人手の類似度スコア • スピアマンの相関係数:ρ • 結果 • すべてのモデルで先行研究とコンパラ • →よさそう 8
  • 10. Natural Language Processing and Computational Linguistics Research Group at The Tokyo Metropolitan University Evaluation(Diachronic) • そのままでは定量評価できない(goldがない) • そこで、単語の意味変化を捉えるタスクを提案 • →Synthetic Task • 2単語の合成語(Synthetic word)の意味の変化を考える • 合成語の意味が、片方の単語の意味からもう一方の単語の意味へ変化 したと考える • 変化の仕方をシグモイド曲線でモデル化 9
  • 11. Natural Language Processing and Computational Linguistics Research Group at The Tokyo Metropolitan University Synthetic Word(合成語) • 実単語 r1,r2を単にくっつけた仮想的な単語r1○r2 • e.g. r1=banana, r2=lobster → r1○r2 = banana○lobster • r1,r2 は BLESS dataset の異なるクラスからランダムに選ぶ • r1○r2 と r1 or r2 の類似性を評価したい • どうやって評価するか? • r1 or r2 と同じ BLESS クラスに属する全単語の重心と、r1○r2の類 似度で評価する • →BLESSデータセットは単語にクラスがついていて嬉しい(次頁) 10
  • 12. Natural Language Processing and Computational Linguistics Research Group at The Tokyo Metropolitan University Appendix. BLESS dataset • BLESSとは • (単語、単語クラス、関係)のタプルになったデータ • クラスがfruitの単語たち(下右図はオリジナルBLESS) • 本研究では10年区切りで頻度上位20000語のみ使う • →fruitクラスの単語は7個になった(下左図) 11
  • 13. Natural Language Processing and Computational Linguistics Research Group at The Tokyo Metropolitan University Sigmoidal Path • r1とr2 間の意味遷移のパスをシグモイドで定義 • パス(gold)はランダムに生成する • e.g. banana○lobster • bananaの意味とlobsterの意味間を遷移する • s=0.05 • 意味の変化の”どの程度徐々に“かを表す • m=1957 • bananaとlobsterの意味に等しい時点が1957年 s = m = s,mは下記の区間の一様分布から選ぶ ・s→∞ で step function ・shift(t=m) = 0.5 なので、 m は合成語 r1○r2が、r1とr2の両方の意味 を同程度に持つ時点であることを意味する。 12 time r1○r2 の r1 の意味成分量 r1○r2 の r2 の意味成分量 グラフ出典:https://ja.wikipedia.org/wiki/シグモイド
  • 14. Natural Language Processing and Computational Linguistics Research Group at The Tokyo Metropolitan University 合成語をコーパスに組み込む • google books ngram →(word, context, year, freq)をつくったので、これに組み込む • word = r1 の全タプルに関して、下記の置換を実施 • w → r1○r2 • freq → freq x shift(t, r1○r2) • word = r2 の全タプルに関して、下記の置換を実施 • w → r1○r2 • freq → freq x (1-shift(t, r1○r2)) • 例えば、banana○lobster の場合 • (banana, Malaysia, year, freq) → banana○lobster, Malaysia, year,freq*(shift(year, banana○lobster) • (lobster, claws, year, freq) → banana○lobster, claws, year, freq*(1-shift(year, banana○lobster)) • 何をしていることになるのか? • r1 の意味として r1○r2 が出現し、r2 の意味として 1○r2 が出現するコーパスに改造している • 時刻tにおける r1○r2 の意味比率は、それぞれの頻度がコントロールするものとし、時刻tの r1○r2 の意味の偏りをあらわすshift と(1-shift)で元々の頻度を調整する • これにより、 r1○r2の意味を構成する意味比率が、時刻発展に伴い r1 の意味から r2 の意味へなめらかに(sigmoidal)に変化 していく様をモデル化することができる 13
  • 15. Natural Language Processing and Computational Linguistics Research Group at The Tokyo Metropolitan University モデルの定量評価 • 合成語を組み込んだコーパスでモデルを訓練する • モデルは r1○r2 や r1と同じクラスの他の単語の類似度を予測する • r1○r2 の r1 との類似度とr2への非類似度は、得られた分散表現で下記のように評価可能 • モデルの性能は、モデル予測とshift(gold)の二乗誤差を時間方向に積分したもので評価 r1○r2と、cls1の重心との類似度 14 ・cls1は、r1が属するBLESSのクラスの単語の集合 ・cls2は、r2が属するBLESSのクラスの単語の集合 r1○r2と、cls2の重心との類似度 gold
  • 16. Natural Language Processing and Computational Linguistics Research Group at The Tokyo Metropolitan University モデルの定量評価 • 15の合成語を3セット、合計45の合成語の平均 MSE の結果 • 提案手法(DiffTime)が先行研究を outperform • 合成語の意味の変化もなめらかに表現できた 15 提案手法 提案手法
  • 17. Natural Language Processing and Computational Linguistics Research Group at The Tokyo Metropolitan University モデルの限界 • 合成語を仮定している • 実世界は合成語だけではない • 二つの語義間の遷移だけの決め打ちモデル • gaining/losingやnarrowing/broadeningのような共通の変化を説明 できない • 意味変化の曲線を sigmoidal に限定している 16
  • 18. Natural Language Processing and Computational Linguistics Research Group at The Tokyo Metropolitan University 意味変化のスピード • 通時分散表現 usew(w,t) が t に関して微分可能なモデルなので、 tで微分すればすなわちそれが意味変化のスピード • いくつかの単語に関して、近傍単語とのcos-simの変化と意味 変化のスピードを対応させてみた(次頁) 17
  • 19. Natural Language Processing and Computational Linguistics Research Group at The Tokyo Metropolitan University 18
  • 20. Natural Language Processing and Computational Linguistics Research Group at The Tokyo Metropolitan University いくつかの単語の意味の変化について • apple • Apple Inc.の意味に変化してそうだが、ずっとスピード一定で近傍単語も変化なし • コーパスのジャンルがフィクションだからかも • gay • 1950年ごろにドラスティックな変化がある • 1900年のmid〜lateにかけて(Harper2014と無矛盾) • mail • mailをおくる手段がかわったので変化している(email) • 変化しているものの、gayほどではないのは、sendとかreceiveとか共通している単語があるから • canadian • 近傍単語が地理的な意味の単語から civil な単語へシフトしている • 1900初頭にカナダ人のアイデンティティ形成な大きななんかがあったらしい(独立→WWⅠ?(Francis1997参 照とのこと) • cell • 1980にスパイク→近傍には、pagerやhandset、cell phoneの普及とマッチ • 予測に反して早い段階でスピード≠0になっているのは、時間を連続的に扱ったがための弱点(意図しない補 間) 19
  • 21. Natural Language Processing and Computational Linguistics Research Group at The Tokyo Metropolitan University time period の同定 • h1の活性化関数がtanhなので、h1の符号反転前後(h1=0の とき)を time pointと解釈 • time pointsをプロットしたのがFig5→ • 1940sまでは等間隔に分布 • 1950s-1956sは大きなバースト • 1980sは2つ存在 • モデルが意味変化の増大を捉えている • ただし、この解析は微妙 • 100ノードある h1 のうち 0 になるのは16% • ほとんどの h1 のノードは time periods 間の遷移に寄与しない 20
  • 22. Natural Language Processing and Computational Linguistics Research Group at The Tokyo Metropolitan University まとめ • 通時的分散表現のモデルを構築した • 単語の意味変化をどれくらい正確にモデル化できているかを定 量化するための合成語のタスクをつくりモデル間の比較を可能 とした • モデルが微分可能であることをつかって意味の変化スピードを 示した 21