Deep neural models of semantic shift

Natural Language Processing and Computational Linguistics Research Group at The Tokyo Metropolitan University
2018年6月21日
読み手竹中誠（小町研）
特に断わりがない限り図表は論文より引用
NAACL2018

背景
• 単語の意味変化を捉えたい→Diachronic model（通時的モデル）
• 従来手法では時間方向はある区間(time bin)で切っていた
• time bin内では時刻非依存（synchronic model）
• time binの問題点
• 区切り方が非自明
• 広くても分解能が悪い
• かといって狭くするとデータが足りない（Data Issue）
1

この論文の貢献
• 通時的分散表現モデルとして、時刻方向に連続なモデルをつ
くった
• 単語の意味変化を評価するタスクをつくった
• 単語の意味変化の速さ（速度）を捉えられることを示した
（分散表現がtに関して微分可能なので解析的に速さが決まるこ
とが嬉しい）
2

時間を連続的に扱えるとなにが嬉しいか
• そもそも時間は連続だから
• 単語の意味の変化は ”徐々に” 起きうるものなので、binに区切
るのではなく連続量として取り扱うことで意味の変化を”滑ら
か”に表現したい
3

従来手法
• 従来手法は時間方向を time binで分割するモデル
• 主な違いは bin 幅と bin 間（時間方向）の依存性の入れ方
• LargeBin (Hamilton et al., 2016b)
• 10年区切りでSGNS(synchronic)で学習したモデル
• bin 間に依存関係は入れない
• SmallBinPreInit (Kim et al., 2014)
• 1年区切りでSGNS(synchronic)で学習したモデル
• Data issue への対策としてt=t’-1のモデルでt=t’のbinを事前学習する
• SmallBinReg (Bamler and Mandt, 2017)
• ターゲット単語と文脈単語をガウシアンの平均で点推定（MAP推定）
• 一発目の事前分布：N(0, α1I)
• bin間の依存関係はベイズ更新で入れる
• t=t’-1の事後分布の平均を平均とするガウシアンをt=t’の事前分布に用いる
• 分散は単位行列Iの定数α倍。αはハイパパラメタ。
4

提案手法：DiffTime
• 基本的なアイデア
• NNで連続空間に埋め込む
• 時間空間と単語空間をがっちゃんこ
• →時間依存の単語分散表現ができた。
Time Component
Word Component
Integration Component
5

DiffTimeのロス関数
• SGNSの拡張
• SGNSの正例 (w,c)
• DiffTimeの正例 (w,c,t)
• NegativeSamplingは同様にｋ個の負例を unigram 分布 Pd から
ランダムサンプリング
6
普通のSGNSのロス（1単語）→

Training
• Google books ngram corpus 110年分
• English Fiction
• 1900〜2009年
• 出版数で単語頻度を正規化（５倍違うので）
• コーパスから(word, context, year, freq)のタプルを構成
• sub-sampling’ t = 10^-5
7

Evaluation（Synchronic）
• そもそも Synchronic な埋め込みができているかを Time 固定
で評価する
• MEN Word Similarity タスク
• ２単語と人手の類似度スコア
• スピアマンの相関係数：ρ
• 結果
• すべてのモデルで先行研究とコンパラ
• →よさそう
8

Evaluation（Diachronic）
• そのままでは定量評価できない（goldがない）
• そこで、単語の意味変化を捉えるタスクを提案
• →Synthetic Task
• ２単語の合成語（Synthetic word）の意味の変化を考える
• 合成語の意味が、片方の単語の意味からもう一方の単語の意味へ変化
したと考える
• 変化の仕方をシグモイド曲線でモデル化
9

Synthetic Word（合成語）
• 実単語 r1,r2を単にくっつけた仮想的な単語r1○r2
• e.g. r1=banana, r2=lobster → r1○r2 = banana○lobster
• r1,r2 は BLESS dataset の異なるクラスからランダムに選ぶ
• r1○r2 と r1 or r2 の類似性を評価したい
• どうやって評価するか？
• r1 or r2 と同じ BLESS クラスに属する全単語の重心と、r1○r2の類
似度で評価する
• →BLESSデータセットは単語にクラスがついていて嬉しい（次頁）
10

Appendix. BLESS dataset
• BLESSとは
• （単語、単語クラス、関係）のタプルになったデータ
• クラスがfruitの単語たち（下右図はオリジナルBLESS）
• 本研究では10年区切りで頻度上位20000語のみ使う
• →fruitクラスの単語は７個になった（下左図）
11

Sigmoidal Path
• r1とr2 間の意味遷移のパスをシグモイドで定義
• パス（gold）はランダムに生成する
• e.g. banana○lobster
• bananaの意味とlobsterの意味間を遷移する
• s=0.05
• 意味の変化の”どの程度徐々に“かを表す
• m=1957
• bananaとlobsterの意味に等しい時点が1957年
s =
m =
s,mは下記の区間の一様分布から選ぶ
・s→∞ で step function
・shift(t=m) = 0.5 なので、
m は合成語 r1○r2が、r1とr2の両方の意味
を同程度に持つ時点であることを意味する。
12
time
r1○r2 の r1 の意味成分量
r1○r2 の r2 の意味成分量
グラフ出典：https://ja.wikipedia.org/wiki/シグモイド

合成語をコーパスに組み込む
• google books ngram →（word, context, year, freq）をつくったので、これに組み込む
• word = r1 の全タプルに関して、下記の置換を実施
• w → r1○r2
• freq → freq x shift(t, r1○r2)
• word = r2 の全タプルに関して、下記の置換を実施
• w → r1○r2
• freq → freq x (1-shift(t, r1○r2))
• 例えば、banana○lobster の場合
• (banana, Malaysia, year, freq)
→ banana○lobster, Malaysia, year,freq*(shift(year, banana○lobster)
• (lobster, claws, year, freq)
→ banana○lobster, claws, year, freq*(1-shift(year, banana○lobster))
• 何をしていることになるのか？
• r1 の意味として r1○r2 が出現し、r2 の意味として 1○r2 が出現するコーパスに改造している
• 時刻tにおける r1○r2 の意味比率は、それぞれの頻度がコントロールするものとし、時刻tの r1○r2 の意味の偏りをあらわすshift
と(1-shift)で元々の頻度を調整する
• これにより、 r1○r2の意味を構成する意味比率が、時刻発展に伴い r1 の意味から r2 の意味へなめらかに（sigmoidal）に変化
していく様をモデル化することができる
13

モデルの定量評価
• 合成語を組み込んだコーパスでモデルを訓練する
• モデルは r1○r2 や r1と同じクラスの他の単語の類似度を予測する
• r1○r2 の r1 との類似度とr2への非類似度は、得られた分散表現で下記のように評価可能
• モデルの性能は、モデル予測とshift(gold)の二乗誤差を時間方向に積分したもので評価
r1○r2と、cls1の重心との類似度
14
・cls1は、r1が属するBLESSのクラスの単語の集合
・cls2は、r2が属するBLESSのクラスの単語の集合
r1○r2と、cls2の重心との類似度
gold

モデルの定量評価
• 15の合成語を3セット、合計45の合成語の平均 MSE の結果
• 提案手法（DiffTime）が先行研究を outperform
• 合成語の意味の変化もなめらかに表現できた
15
提案手法
提案手法

モデルの限界
• 合成語を仮定している
• 実世界は合成語だけではない
• 二つの語義間の遷移だけの決め打ちモデル
• gaining/losingやnarrowing/broadeningのような共通の変化を説明
できない
• 意味変化の曲線を sigmoidal に限定している
16

意味変化のスピード
• 通時分散表現 usew(w,t) が t に関して微分可能なモデルなので、
ｔで微分すればすなわちそれが意味変化のスピード
• いくつかの単語に関して、近傍単語とのcos-simの変化と意味
変化のスピードを対応させてみた（次頁）
17

Natural Language Processing and Computational Linguistics Research Group at The Tokyo Metropolitan University 18

いくつかの単語の意味の変化について
• apple
• Apple Inc.の意味に変化してそうだが、ずっとスピード一定で近傍単語も変化なし
• コーパスのジャンルがフィクションだからかも
• gay
• 1950年ごろにドラスティックな変化がある
• 1900年のmid〜lateにかけて（Harper2014と無矛盾）
• mail
• mailをおくる手段がかわったので変化している（email）
• 変化しているものの、gayほどではないのは、sendとかreceiveとか共通している単語があるから
• canadian
• 近傍単語が地理的な意味の単語から civil な単語へシフトしている
• 1900初頭にカナダ人のアイデンティティ形成な大きななんかがあったらしい（独立→WWⅠ？（Francis1997参
照とのこと）
• cell
• 1980にスパイク→近傍には、pagerやhandset、cell phoneの普及とマッチ
• 予測に反して早い段階でスピード≠０になっているのは、時間を連続的に扱ったがための弱点（意図しない補
間）
19

time period の同定
• h1の活性化関数がtanhなので、h1の符号反転前後（h1＝０の
とき）を time pointと解釈
• time pointsをプロットしたのがFig5→
• 1940sまでは等間隔に分布
• 1950s-1956sは大きなバースト
• 1980sは2つ存在
• モデルが意味変化の増大を捉えている
• ただし、この解析は微妙
• 100ノードある h1 のうち 0 になるのは16%
• ほとんどの h1 のノードは time periods 間の遷移に寄与しない
20

まとめ
• 通時的分散表現のモデルを構築した
• 単語の意味変化をどれくらい正確にモデル化できているかを定
量化するための合成語のタスクをつくりモデル間の比較を可能
とした
• モデルが微分可能であることをつかって意味の変化スピードを
示した
21

Deep neural models of semantic shift

Recommandé

Recommandé

Contenu connexe

Tendances

Tendances (20)

Similaire à Deep neural models of semantic shift

Similaire à Deep neural models of semantic shift (6)

Plus de Makoto Takenaka

Plus de Makoto Takenaka (6)

Deep neural models of semantic shift