SlideShare une entreprise Scribd logo
1  sur  37
Télécharger pour lire hors ligne
深層ニューラルネットワーク
による知識の自動獲得・推論
東北大学大学院情報科学研究科
岡崎 直観(okazaki@ecei.tohoku.ac.jp)
http://www.chokkan.org/
@chokkanorg
2016-06-30 深層ニューラルネットワークによる知識の自動獲得・推論 1
自然言語処理とは
• 言葉を操る賢いコンピュータを作る
• 応用: 情報検索,機械翻訳,質問応答,自動要
約,対話生成,評判分析,SNS分析,…
• 基礎: 品詞タグ付け(形態素解析),チャンキ
ング,固有表現抽出,構文解析,共参照解析,
意味役割付与,…
• 多くのタスクは「入力𝑥𝑥から出力�𝑦𝑦を予測」
�𝑦𝑦 = argmax
𝑦𝑦∈𝑌𝑌
𝑃𝑃(𝑦𝑦|𝑥𝑥)
※確率ではないモデルもあります
2016-06-30 深層ニューラルネットワークによる知識の自動獲得・推論 2
単語列からラベル: ̂𝑦𝑦 = argmax
𝑦𝑦∈𝑌𝑌
𝑃𝑃(𝑦𝑦|𝒙𝒙)
2016-06-30 深層ニューラルネットワークによる知識の自動獲得・推論 3
The movie is the best I’ve ever seen!
The movie is coming soon on cinemas.
This movie is rubbish!!!
• モデル:ナイーブ・ベイズ,パーセプトロン,
ロジスティック回帰,サポート・ベクトル・マシン
𝒙𝒙: 単語列 𝑃𝑃(𝑦𝑦|𝒙𝒙) �𝑦𝑦
単語列から系列ラベル: �𝒚𝒚 = argmax
𝒚𝒚∈𝑌𝑌 𝑚𝑚
𝑃𝑃(𝒚𝒚|𝒙𝒙)
2016-06-30 深層ニューラルネットワークによる知識の自動獲得・推論 4
• モデル:隠れマルコフモデル,条件付き確率場,符号・復号
• 探索法:点予測,動的計画法,ビーム探索,…
In March 2005, the New York Times acquired About, Inc.
IN NNP CD DT NNP NNP NNP VBD NNP NNP
O B-NP I-NP B-NP I-NP I-NP I-NP B-VP B-NP B-NP
2005年 3月 , ニューヨーク・タイムズ は About 社 を 買収 し た .
(品詞)
(句)
(翻訳)
(入力)
I heard Google and Yahoo were among the other bidders.(対話)
DNNブームの幕開け (2012年頃)
• 画像認識でブレークスルー
• エラー率が10%以上減少 (ILSVRC 2012)
• 言語処理での衝撃は限定的
• 文字や単語などの明確な特徴量があったため?
• 最近ではDNNが様々なタスクで最高性能を達成
• (D)NNと言語処理の関わりは昔からあった
• Neural Language Model (Bengio+ 03)
• SENNA (CNNで汎用NLP) (Collobert+ 08)
2016-06-30 深層ニューラルネットワークによる知識の自動獲得・推論 5
言語処理におけるDNNの進展
2016-06-30 深層ニューラルネットワークによる知識の自動獲得・推論 6
言語処理におけるDNNの進展
• 単語の分散表現
• エンコーダ・デコーダ
• 分散表現の合成
• アテンション
2016-06-30 深層ニューラルネットワークによる知識の自動獲得・推論 7
very
good
movie
very
good
movie
very good movie
very
good
movie
とても
良い
映画
very
good
movie
単語の分散表現の学習:
Skip-gram with negative sampling (Mikolov+ 13)
2016-06-30 深層ニューラルネットワークによる知識の自動獲得・推論 8
draughtofferpubs beer, cider, and wine
last
use
place
people
make
city
full
know
build
time
group
have
new
game
rather
age
show
take
take
team
season
say
個
の
単
語
を
ユ
ニ
グ
ラ
ム
分
布
か
ら
サ
ン
プ
リ
ン
グ
し
,
こ
れ
ら
が
予
測
さ
れ
な
い
よ
う
に
更
新
(
負
例
)
個
の
文
脈
語
を
予
測
す
る
よ
う
に
更
新
同じ単語がサン
プルされること
もあり得る
単語ベクトル𝒗𝒗𝑤𝑤 (𝑑𝑑次元)
予測ベクトル�𝒗𝒗𝑐𝑐 (𝑑𝑑次元)
: 内積 → +∞ へ
: 内積 → −∞ へ
ベクトルの更新方針
コーパス
(ℎ = 2, 𝑘𝑘 = 1の場合)
分散表現の合成 (1/2):
Recurrent Neural Network (RNN) (Sutskever+ 11)
2016-06-30 深層ニューラルネットワークによる知識の自動獲得・推論 9
very good movie
𝑥𝑥𝑡𝑡
𝑊𝑊(ℎ𝑥𝑥)
ℎ𝑡𝑡
𝑊𝑊(𝑦𝑦𝑦)
𝑊𝑊(ℎℎ)
𝑊𝑊(ℎℎ)
𝑦𝑦𝑡𝑡
潜在ベクトル: ℎ𝑡𝑡 = 𝜎𝜎 𝑊𝑊(ℎ𝑥𝑥)
𝑥𝑥𝑡𝑡 + 𝑊𝑊(ℎℎ)
ℎ𝑡𝑡−1 + 𝑏𝑏(ℎ)
出力ベクトル: 𝑦𝑦𝑡𝑡 = 𝜎𝜎 𝑊𝑊(𝑦𝑦𝑦)
ℎ𝑡𝑡 + 𝑏𝑏(𝑦𝑦)
入力ベクトル:
(単語ベクトル)
潜在ベクトル:
(合成ベクトル)
出力ベクトル:
(評判ラベル)
分散表現の合成 (2/2):
Long Short-Term Memory (LSTM) (Graves 13)
2016-06-30 深層ニューラルネットワークによる知識の自動獲得・推論 10
very good movie
𝑥𝑥𝑡𝑡
𝑐𝑐𝑡𝑡
ℎ𝑡𝑡
Input gate
Output gate
Forget gate Forget gate
• 各ゲートはマスクの役割を担う(ベクトルの要素ごとの積)
• 各ゲートのマスクパターンは入力𝑥𝑥𝑡𝑡,記憶ℎ𝑡𝑡−1,出力ℎ𝑡𝑡−1などで自動制御
• 長い系列での誤差逆伝搬時の勾配消失をゲートで防止する(→長期依存の保存)
• LSTMの代わりにGated Recurrent Unit (GRU) も用いることも多い
エンコーダ・デコーダモデル
Sequence-to-sequence (Sutskever+ 14; Cho+ 14)
2016-06-30 深層ニューラルネットワークによる知識の自動獲得・推論 11
very good movie
とても よい 映画 だ
<EOS> とても よい 映画 だ
<EOS>
𝑥𝑥𝑡𝑡
ℎ𝑡𝑡
𝑦𝑦𝑡𝑡
• 英語 (𝑥𝑥𝑡𝑡) から日本語 (𝑦𝑦𝑡𝑡) への機械翻訳の例
• ℎ𝑡𝑡 = 𝜎𝜎(𝑊𝑊(ℎ𝑥𝑥) 𝑥𝑥𝑡𝑡 + 𝑊𝑊(ℎℎ)ℎ𝑡𝑡−1)
• 𝑦𝑦𝑡𝑡 = 𝑊𝑊(𝑦𝑦𝑦)ℎ𝑡𝑡 (𝑦𝑦𝑡𝑡は出力単語のスコアのベクトル表現)
• 出力単語を入力側に戻すことで,翻訳履歴を考慮
• 実際にはRNNではなく2-layer LSTM等を用いる
入力文の意味
ベクトル
アテンション (Bahdanau+ 15, Luong+, 15)
2016-06-30 深層ニューラルネットワークによる知識の自動獲得・推論 12
very good movie
とても よい
<EOS> とても
𝑥𝑥𝑠𝑠
ℎ𝑠𝑠 ℎ𝑡𝑡
𝑎𝑎𝑡𝑡(𝑠𝑠)
𝑐𝑐𝑡𝑡
�ℎ𝑡𝑡 = tanh(𝑊𝑊𝑐𝑐[𝑐𝑐𝑡𝑡; ℎ𝑡𝑡])
𝑎𝑎𝑡𝑡(𝑠𝑠) =
exp s(ℎ𝑡𝑡, ℎ𝑠𝑠)
∑𝑠𝑠′ exp s(ℎ𝑡𝑡, ℎ𝑠𝑠𝑠)
s ℎ𝑡𝑡, ℎ𝑠𝑠 = ℎ𝑡𝑡 ⋅ ℎ𝑠𝑠
または
s ℎ𝑡𝑡, ℎ𝑠𝑠 = ℎ𝑡𝑡
T
𝑊𝑊𝑎𝑎ℎ𝑠𝑠
など
𝑐𝑐𝑡𝑡 = �
𝑠𝑠
𝑎𝑎𝑡𝑡(𝑠𝑠)ℎ𝑠𝑠
• 固定長のベクトルで文全体の意味を表現するには限界がある
• 位置𝑡𝑡の単語を予測するときに,入力のどの単語に着目すべき
かの重み𝑎𝑎𝑡𝑡(𝑠𝑠)を求め,入力単語のベクトルℎ𝑠𝑠の重み付き平均
ベクトル𝑐𝑐𝑡𝑡を用いて出力単語を生成する
𝑦𝑦𝑡𝑡 = softmax(𝑊𝑊𝑦𝑦
�ℎ𝑡𝑡)
これまでの流れを解説した文献
2016-06-30 深層ニューラルネットワークによる知識の自動獲得・推論 13
人工知能 2016年3月号特集記事
DNNを言語処理の難題に適用
• 多様性・曖昧性(表層と意味の対応付け)
• これまでの説明+第2部
• 文脈の処理(複数の文の情報の統合)
• 第3部で説明
• 知識の獲得と推論(暗黙的な情報の利用)
• 第2部で説明
2016-06-30 深層ニューラルネットワークによる知識の自動獲得・推論 14
知識の獲得と推論
2016-06-30 深層ニューラルネットワークによる知識の自動獲得・推論 15
関係知識 (Nickel+ 16)
• (subject, predicate, object)の三つ組の集合
Leonard Nimoy was an actor who played the character Spock
in the science-fiction movie Star Trek
2016-06-30 深層ニューラルネットワークによる知識の自動獲得・推論 16
Subject (s) Predicate (r) Object (t)
Leonard_Nimoy profession Actor
Leonard_Nimoy starredIn Star_Trek
Leonard_Nimoy played Spock
Spock characterIn Star_Trek
StarTrek genre Science_Fiction
関係知識の因子分解(分散表現化)
• RESCAL (Nickel+ 11)
• score 𝑠𝑠, 𝑟𝑟, 𝑡𝑡 = 𝑥𝑥𝑠𝑠
T 𝑊𝑊𝑟𝑟 𝑥𝑥𝑡𝑡
• 𝑥𝑥𝑠𝑠 ∈ ℝ𝑑𝑑
, 𝑥𝑥𝑡𝑡 ∈ ℝ𝑑𝑑
, 𝑊𝑊𝑟𝑟 ∈ ℝ𝑑𝑑×𝑑𝑑
• TransE (Bordes+ 13)
• score 𝑠𝑠, 𝑟𝑟, 𝑡𝑡 = − 𝑥𝑥𝑠𝑠 + 𝑤𝑤𝑟𝑟 − 𝑥𝑥𝑡𝑡 2
2
• 𝑥𝑥𝑠𝑠 ∈ ℝ𝑑𝑑
, 𝑤𝑤𝑟𝑟 ∈ ℝ𝑑𝑑
, 𝑥𝑥𝑡𝑡 ∈ ℝ𝑑𝑑
• max-margin損失関数を最小化する場合
𝐽𝐽 = �
(𝑠𝑠,𝑟𝑟,𝑡𝑡)∈𝐷𝐷
max 0,1 − score 𝑠𝑠, 𝑟𝑟, 𝑡𝑡 + score 𝑠𝑠∗, 𝑟𝑟, 𝑡𝑡∗
2016-06-30 深層ニューラルネットワークによる知識の自動獲得・推論 17
𝐷𝐷に存在しない三つ組(負例)←知識ベースの三つ組集合
Japan
Tokyo
capital capital
UK
London
Japan capital Tokyo
関係知識の合成(推論) (Guu+ 15)
• 隣接行列による関係の合成
• RESCALベース: 𝑥𝑥𝑠𝑠
T
𝑊𝑊𝑟𝑟1
… 𝑊𝑊𝑟𝑟𝑘𝑘
𝑥𝑥𝑡𝑡
• TransEベース: − 𝑥𝑥𝑠𝑠 + 𝑤𝑤𝑟𝑟1
+ ⋯ + 𝑤𝑤𝑟𝑟𝑘𝑘
− 𝑥𝑥𝑡𝑡 2
2
2016-06-30 深層ニューラルネットワークによる知識の自動獲得・推論 18
× → × → ・ = 3
Swiss location language(cities) (langs)
Geneva
French
Zürich
Germany
Swiss location (cities)
→
language (langs)
→ Germany
Swiss
Germany
location
language
→ 1
関係パタンのロングテール
(person/organization_founded) (Toutanova+ 15)
2016-06-30 深層ニューラルネットワークによる知識の自動獲得・推論 19
KBの関係の分散表現と,
その関係がテキスト中で
言及される言語パタンの
分散表現を対応付けたい
テキストからKBの関係
事例を拡充できる
→ Universal Schema
(Riedel+ 13)
同じ関係を表す言語パタ
ンはバラエティに富む
関係パタンのロングテー
ルに対応できる分散表現
を学習したい
関係パタンの意味合成 (Toutanova+ 15)
• 関係パタンの分散表現をCNNで合成することで,知識
ベース拡充の精度が向上することを実証
• 知識ベース拡充: 未知の関係事例の真偽値の予測するタスク
• ベース手法: KBとテキストの分散表現の同時学習 (Riedel+ 13)
2016-06-30 深層ニューラルネットワークによる知識の自動獲得・推論 20
Toutanova+ (2015)
関係パタンの意味合成 (Takase+ 16)
• 因果関係などの「関係」を表す言語表現の分散表現を,
構成単語の分散表現から合成する新手法 (GAC) を提案
• 関係の分散表現の評価データを構築・公開
• 関係の分散表現が関係分類タスクで貢献することを実証
2016-06-30 深層ニューラルネットワークによる知識の自動獲得・推論 21
passive smoking increases the risk of lung cancer
xs xs+1 xs+2 xs+T-1
xs+T xs+T+1xs-2 xs-1
(3)
(4) (5)
hs hs+1 hs+2
hs+T-1
(3)
ws ws+1 ws+2 ws+T-1
(3)
ws+T ws+T+1
(4) (5)
ws-2 ws-1
fs fs+1 fs+2
is is+1 is+2 is+3
~ ~ ~ ~
Parameter update
by Skip-gram model
Parameter update by
Skip-gram model
Pattern vector computed by Gated Additive Composition (GAC)
T = 4 δ = 2δ = 2
Context window Context windowRelation pattern
(word vectors)(context vectors) (context vectors)
(hidden vectors)
文脈の処理
2016-06-30 深層ニューラルネットワークによる知識の自動獲得・推論 22
読解 (Hermann+ 15)
• 新聞記事と要約から穴埋め問題の訓練データを自動生成
• 共参照を解消し,エンティティを匿名化(n-gram等の単純な手法を排除)
• 記事と質問の文脈を蓄積・処理する能力を測定することを意図
• 訓練データ数: 約9万記事 (CNN), 約22万記事 (Daily Mail)
2016-06-30 深層ニューラルネットワークによる知識の自動獲得・推論 23
DNNによる読解 (Hermann+ 15)
2016-06-30 深層ニューラルネットワークによる知識の自動獲得・推論 24
Hermann+ (2015)
𝒖𝒖と𝒚𝒚(𝑡𝑡)でアテンション
𝑠𝑠(𝑡𝑡)を計算
𝑝𝑝(𝑎𝑎|𝑑𝑑, 𝑞𝑞)
∝ exp(𝒗𝒗(𝑎𝑎) ⋅ 𝒈𝒈 𝑑𝑑, 𝑞𝑞 )
RNNに似た合成
(クエリの単語毎にアテンションを張る)
𝒈𝒈 𝑑𝑑, 𝑞𝑞 = tanh(𝑊𝑊 𝑔𝑔𝑔𝑔
𝒓𝒓 + 𝑊𝑊 𝑔𝑔𝑢𝑢
𝒖𝒖)
動的分散表現による読解 (Kobayashi+ 16)
Once X1 was the U.S. president. X1 faced criticism for affairs.
2016-06-30 深層ニューラルネットワークによる知識の自動獲得・推論 25
X1の表現1
Later X1 was divorced with the wife X2.
質問: [?] was the wife of the president.
X1の表現2
X1の表現3 X2の表現1
双方向LSTMでXのベク
トルをエンコード(先頭
と末尾の単語のベクトル
も結合して用いる)
[?]の表現
X1の表現 X2の表現
アテンションでXの異なる
文脈のベクトルを統合
内積の大きい方を解答
するようにモデル化
Max-poolingによる初期化
CNN/Daily Mailデータの解析 (Chen+ 16)
• Attentive Reader (Hermann+ 15) のアテンションの取り方を変
えるだけで性能が大きく向上
• ノイジーなデータのため,これ以上の性能向上の見込みは低い
• 共参照解析誤りと難解な事例が残りの25%
• DNNは換言や関連概念の認識が得意
• 文脈の蓄積や処理が必要な事例が少ない
2016-06-30 深層ニューラルネットワークによる知識の自動獲得・推論 26
Chen+ (2016)
bAbI (Weston+ 16)
• テキストの理解・推論の「単体テスト」を
目指して構築されたデータ
• 文章に関する質問とその答えの形式
• 人間であれば外部知識無しで簡単に解ける問題
• シミュレーションによりデータを自動生成
• 20種類のタスクに分けられている
• 限られた語彙 (150語,4人,6場所,3物体)
2016-06-30 深層ニューラルネットワークによる知識の自動獲得・推論 27
2016-06-30 深層ニューラルネットワークによる知識の自動獲得・推論 28
2016-06-30 深層ニューラルネットワークによる知識の自動獲得・推論 29
End-to-end Memory Network (Sukhbaatar+ 15)
• Memory Neural Networks (Weston+ 15) の改良版
• ソフトアテンションによるメモリ読み込み
• 質問と答えのペアだけで学習が可能
2016-06-30 深層ニューラルネットワークによる知識の自動獲得・推論 30
Sukhbaatar+ (2015)
𝑝𝑝𝑖𝑖 = softmax(𝒖𝒖𝑇𝑇
𝒎𝒎𝒊𝒊)
𝒐𝒐 = �
𝑖𝑖
𝑝𝑝𝑖𝑖 𝒄𝒄𝒊𝒊
入力
質問
𝑑𝑑次元ベクトル
𝒂𝒂 = 𝑊𝑊(𝒖𝒖 + 𝒐𝒐)
𝒖𝒖2
= 𝒖𝒖1
+ 𝒐𝒐1
𝒖𝒖3
= 𝒖𝒖2
+ 𝒐𝒐2
各層の構造 多層化
(実験では3層に固定)
Dynamic Memory Network (Kumar+ 16)
• bAbIの正解率: 93.6%(Memory Networksよりも高い)
• 品詞タグ付けや評判分析でも高性能(”Ask me anything”)
2016-06-30 深層ニューラルネットワークによる知識の自動獲得・推論 31
Kumar+ (2016)
bAbIデータの解析 (Lee+ 16)
• Tensor Product Representation (TPR) (Smolensky
90) でbAbIタスクを解くと,ほぼ100%の正解率
• bAbIだけでNNの推論能力を測定するのは不適切
• エンティティ間の関係が1種類のタスクが多いため
• Task 17: 東・西・南・北の4種類
• Task 19: 上・下・左・右の4種類
• それ以外: 所属関係か所属の推移関係のみで構成されている
2016-06-30 深層ニューラルネットワークによる知識の自動獲得・推論 32
Mary went to the kitchen. belong(Mary, kitchen) 𝒎𝒎𝒌𝒌𝑻𝑻
Sandra journeyed to the office. belong(Sandra, office) 𝐬𝐬𝒐𝒐𝑇𝑇
Mary got the football there. belong(Football, Mary) 𝒇𝒇𝒎𝒎𝑇𝑇
Mary travelled to the garden. belong(Mary, garden) 𝒎𝒎𝒈𝒈𝑇𝑇
Where is the football? (garden)
TPRによるTask 3の解答例.文の意味解析結果から所属関係を取り出し,それをベクトルの外積で
表現する.各文の表現に対し,クエリ𝒇𝒇𝑇𝑇
を左からかけて,内積が1に最も近い直近の所持者を特定
する (𝒎𝒎𝑇𝑇
).Maryは人物なので,𝒎𝒎𝑇𝑇
をクエリとして,同様の処理で直近の所持者𝒈𝒈𝑇𝑇
を得る
𝒎𝒎𝑇𝑇 𝒇𝒇𝑇𝑇
MemNNやDMNが苦手
としているタスク
その他のデータ・セット
• Children Book Test (Hill+ 16)
• 童話から作られた選択式問題
• 連続する20文に続く21文目のある単語を穴埋め
• SQuAD (Rajpurkar+ 16)
• Wikipedia記事から作られた大規模質問応答データ
• クラウドソーシングで構築
• LAMBADA (Paperno+ 16)
• 小説から作られた穴埋め式問題
• 現状では人間とDNNの性能差が大きい(難しい)
2016-06-30 深層ニューラルネットワークによる知識の自動獲得・推論 33
まとめ
• 様々なタスクでDNNが最高性能を達成
• 分散表現,分散表現の合成,エンコーダ・デコーダ,
アテンション,などの研究成果の蓄積
• 知識・文脈・推論などの難題に再チャレンジ
• 論理推論とは隔たりはまだ大きいが…
• 確率的論理推論への展開も (Cohen 16)
• 読解や質問応答の研究が活発化
• DNNの「能力」の解析が進む
• DNNは換言や知識の簡単な合成を学習できる(らしい)
2016-06-30 深層ニューラルネットワークによる知識の自動獲得・推論 34
参考文献
• D Bahdanau, K Cho, Y Bengio: Neural Machine Translation by Jointly Learning to Align and Translate, in ICLR
(2015)
• Y Bengio, R Ducharme, P Vincent, C Janvin: A Neural Probabilistic Language Model, Journal of Machine Learning
Research, Vol. 3, pp. 1137–1155 (2003)
• A Bordes, N Usunier, A Garcia-Duran, J Weston, O Yakhnenko: Translating Embeddings for Modeling Multi-
relational Data. in Proc. of NIPS, pp. 2787–2795 (2013)
• D Chen, J Bolton, C D Manning: A Thorough Examination of the CNN/Daily Mail Reading Comprehension Task, in
Proc. ACL (to apepar) (2016).
• K Cho, van B Merrienboer, C Gulcehre, D Bahdanau, F Bougares, H Schwenk, Y Bengio: Learning Phrase
Representations using RNN Encoder–Decoder for Statistical Machine Translation, in Proc. of EMNLP, pp. 1724–
1734 (2014)
• W W Cohen: TensorLog: A Differentiable Deductive Database, CoRR, Vol. abs/1605.06523 (2016)
• R Collobert, J Weston: A Unified Architecture for Natural Language Processing: Deep Neural Networks with
Multitask Learning, in Proc of ICML, pp. 160–167 (2008)
• A Graves: Generating Sequences With Recurrent Neural Networks, CoRR, Vol. abs/1308.0850 (2013)
• M Lee, X He, W-T Yih, J Gao, L Deng, P Smolensky: Reasoning in Vector Space: An Exploratory Study of Question
Answering, in Proc. of ICLR (2016)
• M-T Luong, H Pham, C D Manning: Effective Approaches to Attention-based Neural Machine Translation, in Proc.
of EMNLP, pp. 1412-1421 (2015)
• K Guu, J Miller, P Liang. Traversing Knowledge Graphs in Vector Space, in Proc. of EMNLP, pp 318-327 (2015)
• T Mikolov, I Sutskever, K Chen, G S Corrado, J Dean: Distributed Representations ofWords and Phrases and their
Compositionality, in Proc. of NIPS, pp. 3111–3119 (2013)
• K M Hermann, T Kocisky, E Grefenstette, L Espeholt, W Kay, M Suleyman, P Blunsom. Teaching machines to read
and comprehend, in Proc. of NIPS, pp. 1684-1692 (2015)
2016-06-30 深層ニューラルネットワークによる知識の自動獲得・推論 35
• F Hill, A Bordes, S Chopra, J Weston: The Goldilocks Principle: Reading Children's Books with Explicit Memory
Representations, in Proc. of ICLR (2016)
• S Kobayashi, R Tian, N Okazaki, K Inui. Dynamic Entity Representation with Max-pooling Improves Machine
Reading, in Proc. of NAACL-HLT, pp. 850-855 (2016)
• A Kumar, P Ondruska, M Iyyer, J Bradbury, I Gulrajani, V Zhong, R Paulus, R Socher: Ask Me Anything: Dynamic
Memory Networks for Natural Language Processing, in Proc. of ICML (2016)
• M Nickel, V Tresp, H-P Kriegel. A Three-Way Model for Collective Learning on Multi-Relational Data. in Proc. of
ICML, pp. 809–816 (2011)M Nickel, K Murphy, V Tresp, E Gabrilovich. A Review of Relational Machine Learning for
Knowledge Graphs. Proceedings of the IEEE, 104(1):11–33 (2016)
• P Rajpurkar, J Zhang, K Lopyrev, P Liang: SQuAD: 100,000+ Questions for Machine Comprehension of Text, CoRR,
Vol. abs/1606.05250, (2016)
• D Paperno, G Kruszewski, A Lazaridou, Q Pham, R Bernardi, S Pezzelle, M Baroni, G Boleda and R Fernandez. The
LAMBADA Dataset: Word Prediction Requiring a Broad Discourse Context, in Proc. of ACL (2016)
• S Riedel, L Yao, A McCallum: Latent Relation Representations for Universal Schemas, in Proc. of ICLR (2013)
• P Smolensky: Tensor product variable binding and the representation of symbolic structures in connectionist
• systems. Artificial Intelligence, 46(1-2), (1990)
• S Sukhbaatar, A Szlam, J Weston, R Fergus: End-to-End Memory Networks, in Proc of NIPS (2015)
• I Sutskever, J Martens, G Hinton: Generating Text with Recurrent Neural Networks, in Proc. of ICML, pp. 1017–1024
(2011)
• I Sutskever, O Vinyals, Q V Le: Sequence to Sequence Learning with Neural Networks, in Proc. of NIPS, pp. 3104–
3112 (2014)
• S Takase, N Okazaki, K Inui: Composing Distributed Representations of Relational Patterns. in Proc. ACL (2016).
• K Toutanova, D Chen, P Pantel, H Poon, P Choudhury, M Gamon: Representing Text for Joint Embedding of Text
and Knowledge Bases, in Proc. of EMNLP, pp. 1499-1509 (2015)
• J Weston, A Bordes, S Chopra, A M Rush, B van Merrienboer, A Joulin, T Mikolov: Towards AI-Complete Question
Answering: A Set of Prerequisite Toy Tasks, in Proc. of ICLR (2016)
2016-06-30 深層ニューラルネットワークによる知識の自動獲得・推論 36
参考資料
• 海野 裕也. 「知識」のDeep Learning.
• http://www.slideshare.net/unnonouno/deep-learning-
48974928
• 岡崎 直観. 単語・句の分散表現の学習.
• http://www.slideshare.net/naoakiokazaki/ss-55494101
• 人工知能 2016年3月号特集「ニューラルネット
ワーク研究のフロンティア」
• https://www.amazon.co.jp/dp/B01DK8Z9PE
2016-06-30 深層ニューラルネットワークによる知識の自動獲得・推論 37

Contenu connexe

Tendances

Tendances (20)

単語・句の分散表現の学習
単語・句の分散表現の学習単語・句の分散表現の学習
単語・句の分散表現の学習
 
教師なしオブジェクトマッチング(第2回ステアラボ人工知能セミナー)
教師なしオブジェクトマッチング(第2回ステアラボ人工知能セミナー)教師なしオブジェクトマッチング(第2回ステアラボ人工知能セミナー)
教師なしオブジェクトマッチング(第2回ステアラボ人工知能セミナー)
 
Pythonとdeep learningで手書き文字認識
Pythonとdeep learningで手書き文字認識Pythonとdeep learningで手書き文字認識
Pythonとdeep learningで手書き文字認識
 
最近のDeep Learning (NLP) 界隈におけるAttention事情
最近のDeep Learning (NLP) 界隈におけるAttention事情最近のDeep Learning (NLP) 界隈におけるAttention事情
最近のDeep Learning (NLP) 界隈におけるAttention事情
 
数式をnumpyに落としこむコツ
数式をnumpyに落としこむコツ数式をnumpyに落としこむコツ
数式をnumpyに落としこむコツ
 
第64回情報科学談話会(岡﨑 直観 准教授)
第64回情報科学談話会(岡﨑 直観 准教授) 第64回情報科学談話会(岡﨑 直観 准教授)
第64回情報科学談話会(岡﨑 直観 准教授)
 
STAIR Lab Seminar 202105
STAIR Lab Seminar 202105STAIR Lab Seminar 202105
STAIR Lab Seminar 202105
 
質問応答システム入門
質問応答システム入門質問応答システム入門
質問応答システム入門
 
DL Hacks輪読 Semi-supervised Learning with Deep Generative Models
DL Hacks輪読 Semi-supervised Learning with Deep Generative ModelsDL Hacks輪読 Semi-supervised Learning with Deep Generative Models
DL Hacks輪読 Semi-supervised Learning with Deep Generative Models
 
Vanishing Component Analysis
Vanishing Component AnalysisVanishing Component Analysis
Vanishing Component Analysis
 
20170422 数学カフェ Part1
20170422 数学カフェ Part120170422 数学カフェ Part1
20170422 数学カフェ Part1
 
ディープニューラルネット入門
ディープニューラルネット入門ディープニューラルネット入門
ディープニューラルネット入門
 
Natural Language Processing (Almost) from Scratch(第 6 回 Deep Learning 勉強会資料; 榊)
Natural Language Processing (Almost) from Scratch(第 6 回 Deep Learning 勉強会資料; 榊)Natural Language Processing (Almost) from Scratch(第 6 回 Deep Learning 勉強会資料; 榊)
Natural Language Processing (Almost) from Scratch(第 6 回 Deep Learning 勉強会資料; 榊)
 
深層生成モデルと世界モデル, 深層生成モデルライブラリPixyzについて
深層生成モデルと世界モデル,深層生成モデルライブラリPixyzについて深層生成モデルと世界モデル,深層生成モデルライブラリPixyzについて
深層生成モデルと世界モデル, 深層生成モデルライブラリPixyzについて
 
17ゼロから作るディープラーニング2章パーセプトロン
17ゼロから作るディープラーニング2章パーセプトロン17ゼロから作るディープラーニング2章パーセプトロン
17ゼロから作るディープラーニング2章パーセプトロン
 
LCCC2010:Learning on Cores, Clusters and Cloudsの解説
LCCC2010:Learning on Cores,  Clusters and Cloudsの解説LCCC2010:Learning on Cores,  Clusters and Cloudsの解説
LCCC2010:Learning on Cores, Clusters and Cloudsの解説
 
文法圧縮入門:超高速テキスト処理のためのデータ圧縮(NLP2014チュートリアル)
文法圧縮入門:超高速テキスト処理のためのデータ圧縮(NLP2014チュートリアル)文法圧縮入門:超高速テキスト処理のためのデータ圧縮(NLP2014チュートリアル)
文法圧縮入門:超高速テキスト処理のためのデータ圧縮(NLP2014チュートリアル)
 
グラフニューラルネットワークとグラフ組合せ問題
グラフニューラルネットワークとグラフ組合せ問題グラフニューラルネットワークとグラフ組合せ問題
グラフニューラルネットワークとグラフ組合せ問題
 
画像キャプションの自動生成
画像キャプションの自動生成画像キャプションの自動生成
画像キャプションの自動生成
 
Chainer with natural language processing hands on
Chainer with natural language processing hands onChainer with natural language processing hands on
Chainer with natural language processing hands on
 

Similaire à 深層ニューラルネットワーク による知識の自動獲得・推論

ネットワーク科学最前線2017 -インフルエンサーと機械学習からの接近-
ネットワーク科学最前線2017  -インフルエンサーと機械学習からの接近-ネットワーク科学最前線2017  -インフルエンサーと機械学習からの接近-
ネットワーク科学最前線2017 -インフルエンサーと機械学習からの接近-
hayashiresearchlab
 
MP Joinを使った類似データ抽出
MP Joinを使った類似データ抽出MP Joinを使った類似データ抽出
MP Joinを使った類似データ抽出
JAVA DM
 

Similaire à 深層ニューラルネットワーク による知識の自動獲得・推論 (20)

NLP2017 NMT Tutorial
NLP2017 NMT TutorialNLP2017 NMT Tutorial
NLP2017 NMT Tutorial
 
2015-1003 英語コーパス学会ワークショップ使用スライド
2015-1003 英語コーパス学会ワークショップ使用スライド2015-1003 英語コーパス学会ワークショップ使用スライド
2015-1003 英語コーパス学会ワークショップ使用スライド
 
Nl237 presentation
Nl237 presentationNl237 presentation
Nl237 presentation
 
Wikipedia からの大規模な汎用オントロジー構築
Wikipedia からの大規模な汎用オントロジー構築Wikipedia からの大規模な汎用オントロジー構築
Wikipedia からの大規模な汎用オントロジー構築
 
20170422 数学カフェ Part2
20170422 数学カフェ Part220170422 数学カフェ Part2
20170422 数学カフェ Part2
 
ネットワーク科学最前線2017 -インフルエンサーと機械学習からの接近-
ネットワーク科学最前線2017  -インフルエンサーと機械学習からの接近-ネットワーク科学最前線2017  -インフルエンサーと機械学習からの接近-
ネットワーク科学最前線2017 -インフルエンサーと機械学習からの接近-
 
【Zansa】第12回勉強会 -PRMLからベイズの世界へ
【Zansa】第12回勉強会 -PRMLからベイズの世界へ【Zansa】第12回勉強会 -PRMLからベイズの世界へ
【Zansa】第12回勉強会 -PRMLからベイズの世界へ
 
Leveraging Visual Question Answering for Image-Caption Ranking (関東CV勉強会 ECCV ...
Leveraging Visual Question Answeringfor Image-Caption Ranking (関東CV勉強会 ECCV ...Leveraging Visual Question Answeringfor Image-Caption Ranking (関東CV勉強会 ECCV ...
Leveraging Visual Question Answering for Image-Caption Ranking (関東CV勉強会 ECCV ...
 
コース導入講義(荒木)
コース導入講義(荒木)コース導入講義(荒木)
コース導入講義(荒木)
 
アイテム分散表現の階層化・集約演算に基づくセッションベース推薦システム
アイテム分散表現の階層化・集約演算に基づくセッションベース推薦システムアイテム分散表現の階層化・集約演算に基づくセッションベース推薦システム
アイテム分散表現の階層化・集約演算に基づくセッションベース推薦システム
 
第8回スキル養成講座講義資料.pdf
第8回スキル養成講座講義資料.pdf第8回スキル養成講座講義資料.pdf
第8回スキル養成講座講義資料.pdf
 
Hayashi tutorial ne2017
Hayashi tutorial ne2017Hayashi tutorial ne2017
Hayashi tutorial ne2017
 
コンピューターの整列処理におけるデータ操作の時間的共起分析
コンピューターの整列処理におけるデータ操作の時間的共起分析コンピューターの整列処理におけるデータ操作の時間的共起分析
コンピューターの整列処理におけるデータ操作の時間的共起分析
 
Convolutional Neural Netwoks で自然言語処理をする
Convolutional Neural Netwoks で自然言語処理をするConvolutional Neural Netwoks で自然言語処理をする
Convolutional Neural Netwoks で自然言語処理をする
 
MP Joinを使った類似データ抽出
MP Joinを使った類似データ抽出MP Joinを使った類似データ抽出
MP Joinを使った類似データ抽出
 
ベイズ統計によるデータ解析
ベイズ統計によるデータ解析ベイズ統計によるデータ解析
ベイズ統計によるデータ解析
 
Rainbow: Combining Improvements in Deep Reinforcement Learning (AAAI2018 unde...
Rainbow: Combining Improvements in Deep Reinforcement Learning (AAAI2018 unde...Rainbow: Combining Improvements in Deep Reinforcement Learning (AAAI2018 unde...
Rainbow: Combining Improvements in Deep Reinforcement Learning (AAAI2018 unde...
 
Interop2017
Interop2017Interop2017
Interop2017
 
大規模言語モデルとChatGPT
大規模言語モデルとChatGPT大規模言語モデルとChatGPT
大規模言語モデルとChatGPT
 
「現実世界に活かす数学」 (麻布高等学校、教養総合、数学講義 5 回目)
「現実世界に活かす数学」 (麻布高等学校、教養総合、数学講義 5 回目)「現実世界に活かす数学」 (麻布高等学校、教養総合、数学講義 5 回目)
「現実世界に活かす数学」 (麻布高等学校、教養総合、数学講義 5 回目)
 

Plus de Naoaki Okazaki

Plus de Naoaki Okazaki (8)

無限
無限無限
無限
 
自然言語処理による議論マイニング
自然言語処理による議論マイニング自然言語処理による議論マイニング
自然言語処理による議論マイニング
 
Visualizing and understanding neural models in NLP
Visualizing and understanding neural models in NLPVisualizing and understanding neural models in NLP
Visualizing and understanding neural models in NLP
 
研究室における研究・実装ノウハウの共有
研究室における研究・実装ノウハウの共有研究室における研究・実装ノウハウの共有
研究室における研究・実装ノウハウの共有
 
Pennington, Socher, and Manning. (2014) GloVe: Global vectors for word repres...
Pennington, Socher, and Manning. (2014) GloVe: Global vectors for word repres...Pennington, Socher, and Manning. (2014) GloVe: Global vectors for word repres...
Pennington, Socher, and Manning. (2014) GloVe: Global vectors for word repres...
 
Modeling missing data in distant supervision for information extraction (Ritt...
Modeling missing data in distant supervision for information extraction (Ritt...Modeling missing data in distant supervision for information extraction (Ritt...
Modeling missing data in distant supervision for information extraction (Ritt...
 
Learning to automatically solve algebra word problems
Learning to automatically solve algebra word problemsLearning to automatically solve algebra word problems
Learning to automatically solve algebra word problems
 
Word2vecの並列実行時の学習速度の改善
Word2vecの並列実行時の学習速度の改善Word2vecの並列実行時の学習速度の改善
Word2vecの並列実行時の学習速度の改善
 

深層ニューラルネットワーク による知識の自動獲得・推論

  • 2. 自然言語処理とは • 言葉を操る賢いコンピュータを作る • 応用: 情報検索,機械翻訳,質問応答,自動要 約,対話生成,評判分析,SNS分析,… • 基礎: 品詞タグ付け(形態素解析),チャンキ ング,固有表現抽出,構文解析,共参照解析, 意味役割付与,… • 多くのタスクは「入力𝑥𝑥から出力�𝑦𝑦を予測」 �𝑦𝑦 = argmax 𝑦𝑦∈𝑌𝑌 𝑃𝑃(𝑦𝑦|𝑥𝑥) ※確率ではないモデルもあります 2016-06-30 深層ニューラルネットワークによる知識の自動獲得・推論 2
  • 3. 単語列からラベル: ̂𝑦𝑦 = argmax 𝑦𝑦∈𝑌𝑌 𝑃𝑃(𝑦𝑦|𝒙𝒙) 2016-06-30 深層ニューラルネットワークによる知識の自動獲得・推論 3 The movie is the best I’ve ever seen! The movie is coming soon on cinemas. This movie is rubbish!!! • モデル:ナイーブ・ベイズ,パーセプトロン, ロジスティック回帰,サポート・ベクトル・マシン 𝒙𝒙: 単語列 𝑃𝑃(𝑦𝑦|𝒙𝒙) �𝑦𝑦
  • 4. 単語列から系列ラベル: �𝒚𝒚 = argmax 𝒚𝒚∈𝑌𝑌 𝑚𝑚 𝑃𝑃(𝒚𝒚|𝒙𝒙) 2016-06-30 深層ニューラルネットワークによる知識の自動獲得・推論 4 • モデル:隠れマルコフモデル,条件付き確率場,符号・復号 • 探索法:点予測,動的計画法,ビーム探索,… In March 2005, the New York Times acquired About, Inc. IN NNP CD DT NNP NNP NNP VBD NNP NNP O B-NP I-NP B-NP I-NP I-NP I-NP B-VP B-NP B-NP 2005年 3月 , ニューヨーク・タイムズ は About 社 を 買収 し た . (品詞) (句) (翻訳) (入力) I heard Google and Yahoo were among the other bidders.(対話)
  • 5. DNNブームの幕開け (2012年頃) • 画像認識でブレークスルー • エラー率が10%以上減少 (ILSVRC 2012) • 言語処理での衝撃は限定的 • 文字や単語などの明確な特徴量があったため? • 最近ではDNNが様々なタスクで最高性能を達成 • (D)NNと言語処理の関わりは昔からあった • Neural Language Model (Bengio+ 03) • SENNA (CNNで汎用NLP) (Collobert+ 08) 2016-06-30 深層ニューラルネットワークによる知識の自動獲得・推論 5
  • 7. 言語処理におけるDNNの進展 • 単語の分散表現 • エンコーダ・デコーダ • 分散表現の合成 • アテンション 2016-06-30 深層ニューラルネットワークによる知識の自動獲得・推論 7 very good movie very good movie very good movie very good movie とても 良い 映画 very good movie
  • 8. 単語の分散表現の学習: Skip-gram with negative sampling (Mikolov+ 13) 2016-06-30 深層ニューラルネットワークによる知識の自動獲得・推論 8 draughtofferpubs beer, cider, and wine last use place people make city full know build time group have new game rather age show take take team season say 個 の 単 語 を ユ ニ グ ラ ム 分 布 か ら サ ン プ リ ン グ し , こ れ ら が 予 測 さ れ な い よ う に 更 新 ( 負 例 ) 個 の 文 脈 語 を 予 測 す る よ う に 更 新 同じ単語がサン プルされること もあり得る 単語ベクトル𝒗𝒗𝑤𝑤 (𝑑𝑑次元) 予測ベクトル�𝒗𝒗𝑐𝑐 (𝑑𝑑次元) : 内積 → +∞ へ : 内積 → −∞ へ ベクトルの更新方針 コーパス (ℎ = 2, 𝑘𝑘 = 1の場合)
  • 9. 分散表現の合成 (1/2): Recurrent Neural Network (RNN) (Sutskever+ 11) 2016-06-30 深層ニューラルネットワークによる知識の自動獲得・推論 9 very good movie 𝑥𝑥𝑡𝑡 𝑊𝑊(ℎ𝑥𝑥) ℎ𝑡𝑡 𝑊𝑊(𝑦𝑦𝑦) 𝑊𝑊(ℎℎ) 𝑊𝑊(ℎℎ) 𝑦𝑦𝑡𝑡 潜在ベクトル: ℎ𝑡𝑡 = 𝜎𝜎 𝑊𝑊(ℎ𝑥𝑥) 𝑥𝑥𝑡𝑡 + 𝑊𝑊(ℎℎ) ℎ𝑡𝑡−1 + 𝑏𝑏(ℎ) 出力ベクトル: 𝑦𝑦𝑡𝑡 = 𝜎𝜎 𝑊𝑊(𝑦𝑦𝑦) ℎ𝑡𝑡 + 𝑏𝑏(𝑦𝑦) 入力ベクトル: (単語ベクトル) 潜在ベクトル: (合成ベクトル) 出力ベクトル: (評判ラベル)
  • 10. 分散表現の合成 (2/2): Long Short-Term Memory (LSTM) (Graves 13) 2016-06-30 深層ニューラルネットワークによる知識の自動獲得・推論 10 very good movie 𝑥𝑥𝑡𝑡 𝑐𝑐𝑡𝑡 ℎ𝑡𝑡 Input gate Output gate Forget gate Forget gate • 各ゲートはマスクの役割を担う(ベクトルの要素ごとの積) • 各ゲートのマスクパターンは入力𝑥𝑥𝑡𝑡,記憶ℎ𝑡𝑡−1,出力ℎ𝑡𝑡−1などで自動制御 • 長い系列での誤差逆伝搬時の勾配消失をゲートで防止する(→長期依存の保存) • LSTMの代わりにGated Recurrent Unit (GRU) も用いることも多い
  • 11. エンコーダ・デコーダモデル Sequence-to-sequence (Sutskever+ 14; Cho+ 14) 2016-06-30 深層ニューラルネットワークによる知識の自動獲得・推論 11 very good movie とても よい 映画 だ <EOS> とても よい 映画 だ <EOS> 𝑥𝑥𝑡𝑡 ℎ𝑡𝑡 𝑦𝑦𝑡𝑡 • 英語 (𝑥𝑥𝑡𝑡) から日本語 (𝑦𝑦𝑡𝑡) への機械翻訳の例 • ℎ𝑡𝑡 = 𝜎𝜎(𝑊𝑊(ℎ𝑥𝑥) 𝑥𝑥𝑡𝑡 + 𝑊𝑊(ℎℎ)ℎ𝑡𝑡−1) • 𝑦𝑦𝑡𝑡 = 𝑊𝑊(𝑦𝑦𝑦)ℎ𝑡𝑡 (𝑦𝑦𝑡𝑡は出力単語のスコアのベクトル表現) • 出力単語を入力側に戻すことで,翻訳履歴を考慮 • 実際にはRNNではなく2-layer LSTM等を用いる 入力文の意味 ベクトル
  • 12. アテンション (Bahdanau+ 15, Luong+, 15) 2016-06-30 深層ニューラルネットワークによる知識の自動獲得・推論 12 very good movie とても よい <EOS> とても 𝑥𝑥𝑠𝑠 ℎ𝑠𝑠 ℎ𝑡𝑡 𝑎𝑎𝑡𝑡(𝑠𝑠) 𝑐𝑐𝑡𝑡 �ℎ𝑡𝑡 = tanh(𝑊𝑊𝑐𝑐[𝑐𝑐𝑡𝑡; ℎ𝑡𝑡]) 𝑎𝑎𝑡𝑡(𝑠𝑠) = exp s(ℎ𝑡𝑡, ℎ𝑠𝑠) ∑𝑠𝑠′ exp s(ℎ𝑡𝑡, ℎ𝑠𝑠𝑠) s ℎ𝑡𝑡, ℎ𝑠𝑠 = ℎ𝑡𝑡 ⋅ ℎ𝑠𝑠 または s ℎ𝑡𝑡, ℎ𝑠𝑠 = ℎ𝑡𝑡 T 𝑊𝑊𝑎𝑎ℎ𝑠𝑠 など 𝑐𝑐𝑡𝑡 = � 𝑠𝑠 𝑎𝑎𝑡𝑡(𝑠𝑠)ℎ𝑠𝑠 • 固定長のベクトルで文全体の意味を表現するには限界がある • 位置𝑡𝑡の単語を予測するときに,入力のどの単語に着目すべき かの重み𝑎𝑎𝑡𝑡(𝑠𝑠)を求め,入力単語のベクトルℎ𝑠𝑠の重み付き平均 ベクトル𝑐𝑐𝑡𝑡を用いて出力単語を生成する 𝑦𝑦𝑡𝑡 = softmax(𝑊𝑊𝑦𝑦 �ℎ𝑡𝑡)
  • 14. DNNを言語処理の難題に適用 • 多様性・曖昧性(表層と意味の対応付け) • これまでの説明+第2部 • 文脈の処理(複数の文の情報の統合) • 第3部で説明 • 知識の獲得と推論(暗黙的な情報の利用) • 第2部で説明 2016-06-30 深層ニューラルネットワークによる知識の自動獲得・推論 14
  • 16. 関係知識 (Nickel+ 16) • (subject, predicate, object)の三つ組の集合 Leonard Nimoy was an actor who played the character Spock in the science-fiction movie Star Trek 2016-06-30 深層ニューラルネットワークによる知識の自動獲得・推論 16 Subject (s) Predicate (r) Object (t) Leonard_Nimoy profession Actor Leonard_Nimoy starredIn Star_Trek Leonard_Nimoy played Spock Spock characterIn Star_Trek StarTrek genre Science_Fiction
  • 17. 関係知識の因子分解(分散表現化) • RESCAL (Nickel+ 11) • score 𝑠𝑠, 𝑟𝑟, 𝑡𝑡 = 𝑥𝑥𝑠𝑠 T 𝑊𝑊𝑟𝑟 𝑥𝑥𝑡𝑡 • 𝑥𝑥𝑠𝑠 ∈ ℝ𝑑𝑑 , 𝑥𝑥𝑡𝑡 ∈ ℝ𝑑𝑑 , 𝑊𝑊𝑟𝑟 ∈ ℝ𝑑𝑑×𝑑𝑑 • TransE (Bordes+ 13) • score 𝑠𝑠, 𝑟𝑟, 𝑡𝑡 = − 𝑥𝑥𝑠𝑠 + 𝑤𝑤𝑟𝑟 − 𝑥𝑥𝑡𝑡 2 2 • 𝑥𝑥𝑠𝑠 ∈ ℝ𝑑𝑑 , 𝑤𝑤𝑟𝑟 ∈ ℝ𝑑𝑑 , 𝑥𝑥𝑡𝑡 ∈ ℝ𝑑𝑑 • max-margin損失関数を最小化する場合 𝐽𝐽 = � (𝑠𝑠,𝑟𝑟,𝑡𝑡)∈𝐷𝐷 max 0,1 − score 𝑠𝑠, 𝑟𝑟, 𝑡𝑡 + score 𝑠𝑠∗, 𝑟𝑟, 𝑡𝑡∗ 2016-06-30 深層ニューラルネットワークによる知識の自動獲得・推論 17 𝐷𝐷に存在しない三つ組(負例)←知識ベースの三つ組集合 Japan Tokyo capital capital UK London Japan capital Tokyo
  • 18. 関係知識の合成(推論) (Guu+ 15) • 隣接行列による関係の合成 • RESCALベース: 𝑥𝑥𝑠𝑠 T 𝑊𝑊𝑟𝑟1 … 𝑊𝑊𝑟𝑟𝑘𝑘 𝑥𝑥𝑡𝑡 • TransEベース: − 𝑥𝑥𝑠𝑠 + 𝑤𝑤𝑟𝑟1 + ⋯ + 𝑤𝑤𝑟𝑟𝑘𝑘 − 𝑥𝑥𝑡𝑡 2 2 2016-06-30 深層ニューラルネットワークによる知識の自動獲得・推論 18 × → × → ・ = 3 Swiss location language(cities) (langs) Geneva French Zürich Germany Swiss location (cities) → language (langs) → Germany Swiss Germany location language → 1
  • 19. 関係パタンのロングテール (person/organization_founded) (Toutanova+ 15) 2016-06-30 深層ニューラルネットワークによる知識の自動獲得・推論 19 KBの関係の分散表現と, その関係がテキスト中で 言及される言語パタンの 分散表現を対応付けたい テキストからKBの関係 事例を拡充できる → Universal Schema (Riedel+ 13) 同じ関係を表す言語パタ ンはバラエティに富む 関係パタンのロングテー ルに対応できる分散表現 を学習したい
  • 20. 関係パタンの意味合成 (Toutanova+ 15) • 関係パタンの分散表現をCNNで合成することで,知識 ベース拡充の精度が向上することを実証 • 知識ベース拡充: 未知の関係事例の真偽値の予測するタスク • ベース手法: KBとテキストの分散表現の同時学習 (Riedel+ 13) 2016-06-30 深層ニューラルネットワークによる知識の自動獲得・推論 20 Toutanova+ (2015)
  • 21. 関係パタンの意味合成 (Takase+ 16) • 因果関係などの「関係」を表す言語表現の分散表現を, 構成単語の分散表現から合成する新手法 (GAC) を提案 • 関係の分散表現の評価データを構築・公開 • 関係の分散表現が関係分類タスクで貢献することを実証 2016-06-30 深層ニューラルネットワークによる知識の自動獲得・推論 21 passive smoking increases the risk of lung cancer xs xs+1 xs+2 xs+T-1 xs+T xs+T+1xs-2 xs-1 (3) (4) (5) hs hs+1 hs+2 hs+T-1 (3) ws ws+1 ws+2 ws+T-1 (3) ws+T ws+T+1 (4) (5) ws-2 ws-1 fs fs+1 fs+2 is is+1 is+2 is+3 ~ ~ ~ ~ Parameter update by Skip-gram model Parameter update by Skip-gram model Pattern vector computed by Gated Additive Composition (GAC) T = 4 δ = 2δ = 2 Context window Context windowRelation pattern (word vectors)(context vectors) (context vectors) (hidden vectors)
  • 23. 読解 (Hermann+ 15) • 新聞記事と要約から穴埋め問題の訓練データを自動生成 • 共参照を解消し,エンティティを匿名化(n-gram等の単純な手法を排除) • 記事と質問の文脈を蓄積・処理する能力を測定することを意図 • 訓練データ数: 約9万記事 (CNN), 約22万記事 (Daily Mail) 2016-06-30 深層ニューラルネットワークによる知識の自動獲得・推論 23
  • 24. DNNによる読解 (Hermann+ 15) 2016-06-30 深層ニューラルネットワークによる知識の自動獲得・推論 24 Hermann+ (2015) 𝒖𝒖と𝒚𝒚(𝑡𝑡)でアテンション 𝑠𝑠(𝑡𝑡)を計算 𝑝𝑝(𝑎𝑎|𝑑𝑑, 𝑞𝑞) ∝ exp(𝒗𝒗(𝑎𝑎) ⋅ 𝒈𝒈 𝑑𝑑, 𝑞𝑞 ) RNNに似た合成 (クエリの単語毎にアテンションを張る) 𝒈𝒈 𝑑𝑑, 𝑞𝑞 = tanh(𝑊𝑊 𝑔𝑔𝑔𝑔 𝒓𝒓 + 𝑊𝑊 𝑔𝑔𝑢𝑢 𝒖𝒖)
  • 25. 動的分散表現による読解 (Kobayashi+ 16) Once X1 was the U.S. president. X1 faced criticism for affairs. 2016-06-30 深層ニューラルネットワークによる知識の自動獲得・推論 25 X1の表現1 Later X1 was divorced with the wife X2. 質問: [?] was the wife of the president. X1の表現2 X1の表現3 X2の表現1 双方向LSTMでXのベク トルをエンコード(先頭 と末尾の単語のベクトル も結合して用いる) [?]の表現 X1の表現 X2の表現 アテンションでXの異なる 文脈のベクトルを統合 内積の大きい方を解答 するようにモデル化 Max-poolingによる初期化
  • 26. CNN/Daily Mailデータの解析 (Chen+ 16) • Attentive Reader (Hermann+ 15) のアテンションの取り方を変 えるだけで性能が大きく向上 • ノイジーなデータのため,これ以上の性能向上の見込みは低い • 共参照解析誤りと難解な事例が残りの25% • DNNは換言や関連概念の認識が得意 • 文脈の蓄積や処理が必要な事例が少ない 2016-06-30 深層ニューラルネットワークによる知識の自動獲得・推論 26 Chen+ (2016)
  • 27. bAbI (Weston+ 16) • テキストの理解・推論の「単体テスト」を 目指して構築されたデータ • 文章に関する質問とその答えの形式 • 人間であれば外部知識無しで簡単に解ける問題 • シミュレーションによりデータを自動生成 • 20種類のタスクに分けられている • 限られた語彙 (150語,4人,6場所,3物体) 2016-06-30 深層ニューラルネットワークによる知識の自動獲得・推論 27
  • 30. End-to-end Memory Network (Sukhbaatar+ 15) • Memory Neural Networks (Weston+ 15) の改良版 • ソフトアテンションによるメモリ読み込み • 質問と答えのペアだけで学習が可能 2016-06-30 深層ニューラルネットワークによる知識の自動獲得・推論 30 Sukhbaatar+ (2015) 𝑝𝑝𝑖𝑖 = softmax(𝒖𝒖𝑇𝑇 𝒎𝒎𝒊𝒊) 𝒐𝒐 = � 𝑖𝑖 𝑝𝑝𝑖𝑖 𝒄𝒄𝒊𝒊 入力 質問 𝑑𝑑次元ベクトル 𝒂𝒂 = 𝑊𝑊(𝒖𝒖 + 𝒐𝒐) 𝒖𝒖2 = 𝒖𝒖1 + 𝒐𝒐1 𝒖𝒖3 = 𝒖𝒖2 + 𝒐𝒐2 各層の構造 多層化 (実験では3層に固定)
  • 31. Dynamic Memory Network (Kumar+ 16) • bAbIの正解率: 93.6%(Memory Networksよりも高い) • 品詞タグ付けや評判分析でも高性能(”Ask me anything”) 2016-06-30 深層ニューラルネットワークによる知識の自動獲得・推論 31 Kumar+ (2016)
  • 32. bAbIデータの解析 (Lee+ 16) • Tensor Product Representation (TPR) (Smolensky 90) でbAbIタスクを解くと,ほぼ100%の正解率 • bAbIだけでNNの推論能力を測定するのは不適切 • エンティティ間の関係が1種類のタスクが多いため • Task 17: 東・西・南・北の4種類 • Task 19: 上・下・左・右の4種類 • それ以外: 所属関係か所属の推移関係のみで構成されている 2016-06-30 深層ニューラルネットワークによる知識の自動獲得・推論 32 Mary went to the kitchen. belong(Mary, kitchen) 𝒎𝒎𝒌𝒌𝑻𝑻 Sandra journeyed to the office. belong(Sandra, office) 𝐬𝐬𝒐𝒐𝑇𝑇 Mary got the football there. belong(Football, Mary) 𝒇𝒇𝒎𝒎𝑇𝑇 Mary travelled to the garden. belong(Mary, garden) 𝒎𝒎𝒈𝒈𝑇𝑇 Where is the football? (garden) TPRによるTask 3の解答例.文の意味解析結果から所属関係を取り出し,それをベクトルの外積で 表現する.各文の表現に対し,クエリ𝒇𝒇𝑇𝑇 を左からかけて,内積が1に最も近い直近の所持者を特定 する (𝒎𝒎𝑇𝑇 ).Maryは人物なので,𝒎𝒎𝑇𝑇 をクエリとして,同様の処理で直近の所持者𝒈𝒈𝑇𝑇 を得る 𝒎𝒎𝑇𝑇 𝒇𝒇𝑇𝑇 MemNNやDMNが苦手 としているタスク
  • 33. その他のデータ・セット • Children Book Test (Hill+ 16) • 童話から作られた選択式問題 • 連続する20文に続く21文目のある単語を穴埋め • SQuAD (Rajpurkar+ 16) • Wikipedia記事から作られた大規模質問応答データ • クラウドソーシングで構築 • LAMBADA (Paperno+ 16) • 小説から作られた穴埋め式問題 • 現状では人間とDNNの性能差が大きい(難しい) 2016-06-30 深層ニューラルネットワークによる知識の自動獲得・推論 33
  • 34. まとめ • 様々なタスクでDNNが最高性能を達成 • 分散表現,分散表現の合成,エンコーダ・デコーダ, アテンション,などの研究成果の蓄積 • 知識・文脈・推論などの難題に再チャレンジ • 論理推論とは隔たりはまだ大きいが… • 確率的論理推論への展開も (Cohen 16) • 読解や質問応答の研究が活発化 • DNNの「能力」の解析が進む • DNNは換言や知識の簡単な合成を学習できる(らしい) 2016-06-30 深層ニューラルネットワークによる知識の自動獲得・推論 34
  • 35. 参考文献 • D Bahdanau, K Cho, Y Bengio: Neural Machine Translation by Jointly Learning to Align and Translate, in ICLR (2015) • Y Bengio, R Ducharme, P Vincent, C Janvin: A Neural Probabilistic Language Model, Journal of Machine Learning Research, Vol. 3, pp. 1137–1155 (2003) • A Bordes, N Usunier, A Garcia-Duran, J Weston, O Yakhnenko: Translating Embeddings for Modeling Multi- relational Data. in Proc. of NIPS, pp. 2787–2795 (2013) • D Chen, J Bolton, C D Manning: A Thorough Examination of the CNN/Daily Mail Reading Comprehension Task, in Proc. ACL (to apepar) (2016). • K Cho, van B Merrienboer, C Gulcehre, D Bahdanau, F Bougares, H Schwenk, Y Bengio: Learning Phrase Representations using RNN Encoder–Decoder for Statistical Machine Translation, in Proc. of EMNLP, pp. 1724– 1734 (2014) • W W Cohen: TensorLog: A Differentiable Deductive Database, CoRR, Vol. abs/1605.06523 (2016) • R Collobert, J Weston: A Unified Architecture for Natural Language Processing: Deep Neural Networks with Multitask Learning, in Proc of ICML, pp. 160–167 (2008) • A Graves: Generating Sequences With Recurrent Neural Networks, CoRR, Vol. abs/1308.0850 (2013) • M Lee, X He, W-T Yih, J Gao, L Deng, P Smolensky: Reasoning in Vector Space: An Exploratory Study of Question Answering, in Proc. of ICLR (2016) • M-T Luong, H Pham, C D Manning: Effective Approaches to Attention-based Neural Machine Translation, in Proc. of EMNLP, pp. 1412-1421 (2015) • K Guu, J Miller, P Liang. Traversing Knowledge Graphs in Vector Space, in Proc. of EMNLP, pp 318-327 (2015) • T Mikolov, I Sutskever, K Chen, G S Corrado, J Dean: Distributed Representations ofWords and Phrases and their Compositionality, in Proc. of NIPS, pp. 3111–3119 (2013) • K M Hermann, T Kocisky, E Grefenstette, L Espeholt, W Kay, M Suleyman, P Blunsom. Teaching machines to read and comprehend, in Proc. of NIPS, pp. 1684-1692 (2015) 2016-06-30 深層ニューラルネットワークによる知識の自動獲得・推論 35
  • 36. • F Hill, A Bordes, S Chopra, J Weston: The Goldilocks Principle: Reading Children's Books with Explicit Memory Representations, in Proc. of ICLR (2016) • S Kobayashi, R Tian, N Okazaki, K Inui. Dynamic Entity Representation with Max-pooling Improves Machine Reading, in Proc. of NAACL-HLT, pp. 850-855 (2016) • A Kumar, P Ondruska, M Iyyer, J Bradbury, I Gulrajani, V Zhong, R Paulus, R Socher: Ask Me Anything: Dynamic Memory Networks for Natural Language Processing, in Proc. of ICML (2016) • M Nickel, V Tresp, H-P Kriegel. A Three-Way Model for Collective Learning on Multi-Relational Data. in Proc. of ICML, pp. 809–816 (2011)M Nickel, K Murphy, V Tresp, E Gabrilovich. A Review of Relational Machine Learning for Knowledge Graphs. Proceedings of the IEEE, 104(1):11–33 (2016) • P Rajpurkar, J Zhang, K Lopyrev, P Liang: SQuAD: 100,000+ Questions for Machine Comprehension of Text, CoRR, Vol. abs/1606.05250, (2016) • D Paperno, G Kruszewski, A Lazaridou, Q Pham, R Bernardi, S Pezzelle, M Baroni, G Boleda and R Fernandez. The LAMBADA Dataset: Word Prediction Requiring a Broad Discourse Context, in Proc. of ACL (2016) • S Riedel, L Yao, A McCallum: Latent Relation Representations for Universal Schemas, in Proc. of ICLR (2013) • P Smolensky: Tensor product variable binding and the representation of symbolic structures in connectionist • systems. Artificial Intelligence, 46(1-2), (1990) • S Sukhbaatar, A Szlam, J Weston, R Fergus: End-to-End Memory Networks, in Proc of NIPS (2015) • I Sutskever, J Martens, G Hinton: Generating Text with Recurrent Neural Networks, in Proc. of ICML, pp. 1017–1024 (2011) • I Sutskever, O Vinyals, Q V Le: Sequence to Sequence Learning with Neural Networks, in Proc. of NIPS, pp. 3104– 3112 (2014) • S Takase, N Okazaki, K Inui: Composing Distributed Representations of Relational Patterns. in Proc. ACL (2016). • K Toutanova, D Chen, P Pantel, H Poon, P Choudhury, M Gamon: Representing Text for Joint Embedding of Text and Knowledge Bases, in Proc. of EMNLP, pp. 1499-1509 (2015) • J Weston, A Bordes, S Chopra, A M Rush, B van Merrienboer, A Joulin, T Mikolov: Towards AI-Complete Question Answering: A Set of Prerequisite Toy Tasks, in Proc. of ICLR (2016) 2016-06-30 深層ニューラルネットワークによる知識の自動獲得・推論 36
  • 37. 参考資料 • 海野 裕也. 「知識」のDeep Learning. • http://www.slideshare.net/unnonouno/deep-learning- 48974928 • 岡崎 直観. 単語・句の分散表現の学習. • http://www.slideshare.net/naoakiokazaki/ss-55494101 • 人工知能 2016年3月号特集「ニューラルネット ワーク研究のフロンティア」 • https://www.amazon.co.jp/dp/B01DK8Z9PE 2016-06-30 深層ニューラルネットワークによる知識の自動獲得・推論 37