Ce diaporama a bien été signalé.
Nous utilisons votre profil LinkedIn et vos données d’activité pour vous proposer des publicités personnalisées et pertinentes. Vous pouvez changer vos préférences de publicités à tout moment.

EMNLP 2015 yomikai

11 616 vues

Publié le

A Graph-based Readability Assessment Method using Word Coupling

Publié dans : Ingénierie
  • Soyez le premier à commenter

EMNLP 2015 yomikai

  1. 1. EMNLP読み会 Graph-based Readability Assessment Method using Word Coupling 2015/10/24 @niam 1 Zhiwei Jiang, Gang Sun, Qing Gu∗, Tao Bai, Daoxu Chen
  2. 2. 自己紹介を兼ねて • 専門:自然言語処理,言語教育,NLP応用 数百語ぐらいの単語テストの結果を用いて,学習 者が知っている単語を当てるタスク 機械学習的な手法:ラベル伝搬法 sklearn.semi_supervised.LabelPropagation/LabelS preading関数あたり. • 去年のEMNLP 2014@カタールに,ラベル伝 搬+言語教育ネタで通しました. • この論文も,ラベル伝搬+言語教育なので 読みます. 2
  3. 3. タイトルを見る Graph-based Readability Assessment Method using Word Coupling • Graph-based : Gaussian Random Field (GRF, ICML 2003), scikit-learnでいうところの LabelPropagation関数使ったよ • Readability Assessment:昔からあるタスク. 例えば,与えられた英文テキストが,英検 何級レベルですか?というような識別問題 • Word Coupling:これが新しく,著者らが提 案している,単語間関係を考慮して識別す るための前処理 3
  4. 4. ラベル伝搬法 1/2 4 INPUT: 枝に重みが付いた グラフ ノードの一部への ラベル 枝の重みに従って ラベルを伝搬 OUTPUT: 全ノードのラベル 大敵:ハブノード [Zhu+, ICML 2003] Hubノードを省く話は日本では, Ikumi Suzukiで検索すると出てくる
  5. 5. ラベル伝搬法 2/2 簡単な半教師あり学習法.重要な手法は2つ • Gaussian Random Field – sklearnとこの論文ではLabel Propagationという名前 Zhu+, Technical Report CMU-CALD, 2002 Zhu+, ICML 2003←GRF.ICML 2013 classic paper prize – 出力を確率値とみなせる(全ノードの値を足すと1) • Learning with Local and Global Consistency – Zhou+, NIPS 2004 – 言語処理では,Komachi+, EMNLP 2008等で使用 – 出力は確率値とみなせない 5
  6. 6. この研究の全体像 6 1.単語-文書関係 (TF-IDF) 2.単語間の難易度の差 3.単語-文書関係 各文書に対して, 単語次元の 素性ベクトルが できる 4.グラフを 構築
  7. 7. 1. 単語-文書関係 7 普通のtf-idf行列. f(t,d): 語tが文書dに出てきた頻度
  8. 8. 2. 単語間の難易度の差 8 語tに関してi番目の要素が以下であるような確率ベクトルを作る 語tが現れる文の数ntのうち,l(s)=i(難しさがi程度)であるものの比率 l(s):文sに対して,この値が大きいほど難しいと みなせるような素性の値.非負の整数値に丸め.(後述) pは確率分布なので,下記の式でJensen-Shanon Divergence を計算.(ただし,JSDの名前は出てこない) 2単語間の関係を,下記のように定義
  9. 9. 3. 単語間の難易度の差を考慮した単 語-文書行列 9 単語-文書行列 単語-文書行列 TF-IDF 単語間 の難易度 の差を表す行列
  10. 10. 4. グラフの構築 10 単語-文書行列 単語-文書行列 TF-IDF 単語間 の難易度の差 を表す行列 N(di):diのk近傍 M:単語-文書行列. 各文書に対して 単語次元の素性ベクトル
  11. 11. 実際に,どのようなものを文sの難易 度としているか 11 語tを含む文sの難易度分布 を通じて,語の難易度差に変換
  12. 12. グラフのマージ 12 *をsurface, lexical, syntacticと変えることで, 3種類のグラフが出来る ラベル伝搬法はハブ(多くのノードと繋がるノード) があると性能が悪化する→ハブがなるべく出来ないようにマージ 1.ノードvに対し,3種のどのグラフでも k近傍になっているノード集合を, vと繋ぐ.Nc(v)=S(v)とする 2. |S(v)|<kの時,v’∈Nsur(v)∪Nlex(v)∪Nsyn(v)S(v)のうち, Nc(v)との共通k近傍が最も小さいv’から,Nc(v)に足していく (|Nc(v)|=kになるまで) S(v)=
  13. 13. 結果 1/3 使用したデータセット 中国語と英語の2言語で実験(Readability Assessment の研究ではちゃんとやっている方) CPT: Chinese Primary Textbook 中国語文書について6段階の難易度を人手でつけたもの ENCT: English New Concept Textbook 英語文書について4段階の難易度を人手でつけたもの 13
  14. 14. 結果 2/3 14 提案手法
  15. 15. 結果 3/3 15 ちゃんと,単語間難易度の差を考慮して 分類することには意味があるよ
  16. 16. まとめ • word couplingと言っているが,要するに,単語間 の難易度の差(近さ)を考慮した,Readability Assessmentの手法を提案した – これまでのReadability Assessment:教師あり学習&単 語間難易度の差などは未考慮. – 提案:半教師あり+単語間の難易度の差を考慮. • 単純に教師あり→半教師ありにしたら良いという 話でもない事は実験からも分かる. • ラベル伝搬性能を落とすハブが出来ないように考 慮しつつ,surface, lexical, syntacticな情報をすべ て入れて,ようやく,性能を上げている印象. 16

×