Publicité
Publicité

Contenu connexe

Présentations pour vous(20)

Dernier(20)

Publicité

Minimally Supervised Classification to Semantic Categories using Automatically Acquired Symmetric Patterns

  1. COLING 2014 読み会 Minimally Supervised Classification to Semantic Categories using Automatically Acquired Symmetric Patterns ※このスライド中のすべての図はこの論文中のものです 小町研究室B4 堺澤勇也
  2. この論文の主張  対象パターン(e.g., “X and Y”) とI-k-NNを使用して、 名詞の意味分類をする  先行研究とは違い、事前に対象パターンを定義せず、 生のテキストから教師なし手法でパターンを自動で抽 出する  実験結果から、対象パターンはword embedding手法 と比較して分類素性として良い素性だった  簡単なkNNアルゴリズムで最新の異なる手法の実験結 果を上回る結果になった
  3. タスク定義  この論文のタスクは名詞の意味カテゴリの分類で ある  Semantic Categorization of Concrete Nouns :  名詞カテゴリに相当する具体的な“もの”に着目  名詞の文脈に依存しない性質は異なりレベルの分類に適 してしる  Dataset :  CSLB property norms datasetを使用  被験者30人が638個の具体的な名詞に対してカテゴ リを付けてもらったもの
  4. Category Selection  CSLB内の2725個のカテゴリから以下の二つを 満たすものが欲しい  (1) 単一の名詞カテゴリ  (2) 顕著な意味カテゴリ  そのために以下のような操作をする  1つの名詞にのみアノテーションされてるもの(名詞 の5%である35の名詞に現れるもののみ)  低頻度のカテゴリを消去  各意味カテゴリc に対して、c のカテゴリだとアノテー ションされた名詞全体の各名詞のこの名詞はカテゴリc であるとアノテーションした人数が10人以上のもの  最後に、色やサイズなどなど具体的なものに相当しない カテゴリを除く  これにより残ったカテゴリは以下の4つとなった  Animacy (animals), edibiliy (food items)  Is_a_tool (tools), is_worn (clothes)
  5.  Patterns : 対象パターン  構造的なフレーズ表現から提供される、単語とワイ ルドカードの組み合わせから構成される  例→ “X such as Y”, “X is a country”  Symmetric Patterns :  交換可能な二つのワイルドカードを含むパターンを 指す  例→ “X and Y”, “X or Y”, “X as well as Y”  先行研究では、このパターンは意味的に似ている単 語ペアを見つけることが出来ている
  6. 自動獲得の為に使用するパター  Flexible Patterns : ン  完全な教師なし手法で生のテキストから抽出される  以下の二つの構成要素がキーアイディアとなる  high frequency words (HFW), content words (CW)  コーパス内の単語の出現回数を基に、言語内の各単 語はどちらかに定義される  HFWはほとんど機能語、CWはほとんど内容語となる  この二つは、生のテキストからパターンを抽出する のに有用である
  7. Flexible Patternsの獲得  CWsとHFWsによる単語の分類を基に、大きなコー パスを詳しく読み込むことで抽出される  抽出されたパターンは、CWワイルドカードと HFWsにとって変わる実際の単語で構成される  (例)  “The boy is happy and joyful” は内容語がCWとなり、  → “The CW is CW and CW” となる。  上記の表現から、与えられた長さの制限(この論文では 最大5)の単語の系列を抽出し、Flexible patternsとして それを示す。  上記の文章から、長さの制限を5とすると、“The CW is CW and”と“CW is CW and CW”がFlexible patternsとな る
  8. 対象パターンの自動抽出  最初に二つのCWを含むFlexible patterns を抽出する  そして、それらのCWを入れ替えることが可能なパターン を選択  つまり、CW1とCW2を含むパターンを抽出し、それらを入 れ替えたパターンがコーパス中(今回はgoogle books 5- gramを使用)に出現するならばそれらは対象パターンであ る  例  “cats and dogs”, “dogs and cats ”がある  → “CW and CW” は対象パターン  “countries such as France”はあるが“France such as countries” は ない  → “CW such as CW” は対象パターンではない
  9. Model :重み付き無向グラフ  グラフの構築  ノードが単語、エッジが単語間の関係に相当する  すべての対象パターンPに関与する単語ペアを取り、そ の単語ペアが現れる頻度がα を超えた場合、それらの単 語のノードをエッジで結ぶ  重みは単語ペアのパターンの頻度の相乗平均で決まる  ラベル伝搬  iterative variant of the k-Nearest Neighbors algorithm (I-k- NN) を使用してラベルを伝搬させる  シードの拡張  新たなシードを獲得するために、グラフ上強いエッジ (頻度がβ 以上)にノードv を与え、それがラベルl が ついたノードγ とつくか、ラベルl がついたノードの隣 接δl につくかまで繰り返す
  10. シード拡張の例 +1 -1 -1 +1 ノードは単語を指す エッジは単語間の関係を指す (ノード内の数字は人手でアノテーシ
  11. シード拡張の例 +1 -1 -1 +1 ノードは単語を指す エッジは単語間の関係を指す (ノード内の数字は人手でアノテーシノード間で同じ対象パターンがコーパβ (この論文では50) 以上現れるとそれらのノードを結ぶ
  12. シード拡張の例 +1 +1 -1 -1 +1 +1 ノードは単語を指す エッジは単語間の関係を指す (ノード内の数字は人手でアノテーシノード間で同じ対象パターンがコーパβ (この論文では50) 以上現れるとそれらのノードを結ぶ ノード間でl とラベル付けされているノとつながったノードはラベルl としてラ付けされる (これをつながっているすべてのノーラベル付けされるまで繰り返す)
  13. グラフ構築の例 +1 +1 -1 -1 +1 -1 ノードは単語を指す エッジは単語間の関係を指す (ノード内の数字は人手でアノテーシ
  14. グラフ構築の例 +1 +1 -1 -1 +1 -1 ノードは単語を指す エッジは単語間の関係を指す (ノード内の数字は人手でアノテーシノード間で同じ対象パターンがコーパにα (この論文では3) 以上現れるとそれらのノードを結ぶ 重みはその対象パターン相乗平均とす
  15. ラベル伝搬の例: I-k-NN +1 +1 -1 -1 +1 -1 緑のノードに対するラベル伝搬を 考える
  16. ラベル伝搬の例: I-k-NN +1 +1 -1 -1 +1 -1 緑のノードに対するラベル伝搬を 考える 左の緑ノードは+1 とラベル付けされた ノードが2つ、-1 とラベル付けされた ノードが3つくっついているのでそれ比は、max(2,3) / 5 = 3 / 5 右の緑ノードは、-1 とラベル付けされノードが一つだけくっついているので 比は、1 / 1 = 1
  17. ラベル伝搬の例: I-k-NN +1 +1 -1 -1 -1 +1 -1 緑のノードに対するラベル伝搬を 考える 左の緑ノードは+1 とラベル付けされた ノードが2つ、-1 とラベル付けされた ノードが3つくっついているのでそれ比は、max(2,3) / 5 = 3 / 5 右の緑ノードは、-1 とラベル付けされノードが一つだけくっついているので 比は、1 / 1 = 1 求めた比の最大値をとるものだけを 採用する これを、すべてのノードにラベルがつで繰り返す
  18. 実験  ここでは、対象パターンの素性としての役割とI-k- NNのラベル伝搬手法としての有用性を示すために 二つのタイプのベースラインと比較している  分類素性ベースライン  ラベル伝搬ベースライン
  19. 各ベースライン  分類素性ベースライン  SENNA  Word embedding 手法をベースとするディープネットワーク  今回の比較では単語の類似性測定として二つのword embedding 間のcos類似度を使用  Brown  Brown アルゴリズムによって示される単語クラスタリング 手法  グラフを構築する為に、単語の類似性として、バイナリツ リー(単語は葉ノードに対応)の距離を使用  ラベル伝搬ベースライン  N-Cut  正規化したグラフカットアルゴリズム  MAD (Modified Adsorption)  確率的なグラフベースのラベル伝搬アルゴリズム
  20. 実験結果 ほとんどの手法でSP (symmetric patterns) がよい精度を出していることが確認出来る またI-k-NNは単純なアルゴリズムながら他の手法と同等かそれを上回る精度を出してい
  21. ラベルシードセットサイズの分 析 (a) : 異なった分類素性の比較 (c) : トップ4つの性能モデ(b) : 異なったラベル伝搬アルゴリズムの比較 どれも提案手法が一番高いF値を示していることがわかる
Publicité