Patterns :
対象パターン
構造的なフレーズ表現から提供される、単語とワイ
ルドカードの組み合わせから構成される
例→ “X such as Y”, “X is a country”
Symmetric Patterns :
交換可能な二つのワイルドカードを含むパターンを
指す
例→ “X and Y”, “X or Y”, “X as well as Y”
先行研究では、このパターンは意味的に似ている単
語ペアを見つけることが出来ている
自動獲得の為に使用するパター
Flexible Patterns :
ン
完全な教師なし手法で生のテキストから抽出される
以下の二つの構成要素がキーアイディアとなる
high frequency words (HFW), content words (CW)
コーパス内の単語の出現回数を基に、言語内の各単
語はどちらかに定義される
HFWはほとんど機能語、CWはほとんど内容語となる
この二つは、生のテキストからパターンを抽出する
のに有用である
Flexible Patternsの獲得
CWsとHFWsによる単語の分類を基に、大きなコー
パスを詳しく読み込むことで抽出される
抽出されたパターンは、CWワイルドカードと
HFWsにとって変わる実際の単語で構成される
(例)
“The boy is happy and joyful” は内容語がCWとなり、
→ “The CW is CW and CW” となる。
上記の表現から、与えられた長さの制限(この論文では
最大5)の単語の系列を抽出し、Flexible patternsとして
それを示す。
上記の文章から、長さの制限を5とすると、“The CW
is CW and”と“CW is CW and CW”がFlexible patternsとな
る
対象パターンの自動抽出
最初に二つのCWを含むFlexible patterns を抽出する
そして、それらのCWを入れ替えることが可能なパターン
を選択
つまり、CW1とCW2を含むパターンを抽出し、それらを入
れ替えたパターンがコーパス中(今回はgoogle books 5-
gramを使用)に出現するならばそれらは対象パターンであ
る
例
“cats and dogs”, “dogs and cats ”がある
→ “CW and CW” は対象パターン
“countries such as France”はあるが“France such as countries” は
ない
→ “CW such as CW” は対象パターンではない