Ce diaporama a bien été signalé.
Nous utilisons votre profil LinkedIn et vos données d’activité pour vous proposer des publicités personnalisées et pertinentes. Vous pouvez changer vos préférences de publicités à tout moment.

知識を紡ぐための言語処理と、 そのための言語資源

3 808 vues

Publié le

NEologd Casual Talks | #neologd
2016/04/26 @ LINE corp. で用いたスライドです。

Publié dans : Ingénierie
  • Soyez le premier à commenter

知識を紡ぐための言語処理と、 そのための言語資源

  1. 1. 知識を紡ぐための言語処理と、 そのための言語資源 NEologd Casual Talks | #neologd 2016/04/26 @ LINE corp. 東北大学 情報科学研究科 松田耕史 (@conditional) 1
  2. 2. 2 東北大学 自然言語処理研究室 研究スタッフ 学部 修士 博士 研究生 スタッフ 乾健太郎 教授 岡崎直観 准教授 松林優一郎 特任助教 田 然 特任助教 折田奈甫 特任助教 水本智哉 特任助教 井之上直也 助教 松田耕史 研究員 0 10 20 30 40 50 2010 2011 2012 2013 2014 2015 2016 山口健史 菅原真由美 高橋容市 福原裕一
  3. 3. 自然言語の解析から応用へ (e) 意見情報抽出 3
  4. 4. 言語構造解析による 一般・専門知識の自動獲得 ディープラーニングによる 意味の分散表現の学習 WD(w)∧ e(edis, Disappoint, w, s)∧ fact(edis)∧ shareholders(s)∧ but(edis, etout), they(t)∧ e(etout, ToughOut, t, l)∧ fact(etout)∧ momentary-loss(l) Western Digital disappointed their shareholders this season. But they toughed out the momentary losses. Semantic Parsing Observation O: Candidate hypothesis H: expected-fact(es)∧ expected-non-fact(es)∧ assoc(edis, es)∧ assoc(etout, es) ∧ but(edis, etout) e(e1, Make, w, l2)∧ expected-fact(e1) ∧ loss(l2)∧ rel(l2, s)∧ assoc(edis, e1) ∧ e(edis, Disappoint, w, s)∧ fact(edis) assoc(etout, es)∧ expected-non-fact(es) ∧ e(es, Avoid, t, l) ∧ e(etout, ToughOut, t, l)∧ fact(etout) Input : Axiom of discourse Axiom of causality Axiom of ontological relation e(es, Avoid, s, l2)∧ expected-fact(es)∧ assoc(edis, es), ∧ e(e1, Make, w, l2)∧ expected-fact(e1)∧ loss(l2)∧ rel(l2, s) Axiom of causality s=t, l=l2 Explanation of contrast relation ``but’’ ・s=t: they is coref with shareholders ・l=l2: ``memontary loss’’ is coref with inferred loss Shareholders were expected to avoid the loss Shareholders were expected to make a loss 論理仮説推論による 「行間を読む」言語理解 世界最高速の仮説推論エンジン (判断の根拠を説明できる機械) 意味解析 グラウンディング 高度に構造化された 一般・専門知識ベース 質問 応答 情報 分析 知識 推論 シーン 理解 世界最大規模の知識獲得基盤 カ フ カ 変 身 カ ミ ュ 異 邦 人 … … 不 注 意 交 通 事 故 タ バ コ 病 気 … … Xが執筆したY Xの作品Y … Xが起こすY Xが原因のY … … … … … … … 0 0 … 32 57 … 0 0 … 23 68 … … … … … … … 34 22 … 0 0 … 43 24 … 0 0 … パターン(フレーズ)×関係インスタンス行列 著者 関係 因果 関係 大規模コーパス (60億文, 600GB) powered by: パターン抽出 行列構築 大規模なデータ に対して高速・ 高効率に動作 東北大NLPの戦略 「行間を読む」 言語解析 判断の根拠を説明できる 達成事項 達成事項 達成事項 達成事項 画像との統合理解へ多様な同義・反義関係を計算 4
  5. 5. 言語理解には「知識」が不可欠 田端酒造の『羅生門』は何賞を受賞したか? モンドセレクション金賞 ヴェネツィア国際映画祭金獅子賞 受賞 受賞監督 知識 製造 5
  6. 6. 知識を紡ぐ言語処理 自動処理された 言語データ 世界を記述する 知識ベース 自動処理された 言語データ 自動処理された 言語データ 世界を記述する 知識ベース 世界を記述する 知識ベース 言語データから 知識を獲得 知識を用いた意味解析 6
  7. 7. 新湘南バイパスでタンクローリーが横転してて大渋 滞発生。電車で帰った方が良さそう… 新湘南バイパスでタンクローリーが横転してて大渋 滞発生。電車で帰った方が良さそう… ①場所参照表現のグラウンディング 言語情報のグラウンディング (知識を用いた意味付け) 地名/施設名辞書 約550万エントリ ②一般固有表現のグラウンディング Wikipedia グラウンディング/意味付け処理 (データベースレコードにリンク) ・コーパス開発 ・グラウンディング エンジン ・コーパス開発 ・グラウンディング エンジンの研究開発 (Wikification) 新湘南バイパスでタンクローリーが横転してて大渋 滞発生。電車で帰った方が良さそう… 新湘南バイパス タンクローリー 新湘南バイパスでタンクローリーが横転してて大渋 滞発生。電車で帰った方が良さそう… 意味付けの なされていない ソーシャルストリーム 地図にマップ 応用 知識に基づく推論 マルチリソース 統合 (ジオパーズ) 7
  8. 8. エンティティ・リンキング (Wikification) テキスト中の固有表現に、適切な実体を付与 メンション エンティティ 8
  9. 9. 日本語 Wikification コーパス [Jargalsaikhan et al., 2016] 日本語新聞記事340記事にWikipediaのエンティティ情報を付与 9合計 2万5千メンション:世界的に見ても大規模なコーパス http://www.cl.ecei.tohoku.ac.jp/jawikify/
  10. 10. 場所参照表現タグ付きコーパス [松田ら, 2015], [Matsuda et al., 2015] 宮城県 白石市,武家屋敷近くのバス停で 事故発生.通行時は気をつけてください. 白石沢端バス停 北緯38.00 東経140.62 地名辞書 施設名辞書 人手で対応を付与 Web上のデータから辞書を構築 宮城県 北緯38.26 東経140.87 宮城県白石市 北緯38.00 東経140.62 武家屋敷 北緯38.00 東経140.62 宮城県 白石市,武家屋敷近くのバス停で 事故発生.通行時は気をつけてください. 宮城県 白石市,武家屋敷近くのバス停で 事故発生.通行時は気をつけてください.SNSからサンプリング 10
  11. 11. 11 場所参照表現の自動解析 場所参照表現データセット(公開済) タグ付きコーパス 地名辞書 約10万エントリ 施設名辞書 約500万エントリ Step 2. Entity Resolution 表現が指すエンティティの曖昧性解消 Wikipediaから自動獲得した 知識に基づいた曖昧性解消 Step 1. Mention Detection 場所に対する言及を抽出する 確率モデルに基づく系列ラベリング 藤沢バイパス ROAD、辻堂 LOCATIONから茅ヶ崎 LOCATIONまで渋滞だよ 藤沢バイパス、辻堂 から茅ヶ崎まで渋滞だよ
  12. 12. ここからは、辞書の話をします 12
  13. 13. 拡張固有表現+Wikipediaデータ [関根ら, 2016], [鈴木ら, 2016] (ランゲージクラフト/ニューヨーク大学 関根聡先生との共同研究) 製品 > 主義方式 > 競技 世界のありとあらゆるものを 200クラスに階層化した辞書 イベント > 催し物 > 競技会 組織 > 競技組織 地名> GPE > 市区町村 施設 > GOE > 競技施設 13 http://www.languagecraft.com/enew/
  14. 14. 名前 名前_その他 人名 組織名 組織名_その他 国際組織名 公園組織名 家系名 民族名 民族名_その他 競技組織名 競技組織名_その他 法人名 法人名_その他 政治的組織名 政治的組織名_その他 国籍名 プロ競技組織名 競技リーグ名 企業名 / 企業グループ名 政府組織名 / 政党名 / 内閣名 / 軍隊名 地名 地名_その他 温泉名 GPE GPE_その他 地域名 地域名_その他 地形名 地形名_その他 天体名 天体名_その他 アドレス アドレス_その他 市区町村名 / 郡名 都道府県州名 / 国名 大陸地域名 国内地域名 山地名 / 島名 / 河川名 湖沼名 / 海洋名 / 湾名 恒星 / 惑星 / 星座 郵便住所 / 電話番号 電子メイル / URL 施設名 施設名_その他 施設部分名 遺跡名 遺跡名_その他 GOE GOE_その他 路線名 路線名_その他 古墳名 公共機関名 / 学校名 / 研究機 関名 / 取引所名 / 公園名 / 競 技施設名 / 美術博物館名 / 動 植物園名 / 遊園施設名 / 劇場 名 / 神社寺名 / 停車場名 / 電 車駅名 / 空港名 / 港名 電車路線名 / 道路名 / 運河名 航路名 / トンネル名 / 橋名 製品名 製品名_その他 材料名 / 衣類名 / 貨幣名 / 医薬品名 / 武器名 / 株名 / 賞名 / 勲章名 / 罪名 / 便名 等級名 / キャラクター名 / 識別番号 乗り物名 乗り物名_その他 食べ物名 食べ物名_その他 芸術作品名 芸術作品名_その他 出版物名 出版物名_その他 主義方式名 主義方式名_その他 規則名 規則名_その他 称号名 称号名_その他 言語名 言語名_その他 単位名 単位名_その他 車名 / 列車名 / 飛行機名 宇宙船名 / 船名 料理名 絵画名 / 番組名 / 映画名 / 公演名 / 音楽名 / 文学名 新聞名 / 雑誌名 文化名 / 宗教名 / 学問名 / 競技名 / 流派名 / 運動名 理論名 / 政策計画名 条約名 / 法令名 地位職業名 国語名 通貨名 イベント名 催し物名 催し物名_その他 事件事故名 事件事故名_その他 自然現象名 自然災害名_その他 例祭名 / 競技会名 会議名 戦争名 自然災害名 地震名 自然物名 自然物名_その他 元素名 化合物名 鉱物名 生物名 生物名_その他 真菌類名 / 軟体動物_節足動 物名 / 昆虫類名 / 魚類名 両生 類名 / 爬虫類名 / 爬虫類名 / 鳥類名 / 哺乳類名 / 植物名 生物部位名 生物部位名_その他 病気名 病気名_その他 動物病気名 神名 色名 色名_その他 自然色名 数値表現 数値表現_その他 金額表現 / 株指標 / ポイン ト / 割合表現 / 倍数表現 / 頻度表現 / 年齢 / 学齢 / 序 数 / 順位表現 / 緯度経度 寸法表現 寸法表現_その他 個数 個数_その他 長さ / 面積 / 体積 / 重量 / 速度 / 密度 / 温度 / カロ リー / 震度 / マグニチュー ド 人数 / 組織数 / 場所数_そ の他 / 国数 / 施設数 / 製品 数 / イベント数 / 自然物数 _その他 / 動物数 / 植物数 時間表現 時刻表現 / 日付表現 / 曜日表 現 / 時代表現 / 期間_その他 / 時刻期間 / 日数期間 / 週数期 間 / 月数期間 / 年数期間 動物部位名 / 植物部位名 14
  15. 15. 拡張固有表現+Wikipediaデータ [関根ら, 2016], [鈴木ら, 2016] { "SID": 161224, "wikipedia_ID": "259974", "entry": "東京都立新宿高等学校", "clean_entry": "東京都立新宿高等学校", "page_property": "Normal", "redirect_to": "", “redirect_from”: [“新宿高校”, “新宿高等学校”, “都立 新宿高等学校”, “東京都立新宿高校", "東京府立第六中学校 "], "link_from_N": 276, “link_anchor”: [{“count”: 1, “anchor”: “新宿高等学 校"}, {"count": 1, "anchor": "東京都立新宿高校"}], “category_info”: [“東京都区部の公立高等学校|しんしゆ く”, “新宿区の学校|しんしゆくこう”, “学校記事”], “first_sentence”: “東京都立新宿高等学校(とうきょうと りつ しんじゅくこうとうがっこう)は、東京都新宿区内藤町 に所在する都立高等学校。", “listed_in”: [“旧制中等学校・新制高校のナンバース クール一覧”, “東京都立新宿高等学校の人物一覧", "東京都 高等学校一覧", "旧制中等教育学校の一覧 (東京都)"], "ENE": ["学校名”], "annotation_flag": "HAND.LC_annotator_201511” } 拡張固有表現クラス リダイレクト 元 リンク元 カテゴリ情報 自動付与? 手動付与? 扱いやすい JSON 形式: 他の分析にも是非!! 15 Wikipedia 日本語記事 200万記事に対して ディープラーニング で自動でラベル付与した結果を公開 (精度 : 90%くらい)
  16. 16. 日本語 Wikipedia Entity ベクトル [鈴木ら, 2016] 16 Wikipedia記事間のリンク構造と、リンク元の文脈を利用 一般の「単語」と Wikipedia記事を同じベクトル空間に 学習はSGNS (word2vecと同じ) http://www.cl.ecei.tohoku.ac.jp/~m-suzuki/jawiki_vector/ Word2vec は「単語」をベクトルに変換 「Wikipediaの記事」に対しても同じアイディアが適用できないだろうか?
  17. 17. 日本語 Wikipedia Entity ベクトル エンティティ同士の演算ができます に類似したエンティティは?ヤマハ に類似したエンティティは?ヤマハ発動機 17 北海道 札幌市 沖縄における は でいうと?
  18. 18. NEologd ファミリー への期待 • 現状:継続的にメンテナンスされる言語資源 は殆ど無い! – 毎月更新されてる!すごい! • 現状:研究者/エンジニアは「手法」に関心 が行きがち – 「リソース」も同程度に重要! • 現状:「言語リソースは客観性が重要」「リ ソース作成過程も再現性が無くては」 – 関根先生(関根の拡張固有表現階層)、佐藤さん (Neologd) :「個人の主観が入ったっていいじゃ ない!」← 超同感 18
  19. 19. まとめ:「知識」を扱う言語処理 • エンティティ・リンキング(Wikification) – テキスト中の固有表現に、適切な実体を付与 • 拡張固有表現 + Wikipedia データ – Wikipedia の記事に対して、「それが何であ るか」を自動付与 • 日本語 Wikipedia Entity ベクトル – Wikipedia 記事一つ一つをベクトル化 19 「知識」を存分に使ったアプリを是非考えてみてください!
  20. 20. 投げっぱなしはなんなので… • 「知識」を使うとこんなことができそう – ツイートを地図にマップする – 賢い対話ボットを作る – ユーザーの意図や好みを認識したレコメンド – 新しい料理を提案する – 災害から起こる危険を予測する 20
  21. 21. リソースの配布元 • 日本語 Wikification コーパス – http://www.cl.ecei.tohoku.ac.jp/jawikify/ • 場所参照表現タグ付きコーパス – http://www.cl.ecei.tohoku.ac.jp/~matsuda/LRE_corpus/ • 日本語 Wikipedia Entity ベクトル – http://www.cl.ecei.tohoku.ac.jp/~m-suzuki/jawiki_vector/ • 拡張固有表現 + Wikipedia データ – http://www.languagecraft.com/enew/ – ランゲージクラフト研究所の担当者にお問い合わ せ下さい 21
  22. 22. Reference • [Jargalsaikhan et al., 2016] Davaajav Jargalsaikhan, 岡崎直観, 松 田耕史, 乾健太郎. 日本語Wikificationコーパスの構築に向けて. pp.793-796, 言語処理学会第22回年次大会, March 2016. • [松田ら, 2015] 松田耕史, 佐々木 彬, 岡崎直観, 乾健太郎. 場所参照表 現タグ付きコーパスの構築と評価. 情報処理学会研究報告 自然言語 処理(NL), 2015-NL-220(12), pp.1-10, January 2015. • [Matsuda et al., 2015] Koji Matsuda, Akira Sasaki, Naoaki Okazaki and Kentaro Inui. Annotating Geographical Entities on Microblog Text. In Proceedings of the 9th Linguistic Annotation Workshop (LAW IX 2015), pp.85–94, June 2015. • [鈴木ら, 2016] 鈴木正敏, 松田耕史, 関根聡, 岡崎直観, 乾健太郎. Wikipedia記事に対する拡張固有表現ラベルの多重付与. pp.797-800, 言語処理学会第22回年次大会, March 2016. • [関根ら, 2016] 関根聡, 安藤まや, 松田耕史, 鈴木正敏, 乾健太郎. 「拡張固有表表現+Wikipedia」データ. pp.41-44, 言語処理学会第 22回年次大会, March 2016. 22

×