Ce diaporama a bien été signalé.
Nous utilisons votre profil LinkedIn et vos données d’activité pour vous proposer des publicités personnalisées et pertinentes. Vous pouvez changer vos préférences de publicités à tout moment.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
単語の分散表現を用いた俳句における取り合わせ
の評価に関する研究
2021...
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院...
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院...
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院...
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院...
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院...
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院...
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院...
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院...
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院...
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院...
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院...
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院...
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院...
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院...
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院...
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院...
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院...
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院...
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院...
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院...
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院...
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院...
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院...
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院...
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院...
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院...
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院...
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院...
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院...
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院...
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院...
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院...
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院...
Prochain SlideShare
Chargement dans…5
×

単語の分散表現を用いた俳句における取り合わせの評価に関する研究

単語の分散表現を用いた俳句における取り合わせの評価に関する研究

  • Soyez le premier à commenter

  • Soyez le premier à aimer ceci

単語の分散表現を用いた俳句における取り合わせの評価に関する研究

  1. 1. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 単語の分散表現を用いた俳句における取り合わせ の評価に関する研究 2021/02/03 北海道大学 工学部 情報エレクトロニクス学科 情報理工学コース 複雑系工学講座 調和系工学研究室 学部4年 平田 航大
  2. 2. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 2 目次 • 研究背景・目的 • 俳句生成システムの概略 • 提案手法 • 実験について • 結論
  3. 3. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 3 目次 • 研究背景・目的
  4. 4. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 4 研究背景 • 人工知能を芸術分野に応用する研究が盛ん 星新一風のショートショー ト[1]の生成[2] ジャンル名など からの作曲[3] [1]有嶺雷太『コンピュータが小説を書く日』(名古屋大学佐藤研究室提供) [2]松原仁, 佐藤理史, 赤石美奈, 角薫, 迎山和司, 中島秀之, 瀬名秀明, 村井源, 大塚裕子. コンピュータに星新一のようなシ ョートショートを創作させる試み. 人工知能学会全国大会論文集, Vol. JSAI2013, pp. 2D11–2D11, 2013. [3] Prafulla Dhariwal, Heewoo Jun, Christine Payne, Jong Wook Kim, Alec Radford, Ilya Sutskever : “Jukebox: A Generative Model for Music”, arXiv:2005.00341 [4] Obvious, Edmond De Belamy – Obvious, https://obvious-art.com/portfolio/edmond-de-belamy/, 12月23日閲覧 古典的な肖像 画生成[4] その日は、風が強い日だった。 窓を締め切った部屋の中は、 いつものように最適な温度と 湿度。とんでもない色のTシ ャツを着た洋子さんは、床に 寝転がって、くだらないテレ ビをザッピングしている。私 がいることは、おそらく、ま ったく意識されていない。 ・・・
  5. 5. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 5 俳句生成の関連研究 • 芸術作品の中でも世界最小の詩である俳句を生 成する研究がある – 深層学習モデルを用いた俳句生成[4] • LSTMなどの言語モデルを使い俳句を生成 • 生成した俳句を言語モデルのパープレキシティなどで評価 – LSTMを用いた画像にマッチした俳句生成[5] – 言語モデルに入力するトークン単位に関する研究[6] • 言語モデルに入力するトークン単位を文字、単語、 SentencePeiceの3条件で変えて実験を行った [4]Xianchao Wu, Momo Klyen, Kazushige Ito, Zhan Chen : “Haiku Generation Using Deep Neural Networks”, 言語処理学会(2017). [5]米田 航紀, 横山 想一郎, 山下 倫央, 川村 秀憲 : LSTMを用いた俳句自動生成器の開発, 言語処理学会(2018). [6]横山想一郎, 高橋遼, 山下倫央, 川村秀憲 : 深層学習を用いた言語モデルによる俳句生成におけるトークン単位選択. 社会システムと情報技術研究ウィーク2020 (WSSIT20), No. ICS-198, 2020
  6. 6. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 6 従来の俳句生成システム • 俳句の生成、フィルタリング、評価を行うシステム – 俳句の生成を通して「感性」「価値観」などの主観的情報 を扱う – 既存の俳句を用いた言語モデルの学習、俳句の制約条件(音 数、季語数、切れ字数)によるフィルタリング、俳句の生成 などが行われてきた • システムの出力例 – 「かなしみの片手ひらいて渡り鳥」 – 俳人の方からも高い評価を得た • 現状では、システムが出力した俳句から人間が良い ものを選ぶ必要がある 俳句を定量的に評価する必要性
  7. 7. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 7 本研究で扱う俳句の「評価」 本研究でいう俳句の「評価」 =「俳句群から定量的な基準に基づいて俳句を 順序付けする」 • 本研究では俳句の定量的な基準の一つを提案 • 指標に基づいて俳句を順序付けし、システムの出 力する俳句の質の向上につながることを示す ※人間がどのように俳句を理解するのか、よいと感じるのか といったことは今回は扱わない
  8. 8. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 8 本研究の目的 1. 季語と他の名詞の関連性を測る季語ー名詞指標 2. 係り受け関係を反映した係り受け指標 3. 文ベクトルを用いた文ベクトル指標 • 提案する評価指標を用いて – 俳句中の物事の関連性を測ることができるか – その俳句に適した季語を選ぶことができるか を確かめる実験を行う 俳句の中でも取り合わせの句に関して 俳句中の物事の関連性を測る三つの評価指標 を提案する
  9. 9. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 9 今回対象とする俳句 • 全ての基準を一度に評価するのは難しいため対象を 絞る – 内容による分類(一物仕立てor取り合わせ) • 一物仕立てか取り合わせかによって俳句の見方が大きく変わる • 『現代俳句最前線 上下巻』に 掲載されている5600句のうち、 82.6%が取り合わせの句である[7] 3.6 13.5 82.6 俳句の割合 純粋一物仕立て グレーゾーン 取り合わせ 今回は取り合わせの句に絞った評価方法を考える [7]いつき組俳句部, :いつき組俳句部俳句における一物仕立ての定義(3回シリーズ)その3 完結編(2008 年9 月号よ り), https://weekly-haiku.blogspot.com/2009/05/12.html?m=0, 12月22日閲覧
  10. 10. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 10 一物仕立ての句と取り合わせの句 • 一物仕立ての句:季語に内在する物事だけで詠まれた句 – 滝の上に水現れて落ちにけり(後藤夜半) • 俳句の意味:水の上にまた水が落ちてくるという滝そのもの を詠んだ句 • 季語「滝」とそれに内在する物事「落ちる水」だけが詠まれ ている • 取り合わせの句:「季語」と「季語に内在しない物事」が詠まれた句 – 降る雪や明治は遠くなりにけり(中村草田男) • 俳句の意味:降る雪を見て遠くなってしまった明治に思いを はせる昭和6年に詠まれた句 • 季語「降る雪」には内在しない物事「明治」が詠まれる • 意見が分かれる句 – 俳人が見てもどちらに分けられるが難しいものもある • 古池や蛙飛び込む水の音(松尾芭蕉)
  11. 11. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 11 目次 • 俳句生成システムの概略
  12. 12. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 12 俳句の生成・フィルタリング・評価を行うシステム 改行文字、キーワードなどのトリガー 俳句生成器 俳句フィルター 俳句評価器 俳句データを学習させた 言語モデル 音数、季語数、切れ字数、 学習元俳句との類似度判定 俳句の内容・質について の評価 入力 俳句:かなしみの片手ひらいて渡り鳥 出力 俳句生成システムの概要 従来研究の中心 今回貢献する部分
  13. 13. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 13 俳句生成システムの概略 俳句生成システムのフロー 改行文字、キーワードなどのトリガー 俳句生成器 俳句フィルター 俳句評価器 入力 俳句:かなしみの片手ひらいて渡り鳥 出力 俳句生成結果 かなしみの片手ひらいて渡り鳥 かなしみの片手ひらいてスキー板 六道の辻を曲がれば故郷かな 大仏の鼻の穴から藤かな 俳句フィルター結果 かなしみの片手ひらいて渡り鳥 かなしみの片手ひらいてスキー板 (季語なし) (音数が17音でない) 俳句評価結果 かなしみの片手ひらいて渡り鳥 (季語が俳句にマッチしない)
  14. 14. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 14 目次 • 提案手法
  15. 15. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 15 取り合わせの句の評価 関連性が強い句 「花見にて仲間と酒を酌み交わす」 観点:「花見」と「酒」が関連性が強い 関連性が弱い句 「大学院プログラミングと桜かな」 観点:「プログラミング」「桜」の関連性が弱い 関連性がちょうどよい俳句 「降る雪や明治は遠くなりにけり」 観点:「降る雪」と「遠くなった明治」の関係が近すぎず離れすぎ ず丁度良い 季語との関連性が強すぎず・弱すぎないものが詠まれてい るのが良い俳句[8] [8]凡茶,つきすぎの俳句・はなれすぎの俳句:俳句の作り方 ~初心者入門と定型・切れ字・季語 ~, http://haiku-nyuumon.com/article/216706643.html, 12月22日閲覧 季語との関連性
  16. 16. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 16 評価指標の設計 取り合わせの句における物事の関連性を表す指標を設計 1. 季語ー名詞指標: 俳句中の季語と他の名詞間の類似度から計算 2. 係り受け指標: 俳句中の係り受け関係から計算 3. 文ベクトル指標: 文ベクトルを用いて計算 指標の大きさ=俳句中の物事の関連性の強さ ※値が1に近いほど俳句中の物事の関連性が強いという判定
  17. 17. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 17 それぞれの指標の特徴 季語ー名詞 指標 係り受け指標 文ベクトル指標 反映するもの • 俳句中の 季語と名詞 • 俳句中の名詞、 形容詞、動詞 • 俳句中の係り受 け関係 • 俳句中の名詞、 形容詞、動詞 必要な処理 • 形態素解析 • 形態素解析 • 係り受け解析 • 形態素解析
  18. 18. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 18 季語ー名詞指標 • 単語の分散表現(Word2Vec[8])を使い、俳句中 の名詞と季語との関連性の強さを計算する – 季語と季語ではない名詞間とのコサイン類似度を計算 し、その平均値を算出する Ex)「古池や蛙飛び込む水の音」 季語:「蛙」 名詞:「古池」「水」「音」 「蛙」と「古池」 コサイン類似度:0.42 「蛙」と「水」 コサイン類似度:0.26 平均値 季語ー名詞指標:0.30 「蛙」と「音」 コサイン類似度:0.20 (0.42+0.26+ 0.20)/3=0.30 [8] Tomas Mikolov, Ilya Sutskever, Kai Chen, Greg SCorrado, and Jeff Dean. Distributed representations of words and phrases and their compositionality. Advances in Neural Information Processing Systems 26 (Burges, C.J.C., Bottou, L., Welling, M., Ghahramani, Z. and Weinberger, K.Q., eds.), Curran Associates, Inc., pp.3111–3119 (2013).
  19. 19. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 19 係り受け指標 • 係り受け関係のある文節間でコサイン類似度 をとり、その平均値によって物事の関連性を 測る指標 • 文節ベクトルを文節内の単語の和で定義 Chunk(“蛙飛び込む水の音")の文節ベクトル – 「蛙」「飛び込む」「水」「音」のベクトルの和 ※係り受け解析器にはcabocha[9]を使用 [9]工藤 拓, 松本 裕治, CaboCha/南瓜: Yet Another Japanese Dependency Structure Analyzer, https://taku910.github.io/cabocha/, 12月22日閲覧
  20. 20. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 20 係り受け指標 • 係り受け関係のある文節について 1. コサイン類似度を取る 2. 全ての組み合わせの平均を係り受け指標とする Ex) 「古池や蛙飛び込む水の音」 – 古池や -> 蛙飛び込む水の音 • Chunk(“古池や”)とChunk(“蛙飛び込む水の音”)の文節ベ クトル間の類似度平均を係り受け指標とする 俳句:古池や蛙飛び込む水の音 係り受け指標: 0.44 係り受け解析器 入力 指標計算 出力 文節群 Chunk(“古池や”) Chunk(“蛙飛び込む水の音”)
  21. 21. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 21 文ベクトル指標 • 文ベクトルを使い季語がその俳句にマッチし ているかを測る – 空欄を含む俳句と空欄を補完した俳句の類似度を 計算することで空欄部を評価する[10] Ex)「古池や( )飛び込む水の音」 「古池や蛙飛び込む水の音」 上記二つの俳句に対して文ベクトルを計算 → 二つの俳句の類似度を計算する • Word2Vecで得た単語の分散表現の平均として文ベクト ルを得る [10] BERTの学習済みモデルを使って穴埋め問題を解く-Re:ゼロから始めるML生活 https://www.nogawanogawa.com/entry/bert_pretrained_model, 12月22日閲覧
  22. 22. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 22 目次 • 実験について
  23. 23. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 23 実験 • 実験1(指標の値と物事の関連性に関する実 験) – 各指標がどのような俳句に対して、正しく作用す るかを確かめる • 実験2(指標の値と取り合わせの質に関する 実験) – 季語ー名詞指標を使い、俳句に合う季語を選ぶこ とができるかを確かめる
  24. 24. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 24 実験1(指標の値と物事の関連性に関する実験) • 目的:設計した指標が俳句中の物事の関連性を反 映したものになっているかを確かめる • 使用するデータ – インターネット上、書籍から収集 – MeCab[11]による形態素解析、俳句中の全単語が青空 文庫コーパス[12]に1度以上出現するもの • 一物仕立ての句:53句 • 取り合わせの句:69句 • 方法:一物仕立てと取り合わせの句に対する指標 の値の分布を確認し、俳句中の物事の関連性と指 標の値との相関性を確認する [11]Taku Kudo, Kaoru Yamamoto, Yuji Matsumoto: Applying Conditional Random Fields to Japanese Morphological Analysis, Proceedings of the 2004 Conference on Empirical Methods in Natural Language Processing (EMNLP-2004), pp.230-237 (2004.) [12] https://github.com/aozorabunko/aozorabunko, 12月22日閲覧
  25. 25. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 25 用意したデータセットについて • 関連性が強いものが詠まれやすい一物仕立て、 弱いものが詠まれやすい取り合わせの句を利用 – 一物仕立て • 滝の上に水現れて落ちにけり(後藤夜半) – 「滝」に内在する情報の「水」が詠まれている →関連性が強いものが詠まれやすい →各指標は大きく出ることが予想される (季語ー名詞指標:0.12) – 取り合わせ • 降る雪や明治は遠くなりにけり(中村草田男) – 「雪」と「明治」という関連性の弱い物事が詠まれて いる →各指標は小さく出ることが予想される (季語ー名詞指標:-0.048)
  26. 26. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 26 各指標の分布 季語ー名詞指標では2つ の分布に差がみられる
  27. 27. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 27 考察 • 文ベクトル指標では一物仕立てと取り合わせ句で 平均値がほぼ等しい – 物事の関連性を測ることができていないと考えられる Ex)つばくらめナイフに海の蒼さあり(取り合わせ) 季語:「つばくらめ」 名詞:「ナイフ」「海」 季語ー名詞指標:0.034 係り受け指標:-0.0060 文ベクトル指標:0.98 季語ー名詞 指標 係り受け指 標 文ベクトル 指標 一物仕立て 0.15 0.17 0.68 取り合わせ 0.083 0.090 0.69 表:各指標の平均値
  28. 28. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 28 考察 • 動詞が意味の中心となる俳句 – 係り受け指標がうまく働く Ex)神田川祭りの中をながれけり(一物仕立て) 季語:「祭」 名詞:「神田」「川」「中」 季語ー名詞指標:0.069 係り受け指標:0.14 • 係り受け指標では神田「川」が「ながれ」ているという様子をと らえられているため、指標値としても大きくなる • 名詞が意味の中心の俳句 – 季語ー名詞指標が指標がうまく働く Ex)押し分けてみれば水ある薄かな(一物仕立て) 季語:「薄」 名詞:「水」 季語ー名詞指標:0.19 係り受け指標:0.051 • 係り受け指標では「押し分け」と「みれ」などの間で類似度を とってしまっている
  29. 29. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 29 考察 • 分布としては季語ー名詞指標が一物仕立てと 取り合わせの俳句間で違いがみられる – 係り受け指標は係り受け解析の影響が大きい • 俳句は助詞の省略などもあり、高精度で係り受け解析を 行うことが難しい – 今回のデータセット内ではランダムサンプリング10句中5 句で正しく係り受け解析が行われなかった Ex)滝の上に水現れて落ちにけり Chunk("滝の上に") → Chunk("水現れて") Chunk("水現れて") → Chunk("けり") Chunk("落ちに") → Chunk("けり") 俳句特有の切れ字に 係り受け関係を付与 してしまっている
  30. 30. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 30 実験2(指標の値と取り合わせの質に関する実験) • 目的:季語ー名詞指標が取り合わせの句の質を測る ものになっているかを確かめる • 空欄を含む俳句に対して、季語のリストから 季語ー名詞指標の値に基づいて解答候補を用意 – 「関連性が強い」「関連性がちょうどよい」「関連性が弱 い」というクラスに対して解答候補を5つ用意 5.( )や仕事はかどる古机 関連性が 強い 判定 備考 ちょうどよい 判定 備考 関連性が弱い 判定 備考 石炭 北風 老鶯 苗床 夕立 若水 温室 水虫 筒鳥 虫干 蟷螂 駒鳥 暖房 七種 不知火 解答いただいたデータセットの例
  31. 31. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 31 考察 俳人の方々の解答 関連性が強い 関連性がちょう どよい 関連性が弱い 指標の 解答 関連性が強 い 1 22 27 関連性がち ょうどよい 0 21 29 関連性が弱 い 1 10 39 • 全解答候補150個のうち、俳人の方がちょうどよいと 判定したのは53個(33%) • ランダムに解答選んだ場合は正答率33%
  32. 32. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 32 考察 俳人の方々の解答 関連性が強い 関連性がちょう どよい 関連性が弱い 指標の 解答 関連性が強 い 1 22 27 関連性がち ょうどよい 0 21 29 関連性が弱 い 1 10 39 • 指標の値を使って選んだ場合の正答率は42% ランダムに選ぶ場合に比べ、正答率の向上がみられる コンピュータによる俳句の順序付けの際の基準 となりえることが確認できる
  33. 33. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 33 目次 • 結論
  34. 34. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 34 結論 • 俳句中の物事の関連性を測る評価指標を提案 し、取り合わせの俳句において人間が良いと 感じる季語の選定を行った • ランダムに季語を選ぶ場合に比べて、人間が 良いと感じる季語を選ぶことができることを 示した – コンピュータによる俳句の順序付けに活用しうる 指標である

×