Contenu connexe Similaire à Slide software jpn_20180202_ota (6) Slide software jpn_20180202_ota3. 1.1. 自然言語処理の研究区分(その1)
(入力) (出力)
テキスト ----------解析系-------- 情報
情報 ----------生成系-------- テキスト
図1.1 解析系と生成系
・解析系の研究とは,Amazonのレビューなどのポジ・ネガ判別
・生成系の研究とは,逆で入力はポジティブなどと判別された情報とは限らない.
出力はテキストである.
・変換系の研究とは,機械翻訳など入力と出力が対価である場合.
4
解析系
生成系
変換系
14. 2.2 マルコフ連鎖による文生成
• マルコフ性(Markov property)とは、
次の状態が過去の状態に依存せず
現在の状態のみによって
決まる性質のことである.
• 詳しくはこちらの記事をご参照ください!
マルコフモデル ~概要から原理まで~ (前編)
http://postd.cc/from-what-is-a-markov-model-to-here-is-how-markov-
models-work-1/
15
15. 2.3 自動要約による文章自動生成
• 自動要約の古典的なH. P. Luhnが自動要約の元祖と言われております.
↓
• テキスト中の重要な文を抜き出し,それを出現順に並べることによっ
て,そのテキストを読むべきか否かを判定するといったスクリーニン
グのための要約が自動生成できることを示したことが業績.
• つまり,自動抄録に似ており,「理解し,再構成し,文章生成」とい
うのではなく、「理解する箇所が重要部に近似する」と割り切って考
えたもの.
• 重要語の決定には,単語頻度を用いるなど,現在の自動要約の流れは,
Luhnの影響が少なくない!
16
16. 2.4 リカレントニューラルネットワーク
(RNN)/LSTM/GANによる文章自動生成
• Andrej Karpathyのchar-rnnによるtiny shakespeare[7]が有名.
• 今までの単語列として,もっともらしい次の単語を予測す
ることをLong short term memory(LSTM)が担うもの.
• Recurrent Neural Network(RNN)の拡張として,1995年に登
場した時系列データに対するモデルまたは構造の一種であ
る.
• しかしLSTMでも,Epochが100を超えないとまともな文章
になっていなかったり,GPUが必要になるなど,莫大な学
習データと時間を要する.
⇩
• そこで,GANなど教師なしの生成モデルに着目した.
17
19. 3.1データセットと各手法の詳細
• 1) マルコフ連鎖及び Doc2Vec による文章自動生成,
• 1. 文章を単語に形態素に分解する,
• 2. 単語の前後の結びつきを辞書に登録する,
• 3. 辞書を利用してランダムに生成した.
•
• ※Doc2vec/ Gensim を用いて,文書間の類似度を計算し,類似度の
高い文書と文書とを並べて文生成としようとしたが,つながりが
悪く明らかに不自然になってしまった(図3.1.2を参照のこと).
20
文書A 文書B 文書C+ =
21. 4.1 実験で用いた各手法の長所・短所
• [実験: 2パターンでの検証結果]
1.(元データ)
4.2.1 マルコフ連鎖による2つの文章の評価
・元の文章のままではない点が評価できる.
・元の文章が長い文章であれば,文と文のつながりはよくはないが
悪くもない.
・内包表記などで工夫できれば簡易的で良い.
22
28. 4.3 実験で用いた文章と主観的なSEOの視点での評価の一部
(その2)
(例文)
私の知り合いの老人 Y さんは現在90才の元気な男性。Y さんの健康法は毎日 2 時間
くらいは散歩を続ける事だ そうです。それも晴の日だけでなく、雨の日も散歩に
行かれると言うのでびっくり。本人いわく「この年で仕事 もないので、私は散歩
する事が仕事と思って毎日歩いているので、雨の日でも行きます。雨だから今日
は仕事が 休みとは普通ならないでしょう・・・」との事でした。流石に脱帽です。
実はこんな事があったそうです。お 医者さんから「もう90才になるのだから、あ
まり無理して歩かないほうがよいですよ。」と言われ、Y さんも 「そうかなー」
と思い 1 ヶ月近く散歩を止めていました。そしたら、バス停から家までの道のり
約5分くらいの 緩やかな坂道が、途中に一度休まないと息が切れて歩けなくなっ
たそうです。それで「これではまずい!」と思 って、また歩き始めて3週間くらい
歩き続けたら元に戻ったそうです。歩く事は健康の基本です。半身の静脈の 流れ
を良くし、身体の基礎筋肉を維持し、心肺機能を維持する事ができるのです。ま
た、腰痛の70%はしっか り歩くだけでも改善されています。現代は飽食による肝
脂肪が増えています。私も最近は運動不足なので、昨年 の10月からは子供と毎月
1回は山登りをするようにしています。皆さんも運動不足と思われる方は是非散歩
を お勧め致します。毎日1時間は歩いてほしいですね (572文字)
29
32. 4.4.1.1 本節での言い換えの例
1. 言い換え:2個
求人事情➡︎求職実態
知ろう➡︎把握しよう
2. 言い換え:4個
都心➡︎都会
近い➡︎隣接した
ベッドタウン➡︎大型住宅地
商業エリア➡お店が並ぶ地域の
3. 言い換え:3個
県庁所在地➡︎中心
最大の➡︎一番の
知られている➡︎伝えられている
33
4.言い換え5件
政治と経済の中心部は、横浜市中区や西区に
集約されています。
⬇
政治や経済の中心部が、横浜市中区と西区へ
集約できます。
5.言い換え4件
馬車道や山下公園、横浜中華街なども近くに
存在するため、観光地として知られています。
⬇
馬車道と山下公園、横浜中華街などが近くへ
存在することで、観光地として知られていま
す。
33. 4.4.1 本節で用いた例文
• a (元の文章・言い換え前)456文字
• b(一回目の言い換え後 448文字)
• c(2回目の言い換え後 405文字)
4.4.2 n-gram(n = 1-5)での定量化と言い換え
回数について
以下のように定義した.
a: 元の文章,
b: aを言い換えた文章,
c: bを言い換えた文章
34
aとcの類似度の比較
2-gram: 1.151
3-gram: 0.582
4-gram: 0.506
5-gram: 0.388
・bとcの類似度の比較
2-gram: 1.386
3-gram: 0.798
4-gram: 0.3171
5-gram: 0.2075
34. 4.4.1+ n-gram(n = 1-5)での定量化と言い換え回数について
• a (元の文章・言い換え前)456文字
• b(一回目の言い換え後 448文字)
• c(2回目の言い換え後 405文字)
4.4.2 n-gram(n = 1-5)での定量化と言い換え
回数について
以下のように定義した.
a: 元の文章,
b: aを言い換えた文章,
c: bを言い換えた文章
aからbへの言い換え総数: 56回
bからcへの言い換え総数: 38回
35
aとcの類似度の比較
2-gram: 1.151
3-gram: 0.582
4-gram: 0.506
5-gram: 0.388
・bとcの類似度の比較
2-gram: 1.386
3-gram: 0.798
4-gram: 0.3171
5-gram: 0.2075