Python nlp handson_20220225_v5

Pythonで自然言語処理ハンズオン
2022/02/25(金) 21:00 〜 23:00
@usagisan2020
太田博三

もくじ
1. 本ハンズオンセミナーの位置づけ
2. ご用意いただくもの Slide, Colab, Dory
3. 自己紹介
4. アイスブレイク
5. セミナー本編開始
6. 理論編：言語学から見た自然言語処理
7. 実践編：Colab：今回は入門
8. まとめ
9. 今後の予定
10.雑談

• 言語学の視点を持って、自然言語処理を考えてみるアプ
ローチです！

(扱う分野)
• 言語学の視点を持って、自然言語処理を考えてみるアプ
ローチです！
画像認識
言語学
数理論理学
自然言語処理
深層強化学習

1. 自然言語処理と言語学
• 言語学が先行して対応していたが、分散表現から自然言語処理オンリーに
なりつつある！
言語学
自然言語処理
-形態論
-語用論
-統語論
-意味論
-形態素解析(Mecab)
-グラフによる依存構造
解析
-Wordnetなど上位概念・
下位概念(オントロジー)、
語義曖昧性解消
Φ(該当なし) ≒対話システム
ニューラルネットワーク
による分散表現
-φ(該当なし)
ディープラーニングの各タスク

1. 自然言語処理と数理論理学
• 一昔前の人工知能分野では、論理学によるアプローチが
主流だったが、破綻したっぽい。
数理論理学
自然言語処理
-記号論理学
eg.
1) 鳥は飛ぶ
2) 飛ぶのは羽がある
3) 鳥は羽がある
3段論法(モーダスポーネンス)
⇒ペンギン🐧は羽があるが、飛べない
⁉
ルールベース（IF-THEN）やエキス
パートシステムが名残りになっている。

1.自然言語処理と画像認識
• 駅やデパートの案内などは画像ですが、自然言語も入り混
じっていて、図と自然言語との両方の理解をしている…
画像認識
自然言語処理
-Vision and Language
--画像の中の自然言語も対
象とするもの
・画像からのキャプション生成
・動画からのキャプション生成
・画像も含めた質問応答シス
テム
・キャプションからの画像生成
・画像を伴う言語横断検索・
キャプション翻訳

1.自然言語処理と画像認識と自然言語処理
• 従来のロボット→腕の座標(3.4)、つかむ強さ(10N)、腕を移動(30,40)
• これからのロボット→知能を持たせて、人間と同じように対応する。
画像認識
-世界モデルと知能
-- 「水の入ったガラスのコップを床
に落としたらどうなるか」
--世界モデルの実現によって、例えば、
ロボットが人間のように「常識」を備
えるようになり、「想像」できるよう
になることで、汎用（はんよう）化が
進む。
---シミュレーションによりロボット
に知能を持たせると考えるアプローチ。
自然言語処理
深層強化学習

1. これからは掛け合わせ(×)で考える時代に
• 掛け合わせ(×)で考えて、ビジネスチャンスをつかみたい！
というイメージで今回のハンズオンを考えています。
画像認識
言語学
数理論理学
自然言語処理
深層強化学習
×
× ×
×

1. これからは掛け合わせ(×)で考える時代に
• 掛け合わせ(×)で考えて、ビジネスチャンスをつかもう！
• 情報検索や大規模な言語モデル(BERT)やGPT-3などでは、Ｇ
ＡＦＡには太刀打ちできません。
• 単体での研究開発はほぼ終っていませんかー
• 掛け合わせ(×)で、ビジネスを開拓してゆきませんか！！
• 仲間募集中！
Twitter @usagisan2020
📧 job123ota@gmail.com

1. 参考文献・URL
これからは掛け合わせ(×)で考える時代に
前向きな産業：IT、ロボット
後ろ向きな産業：地理、
コールセンター(オペレーター)、
日本語教師すみません…
• ビジネスモデル全史三谷宏治
Amazon もともとは通販の古本屋
DX
AI(NN→
DeepNN)
統計解析
機械学習あ
れ
っ
！
掛け合わ
せ(×)の
ビジネス

2.ご用意いただくもの
• Slide 理論
• Google Colab 実践(Code)
• 質疑応答
https://www.dory.app/c/066a9bd8/88a9ab8a_python-
/questions
質問等は、こちらに記入してください。
みなさんで、共有しましょう！

3. 自己紹介
2008年大学院：統計解析を副専攻
2011年データマイニング
(マーケット・バスケット分析)
デ
ー
タ
ア
ナ
リ
ス
ト
(
4
.
5
年
間
)
2012年 Webマーケティング
(アクセスログ解析)
2014年機械学習(文書分類)・
レコメンドエンジン
2016年自然言語処理(文生成)
デ
ー
タ
サ
イ
エ
ン
テ
ィ
ス
ト
(
6
年
間
)
2019年画像認識・
数理最適化(物体認識)
2021年自然言語処理(常識推論・含意関係認識)
自然言語処理ができる副業とか探しております！

求む！（3. 自己紹介）
自然言語処理ができる副業とか探しております！
ビジネスへの適用や、
言語学や社会学から自然言語処理への応用などなど、
よろしければ、何でも、ご連絡ください！
Twitter
@usagisan2020
📧
job123ota@gmail.com

4.アイスブレイク
• グループにわかれて、簡単な自己紹介と
共に
―最近、出くわしたよかった事・
わるかった事
―新年になって、一番、大変だった事
―最近、読んだ本
などなど…
お話しください！
※ Colabの準備が出来ていないからは、この時間を使ってご用意くだ
さい。

5. セミナー本編開始
• 本勉強会の予定(仮案)
• (導入編：超入門)
TransformerでBERTを扱う?-超入門-
分散表現：Word2Vecなど
BERT導入: Masked model
• (基礎編：主要なタスク)
BERTによる文章の穴埋め
BERTによる文章分類
BERTによる固有表現抽出
BERTによる文章校正
T5による自動要約
GPT-2による文生成
• (応用・ビジネス化編)
(論文の紹介)小説の創作
(論文の紹介)含意関係認識
(論文の紹介)言語モデルの関係性の検討(アナロジーを題材に)
(論文の紹介)知識グラフによる推論とオントロジー
今回はここ！
(2/25 1回目)
次回はここ！
(3/18 予定 2回目
はんなりPythonの
本会)

6.理論編：言語学から見た自然言語処理
本日のゴール
- 理論編：自然言語処理の関連分野を知りましょう！
- 実践編：今回は、超入門として、分散表現
(Word2vec)からBERTによる感情分析までを、ささっと
体感しよう！！

• 言語学が先行して対応していたが、分散表現から自然言語処理オンリーに
なりつつある！
言語学
-形態論
-語用論
-統語論
-意味論
-音声学
ここでは、
言語学を、
ざっくりと、各論を説明
して、ゆきます！

• 形態論では、形態素を組み合わせてどう語が形成されるのかを主に研究
• 統語論では、語と語を組み合わせてどう文を作られるのかを主に探るもの。
言語学
-形態論
-語用論
-統語論
-意味論
-(音声学)
形態論とは、
語がどういう形状（構造）をしているか、
語がどう作られるかを調べる分野。
例）「日本語」
「日本語」という語は「日本」と「語」に分け
られます。
→「日本」をさらにわけることはできない。
→「日本」と「語」が意味の最小の単位となる。
Cf.形態素は、意味を持つ最小の単位のこと

• 統語論では、語と語を組み合わせてどう文を作られるのかを主とする。
• 形態論では、形態素を組み合わせてどう語が形成されるのかを主とする。
言語学
-形態論
-語用論
-統語論
-意味論
-(音声学)
統語論とは、
どうやって話者の頭の中で語や句が配列
さて、文法的な文が作り出されるかを調
べる分野。≒日本語文法。
例）
○ 「私は日本語でこの記事を書いています」
×「で日本語私を記事で私をいます。書いて」
→文を形成する規則（統語規則）が頭の中にあ
り、それに基づいて無数の数の文を理解・産出
できる。これを明らかにする分野が統語論。

• 形態論と統語論との近さは、意味論と語用論との関係に似ている。
• 上記のQAを、チャットボットや対話システムでどのように設定しますか！？
言語学
-形態論
-語用論
-統語論
-意味論
-(音声学)
意味論とは、
言語の意味を分析する分野。文法規則や
係り受け解析などの明示的な語句や記号
も含まれる。
例） Q：『時計持ってる？』
→A：『持っているよー』
意味論：言語そのものが持っている意味』を扱う。
→A：『20時だよ！』
cf. 語用論：言語使用者やコンテキストを含めるかどう
か。暗示的なものも対象とする。

・上記の対話を、皆さんなら、チャットボットや対話システムで、どのよ
うに設定しますか！？
言語学
-形態論
-語用論
-統語論
-意味論
-(音声学)
語用論とは、
ある文脈の流れの中で、これまでの経験
や相手との関係から、言外の暗黙知を含
めた意味の解釈を探る分野。
コーヒーは飲みたくな
いよー
窓を開けて欲しい
なー

• より人間の振る舞いに似せる場合、間合い(何秒後に返事をするとか）や相槌を
打つタイミングなどを、対話システム(対話知能学)に加えるなどがあります！
言語学
-形態論
-語用論
-統語論
-意味論
-(音声学)
音声学とは、
どう音が出るのか、そして音がどう伝播
して、その音をどう知覚するのかを探る
学問。
音声学は一般的に以下の3つに分けられる。
１．調音音声学ーどう音が産出されるか
２．音響音声学－どう音が伝播するか
３．知覚音声学－どう音を知覚するか

• ここからは、自然言語処理の視点から、言語学とのから
みで、主なトピックを取り上げます！
言語学
自然言語処理
-形態論
-語用論
-統語論
-意味論
解析
語義曖昧性解消
Φ(該当なし) ≒対話システム
ニューラルネットワーク
-φ(該当なし)
ディープラーニングの各タスク

• ここからは、自然言語処理の視点から、言語学とのから
みで、主なトピックを取り上げます！
自然言語処理
解析
-語義曖昧性解消
-ニューラルネットワーク
-ディープラーニングの各タスク

• ここからは、自然言語処理の視点から、言語学とのからみで、主なト
ピックを取り上げます！
形態素解析とは、
言葉を最小単位に分割するもの。MecabやJumanがそのツール
として有名。
cf. 従来の捉え方(DeepNNを用いない場合)
構文解析：文法の規則にしたがって文の構造を解析
→依存構造解析
意味解析：主語や述語、目的語などを一意に定めるもの。
→シソーラス(WordNet)
→語義曖昧性解消(bank(銀行)とbank(土手))
文脈解析･･･文章全体を理解し、トピックや前後の文の流れを
捉えるもの。
→1)結束性と一貫性、2)照応・ゼロ照応解析、3)談話構造解析

• 述語項構造認識とは、文の意味を捉えるのに、形容詞や動詞などの述語を意味の
中心にすえて、述語と項の関係を捉える。このような文の構造をさす(文脈解析)。
形態素解析後の処理フロー：
DB
DB
隠れ層
入力テキスト
出力(応用タスク)
DB
DB
品詞タグ付け
述語項構造認識
構文解析
応用タスクへの出力器
・従来の自然言語処理のフロー
・ディープラーニングによる自然言語処理のフロー
入力テキスト
隠れ層
隠れ層
応用タスク出力器
出力(応用タスク)
DB
学習(訓練
データ)
DB
学習(訓練
データ)
従来の自然言語処理では
タスクごとに、DB(訓練
データ)をそろえないと
いけなかった。

• 従来のと比べると、ディープラーニングのはEnd-To-Endで一気通貫になりました。
形態素解析後の処理フロー：
・従来の自然言語処理のフロー
・ディープラーニングによる自然言語処理のフロー
Mecab（形態素解析）
↓
係り受け解析(KNP/ CaboCha / kakasi)
↓
各応用タスクへ
Mecab（形態素解析）
↓
ベクトル化・特徴量への変換(One-hot encoder/ BoW/ TF-IDFの計算)
↓
応用タスク(文章分類、文章生成)へのネットワーク設計
Hands-on
Colab
→

• ここからは、自然言語処理の視点から、言語学とのからみで、主なト
ピックを取り上げます！
構文解析とは、
文法の規則にしたがって文の構造を解析
→依存構造解析
依存構造解析とは、構文解析の一種で、与えられた文の依存構造を決定す
る処理。依存構造で文の構文構造を表わすという考えに基づく文法理論
のこと。
構文の曖昧性の問題
ある文に複数の構文が考えられること。
例1）「古びた京都の宿に彼だけが泊ったらしい。」
→「宿が古びている」のか、「京都が古びている」のかの解釈の違いがあ
り、構文の違いとして表現できる。
→文節依存構造木で表現する。

• 自然言語処理のライブラリの「NLTK」を使う際に、上記を知っておく
と理解しやすいかもしれません。
(構文解析の続き)
構文の曖昧性の問題
ある文に複数の構文が考えられること。
例2）「I saw a girl with a telescope.」
→「望遠鏡で見る」、「望遠鏡を持った少女」なのかの解釈
の違いがあり、構文の違いとして表現される。
→構文の曖昧性があり、構文を決めることが文の解釈を決め
ることになると考えるアプローチ/姿勢。
構文解析は”parsing”や”syntactic analysis”という。

• 上記の5つを取り上げます。
• 次回以降のスライドで、１つ１つ、見てゆきます。
意味解析とは、
語の意味の定義のあり方を考える学問。
1) 概念による語の意味のとらえ方(内包と外延的定義)
2) 語の創造的な使用(直喩、隠喩(メタファー)、換喩(メトノ
ミー)
3) シソーラス(WordNet)
4) 同義語：ある語とよく共起する語をその関連語と考える。
→共起とは、同一文書内、同一文内、前後10語以内や係り受
け関係で同時に出現することを指す。

• 細かい部品などを分類するときに、オントロジーで表現しやすいとさ
れている。
意味解析とは、
語の意味の定義のあり方を考える学問。
1) 概念による語の意味のとらえ方
(内包と外延的定義)
→概念の階層化(→オントロジー)
概念の定義として、その本質的な特徴・性質
を内包と呼ぶ。また、それに含まれるすべて
を外延と呼び、ある概念を定義するもの。
概念は階層化して考えられ、上位の階層を類
または上位概念、下位の階層を種または下位
概念と呼ぶ。
種子
植物
シダ
植物
コケ
植物
生物
植物動物
内包
外延

• チャットボットや対話システムで、このような応答ができると、差別
化につながるかもです。
2) 語の創造的な使用(直喩、隠喩
(メタファー)、換喩(メトノミー、
提喩、擬人法))
2-1) 直喩
彼の心は氷のように冷たい。
2-2) 隠喩(メタファー)
彼女はダイヤモンドだ。
→ダイヤモンド⇒「輝くもの」、
「人気者」
2-3) メトニミー( metonymy、換喩)
近くに鳥居がある。
→特徴的な要素を取りあげて全体を
表す方法
鳥居だけで「神社」があることがわ
かる。
2-4) シネクドキ(synecdoche、
提喩)
繫忙期は、手が足りない。
→「手」は「人」を例えている)
全体を一部に例えたり、一部を
全体に例えたりする方法。
2-5) 擬人法(personification)
風がささやいている。
→人間以外のものやできごとを
人に見立てて表す方法。

• より豊かな表現方法として、コンペティションや商談で、相手の感情
に訴えるなどの効果があるとされています。
2) 語の創造的な使用(直
喩、隠喩(メタファー)、
換喩(メトノミー、提喩、
擬人法))
2-3) メトニミー
( metonymy、換喩)
近くに鳥居がある。
→特徴的な要素を取
りあげて全体を表す
方法
鳥居だけで「神社」
があることがわかる。
【考察】
含意関係認識の初期のタスクは、
メトノミーだった！？
※1 前提となる文(Text; T)
※2 仮定となる文
(Hypothesis; H)

語義曖昧性解消とは、
1対多になるときの対応策として、1)ではbankがmoneyの代わ
りとなっていると判断区別する方法。⇒WordNet
1) I have liitle money in the bank.
2) Get up on the bank and take your clothes off.
1 ) その銀行にはほとんどお金は残っていない。
2) 土手に上がって服を脱げ。

• ImageNetとの関係：Deep Learningでよく使われている画像ライブラリであ
るImageNetは、WordNet 3.0のsynsetで分類されている。→DALL-Eなどへ。
WordNet とは、
「類義語」「上位概念」「下位概念」などが
まとめられているDBに当たるもの。
WordNetの主なDB定義
・類義語 :
例）猫の類義語
→ ねんねこ, にゃんにゃん, 猫, キャット, ネコ
・上位概念・下位概念 :
例）猫の上位概念 → 動物
動物の下位概念 → 犬, 猫, 猿
図3.1 WordNet
のtable

• Pythonによる共起ネットワークも。このデータセットは小説やデパー
トのお客様の声、コールセンターのログなどのレベル感だと思います。
4) 同義語：ある語とよく共起する語をその関連語と考える。
→共起とは、同一文書内、同一文内、前後10語以内や係り受
け関係で同時に出現することを指す。
テキストマイニング（KHCoder）などで、よく一緒に出現す
る単語を共起ネットワークとして出力する機能がある。
共起（co-location：コロケーション）
は、対象とする単位（文）の中で単
語が共に出現する回数をカウント
単語N-gramは、隣り合った単語
の組をデータの単位とします。2-
gram（2単語）

• １）、２）、３）を順にみてゆきましょう！
文脈解析とは、
１）文や文章のつながりをコンピューター処理するものです。
２）代名詞の参照問題などもこの文脈解析に含まれます。
３）物語の理解などでは、文脈解析は欠かせないものです。
しかし、文脈解析は、意味解析以上に困難で、まだ、文脈を
まともに解析できるシステムは今のところありません。
１）→結束性と一貫性
２）→参照・ゼロ参照解析
３）→談話構造解析

• １）、２）、３）を考えてみよう！
文脈解析
１）→結束性と一貫性はあるか、○、×で考えてみよう！
１ー１）太郎はお腹が空いた。一昨日は祝日だった。
→結束性（）、一貫性（）
１－２）太郎はお腹が空いた。そのため、太郎はビスケット
をつまんだ。
１－３）太郎はお腹が空いた。彼はビスケットをつまんだ。

文脈解析
→結束性（ × ）、一貫性（ × ）
→結束性も一貫性もない。
をつまんだ。

文脈解析
→結束性（ × ）、一貫性（ × ）
をつまんだ。
→結束性（ ○ ）、一貫性（ ○ ）
→結束性と一貫性がある。

文脈解析
→結束性（ × ）、一貫性（ × ）
をつまんだ。
→結束性（ ○ ）、一貫性（ ○ ）
→結束性と一貫性がある。
→結束性（ ○ ）、一貫性（ ○ ）
→結束性はあるが、冗長な文章である。
⇒省略が自然ではないか！⇒２）の照応・ゼロ参照へ

共参照と照応
→共参照とは、「太郎」と「彼」のように文章中の2つの表
現が同一のものごとを指し示す現象のこと。
→照応とは、「彼」のように、他を参照する表現のこと。
→照応詞となる表現は代名詞、定名詞句などで、頻繁に省略
される。
太郎はお腹が空いた。彼はビスケットをつまんだ。
参照参照
照応

ゼロ参照
太郎はお腹が空いた。ビスケットをつまんだ。
→ 「彼は」のように省略された照応詞をゼロ代名詞と言い、
ゼロ代名詞が他の表現を参照することをゼロ参照という。
参照参照
ゼロ照応

照応解析とは、
照応詞が参照する先行詞を同定する処理を照応解析という。
照応解析の教師データで学習させた精度は６０－７０％。
例）太郎はお腹が空いた。彼はビスケットをつまんだ。
解釈に知識を必要とする照応表現を約2000例集めたのがテス
トセットにWinograd Schema Challenge(WSC)がある。
※日本語のWSCは「日本語Winograd Schema
Challengeの構築と分析」が詳しい。
参照参照
ゼロ照応

ゼロ照応解析とは、
省略された項を求める処理のこと。省略解析とも言う。
例）太郎はお腹が空いた。ビスケットをつまんだ。
「つまむ」のガ格が「太郎」であることを求める処理のこと。
京都大学テキストコーパスやNAISTテキストコーパスがる。
精度は５０％程度にとどまっており、今後の研究の進展が
期待されている。
参照参照
ゼロ照応

ニューラルネットワークを用いた自然言語処理の主なタスク
１）Word Embedding (意味のベクトル表現)
２）リカレントニューラルネットワーク
３）情報抽出と知識獲得
４）情報検索
５）トピックモデル
６）文書分類
７）自動要約
８）文生成
９）機械翻訳
10）対話システム

ニューラルネットワークを用いた自然言語処理
１）Word Embedding (意味のベクトル表現)とは、
ニューラルネットワークを用いて大規模なコーパスから語の意味のベク
トル表現を学習したもの。
・関連語に基づくベクトル表現
One-Hot vector:
分布仮説の分布類似度で、共起度の高い語（関連語）の集合で語の意味
を表現する。
語彙数に対応する高次元(数万～数十万次元)のベクトルと考えて、対象
語の意味である関連語の次元を1、それ以外を0とするベクトルで表現す
るもの。
(高次元)
りんご (0 0 1 0 0 0 0 0 0 1 0… … …)
みかん (0 0 1 0 0 0 1 0 0 0… … …)
お皿 (0 0 0 0 0 0 1 0… … …)

１）Word Embedding (意味のベクトル表現)とは、
ニューラルネットワークを用いて大規模なコーパスから語の意味のベク
トル表現を学習したもの。
・ Word Embeddingのベクトル表現
Word Embeddingでは、語の意味を低次元(数十～数百次元)の密なベクトル
で表現する。
ソフトウェアのWord2vevを使って、日本語ウェブテキスト(1億文)から、
100次元のベクトルを学習し、上位頻度の1000語のベクトルを2次元に圧縮
し可視化したもの。
りんご (0.71 -1.21 0.55 …)
みかん (0.75 -1.560 0.47 …)
お皿 (0.27 1.76 -0.24 …)
王様ー男＋女＝女王
→意味の計算が、ベクトルの計算に相当することが多い。

２）リカレントニューラルネットワーク(RNN)
これまでのニューラルネットワークは、入力と教師信号のペ
アは、他のペアとは独立して、ペアごとに中間層の状態をリ
セットしていた。
一方、RNNは、リセットせずに、次の状態のときに中間層の
状態を引き継ぐものです。
x(t)は時刻tにおける入力を表す。
x(t)は語彙数の次元からなるベクトルで、入力単語に対応する次元のみが1で、そ
の他は0になっている。
中間層の値s(t)はこれまでの単語の情報を圧縮したものになっている。
時刻tの入力単語と時刻t-1の中間層の値s(t-1)から下記の式で計算される。
𝑠 t = 𝜎(𝑉𝑥 𝑡 + 𝑊𝑠(𝑡 − 1))
※詳しくはこちらを参照ください。リカレントニューラルネットワーク

x(t): 時刻tにおける入力を表す。
x(t): 語彙数の次元からなるベクトルで、入力単語に対応する次元のみが1で、その
他は0になっている。
中間層の値s(t): これまでの単語の情報を圧縮したものになっている。
時刻tの入力単語と時刻t-1の中間層の値s(t-1)から下記の式で計算される。
行列V: 「中間層に次元数×語彙数」、各列のベクトルは単語ベクトルをさす。
行列W: 1つ前の時刻の中間層の値を保持する領域から中間層への写像関数
U: 中間層から出力層への写像関数
g: ソフトマックス関数、全語彙を確率で正規化するために使われている。
y(t):において、ある語wに対応する次元はそこまでの文脈のもとでの、その語の出
現確率p(w | …, wt-1, wt)を表す。
𝑠 t = 𝜎(𝑉𝑥 𝑡 + 𝑊𝑠(𝑡 − 1))
※詳しくはこちらを参照ください。リカレントニューラルネットワーク
y t = 𝑔(𝑈𝑠 𝑡 )

入力系列として、「太郎はお腹」が与えられた後では、「が」に対応す
る次元はp(が | 太郎, は, お腹)を表し、「が」に対応する次元はp(が | 太郎,
は, お腹)を表します。
次のステップでは、s(t)が中間層の記録領域にコピーされて、時刻t+1で次
の単語を予測するときに利用されます。
V, W, U: 学習する重み
システムの出力ベクトルy(t)と実際に出現した単語の次元を1、それ以外を0とした
ベクトルとの誤差に基づいて重みを学習します。
→RNNは過去の時刻の情報に依存するが、10時刻以上離れた入力と出力の関係を
学習することは難しい。→LSTMが開発されています。
𝑠 t = 𝜎(𝑉𝑥 𝑡 + 𝑊𝑠(𝑡 − 1))
※ここでは、リカレントニューラルネットワークによる文生成をながめるにとどめ
ます。
y t = 𝑔(𝑈𝑠 𝑡 )

２）リカレントニューラルネットワーク(RNN)による文生成
※ここでは、リカレントニューラルネットワークによる文生成をながめるにとどめ
ます。
太宰治の「走れメロス」
メロスには知っている）それを読まれて自分がわいて来て、
狂人という事になりました。けれども、自分はそのお金を
使ってしまうのでした）その一言が、奇妙に自分の、震え
おの貧した一つ、真人間あつかいにしていました。演説が
すんで、そのお金で、思い切ってひとりで南伊豆の温泉に
行ってみたりなどしていたとし
太宰治の書き方の雰囲気のある文生成。
→独特な語り口の作家なら、その雰囲気を持った文章を生
成できる。

ニューラルネットワークを用いた自然言語処理の主なタスク
本日は入門なので、次回以降に回したいと思います！
３）情報抽出と知識獲得
４）情報検索
５）トピックモデル
６）文書分類
７）自動要約
８）文生成
９）機械翻訳
10）対話システム

・次は何が来るか、先んじて制したいですねー！
まとめ：
時代の流れ
[～2010]
従来の(言語
学ベースの)
アプローチ
の時代
[～ 2020 ～]
大規模コー
パスによる
ディープ
ラーニング
の時代
GLUEなど見直しの声や英語
圏のバイアスが多いなどが
あがってきている。
[2021 ～]
従来のアプロー
チにディープ
ラーニングを適
用する！？
[2022
～]
？

実践編
Colabでハンズオン！
TransformerでBERTを扱う
-超入門-

Colabでハンズオン！
• 今回はディープラーニングによる自然言語処理
を取り上げます。

目次
１．BERTをざっくりとおさえよう！
２．ポジネガ分析(文書分類)
３．穴埋め問題：単語(<mask>)の予測
• Colab：
• https://github.com/otanet/hannari_NLP_hands_on_2022/blob/main/Trans
former%E3%81%A7BERT%E3%82%92%E6%89%B1%E3%81%86_%E8%B6%
85%E5%85%A5%E9%96%80_ipynb_20220225.ipynb
上記のURLにアクセスして、Colabを開いてください！
（Colabのマークをクリックしてください！）

BERTとは、
- Bidirectional Encorder Representation
from Transformerの略
- Googleが2018年に発表したもの
- Transformerをベースに（12個/ 24個）エン
コーダーを多段に連結した構成になってい
る。

BERTの事前学習モデルは2種類！
１）Masked Language Model：「穴埋め問題」
例）太郎は<MASK>が空いた。そして<MASK>ビスケッ
トをつまんだ。
２）Next Sentence Prediction：
「文が隣り合っているか」を当てるよう学習する。
例1）太郎はお腹が空いた。彼はビスケットをつまん
だ。
ラベル：隣り合っている
例2）太郎はお腹が空いた。一昨日は祝日だった。
ラベル：隣り合っていない
1つ目の文 2つ目の文
1つ目の文 2つ目の文

１．感情分析(ポジネガによる文書分類)
1. “(Hugging Face )Transformers”の
libraryを用いて、感情分析を行います。
2. ここでの感情分析はポジティブかネガ
ティブかの2値分類となります。
入力：
“I love you”
“I hate you“
出力：
POSITIVE,
score: 0.9998
NEGATIVE,
score: 0.9991
英語での感情分析の例

１．感情分析(ポジネガによる文書分類)
1. “(Hugging Face )Transformers”の
libraryを用いて、感情分析を行います。
2. ここでの感情分析はポジティブかネガ
ティブかの2値分類となります。
入力：
この商品を買ってよかった。
この商品を買って失敗した。
出力：
ポジティブ,
score: 0.98
ネガティブ,
score: 0.80
日本語での感情分析の例

１．考察：感情分析(ポジネガによる文書分類)
入力：
この商品を買ってよかった。
この商品を買って失敗した。
出力：
ポジティブ, score: 0.98
ネガティブ, score: 0.80
日本語での感情分析の例
※考察(３つの場合)
ポジティブが0.7を超えたら、ポジティブ、0.3まではネガ
ティブ、0.3‐0.7はニュートラルなどで、3つに分類する。
この分類を4つや5つにすると、より細かなセグメントに分け
られ、マーケティングに応用できそる。

１．考察：感情分析(ポジネガによる文書分類)
入力：
1)このラーメンは好き。
2)このラーメンは好きでは
ない。←二重否定
3)このラーメンは嫌いでは
ない。←二重否定
出力：
このラーメンは好き。
このラーメンは好きではない。
このラーメンは嫌いではない。
二重否定はどうか！？
※考察(二重否定の場合)
2)このラーメンは好きではない→(嫌いだ!?＝ネガティブ) 0.54
3)このラーメンは嫌いではない →(好きだ!?＝ポジティブ)0.98
⇒同じ二重否定でも、BERTには差異がある。ニュアンスの幅??
微
妙
！
！

２．単語の穴埋め問題
入力：
朝食に[MASK]を
食べる。
出力：
score: 0.09675
パン', 'sequence':
朝食にパンを食べる。
score: 0.0734
米', 'sequence': '朝食に米を
食べる。
score: 0.063
朝食', 'sequence': '朝食に朝食
を食べる。
score: 0.0531
カレー', 'sequence': '朝食に
カレーを食べる。
score': 0.0523
ワイン', 'sequence': '朝食に
ワインを食べる。
score: 0.063 朝食', 'sequence': '朝食に朝食を食べる。
⇒日本語的に、おかしいのも出力される！！致命傷になりうるレベルも出力される。

入力：
夕食に[MASK]を
食べる。
出力：
score: 0.093
野菜', 'sequence':
朝食に野菜を食べる。
score: 0.0734
米', 'sequence': '夕食に米を食
べる。
score: 0.063
ワイン', 'sequence': '夕食にワイ
ンを食べる。
score: 0.0531
カレー', 'sequence': '夕食にカ
レーを食べる。
score': 0.0523
ワイン', 'sequence': '夕食にパ
ンを食べる。
3番目はコロケーションが弱い。
score: 0.063 ワイン‘, ’sequence‘: ’夕食にワインを食べる。

南カリフォルニア大学の機械への指摘
BARTやT5で生成された文
GPT2 A dog throws a frisbee at a football player.
UniLM Two dogs are throwing frisbees at each other.
BART A dog throws a frisbee and a dog catches it.
T5 Dog catches a frisbee and throws it to a dog.
図5-1-1 犬がフリスビーを投げる文生成と常識の指摘
・常識が欠けていると指摘されている。
→固有名詞と動詞のセットで，「ヒトが投げて，犬が受け取る」といった
論理的な一貫性が必要！
⇒Multi-Hop Reasoning

まとめ
１．Hugging FaceのlibraryのTransformerでBERTを
体感してみた。
２．２つのタスクを行った。
１）感情分析
２）穴埋め問題
３．１）感情分析は確率の設定で2値分類を３つ以上
に拡張すると、カスタマイズできそう。
２）穴埋め問題は、候補の一覧から選択するところ
で、同一の単語が候補に出たら、除外する必要があ
る。

参考文献・URL一覧
1. 小町他(2016)「自然言語処理の基本と技術」翔泳社
2. 高村(2010)「言語処理のための機械学習入門」コロナ
社
3. 坪井他)(2017)「深層学習による自然言語処理」講談社
4. 黒橋(2019) 「自然言語処理」放送大学出版会
5. 立山(2021)「ディープラーニングＡＩはどのよに学習
し、推論しているのか」日経BP
6. 吉崎他(2020)「ディープラーニング実践」インプレス

ご清聴ありがとうございました！

Python nlp handson_20220225_v5

Recommandé

Recommandé

Contenu connexe

Tendances

Tendances (20)

Similaire à Python nlp handson_20220225_v5

Similaire à Python nlp handson_20220225_v5 (20)

Plus de 博三太田

Plus de 博三太田 (20)