SlideShare une entreprise Scribd logo
1  sur  43
Télécharger pour lire hors ligne
大学院の研究で
どんなことをやってたかの話
鈴木雄登
自己紹介
• 鈴木 雄登
• @moc_yuto
• 自然言語処理をやってた
– 最近はめっきり。。
• 今はScalaメイン
はじめに
そういえば、
大学時代の研究の話って
ほぼしてないなーっと思った。
じゃあ久しぶりにしよう!
研究の話
(自然言語処理って身近だよ)
カタカナ動詞の意味を獲得
パフェる
語源:パーフェクト
言い換え:制覇する
解析器入力 出力
カタカナ動詞をどうやって集めるか
カタカナ動詞の収集
• Twitterコーパス
– 2011年5月から2011年9月まで
– 約1億3千万ツイート
– どうしてTwitter?
気軽に投稿でき,カタカナ動詞が多く出現しやすいため
• 収集法
– MeCabでパースして、以下のようなカタカナの動詞を収集
ex.
「パフェ」+「っ」(動詞非自立),「リム」+「る」(助動詞)
カタカナ動詞の例
頻度 カタカナ動詞 頻度 カタカナ動詞
75249 モテる 12149 ハゲる
40873 バレる ・
36879 イケる 2014 キョドる
23472 ググる ・
20373 ウケる 1152 アピる
15887 デレる ・
13905 リムる ・
12523 パクる 342 ポジる
上位200位を利用
提案手法
言い換えと語源の類似性や共起を考慮したリランキング
カタカナ動詞
入力 「アガる」
既存辞書
での有無
辞書見出し
出力
1. パフェ
2. パーフェクト
3. パフェー
4. パーフェクトジオング
5. パーフェクトポーション
1. 暗譜
2. 倒す
3. 解禁
4. 達成
5. クリア
1. 達成 パーフェクト
2. レコーディング パフェ
3. 合体 パフェ
4. 録 パフェ
5. テスト パフェ
3
言い換え獲得 語源獲得1 2
有
無
あが・る
【上がる/揚がる/挙がる】
全体のフロー
言い換えと語源の類似性や共起を考慮したリランキング
カタカナ動詞
入力 「パフェる」
既存辞書
での有無
辞書見出し
出力
1. パフェ
2. パーフェクト
3. パフェー
4. パーフェクトジオング
5. パーフェクトポーション
1. 暗譜
2. 倒す
3. 解禁
4. 達成
5. クリア
1. 達成 パーフェクト
2. レコーディング パフェ
3. 合体 パフェ
4. 録 パフェ
5. テスト パフェ
3
言い換え獲得 語源獲得1 2
有
無
全体のフロー
言い換えと語源の類似性や共起を考慮したリランキング
カタカナ動詞
入力 「パフェる」
既存辞書
での有無
辞書見出し
出力
1. パフェ
2. パーフェクト
3. パフェー
4. パーフェクトジオング
5. パーフェクトポーション
1. 暗譜
2. 倒す
3. 解禁
4. 達成
5. クリア
1. 達成 パーフェクト
2. レコーディング パフェ
3. 合体 パフェ
4. 録 パフェ
5. テスト パフェ
3
言い換え獲得 語源獲得1 2
有
無
全体のフロー
言い換えと語源の類似性や共起を考慮したリランキング
カタカナ動詞
入力 「パフェる」
既存辞書
での有無
辞書見出し
出力
1. パフェ
2. パーフェクト
3. パフェー
4. パーフェクトジオング
5. パーフェクトポーション
1. 暗譜
2. 倒す
3. 解禁
4. 達成
5. クリア
1. 達成 パーフェクト
2. レコーディング パフェ
3. 合体 パフェ
4. 録 パフェ
5. テスト パフェ
3
言い換え獲得 語源獲得1 2
有
無
全体のフロー
言い換え獲得のアイディア
ゲーセンで 曲を パフェった
ゲーセンで 曲を 制覇した
・カタカナ動詞
・言い換え
格要素の類似性を利用
カタカナ動詞入力
パフェる
IPA辞書内の
全動詞
制覇する
食べる
寝る
走る
クリアする
...
ランキングして出力
で:24
ゲーセンで:20
・
・
曲を : 15
連続で:24
ゲーセンで:20
・
・
曲を : 15
ベクトル作成
で:24
ゲーセンで:20
・
・
曲を : 15
で:24
ゲーセンで:20
・
・
曲を : 15
で:24
ゲーセンで:20
・
・
曲を : 15
連続で:24
ゲーセンで:20
・
・
曲を : 15
類似度を計算
言い換えの
獲得
…
パフェる=
曲を : 36
ポップンで : 23
連続で:21
ツ
イ
ー
ト
集
合
帰り際に遊んだら
ポップンでパフェった.
ミスした時に限って
あの曲を パフェる
練習してた 曲を
パフェった!
…
連続で
あの曲を パフェる
ベクトルの作り方
ベクトル間の類似度計算
格要素ベクトルを用いてカタカナ動詞と候補間の類似度を
計算する.
Jaccard係数,コサイン類似度を利用して評価した.
x, y の各ベクトルは頻度を要素とした格要素ベクトルである.
X,Yは格要素ベクトルの単語集合である.
簡単に言うと
曲を : 36
ポップンで : 2
連続で:0
曲を : 242
ポップンで : 23
連続で:103
36 × 242 + 2 × 23 + 0 × 103 + … = 合計
合計 ÷ ベクトルの列数 = 類似度
単純に両方で同じ単語が頻度高く出現すれば、
類似度は高くなる
言い換えと語源の類似性や共起を考慮したリランキング
カタカナ動詞
入力 「パフェる」
既存辞書
での有無
辞書見出し
出力
1. パフェ
2. パーフェクト
3. パフェー
4. パーフェクトジオング
5. パーフェクトポーション
1. 暗譜
2. 倒す
3. 解禁
4. 達成
5. クリア
1. 達成 パーフェクト
2. レコーディング パフェ
3. 合体 パフェ
4. 録 パフェ
5. テスト パフェ
3
言い換え獲得 語源獲得1 2
有
無
全体のフロー
• ゲーセンで 曲を パフェった
• ゲーセンで パーフェクトを 取れた.
語源獲得のアイディア
• ゲーセンで 曲を パフェった
• ゲーセンで パーフェクトを 取れた.
語源獲得のアイディア
語源獲得のアイディア
• ゲーセンで 曲を パフェった
• ゲーセンで パーフェクトを 取れた.
• ゲーセンで 曲を パフェった
• ゲーセンで パーフェクトを 取れた
語源獲得のアイディア
語源候補の獲得
カタカナ名詞集合
カタカナ名詞全てを
調べるには膨大
ルールを用いて候補を絞る
候補を絞るルール
• 表層的なルール
単語の先頭から見て,促音・長音は無視し,それ以外の文字が出てきた
ら選択しない.
例)目的の単語:テク
候補として選択 候補として選択しない
テクニック テイク
テック ハイテク
テーク 心理テクニック
テクニカル
カタカナ名詞集合
格要素
ベクトル作成
類似度計算
語源候補
パラダイス
パーフェクト
パイソン
パーツ
ピース
... カタカナ動詞入力
パフェる
明日で:24
ゲーセンで:20
・
・
曲を : 15
パフェ
パーフェクト
パフェー
...
候補を絞る
ランキングして出力
獲得フロー
格要素
ベクトル作成
類似度計算
• 作成された格要素ベクトルに対して言い換えの場合と同じく
以下を適用
– コサイン類似度
語源候補の頻度考慮
• 語源の頻度を考慮
リクる
頻度 語源候補
9737 リクエスト
823 リク
505 リクルートスーツ
471 リクスー
461 リクナビ
頻度の多いものを優先!
言い換えと語源の類似性や共起を考慮したリランキング
カタカナ動詞
入力 「パフェる」
既存辞書
での有無
辞書見出し
出力
1. パフェ
2. パーフェクト
3. パフェー
4. パーフェクトジオング
5. パーフェクトポーション
1. 暗譜
2. 倒す
3. 解禁
4. 達成
5. クリア
3
言い換え獲得 語源獲得1 2
有
無
1. 達成 パーフェクト
2. レコーディング パフェ
3. 合体 パフェ
4. 録 パフェ
5. テスト パフェ
言い換えと語源の関連性
• 2つの手法
– ペア類似度(スコアの足しあわせ)
– 共起
ペア類似度(スコアの足しあわせ)
言い換えのスコア
語源のスコア ペア類似度のスコア
パフェる
語源 :
言い換え :
2つの関連性を考慮
達成
パーフェクト
共起
グーグル で 検索 する
ググる
語源 言い換え
共起しているかどうかを調べる
実験
評価指標
• MRR (Mean Reciprocal Rank)
正解がどのくらい上位に出て来やすいかをスコア化したもの
Rは入力したカタカナ動詞の数,Rankは正解順位.
• Accuracy @ N
上位N位以内に正解がある確率
順位 結果
1 パフェ
2 パーフェクト
3 パフェー
言い換え獲得例
コラボる 類似度 ハモる 類似度
1 合作 0.637 輪唱 0.527
2 演奏 0.571 合作 0.527
3 練習 0.55 合唱 0.514
4 重奏 0.549 熱唱 0.514
5 レコーディング 0.523 歌う 0.493
cosine類似度
• 言い換え獲得:1位のみ表示で約3割の精度
誤り分析
– 格要素をあまり取らないものの精度が良くなかった.
例)タクる,バグる
語源獲得例
チャリる 類似度 ポジる 類似度
1 チャリンコ 0.576 ポジ 0.250
2 チャリ 0.574 ポジショニング 0.225
3 チャーリー 0.229 ポジション 0.185
4 チャリチャリ 0.187 ポジティブシンキング 0.163
5 チャリチョコ 0.187 ポジティブ 0.141
語源獲得:1位のみ表示で約6割
誤り分析
派生の派生が結果として出力されてしまった.
「リプる」の語源は「リプライ」,だが「リプる」から「リプ」が生まれそれが
頻出している.
cosine類似度
みんないろんな研修やってたよねー
どんなのやってたか興味あり!
時間があるとき、教えてくださいー!
ご清聴ありがとうございました

Contenu connexe

Plus de Yuto Suzuki

5xx解消への道のり
5xx解消への道のり5xx解消への道のり
5xx解消への道のりYuto Suzuki
 
MySQLのインデックス入門
MySQLのインデックス入門MySQLのインデックス入門
MySQLのインデックス入門Yuto Suzuki
 
Mastering Bitcoin ~network~
Mastering Bitcoin ~network~ Mastering Bitcoin ~network~
Mastering Bitcoin ~network~ Yuto Suzuki
 
Aerospike基本のき
Aerospike基本のきAerospike基本のき
Aerospike基本のきYuto Suzuki
 
いまさらAkkaStream
いまさらAkkaStreamいまさらAkkaStream
いまさらAkkaStreamYuto Suzuki
 
Introduction of View Through Tracking
Introduction of View Through TrackingIntroduction of View Through Tracking
Introduction of View Through TrackingYuto Suzuki
 
エンジニアのためのマーケティング
エンジニアのためのマーケティングエンジニアのためのマーケティング
エンジニアのためのマーケティングYuto Suzuki
 
How to Build a Team
How to Build a TeamHow to Build a Team
How to Build a TeamYuto Suzuki
 
プロダクトにおけるScala
プロダクトにおけるScalaプロダクトにおけるScala
プロダクトにおけるScalaYuto Suzuki
 
Do you like scala
Do you like scalaDo you like scala
Do you like scalaYuto Suzuki
 
Slackから始めるChatOps
Slackから始めるChatOpsSlackから始めるChatOps
Slackから始めるChatOpsYuto Suzuki
 
F.O.Xを支える技術
F.O.Xを支える技術F.O.Xを支える技術
F.O.Xを支える技術Yuto Suzuki
 
Scala戦士を増やせ
Scala戦士を増やせScala戦士を増やせ
Scala戦士を増やせYuto Suzuki
 
スクラムに学ぶ開発の回し方
スクラムに学ぶ開発の回し方スクラムに学ぶ開発の回し方
スクラムに学ぶ開発の回し方Yuto Suzuki
 
Breezeで始めるデータ分析
Breezeで始めるデータ分析Breezeで始めるデータ分析
Breezeで始めるデータ分析Yuto Suzuki
 

Plus de Yuto Suzuki (20)

5xx解消への道のり
5xx解消への道のり5xx解消への道のり
5xx解消への道のり
 
MySQLのインデックス入門
MySQLのインデックス入門MySQLのインデックス入門
MySQLのインデックス入門
 
Ad vol.2
Ad vol.2Ad vol.2
Ad vol.2
 
広告勉強会
広告勉強会広告勉強会
広告勉強会
 
Mastering Bitcoin ~network~
Mastering Bitcoin ~network~ Mastering Bitcoin ~network~
Mastering Bitcoin ~network~
 
Aerospike基本のき
Aerospike基本のきAerospike基本のき
Aerospike基本のき
 
いまさらAkkaStream
いまさらAkkaStreamいまさらAkkaStream
いまさらAkkaStream
 
Introduction of View Through Tracking
Introduction of View Through TrackingIntroduction of View Through Tracking
Introduction of View Through Tracking
 
エンジニアのためのマーケティング
エンジニアのためのマーケティングエンジニアのためのマーケティング
エンジニアのためのマーケティング
 
How to Build a Team
How to Build a TeamHow to Build a Team
How to Build a Team
 
プロダクトにおけるScala
プロダクトにおけるScalaプロダクトにおけるScala
プロダクトにおけるScala
 
Do you like scala
Do you like scalaDo you like scala
Do you like scala
 
Re invent
Re inventRe invent
Re invent
 
Slackから始めるChatOps
Slackから始めるChatOpsSlackから始めるChatOps
Slackから始めるChatOps
 
F.O.Xを支える技術
F.O.Xを支える技術F.O.Xを支える技術
F.O.Xを支える技術
 
Scala戦士を増やせ
Scala戦士を増やせScala戦士を増やせ
Scala戦士を増やせ
 
Recommend scala
Recommend scalaRecommend scala
Recommend scala
 
スクラムに学ぶ開発の回し方
スクラムに学ぶ開発の回し方スクラムに学ぶ開発の回し方
スクラムに学ぶ開発の回し方
 
Breezeで始めるデータ分析
Breezeで始めるデータ分析Breezeで始めるデータ分析
Breezeで始めるデータ分析
 
進撃のSbt
進撃のSbt進撃のSbt
進撃のSbt
 

Dernier

Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。iPride Co., Ltd.
 
PHP-Conference-Odawara-2024-04-000000000
PHP-Conference-Odawara-2024-04-000000000PHP-Conference-Odawara-2024-04-000000000
PHP-Conference-Odawara-2024-04-000000000Shota Ito
 
IoT in the era of generative AI, Thanks IoT ALGYAN.pptx
IoT in the era of generative AI, Thanks IoT ALGYAN.pptxIoT in the era of generative AI, Thanks IoT ALGYAN.pptx
IoT in the era of generative AI, Thanks IoT ALGYAN.pptxAtomu Hidaka
 
プレイマットのパターン生成支援ツール
プレイマットのパターン生成支援ツールプレイマットのパターン生成支援ツール
プレイマットのパターン生成支援ツールsugiuralab
 
新人研修のまとめ 2024/04/12の勉強会で発表されたものです。
新人研修のまとめ       2024/04/12の勉強会で発表されたものです。新人研修のまとめ       2024/04/12の勉強会で発表されたものです。
新人研修のまとめ 2024/04/12の勉強会で発表されたものです。iPride Co., Ltd.
 
20240412_HCCJP での Windows Server 2025 Active Directory
20240412_HCCJP での Windows Server 2025 Active Directory20240412_HCCJP での Windows Server 2025 Active Directory
20240412_HCCJP での Windows Server 2025 Active Directoryosamut
 
プレイマットのパターン生成支援ツールの評価
プレイマットのパターン生成支援ツールの評価プレイマットのパターン生成支援ツールの評価
プレイマットのパターン生成支援ツールの評価sugiuralab
 

Dernier (7)

Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。
 
PHP-Conference-Odawara-2024-04-000000000
PHP-Conference-Odawara-2024-04-000000000PHP-Conference-Odawara-2024-04-000000000
PHP-Conference-Odawara-2024-04-000000000
 
IoT in the era of generative AI, Thanks IoT ALGYAN.pptx
IoT in the era of generative AI, Thanks IoT ALGYAN.pptxIoT in the era of generative AI, Thanks IoT ALGYAN.pptx
IoT in the era of generative AI, Thanks IoT ALGYAN.pptx
 
プレイマットのパターン生成支援ツール
プレイマットのパターン生成支援ツールプレイマットのパターン生成支援ツール
プレイマットのパターン生成支援ツール
 
新人研修のまとめ 2024/04/12の勉強会で発表されたものです。
新人研修のまとめ       2024/04/12の勉強会で発表されたものです。新人研修のまとめ       2024/04/12の勉強会で発表されたものです。
新人研修のまとめ 2024/04/12の勉強会で発表されたものです。
 
20240412_HCCJP での Windows Server 2025 Active Directory
20240412_HCCJP での Windows Server 2025 Active Directory20240412_HCCJP での Windows Server 2025 Active Directory
20240412_HCCJP での Windows Server 2025 Active Directory
 
プレイマットのパターン生成支援ツールの評価
プレイマットのパターン生成支援ツールの評価プレイマットのパターン生成支援ツールの評価
プレイマットのパターン生成支援ツールの評価
 

大学の時の研究の話

Notes de l'éditeur

  1. 00:12
  2. それではカタカナ動詞を解析するにあたり,どのように収集し,どのようなものがあるかを分析する. どのようなカタカナ動詞が使用されているかを調べる
  3. ジャッカード係数を使う理由
  4. このルールを作った根拠も欲しい 撥音
  5. simstring
  6. デコ 379 に 336 を 456 で
  7. ググ 1502 に 2560 を 7020 で タク 539 に 183 を 517 で
  8. 何が効いてよくなったか?