SlideShare une entreprise Scribd logo
1  sur  17
Télécharger pour lire hors ligne
文脈の多様性に基づく 
名詞換言の提案 
長岡技術科学大学 
梶原智之 山本和英
背景と目的 
国語辞典を用いた換言 [梶原 13] 
【語彙平易化】見出し語 → 語釈文中の語 
課題1:語釈文の一部では見出し語と非等価 
課題2:数語の語釈文では換言候補が少ない 
→ 既存の換言知識に頼らず 
  大規模コーパスを用いて換言を生成 2
提案手法 
コーパスを用いた名詞換言 
 分布仮説[Harris 54] 
似た意味の語は似た文脈で用いられる 
1. 入力文と同じ文脈で用いられる名詞を抽出 
  → 自然な文を出力するための制約 
2. 抽出した各換言候補語と文脈の類似度を計算 
   → 意味を保持するための制約 3
提案手法による名詞換言の流れ 
4
1. 換言候補の収集 
「空港へのアクセスを調べる」 
「空港への○○」  「○○を調べる」 
コーパスを検索して○○を収集 
前文脈と後文脈に共通する○○に 
換言することで自然な文を出力できる 5
2. 換言先の選択(類似度計算) 
   換言対象の語と換言候補の語が多くの種類 
   の文脈を共有するほど換言可能性は高い 
   換言候補の語が多くの種類の 
   文脈を持つほど換言可能性は低い 
1 
2 
sim(nt, nc) = com(nt, nc) * log(N/DF(nc)) 
1 2 
 nt:換言対象の名詞、 nc:換言候補の名詞 
 com(nt, nc):ntとncが共通して用いられる文脈の種類数 
 N:文脈の総数、 DF(nc):名詞ncが用いられる文脈の種類数 6
提案手法の特徴 
• 入力文脈に応じた換言が可能 
• 単語の出現頻度を使わない 
• 換言可能な語とは多くの種類の文脈を共有する 
• 高頻度の単語に影響を受けない 
• 頻度の偏りにも影響を受けない 
→ 文脈の多様性に基づく名詞換言の提案 
7
関連研究 
• [Marton et al. 09] 
• [Bhagat and Ravichandran 08] 
1. コーパス中で換言対象語の 
文脈の語から特徴ベクトルを生成する 
2. 特徴ベクトル同士のコサイン類似度を 
計算し類似度最大の換言候補語へ換言する 
8
関連研究 
• [Marton et al. 09] 
• 未知語の換言により機械翻訳の精度を向上 
• 文脈の語との共起頻度で特徴ベクトルを作成 
• [Bhagat and Ravichandran 08] 
• 大規模コーパスから換言対を獲得 
• 文脈の語とのPMIで特徴ベクトルを作成 
9
関連研究 
• [Marton et al. 09]:共起頻度 
• 重要な文脈:多く共起する文脈 
→ 単体での出現頻度が高い単語の影響が強い 
• [Bhagat and Ravichandran 08]:PMI 
• 重要な文脈:偏って共起する文脈 
→ 単体での出現頻度が低い単語の影響が強い 
10
実験 
• Web日本語Nグラム:1,365,705件を抽出 
• 名詞 + … + 名詞 + … + 動詞原形 
• このうち頻出の200件について実験 
• 文頭ではない名詞が換言対象の名詞 
• 京都大学格フレーム:文脈の類似度計算 
• 述語:34,059語 
• 名詞:824,639語 
• 【荷物を積む】と【経験を積む】を区別できる 11
評価 
12 
類似度1位 
の名詞が換 
言可能 
20% 
類似度2位 
から10位ま 
での名詞が 
換言可能 
21% 
類似度10位 
までに換言 
可能な名詞 
がない 
31% 
同じ文脈で 
用いられる 
名詞がない 
28% 
200文の換言結果
換言できた例 
入力文 出力文 
オーナーの【承認】が必要になる オーナーの【許可】が必要になる 
重要な【課題】として取り組んでいる 重要な【問題】として取り組んでいる 
良心的な【料金】を提供する 良心的な【価格】を提供する 
国内農業の【発展】を阻害する 国内農業の【成長】を阻害する 
教育の【拡充】などがあげられる 教育の【強化】などがあげられる 
13
同じ文脈の名詞がない例 
14 
• 「畜産加工等の【案件】がある」 
• 文脈に依存する共起の種類が少ない語 
• 前文脈に依存する例が多い 
• 「更新日順表示に【並び】かえる」 
• 複合語の一部は換言できない
適切な換言ができない例 
入力文 換言候補 
① 浴衣にも【洋服】にも合う ドレス、着物、ジーンズ、 
水着、普段着、カジュアル 
② 以上の【評価】を受けている 活動、教育、事業、 
サービス、調査、管理 
①類義語を換言候補に集めることはできるが、 
 上位下位関係の中で適切な階層の語を選択できない 
②句単位の換言が必要 
 【評価を受ける】→【認められる】 
15
まとめ 
• 本研究の目的 
• 文脈の多様性に基づく名詞の換言手法の提案 
• 提案手法の特徴 
• 入力文脈に応じた換言 
• 頻度を使用しない文脈の種類数に基づく換言 
• 今後の課題 
• 上位下位関係の中での語の選択 
• 句単位の換言 16
予告 
JSAI2014@愛媛 
3I4:自然言語処理におけるコーパス・辞書生成 
「文脈の多様性に基づく名詞換言の評価」 
 入力文脈を考慮した制約の有効性 
17 
1  頻度を使わない手法の有効性 
2

Contenu connexe

Tendances

読解支援@2015 06-12
読解支援@2015 06-12読解支援@2015 06-12
読解支援@2015 06-12
sekizawayuuki
 
読解支援@2015 06-05
読解支援@2015 06-05読解支援@2015 06-05
読解支援@2015 06-05
sekizawayuuki
 

Tendances (20)

日本語の語彙的換言知識の質的評価
日本語の語彙的換言知識の質的評価日本語の語彙的換言知識の質的評価
日本語の語彙的換言知識の質的評価
 
統語的曖昧性・普遍性判定問題の決定可能性
統語的曖昧性・普遍性判定問題の決定可能性統語的曖昧性・普遍性判定問題の決定可能性
統語的曖昧性・普遍性判定問題の決定可能性
 
文献紹介:言い換え技術に関する研究動向
文献紹介:言い換え技術に関する研究動向文献紹介:言い換え技術に関する研究動向
文献紹介:言い換え技術に関する研究動向
 
読解支援6 26
読解支援6 26読解支援6 26
読解支援6 26
 
科学技術英語の考え方と学習ツール Mindset and Learning Tools for Scientific English Proficiency
科学技術英語の考え方と学習ツール Mindset and Learning Tools for Scientific English Proficiency科学技術英語の考え方と学習ツール Mindset and Learning Tools for Scientific English Proficiency
科学技術英語の考え方と学習ツール Mindset and Learning Tools for Scientific English Proficiency
 
大規模常識知識ベース構築のための常識表現の自動獲得
大規模常識知識ベース構築のための常識表現の自動獲得大規模常識知識ベース構築のための常識表現の自動獲得
大規模常識知識ベース構築のための常識表現の自動獲得
 
読解支援6 5
読解支援6 5読解支援6 5
読解支援6 5
 
文献紹介:格フレームの対応付けに基づく用言の言い換え
文献紹介:格フレームの対応付けに基づく用言の言い換え文献紹介:格フレームの対応付けに基づく用言の言い換え
文献紹介:格フレームの対応付けに基づく用言の言い換え
 
固有表現抽出について
固有表現抽出について固有表現抽出について
固有表現抽出について
 
読解支援@2015 06-12
読解支援@2015 06-12読解支援@2015 06-12
読解支援@2015 06-12
 
Jsai2021 winter ppt_ota_20211127
Jsai2021 winter ppt_ota_20211127Jsai2021 winter ppt_ota_20211127
Jsai2021 winter ppt_ota_20211127
 
Python nlp handson_20220225_v5
Python nlp handson_20220225_v5Python nlp handson_20220225_v5
Python nlp handson_20220225_v5
 
Logics 18th ota_20211201
Logics 18th ota_20211201Logics 18th ota_20211201
Logics 18th ota_20211201
 
読解支援@2015 06-05
読解支援@2015 06-05読解支援@2015 06-05
読解支援@2015 06-05
 
読解支援@2015 08-10-1
読解支援@2015 08-10-1読解支援@2015 08-10-1
読解支援@2015 08-10-1
 
R015 田原俊司・朴媛叔・伊藤武彦 (1987). 韓国語単文理解における主題助詞と主格助詞の動作主性とその発達:日本語の助詞ハとガとの比較 教育心理学...
R015 田原俊司・朴媛叔・伊藤武彦 (1987). 韓国語単文理解における主題助詞と主格助詞の動作主性とその発達:日本語の助詞ハとガとの比較 教育心理学...R015 田原俊司・朴媛叔・伊藤武彦 (1987). 韓国語単文理解における主題助詞と主格助詞の動作主性とその発達:日本語の助詞ハとガとの比較 教育心理学...
R015 田原俊司・朴媛叔・伊藤武彦 (1987). 韓国語単文理解における主題助詞と主格助詞の動作主性とその発達:日本語の助詞ハとガとの比較 教育心理学...
 
黒い目の大きな女の子:構文から意味へ
黒い目の大きな女の子:構文から意味へ黒い目の大きな女の子:構文から意味へ
黒い目の大きな女の子:構文から意味へ
 
常識表現となり得る用言の自動選定の検討
常識表現となり得る用言の自動選定の検討常識表現となり得る用言の自動選定の検討
常識表現となり得る用言の自動選定の検討
 
自由回答の簡易分析-テキストデータの可視化の一例-
自由回答の簡易分析-テキストデータの可視化の一例-自由回答の簡易分析-テキストデータの可視化の一例-
自由回答の簡易分析-テキストデータの可視化の一例-
 
Wikipedia のエントリーリダイレクト関係を対象にした同義関係抽出
Wikipedia のエントリーリダイレクト関係を対象にした同義関係抽出Wikipedia のエントリーリダイレクト関係を対象にした同義関係抽出
Wikipedia のエントリーリダイレクト関係を対象にした同義関係抽出
 

Plus de 長岡技術科学大学 自然言語処理研究室

Plus de 長岡技術科学大学 自然言語処理研究室 (20)

小学生の読解支援に向けた複数の換言知識を併用した語彙平易化と評価
小学生の読解支援に向けた複数の換言知識を併用した語彙平易化と評価小学生の読解支援に向けた複数の換言知識を併用した語彙平易化と評価
小学生の読解支援に向けた複数の換言知識を併用した語彙平易化と評価
 
小学生の読解支援に向けた語釈文から語彙的換言を選択する手法
小学生の読解支援に向けた語釈文から語彙的換言を選択する手法小学生の読解支援に向けた語釈文から語彙的換言を選択する手法
小学生の読解支援に向けた語釈文から語彙的換言を選択する手法
 
Selecting Proper Lexical Paraphrase for Children
Selecting Proper Lexical Paraphrase for ChildrenSelecting Proper Lexical Paraphrase for Children
Selecting Proper Lexical Paraphrase for Children
 
Automatic Selection of Predicates for Common Sense Knowledge Expression
Automatic Selection of Predicates for Common Sense Knowledge ExpressionAutomatic Selection of Predicates for Common Sense Knowledge Expression
Automatic Selection of Predicates for Common Sense Knowledge Expression
 
用言等換言辞書を用いた換言結果の考察
用言等換言辞書を用いた換言結果の考察用言等換言辞書を用いた換言結果の考察
用言等換言辞書を用いた換言結果の考察
 
用言等換言辞書の構築
用言等換言辞書の構築用言等換言辞書の構築
用言等換言辞書の構築
 
質問意図によるQAサイト質問文の自動分類
質問意図によるQAサイト質問文の自動分類質問意図によるQAサイト質問文の自動分類
質問意図によるQAサイト質問文の自動分類
 
役所からの公的文書に対する「やさしい日本語」への変換システムの構築
役所からの公的文書に対する「やさしい日本語」への変換システムの構築役所からの公的文書に対する「やさしい日本語」への変換システムの構築
役所からの公的文書に対する「やさしい日本語」への変換システムの構築
 
対訳コーパスから生成したワードグラフによる部分的機械翻訳
対訳コーパスから生成したワードグラフによる部分的機械翻訳対訳コーパスから生成したワードグラフによる部分的機械翻訳
対訳コーパスから生成したワードグラフによる部分的機械翻訳
 
用言等換言辞書を人手で作りました
用言等換言辞書を人手で作りました用言等換言辞書を人手で作りました
用言等換言辞書を人手で作りました
 
文字列の出現頻度情報を用いた分かち書き単位の自動取得
文字列の出現頻度情報を用いた分かち書き単位の自動取得文字列の出現頻度情報を用いた分かち書き単位の自動取得
文字列の出現頻度情報を用いた分かち書き単位の自動取得
 
「やさしい日本語」変換システムの試作
「やさしい日本語」変換システムの試作「やさしい日本語」変換システムの試作
「やさしい日本語」変換システムの試作
 
常識表現となり得る用言の自動選定の検討
常識表現となり得る用言の自動選定の検討常識表現となり得る用言の自動選定の検討
常識表現となり得る用言の自動選定の検討
 
動詞意味類型の曖昧性解消に向けた格フレーム情報との関連調査
動詞意味類型の曖昧性解消に向けた格フレーム情報との関連調査動詞意味類型の曖昧性解消に向けた格フレーム情報との関連調査
動詞意味類型の曖昧性解消に向けた格フレーム情報との関連調査
 
二格深層格の定量的分析
二格深層格の定量的分析二格深層格の定量的分析
二格深層格の定量的分析
 
大規模常識知識ベース構築のための常識表現の自動獲得
大規模常識知識ベース構築のための常識表現の自動獲得大規模常識知識ベース構築のための常識表現の自動獲得
大規模常識知識ベース構築のための常識表現の自動獲得
 
保険関連文書を対象とした文章校正支援のための変換誤り検出
保険関連文書を対象とした文章校正支援のための変換誤り検出保険関連文書を対象とした文章校正支援のための変換誤り検出
保険関連文書を対象とした文章校正支援のための変換誤り検出
 
Developing User-friendly and Customizable Text Analyzer
Developing User-friendly and Customizable Text AnalyzerDeveloping User-friendly and Customizable Text Analyzer
Developing User-friendly and Customizable Text Analyzer
 
普通名詞換言辞書の構築
普通名詞換言辞書の構築普通名詞換言辞書の構築
普通名詞換言辞書の構築
 
大規模常識知識ベース構築のための常識表現の自動獲得
大規模常識知識ベース構築のための常識表現の自動獲得大規模常識知識ベース構築のための常識表現の自動獲得
大規模常識知識ベース構築のための常識表現の自動獲得
 

Dernier

Dernier (10)

論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
 
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半        2024/04/26の勉強会で発表されたものです。新人研修 後半        2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。
 
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
 
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
 
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
 
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルLoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
 
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
 
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
 
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイスLoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
 
Utilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native IntegrationsUtilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native Integrations
 

文脈の多様性に基づく名詞換言の提案

  • 2. 背景と目的 国語辞典を用いた換言 [梶原 13] 【語彙平易化】見出し語 → 語釈文中の語 課題1:語釈文の一部では見出し語と非等価 課題2:数語の語釈文では換言候補が少ない → 既存の換言知識に頼らず   大規模コーパスを用いて換言を生成 2
  • 3. 提案手法 コーパスを用いた名詞換言  分布仮説[Harris 54] 似た意味の語は似た文脈で用いられる 1. 入力文と同じ文脈で用いられる名詞を抽出   → 自然な文を出力するための制約 2. 抽出した各換言候補語と文脈の類似度を計算    → 意味を保持するための制約 3
  • 5. 1. 換言候補の収集 「空港へのアクセスを調べる」 「空港への○○」  「○○を調べる」 コーパスを検索して○○を収集 前文脈と後文脈に共通する○○に 換言することで自然な文を出力できる 5
  • 6. 2. 換言先の選択(類似度計算)    換言対象の語と換言候補の語が多くの種類    の文脈を共有するほど換言可能性は高い    換言候補の語が多くの種類の    文脈を持つほど換言可能性は低い 1 2 sim(nt, nc) = com(nt, nc) * log(N/DF(nc)) 1 2  nt:換言対象の名詞、 nc:換言候補の名詞  com(nt, nc):ntとncが共通して用いられる文脈の種類数  N:文脈の総数、 DF(nc):名詞ncが用いられる文脈の種類数 6
  • 7. 提案手法の特徴 • 入力文脈に応じた換言が可能 • 単語の出現頻度を使わない • 換言可能な語とは多くの種類の文脈を共有する • 高頻度の単語に影響を受けない • 頻度の偏りにも影響を受けない → 文脈の多様性に基づく名詞換言の提案 7
  • 8. 関連研究 • [Marton et al. 09] • [Bhagat and Ravichandran 08] 1. コーパス中で換言対象語の 文脈の語から特徴ベクトルを生成する 2. 特徴ベクトル同士のコサイン類似度を 計算し類似度最大の換言候補語へ換言する 8
  • 9. 関連研究 • [Marton et al. 09] • 未知語の換言により機械翻訳の精度を向上 • 文脈の語との共起頻度で特徴ベクトルを作成 • [Bhagat and Ravichandran 08] • 大規模コーパスから換言対を獲得 • 文脈の語とのPMIで特徴ベクトルを作成 9
  • 10. 関連研究 • [Marton et al. 09]:共起頻度 • 重要な文脈:多く共起する文脈 → 単体での出現頻度が高い単語の影響が強い • [Bhagat and Ravichandran 08]:PMI • 重要な文脈:偏って共起する文脈 → 単体での出現頻度が低い単語の影響が強い 10
  • 11. 実験 • Web日本語Nグラム:1,365,705件を抽出 • 名詞 + … + 名詞 + … + 動詞原形 • このうち頻出の200件について実験 • 文頭ではない名詞が換言対象の名詞 • 京都大学格フレーム:文脈の類似度計算 • 述語:34,059語 • 名詞:824,639語 • 【荷物を積む】と【経験を積む】を区別できる 11
  • 12. 評価 12 類似度1位 の名詞が換 言可能 20% 類似度2位 から10位ま での名詞が 換言可能 21% 類似度10位 までに換言 可能な名詞 がない 31% 同じ文脈で 用いられる 名詞がない 28% 200文の換言結果
  • 13. 換言できた例 入力文 出力文 オーナーの【承認】が必要になる オーナーの【許可】が必要になる 重要な【課題】として取り組んでいる 重要な【問題】として取り組んでいる 良心的な【料金】を提供する 良心的な【価格】を提供する 国内農業の【発展】を阻害する 国内農業の【成長】を阻害する 教育の【拡充】などがあげられる 教育の【強化】などがあげられる 13
  • 14. 同じ文脈の名詞がない例 14 • 「畜産加工等の【案件】がある」 • 文脈に依存する共起の種類が少ない語 • 前文脈に依存する例が多い • 「更新日順表示に【並び】かえる」 • 複合語の一部は換言できない
  • 15. 適切な換言ができない例 入力文 換言候補 ① 浴衣にも【洋服】にも合う ドレス、着物、ジーンズ、 水着、普段着、カジュアル ② 以上の【評価】を受けている 活動、教育、事業、 サービス、調査、管理 ①類義語を換言候補に集めることはできるが、  上位下位関係の中で適切な階層の語を選択できない ②句単位の換言が必要  【評価を受ける】→【認められる】 15
  • 16. まとめ • 本研究の目的 • 文脈の多様性に基づく名詞の換言手法の提案 • 提案手法の特徴 • 入力文脈に応じた換言 • 頻度を使用しない文脈の種類数に基づく換言 • 今後の課題 • 上位下位関係の中での語の選択 • 句単位の換言 16
  • 17. 予告 JSAI2014@愛媛 3I4:自然言語処理におけるコーパス・辞書生成 「文脈の多様性に基づく名詞換言の評価」  入力文脈を考慮した制約の有効性 17 1  頻度を使わない手法の有効性 2