SlideShare une entreprise Scribd logo
1  sur  15
Télécharger pour lire hors ligne
テキスト平易化コーパスの構築指針
首都大学東京
D1 梶原智之
自己紹介
•  梶原智之(かじわらともゆき)
–  https://sites.google.com/site/moguranosenshi/
•  学歴
– 新居浜工業高等専門学校(愛媛:高校+2年)
– 長岡技術科学大学(新潟:B3 M2)
– 首都大学東京(東京:今年からD1)
•  研究分野
– 言い換え(修士までは特に語彙的換言)
– テキスト簡単化(修士までは特に語彙平易化)
2
修士:文章読解支援のための語彙平易化
•  Tomoyuki Kajiwara, Kazuhide Yamamoto. Evaluation
Dataset and System for Japanese Lexical Simplification.
In Proceedings of the ACL-IJCNLP 2015 Student
Research Workshop, pp.35-40. Beijing, China, 2015.
•  梶原智之, 山本和英. 日本語の語彙平易化評価セットの構築. 言
語処理学会第21回年次大会, pp.501-504, 2015.
•  梶原智之, 山本和英. 日本語の語彙平易化システムの構築. 情報
処理学会第77回全国大会講演論文集, pp.167-168, 2015.
•  梶原智之, 山本和英. 語釈文を用いた小学生のための語彙平易
化. 情報処理学会論文誌, Vol.56, No.3, pp.983-992, 2015.
3
大量・多様なテキストデータ
子ども 外国人 高齢者
語彙平易化
アクセスは容易
理解も容易に!四国に赴く おググりください
  ↓      ↓
四国に行く  調べてください
4
語彙平易化システム
5
言い換えの生成
担う: 支える,引継ぐ,受け継ぐ,伝承する
難解語の検出
担う
語義曖昧性解消
担う: 支える, 受け継ぐ
平易な順にランキング
1: 支える, 2: 受け継ぐ, 3: 担う
入力文
未来は若者が担う
出力文
未来は若者が支える
語彙平易化の評価のためのデータセット
1. 語彙的換言の評価のためのデータセットの構築
 ・言い換え候補の獲得  (クラウドソーシング)
 ・適切な言い換えの選択 (クラウドソーシング)
2. 語彙平易化の評価のためのデータセットに変換
 ・平易な順にランキング (クラウドソーシング)
 ・複数人アノテータのランキングを統合
 例: 未来は若者が担う
   語彙的換言: 受け継ぐ, 支える
   平易ランク: 1. 支える, 2. 受け継ぐ, 3. 担う
6
博士:テキスト平易化( 語彙平易化)
•  語彙の平易化:
高騰する → 値段が上がる
•  構文の平易化:
喜ばない人はいない → 全ての人が喜ぶ
•  説明文生成:
渋滞(道路が混んで、車があまり進ま
ないこと)の原因のひとつになります
7
テキスト平易化コーパス
•  日本語学習者のために、
– どのような構文の平易化が必要であるか?
– どのような語や句は言い換えで平易化できて、
どのような語や句は説明文生成が必要であるか?
•  コーパス構築の手順
1.  一般向けのテキストを日本語教師が平易に書き換える
2.  それぞれの基本的な書き換え作業にラベルを付与して、
日本語のテキスト平易化のパターンを列挙する
3.  10万文を目標に大規模にコーパスを構築する
8
•  複雑な問題は、解けた場合も解けなかった場合も、その理由の説明が困難
•  複雑な問題を「基本的な言い換えや含意関係の連鎖」として書き下す
–  Mark Sammons, V.G.Vinod Vydiswaran and Dan Roth. Ask not
what Textual Entailment can do for You.... In Proceedings of the
48th Annual Meeting of the Association for Computational
Linguistics, pp.1199‒1208, 2010.
–  Kimi Kaneko, Yusuke Miyao, Daisuke Bekki. Building Japanese
Textual Entailment Specialized Data Sets for Inference of Basic
Sentence Relations. In Proceedings of the 51th Annual Meeting
of the Association for Computational Linguistics, pp.273-277,
2013.
–  藤田篤, 柴田知秀, 松吉俊, 渡邉陽太郎, 梶原智之. 言い換え認識技術の評
価に適した言い換えコーパスの構築指針. 言語処理学会第21回年次大会
ワークショップ「自然言語処理におけるエラー分析」発表論文集,
2015.
先行研究
9
コーパス構築指針を検討
•  NEWS WEB EASY @NHK
–  一般向けのニュース
–  日本語学習者向けに平易に書き換えたニュース
–  (日本語教師による書き換え作業に相当)
•  基本的な言い換えの連鎖として書き下す
•  それぞれの書き換え作業にラベルを付与
10
•  アニメや絵本などで人気の「アンパンマン」のシリーズで知ら
れる漫画家のやなせたかしさんが13日、心不全のため東京都
内の病院で亡くなりました。, difficult
•  アニメーションや絵本などで人気の「アンパンマン」のシリー
ズで知られる漫画家のやなせたかしさんが13日、心不全のた
め東京都内の病院で亡くなりました。, 略記の展開
•  アニメーションや絵本などで人気の「アンパンマン」を描いた
漫画家のやなせたかしさんが13日、心不全のため東京都内の
病院で亡くなりました。, 含意
•  アニメーションや絵本などで人気の「アンパンマン」を描いた
漫画家のやなせたかしさんが、心不全のため東京都内の病院で
亡くなりました。, 数値の省略
11
書き換え作業へのラベル付与の例
•  アニメーションや絵本などで人気の「アンパンマン」を描いた
漫画家のやなせたかしさんが心不全のため東京都内の病院で亡
くなりました。, 読点の削除
•  アニメーションや絵本などで人気の「アンパンマン」を描いた
漫画家のやなせたかしさんが東京都内の病院で亡くなりまし
た。, 理由の省略
•  アニメーションや絵本などで人気の「アンパンマン」を描いた
漫画家のやなせたかしさんが亡くなりました。, 場所の省略
•  アニメーションや絵本などで人気の「アンパンマン」を描いた
漫画家のやなせたかしさんが亡くなりました。, simple
12
書き換え作業へのラベル付与の例
•  アニメや絵本などで人気の「アンパンマン」のシ
リーズで知られる漫画家のやなせたかしさんが13
日、心不全のため東京都内の病院で亡くなりまし
た。(difficult)
•  アニメーションや絵本などで人気の「アンパンマ
ン」を描いた漫画家のやなせたかしさんが亡くな
りました。(simple)
•  略記の展開 + 含意 + 数値の省略 + 読点の削除 +
理由の省略 + 場所の省略(6段階の書き換え)
13
書き換え作業へのラベル付与の例
平易化のパターン 頻度 平易化のパターン 頻度 平易化のパターン 頻度
機能表現の言い換え 31 上位語への置換 6 数量詞の言い換え 2
動詞の言い換え 23 場所の省略 6 並列要素の省略 2
節の省略 22 主題の交替 6 略記の展開 2
句の省略 22 節の挿入 5 理由の省略 2
句の挿入 18 態の交替 5 「の」の明示/暗示 2
名詞句の言い換え 16 常体と敬体の言い換え 4 異表記 2
含意 15 副詞の言い換え 4 形容動詞句の言い換え 1
動詞句の言い換え 14 説明の挿入 4 共参照表現による置換 1
読点の挿入 14 主語の補完 4 形容詞の言い換え 1
読点の削除 14 語の挿入 4 下位語への置換 1
名詞の言い換え 13 記号の削除 3 連体修飾節化 1
語順の交替 13 数値の省略 3 数値の挿入 1
文分割 11 主語の省略 3 括弧の挿入 1
語の省略 10 文法カテゴリを変える言い換え 2 人名の省略 1
14
平易化のパターン
今後の方針
•  現在は5記事の分析
•  もっと大規模に分析し、平易化のパターンを列挙
•  アノテーションマニュアルを作成( 9月)
•  日本語教師を募集(9月 )
– 日本語学習者向けの書き換え作業
– 書き換え作業へのラベル付与
•  今年度は1万文規模でコーパスを構築する予定
•  来年度以降で、10万文規模まで拡張する予定
15

Contenu connexe

Tendances

Tendances (20)

自然言語処理における意味解析と意味理解
自然言語処理における意味解析と意味理解自然言語処理における意味解析と意味理解
自然言語処理における意味解析と意味理解
 
おーぷん万葉プロジェクトの進捗とIzumoのその後
おーぷん万葉プロジェクトの進捗とIzumoのその後おーぷん万葉プロジェクトの進捗とIzumoのその後
おーぷん万葉プロジェクトの進捗とIzumoのその後
 
DeepLearning 中心に見る最近の論文事情
DeepLearning 中心に見る最近の論文事情DeepLearning 中心に見る最近の論文事情
DeepLearning 中心に見る最近の論文事情
 
子供の言語獲得と機械の言語獲得
子供の言語獲得と機械の言語獲得子供の言語獲得と機械の言語獲得
子供の言語獲得と機械の言語獲得
 
Tensorflowで言語識別をやってみた
Tensorflowで言語識別をやってみたTensorflowで言語識別をやってみた
Tensorflowで言語識別をやってみた
 
京都発祥日本語入力「FreeWnn」は(今度こそ)どこまで賢くなれるか?
京都発祥日本語入力「FreeWnn」は(今度こそ)どこまで賢くなれるか?京都発祥日本語入力「FreeWnn」は(今度こそ)どこまで賢くなれるか?
京都発祥日本語入力「FreeWnn」は(今度こそ)どこまで賢くなれるか?
 
ホットな日本語入力技術のお勉強。〜 OSC 2016 Hamanako 編 〜
ホットな日本語入力技術のお勉強。〜 OSC 2016 Hamanako 編 〜ホットな日本語入力技術のお勉強。〜 OSC 2016 Hamanako 編 〜
ホットな日本語入力技術のお勉強。〜 OSC 2016 Hamanako 編 〜
 
自然言語処理
自然言語処理自然言語処理
自然言語処理
 
TensorFlowをざっくりLTしてみた
TensorFlowをざっくりLTしてみたTensorFlowをざっくりLTしてみた
TensorFlowをざっくりLTしてみた
 
内省するTensorFlow
内省するTensorFlow内省するTensorFlow
内省するTensorFlow
 
日本語の語彙平易化システムの構築
日本語の語彙平易化システムの構築日本語の語彙平易化システムの構築
日本語の語彙平易化システムの構築
 
【FIT2016チュートリアル】ここから始める情報処理 ~音声編~ by 東工大・篠崎先生
【FIT2016チュートリアル】ここから始める情報処理 ~音声編~ by 東工大・篠崎先生【FIT2016チュートリアル】ここから始める情報処理 ~音声編~ by 東工大・篠崎先生
【FIT2016チュートリアル】ここから始める情報処理 ~音声編~ by 東工大・篠崎先生
 
Nginxで日本語入力を遊んでみよう!
Nginxで日本語入力を遊んでみよう!Nginxで日本語入力を遊んでみよう!
Nginxで日本語入力を遊んでみよう!
 
J-LIWC2015の紹介
J-LIWC2015の紹介J-LIWC2015の紹介
J-LIWC2015の紹介
 
自然言語処理概要
自然言語処理概要自然言語処理概要
自然言語処理概要
 
ホットな日本語技術の(ちょっとした)お勉強。
ホットな日本語技術の(ちょっとした)お勉強。ホットな日本語技術の(ちょっとした)お勉強。
ホットな日本語技術の(ちょっとした)お勉強。
 
説明会資料
説明会資料説明会資料
説明会資料
 
2015LETシンポジウム コーパス構築について
2015LETシンポジウム コーパス構築について2015LETシンポジウム コーパス構築について
2015LETシンポジウム コーパス構築について
 
Wikibana20100612
Wikibana20100612Wikibana20100612
Wikibana20100612
 
Arithmer NLP Introduction
Arithmer NLP IntroductionArithmer NLP Introduction
Arithmer NLP Introduction
 

En vedette

Incorporating word reordering knowledge into attention-based neural machine t...
Incorporating word reordering knowledge into attention-based neural machine t...Incorporating word reordering knowledge into attention-based neural machine t...
Incorporating word reordering knowledge into attention-based neural machine t...
sekizawayuuki
 

En vedette (7)

文章読解支援のための語彙平易化
文章読解支援のための語彙平易化文章読解支援のための語彙平易化
文章読解支援のための語彙平易化
 
文献紹介:Simple English Wikipedia: A New Text Simplification Task
文献紹介:Simple English Wikipedia: A New Text Simplification Task文献紹介:Simple English Wikipedia: A New Text Simplification Task
文献紹介:Simple English Wikipedia: A New Text Simplification Task
 
Evaluation Dataset and System for Japanese Lexical Simplification
Evaluation Dataset and System for Japanese Lexical SimplificationEvaluation Dataset and System for Japanese Lexical Simplification
Evaluation Dataset and System for Japanese Lexical Simplification
 
高頻度語は平易なのか?
高頻度語は平易なのか?高頻度語は平易なのか?
高頻度語は平易なのか?
 
Incorporating word reordering knowledge into attention-based neural machine t...
Incorporating word reordering knowledge into attention-based neural machine t...Incorporating word reordering knowledge into attention-based neural machine t...
Incorporating word reordering knowledge into attention-based neural machine t...
 
単語分散表現のアライメントに基づく文間類似度を用いたテキスト平易化のための単言語パラレルコーパスの構築
単語分散表現のアライメントに基づく文間類似度を用いたテキスト平易化のための単言語パラレルコーパスの構築単語分散表現のアライメントに基づく文間類似度を用いたテキスト平易化のための単言語パラレルコーパスの構築
単語分散表現のアライメントに基づく文間類似度を用いたテキスト平易化のための単言語パラレルコーパスの構築
 
Noun Paraphrasing Based on a Variety of Contexts
Noun Paraphrasing Based on a Variety of ContextsNoun Paraphrasing Based on a Variety of Contexts
Noun Paraphrasing Based on a Variety of Contexts
 

Similaire à joint_seminar

20120731 ALC Eijiro User Meeting
20120731 ALC Eijiro User Meeting20120731 ALC Eijiro User Meeting
20120731 ALC Eijiro User Meeting
akikom0819
 
さくさくテキストマイニング入門セッション
さくさくテキストマイニング入門セッションさくさくテキストマイニング入門セッション
さくさくテキストマイニング入門セッション
antibayesian 俺がS式だ
 
Phrase Reading Worksheetと種々の副教材を使った授業設計 教室内学力格差への対応を目指して
Phrase Reading Worksheetと種々の副教材を使った授業設計 教室内学力格差への対応を目指してPhrase Reading Worksheetと種々の副教材を使った授業設計 教室内学力格差への対応を目指して
Phrase Reading Worksheetと種々の副教材を使った授業設計 教室内学力格差への対応を目指して
Kenichi Kamiya
 
言語資源と付き合う
言語資源と付き合う言語資源と付き合う
言語資源と付き合う
Yuya Unno
 

Similaire à joint_seminar (20)

言語と知識の深層学習@認知科学会サマースクール
言語と知識の深層学習@認知科学会サマースクール言語と知識の深層学習@認知科学会サマースクール
言語と知識の深層学習@認知科学会サマースクール
 
[修論発表会資料] 目的言語の文書文脈を用いたニューラル機械翻訳
[修論発表会資料] 目的言語の文書文脈を用いたニューラル機械翻訳[修論発表会資料] 目的言語の文書文脈を用いたニューラル機械翻訳
[修論発表会資料] 目的言語の文書文脈を用いたニューラル機械翻訳
 
日本語の語彙平易化評価セットの構築
日本語の語彙平易化評価セットの構築日本語の語彙平易化評価セットの構築
日本語の語彙平易化評価セットの構築
 
20120731 ALC Eijiro User Meeting
20120731 ALC Eijiro User Meeting20120731 ALC Eijiro User Meeting
20120731 ALC Eijiro User Meeting
 
文章を構成する過程を測定するジグソー・テキストの開発
文章を構成する過程を測定するジグソー・テキストの開発文章を構成する過程を測定するジグソー・テキストの開発
文章を構成する過程を測定するジグソー・テキストの開発
 
国語辞典を使った放送ニュースの名詞の平易化
国語辞典を使った放送ニュースの名詞の平易化国語辞典を使った放送ニュースの名詞の平易化
国語辞典を使った放送ニュースの名詞の平易化
 
Pythonを含む多くのプログラミング言語を扱う処理フレームワークとパターン、鷲崎弘宜、PyConJP 2016 招待講演
Pythonを含む多くのプログラミング言語を扱う処理フレームワークとパターン、鷲崎弘宜、PyConJP 2016 招待講演Pythonを含む多くのプログラミング言語を扱う処理フレームワークとパターン、鷲崎弘宜、PyConJP 2016 招待講演
Pythonを含む多くのプログラミング言語を扱う処理フレームワークとパターン、鷲崎弘宜、PyConJP 2016 招待講演
 
科学技術英語の考え方と学習ツール Mindset and Learning Tools for Scientific English Proficiency
科学技術英語の考え方と学習ツール Mindset and Learning Tools for Scientific English Proficiency科学技術英語の考え方と学習ツール Mindset and Learning Tools for Scientific English Proficiency
科学技術英語の考え方と学習ツール Mindset and Learning Tools for Scientific English Proficiency
 
All-but-the-Top: Simple and Effective Postprocessing for Word Representations
All-but-the-Top: Simple and Effective Postprocessing for Word RepresentationsAll-but-the-Top: Simple and Effective Postprocessing for Word Representations
All-but-the-Top: Simple and Effective Postprocessing for Word Representations
 
COLING2014 読み会@小町研 “Morphological Analysis for Japanese Noisy Text Based on C...
COLING2014 読み会@小町研 “Morphological Analysis for Japanese Noisy Text Based on C...COLING2014 読み会@小町研 “Morphological Analysis for Japanese Noisy Text Based on C...
COLING2014 読み会@小町研 “Morphological Analysis for Japanese Noisy Text Based on C...
 
サポーターズ勉強会スライド 2018/2/27
サポーターズ勉強会スライド 2018/2/27サポーターズ勉強会スライド 2018/2/27
サポーターズ勉強会スライド 2018/2/27
 
さくさくテキストマイニング入門セッション
さくさくテキストマイニング入門セッションさくさくテキストマイニング入門セッション
さくさくテキストマイニング入門セッション
 
第3回 京都外国語大学 日本語・日本語
第3回 京都外国語大学 日本語・日本語第3回 京都外国語大学 日本語・日本語
第3回 京都外国語大学 日本語・日本語
 
Phrase Reading Worksheetと種々の副教材を使った授業設計 教室内学力格差への対応を目指して
Phrase Reading Worksheetと種々の副教材を使った授業設計 教室内学力格差への対応を目指してPhrase Reading Worksheetと種々の副教材を使った授業設計 教室内学力格差への対応を目指して
Phrase Reading Worksheetと種々の副教材を使った授業設計 教室内学力格差への対応を目指して
 
Automatic Summarization
Automatic SummarizationAutomatic Summarization
Automatic Summarization
 
言語資源と付き合う
言語資源と付き合う言語資源と付き合う
言語資源と付き合う
 
日本語機能表現の自動検出と統計的係り受け解析への応用
日本語機能表現の自動検出と統計的係り受け解析への応用日本語機能表現の自動検出と統計的係り受け解析への応用
日本語機能表現の自動検出と統計的係り受け解析への応用
 
Variational Template Machine for Data-to-Text Generation
Variational Template Machine for Data-to-Text GenerationVariational Template Machine for Data-to-Text Generation
Variational Template Machine for Data-to-Text Generation
 
2012 09-25-sig-ifat
2012 09-25-sig-ifat2012 09-25-sig-ifat
2012 09-25-sig-ifat
 
ニューラル機械翻訳の動向@IBIS2017
ニューラル機械翻訳の動向@IBIS2017ニューラル機械翻訳の動向@IBIS2017
ニューラル機械翻訳の動向@IBIS2017
 

Plus de Tomoyuki Kajiwara

Plus de Tomoyuki Kajiwara (17)

20190315 nlp
20190315 nlp20190315 nlp
20190315 nlp
 
20180208公聴会
20180208公聴会20180208公聴会
20180208公聴会
 
文献紹介:SemEval-2012 Task 1: English Lexical Simplification
文献紹介:SemEval-2012 Task 1: English Lexical Simplification文献紹介:SemEval-2012 Task 1: English Lexical Simplification
文献紹介:SemEval-2012 Task 1: English Lexical Simplification
 
文献紹介:新聞記事中の難解語を平易な表現へ変換する手法の提案
文献紹介:新聞記事中の難解語を平易な表現へ変換する手法の提案文献紹介:新聞記事中の難解語を平易な表現へ変換する手法の提案
文献紹介:新聞記事中の難解語を平易な表現へ変換する手法の提案
 
文献紹介:格フレームの対応付けに基づく用言の言い換え
文献紹介:格フレームの対応付けに基づく用言の言い換え文献紹介:格フレームの対応付けに基づく用言の言い換え
文献紹介:格フレームの対応付けに基づく用言の言い換え
 
文献紹介:言い換え技術に関する研究動向
文献紹介:言い換え技術に関する研究動向文献紹介:言い換え技術に関する研究動向
文献紹介:言い換え技術に関する研究動向
 
日本語の語彙平易化評価セットの構築
日本語の語彙平易化評価セットの構築日本語の語彙平易化評価セットの構築
日本語の語彙平易化評価セットの構築
 
日本語の語彙的換言知識の質的評価
日本語の語彙的換言知識の質的評価日本語の語彙的換言知識の質的評価
日本語の語彙的換言知識の質的評価
 
文脈の多様性に基づく名詞換言の評価
文脈の多様性に基づく名詞換言の評価文脈の多様性に基づく名詞換言の評価
文脈の多様性に基づく名詞換言の評価
 
文脈の多様性に基づく名詞換言の提案
文脈の多様性に基づく名詞換言の提案文脈の多様性に基づく名詞換言の提案
文脈の多様性に基づく名詞換言の提案
 
機械学習を用いたニ格深層格の自動付与の検討
機械学習を用いたニ格深層格の自動付与の検討機械学習を用いたニ格深層格の自動付与の検討
機械学習を用いたニ格深層格の自動付与の検討
 
Selecting Proper Lexical Paraphrase for Children
Selecting Proper Lexical Paraphrase for ChildrenSelecting Proper Lexical Paraphrase for Children
Selecting Proper Lexical Paraphrase for Children
 
小学生の読解支援に向けた語釈文から語彙的換言を選択する手法
小学生の読解支援に向けた語釈文から語彙的換言を選択する手法小学生の読解支援に向けた語釈文から語彙的換言を選択する手法
小学生の読解支援に向けた語釈文から語彙的換言を選択する手法
 
小学生の読解支援に向けた複数の換言知識を併用した語彙平易化と評価
小学生の読解支援に向けた複数の換言知識を併用した語彙平易化と評価小学生の読解支援に向けた複数の換言知識を併用した語彙平易化と評価
小学生の読解支援に向けた複数の換言知識を併用した語彙平易化と評価
 
小学生の読解支援に向けた語釈文による換言
小学生の読解支援に向けた語釈文による換言小学生の読解支援に向けた語釈文による換言
小学生の読解支援に向けた語釈文による換言
 
対話型自動作曲システムに関する研究 -Aメロ, Bメロ, サビで異なる印象を感じさせる楽曲生成-
対話型自動作曲システムに関する研究 -Aメロ, Bメロ, サビで異なる印象を感じさせる楽曲生成-対話型自動作曲システムに関する研究 -Aメロ, Bメロ, サビで異なる印象を感じさせる楽曲生成-
対話型自動作曲システムに関する研究 -Aメロ, Bメロ, サビで異なる印象を感じさせる楽曲生成-
 
IGAを用いた個人の感性を反映した楽曲作成に関する研究 -Aメロ, Bメロ, サビに異なる感性的印象を感じさせる楽曲生成手法-
IGAを用いた個人の感性を反映した楽曲作成に関する研究 -Aメロ, Bメロ, サビに異なる感性的印象を感じさせる楽曲生成手法-IGAを用いた個人の感性を反映した楽曲作成に関する研究 -Aメロ, Bメロ, サビに異なる感性的印象を感じさせる楽曲生成手法-
IGAを用いた個人の感性を反映した楽曲作成に関する研究 -Aメロ, Bメロ, サビに異なる感性的印象を感じさせる楽曲生成手法-
 

joint_seminar