SlideShare une entreprise Scribd logo
1  sur  43
対話テキストの自動要約
2017/03/01
Masahiro Yamamoto
自己紹介
● 山本 眞大
● 慶應 D2 (2015年9月入学)
● 2016年8月〜9月: 株式会社Preferred Infrastructureで
インターンシップ
(コールセンター対話の自動要約)
目次
1. はじめに
2. 要約の代表的な手法
3. 対話要約特有の問題
4. 評価方法
5. 対話要約の実際
6. おわりに
対話の自動要約に
関するサーベイ
1. はじめに
今日の話
● 対話テキストの自動要約に関するサーベイ
○ 要約の代表的な手法
○ 対話要約特有の問題
○ 評価方法
● 対話要約の実際
● 深層学習系の話はしません
1. はじめに
対話データ処理への関心
● SIGDIAL2015, Special Session, Multiing 2015
○ オンラインフォーラム、コールセンターの要約
● ACL2016, 3rd Workshp on Argument Mining
○ 議論データに関するWorkshop
○ 要約に関して2件の発表 [1, 2]
● COLING2016, Invited talk4
○ A Look at Computational Argumentation and Summarisation from a Text-Understanding Perspective
[1] Barker et al., "Summarizing Multi-Party Argumentative Conversations in Reader Comment on News", in Proc of 3rd Workshop on Argument Mining, 2016.
[2] Egan et al., Summarizng the points made in online politial deates", in Proc of 3rd Workshop on Argument Mining, 2016.
2. 要約の代表的な手法
● 対話要約 (今回の対象)
○ 複数の話者による対話から成り立っている
テキスト (音声) の要約
○ 例:コールセンター、会議
● 非対話要約
○ 対話が存在しないテキストの要約
○ 例:ニュース記事、文献
2. 要約の代表的な手法
● 対話要約手法
○ 大部分の研究は非対話要約の手法を利用 [3]
→ 2章では、テキスト要約の代表的な手法を説明
● テキスト要約に関する分かりやすいスライド
○ 西川先生のスライド [4]
○ yamao357様のスライド [5]
[3] Nenkova et al., "Automatic Summarization", Foundations and Trends in Information Retrieval, Vol 5, No 2-3, pp. 103-233, 2011.
[4] http://www.slideshare.net/hitoshin/automatic-summarization
[5] https://rpubs.com/yamano357/27317
2. 要約の代表的な手法
要約の大分類 [4]
1. 要約の使い方
○ 指示的 / 報知的
1. 必要な情報の指定
○ クエリ依存 / クエリ非依存
1. 入力文書の数
○ 単一 / 複数
1. 要約を作る方法
○ 抽出型要約 / 生成型要約
● 指示的: 原文書を読むべきか判断する
ための要約
e.g. 新聞の見出し、スニペット
● 報知的: 原文書の代わりとする要約
e.g. ニュース番組の字幕
2. 要約の代表的な手法
今回の話
1. 要約の使い方
○ 指示的 / 報知的
1. 必要な情報の指定
○ クエリ依存 / クエリ非依存
1. 入力文書の数
○ 単一 / 複数
1. 要約を作る方法
○ 抽出型要約 / 生成型要約
2. 要約の代表的な手法
入出力
● 入力:原文書、要約文字数
● 出力:要約された文書
2. 要約の代表的な手法
要約手法
● 様々な手法が存在
● 整数計画問題 (ILP) として定式化する手法を説明
○ 線形計画問題:目的関数と制約条件が1次式で
表される最適化問題
○ 整数計画問題:線形計画問題において解が整数と
なるような問題
2. 要約の代表的な手法
整数計画問題の例: ナップザック問題
● 価値を最大化したい
● 制約: リュックの容量
● どのように選べば良いか?
● 整数計画問題として解ける
出典: ナップザック問題 Wikipedia
2. 要約の代表的な手法
ナップザック問題に落とし込む
● 物の価値 = 文のスコア
● 物の重さ = 文の長さ
● リュックの容量 = 要約文字数
文のスコアはどうする?
→ 文中の各単語のTFIDF値の総和 など 出典: ナップザック問題 Wikipedia
文1
文5
文4
文3
文2
2. 要約の代表的な手法
網羅性を向上
● 最大被覆問題に落とし込む [6]
○ 同じ内容が繰り返し述べられても
スコアを増加させない
○ 上記の条件を満たすように目的関数、制約条件を設定
[6] 高村ら, "最大被覆問題とその変種による文書要約モデル", 人工知能学会論文誌, 2008.
2. 要約の代表的な手法
文短縮
● 文抽出と文短縮の同時モデル [7]
○ 各単語毎にスコアリング
○ 係り受け関係を保持したまま要約を作成
○ 係り受け関係は制約条件として記述
[7] 富田ら, "重要文抽出と文圧縮を組み合わせた新たな抽出的要約手法", 情報処理学会研究報告, 2009.
2. 要約の代表的な手法
談話構造の考慮
● 入れ子依存木の刈り込みによる要約生成 [8]
○ 係り受け関係、談話関係を保持したまま要約を作成
○ 一貫性を保ちつつ、要約長に柔軟な要約が生成可能
○ 制約条件として上記を記述
[8] 菊池ら, "入れ子依存木の刈り込みによる単一文書要約", 自然言語処理, 2015.
2. 要約の代表的な手法
ILPとして定式化している論文 [9-13]
[9] Automatic Summarization of Student Course Feedback, NAACL-HLT 2016.
[10]Generating Coherent Summaries of Scientific Articles Using Coherence Patterns,
EMNLP 2016.
[11] Exploring Text Links for Coherent Multi-Document Summarization, COLING
2016.
[12] Optimizing an Approximation of ROUGE – a Problem-Reduction Approach to
Extractive Multi-Document Summarization, ACL 2016.
[13] Learning-Based Single-Document Summarization with Compression and
Anaphoricity Constraints, ACL 2016.
2. 要約の代表的な手法
ILP以外の要約手法 1
● PageRankアルゴリズムの利用 [14]
○ 各文をノードとして表現
○ 各文の類似度をエッジの重みとして表現
○ HITSアルゴリズムにより各文の重要度を計算
[14] Erkan et al., "LexRank: Graph-based Lexical Centrality as Salience in Text Summarization", Journal of Artificial Intelligence Research, 2004.
2. 要約の代表的な手法
ILP以外の要約手法 2
● MMR (Maximal Marginal Relevance) [15]
○ スコアの高い文から順番に選択
○ 1文選ばれる毎に各文のスコアを更新
○ 既に選ばれている文と似ている文のスコアを小さく
→ 網羅性が向上
[15] Goldstein et al., "Multi-document Summarization by Sentence Extraction", in Proc of the 2000 NAALP-ANLP Workshop on Automatic Summarization , 2000.
2. 要約の代表的な手法
ILP以外の要約手法 3
● 教師あり学習
○ 前提: 各文に "要約に含まれる" or "含まれない" のラベル
○ うまく分類できるように学習
○ 特徴量の選択方法
■ 文の長さ、スコア、位置 ... etc
○ 分類器
■ SVM、多層パーセプトロン ... etc
2. 要約の代表的な手法
抽出型要約研究の焦点
● 網羅性
○ 原文書の重要な内容を網羅すること
● 一貫性
○ 原文書の談話構造 (論理構造) を保持すること
○ 文と文の大域的な関係を考慮
● トレンドは "網羅性" → "一貫性"
※網羅性に着目した研究もまだまだ現役 [16]
[16] Ren et al., "A Redundancy-Aware Sentence Regression Framework for Extractive Summarization", COLING, 2016.
3. 対話要約特有の問題
2章の技術を適用することで要約が可能
● TFIDFを基にスコアリング + ナップザック問題として解く
● HITSアルゴリズムによるスコアリング + ナップザック
● MMRを用いて要約生成
● (学習データが充分にあれば) 教師あり学習として解く
→ 対話要約特有の問題は?
3. 対話要約特有の問題
対話要約における3つの問題 [17]
1. 自動音声認識 (ASR) 誤りの問題
○ 音声認識のエラー
1. Disfluencyの問題
○ Filled Pauses (遊び言葉: uh, um, well ...)
○ Repetisions (繰り返し)
1. 抽出単位の問題
○ 質問と回答の一貫性
[17] Nenkova et al., "Automatic Summarization", Foundations and Trends in Information Retrieval, Vol 5, No 2-3, pp. 103-233, 2011.
3. 対話要約特有の問題
1. 自動音声認識 (ASR) 誤りの問題
○ 10% - 40%程度の音声認識誤り [18]
○ AMI Meeting Corpus [19] の例
■ 人手書き起こし
"You look quite funny at the moment, Tim."
■ ASRの結果
"Great can implement that I"
[18] Glass et al., "Recent progress in the MIT spoken lecture processing project", in Proceedings of the Annual Conference of the International Speech Communication
Association, pp. 2553–2556, 2007.
[19] http://groups.inf.ed.ac.uk/ami/corpus/
3. 対話要約特有の問題
2. Disfluencyの問題 (Filled Pauses and Repetitions)
○ Filled Pauses: uh, um, well ... などの遊び言葉
○ Repetitions: 同じ言葉が繰り返される
○ 全体の15 - 25%程度存在する [20]
○ 具体例
A: well I um I think we should discuss this you know with
her.
A’: I think we should discuss this with her.
[20] Zechner et al., "Summarization of spoken language - challenges, methods, and prospects,” Speech Technology Expert eZine, 2002.
3. 対話要約特有の問題
2. Disfluencyの問題 (Filled Pauses and Repetitions)
○ Disfluencyの削除だけで1つの研究分野 [21-23]
○ 特徴量の1つとして利用 [24]
■ Disfluencyが存在する文は重要であるという仮説
■ ROUGE値の向上は1%未満
[21] Johnson et al., “A TAG-based noisy-channel model of speech repairs,” ACL, 2004.
[22] Miller et al., “A syntactic time-series model for parsing fluent and disfluent speech,” in Proceedings of the International Conference on Computational Linguistic,
pp. 569–576, 2008.
[23] Stolcke et al., “Statistical language modeling for speech disfluencies,” in Proceedings of the IEEE International Conference on Acoustics, Speech and Signal
Processing, pp. 405–408, 1996.
[24] Zhu et al., “Summarization of spontaneous conversations,” in Proceedings of the Annual Conference of the International Speech Communication Association,
pp. 1531–1534, 2006.
3. 対話要約特有の問題
3. 抽出単位の問題 (質問と回答の一貫性)
○ 質問とそれに対する回答を一緒に抽出したい
○ もし一緒に抽出できないと ... ?
A: どこに住んでいますか?
B: 東京です。
A: 出身はどこですか?
B: 北海道です。
A: どこに住んでいますか?
B: 北海道です。
原文書 要約
3. 対話要約特有の問題
3. 抽出単位の問題 (質問と回答の一貫性)
○ ヒューリスティックルールで同定 [25]
■ 初めてこの問題について言及した論文
■ F1-scoreは0.5程度
○ 対話の談話解析 [26]
■ 対話ドメインにおける談話解析手法を提案
■ F1-scoreは0.5程度
[25] Zechner et al., “Increasing the coherence of spoken dialogue summaries by cross-speaker information linking,” NAACL Workshop on Automatic Summarization,
2001.
[26] Afantenos et al., “Discourse parsing for multi-party chat dialogues," EMNLP, 2015.
4. 評価方法
データセット
● AMI Meeting Corpus [19]
○ 会議のデータ
○ 人手の書き起こしや要約
○ Dialogue Act, Topic Segment などのアノテーション
○ 無料
4. 評価方法
データセット
● ICSI Meeting Corpus [27]
○ 会議のデータ
○ 人手の要約
○ 全75文書
○ 有料
[27] https://catalog.ldc.upenn.edu/LDC2004T04
4. 評価方法
評価指標
● 対話・非対話問わず同様の評価指標が用いられる
● 頻繁に用いられるものは以下の2つ
○ ROUGE
■ システム出力と人間が生成した要約の類似度
■ 単語N-gramの一致率が高いほど大きなスコア
○ 主観評価
■ システム出力を人間に見せて5段階などで評価
5. 対話要約の実際
● 対話要約を実際にやってみて思ったことを述べます。
● 人手により書き起こされたデータの要約です。
音声認識関連についてはよく分かりません。
● 個人的な考えが多分に含まれます。
5. 対話要約の実際
● 2章の技術でどれくらいできる?
○ 結構できる
○ パッと見て何を述べているのか何となく分かる程度
5. 対話要約の実際
● TFIDFを計算するための文書
○ かなり結果が変わる
○ 同じドメインの文書 >>>> 別ドメインの文書
○ 量的には100文書程度あれば何とかなる
(当然、多ければ多い方が良い)
5. 対話要約の実際
● 文抽出 (文単位の抽出) vs 文短縮 (単語単位の抽出)
○ ROUGE: 文抽出 <= 文短縮
○ 文短縮すると意味の分からない文が
生成されることがある
→ システムの信頼性を下げる要因になり得る
→ 実用的には文抽出
5. 対話要約の実際
● 抽出単位 (質問と回答のペアを同時に要約に含める)の問題
は解決可能?
○ 技術的には難しそう
○ 文と文の関係の判定はタスクとして難しい
● 技術での解決を諦める
5. 対話要約の実際
● 抽出単位 (質問と回答のペアを同時に要約に含める)の問題
○ インターフェースで解決
A: どこに住んでいますか?
B: 東京です。
A: 出身はどこですか?
B: 北海道です。
原文書 要約
Before
A: どこに住んでいますか?
B: 北海道です。
5. 対話要約の実際
● 抽出単位 (質問と回答のペアを同時に要約に含める)の問題
○ インターフェースで解決
A: どこに住んでいますか?
B: 東京です。
A: 出身はどこですか?
B: 北海道です。
原文書 要約
A: どこに住んでいますか?
B: 東京です。
A: 出身はどこですか?
B: 北海道です。
After
5. 対話要約の実際
● 2章で説明した技術で要約生成可能
● 対話要約における3つの問題も解決
○ 音声認識の問題 → 書き起こし
○ Disfluencyの問題 → 書き起こし
○ 抽出単位の問題 → インターフェース
→ インターンで何をやったのか?
5. 対話要約の実際
● インターンで何をやったのか
○ "call reason"が述べられている発話を取りやすくした
○ call reason: 顧客が電話をかけてきた理由
→ 要約に含めるべき重要な内容
○ 既存のスコアリング方法では抽出しづらい
e.g. TFIDF値の合計を文のスコアとした場合
→ "call reason発話"が top-1 になったのは
21文書中5文書のみ
5. 対話要約の実際
● インターンで何をやったのか
○ 対話データの分析から得られた知見
■ call reason発話には新情報が含まれ易い
新情報: その対話中で初出の単語
e.g. 「エアコンが故障したんですけれど...」
■ call reason発話中の単語は後の文脈で出現し易い
→ これらの知見に基づきスコアリング
5. 対話要約の実際
● インターンで何をやったのか
○ 結果
■ 21文書中、17文書でcall reason発話が top-1 に
→ 従来のスコアリングに比べ、call reason発話が
要約に含まれ易くなった
6. おわりに
● 対話要約、非対話要約は多くの技術を共有
● 一方で対話要約特有の問題も存在
○ 音声認識のエラー
○ Disfluencyの問題
○ 抽出単位の問題
● 技術で解決困難なことは技術以外で解決
● "call reason発話"が要約に含まれ易くなるような手法を提案

Contenu connexe

Tendances

落合流先生流の論文要旨フォーマット
落合流先生流の論文要旨フォーマット落合流先生流の論文要旨フォーマット
落合流先生流の論文要旨フォーマット森 哲也
 
機械学習による統計的実験計画(ベイズ最適化を中心に)
機械学習による統計的実験計画(ベイズ最適化を中心に)機械学習による統計的実験計画(ベイズ最適化を中心に)
機械学習による統計的実験計画(ベイズ最適化を中心に)Kota Matsui
 
Graph Neural Networks
Graph Neural NetworksGraph Neural Networks
Graph Neural Networkstm1966
 
Attentionの基礎からTransformerの入門まで
Attentionの基礎からTransformerの入門までAttentionの基礎からTransformerの入門まで
Attentionの基礎からTransformerの入門までAGIRobots
 
機械学習 入門
機械学習 入門機械学習 入門
機械学習 入門Hayato Maki
 
ベイジアンネットとレコメンデーション -第5回データマイニング+WEB勉強会@東京
ベイジアンネットとレコメンデーション -第5回データマイニング+WEB勉強会@東京ベイジアンネットとレコメンデーション -第5回データマイニング+WEB勉強会@東京
ベイジアンネットとレコメンデーション -第5回データマイニング+WEB勉強会@東京Koichi Hamada
 
最適輸送の解き方
最適輸送の解き方最適輸送の解き方
最適輸送の解き方joisino
 
トピックモデルの評価指標 Perplexity とは何なのか?
トピックモデルの評価指標 Perplexity とは何なのか?トピックモデルの評価指標 Perplexity とは何なのか?
トピックモデルの評価指標 Perplexity とは何なのか?hoxo_m
 
CVPR2018のPointCloudのCNN論文とSPLATNet
CVPR2018のPointCloudのCNN論文とSPLATNetCVPR2018のPointCloudのCNN論文とSPLATNet
CVPR2018のPointCloudのCNN論文とSPLATNetTakuya Minagawa
 
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat ModelsDeep Learning JP
 
研究分野をサーベイする
研究分野をサーベイする研究分野をサーベイする
研究分野をサーベイするTakayuki Itoh
 
Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...
Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...
Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...joisino
 
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)Deep Learning JP
 
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)RyuichiKanoh
 
トップカンファレンスへの論文採択に向けて(AI研究分野版)/ Toward paper acceptance at top conferences (AI...
トップカンファレンスへの論文採択に向けて(AI研究分野版)/ Toward paper acceptance at top conferences (AI...トップカンファレンスへの論文採択に向けて(AI研究分野版)/ Toward paper acceptance at top conferences (AI...
トップカンファレンスへの論文採択に向けて(AI研究分野版)/ Toward paper acceptance at top conferences (AI...JunSuzuki21
 
情報抽出入門 〜非構造化データを構造化させる技術〜
情報抽出入門 〜非構造化データを構造化させる技術〜情報抽出入門 〜非構造化データを構造化させる技術〜
情報抽出入門 〜非構造化データを構造化させる技術〜Yuya Unno
 
最近のKaggleに学ぶテーブルデータの特徴量エンジニアリング
最近のKaggleに学ぶテーブルデータの特徴量エンジニアリング最近のKaggleに学ぶテーブルデータの特徴量エンジニアリング
最近のKaggleに学ぶテーブルデータの特徴量エンジニアリングmlm_kansai
 
研究の基本ツール
研究の基本ツール研究の基本ツール
研究の基本ツール由来 藤原
 
整数計画法に基づく説明可能性な機械学習へのアプローチ
整数計画法に基づく説明可能性な機械学習へのアプローチ整数計画法に基づく説明可能性な機械学習へのアプローチ
整数計画法に基づく説明可能性な機械学習へのアプローチKentaro Kanamori
 
グラフニューラルネットワーク入門
グラフニューラルネットワーク入門グラフニューラルネットワーク入門
グラフニューラルネットワーク入門ryosuke-kojima
 

Tendances (20)

落合流先生流の論文要旨フォーマット
落合流先生流の論文要旨フォーマット落合流先生流の論文要旨フォーマット
落合流先生流の論文要旨フォーマット
 
機械学習による統計的実験計画(ベイズ最適化を中心に)
機械学習による統計的実験計画(ベイズ最適化を中心に)機械学習による統計的実験計画(ベイズ最適化を中心に)
機械学習による統計的実験計画(ベイズ最適化を中心に)
 
Graph Neural Networks
Graph Neural NetworksGraph Neural Networks
Graph Neural Networks
 
Attentionの基礎からTransformerの入門まで
Attentionの基礎からTransformerの入門までAttentionの基礎からTransformerの入門まで
Attentionの基礎からTransformerの入門まで
 
機械学習 入門
機械学習 入門機械学習 入門
機械学習 入門
 
ベイジアンネットとレコメンデーション -第5回データマイニング+WEB勉強会@東京
ベイジアンネットとレコメンデーション -第5回データマイニング+WEB勉強会@東京ベイジアンネットとレコメンデーション -第5回データマイニング+WEB勉強会@東京
ベイジアンネットとレコメンデーション -第5回データマイニング+WEB勉強会@東京
 
最適輸送の解き方
最適輸送の解き方最適輸送の解き方
最適輸送の解き方
 
トピックモデルの評価指標 Perplexity とは何なのか?
トピックモデルの評価指標 Perplexity とは何なのか?トピックモデルの評価指標 Perplexity とは何なのか?
トピックモデルの評価指標 Perplexity とは何なのか?
 
CVPR2018のPointCloudのCNN論文とSPLATNet
CVPR2018のPointCloudのCNN論文とSPLATNetCVPR2018のPointCloudのCNN論文とSPLATNet
CVPR2018のPointCloudのCNN論文とSPLATNet
 
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
 
研究分野をサーベイする
研究分野をサーベイする研究分野をサーベイする
研究分野をサーベイする
 
Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...
Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...
Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...
 
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
 
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
 
トップカンファレンスへの論文採択に向けて(AI研究分野版)/ Toward paper acceptance at top conferences (AI...
トップカンファレンスへの論文採択に向けて(AI研究分野版)/ Toward paper acceptance at top conferences (AI...トップカンファレンスへの論文採択に向けて(AI研究分野版)/ Toward paper acceptance at top conferences (AI...
トップカンファレンスへの論文採択に向けて(AI研究分野版)/ Toward paper acceptance at top conferences (AI...
 
情報抽出入門 〜非構造化データを構造化させる技術〜
情報抽出入門 〜非構造化データを構造化させる技術〜情報抽出入門 〜非構造化データを構造化させる技術〜
情報抽出入門 〜非構造化データを構造化させる技術〜
 
最近のKaggleに学ぶテーブルデータの特徴量エンジニアリング
最近のKaggleに学ぶテーブルデータの特徴量エンジニアリング最近のKaggleに学ぶテーブルデータの特徴量エンジニアリング
最近のKaggleに学ぶテーブルデータの特徴量エンジニアリング
 
研究の基本ツール
研究の基本ツール研究の基本ツール
研究の基本ツール
 
整数計画法に基づく説明可能性な機械学習へのアプローチ
整数計画法に基づく説明可能性な機械学習へのアプローチ整数計画法に基づく説明可能性な機械学習へのアプローチ
整数計画法に基づく説明可能性な機械学習へのアプローチ
 
グラフニューラルネットワーク入門
グラフニューラルネットワーク入門グラフニューラルネットワーク入門
グラフニューラルネットワーク入門
 

Similaire à 対話テキストの自動要約

自然言語処理分野の最前線(ステアラボ人工知能シンポジウム2017)
自然言語処理分野の最前線(ステアラボ人工知能シンポジウム2017)自然言語処理分野の最前線(ステアラボ人工知能シンポジウム2017)
自然言語処理分野の最前線(ステアラボ人工知能シンポジウム2017)STAIR Lab, Chiba Institute of Technology
 
論文の書き方・読み方
論文の書き方・読み方論文の書き方・読み方
論文の書き方・読み方Satoshi Miura
 
提案に役に立つ情報 (teianlab 勉強会)
提案に役に立つ情報 (teianlab 勉強会)提案に役に立つ情報 (teianlab 勉強会)
提案に役に立つ情報 (teianlab 勉強会)MKT International Inc.
 
さくさくテキストマイニング入門セッション
さくさくテキストマイニング入門セッションさくさくテキストマイニング入門セッション
さくさくテキストマイニング入門セッションantibayesian 俺がS式だ
 
Pattern mining-scrum gatheringtokyo20130115
Pattern mining-scrum gatheringtokyo20130115Pattern mining-scrum gatheringtokyo20130115
Pattern mining-scrum gatheringtokyo20130115Hironori Washizaki
 
Statistical Machine Translation Overview
Statistical Machine Translation OverviewStatistical Machine Translation Overview
Statistical Machine Translation OverviewHiroki Kawano
 
科学技術英語の考え方と学習ツール Mindset and Learning Tools for Scientific English Proficiency
科学技術英語の考え方と学習ツール Mindset and Learning Tools for Scientific English Proficiency科学技術英語の考え方と学習ツール Mindset and Learning Tools for Scientific English Proficiency
科学技術英語の考え方と学習ツール Mindset and Learning Tools for Scientific English ProficiencyAsahiko Matsuda
 
プロソディの捉え方とその指導_06.03.2015
プロソディの捉え方とその指導_06.03.2015プロソディの捉え方とその指導_06.03.2015
プロソディの捉え方とその指導_06.03.2015Kazuhito Yamato
 
ロジカルコミュニケーション
ロジカルコミュニケーションロジカルコミュニケーション
ロジカルコミュニケーションashizawa1 Ashizawa
 
20220225_Methoken_GSFL_Open
20220225_Methoken_GSFL_Open20220225_Methoken_GSFL_Open
20220225_Methoken_GSFL_OpenHiroya Tanaka
 
XP祭り関西2011 森崎 修司「プラクティスが有効にはたらく前提は明らかになっていますか?」
XP祭り関西2011 森崎 修司「プラクティスが有効にはたらく前提は明らかになっていますか?」XP祭り関西2011 森崎 修司「プラクティスが有効にはたらく前提は明らかになっていますか?」
XP祭り関西2011 森崎 修司「プラクティスが有効にはたらく前提は明らかになっていますか?」Shuji Morisaki
 
Rm20150701 9key
Rm20150701 9keyRm20150701 9key
Rm20150701 9keyyouwatari
 
マイクロブログテキストを用いた教師なし文書間類似度評価手法の分析
マイクロブログテキストを用いた教師なし文書間類似度評価手法の分析マイクロブログテキストを用いた教師なし文書間類似度評価手法の分析
マイクロブログテキストを用いた教師なし文書間類似度評価手法の分析KozoChikai
 
新入社員の方による就活体験談と現場での人材育成
新入社員の方による就活体験談と現場での人材育成新入社員の方による就活体験談と現場での人材育成
新入社員の方による就活体験談と現場での人材育成You&I
 
反転授業におけるワークシートの利用が対面授業時のグループディスカッションの発話内容に与える影響
反転授業におけるワークシートの利用が対面授業時のグループディスカッションの発話内容に与える影響反転授業におけるワークシートの利用が対面授業時のグループディスカッションの発話内容に与える影響
反転授業におけるワークシートの利用が対面授業時のグループディスカッションの発話内容に与える影響Sachika Shibukawa
 
Interspeech2022 参加報告
Interspeech2022 参加報告Interspeech2022 参加報告
Interspeech2022 参加報告Yuki Saito
 
【Schoo web campus】「相手に伝わる」文章を書く技術 2限目
【Schoo web campus】「相手に伝わる」文章を書く技術 2限目【Schoo web campus】「相手に伝わる」文章を書く技術 2限目
【Schoo web campus】「相手に伝わる」文章を書く技術 2限目schoowebcampus
 
自然言語処理による議論マイニング
自然言語処理による議論マイニング自然言語処理による議論マイニング
自然言語処理による議論マイニングNaoaki Okazaki
 

Similaire à 対話テキストの自動要約 (20)

Jacet2014ykondo_final
Jacet2014ykondo_finalJacet2014ykondo_final
Jacet2014ykondo_final
 
自然言語処理分野の最前線(ステアラボ人工知能シンポジウム2017)
自然言語処理分野の最前線(ステアラボ人工知能シンポジウム2017)自然言語処理分野の最前線(ステアラボ人工知能シンポジウム2017)
自然言語処理分野の最前線(ステアラボ人工知能シンポジウム2017)
 
論文の書き方・読み方
論文の書き方・読み方論文の書き方・読み方
論文の書き方・読み方
 
提案に役に立つ情報 (teianlab 勉強会)
提案に役に立つ情報 (teianlab 勉強会)提案に役に立つ情報 (teianlab 勉強会)
提案に役に立つ情報 (teianlab 勉強会)
 
さくさくテキストマイニング入門セッション
さくさくテキストマイニング入門セッションさくさくテキストマイニング入門セッション
さくさくテキストマイニング入門セッション
 
Pattern mining-scrum gatheringtokyo20130115
Pattern mining-scrum gatheringtokyo20130115Pattern mining-scrum gatheringtokyo20130115
Pattern mining-scrum gatheringtokyo20130115
 
Statistical Machine Translation Overview
Statistical Machine Translation OverviewStatistical Machine Translation Overview
Statistical Machine Translation Overview
 
科学技術英語の考え方と学習ツール Mindset and Learning Tools for Scientific English Proficiency
科学技術英語の考え方と学習ツール Mindset and Learning Tools for Scientific English Proficiency科学技術英語の考え方と学習ツール Mindset and Learning Tools for Scientific English Proficiency
科学技術英語の考え方と学習ツール Mindset and Learning Tools for Scientific English Proficiency
 
プロソディの捉え方とその指導_06.03.2015
プロソディの捉え方とその指導_06.03.2015プロソディの捉え方とその指導_06.03.2015
プロソディの捉え方とその指導_06.03.2015
 
ロジカルコミュニケーション
ロジカルコミュニケーションロジカルコミュニケーション
ロジカルコミュニケーション
 
20220225_Methoken_GSFL_Open
20220225_Methoken_GSFL_Open20220225_Methoken_GSFL_Open
20220225_Methoken_GSFL_Open
 
CVPR 2017 報告
CVPR 2017 報告CVPR 2017 報告
CVPR 2017 報告
 
XP祭り関西2011 森崎 修司「プラクティスが有効にはたらく前提は明らかになっていますか?」
XP祭り関西2011 森崎 修司「プラクティスが有効にはたらく前提は明らかになっていますか?」XP祭り関西2011 森崎 修司「プラクティスが有効にはたらく前提は明らかになっていますか?」
XP祭り関西2011 森崎 修司「プラクティスが有効にはたらく前提は明らかになっていますか?」
 
Rm20150701 9key
Rm20150701 9keyRm20150701 9key
Rm20150701 9key
 
マイクロブログテキストを用いた教師なし文書間類似度評価手法の分析
マイクロブログテキストを用いた教師なし文書間類似度評価手法の分析マイクロブログテキストを用いた教師なし文書間類似度評価手法の分析
マイクロブログテキストを用いた教師なし文書間類似度評価手法の分析
 
新入社員の方による就活体験談と現場での人材育成
新入社員の方による就活体験談と現場での人材育成新入社員の方による就活体験談と現場での人材育成
新入社員の方による就活体験談と現場での人材育成
 
反転授業におけるワークシートの利用が対面授業時のグループディスカッションの発話内容に与える影響
反転授業におけるワークシートの利用が対面授業時のグループディスカッションの発話内容に与える影響反転授業におけるワークシートの利用が対面授業時のグループディスカッションの発話内容に与える影響
反転授業におけるワークシートの利用が対面授業時のグループディスカッションの発話内容に与える影響
 
Interspeech2022 参加報告
Interspeech2022 参加報告Interspeech2022 参加報告
Interspeech2022 参加報告
 
【Schoo web campus】「相手に伝わる」文章を書く技術 2限目
【Schoo web campus】「相手に伝わる」文章を書く技術 2限目【Schoo web campus】「相手に伝わる」文章を書く技術 2限目
【Schoo web campus】「相手に伝わる」文章を書く技術 2限目
 
自然言語処理による議論マイニング
自然言語処理による議論マイニング自然言語処理による議論マイニング
自然言語処理による議論マイニング
 

対話テキストの自動要約

  • 2. 自己紹介 ● 山本 眞大 ● 慶應 D2 (2015年9月入学) ● 2016年8月〜9月: 株式会社Preferred Infrastructureで インターンシップ (コールセンター対話の自動要約)
  • 3. 目次 1. はじめに 2. 要約の代表的な手法 3. 対話要約特有の問題 4. 評価方法 5. 対話要約の実際 6. おわりに 対話の自動要約に 関するサーベイ
  • 4. 1. はじめに 今日の話 ● 対話テキストの自動要約に関するサーベイ ○ 要約の代表的な手法 ○ 対話要約特有の問題 ○ 評価方法 ● 対話要約の実際 ● 深層学習系の話はしません
  • 5. 1. はじめに 対話データ処理への関心 ● SIGDIAL2015, Special Session, Multiing 2015 ○ オンラインフォーラム、コールセンターの要約 ● ACL2016, 3rd Workshp on Argument Mining ○ 議論データに関するWorkshop ○ 要約に関して2件の発表 [1, 2] ● COLING2016, Invited talk4 ○ A Look at Computational Argumentation and Summarisation from a Text-Understanding Perspective [1] Barker et al., "Summarizing Multi-Party Argumentative Conversations in Reader Comment on News", in Proc of 3rd Workshop on Argument Mining, 2016. [2] Egan et al., Summarizng the points made in online politial deates", in Proc of 3rd Workshop on Argument Mining, 2016.
  • 6. 2. 要約の代表的な手法 ● 対話要約 (今回の対象) ○ 複数の話者による対話から成り立っている テキスト (音声) の要約 ○ 例:コールセンター、会議 ● 非対話要約 ○ 対話が存在しないテキストの要約 ○ 例:ニュース記事、文献
  • 7. 2. 要約の代表的な手法 ● 対話要約手法 ○ 大部分の研究は非対話要約の手法を利用 [3] → 2章では、テキスト要約の代表的な手法を説明 ● テキスト要約に関する分かりやすいスライド ○ 西川先生のスライド [4] ○ yamao357様のスライド [5] [3] Nenkova et al., "Automatic Summarization", Foundations and Trends in Information Retrieval, Vol 5, No 2-3, pp. 103-233, 2011. [4] http://www.slideshare.net/hitoshin/automatic-summarization [5] https://rpubs.com/yamano357/27317
  • 8. 2. 要約の代表的な手法 要約の大分類 [4] 1. 要約の使い方 ○ 指示的 / 報知的 1. 必要な情報の指定 ○ クエリ依存 / クエリ非依存 1. 入力文書の数 ○ 単一 / 複数 1. 要約を作る方法 ○ 抽出型要約 / 生成型要約 ● 指示的: 原文書を読むべきか判断する ための要約 e.g. 新聞の見出し、スニペット ● 報知的: 原文書の代わりとする要約 e.g. ニュース番組の字幕
  • 9. 2. 要約の代表的な手法 今回の話 1. 要約の使い方 ○ 指示的 / 報知的 1. 必要な情報の指定 ○ クエリ依存 / クエリ非依存 1. 入力文書の数 ○ 単一 / 複数 1. 要約を作る方法 ○ 抽出型要約 / 生成型要約
  • 11. 2. 要約の代表的な手法 要約手法 ● 様々な手法が存在 ● 整数計画問題 (ILP) として定式化する手法を説明 ○ 線形計画問題:目的関数と制約条件が1次式で 表される最適化問題 ○ 整数計画問題:線形計画問題において解が整数と なるような問題
  • 12. 2. 要約の代表的な手法 整数計画問題の例: ナップザック問題 ● 価値を最大化したい ● 制約: リュックの容量 ● どのように選べば良いか? ● 整数計画問題として解ける 出典: ナップザック問題 Wikipedia
  • 13. 2. 要約の代表的な手法 ナップザック問題に落とし込む ● 物の価値 = 文のスコア ● 物の重さ = 文の長さ ● リュックの容量 = 要約文字数 文のスコアはどうする? → 文中の各単語のTFIDF値の総和 など 出典: ナップザック問題 Wikipedia 文1 文5 文4 文3 文2
  • 14. 2. 要約の代表的な手法 網羅性を向上 ● 最大被覆問題に落とし込む [6] ○ 同じ内容が繰り返し述べられても スコアを増加させない ○ 上記の条件を満たすように目的関数、制約条件を設定 [6] 高村ら, "最大被覆問題とその変種による文書要約モデル", 人工知能学会論文誌, 2008.
  • 15. 2. 要約の代表的な手法 文短縮 ● 文抽出と文短縮の同時モデル [7] ○ 各単語毎にスコアリング ○ 係り受け関係を保持したまま要約を作成 ○ 係り受け関係は制約条件として記述 [7] 富田ら, "重要文抽出と文圧縮を組み合わせた新たな抽出的要約手法", 情報処理学会研究報告, 2009.
  • 16. 2. 要約の代表的な手法 談話構造の考慮 ● 入れ子依存木の刈り込みによる要約生成 [8] ○ 係り受け関係、談話関係を保持したまま要約を作成 ○ 一貫性を保ちつつ、要約長に柔軟な要約が生成可能 ○ 制約条件として上記を記述 [8] 菊池ら, "入れ子依存木の刈り込みによる単一文書要約", 自然言語処理, 2015.
  • 17. 2. 要約の代表的な手法 ILPとして定式化している論文 [9-13] [9] Automatic Summarization of Student Course Feedback, NAACL-HLT 2016. [10]Generating Coherent Summaries of Scientific Articles Using Coherence Patterns, EMNLP 2016. [11] Exploring Text Links for Coherent Multi-Document Summarization, COLING 2016. [12] Optimizing an Approximation of ROUGE – a Problem-Reduction Approach to Extractive Multi-Document Summarization, ACL 2016. [13] Learning-Based Single-Document Summarization with Compression and Anaphoricity Constraints, ACL 2016.
  • 18. 2. 要約の代表的な手法 ILP以外の要約手法 1 ● PageRankアルゴリズムの利用 [14] ○ 各文をノードとして表現 ○ 各文の類似度をエッジの重みとして表現 ○ HITSアルゴリズムにより各文の重要度を計算 [14] Erkan et al., "LexRank: Graph-based Lexical Centrality as Salience in Text Summarization", Journal of Artificial Intelligence Research, 2004.
  • 19. 2. 要約の代表的な手法 ILP以外の要約手法 2 ● MMR (Maximal Marginal Relevance) [15] ○ スコアの高い文から順番に選択 ○ 1文選ばれる毎に各文のスコアを更新 ○ 既に選ばれている文と似ている文のスコアを小さく → 網羅性が向上 [15] Goldstein et al., "Multi-document Summarization by Sentence Extraction", in Proc of the 2000 NAALP-ANLP Workshop on Automatic Summarization , 2000.
  • 20. 2. 要約の代表的な手法 ILP以外の要約手法 3 ● 教師あり学習 ○ 前提: 各文に "要約に含まれる" or "含まれない" のラベル ○ うまく分類できるように学習 ○ 特徴量の選択方法 ■ 文の長さ、スコア、位置 ... etc ○ 分類器 ■ SVM、多層パーセプトロン ... etc
  • 21. 2. 要約の代表的な手法 抽出型要約研究の焦点 ● 網羅性 ○ 原文書の重要な内容を網羅すること ● 一貫性 ○ 原文書の談話構造 (論理構造) を保持すること ○ 文と文の大域的な関係を考慮 ● トレンドは "網羅性" → "一貫性" ※網羅性に着目した研究もまだまだ現役 [16] [16] Ren et al., "A Redundancy-Aware Sentence Regression Framework for Extractive Summarization", COLING, 2016.
  • 22. 3. 対話要約特有の問題 2章の技術を適用することで要約が可能 ● TFIDFを基にスコアリング + ナップザック問題として解く ● HITSアルゴリズムによるスコアリング + ナップザック ● MMRを用いて要約生成 ● (学習データが充分にあれば) 教師あり学習として解く → 対話要約特有の問題は?
  • 23. 3. 対話要約特有の問題 対話要約における3つの問題 [17] 1. 自動音声認識 (ASR) 誤りの問題 ○ 音声認識のエラー 1. Disfluencyの問題 ○ Filled Pauses (遊び言葉: uh, um, well ...) ○ Repetisions (繰り返し) 1. 抽出単位の問題 ○ 質問と回答の一貫性 [17] Nenkova et al., "Automatic Summarization", Foundations and Trends in Information Retrieval, Vol 5, No 2-3, pp. 103-233, 2011.
  • 24. 3. 対話要約特有の問題 1. 自動音声認識 (ASR) 誤りの問題 ○ 10% - 40%程度の音声認識誤り [18] ○ AMI Meeting Corpus [19] の例 ■ 人手書き起こし "You look quite funny at the moment, Tim." ■ ASRの結果 "Great can implement that I" [18] Glass et al., "Recent progress in the MIT spoken lecture processing project", in Proceedings of the Annual Conference of the International Speech Communication Association, pp. 2553–2556, 2007. [19] http://groups.inf.ed.ac.uk/ami/corpus/
  • 25. 3. 対話要約特有の問題 2. Disfluencyの問題 (Filled Pauses and Repetitions) ○ Filled Pauses: uh, um, well ... などの遊び言葉 ○ Repetitions: 同じ言葉が繰り返される ○ 全体の15 - 25%程度存在する [20] ○ 具体例 A: well I um I think we should discuss this you know with her. A’: I think we should discuss this with her. [20] Zechner et al., "Summarization of spoken language - challenges, methods, and prospects,” Speech Technology Expert eZine, 2002.
  • 26. 3. 対話要約特有の問題 2. Disfluencyの問題 (Filled Pauses and Repetitions) ○ Disfluencyの削除だけで1つの研究分野 [21-23] ○ 特徴量の1つとして利用 [24] ■ Disfluencyが存在する文は重要であるという仮説 ■ ROUGE値の向上は1%未満 [21] Johnson et al., “A TAG-based noisy-channel model of speech repairs,” ACL, 2004. [22] Miller et al., “A syntactic time-series model for parsing fluent and disfluent speech,” in Proceedings of the International Conference on Computational Linguistic, pp. 569–576, 2008. [23] Stolcke et al., “Statistical language modeling for speech disfluencies,” in Proceedings of the IEEE International Conference on Acoustics, Speech and Signal Processing, pp. 405–408, 1996. [24] Zhu et al., “Summarization of spontaneous conversations,” in Proceedings of the Annual Conference of the International Speech Communication Association, pp. 1531–1534, 2006.
  • 27. 3. 対話要約特有の問題 3. 抽出単位の問題 (質問と回答の一貫性) ○ 質問とそれに対する回答を一緒に抽出したい ○ もし一緒に抽出できないと ... ? A: どこに住んでいますか? B: 東京です。 A: 出身はどこですか? B: 北海道です。 A: どこに住んでいますか? B: 北海道です。 原文書 要約
  • 28. 3. 対話要約特有の問題 3. 抽出単位の問題 (質問と回答の一貫性) ○ ヒューリスティックルールで同定 [25] ■ 初めてこの問題について言及した論文 ■ F1-scoreは0.5程度 ○ 対話の談話解析 [26] ■ 対話ドメインにおける談話解析手法を提案 ■ F1-scoreは0.5程度 [25] Zechner et al., “Increasing the coherence of spoken dialogue summaries by cross-speaker information linking,” NAACL Workshop on Automatic Summarization, 2001. [26] Afantenos et al., “Discourse parsing for multi-party chat dialogues," EMNLP, 2015.
  • 29. 4. 評価方法 データセット ● AMI Meeting Corpus [19] ○ 会議のデータ ○ 人手の書き起こしや要約 ○ Dialogue Act, Topic Segment などのアノテーション ○ 無料
  • 30. 4. 評価方法 データセット ● ICSI Meeting Corpus [27] ○ 会議のデータ ○ 人手の要約 ○ 全75文書 ○ 有料 [27] https://catalog.ldc.upenn.edu/LDC2004T04
  • 31. 4. 評価方法 評価指標 ● 対話・非対話問わず同様の評価指標が用いられる ● 頻繁に用いられるものは以下の2つ ○ ROUGE ■ システム出力と人間が生成した要約の類似度 ■ 単語N-gramの一致率が高いほど大きなスコア ○ 主観評価 ■ システム出力を人間に見せて5段階などで評価
  • 32. 5. 対話要約の実際 ● 対話要約を実際にやってみて思ったことを述べます。 ● 人手により書き起こされたデータの要約です。 音声認識関連についてはよく分かりません。 ● 個人的な考えが多分に含まれます。
  • 33. 5. 対話要約の実際 ● 2章の技術でどれくらいできる? ○ 結構できる ○ パッと見て何を述べているのか何となく分かる程度
  • 34. 5. 対話要約の実際 ● TFIDFを計算するための文書 ○ かなり結果が変わる ○ 同じドメインの文書 >>>> 別ドメインの文書 ○ 量的には100文書程度あれば何とかなる (当然、多ければ多い方が良い)
  • 35. 5. 対話要約の実際 ● 文抽出 (文単位の抽出) vs 文短縮 (単語単位の抽出) ○ ROUGE: 文抽出 <= 文短縮 ○ 文短縮すると意味の分からない文が 生成されることがある → システムの信頼性を下げる要因になり得る → 実用的には文抽出
  • 36. 5. 対話要約の実際 ● 抽出単位 (質問と回答のペアを同時に要約に含める)の問題 は解決可能? ○ 技術的には難しそう ○ 文と文の関係の判定はタスクとして難しい ● 技術での解決を諦める
  • 37. 5. 対話要約の実際 ● 抽出単位 (質問と回答のペアを同時に要約に含める)の問題 ○ インターフェースで解決 A: どこに住んでいますか? B: 東京です。 A: 出身はどこですか? B: 北海道です。 原文書 要約 Before A: どこに住んでいますか? B: 北海道です。
  • 38. 5. 対話要約の実際 ● 抽出単位 (質問と回答のペアを同時に要約に含める)の問題 ○ インターフェースで解決 A: どこに住んでいますか? B: 東京です。 A: 出身はどこですか? B: 北海道です。 原文書 要約 A: どこに住んでいますか? B: 東京です。 A: 出身はどこですか? B: 北海道です。 After
  • 39. 5. 対話要約の実際 ● 2章で説明した技術で要約生成可能 ● 対話要約における3つの問題も解決 ○ 音声認識の問題 → 書き起こし ○ Disfluencyの問題 → 書き起こし ○ 抽出単位の問題 → インターフェース → インターンで何をやったのか?
  • 40. 5. 対話要約の実際 ● インターンで何をやったのか ○ "call reason"が述べられている発話を取りやすくした ○ call reason: 顧客が電話をかけてきた理由 → 要約に含めるべき重要な内容 ○ 既存のスコアリング方法では抽出しづらい e.g. TFIDF値の合計を文のスコアとした場合 → "call reason発話"が top-1 になったのは 21文書中5文書のみ
  • 41. 5. 対話要約の実際 ● インターンで何をやったのか ○ 対話データの分析から得られた知見 ■ call reason発話には新情報が含まれ易い 新情報: その対話中で初出の単語 e.g. 「エアコンが故障したんですけれど...」 ■ call reason発話中の単語は後の文脈で出現し易い → これらの知見に基づきスコアリング
  • 42. 5. 対話要約の実際 ● インターンで何をやったのか ○ 結果 ■ 21文書中、17文書でcall reason発話が top-1 に → 従来のスコアリングに比べ、call reason発話が 要約に含まれ易くなった
  • 43. 6. おわりに ● 対話要約、非対話要約は多くの技術を共有 ● 一方で対話要約特有の問題も存在 ○ 音声認識のエラー ○ Disfluencyの問題 ○ 抽出単位の問題 ● 技術で解決困難なことは技術以外で解決 ● "call reason発話"が要約に含まれ易くなるような手法を提案