A Prototype Crowdsourcing Approach for Document Summarization Service
- 1. © Hajime Mizuyama
A Prototype Crowdsourcing Approach
for Document Summarization Service
Hajime Mizuyama, Keishi Yamashita, Kenji Hitomi and Michiko Anse
Dept. of Industrial and Systems Engineering
Aoyama Gakuin University
mizuyama@ise.aoyama.ac.jp
APMS 2013 @ PSU 11/Sep./2013
- 2. © Hajime Mizuyama
Research background
Document
summarization
service
Lengthy document Compact summary
Raw material (Intellectual) good
Document summarization service = Production system of an intellectual good
- 3. © Hajime Mizuyama
Research background
Indicative
• to determine whether the user
should read the original document
or not.
Informative
• to give the user sufficient
information to proceed without
reading the original document.
Extractive
• identifies important sentences or
phrases in the input document, and
outputs a summary by simply
connecting them.
Abstractive
• newly creates a sequence of
condensed sentences so as to
deliver whole relevant information
in the original document.
Purpose Method
- 6. © Hajime Mizuyama
Research objective
• Establish a standardized approach for modernizing a production system of an
intellectual good by introducing division of labor through crowdsourcing.
• Develop and test a prototype crowdsourcing approach for informative
document summarization service with abstractive method.
Research objective
Document
summarization
service
Lengthy document Compact summary
Raw material (Intellectual) good
Document summarization service = Production system of an intellectual good
Crowdsourcing approach = Division of labor for such system
- 7. © Hajime Mizuyama
• Research background and objective
• How to model a document summarization task
• Crowdsourcing approach for the task
• Laboratory experiment
• Conclusions
Agenda
- 8. © Hajime Mizuyama
Evaluation units and condensation elements
大気や海洋の平均温度の上昇に加えて、生態系の変化や海水面上昇に
よる海岸線の浸食といった、気温上昇に伴う二次的な諸問題を含めて「地
球温暖化問題」と呼ばれる。温暖化が将来の人類や環境へ与える悪影響
を考慮して対策を立て実行され始めている。一方で、対策のコストが非常
に大きくなると見られており、その負担や政策的な優先度に関して国際的
な議論が行われている。
地球表面の大気や海洋の平均温度は「地球の平均気温」あるいは「地上
平均気温」と呼ばれ、地球全体の気候の変化を表す指標として用いられ
ており、19世紀から始まった科学的な気温の観測をもとに統計が取られて
いる。地球の平均気温は1906年?2005年の100年間で0.74℃(誤差は
±0.18°C)上昇しており、長期的に上昇傾向にある事は「疑う余地が無
い」と評価されている。上昇のペースは20世紀後半以降、加速する傾向が
観測されている。これに起因すると見られる、海水面(海面水位)の上昇や
気象の変化が観測され、生態系や人類の活動への悪影響が懸念されて
いる。
この地球温暖化は自然由来の要因と人為的な要因に分けられる。20世紀
後半の温暖化に関しては、人間の産業活動等に伴って排出された人為的
な温室効果ガスが主因と見られ、2007年2月に国連の気候変動に関する
政府間パネル(IPCC)が発行した第4次評価報告書(AR4)によって膨大な量
の学術的(科学的)知見が集約された結果、人為的な温室効果ガスが温
暖化の原因である確率は9割を超えると評価されている。このAR4の主要
な結論は変わっておらず、より多くのデータを加えた第5次評価報告書の
作成が進められている。AR4によれば、地球温暖化の影響要因としては、
「人為的な温室効果ガスの放出、なかでも二酸化炭素やメタンの影響が
大きい」とされる。その一方で太陽放射等の自然要因による変化の寄与量
は人為的な要因の数%程度でしかなく、自然要因だけでは現在の気温の
上昇は説明できないことが指摘されている。
An evaluation unit (= A section)
Condensation element 1 (= 1st paragraph)
Condensation element 2 (= 2nd paragraph)
Condensation element 3 (= 3rd paragraph)
U0: Set of condensation elements
- 9. © Hajime Mizuyama
Creation of candidate condensed elements
大気や海洋の平均温度の上昇に加えて、生態系の変化や海水面上昇に
よる海岸線の浸食といった、気温上昇に伴う二次的な諸問題を含めて「地
球温暖化問題」と呼ばれる。温暖化が将来の人類や環境へ与える悪影響
を考慮して対策を立て実行され始めている。一方で、対策のコストが非常
に大きくなると見られており、その負担や政策的な優先度に関して国際的
な議論が行われている。
地球表面の大気や海洋の平均温度は「地球の平均気温」あるいは「地上
平均気温」と呼ばれ、地球全体の気候の変化を表す指標として用いられ
ており、19世紀から始まった科学的な気温の観測をもとに統計が取られて
いる。地球の平均気温は1906年?2005年の100年間で0.74℃(誤差は
±0.18°C)上昇しており、長期的に上昇傾向にある事は「疑う余地が無
い」と評価されている。上昇のペースは20世紀後半以降、加速する傾向が
観測されている。これに起因すると見られる、海水面(海面水位)の上昇や
気象の変化が観測され、生態系や人類の活動への悪影響が懸念されて
いる。
この地球温暖化は自然由来の要因と人為的な要因に分けられる。20世紀
後半の温暖化に関しては、人間の産業活動等に伴って排出された人為的
な温室効果ガスが主因と見られ、2007年2月に国連の気候変動に関する
政府間パネル(IPCC)が発行した第4次評価報告書(AR4)によって膨大な量
の学術的(科学的)知見が集約された結果、人為的な温室効果ガスが温
暖化の原因である確率は9割を超えると評価されている。このAR4の主要
な結論は変わっておらず、より多くのデータを加えた第5次評価報告書の
作成が進められている。AR4によれば、地球温暖化の影響要因としては、
「人為的な温室効果ガスの放出、なかでも二酸化炭素やメタンの影響が
大きい」とされる。その一方で太陽放射等の自然要因による変化の寄与量
は人為的な要因の数%程度でしかなく、自然要因だけでは現在の気温の
上昇は説明できないことが指摘されている。
An evaluation unit (= A section)
U0: Set of condensation elements
U1: Set of candidate condensed elements
- 10. © Hajime Mizuyama
Constructing a summary
大気や海洋の平均温度の上昇に加えて、生態系の変化や海水面上昇に
よる海岸線の浸食といった、気温上昇に伴う二次的な諸問題を含めて「地
球温暖化問題」と呼ばれる。温暖化が将来の人類や環境へ与える悪影響
を考慮して対策を立て実行され始めている。一方で、対策のコストが非常
に大きくなると見られており、その負担や政策的な優先度に関して国際的
な議論が行われている。
地球表面の大気や海洋の平均温度は「地球の平均気温」あるいは「地上
平均気温」と呼ばれ、地球全体の気候の変化を表す指標として用いられ
ており、19世紀から始まった科学的な気温の観測をもとに統計が取られて
いる。地球の平均気温は1906年?2005年の100年間で0.74℃(誤差は
±0.18°C)上昇しており、長期的に上昇傾向にある事は「疑う余地が無
い」と評価されている。上昇のペースは20世紀後半以降、加速する傾向が
観測されている。これに起因すると見られる、海水面(海面水位)の上昇や
気象の変化が観測され、生態系や人類の活動への悪影響が懸念されて
いる。
この地球温暖化は自然由来の要因と人為的な要因に分けられる。20世紀
後半の温暖化に関しては、人間の産業活動等に伴って排出された人為的
な温室効果ガスが主因と見られ、2007年2月に国連の気候変動に関する
政府間パネル(IPCC)が発行した第4次評価報告書(AR4)によって膨大な量
の学術的(科学的)知見が集約された結果、人為的な温室効果ガスが温
暖化の原因である確率は9割を超えると評価されている。このAR4の主要
な結論は変わっておらず、より多くのデータを加えた第5次評価報告書の
作成が進められている。AR4によれば、地球温暖化の影響要因としては、
「人為的な温室効果ガスの放出、なかでも二酸化炭素やメタンの影響が
大きい」とされる。その一方で太陽放射等の自然要因による変化の寄与量
は人為的な要因の数%程度でしかなく、自然要因だけでは現在の気温の
上昇は説明できないことが指摘されている。
An evaluation unit (= A section)
U0: Set of condensation elements
U1: Set of candidate condensed elements
Sk: A summary
- 11. © Hajime Mizuyama
Objective functions
• F1 (Sk): Time to comprehend summary Sk
to be minimized
• F2 (Sk): Amount of information content remaining in summary Sk
to be maximized
Subject to
• Summary Sk is an ordered set of elements taken from U0 and U1.
• Summary Sk covers the whole evaluation unit.
Document summarization as bi-objective optimization
- 12. © Hajime Mizuyama
• Research background and objective
• How to model a document summarization task
• Crowdsourcing approach for the task
• Laboratory experiment
• Conclusions
Agenda
- 13. © Hajime Mizuyama
Outline of proposed approach
Evaluation unit
Summary
Computer Crowd
Divideunit into elements,
andstore them into DB. Choose sub-sequences,
andcreate condensed
elements for them.Store created condensed
elements into DB.
Combineelements into
feasible summaries for
evaluation. Evaluatesummaries in
terms of F1 and F2.
Store evaluationscores
intoDB.
Derive evaluationscores
for each element.
Screen elements
accordingto the scores.
Derive Pareto-optimum
summaries.
Creation
subtask
- 14. © Hajime Mizuyama
• When a contributor starts the micro task, she/he is shown the whole
evaluation unit as a sequence of condensation elements.
• Then, she/he is supposed
(1) to choose a subsequence of them, and
(2) to create a more efficient expression representing the information
contained in the subsequence.
• If someone else has already created a condensed element corresponding to
the same subsequence, the element is also shown to her/him as a hint.
Crowdsourced creation micro task
- 15. © Hajime Mizuyama
Outline of proposed approach
Evaluation unit
Summary
Computer Crowd
Divideunit into elements,
andstore them into DB. Choose sub-sequences,
andcreate condensed
elements for them.Store created condensed
elements into DB.
Combineelements into
feasible summaries for
evaluation. Evaluatesummaries in
terms of F1 and F2.
Store evaluationscores
intoDB.
Derive evaluationscores
for each element.
Screen elements
accordingto the scores.
Derive Pareto-optimum
summaries.
Evaluation
subtask
- 16. © Hajime Mizuyama
Models for two objective functions
• Only main effects are considered in the models, for simplicity.
• Simple multiple regression using dummy variables can be utilized in order to
estimate the parameter values in the models.
• Learning data (sample evaluation values) for the regression analysis are
obtained through crowdsourcing.
How to establish objective functions
: Time to comprehend
: Amount of information
- 17. © Hajime Mizuyama
• She/he is shown the original evaluation unit and a candidate summary chosen
by the computer, and is supposed to read and comprehend the both.
• She/he is supposed to push a button on a web browser by a computer mouse
when she/he starts and ends reading each of the texts, so as to quantify the
time length required for comprehending each text.
• The value of F1 is objectively evaluated as the percentage of the quantified
time length for the summary relative to that for the original evaluation unit.
• She/he is also asked to subjectively evaluate the amount of information
contents remaining in the summary F2 with a score from 0 to 100.
Crowdsourced evaluation micro task
- 18. © Hajime Mizuyama
Outline of proposed approach
Evaluation unit
Summary
Computer Crowd
Divideunit into elements,
andstore them into DB. Choose sub-sequences,
andcreate condensed
elements for them.Store created condensed
elements into DB.
Combineelements into
feasible summaries for
evaluation. Evaluatesummaries in
terms of F1 and F2.
Store evaluationscores
intoDB.
Derive evaluationscores
for each element.
Screen elements
accordingto the scores.
Derive Pareto-optimum
summaries.
Optimization
subtask
- 19. © Hajime Mizuyama
• Research background and objective
• How to model a document summarization task
• Crowdsourcing approach for the task
• Laboratory experiment
• Conclusions
Agenda
- 20. © Hajime Mizuyama
Outline of experiment
Sample document
• Evaluation unit: A Japanese document on global warming having three
paragraphs and 833 characters
• Condensation element: Each paragraph of the document
Creation task
• Participants: 6 male senior students of Aoyama Gakuin University
• At least 3 condensed elements were obtained for every possible sub-
sequence of the evaluation unit.
Evaluation task
• Participants: 4 male senior students of Aoyama Gakuin University
• The parameter values of objective functions were successfully estimated
using the obtained evaluation scores.
- 21. © Hajime Mizuyama
Comparisons with computerized summarization #1
Proposed system Mac OSX Summarize
Summary ID A B C D E F
Number of
characters
311 277 263 392 330 230
Mean time to read
(s)
33.3 27.9 26.9 43.9 38.0 25.5
Standard deviation of
time to read (s)
4.91 5.75 4.01 2.61 4.34 1.26
Number ofcharacters
read per second
9.34 9.92 9.78 8.92 8.68 9.02
- 23. © Hajime Mizuyama
• Research background and objective
• How to model a document summarization task
• Crowdsourcing approach for the task
• Laboratory experiment
• Conclusions
Agenda
- 24. © Hajime Mizuyama
• This paper proposed a crowdsourcing approach for informative document
summarization service, and confirmed that the approach can function
properly by a small-scale laboratory experiment using a pilot system.
• It is an important first step towards production systems engineering for
intellectual goods.
• Future research directions include parallelizing the sub-tasks of creation and
evaluation, including interaction effects in the objective functions, combining
a computerized summarization technique with the approach, etc.
• In order to make the sentences in an output summary flow well, in addition
to considering interaction effects in the objective functions, introducing
another sub-task of adding conjunctions can be effective.
Conclusions
- 25. Thank you for your kind attention!
Questions and comments are welcome.