Utilisation des citations pour le
résumé automatique de la
contribution d'articles
scientifiques
par Bruno Malenfant
Direc...
RP
CP
CP
CP
• C1
• C2
• C3
• C4
• C5
• C6
• C2
• C5
Extrait
Résumé
2
Articles
Articles
XML
Base
RDF
Facette citance
Extraction
Choisir citances
Résumé
3
Corpus
• ACL Anthology Network
• Environ 20 360 articles avec leurs méta-informations
• Nombre de lien : 110 930 référence...
Méta-information disponible
id = {A00-1002}
author = {Hajič, Jan; Hric, Jan; Kuboň, Vladislav}
title = {Machine Translatio...
Construction de la base RDF
• Uniformisation des accents.
• Utilisation des vocabulaires Dublin Code et Friend of a Friend...
7
Exemple de conversion
acl:A00-1002 dc:title "Machine Translation Of Very Close Languages"^^xsd:string ;
dc:isPartOf acl:...
8
Construction des fichiers XML.
• Utilisation de la base RDF pour construire les méta-informations.
• Division des sectio...
9
Facettes d’une citance
Un résumé par facette.
• Simone Teufel : other, contras , basis.
• TAC : hypothesis, methods, res...
Lexique scientifique transdisciplinaire
• Patrick Drouin, 2010.
10
Ability (nom) Background (nom) Calculate (verbe) Data (...
Classification des citances
Citances
Annotés
Lexitrans
Classifieur
Classifieur
de
citances
11
Sélection d’un sous ensemble du lexitrans
12
Génération
100 ensembles
• Ajout d’un mot
• Suppression d’un
mot
• Union de d...
Mots choisis
Discussion
(93 mots)
Results
(76 mots)
Implication
(45 mots)
Method
(34 mots)
Hypothesis
(20 mots)
Show Data ...
Résultats
TAC 2014 CL-2014
Nombre d’articles 200 84
Nombre de citances 313 141
Nombre d’annotateurs 4 1
Classification des...
Conclusion
• Il y a un intérêt pour les résumés d’articles scientifiques et leurs
impacts: TAC 2014, Comp Ling Summarizati...
Questions ?
16
Prochain SlideShare
Chargement dans…5
×

Utilisation des citations pour le résumé automatique de la contribution d'articles scientifiques

454 vues

Publié le

Présentation de Bruno Malenfant dans le cadre du colloque "Une plateforme de recherche et d’expérimentation pour l’édition ouverte" organisée le 25 mai 2015.

Publié dans : Données & analyses
0 commentaire
0 j’aime
Statistiques
Remarques
  • Soyez le premier à commenter

  • Soyez le premier à aimer ceci

Aucun téléchargement
Vues
Nombre de vues
454
Sur SlideShare
0
Issues des intégrations
0
Intégrations
219
Actions
Partages
0
Téléchargements
4
Commentaires
0
J’aime
0
Intégrations 0
Aucune incorporation

Aucune remarque pour cette diapositive

Utilisation des citations pour le résumé automatique de la contribution d'articles scientifiques

  1. 1. Utilisation des citations pour le résumé automatique de la contribution d'articles scientifiques par Bruno Malenfant Directeur de thèse : Guy Lapalme Université de Montréal
  2. 2. RP CP CP CP • C1 • C2 • C3 • C4 • C5 • C6 • C2 • C5 Extrait Résumé 2
  3. 3. Articles Articles XML Base RDF Facette citance Extraction Choisir citances Résumé 3
  4. 4. Corpus • ACL Anthology Network • Environ 20 360 articles avec leurs méta-informations • Nombre de lien : 110 930 références • Compétitions • CL 2014 : 10 articles (RP) pré-annotés avec les 84 articles les citant (CP). • TAC 2014 : 20 articles (RP) pré-annotés avec les 200 articles les citant (CP). 4
  5. 5. Méta-information disponible id = {A00-1002} author = {Hajič, Jan; Hric, Jan; Kuboň, Vladislav} title = {Machine Translation Of Very Close Languages} venue = {Applied Natural Language Processing Conference And Meeting Of The North American Association For Computational Linguistics} year = {2000} A00-1002 ==> C90-3057 A00-1002 ==> P98-1080 5
  6. 6. Construction de la base RDF • Uniformisation des accents. • Utilisation des vocabulaires Dublin Code et Friend of a Friend. • Identificateur unique • Auteurs • Journaux, proceeding, workshop. • Sérialisation en format Turtle. • 280 000 triplets. 6
  7. 7. 7 Exemple de conversion acl:A00-1002 dc:title "Machine Translation Of Very Close Languages"^^xsd:string ; dc:isPartOf acl:A00-1 ; dc:creator [ a rdf:Seq ; rdf:_1 acl:jan_hajič ; rdf:_2 acl:jan_hric ; rdf:_3 acl:vladislav_kuboň ] ; dc:references acl:C90-3057 , acl:P98-1080 . acl:A00-1 dc:title "Applied Natural Language Processing Conference And Meeting Of The North American Association For Computational Linguistics"^^xsd:string ; dc:date "2000"^^xsd:gYear . acl:jan_hajič foaf:familyName "Hajič"^^xsd:string ; foaf:givenName "Jan"^^xsd:string . acl:jan_hric foaf:familyName "Hric"^^xsd:string ; foaf:givenName "Jan"^^xsd:string . acl:vladislav_kuboň foaf:familyName "Kuboň"^^xsd:string ; foaf:givenName "Vladislav"^^xsd:string .
  8. 8. 8 Construction des fichiers XML. • Utilisation de la base RDF pour construire les méta-informations. • Division des sections : • Abstract • Introduction et sections • Reference • Utilisation du standard JATS/XML. • Liens avec les identificateurs uniques.
  9. 9. 9 Facettes d’une citance Un résumé par facette. • Simone Teufel : other, contras , basis. • TAC : hypothesis, methods, results, implication, discussion. • CL-Summ : hypothesis, methods, results, implication, aims. • CiTO : • Positive : confirms, credits, extends, obtainsSupportFrom, supports, updates. • Négative : corrects, critiques, disagreesWith, qualifies, refutes. • Neutre : discusses, reviews.
  10. 10. Lexique scientifique transdisciplinaire • Patrick Drouin, 2010. 10 Ability (nom) Background (nom) Calculate (verbe) Data (nom) Easily (adv) Able (adj) Backward (adv) Calculation (nom) Date (nom) Easy (adj) About (adv) Barrier (nom) Call (verbe) Date (verbe) Economy (nom) Above (adj) Base (nom) Call (nom) Day (nom) Effect (nom) Above (adv) Base (verbe) Called (adj) Daylight (nom) Effect (verbe) Absence (nom) Basic (adj) Capability (nom) Deal (verbe) Effectively (adv) Absent (adj) Basis (nom) Capable (adj) Death (nom) Efficacy (nom) Absolute (adj) Bearing (nom) Capacity (nom) Decision (nom) Efficiency (nom) Absolutely (adv) Before (adv) Care (nom) Decrease (nom) Efficient (adj) Abstract (adj) Beforehand (adv) Carefully (adv) Decrease (verbe) Effort (nom) Quelques un des 1627 mots
  11. 11. Classification des citances Citances Annotés Lexitrans Classifieur Classifieur de citances 11
  12. 12. Sélection d’un sous ensemble du lexitrans 12 Génération 100 ensembles • Ajout d’un mot • Suppression d’un mot • Union de deux sous- ensembles Sélection Show Will Data Even Will Data View Even Will Effect Word View Verify Want Width Effect Word View Ensembles initiaux : aléatoire 1000 ensembles 15 générations
  13. 13. Mots choisis Discussion (93 mots) Results (76 mots) Implication (45 mots) Method (34 mots) Hypothesis (20 mots) Show Data Approach Data Will Evidence Similar Identification Approach Similar Data Show Data Determine Show Similar Effect Evidence Following Exclusively Effect Further Defined Similar Develop Even Significantly Will Region Uniform Crucial Contrast Show Further Defined 13 Les sept mots les plus communs pour chaque facette après l’entrainement.
  14. 14. Résultats TAC 2014 CL-2014 Nombre d’articles 200 84 Nombre de citances 313 141 Nombre d’annotateurs 4 1 Classification des citances 47.2% 67.7% Classification des textes référés 57.7% 88.0% Annotateurs humains 66.6% 100.0% 14 • Mesure de corrélation = nombre d’annotateurs en accord / nombre d’annotateurs • Le texte référé est une partie de l’article cité, correspondant à la citation.
  15. 15. Conclusion • Il y a un intérêt pour les résumés d’articles scientifiques et leurs impacts: TAC 2014, Comp Ling Summarization. • Les citances donnent de l’information nouvelle et utile pour mesurer l’impact d’un article. • Nous avons proposé des techniques pour : • Transformer l’AAN en une base RDF et XML. • Détecter le rôle des citances. • À venir • Déterminer la portée d’une citance. • Résumé des impacts. 15
  16. 16. Questions ? 16

×