SlideShare une entreprise Scribd logo
1  sur  16
Utilisation des citations pour le
résumé automatique de la
contribution d'articles
scientifiques
par Bruno Malenfant
Directeur de thèse : Guy Lapalme
Université de Montréal
RP
CP
CP
CP
• C1
• C2
• C3
• C4
• C5
• C6
• C2
• C5
Extrait
Résumé
2
Articles
Articles
XML
Base
RDF
Facette citance
Extraction
Choisir citances
Résumé
3
Corpus
• ACL Anthology Network
• Environ 20 360 articles avec leurs méta-informations
• Nombre de lien : 110 930 références
• Compétitions
• CL 2014 : 10 articles (RP) pré-annotés avec les 84 articles les citant (CP).
• TAC 2014 : 20 articles (RP) pré-annotés avec les 200 articles les citant (CP).
4
Méta-information disponible
id = {A00-1002}
author = {Hajič, Jan; Hric, Jan; Kuboň, Vladislav}
title = {Machine Translation Of Very Close Languages}
venue = {Applied Natural Language Processing Conference
And Meeting Of The North American Association
For Computational Linguistics}
year = {2000}
A00-1002 ==> C90-3057
A00-1002 ==> P98-1080
5
Construction de la base RDF
• Uniformisation des accents.
• Utilisation des vocabulaires Dublin Code et Friend of a Friend.
• Identificateur unique
• Auteurs
• Journaux, proceeding, workshop.
• Sérialisation en format Turtle.
• 280 000 triplets.
6
7
Exemple de conversion
acl:A00-1002 dc:title "Machine Translation Of Very Close Languages"^^xsd:string ;
dc:isPartOf acl:A00-1 ;
dc:creator [ a rdf:Seq ;
rdf:_1 acl:jan_hajič ;
rdf:_2 acl:jan_hric ;
rdf:_3 acl:vladislav_kuboň ] ;
dc:references acl:C90-3057 , acl:P98-1080 .
acl:A00-1 dc:title "Applied Natural Language Processing Conference And Meeting Of The
North American Association For Computational Linguistics"^^xsd:string ;
dc:date "2000"^^xsd:gYear .
acl:jan_hajič
foaf:familyName "Hajič"^^xsd:string ;
foaf:givenName "Jan"^^xsd:string .
acl:jan_hric
foaf:familyName "Hric"^^xsd:string ;
foaf:givenName "Jan"^^xsd:string .
acl:vladislav_kuboň
foaf:familyName "Kuboň"^^xsd:string ;
foaf:givenName "Vladislav"^^xsd:string .
8
Construction des fichiers XML.
• Utilisation de la base RDF pour construire les méta-informations.
• Division des sections :
• Abstract
• Introduction et sections
• Reference
• Utilisation du standard JATS/XML.
• Liens avec les identificateurs uniques.
9
Facettes d’une citance
Un résumé par facette.
• Simone Teufel : other, contras , basis.
• TAC : hypothesis, methods, results, implication, discussion.
• CL-Summ : hypothesis, methods, results, implication, aims.
• CiTO :
• Positive : confirms, credits, extends, obtainsSupportFrom, supports,
updates.
• Négative : corrects, critiques, disagreesWith, qualifies, refutes.
• Neutre : discusses, reviews.
Lexique scientifique transdisciplinaire
• Patrick Drouin, 2010.
10
Ability (nom) Background (nom) Calculate (verbe) Data (nom) Easily (adv)
Able (adj) Backward (adv) Calculation (nom) Date (nom) Easy (adj)
About (adv) Barrier (nom) Call (verbe) Date (verbe) Economy (nom)
Above (adj) Base (nom) Call (nom) Day (nom) Effect (nom)
Above (adv) Base (verbe) Called (adj) Daylight (nom) Effect (verbe)
Absence (nom) Basic (adj) Capability (nom) Deal (verbe) Effectively (adv)
Absent (adj) Basis (nom) Capable (adj) Death (nom) Efficacy (nom)
Absolute (adj) Bearing (nom) Capacity (nom) Decision (nom) Efficiency (nom)
Absolutely (adv) Before (adv) Care (nom) Decrease (nom) Efficient (adj)
Abstract (adj) Beforehand (adv) Carefully (adv) Decrease (verbe) Effort (nom)
Quelques un des 1627 mots
Classification des citances
Citances
Annotés
Lexitrans
Classifieur
Classifieur
de
citances
11
Sélection d’un sous ensemble du lexitrans
12
Génération
100 ensembles
• Ajout d’un mot
• Suppression d’un
mot
• Union de deux sous-
ensembles
Sélection
Show
Will
Data
Even
Will
Data
View
Even
Will
Effect
Word
View
Verify
Want
Width
Effect
Word
View
Ensembles initiaux : aléatoire
1000 ensembles
15 générations
Mots choisis
Discussion
(93 mots)
Results
(76 mots)
Implication
(45 mots)
Method
(34 mots)
Hypothesis
(20 mots)
Show Data Approach Data Will
Evidence Similar Identification Approach Similar
Data Show Data Determine Show
Similar Effect Evidence Following Exclusively
Effect Further Defined Similar Develop
Even Significantly Will Region Uniform
Crucial Contrast Show Further Defined
13
Les sept mots les plus communs pour chaque facette après l’entrainement.
Résultats
TAC 2014 CL-2014
Nombre d’articles 200 84
Nombre de citances 313 141
Nombre d’annotateurs 4 1
Classification des citances 47.2% 67.7%
Classification des textes référés 57.7% 88.0%
Annotateurs humains 66.6% 100.0%
14
• Mesure de corrélation = nombre d’annotateurs en accord / nombre d’annotateurs
• Le texte référé est une partie de l’article cité, correspondant à la citation.
Conclusion
• Il y a un intérêt pour les résumés d’articles scientifiques et leurs
impacts: TAC 2014, Comp Ling Summarization.
• Les citances donnent de l’information nouvelle et utile pour mesurer
l’impact d’un article.
• Nous avons proposé des techniques pour :
• Transformer l’AAN en une base RDF et XML.
• Détecter le rôle des citances.
• À venir
• Déterminer la portée d’une citance.
• Résumé des impacts.
15
Questions ?
16

Contenu connexe

En vedette

Comment VéRifier L’Activation Des Cookies
Comment VéRifier L’Activation Des CookiesComment VéRifier L’Activation Des Cookies
Comment VéRifier L’Activation Des Cookies
stamiu
 
soirée étudiantes 2
soirée étudiantes 2soirée étudiantes 2
soirée étudiantes 2
guestfe9508
 
Los Grandes Del Futbol
Los Grandes Del FutbolLos Grandes Del Futbol
Los Grandes Del Futbol
Jdavids-Garcia
 
Pourquoi les blogs ne sont pas morts ?
Pourquoi les blogs ne sont pas morts ?Pourquoi les blogs ne sont pas morts ?
Pourquoi les blogs ne sont pas morts ?
Vanina Delobelle
 
Sondage Personal Branding au service de la marque par L'Atelier et l'Ifop
Sondage Personal Branding au service de la marque par L'Atelier et l'IfopSondage Personal Branding au service de la marque par L'Atelier et l'Ifop
Sondage Personal Branding au service de la marque par L'Atelier et l'Ifop
L'Atelier BNP Paribas
 
Bonne AnnéE 2008
Bonne AnnéE 2008Bonne AnnéE 2008
Bonne AnnéE 2008
seaufille
 

En vedette (20)

Comment VéRifier L’Activation Des Cookies
Comment VéRifier L’Activation Des CookiesComment VéRifier L’Activation Des Cookies
Comment VéRifier L’Activation Des Cookies
 
soirée étudiantes 2
soirée étudiantes 2soirée étudiantes 2
soirée étudiantes 2
 
Los Grandes Del Futbol
Los Grandes Del FutbolLos Grandes Del Futbol
Los Grandes Del Futbol
 
Empresas limpieza madrid
Empresas limpieza madridEmpresas limpieza madrid
Empresas limpieza madrid
 
MEL&MOI
MEL&MOIMEL&MOI
MEL&MOI
 
Pourquoi les blogs ne sont pas morts ?
Pourquoi les blogs ne sont pas morts ?Pourquoi les blogs ne sont pas morts ?
Pourquoi les blogs ne sont pas morts ?
 
Le Fou!
Le Fou!Le Fou!
Le Fou!
 
Spa Show
Spa ShowSpa Show
Spa Show
 
Des images de Paris
Des images de ParisDes images de Paris
Des images de Paris
 
Galanterie
GalanterieGalanterie
Galanterie
 
Sondage Personal Branding au service de la marque par L'Atelier et l'Ifop
Sondage Personal Branding au service de la marque par L'Atelier et l'IfopSondage Personal Branding au service de la marque par L'Atelier et l'Ifop
Sondage Personal Branding au service de la marque par L'Atelier et l'Ifop
 
Esiea
EsieaEsiea
Esiea
 
Troisgars
TroisgarsTroisgars
Troisgars
 
Double Vision
Double VisionDouble Vision
Double Vision
 
el amor
el amor el amor
el amor
 
Doink
DoinkDoink
Doink
 
Oleron
OleronOleron
Oleron
 
Prescours1 Pbt1000
Prescours1 Pbt1000Prescours1 Pbt1000
Prescours1 Pbt1000
 
Bonne AnnéE 2008
Bonne AnnéE 2008Bonne AnnéE 2008
Bonne AnnéE 2008
 
Fleurs Cohabiter
Fleurs CohabiterFleurs Cohabiter
Fleurs Cohabiter
 

Similaire à Utilisation des citations pour le résumé automatique de la contribution d'articles scientifiques

Adbs2012presentation 120527125034-phpapp02
Adbs2012presentation 120527125034-phpapp02Adbs2012presentation 120527125034-phpapp02
Adbs2012presentation 120527125034-phpapp02
ABES
 
Masterclasse i-expo 2011 : Pour un véritable accès unifié à l'information
Masterclasse i-expo 2011 : Pour un véritable accès unifié à l'informationMasterclasse i-expo 2011 : Pour un véritable accès unifié à l'information
Masterclasse i-expo 2011 : Pour un véritable accès unifié à l'information
Antidot
 

Similaire à Utilisation des citations pour le résumé automatique de la contribution d'articles scientifiques (9)

Données liées et Web sémantique : quand le lien fait sens.
Données liées et Web sémantique : quand le lien fait sens. Données liées et Web sémantique : quand le lien fait sens.
Données liées et Web sémantique : quand le lien fait sens.
 
Jabes 2011 - Ateliers "Sudoc, Calames, thèses.fr et le web de données"
Jabes 2011 - Ateliers "Sudoc, Calames, thèses.fr et le web de données"Jabes 2011 - Ateliers "Sudoc, Calames, thèses.fr et le web de données"
Jabes 2011 - Ateliers "Sudoc, Calames, thèses.fr et le web de données"
 
Jabes 2012 - Tutoriel, vers le Web de données
Jabes 2012 - Tutoriel, vers le Web de donnéesJabes 2012 - Tutoriel, vers le Web de données
Jabes 2012 - Tutoriel, vers le Web de données
 
Open data & linked data
Open data & linked dataOpen data & linked data
Open data & linked data
 
quand le lien fait sens
quand le lien fait sensquand le lien fait sens
quand le lien fait sens
 
Modèles de données et langages de description ouverts 5 - 2021-2022
Modèles de données et langages de description ouverts   5 - 2021-2022Modèles de données et langages de description ouverts   5 - 2021-2022
Modèles de données et langages de description ouverts 5 - 2021-2022
 
Cemagref
CemagrefCemagref
Cemagref
 
Adbs2012presentation 120527125034-phpapp02
Adbs2012presentation 120527125034-phpapp02Adbs2012presentation 120527125034-phpapp02
Adbs2012presentation 120527125034-phpapp02
 
Masterclasse i-expo 2011 : Pour un véritable accès unifié à l'information
Masterclasse i-expo 2011 : Pour un véritable accès unifié à l'informationMasterclasse i-expo 2011 : Pour un véritable accès unifié à l'information
Masterclasse i-expo 2011 : Pour un véritable accès unifié à l'information
 

Plus de Érudit

Plus de Érudit (9)

Partnership for Open Access : Érudit webinar
Partnership for Open Access : Érudit webinar Partnership for Open Access : Érudit webinar
Partnership for Open Access : Érudit webinar
 
Partenariat pour la diffusion en libre accès
Partenariat pour la diffusion en libre accèsPartenariat pour la diffusion en libre accès
Partenariat pour la diffusion en libre accès
 
Open Access Network Presentation
Open Access Network PresentationOpen Access Network Presentation
Open Access Network Presentation
 
Les transformations de l'édition savante à l'ère numérique
Les transformations de l'édition savante à l'ère numériqueLes transformations de l'édition savante à l'ère numérique
Les transformations de l'édition savante à l'ère numérique
 
A Library-Publisher Partnership for Open access
A Library-Publisher Partnership for Open accessA Library-Publisher Partnership for Open access
A Library-Publisher Partnership for Open access
 
Fouille de textes et cartographie thématique des corpus numériques
Fouille de textes et cartographie thématique des corpus numériquesFouille de textes et cartographie thématique des corpus numériques
Fouille de textes et cartographie thématique des corpus numériques
 
Valorisation du fonds documentaire numérique pour la recherche
Valorisation du fonds documentaire numérique pour la rechercheValorisation du fonds documentaire numérique pour la recherche
Valorisation du fonds documentaire numérique pour la recherche
 
Fouille textuelle de revues intellectuelles québécoises
Fouille textuelle de revues intellectuelles québécoisesFouille textuelle de revues intellectuelles québécoises
Fouille textuelle de revues intellectuelles québécoises
 
Projets de données liées chez Canadiana.org
Projets de données liées chez Canadiana.orgProjets de données liées chez Canadiana.org
Projets de données liées chez Canadiana.org
 

Utilisation des citations pour le résumé automatique de la contribution d'articles scientifiques

  • 1. Utilisation des citations pour le résumé automatique de la contribution d'articles scientifiques par Bruno Malenfant Directeur de thèse : Guy Lapalme Université de Montréal
  • 2. RP CP CP CP • C1 • C2 • C3 • C4 • C5 • C6 • C2 • C5 Extrait Résumé 2
  • 4. Corpus • ACL Anthology Network • Environ 20 360 articles avec leurs méta-informations • Nombre de lien : 110 930 références • Compétitions • CL 2014 : 10 articles (RP) pré-annotés avec les 84 articles les citant (CP). • TAC 2014 : 20 articles (RP) pré-annotés avec les 200 articles les citant (CP). 4
  • 5. Méta-information disponible id = {A00-1002} author = {Hajič, Jan; Hric, Jan; Kuboň, Vladislav} title = {Machine Translation Of Very Close Languages} venue = {Applied Natural Language Processing Conference And Meeting Of The North American Association For Computational Linguistics} year = {2000} A00-1002 ==> C90-3057 A00-1002 ==> P98-1080 5
  • 6. Construction de la base RDF • Uniformisation des accents. • Utilisation des vocabulaires Dublin Code et Friend of a Friend. • Identificateur unique • Auteurs • Journaux, proceeding, workshop. • Sérialisation en format Turtle. • 280 000 triplets. 6
  • 7. 7 Exemple de conversion acl:A00-1002 dc:title "Machine Translation Of Very Close Languages"^^xsd:string ; dc:isPartOf acl:A00-1 ; dc:creator [ a rdf:Seq ; rdf:_1 acl:jan_hajič ; rdf:_2 acl:jan_hric ; rdf:_3 acl:vladislav_kuboň ] ; dc:references acl:C90-3057 , acl:P98-1080 . acl:A00-1 dc:title "Applied Natural Language Processing Conference And Meeting Of The North American Association For Computational Linguistics"^^xsd:string ; dc:date "2000"^^xsd:gYear . acl:jan_hajič foaf:familyName "Hajič"^^xsd:string ; foaf:givenName "Jan"^^xsd:string . acl:jan_hric foaf:familyName "Hric"^^xsd:string ; foaf:givenName "Jan"^^xsd:string . acl:vladislav_kuboň foaf:familyName "Kuboň"^^xsd:string ; foaf:givenName "Vladislav"^^xsd:string .
  • 8. 8 Construction des fichiers XML. • Utilisation de la base RDF pour construire les méta-informations. • Division des sections : • Abstract • Introduction et sections • Reference • Utilisation du standard JATS/XML. • Liens avec les identificateurs uniques.
  • 9. 9 Facettes d’une citance Un résumé par facette. • Simone Teufel : other, contras , basis. • TAC : hypothesis, methods, results, implication, discussion. • CL-Summ : hypothesis, methods, results, implication, aims. • CiTO : • Positive : confirms, credits, extends, obtainsSupportFrom, supports, updates. • Négative : corrects, critiques, disagreesWith, qualifies, refutes. • Neutre : discusses, reviews.
  • 10. Lexique scientifique transdisciplinaire • Patrick Drouin, 2010. 10 Ability (nom) Background (nom) Calculate (verbe) Data (nom) Easily (adv) Able (adj) Backward (adv) Calculation (nom) Date (nom) Easy (adj) About (adv) Barrier (nom) Call (verbe) Date (verbe) Economy (nom) Above (adj) Base (nom) Call (nom) Day (nom) Effect (nom) Above (adv) Base (verbe) Called (adj) Daylight (nom) Effect (verbe) Absence (nom) Basic (adj) Capability (nom) Deal (verbe) Effectively (adv) Absent (adj) Basis (nom) Capable (adj) Death (nom) Efficacy (nom) Absolute (adj) Bearing (nom) Capacity (nom) Decision (nom) Efficiency (nom) Absolutely (adv) Before (adv) Care (nom) Decrease (nom) Efficient (adj) Abstract (adj) Beforehand (adv) Carefully (adv) Decrease (verbe) Effort (nom) Quelques un des 1627 mots
  • 12. Sélection d’un sous ensemble du lexitrans 12 Génération 100 ensembles • Ajout d’un mot • Suppression d’un mot • Union de deux sous- ensembles Sélection Show Will Data Even Will Data View Even Will Effect Word View Verify Want Width Effect Word View Ensembles initiaux : aléatoire 1000 ensembles 15 générations
  • 13. Mots choisis Discussion (93 mots) Results (76 mots) Implication (45 mots) Method (34 mots) Hypothesis (20 mots) Show Data Approach Data Will Evidence Similar Identification Approach Similar Data Show Data Determine Show Similar Effect Evidence Following Exclusively Effect Further Defined Similar Develop Even Significantly Will Region Uniform Crucial Contrast Show Further Defined 13 Les sept mots les plus communs pour chaque facette après l’entrainement.
  • 14. Résultats TAC 2014 CL-2014 Nombre d’articles 200 84 Nombre de citances 313 141 Nombre d’annotateurs 4 1 Classification des citances 47.2% 67.7% Classification des textes référés 57.7% 88.0% Annotateurs humains 66.6% 100.0% 14 • Mesure de corrélation = nombre d’annotateurs en accord / nombre d’annotateurs • Le texte référé est une partie de l’article cité, correspondant à la citation.
  • 15. Conclusion • Il y a un intérêt pour les résumés d’articles scientifiques et leurs impacts: TAC 2014, Comp Ling Summarization. • Les citances donnent de l’information nouvelle et utile pour mesurer l’impact d’un article. • Nous avons proposé des techniques pour : • Transformer l’AAN en une base RDF et XML. • Détecter le rôle des citances. • À venir • Déterminer la portée d’une citance. • Résumé des impacts. 15