Vers une amélioration
des résumés automatiques de textes
ARIES Abdelkrime
Encadré par: Pr. ZEGOUR Djamal Eddine
Co-encadré...
Problématique
Notre système (All Summarizer)
Nos contributions
Conclusion et perspectives
Plan
1 Problématique
2 Notre sys...
Problématique
Notre système (All Summarizer)
Nos contributions
Conclusion et perspectives
Introduction
Description du prob...
Problématique
Notre système (All Summarizer)
Nos contributions
Conclusion et perspectives
Introduction
Description du prob...
Problématique
Notre système (All Summarizer)
Nos contributions
Conclusion et perspectives
Introduction
Description du prob...
Problématique
Notre système (All Summarizer)
Nos contributions
Conclusion et perspectives
Introduction
Description du prob...
Problématique
Notre système (All Summarizer)
Nos contributions
Conclusion et perspectives
Prétraitement
Traitement
Extract...
Problématique
Notre système (All Summarizer)
Nos contributions
Conclusion et perspectives
Prétraitement
Traitement
Extract...
Problématique
Notre système (All Summarizer)
Nos contributions
Conclusion et perspectives
Prétraitement
Traitement
Extract...
Problématique
Notre système (All Summarizer)
Nos contributions
Conclusion et perspectives
Prétraitement
Traitement
Extract...
Problématique
Notre système (All Summarizer)
Nos contributions
Conclusion et perspectives
Prétraitement
Traitement
Extract...
Problématique
Notre système (All Summarizer)
Nos contributions
Conclusion et perspectives
Prétraitement
Traitement
Extract...
Problématique
Notre système (All Summarizer)
Nos contributions
Conclusion et perspectives
Prétraitement
Traitement
Extract...
Problématique
Notre système (All Summarizer)
Nos contributions
Conclusion et perspectives
Estimation des paramètres de rés...
Problématique
Notre système (All Summarizer)
Nos contributions
Conclusion et perspectives
Estimation des paramètres de rés...
Problématique
Notre système (All Summarizer)
Nos contributions
Conclusion et perspectives
Estimation des paramètres de rés...
Problématique
Notre système (All Summarizer)
Nos contributions
Conclusion et perspectives
Estimation des paramètres de rés...
Problématique
Notre système (All Summarizer)
Nos contributions
Conclusion et perspectives
Estimation des paramètres de rés...
Problématique
Notre système (All Summarizer)
Nos contributions
Conclusion et perspectives
Estimation des paramètres de rés...
Problématique
Notre système (All Summarizer)
Nos contributions
Conclusion et perspectives
Estimation des paramètres de rés...
Problématique
Notre système (All Summarizer)
Nos contributions
Conclusion et perspectives
Conclusion
Perspectives
Conclusi...
Problématique
Notre système (All Summarizer)
Nos contributions
Conclusion et perspectives
Conclusion
Perspectives
Conclusi...
Problématique
Notre système (All Summarizer)
Nos contributions
Conclusion et perspectives
Conclusion
Perspectives
Perspect...
Problématique
Notre système (All Summarizer)
Nos contributions
Conclusion et perspectives
Conclusion
Perspectives
Fin ...
...
Problématique
Notre système (All Summarizer)
Nos contributions
Conclusion et perspectives
Conclusion
Perspectives
Bibliogr...
Prochain SlideShare
Chargement dans…5
×

Etat d'avancement 2014/2015

483 vues

Publié le

Etat d'avancement de lla thèse doctorat pour l'année 2014/2015

Publié dans : Ingénierie
0 commentaire
0 j’aime
Statistiques
Remarques
  • Soyez le premier à commenter

  • Soyez le premier à aimer ceci

Aucun téléchargement
Vues
Nombre de vues
483
Sur SlideShare
0
Issues des intégrations
0
Intégrations
4
Actions
Partages
0
Téléchargements
21
Commentaires
0
J’aime
0
Intégrations 0
Aucune incorporation

Aucune remarque pour cette diapositive

Etat d'avancement 2014/2015

  1. 1. Vers une amélioration des résumés automatiques de textes ARIES Abdelkrime Encadré par: Pr. ZEGOUR Djamal Eddine Co-encadré par: Pr. HIDOUCI Khaled Walid École nationale Supérieure d’Informatique (ESI, ex. INI), Algérie État d’avancement deuxième année: 2014/2015
  2. 2. Problématique Notre système (All Summarizer) Nos contributions Conclusion et perspectives Plan 1 Problématique 2 Notre système (All Summarizer) 3 Nos contributions 4 Conclusion et perspectives ARIES Abdelkrime (ESI 2014) Vers une amélioration des résumés automatiques de textes
  3. 3. Problématique Notre système (All Summarizer) Nos contributions Conclusion et perspectives Introduction Description du problématique Problématique ARIES Abdelkrime (ESI 2014) Vers une amélioration des résumés automatiques de textes
  4. 4. Problématique Notre système (All Summarizer) Nos contributions Conclusion et perspectives Introduction Description du problématique Motivation Augmentation du contenu dans le web, Plusieurs sources et langues ⇒ Utilisation de résumé automatique Workshop pour le résumé automatique (ex. workshop "MultiLing" ) ARIES Abdelkrime (ESI 2014) Vers une amélioration des résumés automatiques de textes
  5. 5. Problématique Notre système (All Summarizer) Nos contributions Conclusion et perspectives Introduction Description du problématique Problématique Les méthodes extractives résultent des résumés non cohérents Les méthodes abstractives consomment beaucoup de ressources L’utilisation de l’apprentissage entraîne la dépendance du système au langue et genre du corpus. ARIES Abdelkrime (ESI 2014) Vers une amélioration des résumés automatiques de textes
  6. 6. Problématique Notre système (All Summarizer) Nos contributions Conclusion et perspectives Introduction Description du problématique Objectifs Créer une méthode complètement multilingue. Améliorer la solution proposée dans [1]. Minimiser les problèmes de lisibilité et de cohérence pour le résumé résultant. ARIES Abdelkrime (ESI 2014) Vers une amélioration des résumés automatiques de textes
  7. 7. Problématique Notre système (All Summarizer) Nos contributions Conclusion et perspectives Prétraitement Traitement Extraction Notre système (All Summarizer) ARIES Abdelkrime (ESI 2014) Vers une amélioration des résumés automatiques de textes
  8. 8. Problématique Notre système (All Summarizer) Nos contributions Conclusion et perspectives Prétraitement Traitement Extraction Notre système (All Summarizer) Architecture générale Input document(s) Summary Pre-processing Normalizer Segmenter Stemmer Stop-word eliminator List of sentences List of pre-processed words for each sentence Processing Clustering Learning Scoring List of clusters Summary size P(f|C) Extraction Extraction Sentences scores ReOrdering List of first higher scored sentences Reordered sentences ARIES Abdelkrime (ESI 2014) Vers une amélioration des résumés automatiques de textes
  9. 9. Problématique Notre système (All Summarizer) Nos contributions Conclusion et perspectives Prétraitement Traitement Extraction Prétraitement Tâche Outils Langues Segmentation des phrases openNLP Nl, En, De, It, Pt, Th JHazm Fa Regex Le reste Segmentation des mots openNlp Nl, En, De, It, Pt, Th Lucene Zh, Ja Regex Le reste Radicalisation Shereen Khoja Ar JHazm Fa HebMorph He Lucene Bg, Cs, El, Hi, Id, Ja, No Snowball Eu, Ca, Nl, En (Porter), Fi, Fr, De, Hu, It, Pt, Ro, Ru, Es, Sv, Tr / Le reste ARIES Abdelkrime (ESI 2014) Vers une amélioration des résumés automatiques de textes
  10. 10. Problématique Notre système (All Summarizer) Nos contributions Conclusion et perspectives Prétraitement Traitement Extraction Traitement Regroupement Input text (D) i <= |D| Sim = Cosine(Si,Sj) j = i + 1 j <= |D| i = 1 Sim > Th Ci = Ci + {Si} j++ For each sentence, Find similar sentences C is the set of clusters i <= |C| j = |C| j >= 1 Ci ⊂ Cj C = C - Ci Delete clusters included in others Preprocessing Ci = Ci + {Sj} i = 1 C = C + {Ci}i++ j-- Yes Yes Yes Yes Yes YesNo No No No No No ARIES Abdelkrime (ESI 2014) Vers une amélioration des résumés automatiques de textes
  11. 11. Problématique Notre système (All Summarizer) Nos contributions Conclusion et perspectives Prétraitement Traitement Extraction Traitement Apprentissage Pf (f = φ|cj) = |φ ∈ cj| cl∈C |φ ∈ cl| f : critère de sélection, φ : observation de f, C : ensemble de clusters. f ∈ Fréquence des termes (unigram) (TFU) Fréquence des termes (bigram) (TFB) Position de la phrase (Pos) Longueur de la phrase (Rleng, PLeng) ARIES Abdelkrime (ESI 2014) Vers une amélioration des résumés automatiques de textes
  12. 12. Problématique Notre système (All Summarizer) Nos contributions Conclusion et perspectives Prétraitement Traitement Extraction Traitement Score des phrases Score(si, cj, fk ) = 1 + φ∈si P(fk = φ|si ∈ cj) Score(si, j cj, F) = j k Score(si, cj, fk ) s : phrase, c : cluster, f : critère de sélection, F : ensemble des critères utilisées, φ : observation de f. ARIES Abdelkrime (ESI 2014) Vers une amélioration des résumés automatiques de textes
  13. 13. Problématique Notre système (All Summarizer) Nos contributions Conclusion et perspectives Prétraitement Traitement Extraction Extraction ARIES Abdelkrime (ESI 2014) Vers une amélioration des résumés automatiques de textes
  14. 14. Problématique Notre système (All Summarizer) Nos contributions Conclusion et perspectives Estimation des paramètres de résumé Participation à MultiLing’15 (SIGDIAL’15) Nos contributions Notre travail pour l’année 2014/2015 ARIES Abdelkrime (ESI 2014) Vers une amélioration des résumés automatiques de textes
  15. 15. Problématique Notre système (All Summarizer) Nos contributions Conclusion et perspectives Estimation des paramètres de résumé Participation à MultiLing’15 (SIGDIAL’15) Estimation des paramètres de résumé Seuil de regroupemennt : mesures statistiques La médiane La moyenne arithmétique Le mode : bas et haut. La variance sDn = |s| |D|∗n Dsn = |D| n∗ |s| Ds = |D| |s| |s| : nombre de différentes termes dans une phrase s. |D| : nombre de différentes termes dans un document D. n : nombre de phrases dans ce document. ARIES Abdelkrime (ESI 2014) Vers une amélioration des résumés automatiques de textes
  16. 16. Problématique Notre système (All Summarizer) Nos contributions Conclusion et perspectives Estimation des paramètres de résumé Participation à MultiLing’15 (SIGDIAL’15) Estimation des paramètres de résumé La sélection des paramètres Tâche MMS - Corpus d’apprentissage - Anglais : TFU-TFB- Pos-RLeng TFU-TFB- Pos-PLeng TFU-TFB- RLeng- PLeng TFU-Pos- RLeng- PLeng TFB-Pos- RLeng- PLeng TFU- TFB-Pos- RLeng- PLeng M001 median 0.0909 0.1105 0.1259 0.1273 0.1385 0.0951 sDn 0.0783 0.0951 0.0895 0.1385 0.0951 0.1203 Lmode 0.1147 0.0937 0.1301 0.1497 0.1245 0.0923 Hmode 0.1147 0.0937 0.1301 0.1497 0.1245 0.0923 mean 0.0909 0.0909 0.1189 0.0923 0.1063 0.1357 variance 0.0783 0.0951 0.0895 0.1385 0.0951 0.1203 Ds 0.1119 0.1119 0.1063 0.1119 0.0531 0.1119 Dsn 0.0783 0.0951 0.0895 0.1385 0.0951 0.1203 . . . AVG median 0.0105 0.0108 0.0112 0.0109 0.0122 0.0102 sDn 0.0075 0.0095 0.0111 0.0110 0.0093 0.0106 Lmode 0.0106 0.0099 0.0115 0.0133 0.0133 0.0100 Hmode 0.0125 0.0095 0.0115 0.0125 0.0114 0.0100 mean 0.0109 0.0089 0.0120 0.0097 0.0117 0.0133 variance 0.0075 0.0095 0.0111 0.0110 0.0093 0.0106 Ds 0.0091 0.0086 0.0099 0.0100 0.0100 0.0088 Dsn 0.0075 0.0095 0.0111 0.0110 0.0093 0.0106 ARIES Abdelkrime (ESI 2014) Vers une amélioration des résumés automatiques de textes
  17. 17. Problématique Notre système (All Summarizer) Nos contributions Conclusion et perspectives Estimation des paramètres de résumé Participation à MultiLing’15 (SIGDIAL’15) Estimation des paramètres de résumé La sélection des paramètres Lang Single document (MSS) Multidocument (MMS) Th Features Th Features Ar Ds TFB, Pos, PLeng Ds TFB, Pos, RLeng, PLeng Cs HMode TFU, TFB, Pos, PLeng Ds TFB, Pos, PLeng El Median TFU, TFB, Pos, RLeng, PLeng LMode TFB, RLeng En Median TFU, Pos, RLeng, PLeng LMode TFB, Pos, RLeng, PLeng Es sDn TFB, PLeng Ds TFB, PLeng Fr Median TFB, Pos, RLeng Mean TFU, TFB, Pos, PLeng He Ds TFB, PLeng Median TFB, RLeng, PLeng Hi / / Ds TFB, Pos, RLeng, PLeng Ro HMode TFB, RLeng, PLeng sDn TFB, Pos, PLeng Zh HMode TFB, RLeng, PLeng sDn TFU, Pos, RLeng, PLeng ARIES Abdelkrime (ESI 2014) Vers une amélioration des résumés automatiques de textes
  18. 18. Problématique Notre système (All Summarizer) Nos contributions Conclusion et perspectives Estimation des paramètres de résumé Participation à MultiLing’15 (SIGDIAL’15) MultiLing’15 Critères de comparaison Soit AS = AllSummarizer S = Un autre système qui a participé avec n langues AVGS = n i=1 ScoreS(Li) n AVGAS = n i=1 ScoreAS(Li) n Amélioration relative (RI) : RI = AVGAS − AVGS AVGS ARIES Abdelkrime (ESI 2014) Vers une amélioration des résumés automatiques de textes
  19. 19. Problématique Notre système (All Summarizer) Nos contributions Conclusion et perspectives Estimation des paramètres de résumé Participation à MultiLing’15 (SIGDIAL’15) MultiLing’15 Mono document (Tâche MSS) Methods Our method improvement % R-1 R-2 R-3 R-4 R-SU4 BGU-SCE-M (ar, en, he) -09.19 -14.02 -19.39 -25.12 -11.07 EXB (all 38) -07.64 -10.55 -09.86 -07.92 -10.63 CCS (all 38) -07.33 -13.24 -10.95 -03.04 -07.40 BGU-SCE-P (ar, en, he) -04.33 -01.63 -02.69 -06.16 -01.89 UA-DLSI (en, de, es) +02.12 +06.25 +13.86 +17.15 +05.62 NTNU (en, zh) +06.44 +07.06 +11.50 +21.81 +05.74 Oracles (all 38) [TopLine] -31.64 -49.00 -63.80 -72.91 -36.77 Lead (all 38) [BaseLine] +02.39 +08.67 +08.20 +04.02 +05.82 ARIES Abdelkrime (ESI 2014) Vers une amélioration des résumés automatiques de textes
  20. 20. Problématique Notre système (All Summarizer) Nos contributions Conclusion et perspectives Estimation des paramètres de résumé Participation à MultiLing’15 (SIGDIAL’15) MultiLing’15 Multidocument (Tâche MMS) SysID Our method improvement % AutoSummENG MeMoG NPowER UJF-Grenoble (fr, en, el) -08.87 -14.55 -03.62 UWB (all 10) -22.56 -22.66 -07.54 ExB (all 10) -09.44 -09.16 -02.80 IDA-OCCAMS (all 10) -17.11 -17.68 -05.53 GiauUngVan (- zh, ro, es) -16.43 -19.40 -05.68 SCE-Poly (ar, en, he) -05.72 -03.35 -01.46 BUPT-CIST (all 10) +10.67 +11.53 +02.85 BGU-MUSE (ar, en ,he) +05.67 +06.92 +01.74 NCSR/SCIFY- NewSumRerank (- zh) +01.53 -01.25 +00.13 AllSummazer (MSS param) (all 10) +01.98 +02.35 +00.58 ARIES Abdelkrime (ESI 2014) Vers une amélioration des résumés automatiques de textes
  21. 21. Problématique Notre système (All Summarizer) Nos contributions Conclusion et perspectives Conclusion Perspectives Conclusion et perspectives ARIES Abdelkrime (ESI 2014) Vers une amélioration des résumés automatiques de textes
  22. 22. Problématique Notre système (All Summarizer) Nos contributions Conclusion et perspectives Conclusion Perspectives Conclusion Création d’une méthode multilingue Estimer les paramètres (seuil et critères) Tester le système par rapport aux systèmes récents (bonnes résultats) [2]. Estimer les paramètres selon le document et sans prendre considération de la langue ? ARIES Abdelkrime (ESI 2014) Vers une amélioration des résumés automatiques de textes
  23. 23. Problématique Notre système (All Summarizer) Nos contributions Conclusion et perspectives Conclusion Perspectives Perspectives Pour cette année, notre but est : Estimer les paramètres pour chaque document et pas pour chaque langue. Proposer une meilleure méthode pour la détection de similarité entre phrases. Améliorer l’ordonnancement des phrases après l’extraction. Améliorer la lisibilité du résumé généré (Anglais comme langue de début) : Couramment, on travaille sur une méthode pour représenter les phrases, en tenant compte de l’aspect multilingue. On a proposé une structure (partielle) basée sur JSON pour représenter les phrases. ARIES Abdelkrime (ESI 2014) Vers une amélioration des résumés automatiques de textes
  24. 24. Problématique Notre système (All Summarizer) Nos contributions Conclusion et perspectives Conclusion Perspectives Fin ... Merci pour votre attention ARIES Abdelkrime (ESI 2014) Vers une amélioration des résumés automatiques de textes
  25. 25. Problématique Notre système (All Summarizer) Nos contributions Conclusion et perspectives Conclusion Perspectives Bibliography I A. Aries, H. Oufaida, and O. Nouali, “Using clustering and a modified classification algorithm for automatic text summarization,” ser. Proc. SPIE, vol. 8658, 2013, pp. 865 811–865 811–9. [Online]. Available : http://dx.doi.org/10.1117/12.2004001 A. Aries, D. E. Zegour, and K. W. Hidouci, “Allsummarizer system at multiling 2015 : Multilingual single and multi-document summarization,” in Proceedings of the 16th Annual Meeting of the Special Interest Group on Discourse and Dialogue. Prague, Czech Republic : Association for Computational Linguistics, September 2015, pp. 237–244. [Online]. Available : http://aclweb.org/anthology/W15-4634 ARIES Abdelkrime (ESI 2014) Vers une amélioration des résumés automatiques de textes

×