Chaîne d'analyse de Tagmatica pourChaîne d'analyse de Tagmatica pour
les textes français, anglais etles textes français, a...
Quoi ?Quoi ?
* Détecter les entités nommées, de manière* Détecter les entités nommées, de manière
opérationnelle, sur des ...
Entité nommée:Entité nommée:
* la graphie structurée* la graphie structurée
* un type* un type
* un sous-type* un sous-typ...
ex#2: "Usain Bolt ...", comme il est décrit
dans la base de connaissances interne de la
chaîne d'analyse => type=individua...
Coréférence, trois mécanismes:
* références pronominales
Nicolas Sarkozy ... il
* variantes
Nicolas Sarkozy ... Sarko
Nico...
Comment ?
Conclusion
Implémentation:
* conception objet de manière industrielle,
* conforme aux standards ISO,
* entièrement Unicode...
Text Analysis by Tagmatica
Prochain SlideShare
Chargement dans…5
×

Text Analysis by Tagmatica

699 vues

Publié le

Natural Language Processing of texts by Tagmatica's tools for English French and Spanish.

Publié dans : Technologie, Voyages, Business
0 commentaire
0 j’aime
Statistiques
Remarques
  • Soyez le premier à commenter

  • Soyez le premier à aimer ceci

Aucun téléchargement
Vues
Nombre de vues
699
Sur SlideShare
0
Issues des intégrations
0
Intégrations
3
Actions
Partages
0
Téléchargements
5
Commentaires
0
J’aime
0
Intégrations 0
Aucune incorporation

Aucune remarque pour cette diapositive

Text Analysis by Tagmatica

  1. 1. Chaîne d'analyse de Tagmatica pourChaîne d'analyse de Tagmatica pour les textes français, anglais etles textes français, anglais et espagnolsespagnols Gil Francopoulo, www.tagmatica.com journée Scribo, 23 novembre 2010
  2. 2. Quoi ?Quoi ? * Détecter les entités nommées, de manière* Détecter les entités nommées, de manière opérationnelle, sur des milliers de documentsopérationnelle, sur des milliers de documents par jour, dans le domaine de la Presse et despar jour, dans le domaine de la Presse et des blogs institutionnels.blogs institutionnels. En janvier, gestion de la coréférence etEn janvier, gestion de la coréférence et extraction des citations.extraction des citations. Comment ?Comment ? * Chaîne d'analyse hybride: mi-statistique, mi-* Chaîne d'analyse hybride: mi-statistique, mi- symbolique.symbolique.
  3. 3. Entité nommée:Entité nommée: * la graphie structurée* la graphie structurée * un type* un type * un sous-type* un sous-type ex#1 "Jacques Dujardin ..." (parfait inconnu) => on peut juste déterminer que c'est une personne de sexe masculin, car "Jacques" est un prénom connu et le nom qui suit commence par une majuscule. Donc, le type=individual et le sous-type inconnu. Deux cas de figure:
  4. 4. ex#2: "Usain Bolt ...", comme il est décrit dans la base de connaissances interne de la chaîne d'analyse => type=individual et sous- type=athlete Donc, en résumé, le type est toujours déterminé et le sous-type l'est éventuellement. Les types et sous-types sont organisés selon une ontologie très fine et complète avec 995 noeuds issus de Sekine, IPTC, des encyclopédies et de diverses expériences de veilleurs professionels => décrite en OWL => types=niveau#1 et sous-types=niveau#>1 télécharger www.tagmatica.com/doc/ontology.owl
  5. 5. Coréférence, trois mécanismes: * références pronominales Nicolas Sarkozy ... il * variantes Nicolas Sarkozy ... Sarko Nicolas Sarkozy ... Sarkozy * noms de fonctions Nicolas Sarkozy ... le président Extraction des citations: "Réduisez le déficit" plaide la Commission, avant de se rétracter. locuteur= "Commission" relateur= "plaider" discours= "réduire le déficit" Traitements sémantiques, disons, un peu plus subtils:
  6. 6. Comment ?
  7. 7. Conclusion Implémentation: * conception objet de manière industrielle, * conforme aux standards ISO, * entièrement Unicode, * écrit en Java (8 années de dev à tps partiel), * API ou sortie XML Passage++, * fonctionne sur Linux et Windows. Chaîne automatique opérationnelle qui réalise une analyse morphosyntaxique, une analyse syntaxique complète et un certain nombre de traitements d'interprétation du sens. Merci de votre attention contact: gil.francopoulo@tagmatica.com

×