2. NER
• El reconocimiento de nombres de entidades, Named entity
recognition (NER), es una subtarea de la recuperación de
información que busca localizar y clasificar elementos atómicos
en texto sobre categorías predefinidas como nombres de
personas, organizaciones, localizaciones, expresiones de horas,
cantidades, valores monetarios, porcentajes, etc.
• Desde 1998 existe un gran interés en el reconocimiento de
entidades en las áreas de la biología
molecular, bioinformática y procesamiento del lenguaje
natural.
3. Stanford
• Implementación en java, licencia GNU GPL
• Reconoce person, organization, location
• Con modelos de entrenamiento CoNLL2003
• Utiliza Conditional Random Field (CRF)
• CRF es un modelo estocástico utilizado
habitualmente para etiquetar y segmentar
secuencias de datos o extraer información de
documentos. En algunos contextos también se les
denomina campos aleatorios de Márkov (inglés:
Markov random Fields,MRF).
4. Standford
• Software provided here is similar to the baseline
local+Viterbi model
• CoNLL-2002 and CoNLL-2003 (British newswire)
– Multiple languages: Spanish, Dutch, English, German
– 4 entities: Person, Location, Organization, Misc
• MUC-6 and MUC-7 (American newswire)
– 7 entities: Person, Location, Organization, Time, Date,
Percent, Money
• ACE
– 5 entities: Location, Organization, Person, FAC, GPE
• BBN (Penn Treebank)
– 22 entities: Animal, Cardinal, Date, Disease, …
5. Modelos
• Included with Stanford NER are a 4 class model trained
for CoNLL, a 7 class model trained for MUC, and a 3 class
model trained on both data sets for the intersection of
those class sets.
– 3 class:Location, Person, Organization
– 4 class:Location, Person, Organization, Misc
– 7 class:Time, Location, Organization, Person, Money, Percent,
Date
• As of version 3.4.1, we have a Spanish model available
for NER. It is included in the Spanish corenlp models jar.
Spanish CoreNLP models