Este reporte describe aspectos relacionados al etiquetado gramatical, métodos
más comunes y su aplicación a la lengua española. Además, partiendo
de los conceptos presentados, se incluye una valoración personal sobre la situación actual y perspectivas en el futuro cercano del etiquetado de partes
del habla. Para la realización de este trabajo, la composición se llevó a cabo con el editor LATEX y se consultaron diversas fuentes secundarias, con el fin de ofrecer la información mas actualizada posible.
Perspectiva docente del diseño de contenidos y evaluación para cursos a dista...
Aprendizaje Computacional: Valoraciones personales sobre métodos de etiquetado gramatical de la lengua española
1. Aprendizaje Computacional
Priscill Smilce Orue
Escuela Técnica Superior de Ingeniería Informática,
Universidad de Málaga,
Málaga - España
17 de febrero de 2012
Introducción
El Procesamiento del Lenguaje Natural (NLP - Natural Language Pro-
cessing) es un enfoque computacional del análisis textual que está basado en
un conjunto de teorías y tecnologías. La definición presentada por Liddy [7]
establece que el Procesamiento del Lenguaje Natural es un rango de técnicas
computacionales teóricas para el análisis y representación de textos natura-
les en uno o más niveles de análisis lingüísticos, con el propósito de lograr
un procesamiento análogo al ser humano, para un rango de tareas y apli-
caciones. Dentro del campo del PLN, una de las áreas de mayor desarrollo
es el etiquetado gramatical, el cual constituye el tema principal del presente
trabajo.
Este reporte describe aspectos relacionados al etiquetado gramatical, mé-
todos más comunes y su aplicación a la lengua española. Además, partiendo
de los conceptos presentados, se incluye una valoración personal sobre la si-
tuación actual y perspectivas en el futuro cercano del etiquetado de partes
del habla. Para la realización de este trabajo, la composición se llevó a cabo
con el editor L TEXy se consultaron diversas fuentes secundarias, con el fin
A
de ofrecer la información mas actualizada posible.
1. Conceptos de etiquetado gramatical
Los orígenes del Procesamiento del Lenguaje Natural se basan en varias
disciplinas. Liddy[7] afirma que los campos clave que aportaron sus conceptos
para formar dicha área del conocimiento son:
1
2. Lingüística (enfoque en modelos formales y estructurales del lenguaje);
por este motivo, el área de Procesamiento del Lenguaje Natural era
originalmente conocido como Lingüística Computacional.
Ciencias de la computación: dedicado al desarrollo de representaciones
internas de datos y procesamiento eficiente de dichas estructuras
Psicología cognitiva: ve al uso del lenguaje como una ventana a procesos
cognitivos humanos, y tiene el objetivo de modelar el uso del lenguaje
en una forma psicológicamente plausible.
Dentro del Procesamiento del Lenguaje Natural, el etiquetado gramatical
(o partes de la oración) forma parte de un proceso llamado «Extracción de
la Información» (EI). La EI se lleva a cabo con textos escritos y su objetivo
principal es identificar la información útil dentro de un campo de interés defi-
nido. Una vez identificada dicha información, se lo representa en un modelo.
En la Figura 1 se observan las actividades llevadas a cabo para completar
dcho proceso [11].
Figura 1: Proceso de la Extracción de la Informacion
En la Figura 1, el etiquetado gramatical (en inglés Part-of-speech tag-
ging) es una fase en el que el texto es dividido en unidades elementales y
se vinculan a etiquetas que «describen su morfología y/o función gramatical
en el texto»[11]. En otras palabras, el etiquetado gramatical es un proce-
so en donde los tokens son secuencialmente etiquetados con nomenclatura
sintáctica, tales como «verbo» o «gerundio» o «conjunción subordinada».
Un etiquetador puede ser entrenado y compilado para generar modelos, que
luego son evaluados y refinados para uso posterior [2].
2
3. Para comprender el concepto del etiquetado gramatical, se presenta el
siguiente ejemplo [5]. Se tienen dos reglas gramaticales como:
DT SUSTANTIVO (equivalente a determinante mas sustantivo)
ADJ SUSTANTIVO (equivalente a adjetivo mas sustantivo)
Estas dos reglas pueden ser aplicadas para el etiquetado gramatical de se-
cuencias de entrada, omitiendo toda la información lógica y léxica de cada
una de las palabras etiquetadas:
una hermosa montaña
DT ADJ SUSTANTIVO
Cuadro 1: Etiquetado Gramatical
2. Métodos para el etiquetado gramatical
A partir del concepto definido del etiquetado gramatical, esta sección
presenta tres de los métodos empleados para el mismo. En el proceso de
Extracción de la Información, el etiquetado gramatical es un análisis léxi-
co que explota al máximo la información contenida, usando únicamente la
información léxica de la muestra de texto. Para lograr esto se necesita de
un proceso de entrenamiento que se basa en «identificar y anotar todos los
datos deseados de un conjunto de documentos relevantes» [11].
Los primeros etiquetadores consistían en reglas construídas a mano para
asignar las etiquetas basándose en los patrones de las palabras y las eti-
quetas asignadas a palabras que los precedían, pero su contenido léxico era
restringido, primariamente para excepciones a las reglas. Más adelante, las
Cadenas Ocultas de Markov (HMM - del inglés Hidden Markov Model ) fue-
ron importadas de los estudios de reconocimiento de la voz y aplicados al
etiquetado gramatical; tales cadenas fueron desarrolladas hasta convertirse
en el estándar de la materia [1].
2.1. Etiquetadores basados en reglas
En los etiquetadores basados en reglas, un conjunto de etiquetas son
asignados a palabras sobre la base de análisis léxicos y morfológicos, y luego
dichas tiquetas son eliminadas de acuerdo a reglas contextuales (patrón-
acción); por ejemplo: «la palabra actual no es un verbo si la palabra pre-
cedente es un determinante»[1]. Es el enfoque más antiguo que utiliza re-
3
4. glas escritas a mano para el etiquetado. Los etiquetadores basados en reglas
dependen de los diccionarios para obtener las etiquetas para cada palabra
candidata al etiquetado. Las reglas escritas a mano son usadas para iden-
tificar la cetiqeuta correcta cuando una palabra tiene más de una etiqueta
posible. La disambiguación es hecha mediante el análisis de características
lingüísticas de cada palabra, su palabra predecesora y otros aspectos [8].
Una crítica a este tipo de etiquetadores es la cantidad de esfuerzo nece-
sario para escribir reglas de desambiguación, pero su rendimiento es mejor
que el etiquetador HMM, según estudios informales [1]. Las reglas pueden
ser reglas de patrones contextuales compiladas en un autómata de estados
finitos que están intersectados con representaciones de oraciones lexicamente
ambiguas. TAGGIT es el primer etiquetador basado en reglas que emplea un
conjunto de 71 eitquetas y 3300 de reglas de desambiguación. Estas reglas
desambiguaron el 77 % de un millón de palabras contenidas en el corpus de
la Universidad de Brown [8].
2.2. Etiquetadores de aprendizaje basados en transforma-
ción
El etiquetador de aprendizaje basado en transformación (TBL - del inglés
Transformation-Based Learning) arranca con un estado inicial, y requiere un
corpus de entrenamiento correctamente anotado, para el proceso de apren-
dizaje. El proceso iterativo de aprendizaje adquiere una lista ordenada de
reglas o transformaciones que corrige los errores del estado inicial. En cada
iteración, la transformación que logró el mayor beneficio es seleccionado. Du-
rante el proceso de aprendizaje, las plantillas de transformaciones permitidas
limitan el espacio de búsqueda para posibles reglas de transformación. Las
transformaciones propuestas son formadas por la instanciación de las planti-
llas de transformación en el contexto de etiquetas erróneas. El algoritmo de
aprendizaje se detiene cuando no se puede mejorar el estado actual de los
datos de entrenamiento o cuando un umbral prescrito es alcanzado [6].
La salida de un TBL es una secuencia ordenada de transformaciones
como: Tagi ->Tagj in context C.
Un aprendiente típico basado en transformaciones tiene un anotador de
estado inicial, un conjunto de transformaciones y una función objetivo. El
anotador es un programa que asigna etiquetas a cada palabra de un texto.
Puede ser uno que asigna etiquetas en forma aleatoria o siguiendo un modelo
de Markov. Usualmente asigna cada palabra con su etiqueta más probable,
tal como está indicado en el corpus. Por ejemplo, «walk» sería inicialmente
etiquetado como un verbo. Considere la siguiente oración: «The rabbit runs»
4
5. Un etiquetador TBL puede identificar facilmente que «rabbit» es un sustan-
tivo si se cumple la regla: si la etiqueta previa es un artículo, la siguiente
etiqueta es un verbo [8].
Las ventajas de este tipo de etiquetado son que se necesitan a priori de
un pequeño número de reglas simples para iniciar el proceso. Cuando dichas
reglas son aprendidas los procesos de desarrollo y depurado son más simples.
Además la lista de transformación puede ser compilada en una máquina de
estados finitos, resultando en un etiquetador más rápido. Las desventajas
son que este método no ofrece probabilidades de etiquetado y que el tiempo
de entrenamiento es largo, particularmente en cuerpos extensos, que son
comunes en el Procesamiento del Lenguaje Natural [8].
2.3. Cadenas ocultas de Markov - HMM
En las cadenas ocultas de Markov, HMM, se suponen que dos secuencias
de símbolos, una visible y otra oculta, existen. Los símbolos visibles repre-
sentan los símbolos observados en la muestra y su dependencia se basa en
los últimos símbolos de la secuencia oculta. La secuencia oculta no es obser-
vable en forma directa, define el estado actual del modelo y «la transición al
siguiente estado sólo depende del estado anterior» [10].
Al aplicar las HMM en el contexto del etiquetado gramatical, Abney [1]
menciona las probabilidades de transición y de emisión. Las probabilidades
de transición son las probabilidades de una etiqueta a partir de una etiqueta
previa. Las probabilidades de emisión son las probabilidades de una palabra
a partir de una etiqueta. La probabilidad de una secuencia gramatical par-
ticular mas una oración es el producto de las probabilidades de transición y
emisión. Consideremos el ejemplo 2 en inglés:
Figura 2: Ejemplo aplicando HMM
Dos ventajas de los etiquetadores basados en modelos HMM son su exac-
titud y el hecho que pueden ser entrenados con texto no registrado. Sin
embargo, es importante considerar que si se entrena un etiquetador HMM
5
6. sin código hecho a mano, tendrá éxito en encontrar un modelo cuya apro-
ximación (cross-entropy) será baja. Entonces, la salida tendrá poca relación
con las asignaciones de etiqueta que se desean obtener como salida. Para
obtener un buen rendimiento, se requiere una buena cantidad de material
preparado manualmente [1].
3. Métodos para el etiquetado gramatical de mues-
tras en Español
Varios son los estudios de etiquetado gramatical aplicados a la lengua Es-
pañola. En esta sección se presentan tres métodos con diferentes aplicaciones
a la misma lengua. Las mismas son: la Gramática de dependencias basada
en patrones de etiquetas, aplicado a la generación de formalisimos grama-
ticales; Grafos de Sufijos de Predicción Multiatributos (MPSG - del ingés
Multiattribute Prediction Suffix Graphs), aplicado al etiquetado de palabras
con diferentes funciones; y el Etiquetador de Español Simple, que sirve para
la detección y corrección de errores de acentuación.
3.1. Gramática de dependencias basada en patrones de eti-
quetas
Más que una herramienta de etiquetado gramatical de la lengua española,
la Gramática de dependencias basada en patrones de etiquetas consiste en un
formalismo gramatical. Su objetivo es escribir gramaticas de dependencias a
partir de los patrones PoS (del inglés Part-of-Speech) que contienen informa-
ción léxica y morfológica. Partiendo de las gramáticas escritas aplicando este
formalismo, «un compilador genera analizadores sintácticos robustos basa-
dos en expresiones regulares» para el español. De esta forma, los analizadores
creados identifican dependencias que pueden servir para mejorar las aplica-
ciones de Procesamiento del Lenguaje Natural [5]. Una gramática escrita con
este método tiene un conjunto de reglas dependientes del contexto. El objeti-
vo de cada regla es identificar una relación nucleo-dependiente «por medio de
patrones de etiquetas morfosintácticas asociadas a información morfológica
y léxica». Las reglas tienen dos partes: el patrón de etiquetas y el nombre
de la relación nucleodependiente. Por ejemplo:
DobjR: VERB [DT]? [ADJ]* NOUN
Los dos puntos sirven para separar el patrón de etiquetas, que está a la
derecha, del nombre de la dependencia, DobjR. Ambos, el nombre de las
6
7. dependencias con el de las etiquetas morfosintácticas se declaran en ficheros
aparte. Estos son los elementos esenciales de una regla. Por otra parte, se pue-
den especificar dichas reglas mediante el uso de estructuras tipo «atributo-
valor, provistas de información morfológica y léxica, asi como operaciones
tales como concordancia, recursividad, herencia», etc; todas especificadas en
ficheros externos y vinculados a los ficheros de la reglas [5].
3.2. Grafo de sufijos de predicción multiatributos
La lengua española tiene palabras que cumplen con más de una fun-
ción dentro del esquema gramatical. Por este motivo, es importante diseñar
etiquetadores que además de identificar los categorías gramaticales de una
palabra, también sean capaces de distinguir que categoría gramatical corres-
ponde a una palabra, dado su entorno de ocurrencia. El Grafo de sufijos de
predicción multiatributos (MPSG - del inglés Multiattribute Prediction Suffix
Graphs) combina tres enfoques para lograr el cometido de la distinción de
categorías gramaticales de palabras con más de una función [9]:
Un etiquetador de palabras simple basado en árboles de decisión
Un etiquetador grmaatical basado en el modelo de aprendizaje MPSG
Una estructura de etiquetas
La base de esta herramienta es la conjunción de los tres elementos para mejo-
rar el rendimiento del etiquetador gramatical, que permiten etiquetar corpus
limitados, pero con gran cantidad de funciones, como ocurre con el español.
La ventaja de trabajar con etiquetadores de palabras basados en árboles de
decision es que no se necesita elaborar lexicones que solamente enumeran
posibles etiquetas. Además, el MPSG toma sus características de las cade-
nas de Markov multiatributo, en donde un estado MPSG es equivalente a un
estado Markov, lo cual consiste en una expansión de los trabajos originales
con cadenas de Markov [9].
3.3. Etiquetador de español simple
Las herramientas anteriores consideraban la separación morfo-sintáctica
de las unidades de la lengua española. Este etiquetador detecta y corrige
errores de acentuación de la lengua española. La omisión del acento gráfico
es uno de los errores más comunes de la redacción escrita en español. El
problema consiste en que si dicha omisión cambia la categoría gramatical de
7
8. una palabra, entonces habrá un error en el etiquetado y su posterior procesa-
miento. La herramienta propuesta se basa en heurísticas que determinan un
contexto lineal y un pequeño conjunto de palabras que difieren solamente de
la marca del acento. La idea es aplicar a numerosos sustantivos o adjetivos
como la palabra número que se convierte en un verbo personal cuando carece
del acento gráfico [4].
El algoritmo, dado un sustantivo o un adjetivo, puede determinar si las
cuatro palabras contextuales a su alrededor son apropiadas para el mismo.
Luego se aplican los conceptos de verificadores de estilo que en lugar de
verificar la situación actual en el texto, se forma una hipótesis acerca de un
posible error en el texto, y a continuación se comprueba esta hipótesis. Si
la hipótesis es razonable, se reporta un error. El algoritmo analiza el texto.
Cada palabra se busca en dos listas: una lista de palabras acentuadas y la
lista automáticamente compilada de sus contrapartes no acentuadas. Las
características de la palabra encontrada, género y número, son tomadas de
la lista. Suponga que la palabra analizada es ω0, las palabras inmediatas en
el contexto linear serán, ω − 1, ω1, ω2, de manera que el orden será: ω − 1,
ω0, ω1, ω2 [4].
A partir de los datos obtenidos, el trabajo del algoritmo depende en que
lista fue encontrada la palabra. Si fue encontrada en la lista de acentuadas,
se considera un sustantivo o adjetivo y se verifica la propiedad en el contex-
to inmediato. Si la palabra fue encontrada en la lista de no-acentuados, se
lo considera un verbo. Como el algoritmo tiene limitaciones en el contexto
verbal, haciendo las correspondientes pruebas de hipótesis[4].
4. Valoraciones personales
Partiendo de los conceptos presentados en este trabajo, se detallan las
valoraciones personales con respecto al tema tratado. En primer lugar, es
importante destacar que el concepto principal de este estudio ha sido el
etiquetado gramatical de unidades morfo sintácticas en textos escritos. Cada
uno de los métodos presentados presenta sus ventajas y desventajas a la hora
de asignar una etiqueta con funciones gramaticales a una palabra de entrada.
Para entender mejor la posición actual del Procesamiento del Lenguaje
Natural y su perspectiva futura, es importante recordar las características
del lenguaje humano. La distinción del lenguaje humano de otros sistemas
de comunicación se inician en los procesos de producción y percepción, así
como de otros aspectos más abstractos como las conexiones arbitrarias entre
sonido y significado o la abilidad de crear nuevos mensajes. Particularmente,
8
9. la creatividad es un aspecto que influye directamente en la calidad de los
etiquetadores gramaticales.
El lenguaje humano crea o presta nuevas palabras cuando la ocasión lo
requiera. Es inherentemente flexible y se adapta a nuevas circunstancias y
nuevas cosas para expresar. Chomsky, en la década de 1950, mencionó que
los lenguajes son modificados para suplir una forma gramatical y su voca-
bulario. La noción de creatividad fue usada para vincular teorías asociativas
al argumentar que en principio, conexiones de estímulo-respuesta no pueden
explicar totalmente las nuevas oraciones. El secreto de la creatividad es el
sistema gramatical a través de las cuales nuevas aseveraciones pueden ser
producidas y comprendidas [3]. Además, la constante evolución tecnológica
hace que nuevas palabras ingresen al vocabulario de un idioma.
Considerando la capacidad creativa del lenguaje humano, la creación y
uso de nuevas palabras en teoría no afectaría al rendimiento de los etique-
tadores. Cada vez que se introduce un nuevo vocabulario, directamente se
entrena al etiquetador. Sin embargo, el problema principal radicaría en el
préstamo de palabras de un idioma a otro. Los extranjerismos deben ser
tratados teniendo en cuenta alguna clasificación en etiquetadores de más de
un idioma. Por ejemplo, la palabra software está en inglés, pero también se
lo usa en su forma original en el español. Entonces, ¿cómo un etiquetador
distinguiría a que idioma pertenece una palabra?, ¿puede un etiquetador
contener, además de información morfo-sintáctica, datos sobre el origen de
la palabra?
Con respecto al etiquetado gramatical en general, se recurren a árboles,
estructuras y modelos matemáticos para hacer el tratamiento de palabras. Al
comparar su rendimiento, se han obtenido valores altos y competitivos entre
sí. Sin embargo, un tema en común en los reportes de los métodos consultados
es el tratamiento del ruido. El ruido, concepto mencionado por Triviño [9]
en el modelo MPSG y afecta a otros métodos que requieran entrenamiento,
consiste en emplear etiquetas con errores durante en proceso de aprendizaje
del modelo. En los métodos estudiados no se presenta un mecanismo de
tratamiento de errores, porque se considera a priori que las etiquetas son
correctas, por lo que todo el proceso sigue su curso normal hasta hallar los
resultados no esperados.
Resumiendo, los extranjerismos y el ruido son aspectos que necesitan
mayor investigación en el área de etiquetado de palabras. Con lograr un
avance con estos puntos, se lograrán etiquetadores gramaticales más exactos.
Además, una vez lograda la exactitud, se pueden trabajar con otros métodos
que incorporen mayor eficacia y eficiencia, en términos de tiempo y calidad
de aprendizaje del corpus de entrenamiento.
9
10. Conclusión
Este trabajo ha presentado un estudio sobre los etiquetadores gramatica-
les. Primeramente se definió el concepto de etiquetadores gramaticales dentro
del contexto de la Extracción de la Información. A continuación se presen-
taron tres métodos de etiquetado gramatical. Debido a las características
propias del español, se detallaron tres herramientas aplicadas en el etiqueta-
do gramatical. Finalmente, considerando toda la base teórica explicada, se
incluyó una valoración personal sobre el tema.
El etiquetado gramatical (en inglés Part-of-speech tagging) es una fase en
el que la entrada es dividida en partes bàsicas y se vinculan a etiquetas que
describen su morfología y/o función gramatical en el texto. Existen varios
modelos matemático-lingüísticos que llevan a cabo esta tarea. Cada una de
ellas tiene sus ventajas y desventajas. Sin embargo, como se describió en la
valoración personal, dos puntos deben ser considerados en el momento de
diseñar futuros etiquetadores gramaticales: la existencia de extranjerismos
en etiquetadores multilingües y el tratamiento del ruido (entrenamiento con
etiquetas erróneas).
Referencias
[1] Steven Abney. Part-of-speech tagging and partial parsing. Corpus-Based
Methods in Language and Speech., 1996.
[2] Alias-i. Lingpipe 4.1.0. Sitio Web; accedido 15-Feb-2012.
[3] Vivian Cook. Senses of language, 1997. Sitio Web; accedido 16-Feb-
2012.
[4] S. N. Galicia-Haro, I. A. Bolshakov, and A. F. Gelbukh. A simple spa-
nish part of speech tagger for detection and correction of accentuation
error. pages 219–222, 1999. Online; accedido 15-Feb-2012.
[5] Pablo Gamallo Otero and Gonzalo Gonzalez Sanchez. Una gramatica
de dependencias basada en patrones de etiquetas. Procesamiento del
Lenguaje Natural,, 34(43):315–323, 2009.
[6] Burcu Karagol-Ayan, David Doermann, , and Amy Weinberg. Adaptive
transformation-based learning for improving dictionary tagging. ACL
Anthology: A Digital Archive of Research Papers in Computational Lin-
guistics, 2012. Documento Web; accedido 16-feb-2012.
10
11. [7] Elizabeth D. Liddy. Natural Language Processing. Encyclopedia of
Library and Information Science, 2da edition, 2001.
[8] Natural Language Processing. Rule-based parts-of-speech tagging, De-
cember 2009. Sitio Web; accedido 16-Feb-2012.
[9] José L. Triviño and Rafael Morales-Bueno. Using multiattribute predic-
tion suffix-graphs for spanish part-of-speech tagging. Articulo Campus
Virtual.
[10] Jose Luis Triviño. Modelos de aprendizaje para el estudio de sequencias
de simbolos. PhD thesis, University of Málaga, Mayo 2003. Material
Campus Virtual.
[11] Luis Villaseñor, Aurelio Lopez, Manuel Montes, and Claudia Vazquez.
Tratamiento automático de textos en español. Red de Revistas Científi-
cas de América Latina y el Caribe, España y Portugal, 22(038):145–166,
Diciembre 2003.
11