SlideShare une entreprise Scribd logo
1  sur  11
Télécharger pour lire hors ligne
Aprendizaje Computacional
                         Priscill Smilce Orue
          Escuela Técnica Superior de Ingeniería Informática,
                       Universidad de Málaga,
                           Málaga - España

                           17 de febrero de 2012


Introducción
    El Procesamiento del Lenguaje Natural (NLP - Natural Language Pro-
cessing) es un enfoque computacional del análisis textual que está basado en
un conjunto de teorías y tecnologías. La definición presentada por Liddy [7]
establece que el Procesamiento del Lenguaje Natural es un rango de técnicas
computacionales teóricas para el análisis y representación de textos natura-
les en uno o más niveles de análisis lingüísticos, con el propósito de lograr
un procesamiento análogo al ser humano, para un rango de tareas y apli-
caciones. Dentro del campo del PLN, una de las áreas de mayor desarrollo
es el etiquetado gramatical, el cual constituye el tema principal del presente
trabajo.
    Este reporte describe aspectos relacionados al etiquetado gramatical, mé-
todos más comunes y su aplicación a la lengua española. Además, partiendo
de los conceptos presentados, se incluye una valoración personal sobre la si-
tuación actual y perspectivas en el futuro cercano del etiquetado de partes
del habla. Para la realización de este trabajo, la composición se llevó a cabo
con el editor L TEXy se consultaron diversas fuentes secundarias, con el fin
               A
de ofrecer la información mas actualizada posible.


1.    Conceptos de etiquetado gramatical
    Los orígenes del Procesamiento del Lenguaje Natural se basan en varias
disciplinas. Liddy[7] afirma que los campos clave que aportaron sus conceptos
para formar dicha área del conocimiento son:



                                      1
Lingüística (enfoque en modelos formales y estructurales del lenguaje);
     por este motivo, el área de Procesamiento del Lenguaje Natural era
     originalmente conocido como Lingüística Computacional.
     Ciencias de la computación: dedicado al desarrollo de representaciones
     internas de datos y procesamiento eficiente de dichas estructuras
     Psicología cognitiva: ve al uso del lenguaje como una ventana a procesos
     cognitivos humanos, y tiene el objetivo de modelar el uso del lenguaje
     en una forma psicológicamente plausible.
    Dentro del Procesamiento del Lenguaje Natural, el etiquetado gramatical
(o partes de la oración) forma parte de un proceso llamado «Extracción de
la Información» (EI). La EI se lleva a cabo con textos escritos y su objetivo
principal es identificar la información útil dentro de un campo de interés defi-
nido. Una vez identificada dicha información, se lo representa en un modelo.
En la Figura 1 se observan las actividades llevadas a cabo para completar
dcho proceso [11].




           Figura 1: Proceso de la Extracción de la Informacion

    En la Figura 1, el etiquetado gramatical (en inglés Part-of-speech tag-
ging) es una fase en el que el texto es dividido en unidades elementales y
se vinculan a etiquetas que «describen su morfología y/o función gramatical
en el texto»[11]. En otras palabras, el etiquetado gramatical es un proce-
so en donde los tokens son secuencialmente etiquetados con nomenclatura
sintáctica, tales como «verbo» o «gerundio» o «conjunción subordinada».
Un etiquetador puede ser entrenado y compilado para generar modelos, que
luego son evaluados y refinados para uso posterior [2].

                                      2
Para comprender el concepto del etiquetado gramatical, se presenta el
siguiente ejemplo [5]. Se tienen dos reglas gramaticales como:
       DT SUSTANTIVO (equivalente a determinante mas sustantivo)

       ADJ SUSTANTIVO (equivalente a adjetivo mas sustantivo)
Estas dos reglas pueden ser aplicadas para el etiquetado gramatical de se-
cuencias de entrada, omitiendo toda la información lógica y léxica de cada
una de las palabras etiquetadas:

                      una   hermosa         montaña
                      DT      ADJ         SUSTANTIVO

                     Cuadro 1: Etiquetado Gramatical



2.     Métodos para el etiquetado gramatical
    A partir del concepto definido del etiquetado gramatical, esta sección
presenta tres de los métodos empleados para el mismo. En el proceso de
Extracción de la Información, el etiquetado gramatical es un análisis léxi-
co que explota al máximo la información contenida, usando únicamente la
información léxica de la muestra de texto. Para lograr esto se necesita de
un proceso de entrenamiento que se basa en «identificar y anotar todos los
datos deseados de un conjunto de documentos relevantes» [11].
    Los primeros etiquetadores consistían en reglas construídas a mano para
asignar las etiquetas basándose en los patrones de las palabras y las eti-
quetas asignadas a palabras que los precedían, pero su contenido léxico era
restringido, primariamente para excepciones a las reglas. Más adelante, las
Cadenas Ocultas de Markov (HMM - del inglés Hidden Markov Model ) fue-
ron importadas de los estudios de reconocimiento de la voz y aplicados al
etiquetado gramatical; tales cadenas fueron desarrolladas hasta convertirse
en el estándar de la materia [1].

2.1.    Etiquetadores basados en reglas
    En los etiquetadores basados en reglas, un conjunto de etiquetas son
asignados a palabras sobre la base de análisis léxicos y morfológicos, y luego
dichas tiquetas son eliminadas de acuerdo a reglas contextuales (patrón-
acción); por ejemplo: «la palabra actual no es un verbo si la palabra pre-
cedente es un determinante»[1]. Es el enfoque más antiguo que utiliza re-

                                      3
glas escritas a mano para el etiquetado. Los etiquetadores basados en reglas
dependen de los diccionarios para obtener las etiquetas para cada palabra
candidata al etiquetado. Las reglas escritas a mano son usadas para iden-
tificar la cetiqeuta correcta cuando una palabra tiene más de una etiqueta
posible. La disambiguación es hecha mediante el análisis de características
lingüísticas de cada palabra, su palabra predecesora y otros aspectos [8].
    Una crítica a este tipo de etiquetadores es la cantidad de esfuerzo nece-
sario para escribir reglas de desambiguación, pero su rendimiento es mejor
que el etiquetador HMM, según estudios informales [1]. Las reglas pueden
ser reglas de patrones contextuales compiladas en un autómata de estados
finitos que están intersectados con representaciones de oraciones lexicamente
ambiguas. TAGGIT es el primer etiquetador basado en reglas que emplea un
conjunto de 71 eitquetas y 3300 de reglas de desambiguación. Estas reglas
desambiguaron el 77 % de un millón de palabras contenidas en el corpus de
la Universidad de Brown [8].

2.2.   Etiquetadores de aprendizaje basados en transforma-
       ción
    El etiquetador de aprendizaje basado en transformación (TBL - del inglés
Transformation-Based Learning) arranca con un estado inicial, y requiere un
corpus de entrenamiento correctamente anotado, para el proceso de apren-
dizaje. El proceso iterativo de aprendizaje adquiere una lista ordenada de
reglas o transformaciones que corrige los errores del estado inicial. En cada
iteración, la transformación que logró el mayor beneficio es seleccionado. Du-
rante el proceso de aprendizaje, las plantillas de transformaciones permitidas
limitan el espacio de búsqueda para posibles reglas de transformación. Las
transformaciones propuestas son formadas por la instanciación de las planti-
llas de transformación en el contexto de etiquetas erróneas. El algoritmo de
aprendizaje se detiene cuando no se puede mejorar el estado actual de los
datos de entrenamiento o cuando un umbral prescrito es alcanzado [6].
    La salida de un TBL es una secuencia ordenada de transformaciones
como: Tagi ->Tagj in context C.
    Un aprendiente típico basado en transformaciones tiene un anotador de
estado inicial, un conjunto de transformaciones y una función objetivo. El
anotador es un programa que asigna etiquetas a cada palabra de un texto.
Puede ser uno que asigna etiquetas en forma aleatoria o siguiendo un modelo
de Markov. Usualmente asigna cada palabra con su etiqueta más probable,
tal como está indicado en el corpus. Por ejemplo, «walk» sería inicialmente
etiquetado como un verbo. Considere la siguiente oración: «The rabbit runs»


                                      4
Un etiquetador TBL puede identificar facilmente que «rabbit» es un sustan-
tivo si se cumple la regla: si la etiqueta previa es un artículo, la siguiente
etiqueta es un verbo [8].
    Las ventajas de este tipo de etiquetado son que se necesitan a priori de
un pequeño número de reglas simples para iniciar el proceso. Cuando dichas
reglas son aprendidas los procesos de desarrollo y depurado son más simples.
Además la lista de transformación puede ser compilada en una máquina de
estados finitos, resultando en un etiquetador más rápido. Las desventajas
son que este método no ofrece probabilidades de etiquetado y que el tiempo
de entrenamiento es largo, particularmente en cuerpos extensos, que son
comunes en el Procesamiento del Lenguaje Natural [8].

2.3.   Cadenas ocultas de Markov - HMM
    En las cadenas ocultas de Markov, HMM, se suponen que dos secuencias
de símbolos, una visible y otra oculta, existen. Los símbolos visibles repre-
sentan los símbolos observados en la muestra y su dependencia se basa en
los últimos símbolos de la secuencia oculta. La secuencia oculta no es obser-
vable en forma directa, define el estado actual del modelo y «la transición al
siguiente estado sólo depende del estado anterior» [10].
    Al aplicar las HMM en el contexto del etiquetado gramatical, Abney [1]
menciona las probabilidades de transición y de emisión. Las probabilidades
de transición son las probabilidades de una etiqueta a partir de una etiqueta
previa. Las probabilidades de emisión son las probabilidades de una palabra
a partir de una etiqueta. La probabilidad de una secuencia gramatical par-
ticular mas una oración es el producto de las probabilidades de transición y
emisión. Consideremos el ejemplo 2 en inglés:




                    Figura 2: Ejemplo aplicando HMM

    Dos ventajas de los etiquetadores basados en modelos HMM son su exac-
titud y el hecho que pueden ser entrenados con texto no registrado. Sin
embargo, es importante considerar que si se entrena un etiquetador HMM


                                      5
sin código hecho a mano, tendrá éxito en encontrar un modelo cuya apro-
ximación (cross-entropy) será baja. Entonces, la salida tendrá poca relación
con las asignaciones de etiqueta que se desean obtener como salida. Para
obtener un buen rendimiento, se requiere una buena cantidad de material
preparado manualmente [1].


3.     Métodos para el etiquetado gramatical de mues-
       tras en Español
    Varios son los estudios de etiquetado gramatical aplicados a la lengua Es-
pañola. En esta sección se presentan tres métodos con diferentes aplicaciones
a la misma lengua. Las mismas son: la Gramática de dependencias basada
en patrones de etiquetas, aplicado a la generación de formalisimos grama-
ticales; Grafos de Sufijos de Predicción Multiatributos (MPSG - del ingés
Multiattribute Prediction Suffix Graphs), aplicado al etiquetado de palabras
con diferentes funciones; y el Etiquetador de Español Simple, que sirve para
la detección y corrección de errores de acentuación.

3.1.   Gramática de dependencias basada en patrones de eti-
       quetas
    Más que una herramienta de etiquetado gramatical de la lengua española,
la Gramática de dependencias basada en patrones de etiquetas consiste en un
formalismo gramatical. Su objetivo es escribir gramaticas de dependencias a
partir de los patrones PoS (del inglés Part-of-Speech) que contienen informa-
ción léxica y morfológica. Partiendo de las gramáticas escritas aplicando este
formalismo, «un compilador genera analizadores sintácticos robustos basa-
dos en expresiones regulares» para el español. De esta forma, los analizadores
creados identifican dependencias que pueden servir para mejorar las aplica-
ciones de Procesamiento del Lenguaje Natural [5]. Una gramática escrita con
este método tiene un conjunto de reglas dependientes del contexto. El objeti-
vo de cada regla es identificar una relación nucleo-dependiente «por medio de
patrones de etiquetas morfosintácticas asociadas a información morfológica
y léxica». Las reglas tienen dos partes: el patrón de etiquetas y el nombre
de la relación nucleodependiente. Por ejemplo:

                 DobjR: VERB [DT]? [ADJ]* NOUN

   Los dos puntos sirven para separar el patrón de etiquetas, que está a la
derecha, del nombre de la dependencia, DobjR. Ambos, el nombre de las


                                      6
dependencias con el de las etiquetas morfosintácticas se declaran en ficheros
aparte. Estos son los elementos esenciales de una regla. Por otra parte, se pue-
den especificar dichas reglas mediante el uso de estructuras tipo «atributo-
valor, provistas de información morfológica y léxica, asi como operaciones
tales como concordancia, recursividad, herencia», etc; todas especificadas en
ficheros externos y vinculados a los ficheros de la reglas [5].

3.2.    Grafo de sufijos de predicción multiatributos
    La lengua española tiene palabras que cumplen con más de una fun-
ción dentro del esquema gramatical. Por este motivo, es importante diseñar
etiquetadores que además de identificar los categorías gramaticales de una
palabra, también sean capaces de distinguir que categoría gramatical corres-
ponde a una palabra, dado su entorno de ocurrencia. El Grafo de sufijos de
predicción multiatributos (MPSG - del inglés Multiattribute Prediction Suffix
Graphs) combina tres enfoques para lograr el cometido de la distinción de
categorías gramaticales de palabras con más de una función [9]:

       Un etiquetador de palabras simple basado en árboles de decisión

       Un etiquetador grmaatical basado en el modelo de aprendizaje MPSG

       Una estructura de etiquetas

La base de esta herramienta es la conjunción de los tres elementos para mejo-
rar el rendimiento del etiquetador gramatical, que permiten etiquetar corpus
limitados, pero con gran cantidad de funciones, como ocurre con el español.
La ventaja de trabajar con etiquetadores de palabras basados en árboles de
decision es que no se necesita elaborar lexicones que solamente enumeran
posibles etiquetas. Además, el MPSG toma sus características de las cade-
nas de Markov multiatributo, en donde un estado MPSG es equivalente a un
estado Markov, lo cual consiste en una expansión de los trabajos originales
con cadenas de Markov [9].

3.3.    Etiquetador de español simple
    Las herramientas anteriores consideraban la separación morfo-sintáctica
de las unidades de la lengua española. Este etiquetador detecta y corrige
errores de acentuación de la lengua española. La omisión del acento gráfico
es uno de los errores más comunes de la redacción escrita en español. El
problema consiste en que si dicha omisión cambia la categoría gramatical de


                                       7
una palabra, entonces habrá un error en el etiquetado y su posterior procesa-
miento. La herramienta propuesta se basa en heurísticas que determinan un
contexto lineal y un pequeño conjunto de palabras que difieren solamente de
la marca del acento. La idea es aplicar a numerosos sustantivos o adjetivos
como la palabra número que se convierte en un verbo personal cuando carece
del acento gráfico [4].
     El algoritmo, dado un sustantivo o un adjetivo, puede determinar si las
cuatro palabras contextuales a su alrededor son apropiadas para el mismo.
Luego se aplican los conceptos de verificadores de estilo que en lugar de
verificar la situación actual en el texto, se forma una hipótesis acerca de un
posible error en el texto, y a continuación se comprueba esta hipótesis. Si
la hipótesis es razonable, se reporta un error. El algoritmo analiza el texto.
Cada palabra se busca en dos listas: una lista de palabras acentuadas y la
lista automáticamente compilada de sus contrapartes no acentuadas. Las
características de la palabra encontrada, género y número, son tomadas de
la lista. Suponga que la palabra analizada es ω0, las palabras inmediatas en
el contexto linear serán, ω − 1, ω1, ω2, de manera que el orden será: ω − 1,
ω0, ω1, ω2 [4].
     A partir de los datos obtenidos, el trabajo del algoritmo depende en que
lista fue encontrada la palabra. Si fue encontrada en la lista de acentuadas,
se considera un sustantivo o adjetivo y se verifica la propiedad en el contex-
to inmediato. Si la palabra fue encontrada en la lista de no-acentuados, se
lo considera un verbo. Como el algoritmo tiene limitaciones en el contexto
verbal, haciendo las correspondientes pruebas de hipótesis[4].


4.    Valoraciones personales
    Partiendo de los conceptos presentados en este trabajo, se detallan las
valoraciones personales con respecto al tema tratado. En primer lugar, es
importante destacar que el concepto principal de este estudio ha sido el
etiquetado gramatical de unidades morfo sintácticas en textos escritos. Cada
uno de los métodos presentados presenta sus ventajas y desventajas a la hora
de asignar una etiqueta con funciones gramaticales a una palabra de entrada.
    Para entender mejor la posición actual del Procesamiento del Lenguaje
Natural y su perspectiva futura, es importante recordar las características
del lenguaje humano. La distinción del lenguaje humano de otros sistemas
de comunicación se inician en los procesos de producción y percepción, así
como de otros aspectos más abstractos como las conexiones arbitrarias entre
sonido y significado o la abilidad de crear nuevos mensajes. Particularmente,


                                      8
la creatividad es un aspecto que influye directamente en la calidad de los
etiquetadores gramaticales.
     El lenguaje humano crea o presta nuevas palabras cuando la ocasión lo
requiera. Es inherentemente flexible y se adapta a nuevas circunstancias y
nuevas cosas para expresar. Chomsky, en la década de 1950, mencionó que
los lenguajes son modificados para suplir una forma gramatical y su voca-
bulario. La noción de creatividad fue usada para vincular teorías asociativas
al argumentar que en principio, conexiones de estímulo-respuesta no pueden
explicar totalmente las nuevas oraciones. El secreto de la creatividad es el
sistema gramatical a través de las cuales nuevas aseveraciones pueden ser
producidas y comprendidas [3]. Además, la constante evolución tecnológica
hace que nuevas palabras ingresen al vocabulario de un idioma.
     Considerando la capacidad creativa del lenguaje humano, la creación y
uso de nuevas palabras en teoría no afectaría al rendimiento de los etique-
tadores. Cada vez que se introduce un nuevo vocabulario, directamente se
entrena al etiquetador. Sin embargo, el problema principal radicaría en el
préstamo de palabras de un idioma a otro. Los extranjerismos deben ser
tratados teniendo en cuenta alguna clasificación en etiquetadores de más de
un idioma. Por ejemplo, la palabra software está en inglés, pero también se
lo usa en su forma original en el español. Entonces, ¿cómo un etiquetador
distinguiría a que idioma pertenece una palabra?, ¿puede un etiquetador
contener, además de información morfo-sintáctica, datos sobre el origen de
la palabra?
     Con respecto al etiquetado gramatical en general, se recurren a árboles,
estructuras y modelos matemáticos para hacer el tratamiento de palabras. Al
comparar su rendimiento, se han obtenido valores altos y competitivos entre
sí. Sin embargo, un tema en común en los reportes de los métodos consultados
es el tratamiento del ruido. El ruido, concepto mencionado por Triviño [9]
en el modelo MPSG y afecta a otros métodos que requieran entrenamiento,
consiste en emplear etiquetas con errores durante en proceso de aprendizaje
del modelo. En los métodos estudiados no se presenta un mecanismo de
tratamiento de errores, porque se considera a priori que las etiquetas son
correctas, por lo que todo el proceso sigue su curso normal hasta hallar los
resultados no esperados.
     Resumiendo, los extranjerismos y el ruido son aspectos que necesitan
mayor investigación en el área de etiquetado de palabras. Con lograr un
avance con estos puntos, se lograrán etiquetadores gramaticales más exactos.
Además, una vez lograda la exactitud, se pueden trabajar con otros métodos
que incorporen mayor eficacia y eficiencia, en términos de tiempo y calidad
de aprendizaje del corpus de entrenamiento.

                                     9
Conclusión
     Este trabajo ha presentado un estudio sobre los etiquetadores gramatica-
les. Primeramente se definió el concepto de etiquetadores gramaticales dentro
del contexto de la Extracción de la Información. A continuación se presen-
taron tres métodos de etiquetado gramatical. Debido a las características
propias del español, se detallaron tres herramientas aplicadas en el etiqueta-
do gramatical. Finalmente, considerando toda la base teórica explicada, se
incluyó una valoración personal sobre el tema.
     El etiquetado gramatical (en inglés Part-of-speech tagging) es una fase en
el que la entrada es dividida en partes bàsicas y se vinculan a etiquetas que
describen su morfología y/o función gramatical en el texto. Existen varios
modelos matemático-lingüísticos que llevan a cabo esta tarea. Cada una de
ellas tiene sus ventajas y desventajas. Sin embargo, como se describió en la
valoración personal, dos puntos deben ser considerados en el momento de
diseñar futuros etiquetadores gramaticales: la existencia de extranjerismos
en etiquetadores multilingües y el tratamiento del ruido (entrenamiento con
etiquetas erróneas).


Referencias
 [1] Steven Abney. Part-of-speech tagging and partial parsing. Corpus-Based
     Methods in Language and Speech., 1996.

 [2] Alias-i. Lingpipe 4.1.0. Sitio Web; accedido 15-Feb-2012.

 [3] Vivian Cook. Senses of language, 1997. Sitio Web; accedido 16-Feb-
     2012.

 [4] S. N. Galicia-Haro, I. A. Bolshakov, and A. F. Gelbukh. A simple spa-
     nish part of speech tagger for detection and correction of accentuation
     error. pages 219–222, 1999. Online; accedido 15-Feb-2012.

 [5] Pablo Gamallo Otero and Gonzalo Gonzalez Sanchez. Una gramatica
     de dependencias basada en patrones de etiquetas. Procesamiento del
     Lenguaje Natural,, 34(43):315–323, 2009.

 [6] Burcu Karagol-Ayan, David Doermann, , and Amy Weinberg. Adaptive
     transformation-based learning for improving dictionary tagging. ACL
     Anthology: A Digital Archive of Research Papers in Computational Lin-
     guistics, 2012. Documento Web; accedido 16-feb-2012.


                                      10
[7] Elizabeth D. Liddy. Natural Language Processing. Encyclopedia of
     Library and Information Science, 2da edition, 2001.

 [8] Natural Language Processing. Rule-based parts-of-speech tagging, De-
     cember 2009. Sitio Web; accedido 16-Feb-2012.

 [9] José L. Triviño and Rafael Morales-Bueno. Using multiattribute predic-
     tion suffix-graphs for spanish part-of-speech tagging. Articulo Campus
     Virtual.

[10] Jose Luis Triviño. Modelos de aprendizaje para el estudio de sequencias
     de simbolos. PhD thesis, University of Málaga, Mayo 2003. Material
     Campus Virtual.

[11] Luis Villaseñor, Aurelio Lopez, Manuel Montes, and Claudia Vazquez.
     Tratamiento automático de textos en español. Red de Revistas Científi-
     cas de América Latina y el Caribe, España y Portugal, 22(038):145–166,
     Diciembre 2003.




                                    11

Contenu connexe

Similaire à Aprendizaje Computacional: Valoraciones personales sobre métodos de etiquetado gramatical de la lengua española

Tabladesmbolos 101103230525-phpapp02
Tabladesmbolos 101103230525-phpapp02Tabladesmbolos 101103230525-phpapp02
Tabladesmbolos 101103230525-phpapp02
Javier Alva
 
Lenguajes De ProgramacióN
Lenguajes De ProgramacióNLenguajes De ProgramacióN
Lenguajes De ProgramacióN
EduFigueroa
 
Diaposivas final
Diaposivas finalDiaposivas final
Diaposivas final
Ponchale
 

Similaire à Aprendizaje Computacional: Valoraciones personales sobre métodos de etiquetado gramatical de la lengua española (20)

Tabladesmbolos 101103230525-phpapp02
Tabladesmbolos 101103230525-phpapp02Tabladesmbolos 101103230525-phpapp02
Tabladesmbolos 101103230525-phpapp02
 
Análisis lexicográfico
Análisis lexicográficoAnálisis lexicográfico
Análisis lexicográfico
 
Lenguajes lógicos definicion y funcion
Lenguajes lógicos definicion y funcionLenguajes lógicos definicion y funcion
Lenguajes lógicos definicion y funcion
 
Prolog
PrologProlog
Prolog
 
Marcalyc: Herramienta de Marcación XML JATS 
Marcalyc: Herramienta de Marcación XML JATS Marcalyc: Herramienta de Marcación XML JATS 
Marcalyc: Herramienta de Marcación XML JATS 
 
3.4 tema operadores boolenanos
3.4 tema operadores boolenanos3.4 tema operadores boolenanos
3.4 tema operadores boolenanos
 
ANALISIS SEMANTICO
ANALISIS SEMANTICO ANALISIS SEMANTICO
ANALISIS SEMANTICO
 
ANALIZADOR SINTACTICO: INTRODUCION, CONCEPTOS, CARACTERISTICAS
ANALIZADOR SINTACTICO: INTRODUCION, CONCEPTOS, CARACTERISTICAS ANALIZADOR SINTACTICO: INTRODUCION, CONCEPTOS, CARACTERISTICAS
ANALIZADOR SINTACTICO: INTRODUCION, CONCEPTOS, CARACTERISTICAS
 
lenguaje especialidad, corpus, LSP
lenguaje especialidad, corpus, LSPlenguaje especialidad, corpus, LSP
lenguaje especialidad, corpus, LSP
 
Lenguajes De ProgramacióN
Lenguajes De ProgramacióNLenguajes De ProgramacióN
Lenguajes De ProgramacióN
 
Modulo automatas-y-lenguajes-formales
Modulo automatas-y-lenguajes-formalesModulo automatas-y-lenguajes-formales
Modulo automatas-y-lenguajes-formales
 
Diaposivas final
Diaposivas finalDiaposivas final
Diaposivas final
 
Rollllll
RollllllRollllll
Rollllll
 
Lenguajes de bases de datos
Lenguajes  de bases de datos Lenguajes  de bases de datos
Lenguajes de bases de datos
 
LENGUAJES DOCUMENTALES
LENGUAJES DOCUMENTALESLENGUAJES DOCUMENTALES
LENGUAJES DOCUMENTALES
 
Teoría de la computación presentación
Teoría de la computación presentaciónTeoría de la computación presentación
Teoría de la computación presentación
 
Metodologia para ontologias
Metodologia para ontologiasMetodologia para ontologias
Metodologia para ontologias
 
Objetos: 1. paradigmas de programación
Objetos: 1. paradigmas de programaciónObjetos: 1. paradigmas de programación
Objetos: 1. paradigmas de programación
 
Informatica
InformaticaInformatica
Informatica
 
Informatica
InformaticaInformatica
Informatica
 

Plus de Priscill Orue Esquivel

Plus de Priscill Orue Esquivel (9)

Accelerating GWAS epistatic interaction analysis methods
Accelerating GWAS epistatic interaction analysis methodsAccelerating GWAS epistatic interaction analysis methods
Accelerating GWAS epistatic interaction analysis methods
 
WiSANCloud: a set of UML-based specifications for the integration of Wireless...
WiSANCloud: a set of UML-based specifications for the integration of Wireless...WiSANCloud: a set of UML-based specifications for the integration of Wireless...
WiSANCloud: a set of UML-based specifications for the integration of Wireless...
 
IA conexionista-RNA --Prueba y entrenamiento con modelos de RNA (2)
IA conexionista-RNA --Prueba y entrenamiento con modelos de RNA (2)IA conexionista-RNA --Prueba y entrenamiento con modelos de RNA (2)
IA conexionista-RNA --Prueba y entrenamiento con modelos de RNA (2)
 
IA conexionista-RNA -- Prueba y entrenamiento con modelos de RNA
IA conexionista-RNA -- Prueba y entrenamiento con modelos de RNAIA conexionista-RNA -- Prueba y entrenamiento con modelos de RNA
IA conexionista-RNA -- Prueba y entrenamiento con modelos de RNA
 
IA conexionista-Redes Neuronales Artificiales: introducción
IA conexionista-Redes Neuronales Artificiales: introducciónIA conexionista-Redes Neuronales Artificiales: introducción
IA conexionista-Redes Neuronales Artificiales: introducción
 
Plan de curso
Plan de cursoPlan de curso
Plan de curso
 
Aplicación de las Redes Hopfield al Problema de Asignación
Aplicación de las Redes Hopfield al Problema de AsignaciónAplicación de las Redes Hopfield al Problema de Asignación
Aplicación de las Redes Hopfield al Problema de Asignación
 
Análisis estáticos y dinámicos en la aplicación de pruebas de intrusión (Pene...
Análisis estáticos y dinámicos en la aplicación de pruebas de intrusión (Pene...Análisis estáticos y dinámicos en la aplicación de pruebas de intrusión (Pene...
Análisis estáticos y dinámicos en la aplicación de pruebas de intrusión (Pene...
 
Perspectiva docente del diseño de contenidos y evaluación para cursos a dista...
Perspectiva docente del diseño de contenidos y evaluación para cursos a dista...Perspectiva docente del diseño de contenidos y evaluación para cursos a dista...
Perspectiva docente del diseño de contenidos y evaluación para cursos a dista...
 

Aprendizaje Computacional: Valoraciones personales sobre métodos de etiquetado gramatical de la lengua española

  • 1. Aprendizaje Computacional Priscill Smilce Orue Escuela Técnica Superior de Ingeniería Informática, Universidad de Málaga, Málaga - España 17 de febrero de 2012 Introducción El Procesamiento del Lenguaje Natural (NLP - Natural Language Pro- cessing) es un enfoque computacional del análisis textual que está basado en un conjunto de teorías y tecnologías. La definición presentada por Liddy [7] establece que el Procesamiento del Lenguaje Natural es un rango de técnicas computacionales teóricas para el análisis y representación de textos natura- les en uno o más niveles de análisis lingüísticos, con el propósito de lograr un procesamiento análogo al ser humano, para un rango de tareas y apli- caciones. Dentro del campo del PLN, una de las áreas de mayor desarrollo es el etiquetado gramatical, el cual constituye el tema principal del presente trabajo. Este reporte describe aspectos relacionados al etiquetado gramatical, mé- todos más comunes y su aplicación a la lengua española. Además, partiendo de los conceptos presentados, se incluye una valoración personal sobre la si- tuación actual y perspectivas en el futuro cercano del etiquetado de partes del habla. Para la realización de este trabajo, la composición se llevó a cabo con el editor L TEXy se consultaron diversas fuentes secundarias, con el fin A de ofrecer la información mas actualizada posible. 1. Conceptos de etiquetado gramatical Los orígenes del Procesamiento del Lenguaje Natural se basan en varias disciplinas. Liddy[7] afirma que los campos clave que aportaron sus conceptos para formar dicha área del conocimiento son: 1
  • 2. Lingüística (enfoque en modelos formales y estructurales del lenguaje); por este motivo, el área de Procesamiento del Lenguaje Natural era originalmente conocido como Lingüística Computacional. Ciencias de la computación: dedicado al desarrollo de representaciones internas de datos y procesamiento eficiente de dichas estructuras Psicología cognitiva: ve al uso del lenguaje como una ventana a procesos cognitivos humanos, y tiene el objetivo de modelar el uso del lenguaje en una forma psicológicamente plausible. Dentro del Procesamiento del Lenguaje Natural, el etiquetado gramatical (o partes de la oración) forma parte de un proceso llamado «Extracción de la Información» (EI). La EI se lleva a cabo con textos escritos y su objetivo principal es identificar la información útil dentro de un campo de interés defi- nido. Una vez identificada dicha información, se lo representa en un modelo. En la Figura 1 se observan las actividades llevadas a cabo para completar dcho proceso [11]. Figura 1: Proceso de la Extracción de la Informacion En la Figura 1, el etiquetado gramatical (en inglés Part-of-speech tag- ging) es una fase en el que el texto es dividido en unidades elementales y se vinculan a etiquetas que «describen su morfología y/o función gramatical en el texto»[11]. En otras palabras, el etiquetado gramatical es un proce- so en donde los tokens son secuencialmente etiquetados con nomenclatura sintáctica, tales como «verbo» o «gerundio» o «conjunción subordinada». Un etiquetador puede ser entrenado y compilado para generar modelos, que luego son evaluados y refinados para uso posterior [2]. 2
  • 3. Para comprender el concepto del etiquetado gramatical, se presenta el siguiente ejemplo [5]. Se tienen dos reglas gramaticales como: DT SUSTANTIVO (equivalente a determinante mas sustantivo) ADJ SUSTANTIVO (equivalente a adjetivo mas sustantivo) Estas dos reglas pueden ser aplicadas para el etiquetado gramatical de se- cuencias de entrada, omitiendo toda la información lógica y léxica de cada una de las palabras etiquetadas: una hermosa montaña DT ADJ SUSTANTIVO Cuadro 1: Etiquetado Gramatical 2. Métodos para el etiquetado gramatical A partir del concepto definido del etiquetado gramatical, esta sección presenta tres de los métodos empleados para el mismo. En el proceso de Extracción de la Información, el etiquetado gramatical es un análisis léxi- co que explota al máximo la información contenida, usando únicamente la información léxica de la muestra de texto. Para lograr esto se necesita de un proceso de entrenamiento que se basa en «identificar y anotar todos los datos deseados de un conjunto de documentos relevantes» [11]. Los primeros etiquetadores consistían en reglas construídas a mano para asignar las etiquetas basándose en los patrones de las palabras y las eti- quetas asignadas a palabras que los precedían, pero su contenido léxico era restringido, primariamente para excepciones a las reglas. Más adelante, las Cadenas Ocultas de Markov (HMM - del inglés Hidden Markov Model ) fue- ron importadas de los estudios de reconocimiento de la voz y aplicados al etiquetado gramatical; tales cadenas fueron desarrolladas hasta convertirse en el estándar de la materia [1]. 2.1. Etiquetadores basados en reglas En los etiquetadores basados en reglas, un conjunto de etiquetas son asignados a palabras sobre la base de análisis léxicos y morfológicos, y luego dichas tiquetas son eliminadas de acuerdo a reglas contextuales (patrón- acción); por ejemplo: «la palabra actual no es un verbo si la palabra pre- cedente es un determinante»[1]. Es el enfoque más antiguo que utiliza re- 3
  • 4. glas escritas a mano para el etiquetado. Los etiquetadores basados en reglas dependen de los diccionarios para obtener las etiquetas para cada palabra candidata al etiquetado. Las reglas escritas a mano son usadas para iden- tificar la cetiqeuta correcta cuando una palabra tiene más de una etiqueta posible. La disambiguación es hecha mediante el análisis de características lingüísticas de cada palabra, su palabra predecesora y otros aspectos [8]. Una crítica a este tipo de etiquetadores es la cantidad de esfuerzo nece- sario para escribir reglas de desambiguación, pero su rendimiento es mejor que el etiquetador HMM, según estudios informales [1]. Las reglas pueden ser reglas de patrones contextuales compiladas en un autómata de estados finitos que están intersectados con representaciones de oraciones lexicamente ambiguas. TAGGIT es el primer etiquetador basado en reglas que emplea un conjunto de 71 eitquetas y 3300 de reglas de desambiguación. Estas reglas desambiguaron el 77 % de un millón de palabras contenidas en el corpus de la Universidad de Brown [8]. 2.2. Etiquetadores de aprendizaje basados en transforma- ción El etiquetador de aprendizaje basado en transformación (TBL - del inglés Transformation-Based Learning) arranca con un estado inicial, y requiere un corpus de entrenamiento correctamente anotado, para el proceso de apren- dizaje. El proceso iterativo de aprendizaje adquiere una lista ordenada de reglas o transformaciones que corrige los errores del estado inicial. En cada iteración, la transformación que logró el mayor beneficio es seleccionado. Du- rante el proceso de aprendizaje, las plantillas de transformaciones permitidas limitan el espacio de búsqueda para posibles reglas de transformación. Las transformaciones propuestas son formadas por la instanciación de las planti- llas de transformación en el contexto de etiquetas erróneas. El algoritmo de aprendizaje se detiene cuando no se puede mejorar el estado actual de los datos de entrenamiento o cuando un umbral prescrito es alcanzado [6]. La salida de un TBL es una secuencia ordenada de transformaciones como: Tagi ->Tagj in context C. Un aprendiente típico basado en transformaciones tiene un anotador de estado inicial, un conjunto de transformaciones y una función objetivo. El anotador es un programa que asigna etiquetas a cada palabra de un texto. Puede ser uno que asigna etiquetas en forma aleatoria o siguiendo un modelo de Markov. Usualmente asigna cada palabra con su etiqueta más probable, tal como está indicado en el corpus. Por ejemplo, «walk» sería inicialmente etiquetado como un verbo. Considere la siguiente oración: «The rabbit runs» 4
  • 5. Un etiquetador TBL puede identificar facilmente que «rabbit» es un sustan- tivo si se cumple la regla: si la etiqueta previa es un artículo, la siguiente etiqueta es un verbo [8]. Las ventajas de este tipo de etiquetado son que se necesitan a priori de un pequeño número de reglas simples para iniciar el proceso. Cuando dichas reglas son aprendidas los procesos de desarrollo y depurado son más simples. Además la lista de transformación puede ser compilada en una máquina de estados finitos, resultando en un etiquetador más rápido. Las desventajas son que este método no ofrece probabilidades de etiquetado y que el tiempo de entrenamiento es largo, particularmente en cuerpos extensos, que son comunes en el Procesamiento del Lenguaje Natural [8]. 2.3. Cadenas ocultas de Markov - HMM En las cadenas ocultas de Markov, HMM, se suponen que dos secuencias de símbolos, una visible y otra oculta, existen. Los símbolos visibles repre- sentan los símbolos observados en la muestra y su dependencia se basa en los últimos símbolos de la secuencia oculta. La secuencia oculta no es obser- vable en forma directa, define el estado actual del modelo y «la transición al siguiente estado sólo depende del estado anterior» [10]. Al aplicar las HMM en el contexto del etiquetado gramatical, Abney [1] menciona las probabilidades de transición y de emisión. Las probabilidades de transición son las probabilidades de una etiqueta a partir de una etiqueta previa. Las probabilidades de emisión son las probabilidades de una palabra a partir de una etiqueta. La probabilidad de una secuencia gramatical par- ticular mas una oración es el producto de las probabilidades de transición y emisión. Consideremos el ejemplo 2 en inglés: Figura 2: Ejemplo aplicando HMM Dos ventajas de los etiquetadores basados en modelos HMM son su exac- titud y el hecho que pueden ser entrenados con texto no registrado. Sin embargo, es importante considerar que si se entrena un etiquetador HMM 5
  • 6. sin código hecho a mano, tendrá éxito en encontrar un modelo cuya apro- ximación (cross-entropy) será baja. Entonces, la salida tendrá poca relación con las asignaciones de etiqueta que se desean obtener como salida. Para obtener un buen rendimiento, se requiere una buena cantidad de material preparado manualmente [1]. 3. Métodos para el etiquetado gramatical de mues- tras en Español Varios son los estudios de etiquetado gramatical aplicados a la lengua Es- pañola. En esta sección se presentan tres métodos con diferentes aplicaciones a la misma lengua. Las mismas son: la Gramática de dependencias basada en patrones de etiquetas, aplicado a la generación de formalisimos grama- ticales; Grafos de Sufijos de Predicción Multiatributos (MPSG - del ingés Multiattribute Prediction Suffix Graphs), aplicado al etiquetado de palabras con diferentes funciones; y el Etiquetador de Español Simple, que sirve para la detección y corrección de errores de acentuación. 3.1. Gramática de dependencias basada en patrones de eti- quetas Más que una herramienta de etiquetado gramatical de la lengua española, la Gramática de dependencias basada en patrones de etiquetas consiste en un formalismo gramatical. Su objetivo es escribir gramaticas de dependencias a partir de los patrones PoS (del inglés Part-of-Speech) que contienen informa- ción léxica y morfológica. Partiendo de las gramáticas escritas aplicando este formalismo, «un compilador genera analizadores sintácticos robustos basa- dos en expresiones regulares» para el español. De esta forma, los analizadores creados identifican dependencias que pueden servir para mejorar las aplica- ciones de Procesamiento del Lenguaje Natural [5]. Una gramática escrita con este método tiene un conjunto de reglas dependientes del contexto. El objeti- vo de cada regla es identificar una relación nucleo-dependiente «por medio de patrones de etiquetas morfosintácticas asociadas a información morfológica y léxica». Las reglas tienen dos partes: el patrón de etiquetas y el nombre de la relación nucleodependiente. Por ejemplo: DobjR: VERB [DT]? [ADJ]* NOUN Los dos puntos sirven para separar el patrón de etiquetas, que está a la derecha, del nombre de la dependencia, DobjR. Ambos, el nombre de las 6
  • 7. dependencias con el de las etiquetas morfosintácticas se declaran en ficheros aparte. Estos son los elementos esenciales de una regla. Por otra parte, se pue- den especificar dichas reglas mediante el uso de estructuras tipo «atributo- valor, provistas de información morfológica y léxica, asi como operaciones tales como concordancia, recursividad, herencia», etc; todas especificadas en ficheros externos y vinculados a los ficheros de la reglas [5]. 3.2. Grafo de sufijos de predicción multiatributos La lengua española tiene palabras que cumplen con más de una fun- ción dentro del esquema gramatical. Por este motivo, es importante diseñar etiquetadores que además de identificar los categorías gramaticales de una palabra, también sean capaces de distinguir que categoría gramatical corres- ponde a una palabra, dado su entorno de ocurrencia. El Grafo de sufijos de predicción multiatributos (MPSG - del inglés Multiattribute Prediction Suffix Graphs) combina tres enfoques para lograr el cometido de la distinción de categorías gramaticales de palabras con más de una función [9]: Un etiquetador de palabras simple basado en árboles de decisión Un etiquetador grmaatical basado en el modelo de aprendizaje MPSG Una estructura de etiquetas La base de esta herramienta es la conjunción de los tres elementos para mejo- rar el rendimiento del etiquetador gramatical, que permiten etiquetar corpus limitados, pero con gran cantidad de funciones, como ocurre con el español. La ventaja de trabajar con etiquetadores de palabras basados en árboles de decision es que no se necesita elaborar lexicones que solamente enumeran posibles etiquetas. Además, el MPSG toma sus características de las cade- nas de Markov multiatributo, en donde un estado MPSG es equivalente a un estado Markov, lo cual consiste en una expansión de los trabajos originales con cadenas de Markov [9]. 3.3. Etiquetador de español simple Las herramientas anteriores consideraban la separación morfo-sintáctica de las unidades de la lengua española. Este etiquetador detecta y corrige errores de acentuación de la lengua española. La omisión del acento gráfico es uno de los errores más comunes de la redacción escrita en español. El problema consiste en que si dicha omisión cambia la categoría gramatical de 7
  • 8. una palabra, entonces habrá un error en el etiquetado y su posterior procesa- miento. La herramienta propuesta se basa en heurísticas que determinan un contexto lineal y un pequeño conjunto de palabras que difieren solamente de la marca del acento. La idea es aplicar a numerosos sustantivos o adjetivos como la palabra número que se convierte en un verbo personal cuando carece del acento gráfico [4]. El algoritmo, dado un sustantivo o un adjetivo, puede determinar si las cuatro palabras contextuales a su alrededor son apropiadas para el mismo. Luego se aplican los conceptos de verificadores de estilo que en lugar de verificar la situación actual en el texto, se forma una hipótesis acerca de un posible error en el texto, y a continuación se comprueba esta hipótesis. Si la hipótesis es razonable, se reporta un error. El algoritmo analiza el texto. Cada palabra se busca en dos listas: una lista de palabras acentuadas y la lista automáticamente compilada de sus contrapartes no acentuadas. Las características de la palabra encontrada, género y número, son tomadas de la lista. Suponga que la palabra analizada es ω0, las palabras inmediatas en el contexto linear serán, ω − 1, ω1, ω2, de manera que el orden será: ω − 1, ω0, ω1, ω2 [4]. A partir de los datos obtenidos, el trabajo del algoritmo depende en que lista fue encontrada la palabra. Si fue encontrada en la lista de acentuadas, se considera un sustantivo o adjetivo y se verifica la propiedad en el contex- to inmediato. Si la palabra fue encontrada en la lista de no-acentuados, se lo considera un verbo. Como el algoritmo tiene limitaciones en el contexto verbal, haciendo las correspondientes pruebas de hipótesis[4]. 4. Valoraciones personales Partiendo de los conceptos presentados en este trabajo, se detallan las valoraciones personales con respecto al tema tratado. En primer lugar, es importante destacar que el concepto principal de este estudio ha sido el etiquetado gramatical de unidades morfo sintácticas en textos escritos. Cada uno de los métodos presentados presenta sus ventajas y desventajas a la hora de asignar una etiqueta con funciones gramaticales a una palabra de entrada. Para entender mejor la posición actual del Procesamiento del Lenguaje Natural y su perspectiva futura, es importante recordar las características del lenguaje humano. La distinción del lenguaje humano de otros sistemas de comunicación se inician en los procesos de producción y percepción, así como de otros aspectos más abstractos como las conexiones arbitrarias entre sonido y significado o la abilidad de crear nuevos mensajes. Particularmente, 8
  • 9. la creatividad es un aspecto que influye directamente en la calidad de los etiquetadores gramaticales. El lenguaje humano crea o presta nuevas palabras cuando la ocasión lo requiera. Es inherentemente flexible y se adapta a nuevas circunstancias y nuevas cosas para expresar. Chomsky, en la década de 1950, mencionó que los lenguajes son modificados para suplir una forma gramatical y su voca- bulario. La noción de creatividad fue usada para vincular teorías asociativas al argumentar que en principio, conexiones de estímulo-respuesta no pueden explicar totalmente las nuevas oraciones. El secreto de la creatividad es el sistema gramatical a través de las cuales nuevas aseveraciones pueden ser producidas y comprendidas [3]. Además, la constante evolución tecnológica hace que nuevas palabras ingresen al vocabulario de un idioma. Considerando la capacidad creativa del lenguaje humano, la creación y uso de nuevas palabras en teoría no afectaría al rendimiento de los etique- tadores. Cada vez que se introduce un nuevo vocabulario, directamente se entrena al etiquetador. Sin embargo, el problema principal radicaría en el préstamo de palabras de un idioma a otro. Los extranjerismos deben ser tratados teniendo en cuenta alguna clasificación en etiquetadores de más de un idioma. Por ejemplo, la palabra software está en inglés, pero también se lo usa en su forma original en el español. Entonces, ¿cómo un etiquetador distinguiría a que idioma pertenece una palabra?, ¿puede un etiquetador contener, además de información morfo-sintáctica, datos sobre el origen de la palabra? Con respecto al etiquetado gramatical en general, se recurren a árboles, estructuras y modelos matemáticos para hacer el tratamiento de palabras. Al comparar su rendimiento, se han obtenido valores altos y competitivos entre sí. Sin embargo, un tema en común en los reportes de los métodos consultados es el tratamiento del ruido. El ruido, concepto mencionado por Triviño [9] en el modelo MPSG y afecta a otros métodos que requieran entrenamiento, consiste en emplear etiquetas con errores durante en proceso de aprendizaje del modelo. En los métodos estudiados no se presenta un mecanismo de tratamiento de errores, porque se considera a priori que las etiquetas son correctas, por lo que todo el proceso sigue su curso normal hasta hallar los resultados no esperados. Resumiendo, los extranjerismos y el ruido son aspectos que necesitan mayor investigación en el área de etiquetado de palabras. Con lograr un avance con estos puntos, se lograrán etiquetadores gramaticales más exactos. Además, una vez lograda la exactitud, se pueden trabajar con otros métodos que incorporen mayor eficacia y eficiencia, en términos de tiempo y calidad de aprendizaje del corpus de entrenamiento. 9
  • 10. Conclusión Este trabajo ha presentado un estudio sobre los etiquetadores gramatica- les. Primeramente se definió el concepto de etiquetadores gramaticales dentro del contexto de la Extracción de la Información. A continuación se presen- taron tres métodos de etiquetado gramatical. Debido a las características propias del español, se detallaron tres herramientas aplicadas en el etiqueta- do gramatical. Finalmente, considerando toda la base teórica explicada, se incluyó una valoración personal sobre el tema. El etiquetado gramatical (en inglés Part-of-speech tagging) es una fase en el que la entrada es dividida en partes bàsicas y se vinculan a etiquetas que describen su morfología y/o función gramatical en el texto. Existen varios modelos matemático-lingüísticos que llevan a cabo esta tarea. Cada una de ellas tiene sus ventajas y desventajas. Sin embargo, como se describió en la valoración personal, dos puntos deben ser considerados en el momento de diseñar futuros etiquetadores gramaticales: la existencia de extranjerismos en etiquetadores multilingües y el tratamiento del ruido (entrenamiento con etiquetas erróneas). Referencias [1] Steven Abney. Part-of-speech tagging and partial parsing. Corpus-Based Methods in Language and Speech., 1996. [2] Alias-i. Lingpipe 4.1.0. Sitio Web; accedido 15-Feb-2012. [3] Vivian Cook. Senses of language, 1997. Sitio Web; accedido 16-Feb- 2012. [4] S. N. Galicia-Haro, I. A. Bolshakov, and A. F. Gelbukh. A simple spa- nish part of speech tagger for detection and correction of accentuation error. pages 219–222, 1999. Online; accedido 15-Feb-2012. [5] Pablo Gamallo Otero and Gonzalo Gonzalez Sanchez. Una gramatica de dependencias basada en patrones de etiquetas. Procesamiento del Lenguaje Natural,, 34(43):315–323, 2009. [6] Burcu Karagol-Ayan, David Doermann, , and Amy Weinberg. Adaptive transformation-based learning for improving dictionary tagging. ACL Anthology: A Digital Archive of Research Papers in Computational Lin- guistics, 2012. Documento Web; accedido 16-feb-2012. 10
  • 11. [7] Elizabeth D. Liddy. Natural Language Processing. Encyclopedia of Library and Information Science, 2da edition, 2001. [8] Natural Language Processing. Rule-based parts-of-speech tagging, De- cember 2009. Sitio Web; accedido 16-Feb-2012. [9] José L. Triviño and Rafael Morales-Bueno. Using multiattribute predic- tion suffix-graphs for spanish part-of-speech tagging. Articulo Campus Virtual. [10] Jose Luis Triviño. Modelos de aprendizaje para el estudio de sequencias de simbolos. PhD thesis, University of Málaga, Mayo 2003. Material Campus Virtual. [11] Luis Villaseñor, Aurelio Lopez, Manuel Montes, and Claudia Vazquez. Tratamiento automático de textos en español. Red de Revistas Científi- cas de América Latina y el Caribe, España y Portugal, 22(038):145–166, Diciembre 2003. 11