1. FAQS ALINEACIÓN Y CORPUS
¿Qué es un corpus?
¿Por qué son útiles los corpora?
¿Qué tipos de corpora existen?
¿Hay subcategorías?
¿Dónde puedo encontrar corpora?
¿Cómo puedo hacer un corpus bilingüe?
Una vez que tengo el corpus, ¿cómo puedo utilizarlo?
¿Qué es la alineación de textos?
¿Qué extensión debe tener cada fragmento?
¿Qué es una unidad de traducción?
Si las unidades de traducción son unidades semánticas al fin y al cabo, estarán recogidas en los
diccionarios.
¿Donde puedo encontrar entonces traducciones de este tipo de expresiones?
Si en mi alineación utilizo frases completas como unidades para mi memoria, no se
corresponden con las unidades de traducción. ¿Cómo funciona entonces la memoria cuando la
he alimentado con mi corpus?
¿Qué ventaja tiene esto?
2. ¿Y si no tengo ningún ejemplo del refrán que quiero traducir en mi memoria de traducción?
Si hago la memoria de traducción con unidades muy pequeñas, tendré muchas
coincidencias y tendré menos trabajo por hacer.
¿Cuál es el proceso que debo seguir para alinear dos textos?
Después de esto el programa me alinea los segmentos automáticamente.
¿Con qué otros errores me puedo encontrar en la alineación?
¿Es conveniente entonces preparar los textos de antemano?
¿Qué programas existen de alineación de textos?
¿En qué formatos puedo tener mi texto una vez alineado?
-Si tengo mis corpora alineados en formato.tmx, ¿puedo compartirlo con quien quiera?
-¿Qué más utilidades tiene un corpus?
¿Qué textos puedo incorporar en mi corpus?
Entonces, ¿puedo sacarlos de internet?
¿Qué es una concordancia?
¿Cómo puedo buscar concordancias en un corpus?
¿Existen programas que busquen concordancias en corpus paralelos?
¿Qué son las anotaciones o etiquetas?
¿Existe algún estándar para las anotaciones?
3. ¿Qué es un corpus?
Es una recolección de un conjunto de textos
reales de diferentes ámbitos que nos permite
ver el funcionamiento de una palabra o varias
(por ejemplo colocaciones) en su contexto.
4. ¿Por qué son útiles los corpora?
Porque podemos ver la palabra en su contexto y
evidenciar los detalles de significado en cada
uno.
5. ¿Qué tipos de corpora existen?
Monolingües y multilingües.
6. ¿Hay subcategorías?
Sí, pueden ser de textos orales, textos escritos, especializados, de un registro
de terminado solamente (por ejemplo de lenguaje infantil)...
Dentro de los que multilingües podemos encontrar también 3 tipos
diferentes de corpora:
* comparables: no son traducción un texto del otro, pero sí versan sobre el
mismo tema, tienen una extensión parecida, un origen similar...
* paralelos: un texto es traducción del otro y por lo tanto se pueden
alinear.
* corpus de textos en distintos idiomas: la elección de los textos se puede
hacer simplemente por la disponibilidad de los mismos hasta por rasgos
parecidos, pero sin llegar a ser comparables.
También existe el corpus monolingüe comparable, en el que se recogen el
texto original en el idioma original y por otro lado las traducciones del mismo
texto hechas a este mismo idioma original desde otros traducidos.
7. ¿Dónde puedo encontrar corpora?
Por ejemplo tiene el Corpus del Español de Mark Davies de la
Brigham Young University, el Corpus de Referencia del Español
Actual (CREA) de la Real Academia Española, International
Corpus of English (ICE) de University College London, Corpus
lingüístico del español contemporáneo, Lexesp, Léxico
informatizado del español, Corpus Diacrónico del Español
(CORDE), Archivo de textos hispánicos de la Universidad de
Santiago (ARTHUS), CUMBRE, Corpus de español de la
República de Argentina, Corpus Chileno de Referencia, British
National Corpus (BNC), Cobuild, the Bank of English,
Multilingual Corpus de la European Corpus Initiative…
8. ¿Cómo puedo hacer un corpus bilingüe?
Simplemente hay que buscar textos en ambos
idiomas que versen sobre el mismo tema
(corpus comparable) o que sean uno traducción
del otro (corpus paralelo).
9. Una vez que tengo el corpus, ¿cómo puedo
utilizarlo?
El corpus puede utilizarse simplemente para ver
el uso de las palabras pero si lo alineamos
podremos alimentar una memoria de
traducción.
10. ¿Qué es la alineación de textos?
Consiste en comparar dos textos de un corpus
paralelo haciendo coincidir cada fragmento con
su traducción. Esto sirve como base para poder
crear las memorias de traducción.
11. ¿Qué extensión debe tener cada
fragmento?
Depende del usuario. Si buscamos la posibilidad
de tener más coincidencias con la memoria de
traducción, alinearemos fragmentos pequeños.
Incluso podremos hacerlo por párrafos
completos o por simples unidades de
traducción.
12. ¿Qué es una unidad de traducción?
Existen muchas versiones. Según Vinay y Darbelnet es
“el menor segmento del enunciado en el que la
cohesión de los signos es tal que no se entenderían si
fueran traducidos por separado”. Atendiendo a esta
definición , la unidad se mide por el significado,
pudiendo ser desde una palabra hasta una frase
completa (como por ejemplo los refranes), pasando
por colocaciones o perífrasis.
13. Si las unidades de traducción son unidades
semánticas al fin y al cabo, estarán
recogidas en los diccionarios.
No, porque el recoger todos los giros,
colocaciones, perífrasis... en un diccionario sería
una tarea prácticamente imposible, debido a la
exhaustividad que tendrían que tener. Existen
algunos diccionarios más completos que pueden
incorporar algunas pero no todas.
14. ¿Donde puedo encontrar entonces
traducciones de este tipo de expresiones?
En los corpora bilingües o multilingües.
15. Si en mi alineación utilizo frases completas como
unidades para mi memoria, no se corresponden con
las unidades de traducción. ¿Cómo funciona entonces
la memoria cuando la he alimentado con mi corpus?
Utiliza la traducción por comparación con otros
ejemplos (la alineación incorporada), no por unidades
de traducción (que utilizan los programas de
traducción automática).
16. ¿Qué ventaja tiene esto?
Por ejemplo en el caso de tener que traducir frases
hechas o refranes, en el caso de una traducción
automática nos lo traduciría palabra por palabra, lo
que no tendría sentido. Sin embargo, la memoria de
traducción nos lo traduciría por su sentido si lo
tenemos alineado e incorporado a nuestro software.
17. ¿Y si no tengo ningún ejemplo del refrán
que quiero traducir en mi memoria de
traducción?
Entonces no lo traducirá. Tendremos que
hacerlo manualmente.
18. Si hago la memoria de traducción con unidades
muy pequeñas, tendré muchas coincidencias y
tendré menos trabajo por hacer.
Sí, pero al carecer del contexto suficiente, muchas
veces puede que la traducción no se ajuste aunque
coincida al 100% con alguna ya introducida en la
memoria de traducción.
19. ¿Cuál es el proceso que debo seguir para
alinear dos textos?
Se deben escoger ambos archivos, especificar
su formato, especificar sus lenguas, y seguir las
instrucciones de cada programa.
20. Después de esto el programa me alinea los
segmentos automáticamente.
Sí, pero necesita revisión por parte de la persona. Los
programas de alineación muchas veces basan la
división de los segmentos por los signos de puntuación
y puede no realizarlo bien, como por ejemplo
considerando los puntos de detrás de abreviaturas
como puntos de final de frase.
21. ¿Con qué otros errores me puedo
encontrar en la alineación?
Hay muchas veces que una frase en un idioma corresponde a dos en otra
lengua y esto tampoco lo reconocen los programas de alineación.
Si el texto no tiene el formato correcto y se ha usado el retorno de carro
varias veces en una frase para hacer las líneas más pequeñas (como por
ejemplo en una poesía o en un título que queremos centrar en la página), el
programa de alineación lo considerará como segmentos distintos.
No hay que olvidar el ejemplo mencionado en la pregunta anterior. Los
programas reconocen los puntos como final de segmentos (aunque esta
función se puede modificar) y lo dividen tanto si es un punto de detrás de una
abreviatura como si es el punto final de la frase.
22. ¿Es conveniente entonces preparar los
textos de antemano?
Sí. Lo mejor es que los textos sean lo más homogéneos posibles
y con las menos “trabas” para el programa. Conviene que los
párrafos sean los mismos en ambos textos, que no haya
divisiones de párrafo donde no existe una diferencia del mismo,
que no haya frases sin correspondencia o que no se repita una
frase innecesaria a lo largo de todo el documento (por ejemplo
los títulos de la obra o capítulo). Todo el trabajo que realicemos
antes de la alineación repercutirá positivamente en la misma y
nos ahorrará trabajo en su corrección.
23. ¿Qué programas existen de alineación de
textos?
Por ejemplo existen Trados Winalign, Déjà Vu X,
PlusTools de Wordfast, MultiTrans, Transit,
SDLX…
24. ¿En qué formatos puedo tener mi texto
una vez alineado?
Podemos volcarlo en formato .txt, el cual podremos
exportar a casi cualquier programa que use texto.
también podremos guardarlo en formato .tmx
(Translation Memory Exchange Format) que nos sirve
para exportarlo a otros programas de memorias de
traducción.
25. Si tengo mis corpora alineados en
formato.tmx, ¿puedo compartirlo con
quien quiera?
Sí, con cualquiera que tenga una memoria de
traducción. Con el inconveniente que presentan
los derechos de autor de las traducciones para
este intercambio, claro.
26. ¿Qué más utilidades tiene un corpus?
Por ejemplo podemos ver desde cuando se
utiliza una palabra en el caso de que recoja
textos antiguos, ver la frecuencia de uso de una
palabra, compara los diferentes registros en los
que se puede utilizar la palabra (prensa,
lenguaje hablado, escrito)…
27. ¿Qué textos puedo incorporar en mi
corpus?
Cualquiera que esté en formato electrónico. Es
más, existe software que usa todo Internet
como si fuera una gran colección de textos y
busca concordancias en cualquier texto que se
encuentre en la red.
28. ¿Puedo sacarlos de internet?
Sí, pero tiene el problema de que en la red
existen textos de todo tipo, tanto
correctamente escritos como incorrectos,
formales e informales, educados o no… hay que
tener esto presente para poder seleccionar los
que nos resulten adecuados a nuestras
necesidades.
29. ¿Qué es una concordancia?
Son los resultados que nos da el software
cuando buscamos una palabra en su contexto.
Según cada programa puede darnos más
número de palabras delante y detrás de la que
buscamos en su texto original.
Lo mejor para comprenderlo es ver la siguiente
imagen
30.
31. ¿Cómo puedo buscar concordancias en un
corpus?
Con un software determinado o si está en internet
como el caso de los corpora de la RAE simplemente
usando su web.
Para poder ver listas de software que nos las busquen,
incluimos dos links a webs que poseen una lista de
estos programas.
www www
32. ¿Existen programas que busquen
concordancias en corpus paralelos?
Sí, por ejemplo Multiconcord.
33. ¿Qué son las anotaciones o etiquetas?
Se trata de asignarle a cada palabra por ejemplo
su análisis morfológico o sintático para poder
obtener mejores estadísticas del corpus o un
mejor análisis de las relaciones entre las
palabras o significados. Estas deben poder
eliminarse para poder ver el texto en su estado
original.
34. ¿Existe algún estándar para las
anotaciones?
Sí, por ejemplo el SGML (Standard Generalised
Markup Language), que es el más extendido.