SlideShare une entreprise Scribd logo
1  sur  34
FAQS ALINEACIÓN Y CORPUS
                                          ¿Qué es un corpus?
                                   ¿Por qué son útiles los corpora?
                                   ¿Qué tipos de corpora existen?
                                         ¿Hay subcategorías?
                                 ¿Dónde puedo encontrar corpora?
                             ¿Cómo puedo hacer un corpus bilingüe?
                      Una vez que tengo el corpus, ¿cómo puedo utilizarlo?
                                  ¿Qué es la alineación de textos?
                           ¿Qué extensión debe tener cada fragmento?
                                 ¿Qué es una unidad de traducción?
Si las unidades de traducción son unidades semánticas al fin y al cabo, estarán recogidas en los
                                            diccionarios.
          ¿Donde puedo encontrar entonces traducciones de este tipo de expresiones?
       Si en mi alineación utilizo frases completas como unidades para mi memoria, no se
corresponden con las unidades de traducción. ¿Cómo funciona entonces la memoria cuando la
                                    he alimentado con mi corpus?
                                      ¿Qué ventaja tiene esto?
¿Y si no tengo ningún ejemplo del refrán que quiero traducir en mi memoria de traducción?
       Si hago la memoria de traducción con unidades muy pequeñas, tendré muchas
                        coincidencias y tendré menos trabajo por hacer.
                 ¿Cuál es el proceso que debo seguir para alinear dos textos?
          Después de esto el programa me alinea los segmentos automáticamente.
                ¿Con qué otros errores me puedo encontrar en la alineación?
                 ¿Es conveniente entonces preparar los textos de antemano?
                       ¿Qué programas existen de alineación de textos?
                  ¿En qué formatos puedo tener mi texto una vez alineado?
  -Si tengo mis corpora alineados en formato.tmx, ¿puedo compartirlo con quien quiera?
                             -¿Qué más utilidades tiene un corpus?
                          ¿Qué textos puedo incorporar en mi corpus?
                            Entonces, ¿puedo sacarlos de internet?
                                  ¿Qué es una concordancia?
                      ¿Cómo puedo buscar concordancias en un corpus?
            ¿Existen programas que busquen concordancias en corpus paralelos?
                             ¿Qué son las anotaciones o etiquetas?
                         ¿Existe algún estándar para las anotaciones?
¿Qué es un corpus?


Es una recolección de un conjunto de textos
reales de diferentes ámbitos que nos permite
ver el funcionamiento de una palabra o varias
(por ejemplo colocaciones) en su contexto.
¿Por qué son útiles los corpora?


Porque podemos ver la palabra en su contexto y
evidenciar los detalles de significado en cada
uno.
¿Qué tipos de corpora existen?


    Monolingües y multilingües.
¿Hay subcategorías?
Sí, pueden ser de textos orales, textos escritos, especializados, de un registro
de terminado solamente (por ejemplo de lenguaje infantil)...
Dentro de los que multilingües podemos encontrar también 3 tipos
diferentes de corpora:
   * comparables: no son traducción un texto del otro, pero sí versan sobre el
mismo tema, tienen una extensión parecida, un origen similar...
     * paralelos: un texto es traducción del otro y por lo tanto se pueden
alinear.
   * corpus de textos en distintos idiomas: la elección de los textos se puede
hacer simplemente por la disponibilidad de los mismos hasta por rasgos
parecidos, pero sin llegar a ser comparables.
También existe el corpus monolingüe comparable, en el que se recogen el
texto original en el idioma original y por otro lado las traducciones del mismo
texto hechas a este mismo idioma original desde otros traducidos.
¿Dónde puedo encontrar corpora?
Por ejemplo tiene el Corpus del Español de Mark Davies de la
Brigham Young University, el Corpus de Referencia del Español
Actual (CREA) de la Real Academia Española, International
Corpus of English (ICE) de University College London, Corpus
lingüístico del español contemporáneo, Lexesp, Léxico
informatizado del español, Corpus Diacrónico del Español
(CORDE), Archivo de textos hispánicos de la Universidad de
Santiago (ARTHUS), CUMBRE, Corpus de español de la
República de Argentina, Corpus Chileno de Referencia, British
National Corpus (BNC), Cobuild, the Bank of English,
Multilingual Corpus de la European Corpus Initiative…
¿Cómo puedo hacer un corpus bilingüe?

Simplemente hay que buscar textos en ambos
idiomas que versen sobre el mismo tema
(corpus comparable) o que sean uno traducción
del otro (corpus paralelo).
Una vez que tengo el corpus, ¿cómo puedo
               utilizarlo?

  El corpus puede utilizarse simplemente para ver
  el uso de las palabras pero si lo alineamos
  podremos alimentar una memoria de
  traducción.
¿Qué es la alineación de textos?


Consiste en comparar dos textos de un corpus
paralelo haciendo coincidir cada fragmento con
su traducción. Esto sirve como base para poder
crear las memorias de traducción.
¿Qué extensión debe tener cada
            fragmento?
Depende del usuario. Si buscamos la posibilidad
de tener más coincidencias con la memoria de
traducción, alinearemos fragmentos pequeños.
Incluso podremos hacerlo por párrafos
completos o por simples unidades de
traducción.
¿Qué es una unidad de traducción?

Existen muchas versiones. Según Vinay y Darbelnet es
“el menor segmento del enunciado en el que la
cohesión de los signos es tal que no se entenderían si
fueran traducidos por separado”. Atendiendo a esta
definición , la unidad se mide por el significado,
pudiendo ser desde una palabra hasta una frase
completa (como por ejemplo los refranes), pasando
por colocaciones o perífrasis.
Si las unidades de traducción son unidades
     semánticas al fin y al cabo, estarán
        recogidas en los diccionarios.
  No, porque el recoger todos los giros,
  colocaciones, perífrasis... en un diccionario sería
  una tarea prácticamente imposible, debido a la
  exhaustividad que tendrían que tener. Existen
  algunos diccionarios más completos que pueden
  incorporar algunas pero no todas.
¿Donde puedo encontrar entonces
traducciones de este tipo de expresiones?


     En los corpora bilingües o multilingües.
Si en mi alineación utilizo frases completas como
 unidades para mi memoria, no se corresponden con
las unidades de traducción. ¿Cómo funciona entonces
 la memoria cuando la he alimentado con mi corpus?


  Utiliza la traducción por comparación con otros
  ejemplos (la alineación incorporada), no por unidades
  de traducción (que utilizan los programas de
  traducción automática).
¿Qué ventaja tiene esto?

Por ejemplo en el caso de tener que traducir frases
hechas o refranes, en el caso de una traducción
automática nos lo traduciría palabra por palabra, lo
que no tendría sentido. Sin embargo, la memoria de
traducción nos lo traduciría por su sentido si lo
tenemos alineado e incorporado a nuestro software.
¿Y si no tengo ningún ejemplo del refrán
 que quiero traducir en mi memoria de
               traducción?

Entonces no lo traducirá. Tendremos que
hacerlo manualmente.
Si hago la memoria de traducción con unidades
muy pequeñas, tendré muchas coincidencias y
       tendré menos trabajo por hacer.


 Sí, pero al carecer del contexto suficiente, muchas
 veces puede que la traducción no se ajuste aunque
 coincida al 100% con alguna ya introducida en la
 memoria de traducción.
¿Cuál es el proceso que debo seguir para
            alinear dos textos?

 Se deben escoger ambos archivos, especificar
 su formato, especificar sus lenguas, y seguir las
 instrucciones de cada programa.
Después de esto el programa me alinea los
     segmentos automáticamente.

 Sí, pero necesita revisión por parte de la persona. Los
 programas de alineación muchas veces basan la
 división de los segmentos por los signos de puntuación
 y puede no realizarlo bien, como por ejemplo
 considerando los puntos de detrás de abreviaturas
 como puntos de final de frase.
¿Con qué otros errores me puedo
        encontrar en la alineación?
Hay muchas veces que una frase en un idioma corresponde a dos en otra
lengua y esto tampoco lo reconocen los programas de alineación.
Si el texto no tiene el formato correcto y se ha usado el retorno de carro
varias veces en una frase para hacer las líneas más pequeñas (como por
ejemplo en una poesía o en un título que queremos centrar en la página), el
programa de alineación lo considerará como segmentos distintos.
No hay que olvidar el ejemplo mencionado en la pregunta anterior. Los
programas reconocen los puntos como final de segmentos (aunque esta
función se puede modificar) y lo dividen tanto si es un punto de detrás de una
abreviatura como si es el punto final de la frase.
¿Es conveniente entonces preparar los
        textos de antemano?
Sí. Lo mejor es que los textos sean lo más homogéneos posibles
y con las menos “trabas” para el programa. Conviene que los
párrafos sean los mismos en ambos textos, que no haya
divisiones de párrafo donde no existe una diferencia del mismo,
que no haya frases sin correspondencia o que no se repita una
frase innecesaria a lo largo de todo el documento (por ejemplo
los títulos de la obra o capítulo). Todo el trabajo que realicemos
antes de la alineación repercutirá positivamente en la misma y
nos ahorrará trabajo en su corrección.
¿Qué programas existen de alineación de
              textos?

 Por ejemplo existen Trados Winalign, Déjà Vu X,
   PlusTools de Wordfast, MultiTrans, Transit,
                    SDLX…
¿En qué formatos puedo tener mi texto
          una vez alineado?
Podemos volcarlo en formato .txt, el cual podremos
exportar a casi cualquier programa que use texto.
también podremos guardarlo en formato .tmx
(Translation Memory Exchange Format) que nos sirve
para exportarlo a otros programas de memorias de
traducción.
Si tengo mis corpora alineados en
formato.tmx, ¿puedo compartirlo con
            quien quiera?

Sí, con cualquiera que tenga una memoria de
traducción. Con el inconveniente que presentan
los derechos de autor de las traducciones para
este intercambio, claro.
¿Qué más utilidades tiene un corpus?

Por ejemplo podemos ver desde cuando se
utiliza una palabra en el caso de que recoja
textos antiguos, ver la frecuencia de uso de una
palabra, compara los diferentes registros en los
que se puede utilizar la palabra (prensa,
lenguaje hablado, escrito)…
¿Qué textos puedo incorporar en mi
              corpus?

Cualquiera que esté en formato electrónico. Es
más, existe software que usa todo Internet
como si fuera una gran colección de textos y
busca concordancias en cualquier texto que se
encuentre en la red.
¿Puedo sacarlos de internet?

Sí, pero tiene el problema de que en la red
existen textos de todo tipo, tanto
correctamente escritos como incorrectos,
formales e informales, educados o no… hay que
tener esto presente para poder seleccionar los
que nos resulten adecuados a nuestras
necesidades.
¿Qué es una concordancia?

Son los resultados que nos da el software
cuando buscamos una palabra en su contexto.
Según cada programa puede darnos más
número de palabras delante y detrás de la que
buscamos en su texto original.
Lo mejor para comprenderlo es ver la siguiente
imagen
¿Cómo puedo buscar concordancias en un
              corpus?
 Con un software determinado o si está en internet
 como el caso de los corpora de la RAE simplemente
 usando su web.
 Para poder ver listas de software que nos las busquen,
 incluimos dos links a webs que poseen una lista de
 estos programas.

  www      www
¿Existen programas que busquen
concordancias en corpus paralelos?

     Sí, por ejemplo Multiconcord.
¿Qué son las anotaciones o etiquetas?

Se trata de asignarle a cada palabra por ejemplo
su análisis morfológico o sintático para poder
obtener mejores estadísticas del corpus o un
mejor análisis de las relaciones entre las
palabras o significados. Estas deben poder
eliminarse para poder ver el texto en su estado
original.
¿Existe algún estándar para las
             anotaciones?

Sí, por ejemplo el SGML (Standard Generalised
Markup Language), que es el más extendido.

Contenu connexe

En vedette

Mi Filosofia Favorita
Mi Filosofia FavoritaMi Filosofia Favorita
Mi Filosofia FavoritaJorge Llosa
 
China es comunista
China es comunistaChina es comunista
China es comunistaJorge Llosa
 
Behavior Games | Videojuegos en el mercado Latino
Behavior Games | Videojuegos en el mercado LatinoBehavior Games | Videojuegos en el mercado Latino
Behavior Games | Videojuegos en el mercado LatinoeCGlobal
 
Mi Filosofia Favorita
Mi Filosofia FavoritaMi Filosofia Favorita
Mi Filosofia FavoritaJorge Llosa
 
Catedral de lima
Catedral de limaCatedral de lima
Catedral de limaJorge Llosa
 
Argentina para disfrutar...!
Argentina para disfrutar...!Argentina para disfrutar...!
Argentina para disfrutar...!Jorge Llosa
 
Lo Mas Parecido Al Paraiso
Lo Mas Parecido Al ParaisoLo Mas Parecido Al Paraiso
Lo Mas Parecido Al ParaisoJorge Llosa
 
Paseo por la india
Paseo por la indiaPaseo por la india
Paseo por la indiaJorge Llosa
 
Fotos De La Naturaleza
Fotos De La NaturalezaFotos De La Naturaleza
Fotos De La NaturalezaJorge Llosa
 
Palaciode Schonbrunn Ro
Palaciode Schonbrunn RoPalaciode Schonbrunn Ro
Palaciode Schonbrunn RoJorge Llosa
 
Investigacion Cientifica
Investigacion CientificaInvestigacion Cientifica
Investigacion Cientificammmmmmmmmm
 
AgradecimientossGK
AgradecimientossGKAgradecimientossGK
AgradecimientossGKrolroragi
 
Engagement & Hochschule: Campus Community Partnerschaften aus Perspektive der...
Engagement & Hochschule: Campus Community Partnerschaften aus Perspektive der...Engagement & Hochschule: Campus Community Partnerschaften aus Perspektive der...
Engagement & Hochschule: Campus Community Partnerschaften aus Perspektive der...Tom Sporer
 

En vedette (20)

Mi Filosofia Favorita
Mi Filosofia FavoritaMi Filosofia Favorita
Mi Filosofia Favorita
 
China es comunista
China es comunistaChina es comunista
China es comunista
 
Behavior Games | Videojuegos en el mercado Latino
Behavior Games | Videojuegos en el mercado LatinoBehavior Games | Videojuegos en el mercado Latino
Behavior Games | Videojuegos en el mercado Latino
 
Mi Filosofia Favorita
Mi Filosofia FavoritaMi Filosofia Favorita
Mi Filosofia Favorita
 
Catedral de lima
Catedral de limaCatedral de lima
Catedral de lima
 
Argentina para disfrutar...!
Argentina para disfrutar...!Argentina para disfrutar...!
Argentina para disfrutar...!
 
Lo Mas Parecido Al Paraiso
Lo Mas Parecido Al ParaisoLo Mas Parecido Al Paraiso
Lo Mas Parecido Al Paraiso
 
Toledo
ToledoToledo
Toledo
 
Paseo por la india
Paseo por la indiaPaseo por la india
Paseo por la india
 
Fotos De La Naturaleza
Fotos De La NaturalezaFotos De La Naturaleza
Fotos De La Naturaleza
 
Vietnam 10225
Vietnam 10225Vietnam 10225
Vietnam 10225
 
Moscow Windows Solo
Moscow  Windows SoloMoscow  Windows Solo
Moscow Windows Solo
 
Voy A Seguir
Voy A SeguirVoy A Seguir
Voy A Seguir
 
Palaciode Schonbrunn Ro
Palaciode Schonbrunn RoPalaciode Schonbrunn Ro
Palaciode Schonbrunn Ro
 
Paradojas
ParadojasParadojas
Paradojas
 
Investigacion Cientifica
Investigacion CientificaInvestigacion Cientifica
Investigacion Cientifica
 
Tormentas
TormentasTormentas
Tormentas
 
AgradecimientossGK
AgradecimientossGKAgradecimientossGK
AgradecimientossGK
 
Brasil
BrasilBrasil
Brasil
 
Engagement & Hochschule: Campus Community Partnerschaften aus Perspektive der...
Engagement & Hochschule: Campus Community Partnerschaften aus Perspektive der...Engagement & Hochschule: Campus Community Partnerschaften aus Perspektive der...
Engagement & Hochschule: Campus Community Partnerschaften aus Perspektive der...
 

Similaire à Faqs Corpora y Alineación de traducción

Presentación temas 2 y 3
Presentación temas 2 y 3Presentación temas 2 y 3
Presentación temas 2 y 3Nataliaares
 
Patricia Losada, Bloque Nº 2, Producto TeóRico
Patricia Losada, Bloque Nº 2, Producto TeóRicoPatricia Losada, Bloque Nº 2, Producto TeóRico
Patricia Losada, Bloque Nº 2, Producto TeóRicoPatricia Losada
 
Patricia Losada: Corpus y memoria de traducción
Patricia Losada: Corpus y memoria de traducciónPatricia Losada: Corpus y memoria de traducción
Patricia Losada: Corpus y memoria de traducciónPatricia Losada
 
Memorias De Traducción
Memorias De TraducciónMemorias De Traducción
Memorias De Traduccióncelizari
 
Temas 2 Y 3.Laura Garcia
Temas 2 Y 3.Laura GarciaTemas 2 Y 3.Laura Garcia
Temas 2 Y 3.Laura Garcialaura77_madrid
 
Actividad 2 tipos de red aplicando una metodología
Actividad 2   tipos de red aplicando una metodologíaActividad 2   tipos de red aplicando una metodología
Actividad 2 tipos de red aplicando una metodologíasilpya99
 
Los Corpus En TraduccióN
Los Corpus En TraduccióNLos Corpus En TraduccióN
Los Corpus En TraduccióNguestba188
 
Los Corpus En Traducción
Los Corpus En TraducciónLos Corpus En Traducción
Los Corpus En TraducciónPedro Garcés
 
Herramientas De Traducción Asistida Por Ordenador (Tao
Herramientas  De Traducción Asistida Por Ordenador (TaoHerramientas  De Traducción Asistida Por Ordenador (Tao
Herramientas De Traducción Asistida Por Ordenador (Taoeskimal16
 
Capitulo 4 - Interfaz léxico-gramática.pptx
Capitulo 4 - Interfaz léxico-gramática.pptxCapitulo 4 - Interfaz léxico-gramática.pptx
Capitulo 4 - Interfaz léxico-gramática.pptxxTacoChanx
 
El Uso Del Diccionario
El Uso Del DiccionarioEl Uso Del Diccionario
El Uso Del DiccionarioXhel27
 
Traducción asistida
Traducción asistidaTraducción asistida
Traducción asistidaRocioUnzeta
 
Traducción asistida
Traducción asistida Traducción asistida
Traducción asistida RocioUnzeta
 
Fundamentos_teoricos_de_los_Paradigmas_d.pdf
Fundamentos_teoricos_de_los_Paradigmas_d.pdfFundamentos_teoricos_de_los_Paradigmas_d.pdf
Fundamentos_teoricos_de_los_Paradigmas_d.pdfJoseFeriaNarvaez1
 
Propiedades del texto
Propiedades del textoPropiedades del texto
Propiedades del textoMapraza
 
Lengua y habla. sintagama y paradigma. expresión y contenido
Lengua y habla. sintagama y paradigma. expresión y contenidoLengua y habla. sintagama y paradigma. expresión y contenido
Lengua y habla. sintagama y paradigma. expresión y contenidoJeanmev
 
Problemática de la fraseología especializada gabriela rosillo
Problemática de la fraseología especializada gabriela rosilloProblemática de la fraseología especializada gabriela rosillo
Problemática de la fraseología especializada gabriela rosilloAdriana Cillóniz
 
Clase 05 memoria métodos de estudio
Clase 05 memoria   métodos de estudioClase 05 memoria   métodos de estudio
Clase 05 memoria métodos de estudioAlex Hernandez Torres
 

Similaire à Faqs Corpora y Alineación de traducción (20)

Presentación temas 2 y 3
Presentación temas 2 y 3Presentación temas 2 y 3
Presentación temas 2 y 3
 
Patricia Losada, Bloque Nº 2, Producto TeóRico
Patricia Losada, Bloque Nº 2, Producto TeóRicoPatricia Losada, Bloque Nº 2, Producto TeóRico
Patricia Losada, Bloque Nº 2, Producto TeóRico
 
Patricia Losada: Corpus y memoria de traducción
Patricia Losada: Corpus y memoria de traducciónPatricia Losada: Corpus y memoria de traducción
Patricia Losada: Corpus y memoria de traducción
 
Memorias De Traducción
Memorias De TraducciónMemorias De Traducción
Memorias De Traducción
 
Temas 2 Y 3.Laura Garcia
Temas 2 Y 3.Laura GarciaTemas 2 Y 3.Laura Garcia
Temas 2 Y 3.Laura Garcia
 
Actividad 2 tipos de red aplicando una metodología
Actividad 2   tipos de red aplicando una metodologíaActividad 2   tipos de red aplicando una metodología
Actividad 2 tipos de red aplicando una metodología
 
Los Corpus En TraduccióN
Los Corpus En TraduccióNLos Corpus En TraduccióN
Los Corpus En TraduccióN
 
Los Corpus En Traducción
Los Corpus En TraducciónLos Corpus En Traducción
Los Corpus En Traducción
 
Herramientas De Traducción Asistida Por Ordenador (Tao
Herramientas  De Traducción Asistida Por Ordenador (TaoHerramientas  De Traducción Asistida Por Ordenador (Tao
Herramientas De Traducción Asistida Por Ordenador (Tao
 
Capitulo 4 - Interfaz léxico-gramática.pptx
Capitulo 4 - Interfaz léxico-gramática.pptxCapitulo 4 - Interfaz léxico-gramática.pptx
Capitulo 4 - Interfaz léxico-gramática.pptx
 
El Uso Del Diccionario
El Uso Del DiccionarioEl Uso Del Diccionario
El Uso Del Diccionario
 
Cii2
Cii2Cii2
Cii2
 
Traducción asistida
Traducción asistidaTraducción asistida
Traducción asistida
 
Traducción asistida
Traducción asistida Traducción asistida
Traducción asistida
 
Fundamentos_teoricos_de_los_Paradigmas_d.pdf
Fundamentos_teoricos_de_los_Paradigmas_d.pdfFundamentos_teoricos_de_los_Paradigmas_d.pdf
Fundamentos_teoricos_de_los_Paradigmas_d.pdf
 
NOLA ITZULI EDUKIAK? PISTAK ETA TRESNAK
NOLA ITZULI EDUKIAK? PISTAK ETA TRESNAKNOLA ITZULI EDUKIAK? PISTAK ETA TRESNAK
NOLA ITZULI EDUKIAK? PISTAK ETA TRESNAK
 
Propiedades del texto
Propiedades del textoPropiedades del texto
Propiedades del texto
 
Lengua y habla. sintagama y paradigma. expresión y contenido
Lengua y habla. sintagama y paradigma. expresión y contenidoLengua y habla. sintagama y paradigma. expresión y contenido
Lengua y habla. sintagama y paradigma. expresión y contenido
 
Problemática de la fraseología especializada gabriela rosillo
Problemática de la fraseología especializada gabriela rosilloProblemática de la fraseología especializada gabriela rosillo
Problemática de la fraseología especializada gabriela rosillo
 
Clase 05 memoria métodos de estudio
Clase 05 memoria   métodos de estudioClase 05 memoria   métodos de estudio
Clase 05 memoria métodos de estudio
 

Faqs Corpora y Alineación de traducción

  • 1. FAQS ALINEACIÓN Y CORPUS ¿Qué es un corpus? ¿Por qué son útiles los corpora? ¿Qué tipos de corpora existen? ¿Hay subcategorías? ¿Dónde puedo encontrar corpora? ¿Cómo puedo hacer un corpus bilingüe? Una vez que tengo el corpus, ¿cómo puedo utilizarlo? ¿Qué es la alineación de textos? ¿Qué extensión debe tener cada fragmento? ¿Qué es una unidad de traducción? Si las unidades de traducción son unidades semánticas al fin y al cabo, estarán recogidas en los diccionarios. ¿Donde puedo encontrar entonces traducciones de este tipo de expresiones? Si en mi alineación utilizo frases completas como unidades para mi memoria, no se corresponden con las unidades de traducción. ¿Cómo funciona entonces la memoria cuando la he alimentado con mi corpus? ¿Qué ventaja tiene esto?
  • 2. ¿Y si no tengo ningún ejemplo del refrán que quiero traducir en mi memoria de traducción? Si hago la memoria de traducción con unidades muy pequeñas, tendré muchas coincidencias y tendré menos trabajo por hacer. ¿Cuál es el proceso que debo seguir para alinear dos textos? Después de esto el programa me alinea los segmentos automáticamente. ¿Con qué otros errores me puedo encontrar en la alineación? ¿Es conveniente entonces preparar los textos de antemano? ¿Qué programas existen de alineación de textos? ¿En qué formatos puedo tener mi texto una vez alineado? -Si tengo mis corpora alineados en formato.tmx, ¿puedo compartirlo con quien quiera? -¿Qué más utilidades tiene un corpus? ¿Qué textos puedo incorporar en mi corpus? Entonces, ¿puedo sacarlos de internet? ¿Qué es una concordancia? ¿Cómo puedo buscar concordancias en un corpus? ¿Existen programas que busquen concordancias en corpus paralelos? ¿Qué son las anotaciones o etiquetas? ¿Existe algún estándar para las anotaciones?
  • 3. ¿Qué es un corpus? Es una recolección de un conjunto de textos reales de diferentes ámbitos que nos permite ver el funcionamiento de una palabra o varias (por ejemplo colocaciones) en su contexto.
  • 4. ¿Por qué son útiles los corpora? Porque podemos ver la palabra en su contexto y evidenciar los detalles de significado en cada uno.
  • 5. ¿Qué tipos de corpora existen? Monolingües y multilingües.
  • 6. ¿Hay subcategorías? Sí, pueden ser de textos orales, textos escritos, especializados, de un registro de terminado solamente (por ejemplo de lenguaje infantil)... Dentro de los que multilingües podemos encontrar también 3 tipos diferentes de corpora: * comparables: no son traducción un texto del otro, pero sí versan sobre el mismo tema, tienen una extensión parecida, un origen similar... * paralelos: un texto es traducción del otro y por lo tanto se pueden alinear. * corpus de textos en distintos idiomas: la elección de los textos se puede hacer simplemente por la disponibilidad de los mismos hasta por rasgos parecidos, pero sin llegar a ser comparables. También existe el corpus monolingüe comparable, en el que se recogen el texto original en el idioma original y por otro lado las traducciones del mismo texto hechas a este mismo idioma original desde otros traducidos.
  • 7. ¿Dónde puedo encontrar corpora? Por ejemplo tiene el Corpus del Español de Mark Davies de la Brigham Young University, el Corpus de Referencia del Español Actual (CREA) de la Real Academia Española, International Corpus of English (ICE) de University College London, Corpus lingüístico del español contemporáneo, Lexesp, Léxico informatizado del español, Corpus Diacrónico del Español (CORDE), Archivo de textos hispánicos de la Universidad de Santiago (ARTHUS), CUMBRE, Corpus de español de la República de Argentina, Corpus Chileno de Referencia, British National Corpus (BNC), Cobuild, the Bank of English, Multilingual Corpus de la European Corpus Initiative…
  • 8. ¿Cómo puedo hacer un corpus bilingüe? Simplemente hay que buscar textos en ambos idiomas que versen sobre el mismo tema (corpus comparable) o que sean uno traducción del otro (corpus paralelo).
  • 9. Una vez que tengo el corpus, ¿cómo puedo utilizarlo? El corpus puede utilizarse simplemente para ver el uso de las palabras pero si lo alineamos podremos alimentar una memoria de traducción.
  • 10. ¿Qué es la alineación de textos? Consiste en comparar dos textos de un corpus paralelo haciendo coincidir cada fragmento con su traducción. Esto sirve como base para poder crear las memorias de traducción.
  • 11. ¿Qué extensión debe tener cada fragmento? Depende del usuario. Si buscamos la posibilidad de tener más coincidencias con la memoria de traducción, alinearemos fragmentos pequeños. Incluso podremos hacerlo por párrafos completos o por simples unidades de traducción.
  • 12. ¿Qué es una unidad de traducción? Existen muchas versiones. Según Vinay y Darbelnet es “el menor segmento del enunciado en el que la cohesión de los signos es tal que no se entenderían si fueran traducidos por separado”. Atendiendo a esta definición , la unidad se mide por el significado, pudiendo ser desde una palabra hasta una frase completa (como por ejemplo los refranes), pasando por colocaciones o perífrasis.
  • 13. Si las unidades de traducción son unidades semánticas al fin y al cabo, estarán recogidas en los diccionarios. No, porque el recoger todos los giros, colocaciones, perífrasis... en un diccionario sería una tarea prácticamente imposible, debido a la exhaustividad que tendrían que tener. Existen algunos diccionarios más completos que pueden incorporar algunas pero no todas.
  • 14. ¿Donde puedo encontrar entonces traducciones de este tipo de expresiones? En los corpora bilingües o multilingües.
  • 15. Si en mi alineación utilizo frases completas como unidades para mi memoria, no se corresponden con las unidades de traducción. ¿Cómo funciona entonces la memoria cuando la he alimentado con mi corpus? Utiliza la traducción por comparación con otros ejemplos (la alineación incorporada), no por unidades de traducción (que utilizan los programas de traducción automática).
  • 16. ¿Qué ventaja tiene esto? Por ejemplo en el caso de tener que traducir frases hechas o refranes, en el caso de una traducción automática nos lo traduciría palabra por palabra, lo que no tendría sentido. Sin embargo, la memoria de traducción nos lo traduciría por su sentido si lo tenemos alineado e incorporado a nuestro software.
  • 17. ¿Y si no tengo ningún ejemplo del refrán que quiero traducir en mi memoria de traducción? Entonces no lo traducirá. Tendremos que hacerlo manualmente.
  • 18. Si hago la memoria de traducción con unidades muy pequeñas, tendré muchas coincidencias y tendré menos trabajo por hacer. Sí, pero al carecer del contexto suficiente, muchas veces puede que la traducción no se ajuste aunque coincida al 100% con alguna ya introducida en la memoria de traducción.
  • 19. ¿Cuál es el proceso que debo seguir para alinear dos textos? Se deben escoger ambos archivos, especificar su formato, especificar sus lenguas, y seguir las instrucciones de cada programa.
  • 20. Después de esto el programa me alinea los segmentos automáticamente. Sí, pero necesita revisión por parte de la persona. Los programas de alineación muchas veces basan la división de los segmentos por los signos de puntuación y puede no realizarlo bien, como por ejemplo considerando los puntos de detrás de abreviaturas como puntos de final de frase.
  • 21. ¿Con qué otros errores me puedo encontrar en la alineación? Hay muchas veces que una frase en un idioma corresponde a dos en otra lengua y esto tampoco lo reconocen los programas de alineación. Si el texto no tiene el formato correcto y se ha usado el retorno de carro varias veces en una frase para hacer las líneas más pequeñas (como por ejemplo en una poesía o en un título que queremos centrar en la página), el programa de alineación lo considerará como segmentos distintos. No hay que olvidar el ejemplo mencionado en la pregunta anterior. Los programas reconocen los puntos como final de segmentos (aunque esta función se puede modificar) y lo dividen tanto si es un punto de detrás de una abreviatura como si es el punto final de la frase.
  • 22. ¿Es conveniente entonces preparar los textos de antemano? Sí. Lo mejor es que los textos sean lo más homogéneos posibles y con las menos “trabas” para el programa. Conviene que los párrafos sean los mismos en ambos textos, que no haya divisiones de párrafo donde no existe una diferencia del mismo, que no haya frases sin correspondencia o que no se repita una frase innecesaria a lo largo de todo el documento (por ejemplo los títulos de la obra o capítulo). Todo el trabajo que realicemos antes de la alineación repercutirá positivamente en la misma y nos ahorrará trabajo en su corrección.
  • 23. ¿Qué programas existen de alineación de textos? Por ejemplo existen Trados Winalign, Déjà Vu X, PlusTools de Wordfast, MultiTrans, Transit, SDLX…
  • 24. ¿En qué formatos puedo tener mi texto una vez alineado? Podemos volcarlo en formato .txt, el cual podremos exportar a casi cualquier programa que use texto. también podremos guardarlo en formato .tmx (Translation Memory Exchange Format) que nos sirve para exportarlo a otros programas de memorias de traducción.
  • 25. Si tengo mis corpora alineados en formato.tmx, ¿puedo compartirlo con quien quiera? Sí, con cualquiera que tenga una memoria de traducción. Con el inconveniente que presentan los derechos de autor de las traducciones para este intercambio, claro.
  • 26. ¿Qué más utilidades tiene un corpus? Por ejemplo podemos ver desde cuando se utiliza una palabra en el caso de que recoja textos antiguos, ver la frecuencia de uso de una palabra, compara los diferentes registros en los que se puede utilizar la palabra (prensa, lenguaje hablado, escrito)…
  • 27. ¿Qué textos puedo incorporar en mi corpus? Cualquiera que esté en formato electrónico. Es más, existe software que usa todo Internet como si fuera una gran colección de textos y busca concordancias en cualquier texto que se encuentre en la red.
  • 28. ¿Puedo sacarlos de internet? Sí, pero tiene el problema de que en la red existen textos de todo tipo, tanto correctamente escritos como incorrectos, formales e informales, educados o no… hay que tener esto presente para poder seleccionar los que nos resulten adecuados a nuestras necesidades.
  • 29. ¿Qué es una concordancia? Son los resultados que nos da el software cuando buscamos una palabra en su contexto. Según cada programa puede darnos más número de palabras delante y detrás de la que buscamos en su texto original. Lo mejor para comprenderlo es ver la siguiente imagen
  • 30.
  • 31. ¿Cómo puedo buscar concordancias en un corpus? Con un software determinado o si está en internet como el caso de los corpora de la RAE simplemente usando su web. Para poder ver listas de software que nos las busquen, incluimos dos links a webs que poseen una lista de estos programas. www www
  • 32. ¿Existen programas que busquen concordancias en corpus paralelos? Sí, por ejemplo Multiconcord.
  • 33. ¿Qué son las anotaciones o etiquetas? Se trata de asignarle a cada palabra por ejemplo su análisis morfológico o sintático para poder obtener mejores estadísticas del corpus o un mejor análisis de las relaciones entre las palabras o significados. Estas deben poder eliminarse para poder ver el texto en su estado original.
  • 34. ¿Existe algún estándar para las anotaciones? Sí, por ejemplo el SGML (Standard Generalised Markup Language), que es el más extendido.