SlideShare une entreprise Scribd logo
1  sur  66
euLIH
euskararako Lankidetzan oinarritutako
         Itzultzaile Hibridoa
    Sistema híbrido y cooperativo
       de traducción al euskera
Guión

 ¿Quiénes somos?
  – Origen y antecedentes
  – Áreas de especialidad
  – Contacto con la traducción automática
 Visión de la traducción automática
  – Hibridación de estrategias
  – Relevancia del corpus de traducciones
 Presentación de euLIH


                   euLIH
Arquitectura de       euLIH
                      Sistema híbrido y cooperativo
                           de traducción al euskera




                            Marco de agregación y validación de metcontenidos
                                                                                                 Corpus A


Corpus
  %                                                                                       Dicc. & Term. A




                                          anotados e indexados
          Reglas                                                                                            Corpus B
          Dicc. & Term. 2                                                                  dor
                                                                                    Agrega H
    Traductor                                                                         OAI-PM
    híbrido 2                                                                             OLAC

                                                                                                  Dicc. & Term.
                                                                                                  B
Traductor
reglas 1
                                                                                                            Corpus C



         Reglas
         Dicc. & Term. 1


                                                                                                 Dicc. & Term. D

              euLIH
Arquitectura de       euLIH
                Marco de agregación y validación de
               metacontenidos anotados e indexados


Reglas




                               Marco de agregación y validación de metcontenidos
Dicc. & Term. 2                                                                                     Corpus A


                                                                                             Dicc. & Term. A
    Corpus
      %




                                             anotados e indexados
                                                                                                               Corpus B
                                                                                              dor
                                                                                       Agrega H
      Traductor                                                                          OAI-PM
      híbrido 2                                                                              OLAC

                                                                                                     Dicc. & Term.
                                                                                                     B
  Traductor
  reglas 1
                                                                                                               Corpus C



             Reglas
             Dicc. & Term. 1


                                                                                                    Dicc. & Term. D

                  euLIH
Módulos de   euLIH

 Marco de agregación metacontenidos (1-10)
  –   Agregador OAI-PMH (1-6)
  –   Motor de indexación bilingüe (1-9)
  –   Protocolo de validación (5-10)
 Integración de motores de traducción (9-19)
  –   API para memorias de traducción (9-12)
  –   API para traductor por reglas (11-14)
  –   Prototipo de traductor estadístico (11-19)
  –   Módulo de retroalimentación (13-19)
 Interacción y acceso
  – API para personalización de interfaces (5-19)
  – API para servicios de traducción (13-19)

                             euLIH
Cronología del proyecto   euLIH


 T1

 T2

 T3

 T4

 T5

 T6

 T7

 T8

 T9

T10




      Cronograma de euLIH




           euLIH
Guión

 ¿Quiénes somos?
  – Origen y antecedentes
  – Áreas de especialidad
  – Contacto con la traducción automática
 Visión de la traducción automática
  – Hibridación de estrategias
  – Relevancia del corpus de traducciones
 Presentación de euLIH


                   euLIH
Origen y antecedentes de ET
 enero 2005: DELi decide
    crear spin-off, plan de
    empresa
   julio 2005: Plan estratégico y
    presentación a DFB y GV
   enero 2006: Programa Intek
    de GV: proyecto CollOnBus
   julio 2006: Alianza con
    Thera-Clic
   enero 2007: Thera-Clic 25%

        euLIH
Áreas de especialidad

 Estándares de interoperabilidad semántica
  – Metadatos XML sectoriales: TEI, TMX, DCMI,
    XBRL, HL7, OPC DA
  – Agregación y sindicación: OAI-PMH, OLAC, RSS,
    Atom
 Gestión de contenidos multilingües:
  – procesamiento lingüístico, indexación textual, compilación
    y anotación de corpus, traducción automática y asistida
 Categorización de recursos:
  – Taxonomías, folcsonomías y ontologías



                           euLIH
Antecedentes:
                             Grupo DELi, proyectos
- SemB-UDDI: Semantic UDDI registry of Basque high-tech
  companies (2005-2006).
- OAC-onto: Open Archive Cataloger: Ontologías y metadatos
  (2004-2005).
- XemGrid: Mejora en el descubrimiento de servicios grid
  utilizando información semántica (2004-2005).
- Rómulo. Edición digital plurilingüe de un texto europeo del
  siglo XVII (2003-2005).
- X-Flow: Gestión de flujo de contenidos multilingües sobre
  XLIFF y TMX (2002-2003).
- XML-Bi: Procedimientos para la gestión del flujo documental
  multilingüe sobre XML/TEI-P3 (2001-2002).
- XTRA-Bi: Extracción automática de unidades bitextuales para
  memorias de traducción (2000-2001).


                           euLIH
Antecedentes:
           Thera-CLiC




euLIH
Experiencia con la TA
 1984-87 UMIST: CCL
   – Ntran (Alvey), EUROTRA (CE)
 1988-91 Fujitsu Labs
   – ATLAS, Llull
  – EUROTRA, METAL
 1992-98 UD: Master en Traducción
   – Consultor, evaluador (vg. Metalingua)
   – TMM, Transit, DVX
   – Legebiduna
 1998-07 DELi
   – Xtrabi, Xflow, SareBi, OAC-onto, SemB-
     UDDI, SemTek
 2002, 2004 AutomaticTrans: ATS
                   euLIH
Guión

 ¿Quiénes somos?
  – Origen y antecedentes
  – Áreas de especialidad
  – Contacto con la traducción automática
 Visión de la traducción automática
  – Hibridación de estrategias
  – Relevancia del corpus de traducciones
 Presentación de euLIH


                   euLIH
Visión de la traducción automática

 Estrategia híbrida:
  – Reglas transferencia léxica y sintáctica
  – Corpus de traducciones (memoria de traducción
    y estadística)
 Flujo de trabajo
  – Definición de
      Usuario
      Servicio
  – Integración en entorno de publicación
 Evaluación:
  – FEMTI, BLEU, METEOR, ROUGE, QARLA

                       euLIH
Visión de la traducción automática:
                                                         FEMTI
Framework for the Evaluation of
  Machine Translation in ISLE (2002)
  – Propósito de la traducción
      Asimilación, diseminación, comunicación
  – Características de usuario
      Competencia del usuario
      Frecuencia: ocasional, profesional, institución
  – Características del input (autor y texto)
        Tipo de documento
        Propiedades del autor
        Fuentes de error

  http://www.isi.edu/natural-language/mteval/

                             euLIH
Propósito de la traducción automática:
                                                        FEMTI
 Asimilación: Facilitar el acceso a información
  relevante en otro idioma.
  – Tiene más sentido de euskera a español
 Diseminación: Permitir la rápida distribución de
  materiales en varios idiomas.
  – No se requiere una calidad máxima, porque pueden ser
    materiales de trabajo y en borrador
 Comunicación: Información que se va a publicar
  y que debe responder a los máximos niveles de
  calidad.
  – Si se utiliza la traducción automática hará falta revisión
    (postedición)

  http://www.isi.edu/natural-language/mteval/

                             euLIH
Visión de la traducción automática:
                                                          FEMTI
Características de usuario
  – ¿A quién va dirigido el traductor?
      Usuario ocasional
         – ¿quiere leer prensa española en euskera?
         – ¿quiere publicar en euskera?
      Usuario profesional, traductor
         – quiere incrementar su rendimiento
      Usuario institucional, agencia, empresa
         – quiere   aumentar la producción
         – quiere   normalizar criterios (terminología, estilo,
           etc.)
         – quiere   garantizar calidad
         – quiere   ahorrar costes
  http://www.isi.edu/natural-language/mteval/
                              euLIH
Visión de la traducción automática:
                                                        euLIH
Características de usuario
      Usuario ocasional
       – quiere publicar en euskera
      Usuario profesional, traductor
       – quiere incrementar su rendimiento
      Usuario institucional, agencia, empresa
       – quiere   aumentar la producción
       – quiere   normalizar criterios (terminología, estilo,
         etc.)
       – quiere   garantizar calidad
       – quiere   ahorrar costes
En todos los casos con el propósito de
  comunicar: se requiere calidad
                            euLIH
Visión de la traducción automática

 Techo de la TA basada en reglas
  – Más reglas no (siempre) mejoran el
    resultado
  – Systran, Reverso (ProMT) muestran la
    “calidad” posible para textos genéricos
  – Factores:
     Distancia lingüística
     Límites de la gramática (sintaxis)
  – Relevancia del corpus: modelos (ejemplos),
   fraseología, terminología, memoria de traducción,
   entrenamiento estadística

                       euLIH
El techo de la TA basada en reglas:
                                                         Systran
 La travesía de Tom tiene una nueva concesión de Australia a
  agregar a su colección para ser la celebridad más sexista.
 Cerca de 400 de las mujeres más de gran alcance de Australia
  recolectaron a parlamento último jueves del estado de Nuevo
  Gales del Sur para decidir sobre los ganadores del 14 “Ernie anual
  concede” que se reparten para las declaraciones públicas
  despectivas peores.
 Las concesiones fueron nombradas después de un líder del
  sindicato llamado Ernie que miembros de unión incluyeron los
  esquiladores de las ovejas. Él una vez famoso dijo: “Las mujeres
  no son agradables en las vertientes que esquilan. Están solamente
  después del sexo.”
 El “Ernies” tiene un sabor internacional - y la travesía fue
  concedida la celebridad 2006 Ernie.


                              euLIH
El techo de la TA basada en reglas:
                                                                Systran
 Tom Cruise tiene un nuevo premio australiano que añadir a su
  colección por ser el famoso más machista.
 Unas cuatrocientas de las mujeres más poderosas de Australia se
  reunieron en el Parlamento Estatal de Nueva Gales del Sur el
  pasado jueves a última hora para decidir los ganadores de la 14º
  edición anual de los ‘premios Ernie’, que se entregan a las
  declaraciones públicas más despectivas.
 Los premios reciben el nombre de un líder sindicalista llamado
  Ernie que incluía a esquiladores en el sindicato. Éste dijo una vez:
  “Las mujeres no son bienvenidas en los cobertizos para esquilar.
  Sólo vienen para el sexo.”
 Los “Ernies” tienen un toque internacional y a Cruise le
  concedieron el Ernie 2006 de los famosos.

           (Traducción de alumnas de 3º de filología inglesa)

                                euLIH
El techo de la TA basada en reglas:
                                                         Systran
La travesía de Tom tiene una nueva concesión de Australia a
  agregar a su colección para ser la celebridad más sexista.

Tom Cruise tiene un nuevo premio australiano que añadir a su
colección por ser el famoso más machista.

Cerca de 400 de las mujeres más de gran alcance de Australia
recolectaron a parlamento último jueves del estado de Nuevo
Gales del Sur para decidir sobre los ganadores del 14 “Ernie
anual concede” que se reparten para las declaraciones públicas
despectivas peores.

Unas cuatrocientas de las mujeres más poderosas de Australia se
reunieron en el Parlamento Estatal de Nueva Gales del Sur el
pasado jueves a última hora para decidir los ganadores de la 14º
edición anual de los ‘premios Ernie’, que se entregan a las
declaraciones públicas más despectivas.
                              euLIH
El techo de la TA basada en reglas:
                                                    Razones

 Arnold y otros (1993) destacan las tres
  dificultades siguientes:
  – La ambigüedad (polisemia): “activo” gogotsu, langile,
    eraginkor, aktibo
  – Los desajustes léxicos y estructurales:
        Elementos patrimoniales activos y pasivos
        Ondare elementu aktibo eta pasibo
        Ondarezko osagai pasibo eta gogotsu
  – Las unidades pluriverbales (colocaciones,
    modismos, onomástica, terminología):
      Es decir: Hau da, *Esate da
      Está reunido: Bilera batean dago, *Bilduta dago

                            euLIH
El techo de la TA basada en reglas:
                                             Razones

 Léxicos: los que pueden resolverse
  mediante diccionario
 Sintácticos: los que deberían poder
  resolverse a golpe de regla gramatical
 Estructurales: los que siendo de índole
  sintáctica, plantean dificultades a las reglas
  y se resuelven mejor mediante memoria de
  traducción
 Estilísticos: para los que el único remedio
  es una buena memoria de traducción


                     euLIH
El techo de la TA basada en reglas:
                                                       Razones

Estructuras sintácticas complicadas:
 Predicados complejos, estructuras de control
   – es capaz de funcionar bien
 Aposiciones
   – actuaciones, generales o selectivas, de obtención de información
 Subordinadas (relativas, completivas)
   – los elementos patrimoniales activos y pasivos de una parte de una
     sociedad que constituyen, desde el punto de vista de la
     organización, una explotación autónoma
 Coordinación
   – La naturaleza o clase y número de cuenta u operación, así como el
     saldo o importe máximo
 Comparativas
   – había algo que desagradaba a los Dursley aún más que las
     preguntas que Harry hacía


                               euLIH
El techo de la TA basada en reglas:
                                              Razones



¿A partir de qué momento las estructuras
  sintácticas complicadas se convierten en
  problemas estructurales?

  – La longitud tiene mucho que ver. Oraciones de
    más de 15 palabras normalmente distorsionan
    gravemente la aplicación de las reglas
  – La combinación de problemas sintácticos:
    subordinación, aposición, coordinación...




                      euLIH
El techo de la TA basada en reglas:
                                                          Razones

Se entenderá por rama de actividad económica el conjunto de
  los elementos patrimoniales activos y pasivos de una parte de
  una sociedad que constituyen, desde el punto de vista de la
  organización, una explotación autónoma, es decir, un
  conjunto capaz de funcionar por sus propios medios.
   – Jarduera ekonomikoaren arlotzat zera hartuko da: antolaketa aldetik bere
     gaineko ustiategi bat, hau da, bere bitartekoez funtzionatzeko gauza den
     batasun bat osatzen duten sozietate zati baten ondare elementu aktibo
     eta pasiboen multzoa
   – Jarduera-adartzat joko da, antolaketari begira, ustiapen ekonomikoa
     ekarriko duen autonomiadun unitate ekonomikoa osatuko duen ondare-
     multzoa, hau da, beren baliabide propioen bidez jarduteko gai izango den
     multzoa. Eskualdatuko diren elementuen antolaketatik edo jardunbideak
     eratorritako zorrak eratxiki ahal izango zaizkio sozietate eskuratzaileari.
   – * Jarduera ekonomikoaren adarretik ulertuko du ondarezko osagai pasibo
     eta gogotsuen multzoa bat gizarte bateko batzuk osatzen duten,
     erakundearen ikusmenaren puntutik, ustiapen autonomo bat, esate da,
     funtzionatze haren neure erdi multzo handi bat.




                                   euLIH
El techo de la TA basada en reglas:
                                                         Razones

A excepción de en La Rioja, donde todos los albergues excepto
   uno (Grañón) cuentan con un espacio para guardar bicicletas,
   el peregrino se ve obligado a conocer de antemano, entre
   Roncesvalles y Santiago, los lugares concretos que ofrecen
   este servicio: el 80% de los de León, Burgos, Navarra y
   Palencia, mientras que en A Coruña sólo se pueden guardar
   bicis en la mitad de los centros.

   – Errioxan izan ezik -Grañon-go aterpetxeak izan ezean beste guztiek
     eskaintzen dute probintzia horretan bizikletak gordetzeko toki egokia
     -Orreagan hasi eta Santiagoraino zerbitzu hori zein aterpetxek eskaintzen
     duen jakin behar du, nahitaez, erromesak aldez aurretik: Leon, Burgos,
     Nafarroa eta Palentziakoen %80etan, hain zuzen




                                  euLIH
Guión

 ¿Quiénes somos?
  – Origen y antecedentes
  – Áreas de especialidad
  – Contacto con la traducción automática
 Visión de la traducción automática
  – Hibridación de estrategias
  – Relevancia del corpus de traducciones
 Presentación de euLIH


                   euLIH
Traductor basado en reglas




Traductor
reglas



       Reglas
       Dicc. & Term.




            euLIH
Traductor basado en reglas




Traductor
reglas



        Reglas
        Dicc. & Term.




             euLIH
Sistemas híbridos:
                           reglas + corpus (+ %)




Corpus
  %

         Reglas
         Dicc. & Term. 2
   Traductor
   híbrido 2


Traductor
reglas 1



         Reglas
         Dicc. & Term. 1




              euLIH
Arquitectura de   euLIH
               alimentado dinámicamente desde una
                       red de recursos distribuidos



                                       Corpus A


Corpus
 Corpus
 Corpus                            Dicc. & Term. A
  %
   %
   %

          Reglas                                  Corpus B
          Dicc. & Term. 2
    Traductor
    híbrido 2

                                         Dicc. & Term.
                                         B
Traductor
reglas 1
                                                  Corpus C



          Reglas
          Dicc. & Term. 1


                                       Dicc. & Term. D

               euLIH
Arquitectura de       euLIH
     Recolector y agregador de metacontenidos




                                             Corpus A


Corpus
  %                                   Dicc. & Term. A


          Reglas                                        Corpus B
          Dicc. & Term. 2              dor
                                Agrega H
    Traductor                     OAI-PM
    híbrido 2                         OLAC

                                              Dicc. & Term.
                                              B
Traductor
reglas 1
                                                        Corpus C



         Reglas
         Dicc. & Term. 1


                                             Dicc. & Term. D

              euLIH
Arquitectura de       euLIH
             Marco de agregación y validación de
            metacontenidos anotados e indexados




                            Marco de agregación y validación de metcontenidos
                                                                                                 Corpus A


Corpus
  %                                                                                       Dicc. & Term. A




                                          anotados e indexados
          Reglas                                                                                            Corpus B
          Dicc. & Term. 2                                                                  dor
                                                                                    Agrega H
    Traductor                                                                         OAI-PM
    híbrido 2                                                                             OLAC

                                                                                                  Dicc. & Term.
                                                                                                  B
Traductor
reglas 1
                                                                                                            Corpus C



         Reglas
         Dicc. & Term. 1


                                                                                                 Dicc. & Term. D

              euLIH
Arquitectura de       euLIH
                      Sistema híbrido y cooperativo
                           de traducción al euskera




                            Marco de agregación y validación de metcontenidos
                                                                                                 Corpus A


Corpus
  %                                                                                       Dicc. & Term. A




                                          anotados e indexados
          Reglas                                                                                            Corpus B
          Dicc. & Term. 2                                                                  dor
                                                                                    Agrega H
    Traductor                                                                         OAI-PM
    híbrido 2                                                                             OLAC

                                                                                                  Dicc. & Term.
                                                                                                  B
Traductor
reglas 1
                                                                                                            Corpus C



         Reglas
         Dicc. & Term. 1


                                                                                                 Dicc. & Term. D

              euLIH
Módulos de   euLIH

 Marco de agregación metacontenidos
  – Agregador OAI-PMH
  – Motor de indexación bilingüe
  – Protocolo de validación
 Integración de motores de traducción
  –   API para memorias de traducción
  –   API para traductor por reglas
  –   Prototipo de traductor estadístico
  –   Módulo de retroalimentación
 Interacción y acceso
  – API para personalización de interfaces
  – API para servicios de traducción
                          euLIH
Arquitectura de       euLIH
                 Marco de agregación metacontenidos



Reglas




                               Marco de agregación y validación de metcontenidos
Dicc. & Term. 2                                                                                     Corpus A


                                                                                             Dicc. & Term. A
    Corpus
      %




                                             anotados e indexados
                                                                                                               Corpus B
                                                                                              dor
                                                                                       Agrega H
      Traductor                                                                          OAI-PM
      híbrido 2                                                                              OLAC

                                                                                                     Dicc. & Term.
                                                                                                     B
  Traductor
  reglas 1
                                                                                                               Corpus C



             Reglas
             Dicc. & Term. 1


                                                                                                    Dicc. & Term. D

                  euLIH
Módulos de   euLIH
                                                                             Marco de agregación de metacontenidos

                                                                                           Contenidos distribuidos
                                                                                           Anotados (en origen o
Marco de agregación y validación de metcontenidos




                                                                Corpus A
                                                                                            en depósito)
                                                         Dicc. & Term. A                   Protocolo de recolección
                                                                                            OAI-PMH
              anotados e indexados




                                                                           Corpus B
                                                           dor
                                                    Agrega H
                                                                                           Indexación de
                                                       AI-PM
                                                     O
                                                         OLAC                               contenidos
                                                                 Dicc. & Term.
                                                                 B                         Procesamiento
                                                                                            lingüístico de
                                                                           Corpus C
                                                                                            contenidos
                                                                                           Depósito de
                                                                                            metacontenidos
                                                                Dicc. & Term. D

                                                                                      euLIH
euLIH
                              Agregación de metacontenidos




 Metacontenidos: contenidos
  indexados y etiquetados
 – Indexados: contenidos recopilados,
   procesados (parsed) y almacenados
 – Etiquetados: anotados con metadatos
   (CES, LAF, TMX, DCMI):
    Language Resources Management TC
     ISO/TC 37/SC 4
    Open Language Archives Community (OLAC)

                      euLIH
euLIH
                    Metadatos Dublin Core




    15
elementos
 básicos




            euLIH
euLIH
                                             Metadatos Dublin Core

Obligatorios
     •identifier
     •languages
Recomendados
                                             Complementarios
     •date
                                                •publisher
          •dateSubmitted
                                                •title
          •dateAccepted
                                                •creator
          •modified
                                                •contributor (traductor)
          •available
                                                •type
     •source
                                                •rights
     •subject
     •conformsTo
                                             Otros
         (un estándar de calidad, vg.            •hasVersion
         validado por IVAP, UZEI, etc.)
                                                 •isPartOf
    •audience
                                                 •isReplacedBy
          (general public, EHU, BFA, etc.)



                                   euLIH
euLIH
                    Protocolo de recolección OAI-PMH

 ¿Quién usa OAI-PMH?
 – Bibliotecas: The European Library, National
   Library of Australia (NLA), Library of Congress
 – Redes de bibliotecas: Digital Library
   Federation (DLF), National Sciene Digital Library
   (NSDL), Red de Bibliotecas Universitarias
   Españolas (REBIUM)
 – Servicios bibliográficos: ArXiv, ePrints,
   Scientific Literature Digital Library (CiteSeer),
   Internet Archive, Google:Scholar, OCLC Theses
   and Dissertations


                       euLIH
euLIH
                  Protocolo de recolección OAI-PMH

 ¿Quién promueve OLAC?
 – Open Language Archives Community
 – Linguistic Data Consortium (LDC), University of
   Pennsylvania
 – European Language Resources Association (ELRA)
 – European Network of Excellence in Human
   Language Technologies (ELSNET)
 – Foundation for Endangered Languages
 – The LINGUIST List, Oxford Text Archive
 – SIL International, etc.


                     euLIH
Módulos de   euLIH
                                                                                  Motor de indexación bilingüe

                                                                               Procesamiento
                                                                                lingüístico




                      Marco de agregación y validación de metcontenidos
Corpus                                                                             – Lematización
                                                                                   – Reconocimiento de

                                    anotados e indexados
                                                                                     entidades
                                                                                     onomásticas
                                                                                   – Detección de
                                                                                     unidades
                                                                                     pluriverbales
          motor de                                                                 – Desambiguación
         indexación




                                                                          euLIH
Módulos de   euLIH
                                                                                                Protocolo de validación

                                                                                           Distintos rangos (roles)
                                                                                            entre agentes cooperantes
Marco de agregación y validación de metcontenidos




                                                                Corpus A                   Agentes institucionales tiene
                                                                                            rango “autoridad”
                                                         Dicc. & Term. A                   Los segmentos autorizados
                                                                                            están certificados
              anotados e indexados




                                                                           Corpus B
                                                           dor                             Los usuarios no
                                                    Agrega H
                                                     O AI-PM                                institucionales son
                                                         OLAC
                                                                                            cooperantes que, de
                                                                 Dicc. & Term.
                                                                 B                          partida, no pueden certificar
                                                                                            sus traducciones
                                                                           Corpus C
                                                                                           euLIH no acreditará rangos,
                                                                                            pero aportará la
                                                                                            funcionalidad para que otros
                                                                                            lo hagan
                                                                Dicc. & Term. D

                                                                                      euLIH
Módulos de   euLIH

 Marco de agregación metacontenidos
  – Agregador OAI-PMH
  – Motor de indexación bilingüe
  – Protocolo de validación
 Integración de motores de traducción
  –   API para memorias de traducción
  –   API para traductor por reglas
  –   Prototipo de traductor estadístico
  –   Módulo de retroalimentación
 Interacción y acceso
  – API para personalización de interfaces
  – API para servicios de traducción
                          euLIH
Arquitectura de       euLIH
                      Sistema híbrido y cooperativo
                           de traducción al euskera




                            Marco de agregación y validación de metcontenidos
                                                                                                 Corpus A


Corpus
  %                                                                                       Dicc. & Term. A




                                          anotados e indexados
          Reglas                                                                                            Corpus B
          Dicc. & Term. 2                                                                  dor
                                                                                    Agrega H
    Traductor                                                                         OAI-PM
    híbrido 2                                                                             OLAC

                                                                                                  Dicc. & Term.
                                                                                                  B
Traductor
reglas 1
                                                                                                            Corpus C



         Reglas
         Dicc. & Term. 1


                                                                                                 Dicc. & Term. D

              euLIH
Módulos de   euLIH
                  Integración de motores de traducción

 API para memorias de traducción
  – Conexión con redes de memorias de traducción
  – Funcionalidad de memoria de traducción
 API para traductor por reglas
  – Integración de motores RBMT
 Prototipo de traductor estadístico
  – Experimentar con CMU, Giza++, BLEU
 Módulo de retroalimentación
  – Detección de terminología, colocaciones,
    unidades pluriverbales, fraseología

                      euLIH
Módulos de   euLIH

 Marco de agregación metacontenidos
  – Agregador OAI-PMH
  – Motor de indexación bilingüe
  – Protocolo de validación
 Integración de motores de traducción
  –   API para memorias de traducción
  –   API para traductor por reglas
  –   Prototipo de traductor estadístico
  –   Módulo de retroalimentación
 Interacción y acceso
  – API para personalización de interfaces
  – API para servicios de traducción
                          euLIH
Arquitectura de       euLIH
                      Sistema híbrido y cooperativo
                           de traducción al euskera




                            Marco de agregación y validación de metcontenidos
                                                                                                 Corpus A


Corpus
  %                                                                                       Dicc. & Term. A




                                          anotados e indexados
          Reglas                                                                                            Corpus B
          Dicc. & Term. 2                                                                  dor
                                                                                    Agrega H
    Traductor                                                                         OAI-PM
    híbrido 2                                                                             OLAC

                                                                                                  Dicc. & Term.
                                                                                                  B
Traductor
reglas 1
                                                                                                            Corpus C



         Reglas
         Dicc. & Term. 1


                                                                                                 Dicc. & Term. D

              euLIH
Módulos de   euLIH
                               Interacción y acceso



 API para personalización de
  interfaces
  – Acceso al sistema para: consultar,
    modificar, validar, añadir, eliminar,
    importar, exportar, filtrar, etc.
  – Perfiles de usuario, personalización
 API para servicios de traducción
  – Integración del sistema en puestos de
    trabajo locales

                     euLIH
euLIH




  Demostración de prototipo:
http://www.deli.deusto.es/eulih




             euLIH
euLIH
                                                                                                          Conclusiones



                                                                                        Propósito: producción,
Marco de agregación y validación de metcontenidos




                                                            Corpus A
                                                                                           comunicación
                                                       Dicc. & Term. A                  Usuario: profesional,
                                                                                         institucional
              anotados e indexados




                                                                        Corpus B
                                                           dor
                                                                                           – Responder a necesidades
                                                    Agrega H                                 reales
                                                     OAI-PM
                                                      OLAC
                                                                                           – Aprovechar sus recursos
                                                                 Dicc. & Term.
                                                                 B                         – Recolectar, agregar,
                                                                        Corpus C
                                                                                             validar
                                                                                        Modelo cooperativo
                                                                                         (web social,
                                                                                         crowdsourcing)
                                                            Dicc. & Term. D

                                                                                   euLIH
euLIH




 Muchas gracias
¿más preguntas?




     euLIH
Breve historia de la traducción
                                 automática: 6 décadas


 1947 Warren Weaver, Fundación Rockefeller
 1951 Yehoshua Bar-Hillel, MIT; 1ª demo
  Universidad de Georgetown – IBM; DoD;
  FAHQT; Systran, Metal
 1964 ALPAC; Syntactic Structures (1957); ALGOL,
  LISP
 1976 MÉTÉO (U. Montreal), CE: Systran, Eurotra
 1991 Informe Danzin; Candide IBM; Corpus
 2005 NIST, BLEU: Google, ISI, etc.


                       euLIH
Evolución de la tecnología




 Warren Weaver (1947):
 – técnicas criptográficas
 – teoremas de Shannon
 – utilidad de la estadística
 – lógica subyacente y
 – propiedades universales del lenguaje
   humano


                   euLIH
Evolución de la tecnología




 Yehoshua Bar-Hillel (1951):
  – primer simposio de la TA
  – lenguajes controlados, sublenguajes
  – necesidad de la sintaxis
  – posibilidad de prescindir de la
    intervención humana (FAHQMT)
  – Cuestiona FAHQMT en 1960


                   euLIH
Evolución de la tecnología




 1957-1991 Sistemas basados en
  conocimiento lingüístico:
 – Syntactic Structures (1957); ALGOL, LISP
 – Gramáticas formales; Inteligencia artificial
 – Canadá, Europa, Japón
 – Systran, Metal, Eurotra, Rosetta, etc.
 – Transferencia sintáctica, léxica
 – Interlingua, redes semánticas, ontologías

                    euLIH
Evolución de la tecnología


 1990-2007 Sistemas basados en
  corpus:
 – Candide IBM vs Systran
 – TA online: Bablefish, Reverso, Google
 – IBM (TranslationManager), TRADOS
   (Translator's Workbench), ATRIL (DÉJÀ-
   VU), etc.
 – Evaluación de la TA: FEMTI, BLEU (SMT)
 – Competiciones NIST (0.5131 vs 0.1079)
 – WorldServer, Multicorpora, Freeway,
   Lingotek
                  euLIH
El techo de los sistemas basados en
                                                   reglas



 I danced at the ball / Bailé en la bola / Bailé en la
  pelota / Bailé en la pelota
 I gave up cigarettes / Di para arriba cigarrillos /
  Dejé cigarrillos / Yo me rendí cigarrillos
 Have you ever been to London? / ¿Usted ha estado
  siempre a Londres? / ¿Ud alguna vez ha sido a
  Londres? / ¿Ha estado jamás usted a Londres?
 A barking dog seldom bites / Mordeduras de un
  perro el raspar raramente (Perro ladrador poco
  mordedor)
    Pruebas con Systran, Reverso, FreeTranslation

                         euLIH
El techo de los sistemas basados en
                                                  reglas




 (5) Perspectiva que adquiere significación
 en la escena internacional a finales del siglo
 XX
  – XX mendearen bukaerako nazioarteko eszenan
    garrantzia hartu duen ikuspegia
  – XX. mendeko bukaerei nazioarteko eszenan esanahia
    eskuratzen duen ikuspuntua




                        euLIH
El techo de los sistemas basados en
                                                 reglas




 (7) Se entenderá por rama de actividad económica
 el conjunto de los elementos patrimoniales activos y
 pasivos de una parte de una sociedad que
 constituyen, desde el punto de vista de la
 organización, una explotación autónoma, es decir,
 un conjunto capaz de funcionar por sus propios
 medios.




                       euLIH
El techo de los sistemas basados en
                                                 reglas

 (7 a.) El conjunto de los elementos
 patrimoniales activos y pasivos de una
 parte de una sociedad
  – Sozietate zati baten ondare elementu aktibo eta
    pasiboen multzoa
  – Gizarte bateko batzuk ondarezko osagai pasibo
    eta gogotsuen bat multzoa



                      euLIH
El techo de los sistemas basados en
                                                   reglas

 (7 b.) Se entenderá por rama de actividad
  económica el conjunto [...] que constituyen, desde
  el punto de vista de la organización, una explotación
  autónoma, es decir, un conjunto capaz de funcionar
  por sus propios medios.
 Jarduera ekonomikoaren arlotzat zera hartuko da:
  antolaketa aldetik bere gaineko ustiategi bat, hau
  da, bere bitartekoez funtzionatzeko gauza den
  batasun bat osatzen duten [...] multzoa.
 Jarduera ekonomikoaren adarretik ulertuko du [...]
  multzoa bat gizarte bateko batzuk osatzen duten,
  erakundearen ikusmenaren puntutik, ustiapen
  autonomo bat, esate da, funtzionatze haren neure
  erdi multzo handi bat.

                        euLIH
El techo de los sistemas basados en
                                                   reglas

(8) a. La planificación y ejecución de actuaciones,
  generales o selectivas, de obtención de información,
  así como las relaciones con otras Administraciones a
  los mismos efectos.
    b. Informazioa lortzeko jarduketak, orokorrak
  nahiz hautatzezkoak, eta gainerako
  administrazioarekiko informazio jarduketetako
  hartuemanak, planifikatu eta burutzea.
   c. Plangintza eta jokaeren egitea, aukeratze edo
  orokorrak, informazioaren lorpenaren, ondorio berei
  beste Administraciones batzuk zerikusiak Baita Ere.


                        euLIH

Contenu connexe

En vedette

Splunk Webinar: Webinar: Die Effizienz Ihres SOC verbessern mit neuen Funktio...
Splunk Webinar: Webinar: Die Effizienz Ihres SOC verbessern mit neuen Funktio...Splunk Webinar: Webinar: Die Effizienz Ihres SOC verbessern mit neuen Funktio...
Splunk Webinar: Webinar: Die Effizienz Ihres SOC verbessern mit neuen Funktio...Splunk
 
Atlanta Salesforce UG 2/23/2012: Release overview deck (spring '12)
Atlanta Salesforce UG 2/23/2012: Release overview deck (spring '12) Atlanta Salesforce UG 2/23/2012: Release overview deck (spring '12)
Atlanta Salesforce UG 2/23/2012: Release overview deck (spring '12) vraopolisetti
 
Mercuri international studie vergütungssysteme im vertriebsaussendienst kom...
Mercuri international   studie vergütungssysteme im vertriebsaussendienst kom...Mercuri international   studie vergütungssysteme im vertriebsaussendienst kom...
Mercuri international studie vergütungssysteme im vertriebsaussendienst kom...Christian Peters
 
Uk oil output 50 percent higher by 2018
Uk oil output 50 percent higher by 2018Uk oil output 50 percent higher by 2018
Uk oil output 50 percent higher by 2018Derek Louden
 
SIX Paymit solution - Disruptive Payment Solution for the Swiss market powere...
SIX Paymit solution - Disruptive Payment Solution for the Swiss market powere...SIX Paymit solution - Disruptive Payment Solution for the Swiss market powere...
SIX Paymit solution - Disruptive Payment Solution for the Swiss market powere...Walter Strametz
 
Jornadas AGS Sur de Sevilla - Lecciones aprendidas
Jornadas AGS Sur de Sevilla - Lecciones aprendidasJornadas AGS Sur de Sevilla - Lecciones aprendidas
Jornadas AGS Sur de Sevilla - Lecciones aprendidasAGS Sur de Sevilla
 
Libro responsabilida social empresarial visiones complenetarias
Libro responsabilida social empresarial visiones complenetariasLibro responsabilida social empresarial visiones complenetarias
Libro responsabilida social empresarial visiones complenetariasInformación Virtual
 
áNgulos Formados Por Paralelas Y Una Secante
áNgulos Formados Por Paralelas Y Una SecanteáNgulos Formados Por Paralelas Y Una Secante
áNgulos Formados Por Paralelas Y Una SecanteManuel Duron
 

En vedette (17)

Splunk Webinar: Webinar: Die Effizienz Ihres SOC verbessern mit neuen Funktio...
Splunk Webinar: Webinar: Die Effizienz Ihres SOC verbessern mit neuen Funktio...Splunk Webinar: Webinar: Die Effizienz Ihres SOC verbessern mit neuen Funktio...
Splunk Webinar: Webinar: Die Effizienz Ihres SOC verbessern mit neuen Funktio...
 
Cookies and European Union Law
Cookies and European Union LawCookies and European Union Law
Cookies and European Union Law
 
Atlanta Salesforce UG 2/23/2012: Release overview deck (spring '12)
Atlanta Salesforce UG 2/23/2012: Release overview deck (spring '12) Atlanta Salesforce UG 2/23/2012: Release overview deck (spring '12)
Atlanta Salesforce UG 2/23/2012: Release overview deck (spring '12)
 
eng TELE-audiovision-1305
eng TELE-audiovision-1305eng TELE-audiovision-1305
eng TELE-audiovision-1305
 
Web 2.0 cap. 3
Web 2.0 cap. 3Web 2.0 cap. 3
Web 2.0 cap. 3
 
Contracción muscular.
Contracción muscular.Contracción muscular.
Contracción muscular.
 
Mercuri international studie vergütungssysteme im vertriebsaussendienst kom...
Mercuri international   studie vergütungssysteme im vertriebsaussendienst kom...Mercuri international   studie vergütungssysteme im vertriebsaussendienst kom...
Mercuri international studie vergütungssysteme im vertriebsaussendienst kom...
 
Cingolino
CingolinoCingolino
Cingolino
 
Uk oil output 50 percent higher by 2018
Uk oil output 50 percent higher by 2018Uk oil output 50 percent higher by 2018
Uk oil output 50 percent higher by 2018
 
Mano de Obra Cambio de Embrague Aveo
Mano de Obra Cambio de Embrague AveoMano de Obra Cambio de Embrague Aveo
Mano de Obra Cambio de Embrague Aveo
 
Faam
FaamFaam
Faam
 
SIX Paymit solution - Disruptive Payment Solution for the Swiss market powere...
SIX Paymit solution - Disruptive Payment Solution for the Swiss market powere...SIX Paymit solution - Disruptive Payment Solution for the Swiss market powere...
SIX Paymit solution - Disruptive Payment Solution for the Swiss market powere...
 
Jornadas AGS Sur de Sevilla - Lecciones aprendidas
Jornadas AGS Sur de Sevilla - Lecciones aprendidasJornadas AGS Sur de Sevilla - Lecciones aprendidas
Jornadas AGS Sur de Sevilla - Lecciones aprendidas
 
Libro responsabilida social empresarial visiones complenetarias
Libro responsabilida social empresarial visiones complenetariasLibro responsabilida social empresarial visiones complenetarias
Libro responsabilida social empresarial visiones complenetarias
 
áNgulos Formados Por Paralelas Y Una Secante
áNgulos Formados Por Paralelas Y Una SecanteáNgulos Formados Por Paralelas Y Una Secante
áNgulos Formados Por Paralelas Y Una Secante
 
Yeye
YeyeYeye
Yeye
 
Lesiones cervicales no cariosas
Lesiones cervicales no cariosasLesiones cervicales no cariosas
Lesiones cervicales no cariosas
 

Plus de Joseba Abaitua

Las «tribus» #prerromanas que NO existieron: várdulos, carietes, autrigones, ...
Las «tribus» #prerromanas que NO existieron: várdulos, carietes, autrigones, ...Las «tribus» #prerromanas que NO existieron: várdulos, carietes, autrigones, ...
Las «tribus» #prerromanas que NO existieron: várdulos, carietes, autrigones, ...Joseba Abaitua
 
A course [largely on bibliographic] information managemet
A course [largely on bibliographic] information managemetA course [largely on bibliographic] information managemet
A course [largely on bibliographic] information managemetJoseba Abaitua
 
Resolución de correferencias en discursos fragmentados para la captura de eve...
Resolución de correferencias en discursos fragmentados para la captura de eve...Resolución de correferencias en discursos fragmentados para la captura de eve...
Resolución de correferencias en discursos fragmentados para la captura de eve...Joseba Abaitua
 
Taller Biblioteca Universitaria 2.0 Deusto
Taller Biblioteca Universitaria 2.0 DeustoTaller Biblioteca Universitaria 2.0 Deusto
Taller Biblioteca Universitaria 2.0 DeustoJoseba Abaitua
 
Genero kontuak liburutegi digitalean, 2.0 eredutik haratago
Genero kontuak liburutegi digitalean, 2.0 eredutik haratagoGenero kontuak liburutegi digitalean, 2.0 eredutik haratago
Genero kontuak liburutegi digitalean, 2.0 eredutik haratagoJoseba Abaitua
 
Library 2.0 (at University of Deusto)
Library 2.0 (at University of Deusto)Library 2.0 (at University of Deusto)
Library 2.0 (at University of Deusto)Joseba Abaitua
 
Metadata first, ontologies second
Metadata first, ontologies secondMetadata first, ontologies second
Metadata first, ontologies secondJoseba Abaitua
 
Collaborative Ontology Building System
Collaborative Ontology Building SystemCollaborative Ontology Building System
Collaborative Ontology Building SystemJoseba Abaitua
 
AutomaticTrans: Resultados del estudio de viabilidad ESP-EUS (28-02-2003)
AutomaticTrans: Resultados del estudio de viabilidad ESP-EUS (28-02-2003)AutomaticTrans: Resultados del estudio de viabilidad ESP-EUS (28-02-2003)
AutomaticTrans: Resultados del estudio de viabilidad ESP-EUS (28-02-2003)Joseba Abaitua
 
Nuevas tendencias en traducción automática (2000)
Nuevas tendencias en traducción automática (2000)Nuevas tendencias en traducción automática (2000)
Nuevas tendencias en traducción automática (2000)Joseba Abaitua
 
Control de calidad en traducción (2001)
Control de calidad en traducción (2001)Control de calidad en traducción (2001)
Control de calidad en traducción (2001)Joseba Abaitua
 
Perspectivas en el ámbito del patrimonio digital: nuevos retos de futuro (2005)
Perspectivas en el ámbito del patrimonio digital: nuevos retos de futuro (2005)Perspectivas en el ámbito del patrimonio digital: nuevos retos de futuro (2005)
Perspectivas en el ámbito del patrimonio digital: nuevos retos de futuro (2005)Joseba Abaitua
 
Por otra ruta en traducción automática (2001)
Por otra ruta en traducción automática (2001)Por otra ruta en traducción automática (2001)
Por otra ruta en traducción automática (2001)Joseba Abaitua
 
Panorama de la edición digital (2003)
Panorama de la edición digital (2003)Panorama de la edición digital (2003)
Panorama de la edición digital (2003)Joseba Abaitua
 
La gestión de documentación bilingüe (euskara y castellano) mediante estándar...
La gestión de documentación bilingüe (euskara y castellano) mediante estándar...La gestión de documentación bilingüe (euskara y castellano) mediante estándar...
La gestión de documentación bilingüe (euskara y castellano) mediante estándar...Joseba Abaitua
 
Reflexiones sobre la traducción automática (2005)
Reflexiones sobre la traducción automática (2005)Reflexiones sobre la traducción automática (2005)
Reflexiones sobre la traducción automática (2005)Joseba Abaitua
 
Genre discovery in corpus management systems (2004)
Genre discovery in corpus management systems (2004)Genre discovery in corpus management systems (2004)
Genre discovery in corpus management systems (2004)Joseba Abaitua
 
Itzulpen automatikoaren aukerak eta dimentsioak (2005)
Itzulpen automatikoaren aukerak eta dimentsioak (2005)Itzulpen automatikoaren aukerak eta dimentsioak (2005)
Itzulpen automatikoaren aukerak eta dimentsioak (2005)Joseba Abaitua
 
Tendencias en la gestión de recursos lexicográficos (2006)
Tendencias en la gestión de recursos lexicográficos (2006)Tendencias en la gestión de recursos lexicográficos (2006)
Tendencias en la gestión de recursos lexicográficos (2006)Joseba Abaitua
 
Memética en la mente de SmartLab
Memética en la mente de SmartLabMemética en la mente de SmartLab
Memética en la mente de SmartLabJoseba Abaitua
 

Plus de Joseba Abaitua (20)

Las «tribus» #prerromanas que NO existieron: várdulos, carietes, autrigones, ...
Las «tribus» #prerromanas que NO existieron: várdulos, carietes, autrigones, ...Las «tribus» #prerromanas que NO existieron: várdulos, carietes, autrigones, ...
Las «tribus» #prerromanas que NO existieron: várdulos, carietes, autrigones, ...
 
A course [largely on bibliographic] information managemet
A course [largely on bibliographic] information managemetA course [largely on bibliographic] information managemet
A course [largely on bibliographic] information managemet
 
Resolución de correferencias en discursos fragmentados para la captura de eve...
Resolución de correferencias en discursos fragmentados para la captura de eve...Resolución de correferencias en discursos fragmentados para la captura de eve...
Resolución de correferencias en discursos fragmentados para la captura de eve...
 
Taller Biblioteca Universitaria 2.0 Deusto
Taller Biblioteca Universitaria 2.0 DeustoTaller Biblioteca Universitaria 2.0 Deusto
Taller Biblioteca Universitaria 2.0 Deusto
 
Genero kontuak liburutegi digitalean, 2.0 eredutik haratago
Genero kontuak liburutegi digitalean, 2.0 eredutik haratagoGenero kontuak liburutegi digitalean, 2.0 eredutik haratago
Genero kontuak liburutegi digitalean, 2.0 eredutik haratago
 
Library 2.0 (at University of Deusto)
Library 2.0 (at University of Deusto)Library 2.0 (at University of Deusto)
Library 2.0 (at University of Deusto)
 
Metadata first, ontologies second
Metadata first, ontologies secondMetadata first, ontologies second
Metadata first, ontologies second
 
Collaborative Ontology Building System
Collaborative Ontology Building SystemCollaborative Ontology Building System
Collaborative Ontology Building System
 
AutomaticTrans: Resultados del estudio de viabilidad ESP-EUS (28-02-2003)
AutomaticTrans: Resultados del estudio de viabilidad ESP-EUS (28-02-2003)AutomaticTrans: Resultados del estudio de viabilidad ESP-EUS (28-02-2003)
AutomaticTrans: Resultados del estudio de viabilidad ESP-EUS (28-02-2003)
 
Nuevas tendencias en traducción automática (2000)
Nuevas tendencias en traducción automática (2000)Nuevas tendencias en traducción automática (2000)
Nuevas tendencias en traducción automática (2000)
 
Control de calidad en traducción (2001)
Control de calidad en traducción (2001)Control de calidad en traducción (2001)
Control de calidad en traducción (2001)
 
Perspectivas en el ámbito del patrimonio digital: nuevos retos de futuro (2005)
Perspectivas en el ámbito del patrimonio digital: nuevos retos de futuro (2005)Perspectivas en el ámbito del patrimonio digital: nuevos retos de futuro (2005)
Perspectivas en el ámbito del patrimonio digital: nuevos retos de futuro (2005)
 
Por otra ruta en traducción automática (2001)
Por otra ruta en traducción automática (2001)Por otra ruta en traducción automática (2001)
Por otra ruta en traducción automática (2001)
 
Panorama de la edición digital (2003)
Panorama de la edición digital (2003)Panorama de la edición digital (2003)
Panorama de la edición digital (2003)
 
La gestión de documentación bilingüe (euskara y castellano) mediante estándar...
La gestión de documentación bilingüe (euskara y castellano) mediante estándar...La gestión de documentación bilingüe (euskara y castellano) mediante estándar...
La gestión de documentación bilingüe (euskara y castellano) mediante estándar...
 
Reflexiones sobre la traducción automática (2005)
Reflexiones sobre la traducción automática (2005)Reflexiones sobre la traducción automática (2005)
Reflexiones sobre la traducción automática (2005)
 
Genre discovery in corpus management systems (2004)
Genre discovery in corpus management systems (2004)Genre discovery in corpus management systems (2004)
Genre discovery in corpus management systems (2004)
 
Itzulpen automatikoaren aukerak eta dimentsioak (2005)
Itzulpen automatikoaren aukerak eta dimentsioak (2005)Itzulpen automatikoaren aukerak eta dimentsioak (2005)
Itzulpen automatikoaren aukerak eta dimentsioak (2005)
 
Tendencias en la gestión de recursos lexicográficos (2006)
Tendencias en la gestión de recursos lexicográficos (2006)Tendencias en la gestión de recursos lexicográficos (2006)
Tendencias en la gestión de recursos lexicográficos (2006)
 
Memética en la mente de SmartLab
Memética en la mente de SmartLabMemética en la mente de SmartLab
Memética en la mente de SmartLab
 

Dernier

Proyecto integrador. Las TIC en la sociedad S4.pptx
Proyecto integrador. Las TIC en la sociedad S4.pptxProyecto integrador. Las TIC en la sociedad S4.pptx
Proyecto integrador. Las TIC en la sociedad S4.pptx241521559
 
KELA Presentacion Costa Rica 2024 - evento Protégeles
KELA Presentacion Costa Rica 2024 - evento ProtégelesKELA Presentacion Costa Rica 2024 - evento Protégeles
KELA Presentacion Costa Rica 2024 - evento ProtégelesFundación YOD YOD
 
9egb-lengua y Literatura.pdf_texto del estudiante
9egb-lengua y Literatura.pdf_texto del estudiante9egb-lengua y Literatura.pdf_texto del estudiante
9egb-lengua y Literatura.pdf_texto del estudianteAndreaHuertas24
 
Cortes-24-de-abril-Tungurahua-3 año 2024
Cortes-24-de-abril-Tungurahua-3 año 2024Cortes-24-de-abril-Tungurahua-3 año 2024
Cortes-24-de-abril-Tungurahua-3 año 2024GiovanniJavierHidalg
 
Global Azure Lima 2024 - Integración de Datos con Microsoft Fabric
Global Azure Lima 2024 - Integración de Datos con Microsoft FabricGlobal Azure Lima 2024 - Integración de Datos con Microsoft Fabric
Global Azure Lima 2024 - Integración de Datos con Microsoft FabricKeyla Dolores Méndez
 
Plan de aula informatica segundo periodo.docx
Plan de aula informatica segundo periodo.docxPlan de aula informatica segundo periodo.docx
Plan de aula informatica segundo periodo.docxpabonheidy28
 
La era de la educación digital y sus desafios
La era de la educación digital y sus desafiosLa era de la educación digital y sus desafios
La era de la educación digital y sus desafiosFundación YOD YOD
 
Redes direccionamiento y subredes ipv4 2024 .pdf
Redes direccionamiento y subredes ipv4 2024 .pdfRedes direccionamiento y subredes ipv4 2024 .pdf
Redes direccionamiento y subredes ipv4 2024 .pdfsoporteupcology
 
Trabajo Mas Completo De Excel en clase tecnología
Trabajo Mas Completo De Excel en clase tecnologíaTrabajo Mas Completo De Excel en clase tecnología
Trabajo Mas Completo De Excel en clase tecnologíassuserf18419
 
guía de registro de slideshare por Brayan Joseph
guía de registro de slideshare por Brayan Josephguía de registro de slideshare por Brayan Joseph
guía de registro de slideshare por Brayan JosephBRAYANJOSEPHPEREZGOM
 
EPA-pdf resultado da prova presencial Uninove
EPA-pdf resultado da prova presencial UninoveEPA-pdf resultado da prova presencial Uninove
EPA-pdf resultado da prova presencial UninoveFagnerLisboa3
 
International Women's Day Sucre 2024 (IWD)
International Women's Day Sucre 2024 (IWD)International Women's Day Sucre 2024 (IWD)
International Women's Day Sucre 2024 (IWD)GDGSucre
 
CLASE DE TECNOLOGIA E INFORMATICA PRIMARIA
CLASE  DE TECNOLOGIA E INFORMATICA PRIMARIACLASE  DE TECNOLOGIA E INFORMATICA PRIMARIA
CLASE DE TECNOLOGIA E INFORMATICA PRIMARIAWilbisVega
 
Hernandez_Hernandez_Practica web de la sesion 12.pptx
Hernandez_Hernandez_Practica web de la sesion 12.pptxHernandez_Hernandez_Practica web de la sesion 12.pptx
Hernandez_Hernandez_Practica web de la sesion 12.pptxJOSEMANUELHERNANDEZH11
 
trabajotecologiaisabella-240424003133-8f126965.pdf
trabajotecologiaisabella-240424003133-8f126965.pdftrabajotecologiaisabella-240424003133-8f126965.pdf
trabajotecologiaisabella-240424003133-8f126965.pdfIsabellaMontaomurill
 
POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...
POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...
POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...silviayucra2
 

Dernier (16)

Proyecto integrador. Las TIC en la sociedad S4.pptx
Proyecto integrador. Las TIC en la sociedad S4.pptxProyecto integrador. Las TIC en la sociedad S4.pptx
Proyecto integrador. Las TIC en la sociedad S4.pptx
 
KELA Presentacion Costa Rica 2024 - evento Protégeles
KELA Presentacion Costa Rica 2024 - evento ProtégelesKELA Presentacion Costa Rica 2024 - evento Protégeles
KELA Presentacion Costa Rica 2024 - evento Protégeles
 
9egb-lengua y Literatura.pdf_texto del estudiante
9egb-lengua y Literatura.pdf_texto del estudiante9egb-lengua y Literatura.pdf_texto del estudiante
9egb-lengua y Literatura.pdf_texto del estudiante
 
Cortes-24-de-abril-Tungurahua-3 año 2024
Cortes-24-de-abril-Tungurahua-3 año 2024Cortes-24-de-abril-Tungurahua-3 año 2024
Cortes-24-de-abril-Tungurahua-3 año 2024
 
Global Azure Lima 2024 - Integración de Datos con Microsoft Fabric
Global Azure Lima 2024 - Integración de Datos con Microsoft FabricGlobal Azure Lima 2024 - Integración de Datos con Microsoft Fabric
Global Azure Lima 2024 - Integración de Datos con Microsoft Fabric
 
Plan de aula informatica segundo periodo.docx
Plan de aula informatica segundo periodo.docxPlan de aula informatica segundo periodo.docx
Plan de aula informatica segundo periodo.docx
 
La era de la educación digital y sus desafios
La era de la educación digital y sus desafiosLa era de la educación digital y sus desafios
La era de la educación digital y sus desafios
 
Redes direccionamiento y subredes ipv4 2024 .pdf
Redes direccionamiento y subredes ipv4 2024 .pdfRedes direccionamiento y subredes ipv4 2024 .pdf
Redes direccionamiento y subredes ipv4 2024 .pdf
 
Trabajo Mas Completo De Excel en clase tecnología
Trabajo Mas Completo De Excel en clase tecnologíaTrabajo Mas Completo De Excel en clase tecnología
Trabajo Mas Completo De Excel en clase tecnología
 
guía de registro de slideshare por Brayan Joseph
guía de registro de slideshare por Brayan Josephguía de registro de slideshare por Brayan Joseph
guía de registro de slideshare por Brayan Joseph
 
EPA-pdf resultado da prova presencial Uninove
EPA-pdf resultado da prova presencial UninoveEPA-pdf resultado da prova presencial Uninove
EPA-pdf resultado da prova presencial Uninove
 
International Women's Day Sucre 2024 (IWD)
International Women's Day Sucre 2024 (IWD)International Women's Day Sucre 2024 (IWD)
International Women's Day Sucre 2024 (IWD)
 
CLASE DE TECNOLOGIA E INFORMATICA PRIMARIA
CLASE  DE TECNOLOGIA E INFORMATICA PRIMARIACLASE  DE TECNOLOGIA E INFORMATICA PRIMARIA
CLASE DE TECNOLOGIA E INFORMATICA PRIMARIA
 
Hernandez_Hernandez_Practica web de la sesion 12.pptx
Hernandez_Hernandez_Practica web de la sesion 12.pptxHernandez_Hernandez_Practica web de la sesion 12.pptx
Hernandez_Hernandez_Practica web de la sesion 12.pptx
 
trabajotecologiaisabella-240424003133-8f126965.pdf
trabajotecologiaisabella-240424003133-8f126965.pdftrabajotecologiaisabella-240424003133-8f126965.pdf
trabajotecologiaisabella-240424003133-8f126965.pdf
 
POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...
POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...
POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...
 

Sistema híbrido y cooperativo de traducción automática

  • 1. euLIH euskararako Lankidetzan oinarritutako Itzultzaile Hibridoa Sistema híbrido y cooperativo de traducción al euskera
  • 2. Guión  ¿Quiénes somos? – Origen y antecedentes – Áreas de especialidad – Contacto con la traducción automática  Visión de la traducción automática – Hibridación de estrategias – Relevancia del corpus de traducciones  Presentación de euLIH euLIH
  • 3. Arquitectura de euLIH Sistema híbrido y cooperativo de traducción al euskera Marco de agregación y validación de metcontenidos Corpus A Corpus % Dicc. & Term. A anotados e indexados Reglas Corpus B Dicc. & Term. 2 dor Agrega H Traductor OAI-PM híbrido 2 OLAC Dicc. & Term. B Traductor reglas 1 Corpus C Reglas Dicc. & Term. 1 Dicc. & Term. D euLIH
  • 4. Arquitectura de euLIH Marco de agregación y validación de metacontenidos anotados e indexados Reglas Marco de agregación y validación de metcontenidos Dicc. & Term. 2 Corpus A Dicc. & Term. A Corpus % anotados e indexados Corpus B dor Agrega H Traductor OAI-PM híbrido 2 OLAC Dicc. & Term. B Traductor reglas 1 Corpus C Reglas Dicc. & Term. 1 Dicc. & Term. D euLIH
  • 5. Módulos de euLIH  Marco de agregación metacontenidos (1-10) – Agregador OAI-PMH (1-6) – Motor de indexación bilingüe (1-9) – Protocolo de validación (5-10)  Integración de motores de traducción (9-19) – API para memorias de traducción (9-12) – API para traductor por reglas (11-14) – Prototipo de traductor estadístico (11-19) – Módulo de retroalimentación (13-19)  Interacción y acceso – API para personalización de interfaces (5-19) – API para servicios de traducción (13-19) euLIH
  • 6. Cronología del proyecto euLIH T1 T2 T3 T4 T5 T6 T7 T8 T9 T10 Cronograma de euLIH euLIH
  • 7. Guión  ¿Quiénes somos? – Origen y antecedentes – Áreas de especialidad – Contacto con la traducción automática  Visión de la traducción automática – Hibridación de estrategias – Relevancia del corpus de traducciones  Presentación de euLIH euLIH
  • 8. Origen y antecedentes de ET  enero 2005: DELi decide crear spin-off, plan de empresa  julio 2005: Plan estratégico y presentación a DFB y GV  enero 2006: Programa Intek de GV: proyecto CollOnBus  julio 2006: Alianza con Thera-Clic  enero 2007: Thera-Clic 25% euLIH
  • 9. Áreas de especialidad  Estándares de interoperabilidad semántica – Metadatos XML sectoriales: TEI, TMX, DCMI, XBRL, HL7, OPC DA – Agregación y sindicación: OAI-PMH, OLAC, RSS, Atom  Gestión de contenidos multilingües: – procesamiento lingüístico, indexación textual, compilación y anotación de corpus, traducción automática y asistida  Categorización de recursos: – Taxonomías, folcsonomías y ontologías euLIH
  • 10. Antecedentes: Grupo DELi, proyectos - SemB-UDDI: Semantic UDDI registry of Basque high-tech companies (2005-2006). - OAC-onto: Open Archive Cataloger: Ontologías y metadatos (2004-2005). - XemGrid: Mejora en el descubrimiento de servicios grid utilizando información semántica (2004-2005). - Rómulo. Edición digital plurilingüe de un texto europeo del siglo XVII (2003-2005). - X-Flow: Gestión de flujo de contenidos multilingües sobre XLIFF y TMX (2002-2003). - XML-Bi: Procedimientos para la gestión del flujo documental multilingüe sobre XML/TEI-P3 (2001-2002). - XTRA-Bi: Extracción automática de unidades bitextuales para memorias de traducción (2000-2001). euLIH
  • 11. Antecedentes: Thera-CLiC euLIH
  • 12. Experiencia con la TA  1984-87 UMIST: CCL – Ntran (Alvey), EUROTRA (CE)  1988-91 Fujitsu Labs – ATLAS, Llull – EUROTRA, METAL  1992-98 UD: Master en Traducción – Consultor, evaluador (vg. Metalingua) – TMM, Transit, DVX – Legebiduna  1998-07 DELi – Xtrabi, Xflow, SareBi, OAC-onto, SemB- UDDI, SemTek  2002, 2004 AutomaticTrans: ATS euLIH
  • 13. Guión  ¿Quiénes somos? – Origen y antecedentes – Áreas de especialidad – Contacto con la traducción automática  Visión de la traducción automática – Hibridación de estrategias – Relevancia del corpus de traducciones  Presentación de euLIH euLIH
  • 14. Visión de la traducción automática  Estrategia híbrida: – Reglas transferencia léxica y sintáctica – Corpus de traducciones (memoria de traducción y estadística)  Flujo de trabajo – Definición de  Usuario  Servicio – Integración en entorno de publicación  Evaluación: – FEMTI, BLEU, METEOR, ROUGE, QARLA euLIH
  • 15. Visión de la traducción automática: FEMTI Framework for the Evaluation of Machine Translation in ISLE (2002) – Propósito de la traducción  Asimilación, diseminación, comunicación – Características de usuario  Competencia del usuario  Frecuencia: ocasional, profesional, institución – Características del input (autor y texto)  Tipo de documento  Propiedades del autor  Fuentes de error http://www.isi.edu/natural-language/mteval/ euLIH
  • 16. Propósito de la traducción automática: FEMTI  Asimilación: Facilitar el acceso a información relevante en otro idioma. – Tiene más sentido de euskera a español  Diseminación: Permitir la rápida distribución de materiales en varios idiomas. – No se requiere una calidad máxima, porque pueden ser materiales de trabajo y en borrador  Comunicación: Información que se va a publicar y que debe responder a los máximos niveles de calidad. – Si se utiliza la traducción automática hará falta revisión (postedición) http://www.isi.edu/natural-language/mteval/ euLIH
  • 17. Visión de la traducción automática: FEMTI Características de usuario – ¿A quién va dirigido el traductor?  Usuario ocasional – ¿quiere leer prensa española en euskera? – ¿quiere publicar en euskera?  Usuario profesional, traductor – quiere incrementar su rendimiento  Usuario institucional, agencia, empresa – quiere aumentar la producción – quiere normalizar criterios (terminología, estilo, etc.) – quiere garantizar calidad – quiere ahorrar costes http://www.isi.edu/natural-language/mteval/ euLIH
  • 18. Visión de la traducción automática: euLIH Características de usuario  Usuario ocasional – quiere publicar en euskera  Usuario profesional, traductor – quiere incrementar su rendimiento  Usuario institucional, agencia, empresa – quiere aumentar la producción – quiere normalizar criterios (terminología, estilo, etc.) – quiere garantizar calidad – quiere ahorrar costes En todos los casos con el propósito de comunicar: se requiere calidad euLIH
  • 19. Visión de la traducción automática  Techo de la TA basada en reglas – Más reglas no (siempre) mejoran el resultado – Systran, Reverso (ProMT) muestran la “calidad” posible para textos genéricos – Factores:  Distancia lingüística  Límites de la gramática (sintaxis) – Relevancia del corpus: modelos (ejemplos), fraseología, terminología, memoria de traducción, entrenamiento estadística euLIH
  • 20. El techo de la TA basada en reglas: Systran  La travesía de Tom tiene una nueva concesión de Australia a agregar a su colección para ser la celebridad más sexista.  Cerca de 400 de las mujeres más de gran alcance de Australia recolectaron a parlamento último jueves del estado de Nuevo Gales del Sur para decidir sobre los ganadores del 14 “Ernie anual concede” que se reparten para las declaraciones públicas despectivas peores.  Las concesiones fueron nombradas después de un líder del sindicato llamado Ernie que miembros de unión incluyeron los esquiladores de las ovejas. Él una vez famoso dijo: “Las mujeres no son agradables en las vertientes que esquilan. Están solamente después del sexo.”  El “Ernies” tiene un sabor internacional - y la travesía fue concedida la celebridad 2006 Ernie. euLIH
  • 21. El techo de la TA basada en reglas: Systran  Tom Cruise tiene un nuevo premio australiano que añadir a su colección por ser el famoso más machista.  Unas cuatrocientas de las mujeres más poderosas de Australia se reunieron en el Parlamento Estatal de Nueva Gales del Sur el pasado jueves a última hora para decidir los ganadores de la 14º edición anual de los ‘premios Ernie’, que se entregan a las declaraciones públicas más despectivas.  Los premios reciben el nombre de un líder sindicalista llamado Ernie que incluía a esquiladores en el sindicato. Éste dijo una vez: “Las mujeres no son bienvenidas en los cobertizos para esquilar. Sólo vienen para el sexo.”  Los “Ernies” tienen un toque internacional y a Cruise le concedieron el Ernie 2006 de los famosos. (Traducción de alumnas de 3º de filología inglesa) euLIH
  • 22. El techo de la TA basada en reglas: Systran La travesía de Tom tiene una nueva concesión de Australia a agregar a su colección para ser la celebridad más sexista. Tom Cruise tiene un nuevo premio australiano que añadir a su colección por ser el famoso más machista. Cerca de 400 de las mujeres más de gran alcance de Australia recolectaron a parlamento último jueves del estado de Nuevo Gales del Sur para decidir sobre los ganadores del 14 “Ernie anual concede” que se reparten para las declaraciones públicas despectivas peores. Unas cuatrocientas de las mujeres más poderosas de Australia se reunieron en el Parlamento Estatal de Nueva Gales del Sur el pasado jueves a última hora para decidir los ganadores de la 14º edición anual de los ‘premios Ernie’, que se entregan a las declaraciones públicas más despectivas. euLIH
  • 23. El techo de la TA basada en reglas: Razones  Arnold y otros (1993) destacan las tres dificultades siguientes: – La ambigüedad (polisemia): “activo” gogotsu, langile, eraginkor, aktibo – Los desajustes léxicos y estructurales:  Elementos patrimoniales activos y pasivos  Ondare elementu aktibo eta pasibo  Ondarezko osagai pasibo eta gogotsu – Las unidades pluriverbales (colocaciones, modismos, onomástica, terminología):  Es decir: Hau da, *Esate da  Está reunido: Bilera batean dago, *Bilduta dago euLIH
  • 24. El techo de la TA basada en reglas: Razones  Léxicos: los que pueden resolverse mediante diccionario  Sintácticos: los que deberían poder resolverse a golpe de regla gramatical  Estructurales: los que siendo de índole sintáctica, plantean dificultades a las reglas y se resuelven mejor mediante memoria de traducción  Estilísticos: para los que el único remedio es una buena memoria de traducción euLIH
  • 25. El techo de la TA basada en reglas: Razones Estructuras sintácticas complicadas:  Predicados complejos, estructuras de control – es capaz de funcionar bien  Aposiciones – actuaciones, generales o selectivas, de obtención de información  Subordinadas (relativas, completivas) – los elementos patrimoniales activos y pasivos de una parte de una sociedad que constituyen, desde el punto de vista de la organización, una explotación autónoma  Coordinación – La naturaleza o clase y número de cuenta u operación, así como el saldo o importe máximo  Comparativas – había algo que desagradaba a los Dursley aún más que las preguntas que Harry hacía euLIH
  • 26. El techo de la TA basada en reglas: Razones ¿A partir de qué momento las estructuras sintácticas complicadas se convierten en problemas estructurales? – La longitud tiene mucho que ver. Oraciones de más de 15 palabras normalmente distorsionan gravemente la aplicación de las reglas – La combinación de problemas sintácticos: subordinación, aposición, coordinación... euLIH
  • 27. El techo de la TA basada en reglas: Razones Se entenderá por rama de actividad económica el conjunto de los elementos patrimoniales activos y pasivos de una parte de una sociedad que constituyen, desde el punto de vista de la organización, una explotación autónoma, es decir, un conjunto capaz de funcionar por sus propios medios. – Jarduera ekonomikoaren arlotzat zera hartuko da: antolaketa aldetik bere gaineko ustiategi bat, hau da, bere bitartekoez funtzionatzeko gauza den batasun bat osatzen duten sozietate zati baten ondare elementu aktibo eta pasiboen multzoa – Jarduera-adartzat joko da, antolaketari begira, ustiapen ekonomikoa ekarriko duen autonomiadun unitate ekonomikoa osatuko duen ondare- multzoa, hau da, beren baliabide propioen bidez jarduteko gai izango den multzoa. Eskualdatuko diren elementuen antolaketatik edo jardunbideak eratorritako zorrak eratxiki ahal izango zaizkio sozietate eskuratzaileari. – * Jarduera ekonomikoaren adarretik ulertuko du ondarezko osagai pasibo eta gogotsuen multzoa bat gizarte bateko batzuk osatzen duten, erakundearen ikusmenaren puntutik, ustiapen autonomo bat, esate da, funtzionatze haren neure erdi multzo handi bat. euLIH
  • 28. El techo de la TA basada en reglas: Razones A excepción de en La Rioja, donde todos los albergues excepto uno (Grañón) cuentan con un espacio para guardar bicicletas, el peregrino se ve obligado a conocer de antemano, entre Roncesvalles y Santiago, los lugares concretos que ofrecen este servicio: el 80% de los de León, Burgos, Navarra y Palencia, mientras que en A Coruña sólo se pueden guardar bicis en la mitad de los centros. – Errioxan izan ezik -Grañon-go aterpetxeak izan ezean beste guztiek eskaintzen dute probintzia horretan bizikletak gordetzeko toki egokia -Orreagan hasi eta Santiagoraino zerbitzu hori zein aterpetxek eskaintzen duen jakin behar du, nahitaez, erromesak aldez aurretik: Leon, Burgos, Nafarroa eta Palentziakoen %80etan, hain zuzen euLIH
  • 29. Guión  ¿Quiénes somos? – Origen y antecedentes – Áreas de especialidad – Contacto con la traducción automática  Visión de la traducción automática – Hibridación de estrategias – Relevancia del corpus de traducciones  Presentación de euLIH euLIH
  • 30. Traductor basado en reglas Traductor reglas Reglas Dicc. & Term. euLIH
  • 31. Traductor basado en reglas Traductor reglas Reglas Dicc. & Term. euLIH
  • 32. Sistemas híbridos: reglas + corpus (+ %) Corpus % Reglas Dicc. & Term. 2 Traductor híbrido 2 Traductor reglas 1 Reglas Dicc. & Term. 1 euLIH
  • 33. Arquitectura de euLIH alimentado dinámicamente desde una red de recursos distribuidos Corpus A Corpus Corpus Corpus Dicc. & Term. A % % % Reglas Corpus B Dicc. & Term. 2 Traductor híbrido 2 Dicc. & Term. B Traductor reglas 1 Corpus C Reglas Dicc. & Term. 1 Dicc. & Term. D euLIH
  • 34. Arquitectura de euLIH Recolector y agregador de metacontenidos Corpus A Corpus % Dicc. & Term. A Reglas Corpus B Dicc. & Term. 2 dor Agrega H Traductor OAI-PM híbrido 2 OLAC Dicc. & Term. B Traductor reglas 1 Corpus C Reglas Dicc. & Term. 1 Dicc. & Term. D euLIH
  • 35. Arquitectura de euLIH Marco de agregación y validación de metacontenidos anotados e indexados Marco de agregación y validación de metcontenidos Corpus A Corpus % Dicc. & Term. A anotados e indexados Reglas Corpus B Dicc. & Term. 2 dor Agrega H Traductor OAI-PM híbrido 2 OLAC Dicc. & Term. B Traductor reglas 1 Corpus C Reglas Dicc. & Term. 1 Dicc. & Term. D euLIH
  • 36. Arquitectura de euLIH Sistema híbrido y cooperativo de traducción al euskera Marco de agregación y validación de metcontenidos Corpus A Corpus % Dicc. & Term. A anotados e indexados Reglas Corpus B Dicc. & Term. 2 dor Agrega H Traductor OAI-PM híbrido 2 OLAC Dicc. & Term. B Traductor reglas 1 Corpus C Reglas Dicc. & Term. 1 Dicc. & Term. D euLIH
  • 37. Módulos de euLIH  Marco de agregación metacontenidos – Agregador OAI-PMH – Motor de indexación bilingüe – Protocolo de validación  Integración de motores de traducción – API para memorias de traducción – API para traductor por reglas – Prototipo de traductor estadístico – Módulo de retroalimentación  Interacción y acceso – API para personalización de interfaces – API para servicios de traducción euLIH
  • 38. Arquitectura de euLIH Marco de agregación metacontenidos Reglas Marco de agregación y validación de metcontenidos Dicc. & Term. 2 Corpus A Dicc. & Term. A Corpus % anotados e indexados Corpus B dor Agrega H Traductor OAI-PM híbrido 2 OLAC Dicc. & Term. B Traductor reglas 1 Corpus C Reglas Dicc. & Term. 1 Dicc. & Term. D euLIH
  • 39. Módulos de euLIH Marco de agregación de metacontenidos  Contenidos distribuidos  Anotados (en origen o Marco de agregación y validación de metcontenidos Corpus A en depósito) Dicc. & Term. A  Protocolo de recolección OAI-PMH anotados e indexados Corpus B dor Agrega H  Indexación de AI-PM O OLAC contenidos Dicc. & Term. B  Procesamiento lingüístico de Corpus C contenidos  Depósito de metacontenidos Dicc. & Term. D euLIH
  • 40. euLIH Agregación de metacontenidos  Metacontenidos: contenidos indexados y etiquetados – Indexados: contenidos recopilados, procesados (parsed) y almacenados – Etiquetados: anotados con metadatos (CES, LAF, TMX, DCMI):  Language Resources Management TC ISO/TC 37/SC 4  Open Language Archives Community (OLAC) euLIH
  • 41. euLIH Metadatos Dublin Core 15 elementos básicos euLIH
  • 42. euLIH Metadatos Dublin Core Obligatorios •identifier •languages Recomendados Complementarios •date •publisher •dateSubmitted •title •dateAccepted •creator •modified •contributor (traductor) •available •type •source •rights •subject •conformsTo Otros (un estándar de calidad, vg. •hasVersion validado por IVAP, UZEI, etc.) •isPartOf •audience •isReplacedBy (general public, EHU, BFA, etc.) euLIH
  • 43. euLIH Protocolo de recolección OAI-PMH  ¿Quién usa OAI-PMH? – Bibliotecas: The European Library, National Library of Australia (NLA), Library of Congress – Redes de bibliotecas: Digital Library Federation (DLF), National Sciene Digital Library (NSDL), Red de Bibliotecas Universitarias Españolas (REBIUM) – Servicios bibliográficos: ArXiv, ePrints, Scientific Literature Digital Library (CiteSeer), Internet Archive, Google:Scholar, OCLC Theses and Dissertations euLIH
  • 44. euLIH Protocolo de recolección OAI-PMH  ¿Quién promueve OLAC? – Open Language Archives Community – Linguistic Data Consortium (LDC), University of Pennsylvania – European Language Resources Association (ELRA) – European Network of Excellence in Human Language Technologies (ELSNET) – Foundation for Endangered Languages – The LINGUIST List, Oxford Text Archive – SIL International, etc. euLIH
  • 45. Módulos de euLIH Motor de indexación bilingüe  Procesamiento lingüístico Marco de agregación y validación de metcontenidos Corpus – Lematización – Reconocimiento de anotados e indexados entidades onomásticas – Detección de unidades pluriverbales motor de – Desambiguación indexación euLIH
  • 46. Módulos de euLIH Protocolo de validación  Distintos rangos (roles) entre agentes cooperantes Marco de agregación y validación de metcontenidos Corpus A  Agentes institucionales tiene rango “autoridad” Dicc. & Term. A  Los segmentos autorizados están certificados anotados e indexados Corpus B dor  Los usuarios no Agrega H O AI-PM institucionales son OLAC cooperantes que, de Dicc. & Term. B partida, no pueden certificar sus traducciones Corpus C  euLIH no acreditará rangos, pero aportará la funcionalidad para que otros lo hagan Dicc. & Term. D euLIH
  • 47. Módulos de euLIH  Marco de agregación metacontenidos – Agregador OAI-PMH – Motor de indexación bilingüe – Protocolo de validación  Integración de motores de traducción – API para memorias de traducción – API para traductor por reglas – Prototipo de traductor estadístico – Módulo de retroalimentación  Interacción y acceso – API para personalización de interfaces – API para servicios de traducción euLIH
  • 48. Arquitectura de euLIH Sistema híbrido y cooperativo de traducción al euskera Marco de agregación y validación de metcontenidos Corpus A Corpus % Dicc. & Term. A anotados e indexados Reglas Corpus B Dicc. & Term. 2 dor Agrega H Traductor OAI-PM híbrido 2 OLAC Dicc. & Term. B Traductor reglas 1 Corpus C Reglas Dicc. & Term. 1 Dicc. & Term. D euLIH
  • 49. Módulos de euLIH Integración de motores de traducción  API para memorias de traducción – Conexión con redes de memorias de traducción – Funcionalidad de memoria de traducción  API para traductor por reglas – Integración de motores RBMT  Prototipo de traductor estadístico – Experimentar con CMU, Giza++, BLEU  Módulo de retroalimentación – Detección de terminología, colocaciones, unidades pluriverbales, fraseología euLIH
  • 50. Módulos de euLIH  Marco de agregación metacontenidos – Agregador OAI-PMH – Motor de indexación bilingüe – Protocolo de validación  Integración de motores de traducción – API para memorias de traducción – API para traductor por reglas – Prototipo de traductor estadístico – Módulo de retroalimentación  Interacción y acceso – API para personalización de interfaces – API para servicios de traducción euLIH
  • 51. Arquitectura de euLIH Sistema híbrido y cooperativo de traducción al euskera Marco de agregación y validación de metcontenidos Corpus A Corpus % Dicc. & Term. A anotados e indexados Reglas Corpus B Dicc. & Term. 2 dor Agrega H Traductor OAI-PM híbrido 2 OLAC Dicc. & Term. B Traductor reglas 1 Corpus C Reglas Dicc. & Term. 1 Dicc. & Term. D euLIH
  • 52. Módulos de euLIH Interacción y acceso  API para personalización de interfaces – Acceso al sistema para: consultar, modificar, validar, añadir, eliminar, importar, exportar, filtrar, etc. – Perfiles de usuario, personalización  API para servicios de traducción – Integración del sistema en puestos de trabajo locales euLIH
  • 53. euLIH Demostración de prototipo: http://www.deli.deusto.es/eulih euLIH
  • 54. euLIH Conclusiones  Propósito: producción, Marco de agregación y validación de metcontenidos Corpus A comunicación Dicc. & Term. A  Usuario: profesional, institucional anotados e indexados Corpus B dor – Responder a necesidades Agrega H reales OAI-PM OLAC – Aprovechar sus recursos Dicc. & Term. B – Recolectar, agregar, Corpus C validar  Modelo cooperativo (web social, crowdsourcing) Dicc. & Term. D euLIH
  • 55. euLIH Muchas gracias ¿más preguntas? euLIH
  • 56. Breve historia de la traducción automática: 6 décadas  1947 Warren Weaver, Fundación Rockefeller  1951 Yehoshua Bar-Hillel, MIT; 1ª demo Universidad de Georgetown – IBM; DoD; FAHQT; Systran, Metal  1964 ALPAC; Syntactic Structures (1957); ALGOL, LISP  1976 MÉTÉO (U. Montreal), CE: Systran, Eurotra  1991 Informe Danzin; Candide IBM; Corpus  2005 NIST, BLEU: Google, ISI, etc. euLIH
  • 57. Evolución de la tecnología  Warren Weaver (1947): – técnicas criptográficas – teoremas de Shannon – utilidad de la estadística – lógica subyacente y – propiedades universales del lenguaje humano euLIH
  • 58. Evolución de la tecnología  Yehoshua Bar-Hillel (1951): – primer simposio de la TA – lenguajes controlados, sublenguajes – necesidad de la sintaxis – posibilidad de prescindir de la intervención humana (FAHQMT) – Cuestiona FAHQMT en 1960 euLIH
  • 59. Evolución de la tecnología  1957-1991 Sistemas basados en conocimiento lingüístico: – Syntactic Structures (1957); ALGOL, LISP – Gramáticas formales; Inteligencia artificial – Canadá, Europa, Japón – Systran, Metal, Eurotra, Rosetta, etc. – Transferencia sintáctica, léxica – Interlingua, redes semánticas, ontologías euLIH
  • 60. Evolución de la tecnología  1990-2007 Sistemas basados en corpus: – Candide IBM vs Systran – TA online: Bablefish, Reverso, Google – IBM (TranslationManager), TRADOS (Translator's Workbench), ATRIL (DÉJÀ- VU), etc. – Evaluación de la TA: FEMTI, BLEU (SMT) – Competiciones NIST (0.5131 vs 0.1079) – WorldServer, Multicorpora, Freeway, Lingotek euLIH
  • 61. El techo de los sistemas basados en reglas  I danced at the ball / Bailé en la bola / Bailé en la pelota / Bailé en la pelota  I gave up cigarettes / Di para arriba cigarrillos / Dejé cigarrillos / Yo me rendí cigarrillos  Have you ever been to London? / ¿Usted ha estado siempre a Londres? / ¿Ud alguna vez ha sido a Londres? / ¿Ha estado jamás usted a Londres?  A barking dog seldom bites / Mordeduras de un perro el raspar raramente (Perro ladrador poco mordedor) Pruebas con Systran, Reverso, FreeTranslation euLIH
  • 62. El techo de los sistemas basados en reglas  (5) Perspectiva que adquiere significación en la escena internacional a finales del siglo XX – XX mendearen bukaerako nazioarteko eszenan garrantzia hartu duen ikuspegia – XX. mendeko bukaerei nazioarteko eszenan esanahia eskuratzen duen ikuspuntua euLIH
  • 63. El techo de los sistemas basados en reglas  (7) Se entenderá por rama de actividad económica el conjunto de los elementos patrimoniales activos y pasivos de una parte de una sociedad que constituyen, desde el punto de vista de la organización, una explotación autónoma, es decir, un conjunto capaz de funcionar por sus propios medios. euLIH
  • 64. El techo de los sistemas basados en reglas  (7 a.) El conjunto de los elementos patrimoniales activos y pasivos de una parte de una sociedad – Sozietate zati baten ondare elementu aktibo eta pasiboen multzoa – Gizarte bateko batzuk ondarezko osagai pasibo eta gogotsuen bat multzoa euLIH
  • 65. El techo de los sistemas basados en reglas  (7 b.) Se entenderá por rama de actividad económica el conjunto [...] que constituyen, desde el punto de vista de la organización, una explotación autónoma, es decir, un conjunto capaz de funcionar por sus propios medios.  Jarduera ekonomikoaren arlotzat zera hartuko da: antolaketa aldetik bere gaineko ustiategi bat, hau da, bere bitartekoez funtzionatzeko gauza den batasun bat osatzen duten [...] multzoa.  Jarduera ekonomikoaren adarretik ulertuko du [...] multzoa bat gizarte bateko batzuk osatzen duten, erakundearen ikusmenaren puntutik, ustiapen autonomo bat, esate da, funtzionatze haren neure erdi multzo handi bat. euLIH
  • 66. El techo de los sistemas basados en reglas (8) a. La planificación y ejecución de actuaciones, generales o selectivas, de obtención de información, así como las relaciones con otras Administraciones a los mismos efectos. b. Informazioa lortzeko jarduketak, orokorrak nahiz hautatzezkoak, eta gainerako administrazioarekiko informazio jarduketetako hartuemanak, planifikatu eta burutzea. c. Plangintza eta jokaeren egitea, aukeratze edo orokorrak, informazioaren lorpenaren, ondorio berei beste Administraciones batzuk zerikusiak Baita Ere. euLIH