ATIVIDADE 1 - GCOM - GESTÃO DA INFORMAÇÃO - 54_2024.docx
Contributos das Tecnologias da Língua para a Globalização do Português
1. technology
from seed
CONTRIBUTOS DAS TECNOLOGIA S DA LÍNGUA
PARA A GLOBALIZAÇÃO DO PORTUGUÊS
Isabel Trancoso
Luísa Coheur
Anabela Barreiro
Laboratório de Sistemas de Língua Falada (L2F)
Colóquio Português Língua Global
Centro de Estudos Lusíadas da Universidade do Minho
15 de novembro de 2013
5. Transcrição Multimédia
• O que é?
A transcrição enriquecida é muito mais que a simples conversão
fala texto
Há que incluir pontuação, capitalização, informação sobre mudança de
orador, tópico, língua, sotaque, emoção …
• Como funciona?
Segmentação áudio + Reconhecimento + Pontuação + Capitalização + …
• Alguns desafios:
•
•
•
•
•
Fala espontânea
Ruído ambiente / distância ao microfone
Sotaques muito marcados
Palavras fora do vocabulário
Domínios: Noticiários, aulas, reuniões, tribunais, …
5
7. O projecto FALACOMIGO
• O que é?
Projecto QREN, que teve como
um dos alvos a criação de um
agente que responde a perguntas
sobre Monserrate
• Como funciona?
Reconhecimento +
Compreensão de Língua Natural +
Síntese áudio-visual
• Alguns desafios:
•
•
Construção da base de Conhecimento
Variabilidade Linguística
7
12. O projecto PT-STAR
• O que é?
Projecto em cooperação com a CMU, que teve como alvo a tradução de
fala para fala de e para Português
• Como funciona?
Reconhecimento + Tradução Automática + Síntese
• Alguns desafios:
– Adaptação ao domínio
– Erros de reconhecimento
12
13. Como funciona?
Tradução de Centauri para Arcturan [Knight 97]
Traduzir para Arcturan: farok crrrok hihok yorok clok kantok ok-yurp
1a. ok-voon ororok sprok .
7a. lalok farok ororok lalok sprok izok enemok .
1b. at-voon bichat dat .
7b. wat jjat bichat wat dat vat eneat .
2a. ok-drubel ok-voon anok plok sprok .
8a. lalok brok anok plok nok .
2b. at-drubel at-voon pippat rrat dat .
8b. iat lat pippat rrat nnat .
3a. erok sprok izok hihok ghirok .
9a. wiwok nok izok kantok ok-yurp .
3b. totat dat arrat vat hilat .
4a. ok-voon anok drok brok jok .
9b. totat nnat quat oloat at-yurp .
10a. lalok mok nok yorok ghirok clok .
4b. at-voon krat pippat sat lat .
5a. wiwok farok izok stok .
10b. wat nnat gat mat bat hilat .
11a. lalok nok crrrok hihok yorok zanzanok .
5b. totat jjat quat cat .
6a. lalok sprok izok jok stok .
11b. wat nnat arrat mat zanzanat .
12a. lalok rarok nok izok hihok mok .
6b. wat dat krat quat cat .
12b. wat nnat forat arrat vat gat .
14. Como funciona?
Tradução de Centauri para Arcturan [Knight 97]
Traduzir para Arcturan: farok crrrok hihok yorok clok kantok ok-yurp
1a. ok-voon ororok sprok .
7a. lalok farok ororok lalok sprok izok enemok .
1b. at-voon bichat dat .
7b. wat jjat bichat wat dat vat eneat .
2a. ok-drubel ok-voon anok plok sprok .
8a. lalok brok anok plok nok .
2b. at-drubel at-voon pippat rrat dat .
8b. iat lat pippat rrat nnat .
3a. erok sprok izok hihok ghirok .
9a. wiwok nok izok kantok ok-yurp .
3b. totat dat arrat vat hilat .
4a. ok-voon anok drok brok jok .
9b. totat nnat quat oloat at-yurp .
10a. lalok mok nok yorok ghirok clok .
4b. at-voon krat pippat sat lat .
5a. wiwok farok izok stok .
10b. wat nnat gat mat bat hilat .
11a. lalok nok crrrok hihok yorok zanzanok .
5b. totat jjat quat cat .
6a. lalok sprok izok jok stok .
11b. wat nnat arrat mat zanzanat .
12a. lalok rarok nok izok hihok mok .
6b. wat dat krat quat cat .
12b. wat nnat forat arrat vat gat .
15. Como funciona?
Tradução baseada Modelos de Tradução
extraídos de textos paralelos
1a. Garcia and associates .
1b. Garcia e associados .
7a. the clients and the associates are enemies .
7b. os clientes e os associados são inimigos .
2a. Carlos Garcia has three associates .
2b. Carlos Garcia tem três associados .
8a. the company has three groups .
8b. a empresa tem três grupos .
3a. his associates are not strong .
3b. os seus associados não são fortes .
9a. its groups are in Europe .
9b. os seus grupos estão na Europa .
4a. Garcia has a company also .
4b. Garcia também tem uma empresa .
10a. the modern groups sell strong pharmaceuticals .
10b. os grupos modernos vendem remédios fortes .
5a. its clients are angry .
5b. os seus clientes estão zangados .
11a. the groups do not sell zenzanine .
11b. os grupos não vendem zanzanina .
6a. the associates are also angry .
6b. os associados também estão zangados .
12a. the small groups are not modern .
12b. os grupos pequenos não são modernos .
16. Como funciona?
Combinação de Modelos de Língua com Modelos
de Tradução
ˆ
T = argmax fluência(T)fidelidade(T, S)
T
Modelo de Língua
Modelo de Tradução
Estou cansado
Fluência
Fidelidade
I’m exhausted
5
3
Tired me
2
5
I love cookies
5
0
17. Tradução de Microblogs
A todos vocês apresento meu amigo Gabrielzinho, olha so o
vídeo que ele me mandou !!
18. Tradução de Microblogs
A todos vocês apresento meu amigo Gabrielzinho, olha so o
vídeo que ele me mandou !!
Google
Translate
To all of you my friend
Gabrielzinho present,
the video looks so he sent me!
19. Normalização de Microblogs
A todos vocês, apresento meu amigo Gabrielzinho, olha só o
vídeo que ele me mandou !!
Google
Translate
To all of you, I present
my friend Gabrielzinho,
look at the video he sent me!
20. Vale a pena traduzir tweets?
【2013.9.7】It was an important result for #Portugal in a
very special date for me. I would like to dedicate this
victory to my father that has left us 8 years ago. 这是一场
重要的胜利,在今天这个对我来说很特别的日子.我要把
这场胜利献给我的父亲,他八年前离开了我们.
A todos vocês apresento meu amigo Gabrielzinho, olha so o
vídeo que ele me mandou !! | To all of you i introduce my
friend Gabrielzinho. Take a look at the vídeo he sent me !! |
我给你们所有人介绍我朋友Gabrielzinho. 看看他给我发来
的视频 !! http://t.cn/SyaY6a
21. Desafios à Tradução Automática
– Tradução automática - não é um problema resolvido
– Aproximações ao problema:
• Sistemas estatísticos (SMT) - enormes quantidades de corpora paralelos
(inexistentes ou de má qualidade para muitas línguas)
• Sistemas por regras (RBMT) - grande investimento de tempo e recursos
humanos (= dinheiro)
– Novas linhas de investigação – construção de sistemas híbridos:
• Aplicação de modelos estatísticos a conhecimento linguístico
• Aplicação de técnicas estatísticas de alinhamento a sistemas de
regras
22. Modelo híbrido de Tradução Automática
(em curso)
– Novas tecnologias, recursos e técnicas, que contribuem para um
desenvolvimento mais fácil e rápido de novos pares de línguas.
• Computação em nuvem
• Grandes volumes de dados (big data )
• Técnicas avançadas de alinhamento
Aprendizagem automática
• Inteligência coletiva (crowdsourcing) especializada
para aumentar a qualidade da TA
23. Modelo híbrido de Tradução Automática
(em curso)
OpenLogos
• Alta qualidade, grande ênfase na semântica (análise da língua de forma
a ser “entendida” pelo sistema computacional)
• A aproximação assemelha-se em espírito à aproximação estatística - as
regras são aplicadas com base em padrões em contexto
• Componente de regras e representação linguística - plataforma ideal
para um sistema híbrido de TA linguisticamente mais sofisticado
• O conhecimento linguístico envolvido no sistema permite
complementar a TA estatística colmatando dificuldades e fraquezas
apresentadas pelos métodos estatísticos.
24. Modelo híbrido de Tradução Automática
(em curso)
– Processamento semântico
• Tabela Semântica (= SEMTAB) contém milhares de regras
transformacionais
– Características de interlíngua
– Linguagem de Abstração Semântico-Sintática (representação SAL)
• Taxonomia hierárquica com características ontológicas
• SAL é a força motriz do processo de tradução no sistema OpenLogos
• Todas as frases da língua natural (LN) que entram no sistema são
imediatamente convertidas para frases SAL
• O parser consegue melhores resultados do que um analisador
puramente sintático devido à SAL
25. Modelo híbrido de Tradução Automática
(em curso)
SAL - Semantico-syntactic Abstraction Language
Taxonomia SAL: 3 níveis, organizados hierarquicamente
Superconjuntos (supersets)/ Conjuntos (sets)/ Subconjuntos (subsets)
Continuum semântico-sintáctico da palavra da LN até à categoria gramatical (POS)
•
•
•
•
•
•
Palavra:
Morfema raíz:
SAL Subset:
SAL Set:
SAL Superset:
Categoria:
airport
port
Agfunc (agentive functional location)
func
(functional location)
PL
(place)
N
Tanto o fluxo de entrada, como as regras são expressas em SAL
26. Modelo híbrido de Tradução Automática
(em curso)
Linguagem de representação SAL em interação com SEMTAB
SEMTAB possibilita uma tradução que se sobrepõe à tradução do dicionário para o verbo “raise”
Sequência LN
Regra SEMTAB
raise a child
raise corn
raise the rent
V(‘raise’) N(ANdes)
V(‘raise’) N(MAedib)
V(‘raise’) N(MEabs)
Tradução em Português
criar. . .
cultivar. . .
aumentar. . .
27. Modelo híbrido de Tradução Automática
(em curso)
Uma única regra em estrutura profunda é mapeada a múltiplas
estruturas de superfície e produz traduções corretas na língua-alvo
he raised the rent
ele aumentou a renda
V+Objecto
the raising of the rent
the rent, raised by …
a rent raise
o aumento da renda
a renda, aumentada por…
um aumento de renda
Gerúndio
ADJ Part.
Substantivo
27
29. O projecto VITHEA
• O que é?
Terapeuta virtual para doentes com afasia.
Projecto financiado pela FCT, em conjunto com o
Hospital de Santa Maria
• Como funciona?
Reconhecimento (keyword spotting ) + Síntese A/V
• Alguns desafios:
– Dar aos terapeutas a possibilidade de monitorizarem
remotamente os exercícios dos seus doentes
– Dar-lhes a possibilidade de criarem novos exercícios
– Alargar a outras doenças (Alzheimer, Parkinson, ALS,…)
29
31. O projecto REAP.PT
• O que é?
Aplicação das tecnologias da língua à área do ensino da língua.
Projecto financiado pela FCT, em conjunto com a Univ. Carnegie Mellon
• Como funciona?
Usa virtualmente TODAS as tecnologias da língua
• Alguns desafios:
Tutores inteligentes para ensinar outras matérias
Gamificação
33