SlideShare une entreprise Scribd logo
1  sur  37
Télécharger pour lire hors ligne
technology
from seed

CONTRIBUTOS DAS TECNOLOGIA S DA LÍNGUA
PARA A GLOBALIZAÇÃO DO PORTUGUÊS
Isabel Trancoso

Luísa Coheur

Anabela Barreiro

Laboratório de Sistemas de Língua Falada (L2F)

Colóquio Português Língua Global
Centro de Estudos Lusíadas da Universidade do Minho

15 de novembro de 2013
Equipa

www.l2f.inesc-id-pt
2
L2F

Transcrição
Multimedia

Ensino à
distância
E-Learning

Saúde à
distância
E-Health

Diálogo

Tradução
Fala-parafala
Texto

3
Transcrição Multimédia

4
Transcrição Multimédia
• O que é?
A transcrição enriquecida é muito mais que a simples conversão
fala  texto
Há que incluir pontuação, capitalização, informação sobre mudança de
orador, tópico, língua, sotaque, emoção …
• Como funciona?
Segmentação áudio + Reconhecimento + Pontuação + Capitalização + …
• Alguns desafios:
•
•
•
•
•

Fala espontânea
Ruído ambiente / distância ao microfone
Sotaques muito marcados
Palavras fora do vocabulário
Domínios: Noticiários, aulas, reuniões, tribunais, …
5
L2F

Transcrição
Multimedia

Ensino à
distância
E-Learning

Saúde à
distância
E-Health

Diálogo

Tradução
Fala-parafala
Texto

6
O projecto FALACOMIGO
• O que é?
Projecto QREN, que teve como
um dos alvos a criação de um
agente que responde a perguntas
sobre Monserrate
• Como funciona?
Reconhecimento +
Compreensão de Língua Natural +
Síntese áudio-visual
• Alguns desafios:
•
•

Construção da base de Conhecimento
Variabilidade Linguística

7
O agente virtual Edgar Smith

8
Fala Comigo em Monserrate

9
Parceiros

10
L2F

Transcrição
Multimedia

Ensino à
distância
E-Learning

Saúde à
distância
E-Health

Diálogo

Tradução
Fala-parafala
Texto

11
O projecto PT-STAR
• O que é?
Projecto em cooperação com a CMU, que teve como alvo a tradução de
fala para fala de e para Português
• Como funciona?
Reconhecimento + Tradução Automática + Síntese
• Alguns desafios:
– Adaptação ao domínio
– Erros de reconhecimento

12
Como funciona?
Tradução de Centauri para Arcturan [Knight 97]
Traduzir para Arcturan: farok crrrok hihok yorok clok kantok ok-yurp
1a. ok-voon ororok sprok .

7a. lalok farok ororok lalok sprok izok enemok .

1b. at-voon bichat dat .

7b. wat jjat bichat wat dat vat eneat .

2a. ok-drubel ok-voon anok plok sprok .

8a. lalok brok anok plok nok .

2b. at-drubel at-voon pippat rrat dat .

8b. iat lat pippat rrat nnat .

3a. erok sprok izok hihok ghirok .

9a. wiwok nok izok kantok ok-yurp .

3b. totat dat arrat vat hilat .
4a. ok-voon anok drok brok jok .

9b. totat nnat quat oloat at-yurp .
10a. lalok mok nok yorok ghirok clok .

4b. at-voon krat pippat sat lat .
5a. wiwok farok izok stok .

10b. wat nnat gat mat bat hilat .
11a. lalok nok crrrok hihok yorok zanzanok .

5b. totat jjat quat cat .
6a. lalok sprok izok jok stok .

11b. wat nnat arrat mat zanzanat .
12a. lalok rarok nok izok hihok mok .

6b. wat dat krat quat cat .

12b. wat nnat forat arrat vat gat .
Como funciona?
Tradução de Centauri para Arcturan [Knight 97]
Traduzir para Arcturan: farok crrrok hihok yorok clok kantok ok-yurp
1a. ok-voon ororok sprok .

7a. lalok farok ororok lalok sprok izok enemok .

1b. at-voon bichat dat .

7b. wat jjat bichat wat dat vat eneat .

2a. ok-drubel ok-voon anok plok sprok .

8a. lalok brok anok plok nok .

2b. at-drubel at-voon pippat rrat dat .

8b. iat lat pippat rrat nnat .

3a. erok sprok izok hihok ghirok .

9a. wiwok nok izok kantok ok-yurp .

3b. totat dat arrat vat hilat .
4a. ok-voon anok drok brok jok .

9b. totat nnat quat oloat at-yurp .
10a. lalok mok nok yorok ghirok clok .

4b. at-voon krat pippat sat lat .
5a. wiwok farok izok stok .

10b. wat nnat gat mat bat hilat .
11a. lalok nok crrrok hihok yorok zanzanok .

5b. totat jjat quat cat .
6a. lalok sprok izok jok stok .

11b. wat nnat arrat mat zanzanat .
12a. lalok rarok nok izok hihok mok .

6b. wat dat krat quat cat .

12b. wat nnat forat arrat vat gat .
Como funciona?
Tradução baseada Modelos de Tradução
extraídos de textos paralelos
1a. Garcia and associates .
1b. Garcia e associados .

7a. the clients and the associates are enemies .
7b. os clientes e os associados são inimigos .

2a. Carlos Garcia has three associates .
2b. Carlos Garcia tem três associados .

8a. the company has three groups .
8b. a empresa tem três grupos .

3a. his associates are not strong .
3b. os seus associados não são fortes .

9a. its groups are in Europe .
9b. os seus grupos estão na Europa .

4a. Garcia has a company also .
4b. Garcia também tem uma empresa .

10a. the modern groups sell strong pharmaceuticals .
10b. os grupos modernos vendem remédios fortes .

5a. its clients are angry .
5b. os seus clientes estão zangados .

11a. the groups do not sell zenzanine .
11b. os grupos não vendem zanzanina .

6a. the associates are also angry .
6b. os associados também estão zangados .

12a. the small groups are not modern .
12b. os grupos pequenos não são modernos .
Como funciona?
Combinação de Modelos de Língua com Modelos
de Tradução
ˆ
T = argmax fluência(T)fidelidade(T, S)
T

Modelo de Língua

Modelo de Tradução

Estou cansado

Fluência

Fidelidade

I’m exhausted

5

3

Tired me

2

5

I love cookies

5

0
Tradução de Microblogs
A todos vocês apresento meu amigo Gabrielzinho, olha so o
vídeo que ele me mandou !!
Tradução de Microblogs
A todos vocês apresento meu amigo Gabrielzinho, olha so o
vídeo que ele me mandou !!
Google
Translate

To all of you my friend
Gabrielzinho present,
the video looks so he sent me!
Normalização de Microblogs
A todos vocês, apresento meu amigo Gabrielzinho, olha só o
vídeo que ele me mandou !!
Google
Translate

To all of you, I present
my friend Gabrielzinho,
look at the video he sent me!
Vale a pena traduzir tweets?
【2013.9.7】It was an important result for #Portugal in a
very special date for me. I would like to dedicate this
victory to my father that has left us 8 years ago. 这是一场
重要的胜利,在今天这个对我来说很特别的日子.我要把
这场胜利献给我的父亲,他八年前离开了我们.

A todos vocês apresento meu amigo Gabrielzinho, olha so o
vídeo que ele me mandou !! | To all of you i introduce my
friend Gabrielzinho. Take a look at the vídeo he sent me !! |
我给你们所有人介绍我朋友Gabrielzinho. 看看他给我发来
的视频 !! http://t.cn/SyaY6a
Desafios à Tradução Automática
– Tradução automática - não é um problema resolvido
– Aproximações ao problema:
• Sistemas estatísticos (SMT) - enormes quantidades de corpora paralelos
(inexistentes ou de má qualidade para muitas línguas)
• Sistemas por regras (RBMT) - grande investimento de tempo e recursos
humanos (= dinheiro)
– Novas linhas de investigação – construção de sistemas híbridos:
• Aplicação de modelos estatísticos a conhecimento linguístico
• Aplicação de técnicas estatísticas de alinhamento a sistemas de
regras
Modelo híbrido de Tradução Automática
(em curso)
– Novas tecnologias, recursos e técnicas, que contribuem para um
desenvolvimento mais fácil e rápido de novos pares de línguas.
• Computação em nuvem

• Grandes volumes de dados (big data )

• Técnicas avançadas de alinhamento
Aprendizagem automática
• Inteligência coletiva (crowdsourcing) especializada
para aumentar a qualidade da TA
Modelo híbrido de Tradução Automática
(em curso)
OpenLogos
• Alta qualidade, grande ênfase na semântica (análise da língua de forma

a ser “entendida” pelo sistema computacional)
• A aproximação assemelha-se em espírito à aproximação estatística - as
regras são aplicadas com base em padrões em contexto

• Componente de regras e representação linguística - plataforma ideal
para um sistema híbrido de TA linguisticamente mais sofisticado
• O conhecimento linguístico envolvido no sistema permite

complementar a TA estatística colmatando dificuldades e fraquezas
apresentadas pelos métodos estatísticos.
Modelo híbrido de Tradução Automática
(em curso)
– Processamento semântico
• Tabela Semântica (= SEMTAB) contém milhares de regras

transformacionais
– Características de interlíngua
– Linguagem de Abstração Semântico-Sintática (representação SAL)

• Taxonomia hierárquica com características ontológicas
• SAL é a força motriz do processo de tradução no sistema OpenLogos
• Todas as frases da língua natural (LN) que entram no sistema são

imediatamente convertidas para frases SAL
• O parser consegue melhores resultados do que um analisador
puramente sintático devido à SAL
Modelo híbrido de Tradução Automática
(em curso)
SAL - Semantico-syntactic Abstraction Language

Taxonomia SAL: 3 níveis, organizados hierarquicamente
Superconjuntos (supersets)/ Conjuntos (sets)/ Subconjuntos (subsets)
Continuum semântico-sintáctico da palavra da LN até à categoria gramatical (POS)
•
•
•
•
•
•

Palavra:
Morfema raíz:
SAL Subset:
SAL Set:
SAL Superset:
Categoria:

airport
port
Agfunc (agentive functional location)
func
(functional location)
PL
(place)
N

Tanto o fluxo de entrada, como as regras são expressas em SAL
Modelo híbrido de Tradução Automática
(em curso)
Linguagem de representação SAL em interação com SEMTAB
SEMTAB possibilita uma tradução que se sobrepõe à tradução do dicionário para o verbo “raise”

Sequência LN

Regra SEMTAB

raise a child
raise corn
raise the rent

 V(‘raise’) N(ANdes)
 V(‘raise’) N(MAedib)
 V(‘raise’) N(MEabs)

Tradução em Português




criar. . .
cultivar. . .
aumentar. . .
Modelo híbrido de Tradução Automática
(em curso)

Uma única regra em estrutura profunda é mapeada a múltiplas
estruturas de superfície e produz traduções corretas na língua-alvo

he raised the rent



ele aumentou a renda

V+Objecto

the raising of the rent
the rent, raised by …
a rent raise





o aumento da renda
a renda, aumentada por…
um aumento de renda

Gerúndio
ADJ Part.
Substantivo

27
L2F

Transcrição
Multimedia

Ensino à
distância
E-Learning

Saúde à
distância
E-Health

Diálogo

Tradução
Fala-parafala
Texto

28
O projecto VITHEA
• O que é?
Terapeuta virtual para doentes com afasia.
Projecto financiado pela FCT, em conjunto com o
Hospital de Santa Maria
• Como funciona?
Reconhecimento (keyword spotting ) + Síntese A/V
• Alguns desafios:
– Dar aos terapeutas a possibilidade de monitorizarem
remotamente os exercícios dos seus doentes
– Dar-lhes a possibilidade de criarem novos exercícios
– Alargar a outras doenças (Alzheimer, Parkinson, ALS,…)

29
L2F

Transcrição
Multimedia

Ensino à
distância
E-Learning

Saúde à
distância
E-Health

Diálogo

Tradução
Fala-parafala
Texto

32
O projecto REAP.PT
• O que é?
Aplicação das tecnologias da língua à área do ensino da língua.
Projecto financiado pela FCT, em conjunto com a Univ. Carnegie Mellon
• Como funciona?
Usa virtualmente TODAS as tecnologias da língua
• Alguns desafios:
Tutores inteligentes para ensinar outras matérias
Gamificação

33
REAP.PT
.

34
REAP.PT
Cooperação com Carnegie Mellon Univ.

35
Jogos sérios

36
Jogos sérios
A

B

C

D

E

37
L2F

Transcrição
Multimedia

Ensino à
distância
E-Learning

Saúde à
distância
E-Health

Diálogo

Tradução
Fala-parafala
Texto

39
Obrigada!

40

Contenu connexe

Similaire à Contributos das Tecnologias da Língua para a Globalização do Português

Erlang e Elixir por uma web mais feliz
Erlang e Elixir por uma web mais felizErlang e Elixir por uma web mais feliz
Erlang e Elixir por uma web mais feliz
Bruno Henrique - Garu
 
Apresentação Dicionário 22
Apresentação  Dicionário 22Apresentação  Dicionário 22
Apresentação Dicionário 22
esteribeiroc
 

Similaire à Contributos das Tecnologias da Língua para a Globalização do Português (18)

Introdução a iOS (grupo de estudos iStudies)
Introdução a iOS (grupo de estudos iStudies)Introdução a iOS (grupo de estudos iStudies)
Introdução a iOS (grupo de estudos iStudies)
 
Swift em 45 minutos - TDC Sao Paulo 2014
Swift em 45 minutos - TDC Sao Paulo 2014Swift em 45 minutos - TDC Sao Paulo 2014
Swift em 45 minutos - TDC Sao Paulo 2014
 
#DNAD15 - Diminuindo sofrimento com código legado de linguagens não mainstreams
#DNAD15  - Diminuindo sofrimento com código legado de linguagens não mainstreams#DNAD15  - Diminuindo sofrimento com código legado de linguagens não mainstreams
#DNAD15 - Diminuindo sofrimento com código legado de linguagens não mainstreams
 
TDC SP 2015 - PHP7: melhor e mais rápido
TDC SP 2015 - PHP7: melhor e mais rápidoTDC SP 2015 - PHP7: melhor e mais rápido
TDC SP 2015 - PHP7: melhor e mais rápido
 
Assembly
AssemblyAssembly
Assembly
 
Brandon, um ChatBot com NLP em Ruby
Brandon, um ChatBot com NLP em RubyBrandon, um ChatBot com NLP em Ruby
Brandon, um ChatBot com NLP em Ruby
 
O corretor gramatical CoGrOO - IX Evidosol
O corretor gramatical CoGrOO - IX EvidosolO corretor gramatical CoGrOO - IX Evidosol
O corretor gramatical CoGrOO - IX Evidosol
 
As ferramentas, os percursos e as estratégias de tradução no universo digital...
As ferramentas, os percursos e as estratégias de tradução no universo digital...As ferramentas, os percursos e as estratégias de tradução no universo digital...
As ferramentas, os percursos e as estratégias de tradução no universo digital...
 
Estrutura de Dados - Aula 01
Estrutura de Dados - Aula 01Estrutura de Dados - Aula 01
Estrutura de Dados - Aula 01
 
Evolução cultural: Criando times de alto desempenho no Elo7
Evolução cultural: Criando times de alto desempenho no Elo7Evolução cultural: Criando times de alto desempenho no Elo7
Evolução cultural: Criando times de alto desempenho no Elo7
 
Curso alglin livro
Curso alglin livroCurso alglin livro
Curso alglin livro
 
#tbt do PHP, a evolução da linguagem nos últimos 10 anos
#tbt do PHP, a evolução da linguagem nos últimos 10 anos#tbt do PHP, a evolução da linguagem nos últimos 10 anos
#tbt do PHP, a evolução da linguagem nos últimos 10 anos
 
Erlang e Elixir por uma web mais feliz
Erlang e Elixir por uma web mais felizErlang e Elixir por uma web mais feliz
Erlang e Elixir por uma web mais feliz
 
Além da programação funcional com Elixir e Erlang
Além da programação funcional com Elixir e ErlangAlém da programação funcional com Elixir e Erlang
Além da programação funcional com Elixir e Erlang
 
Sistemas de Processamento de Linguagem Natural na Prática
Sistemas de Processamento de Linguagem Natural na PráticaSistemas de Processamento de Linguagem Natural na Prática
Sistemas de Processamento de Linguagem Natural na Prática
 
DicionáRio
DicionáRioDicionáRio
DicionáRio
 
Apresentação Dicionário 22
Apresentação  Dicionário 22Apresentação  Dicionário 22
Apresentação Dicionário 22
 
Desenvolvimento Client-Side 2016 (BrazilJS)
Desenvolvimento Client-Side 2016 (BrazilJS)Desenvolvimento Client-Side 2016 (BrazilJS)
Desenvolvimento Client-Side 2016 (BrazilJS)
 

Plus de INESC-ID (Spoken Language Systems Laboratory - L2F)

Análise comparativa das edições portuguesa e brasileira de Os livros que dev...
Análise comparativa das edições portuguesa e brasileira de  Os livros que dev...Análise comparativa das edições portuguesa e brasileira de  Os livros que dev...
Análise comparativa das edições portuguesa e brasileira de Os livros que dev...
INESC-ID (Spoken Language Systems Laboratory - L2F)
 
Barreiro et al POP@PROPOR2018-informal2formal-language
Barreiro et al POP@PROPOR2018-informal2formal-languageBarreiro et al POP@PROPOR2018-informal2formal-language
Barreiro et al POP@PROPOR2018-informal2formal-language
INESC-ID (Spoken Language Systems Laboratory - L2F)
 
Barreiro-Mota-VarDial@Coling2018-poster
Barreiro-Mota-VarDial@Coling2018-posterBarreiro-Mota-VarDial@Coling2018-poster
Barreiro-Mota-VarDial@Coling2018-poster
INESC-ID (Spoken Language Systems Laboratory - L2F)
 

Plus de INESC-ID (Spoken Language Systems Laboratory - L2F) (20)

Multi3Generation@INGL2020
Multi3Generation@INGL2020Multi3Generation@INGL2020
Multi3Generation@INGL2020
 
NooJ 2020 presentation
NooJ 2020 presentationNooJ 2020 presentation
NooJ 2020 presentation
 
PROPOR2020_Barreiroetal
PROPOR2020_BarreiroetalPROPOR2020_Barreiroetal
PROPOR2020_Barreiroetal
 
Análise comparativa das edições portuguesa e brasileira de Os livros que dev...
Análise comparativa das edições portuguesa e brasileira de  Os livros que dev...Análise comparativa das edições portuguesa e brasileira de  Os livros que dev...
Análise comparativa das edições portuguesa e brasileira de Os livros que dev...
 
Welcome session 3rd Annual MC Meeting - enetCollect COST Action
Welcome session 3rd Annual MC Meeting - enetCollect COST ActionWelcome session 3rd Annual MC Meeting - enetCollect COST Action
Welcome session 3rd Annual MC Meeting - enetCollect COST Action
 
Syntactic-semantic analysis for information extraction in biomedicine
Syntactic-semantic analysis for information extraction in biomedicineSyntactic-semantic analysis for information extraction in biomedicine
Syntactic-semantic analysis for information extraction in biomedicine
 
Cross language semantic relations between English and Portuguese
Cross language semantic relations between English and PortugueseCross language semantic relations between English and Portuguese
Cross language semantic relations between English and Portuguese
 
Paraphrasing biomedical support verb constructions for machine translation
Paraphrasing biomedical support verb constructions for machine translationParaphrasing biomedical support verb constructions for machine translation
Paraphrasing biomedical support verb constructions for machine translation
 
ReWriter for legal text
ReWriter for legal textReWriter for legal text
ReWriter for legal text
 
Chatbots for Language Learning
Chatbots for Language LearningChatbots for Language Learning
Chatbots for Language Learning
 
eSPERTo’s Paraphrastic Knowledge Applied to Question-Answering and Summarization
eSPERTo’s Paraphrastic Knowledge Applied to Question-Answering and SummarizationeSPERTo’s Paraphrastic Knowledge Applied to Question-Answering and Summarization
eSPERTo’s Paraphrastic Knowledge Applied to Question-Answering and Summarization
 
Barreiro et al POP@PROPOR2018-informal2formal-language
Barreiro et al POP@PROPOR2018-informal2formal-languageBarreiro et al POP@PROPOR2018-informal2formal-language
Barreiro et al POP@PROPOR2018-informal2formal-language
 
Rebelo-Arnold et al POP@PROPOR2018-EP-BP-alignments
Rebelo-Arnold et al POP@PROPOR2018-EP-BP-alignmentsRebelo-Arnold et al POP@PROPOR2018-EP-BP-alignments
Rebelo-Arnold et al POP@PROPOR2018-EP-BP-alignments
 
Barreiro-Batista-LR4NLP@Coling2018-presentation
Barreiro-Batista-LR4NLP@Coling2018-presentationBarreiro-Batista-LR4NLP@Coling2018-presentation
Barreiro-Batista-LR4NLP@Coling2018-presentation
 
Barreiro-Mota-VarDial@Coling2018-poster
Barreiro-Mota-VarDial@Coling2018-posterBarreiro-Mota-VarDial@Coling2018-poster
Barreiro-Mota-VarDial@Coling2018-poster
 
NooJ-2018-Palermo
NooJ-2018-PalermoNooJ-2018-Palermo
NooJ-2018-Palermo
 
Poster @ enetCollect CA MC meeting in Iasi, Romania
Poster @ enetCollect CA MC meeting in Iasi, Romania Poster @ enetCollect CA MC meeting in Iasi, Romania
Poster @ enetCollect CA MC meeting in Iasi, Romania
 
projeto-eSPERTo
projeto-eSPERToprojeto-eSPERTo
projeto-eSPERTo
 
ReEscreve: A Translator-Friendly Multi-Purpose Paraphrasing Software Tool
ReEscreve: A Translator-Friendly Multi-Purpose Paraphrasing Software ToolReEscreve: A Translator-Friendly Multi-Purpose Paraphrasing Software Tool
ReEscreve: A Translator-Friendly Multi-Purpose Paraphrasing Software Tool
 
Poster l2f 2017
Poster l2f 2017Poster l2f 2017
Poster l2f 2017
 

Dernier

Dernier (6)

Padrões de Projeto: Proxy e Command com exemplo
Padrões de Projeto: Proxy e Command com exemploPadrões de Projeto: Proxy e Command com exemplo
Padrões de Projeto: Proxy e Command com exemplo
 
ATIVIDADE 1 - LOGÍSTICA EMPRESARIAL - 52_2024.docx
ATIVIDADE 1 - LOGÍSTICA EMPRESARIAL - 52_2024.docxATIVIDADE 1 - LOGÍSTICA EMPRESARIAL - 52_2024.docx
ATIVIDADE 1 - LOGÍSTICA EMPRESARIAL - 52_2024.docx
 
ATIVIDADE 1 - ESTRUTURA DE DADOS II - 52_2024.docx
ATIVIDADE 1 - ESTRUTURA DE DADOS II - 52_2024.docxATIVIDADE 1 - ESTRUTURA DE DADOS II - 52_2024.docx
ATIVIDADE 1 - ESTRUTURA DE DADOS II - 52_2024.docx
 
Boas práticas de programação com Object Calisthenics
Boas práticas de programação com Object CalisthenicsBoas práticas de programação com Object Calisthenics
Boas práticas de programação com Object Calisthenics
 
ATIVIDADE 1 - CUSTOS DE PRODUÇÃO - 52_2024.docx
ATIVIDADE 1 - CUSTOS DE PRODUÇÃO - 52_2024.docxATIVIDADE 1 - CUSTOS DE PRODUÇÃO - 52_2024.docx
ATIVIDADE 1 - CUSTOS DE PRODUÇÃO - 52_2024.docx
 
ATIVIDADE 1 - GCOM - GESTÃO DA INFORMAÇÃO - 54_2024.docx
ATIVIDADE 1 - GCOM - GESTÃO DA INFORMAÇÃO - 54_2024.docxATIVIDADE 1 - GCOM - GESTÃO DA INFORMAÇÃO - 54_2024.docx
ATIVIDADE 1 - GCOM - GESTÃO DA INFORMAÇÃO - 54_2024.docx
 

Contributos das Tecnologias da Língua para a Globalização do Português

  • 1. technology from seed CONTRIBUTOS DAS TECNOLOGIA S DA LÍNGUA PARA A GLOBALIZAÇÃO DO PORTUGUÊS Isabel Trancoso Luísa Coheur Anabela Barreiro Laboratório de Sistemas de Língua Falada (L2F) Colóquio Português Língua Global Centro de Estudos Lusíadas da Universidade do Minho 15 de novembro de 2013
  • 5. Transcrição Multimédia • O que é? A transcrição enriquecida é muito mais que a simples conversão fala  texto Há que incluir pontuação, capitalização, informação sobre mudança de orador, tópico, língua, sotaque, emoção … • Como funciona? Segmentação áudio + Reconhecimento + Pontuação + Capitalização + … • Alguns desafios: • • • • • Fala espontânea Ruído ambiente / distância ao microfone Sotaques muito marcados Palavras fora do vocabulário Domínios: Noticiários, aulas, reuniões, tribunais, … 5
  • 7. O projecto FALACOMIGO • O que é? Projecto QREN, que teve como um dos alvos a criação de um agente que responde a perguntas sobre Monserrate • Como funciona? Reconhecimento + Compreensão de Língua Natural + Síntese áudio-visual • Alguns desafios: • • Construção da base de Conhecimento Variabilidade Linguística 7
  • 8. O agente virtual Edgar Smith 8
  • 9. Fala Comigo em Monserrate 9
  • 12. O projecto PT-STAR • O que é? Projecto em cooperação com a CMU, que teve como alvo a tradução de fala para fala de e para Português • Como funciona? Reconhecimento + Tradução Automática + Síntese • Alguns desafios: – Adaptação ao domínio – Erros de reconhecimento 12
  • 13. Como funciona? Tradução de Centauri para Arcturan [Knight 97] Traduzir para Arcturan: farok crrrok hihok yorok clok kantok ok-yurp 1a. ok-voon ororok sprok . 7a. lalok farok ororok lalok sprok izok enemok . 1b. at-voon bichat dat . 7b. wat jjat bichat wat dat vat eneat . 2a. ok-drubel ok-voon anok plok sprok . 8a. lalok brok anok plok nok . 2b. at-drubel at-voon pippat rrat dat . 8b. iat lat pippat rrat nnat . 3a. erok sprok izok hihok ghirok . 9a. wiwok nok izok kantok ok-yurp . 3b. totat dat arrat vat hilat . 4a. ok-voon anok drok brok jok . 9b. totat nnat quat oloat at-yurp . 10a. lalok mok nok yorok ghirok clok . 4b. at-voon krat pippat sat lat . 5a. wiwok farok izok stok . 10b. wat nnat gat mat bat hilat . 11a. lalok nok crrrok hihok yorok zanzanok . 5b. totat jjat quat cat . 6a. lalok sprok izok jok stok . 11b. wat nnat arrat mat zanzanat . 12a. lalok rarok nok izok hihok mok . 6b. wat dat krat quat cat . 12b. wat nnat forat arrat vat gat .
  • 14. Como funciona? Tradução de Centauri para Arcturan [Knight 97] Traduzir para Arcturan: farok crrrok hihok yorok clok kantok ok-yurp 1a. ok-voon ororok sprok . 7a. lalok farok ororok lalok sprok izok enemok . 1b. at-voon bichat dat . 7b. wat jjat bichat wat dat vat eneat . 2a. ok-drubel ok-voon anok plok sprok . 8a. lalok brok anok plok nok . 2b. at-drubel at-voon pippat rrat dat . 8b. iat lat pippat rrat nnat . 3a. erok sprok izok hihok ghirok . 9a. wiwok nok izok kantok ok-yurp . 3b. totat dat arrat vat hilat . 4a. ok-voon anok drok brok jok . 9b. totat nnat quat oloat at-yurp . 10a. lalok mok nok yorok ghirok clok . 4b. at-voon krat pippat sat lat . 5a. wiwok farok izok stok . 10b. wat nnat gat mat bat hilat . 11a. lalok nok crrrok hihok yorok zanzanok . 5b. totat jjat quat cat . 6a. lalok sprok izok jok stok . 11b. wat nnat arrat mat zanzanat . 12a. lalok rarok nok izok hihok mok . 6b. wat dat krat quat cat . 12b. wat nnat forat arrat vat gat .
  • 15. Como funciona? Tradução baseada Modelos de Tradução extraídos de textos paralelos 1a. Garcia and associates . 1b. Garcia e associados . 7a. the clients and the associates are enemies . 7b. os clientes e os associados são inimigos . 2a. Carlos Garcia has three associates . 2b. Carlos Garcia tem três associados . 8a. the company has three groups . 8b. a empresa tem três grupos . 3a. his associates are not strong . 3b. os seus associados não são fortes . 9a. its groups are in Europe . 9b. os seus grupos estão na Europa . 4a. Garcia has a company also . 4b. Garcia também tem uma empresa . 10a. the modern groups sell strong pharmaceuticals . 10b. os grupos modernos vendem remédios fortes . 5a. its clients are angry . 5b. os seus clientes estão zangados . 11a. the groups do not sell zenzanine . 11b. os grupos não vendem zanzanina . 6a. the associates are also angry . 6b. os associados também estão zangados . 12a. the small groups are not modern . 12b. os grupos pequenos não são modernos .
  • 16. Como funciona? Combinação de Modelos de Língua com Modelos de Tradução ˆ T = argmax fluência(T)fidelidade(T, S) T Modelo de Língua Modelo de Tradução Estou cansado Fluência Fidelidade I’m exhausted 5 3 Tired me 2 5 I love cookies 5 0
  • 17. Tradução de Microblogs A todos vocês apresento meu amigo Gabrielzinho, olha so o vídeo que ele me mandou !!
  • 18. Tradução de Microblogs A todos vocês apresento meu amigo Gabrielzinho, olha so o vídeo que ele me mandou !! Google Translate To all of you my friend Gabrielzinho present, the video looks so he sent me!
  • 19. Normalização de Microblogs A todos vocês, apresento meu amigo Gabrielzinho, olha só o vídeo que ele me mandou !! Google Translate To all of you, I present my friend Gabrielzinho, look at the video he sent me!
  • 20. Vale a pena traduzir tweets? 【2013.9.7】It was an important result for #Portugal in a very special date for me. I would like to dedicate this victory to my father that has left us 8 years ago. 这是一场 重要的胜利,在今天这个对我来说很特别的日子.我要把 这场胜利献给我的父亲,他八年前离开了我们. A todos vocês apresento meu amigo Gabrielzinho, olha so o vídeo que ele me mandou !! | To all of you i introduce my friend Gabrielzinho. Take a look at the vídeo he sent me !! | 我给你们所有人介绍我朋友Gabrielzinho. 看看他给我发来 的视频 !! http://t.cn/SyaY6a
  • 21. Desafios à Tradução Automática – Tradução automática - não é um problema resolvido – Aproximações ao problema: • Sistemas estatísticos (SMT) - enormes quantidades de corpora paralelos (inexistentes ou de má qualidade para muitas línguas) • Sistemas por regras (RBMT) - grande investimento de tempo e recursos humanos (= dinheiro) – Novas linhas de investigação – construção de sistemas híbridos: • Aplicação de modelos estatísticos a conhecimento linguístico • Aplicação de técnicas estatísticas de alinhamento a sistemas de regras
  • 22. Modelo híbrido de Tradução Automática (em curso) – Novas tecnologias, recursos e técnicas, que contribuem para um desenvolvimento mais fácil e rápido de novos pares de línguas. • Computação em nuvem • Grandes volumes de dados (big data ) • Técnicas avançadas de alinhamento Aprendizagem automática • Inteligência coletiva (crowdsourcing) especializada para aumentar a qualidade da TA
  • 23. Modelo híbrido de Tradução Automática (em curso) OpenLogos • Alta qualidade, grande ênfase na semântica (análise da língua de forma a ser “entendida” pelo sistema computacional) • A aproximação assemelha-se em espírito à aproximação estatística - as regras são aplicadas com base em padrões em contexto • Componente de regras e representação linguística - plataforma ideal para um sistema híbrido de TA linguisticamente mais sofisticado • O conhecimento linguístico envolvido no sistema permite complementar a TA estatística colmatando dificuldades e fraquezas apresentadas pelos métodos estatísticos.
  • 24. Modelo híbrido de Tradução Automática (em curso) – Processamento semântico • Tabela Semântica (= SEMTAB) contém milhares de regras transformacionais – Características de interlíngua – Linguagem de Abstração Semântico-Sintática (representação SAL) • Taxonomia hierárquica com características ontológicas • SAL é a força motriz do processo de tradução no sistema OpenLogos • Todas as frases da língua natural (LN) que entram no sistema são imediatamente convertidas para frases SAL • O parser consegue melhores resultados do que um analisador puramente sintático devido à SAL
  • 25. Modelo híbrido de Tradução Automática (em curso) SAL - Semantico-syntactic Abstraction Language Taxonomia SAL: 3 níveis, organizados hierarquicamente Superconjuntos (supersets)/ Conjuntos (sets)/ Subconjuntos (subsets) Continuum semântico-sintáctico da palavra da LN até à categoria gramatical (POS) • • • • • • Palavra: Morfema raíz: SAL Subset: SAL Set: SAL Superset: Categoria: airport port Agfunc (agentive functional location) func (functional location) PL (place) N Tanto o fluxo de entrada, como as regras são expressas em SAL
  • 26. Modelo híbrido de Tradução Automática (em curso) Linguagem de representação SAL em interação com SEMTAB SEMTAB possibilita uma tradução que se sobrepõe à tradução do dicionário para o verbo “raise” Sequência LN Regra SEMTAB raise a child raise corn raise the rent  V(‘raise’) N(ANdes)  V(‘raise’) N(MAedib)  V(‘raise’) N(MEabs) Tradução em Português    criar. . . cultivar. . . aumentar. . .
  • 27. Modelo híbrido de Tradução Automática (em curso) Uma única regra em estrutura profunda é mapeada a múltiplas estruturas de superfície e produz traduções corretas na língua-alvo he raised the rent  ele aumentou a renda V+Objecto the raising of the rent the rent, raised by … a rent raise    o aumento da renda a renda, aumentada por… um aumento de renda Gerúndio ADJ Part. Substantivo 27
  • 29. O projecto VITHEA • O que é? Terapeuta virtual para doentes com afasia. Projecto financiado pela FCT, em conjunto com o Hospital de Santa Maria • Como funciona? Reconhecimento (keyword spotting ) + Síntese A/V • Alguns desafios: – Dar aos terapeutas a possibilidade de monitorizarem remotamente os exercícios dos seus doentes – Dar-lhes a possibilidade de criarem novos exercícios – Alargar a outras doenças (Alzheimer, Parkinson, ALS,…) 29
  • 31. O projecto REAP.PT • O que é? Aplicação das tecnologias da língua à área do ensino da língua. Projecto financiado pela FCT, em conjunto com a Univ. Carnegie Mellon • Como funciona? Usa virtualmente TODAS as tecnologias da língua • Alguns desafios: Tutores inteligentes para ensinar outras matérias Gamificação 33