Slides from a ligthning talk on "Bigorna – a toolkit for orthography migration challenges", at 3T (Time Trial Talks), an event organized by CeSIUM (http://cesium.di.uminho.pt).
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Ferramentas Migração Ortografia
1. Projecto Bigorna
Andr´ Santos
e
pg15973@alunos.uminho.pt
Dep. Inform´tica, UM
a
13 de Abril de 2010
2. Projecto Bigorna
conjunto de ferramentas para desafios de migra¸˜o ortogr´fica
ca a
motivado pelo Acordo Ortogr´fico de 1990
a
projecto para o Sapo Summerbits 2009
evoluiu para problemas gen´ricos de migra¸˜es de grafias
e co
Andr´ Santos, MEI, UM
e
Jos´ Jo˜o Almeida, DI, UM
e a
Andr´ Santos, Jos´ Jo˜o Almeida, Alberto Sim˜es
e e a o Projecto Bigorna, Dep. Inform´tica, UMinho
a
3. Contexto - Acordo Ortogr´fico de 1990
a
altera¸˜es ditadas pelo acordo n˜o podem ser determinadas
co a
automaticamente porque se baseiam em crit´rios fon´ticos e
e e
por vezes podem ser amb´ ıguas;
´ importante manter uma Base de Conhecimento do Acordo
e
Ortogr´fico, uma tabela contendo lemas, altera¸˜es e regras
a co
baseada nas listas existentes;
Como determinar quais as palavras candidatas a integrar a
BCAO?
Andr´ Santos, Jos´ Jo˜o Almeida, Alberto Sim˜es
e e a o Projecto Bigorna, Dep. Inform´tica, UMinho
a
4. Trabalho desenvolvido
recolher recursos ligados ao AO1990
criar um corrector ortogr´fico para a actualiza¸˜o do
a ca
Portuguˆs
e
criar um conversor de textos para a nova vers˜o
a
criar um classificador de textos
construir ferramentas capazes de inferir regras de mudan¸a a
c
partir de bi-textos
Andr´ Santos, Jos´ Jo˜o Almeida, Alberto Sim˜es
e e a o Projecto Bigorna, Dep. Inform´tica, UMinho
a
5. Recursos
dicion´rios, conversores, listas de palavras
a
lista do ILTEC, com cerca de 9000 entradas
Andr´ Santos, Jos´ Jo˜o Almeida, Alberto Sim˜es
e e a o Projecto Bigorna, Dep. Inform´tica, UMinho
a
6. Lista do ILTEC
PT :: BR :: OA1990 :: prefPT :: prefBR :: Comm
ancil´ide :: ancil´ide :: anciloide :: anciloide :: anciloide ::
o o
ancir´ide :: ancir´ide :: anciroide :: anciroide :: anciroide ::
o o
androgin´ide :: androgin´ide :: androginoide :: androginoide :: androgin
o o
andr´ide :: andr´ide :: androide :: androide :: androide ::
o o
anec´ico :: anec´ico :: anecoico :: anecoico :: anecoico ::
o o
anel´ctrico :: anel´trico, anel´ctrico :: anel´trico, anel´ctrico ::
e e e e e
anel´trico :: anel´ctrico,anel´trico :: anel´ctrico nPT
e e e e
Andr´ Santos, Jos´ Jo˜o Almeida, Alberto Sim˜es
e e a o Projecto Bigorna, Dep. Inform´tica, UMinho
a
7. Actualiza¸˜o do dicion´rio
ca a
Ponto de partida: jspell (gerado na UM, propagado para
outros dicion´rios com o Chuveiro de Dicion´rios)
a a
actualiza¸˜o a partir da lista do ILTEC
ca
Depois de expandidas as actualiza¸˜es, foram obtidas 11500
co
palavras
Andr´ Santos, Jos´ Jo˜o Almeida, Alberto Sim˜es
e e a o Projecto Bigorna, Dep. Inform´tica, UMinho
a
8. jspell
acalentar/#vt/XYPLD/
coiote/#nm/p/
laico/#a/fidp/
zinco/#nm//
Andr´ Santos, Jos´ Jo˜o Almeida, Alberto Sim˜es
e e a o Projecto Bigorna, Dep. Inform´tica, UMinho
a
9. Ferramentas de convers˜o
a
dois conversores: pt2ptao e br2brao
usadas as regras de expans˜o do jspell e a lista do ILTEC
a
Andr´ Santos, Jos´ Jo˜o Almeida, Alberto Sim˜es
e e a o Projecto Bigorna, Dep. Inform´tica, UMinho
a
10. Convers˜o - Exemplo
a
$ pt2ptao
A adop¸~o do acordo implica a actualiza¸~o de algumas
ca ca
A ado¸~o do acordo implica a atualiza¸~o de algumas fe
ca ca
$ br2brao
Ele fez um v^o rasante sobre a ar´ia.
o e
Ele fez um voo rasante sobre a areia.
Andr´ Santos, Jos´ Jo˜o Almeida, Alberto Sim˜es
e e a o Projecto Bigorna, Dep. Inform´tica, UMinho
a
11. Classificador
procura cada palavra de um texto em dicion´rios PT-PT e
a
PT-BR
no fim, considera-se que o texto pertence ` linguagem que
a
fizer mais matches
Andr´ Santos, Jos´ Jo˜o Almeida, Alberto Sim˜es
e e a o Projecto Bigorna, Dep. Inform´tica, UMinho
a
12. Classifica¸˜o - Exemplo
ca
$ whichPT AmorPerd.ptPT AmorPerd.ptBR
AmorPerd.ptPT pt
AmorPerd.ptBR br
Andr´ Santos, Jos´ Jo˜o Almeida, Alberto Sim˜es
e e a o Projecto Bigorna, Dep. Inform´tica, UMinho
a
13. Compara¸˜o l´xica
ca e
ferramentas capazes de, atrav´s da an´lise de textos, construir
e a
programas para auxiliar em migra¸˜es
co
script para detectar diferen¸as lingu´
c ısticas entre duas vers˜es
o
de um texto
Andr´ Santos, Jos´ Jo˜o Almeida, Alberto Sim˜es
e e a o Projecto Bigorna, Dep. Inform´tica, UMinho
a
14. lexdiff - Exemplo
$ lexdiff -s -ac AmorPerd.ptPT AmorPerd.ptBR | head
32 acad´mico => acad^mico
e e
16 Vila Real => Vila-Real
14 ideia => id´ia
e
12 redarguiu => redarg¨iu
u
7 g´nio => g^nio
e e
6 cinquenta => cinq¨enta
u
5 Ant´nio => Ant^nio
o o
4 reflectiu => refletiu
4 projectos => projetos
Andr´ Santos, Jos´ Jo˜o Almeida, Alberto Sim˜es
e e a o Projecto Bigorna, Dep. Inform´tica, UMinho
a
15. lexdiff - Exemplo
$ lexdiff -s -ac AmorPerd.ptPT AmorPerd.ptBR | head
36 et => ect
34 d^m => d´m
e e
18 d´i => dei
e
17 g¨i => gui
u
15 q¨e => que
u
11 g^n => g´n
e e
9 m^n => m´n
o o
8 at => act
7 q¨i => qui
u
7 e¸ => ec¸
c c
Andr´ Santos, Jos´ Jo˜o Almeida, Alberto Sim˜es
e e a o Projecto Bigorna, Dep. Inform´tica, UMinho
a
16. Projecto Bigorna
Andr´ Santos
e
pg15973@alunos.uminho.pt
Dep. Inform´tica, UM
a
13 de Abril de 2010