O documento discute:
1. Uma abordagem computacional para prever o acento em palavras do português brasileiro usando modelos de n-gramas.
2. Uma análise de teorias existentes sobre o acento e um corpus de 40 mil palavras.
3. Os próximos passos incluem transcrever e acentuar as palavras para identificar padrões.
2. O projeto: Objetivos
1. Investigação do acento em um corpus ortográfico de 40 mil
palavras.
2. Análise das principais teorias do acento.
3. Estruturando a Abordagem Computacional: Modelo de N-gramas.
4. Próximos passos: as perspectivas de desenvolvimento do projeto
3. Acento no PB - Introdução
• Restrito as últimas três sílabas da palavra:
• Oxítonas: ‘caqui’, ‘sordidez’
• Paroxítonas: ‘corda’, ‘beleza’
• Proparoxítonas: ‘último’, ‘metódico’
• Comportamento previsível:
• ‘-inho(a)’, ‘-ável’, ‘-eza’, ‘-ico’
• Flexões verbais;
• Nomes não derivados morfologicamente apresentam um comportamento não
completamente previsível.
• Levando em conta o peso silábico:
• Acentuar a penúltima sílaba, porém última sílaba pesada atrai o acento.
4. Acento no PB – Wikipedia
• Corpus ortográfico wikipedia:
• Dicionário com 40.924 palavras listadas e já separadas de acordo com
categoria acentual.
TOTAL 40924 100%
Oxítonas 10183 25%
Paroxítonas 25967 63%
Proparoxítonas 4774 12%
5. Acento no PB - Comportamento
• Maioria das palavras se encaixa nesses dois grupos:
• Paroxítonas terminada em vogal (sílaba leve) [Pesquisa ER]
• Oxítonas terminadas em consoante (sílaba pesada) [Pesquisa ER]
Aproximadamente 70% das palavras estão representadas aqui.
Oxítonas 10183 100%
Oxít. Terminadas em C 7888 77%
Paroxítonas 25967 100%
Parox. Terminadas em V 20886 80%
6. Acento no PB - Comportamento
• Dos 30% que sobram:
• 12% são proparóxitonas
• 6% são oxítonas terminadas em vogal [consoante subjacente?]
• 12% são paroxítonas terminadas em consoantes [plural]
• Próximas etapas:
• Transcrever e acentuar as palavras.
• Informações morfológicas (remover plurais).
• Identificar se existem padrões nesses grupos “periféricos”.
7. Acento no PB – Abordagens teóricas
• Teoria Métrica:
• Bisol (1992):
Padrão-
• Sílaba pesada final atrai o acento.
• Caso a sílaba final não seja pesada, forme um constituinte binário com proêminencia à
esquerda (troqueu) partindo da borda direita da palavra.
No padrão estão as palavras oxítonas terminadas em consoante, paroxítonas
terminadas em vogal.
As proparoxítonas e as paroxítonas terminadas em consoante são marcadas
como extramétricas no léxico.
As oxítonas terminadas em vogal apresentam uma consoante abstrata final na
forma lexical [caféC – cafeZal]
8. Acento no PB – Abordagens teóricas
• Lee (1995):
• Acento depende de informações morfológicas.
• Não verbos:
• Padrão:
• Elemento mais a direita do radical da palavra.
(Paroxítonas terminadas em vogal, oxítonas)
• Exceções:
• No radical da palavra, derivar constituintes binários.
• O item proeminente do constituinte é o mais a esquerda do pé. (iambo)
• Não iterativo.
• Direita para Esquerda.
(Paroxítonas terminadas em consoante, proparoxítonas)
9. Acento no PB – Abordagens teóricas
• Lee (1995):
• Verbos:
• Padrão:
• Na forma final da palavra, faça constituintes binários.
• Elemento proeminente é o mais a esquerda do pé.
• Não iterativo.
• Direita para a esquerda.
(Paroxítonas e proparoxítonas)
• Exceções:
• Na forma final da palavra, o acento vai cair no elemento mais à direita.
• (Oxítonas)
• Partindo de informações morfológicas, deixa as marcações menos
arbitrárias, mas não as elimina.
10. Acento no PB - Análise
• Teorias analisadas postulam regras categóricas. Porém se não forem
aplicadas marcações lexicais individuais, elas só dão conta de uma
determinada porção do conjunto de palavras.
Próximas etapas:
• Medir a correção da aplicação das duas teorias num corpus sem
considerar as marcações de exceção.
11. Modelo de N-gramas – Introdução
• Previsão do tempo:
• Categorias de clima: Chuvoso, Nublado e Ensolarado.
• Podemos tentar prever o clima de amanhã aleatoriamente:
• Porém, se tivéssemos as informações climáticas do passado:
Clima de amanhã Chance de acertar
Chuvoso 33%
Nublado 33%
Ensolarado 33%
DIA 1 2 3 4 5 6 7 8 9 10
CLIMA SOL NUB SOL SOL NUB CHUV CHUV NUB CHUV SOL
12. Modelo de N-gramas – Introdução
• Poderíamos considerar o histórico para criar um modelo baseado nas
frequências, dando essa distribuição para as categorias:
• Apesar de ser um pouco mais informativo, nós podemos desenvolver um
modelo que também olha para o clima do dia de hoje:
DIA 11
CLIMA SOL
Clima de amanhã Frequência no Passado
(Chance de acertar)
Chuvoso 30%
Nublado 30%
Ensolarado 40%
13. Modelo de N-gramas – Introdução
• E então podemos criar o seguinte modelo de transição climática
levando em conta o clima de um dia para prever o clima do dia
seguinte:
• Baseado nessa tabela e acreditando na relevância do corpus
utilizado, podemos dizer que a previsão para o clima de amanhã é de
50% de chance de nublado, 50% de chance de ensolarado.
Clima do dia X -> Chuvoso Nublado Ensolarado
Clima do dia X+1 ↓
Chuvoso 1 (33%) 2 (66%) 0 (0%)
Nublado 1 (33%) 0 (0%) 2 (50%)
Ensolarado 1 (33%) 1 (33%) 2 (50%)
14. Modelo de N-gramas – Introdução
• O primeiro modelo, que considerava apenas as frequências, é uma
aplicação do modelo de Uni-gramas.
• O segundo, que considerava o segmento de dois dias para criar a
tabela de transição, é uma aplicação do modelo de Bi-gramas.
• O segundo é mais informativo que o primeiro, um modelo de tri-
gramas seria mais informativo ainda, mas o número de estados
possíveis é maior, o tamanho do corpus necessário para que a
informatividade seja relevante também é bem maior.
15. Modelo de N-gramas – Aplicação na Questão do Acento
• A ideia é criar um modelo de aprendizagem baseado em n-gramas,
que irá associar a cada segmento (no caso, cada som) uma
distribuição de probabilidades transicionais extraídas do corpus.
• No caso do acento, isso se dará da seguinte maneira:
• Uma palavra sem marcação de acento será apresentada ao programa
• Serão gerados os possíveis candidatos para a palavra sem marcação, e a cada
um será atribuído uma probabilidade baseado no modelo.
16. Modelo de N-gramas – Aplicação na Questão do Acento
EXEMPLO
• Input:
• ‘ca-lor’
• Candidatos:
1. ‘ca-lor’
2. ‘ca-lor’
Candidato 1:
bigramas: ca, a-, -l, lo, or
trigramas:ca-, a-l, -lo, lor
Candidato 2:
bigramas: ca, a-, -l, lo, or
trigramas: ca-, a-l, -lo, lor
17. Modelo de N-Gramas- O que é modelado?
• Um modelo simples de linguagem, em que a probabilidade de um
determinado segmento ocorrer depende apenas dos ‘n-1’ segmentos
anteriores.
• Abordagem indutiva da questão, é especialmente interessante ver o
comportamento dela nos casos em que as abordagens categoriais
marcam como exceções.
• Não é uma solução categorial. Porém é uma solução bastante barata
em termos computacionais, ao mesmo tempo é capaz de revelar
padrões locais e também se há algum tipo de atração do acento por
determinados fonemas/ contextos fonêmicos.
18. Próximos passos
• Continuar a desenvolver outra faceta da abordagem computacional
para a questão: um modelo de aprendizagem estatístico baseado em
um Classificador Bayesiano Ingênuo.
• Essa abordagem será capaz de atribuir probabilidades a diversas variáveis,
podendo incluir classes de palavra, peso silábico e também a localidade da
abordagem por n-gramas.
• Apesar de ser mais pesada computacionalmente, essa abordagem poderá
possibilitar a análise da relevância de diversos traços para a questão do
acento.
19. Bibliografia
• JURAFSKY, D. and MARTIN, J. (2008).
Speech and Language Processing.
Upper Saddle River, NJ: Prentice Hall.
• LEE, S.H (1995) – “Morfologia e
Fonologia lexical do Português
Brasileiro” – Tese de Doutorado –
UNICAMP
• BISOL, L. (Org.) (2010) . Introdução a
estudos de fonologia do português
brasileiro. 5º. ed. Porto Alegre:
ediPUCRS.
• BIRD, S., KLEIN, E. and LOPER, E.
(2009). Natural Language Processing
with Python. Sebastopol, CA: O’Reilly.
• NORVIG, P. (2011) On Chomsky and the
Two Cultures of Statistical Learning
http://norvig.com/chomsky.html