Processamento Automático da Língua Portuguesa: DevInSampa 2011
CoGrOO 4.0 no FISL 13
1. beta
CoGrOO 4.0
26 de julho de 2012
FISL 13
13º Fórum Internacional de Software Livre – A tecnologia que liberta
Arthur Branco Costa
William Colen
cogroo.org 1
2. O que é o CoGrOO?
CoGrOO é um corretor gramatical para
português do Brasil, que pode ser usado nas
principais suítes livres de escritório.
cogroo.org 2
3. ● Usuário entra um texto
● O verificador executa
uma análise
gramatical e busca
padrões de erros na
estrutura gerada
● O verificador sugere correções para o texto.
cogroo.org 3
7. Como funciona?
● Processamento de Linguagem Natural probabilística +
sistema de regras:
● Aprendizado de máquina usando corpus na fase de análise
● Regras de erros são aplicados nas estruturas resultantes
cogroo.org 7
8. Como funciona?
http://ccsl.ime.usp.br/cogroo/comunidade/grammar
cogroo.org 8
9. Como funciona?
http://ccsl.ime.usp.br/cogroo/comunidade/grammar
cogroo.org 9
10. Analisador de Textos
● Delimitador de sentenças e tokens
● Etiquetador morfológico
● Identificador de sintagmas
● Identificador de sujeitos
● Etc...
cogroo.org 10
11. Como funciona?
http://ccsl.ime.usp.br/cogroo/comunidade/rules
cogroo.org 11
12. As versões do CoGrOO
● CoGrOO 1.0 – 2005 (Poli-USP, FINEP)
● Perl – n-gramas
● Primeiro corretor gramatical integrado ao OO (no mundo!)
● Regras XML
● CoGrOO 2.0 – 2007 (Poli-USP, TCC)
● Primeira versão usando Java + OpenNLP
● CoGrOO 3.0 – 2009 (órfão, depois CCSL)
● Primeira versão totalmente integrada ao OO (instalador OXT, cobrinha
azul – OO 3.0)
● CoGrOO Comunidade
cogroo.org 12
13. CoGrOO 4.0 (2012)
● Nova licença: Apache 2.0 (antes era LGPL)
● Compatível tanto com o LibreOffice quanto com o Apache
OpenOffice
● Menores restrições de uso
cogroo.org 13
14. Novidades
● Núcleo reescrito do zero!
● Desde 2009 → colaboração com o Apache OpenNLP
– Grande parte do código de avaliação e treinamento foi transferido
para o Apache OpenNLP
● Benefícios:
– Maior qualidade na implementação (mais olhos)
– Menor quantidade de linhas de código para manutenção
– Maior proporção do código trata apenas de correção gramatical
Apache
cogroo.org 14
15. Novidades
● Regras plugáveis: checkers
● 3 tipos
– XML: arquivo de configuração
– Regras em Java
● Tipadas (deprecated)
● Livres
– Regras de regência (em implementação, participação de alunas da
UFMG)
cogroo.org 15
16. Novidades
● Novos recursos linguísticos (meu mestrado)
● Modelos linguíticos treinados com um novo corpus
● Novo dicionário (Jspell.br)
Ganho nas análises gramaticais!
cogroo.org 16
17. Novidades
● Repositório central Maven (quanto tivermos
release)
● Nova API
● Muito mais modular
● Pronta para novos idiomas!
● http://ccsl.ime.usp.br/redmine/projects/cogroo/wiki/API_CoGrOO_4x
cogroo.org 17