O documento discute a linguística computacional e sua aplicação na recuperação da informação. Apresenta como a linguagem é fundamental para a transferência de conhecimento, direta ou indiretamente, e como a linguística computacional pode ser usada para organizar e recuperar informações através de resumos automáticos, indexação e mineração de textos. Também descreve brevemente o trabalho do NILC com o português brasileiro.
2. Transferência de Conhecimento
• A transferência de conhecimento entre
humanos ocorre de duas maneiras principais:
– Diretamente
• Pessoa a pessoa, por socialização (conversas não
registradas, emissão e percepção de mensagens
corporais)
– Indiretamente
• Por registros, que guardam um fato, uma ideia, um
evento (Imagens, Livros, Revistas, Áudio, Vídeo)
2
3. A Transferência do Conhecimento
Ocorre por Meio da Linguagem
• Linguagem
– Matemática
– Programação de Computadores
– Corporal
– Cinematográfica
– A Linguagem Natural (Língua)
• Na transferência de conhecimento sem registro
• Na transferência de conhecimento com registro
(documento)
3
4. A Informação Imagética Substitui a
Linguística ?
“Se uma imagem vale mais do que mil palavras,
então diga isto com uma imagem.”
Millôr Fernandes
• A língua está presente:
• Nas páginas WEB, redes sociais, artigos
• Vídeos
• Imagens
• Informação Multimodal
4
5. A Ciência Linguística
“Estudo científico da língua. Investigação por
meio de observações controladas e verificáveis
empiricamente e com referência a uma teoria
geral de sua estrutura.”
Lyons (1979)
5
6. Níveis Linguísticos
• Fonética e Fonologia
– Descrição e uso dos sons das línguas
• Morfologia
– Como as palavras se formam
• Lexicologia e Lexicografia
– Estudo e construção de dicionários e vocabulários
• Sintaxe
– Observação e descrição da gramática
• Semântica
– Estudo do significado das sentenças
• Pragmática e Discurso
– Estudo da língua em uso, o texto e o discurso
6
7. Linguística Computacional
Pode ser entendida como “a área de conhecimento que
explora as relações entre linguística e informática,
tornando possível a construção de sistemas com
capacidade de reconhecer e produzir informação
apresentada em linguagem natural.”
Vieira e Lima (2001)
7
8. Linguística Computacional para
Organização e Recuperação da Inf.
• Sumarização Automática de Textos
• Criação automática de resumos para textos on-line
• Indexação
• Extração de termos-chave para representar um documento
• Mineração de Textos
• Agrupamento e classificação de textos por tema
• Sugestão Automática de Conteúdos
• Sugestão de documentos (vídeos, imagens, texto) de acordo
com o índice de outros elementos acessados pelo usuário
• Interação Humano-Computador
• Interação por texto, fala, por imagem e textos
• Mineração de opiniões em redes sociais
• Busca de opiniões em texto sobre um produto comercializado
8
9. Estudos em Linguística Computacional
para o Português Brasileiro
• Peculiaridades Linguísticas
– Nomes indígenas e de origem africana no
português do Brasil
– As áreas técnicas e científicas possuem
terminologia própria
– O português brasileiro é mais aberto a
estrangeirismos que o português europeu
– A forma de escrita científica pode diferir, na forma
ou na retórica em cada país, para uma mesma
área do conhecimento
9
11. Português Brasileiro – NILC
(Nível Morfológico)
11
os_ART cursos_N de_PREP preparação_N profissional_ADJ em_PREP educação_N
Física_ADJ
Etiquetagem
Radicalização
aluno, alunos, alunas alun
básico, basicamente basic
comprou, comprava compr
Os cursos de preparação profissional em Educação Física
12. Português Brasileiro – NILC
(Nível Léxico)
12
Busca de padrões em textos, por
autômatos finitos ou expressões
regulares:
(S): Selecionar todos os substantivos
(S|A): Selecionar todos os substantivos ou
adjetivos
(S prep S): Selecionar o padrão “substantivo
seguido de uma preposição e um substantivo”
(SA): Selecionar o padrão “substantivo seguido
de adjetivo”
14. Português Brasileiro – NILC
(Nível Semântico)
14
Relações semânticas em rede para Substantivos,
Adjetivos, Verbos, Advérbios
15. Mercado de Trabalho
• Arquiteto da Informação
– Trabalha com texto, imagem e som nas interfaces
computacionais
• Mineração de Textos
– Utilizando softwares específicos extraem
conhecimento de grandes bases textuais
• Indexador
– Selecionar metadados e termos-chave para
representar documentos textuais, vídeos e
imagens
15
16. Pesquisa Acadêmica
• Desenvolvimento de software
– Sistemas de reconhecimento da fala
– Sistemas de recuperação da informação
– Sistemas de sumarização automática
– Sistemas para análise de redes sociais
• Estudo da linguagem e registro da informação
– Características da comunicação científica brasileira
e terminologia nas áreas de conhecimento
– Métodos de indexação de documentos jurídicos,
empresarias, científicos, jornalísticos, etc.
16
18. Bibliografia
• LYONS, J. Introdução à lingüística teórica. São
Paulo: Nacional. 1979.
• VIEIRA, Renata; LIMA, Vera LS. Lingüística
computacional: princípios e aplicações.
In: Anais do XXI Congresso da SBC. I Jornada
de Atualização em Inteligência Artificial.
2001. p. 47-86.
18