1. MESTRADO EM CIÊNCIA DA COMPUTAÇÃO
UNIVERSIDADE ESTADUAL DO RIO GRANDE DO NORTE - UERN
UNIVERSIDADE FEDERAL RURAL DO SEMI-ÁRIDO - UFERSA
PROCESSAMENTO PROBABILÍSTICO
DE LINGUAGEM
Capítulo 23
Diego Grosmann e Thiago Reis
2. Agenda
2
Introdução
Modelo probabilístico de linguagem
Gramática probabilística livre de contexto (GPLC)
GPLC lexicalizada
Recuperação de Informação
Problemas de PLN
Extração de Informação
Tradução automática
Estado da arte
Aplicações
Referências bibliográficas
3. Introdução
3
Processamento probabilístico de linguagem tenta
facilitar a localização de informações em textos
escritos por seres humanos e para seres humanos;
Essa abordagem utiliza estatística e
aprendizagem nos dados existentes e gera
probabilidades para o uso de sentenças (modelo
probabilístico).
4. Modelo Probabilístico de Linguagem
4
Define a distribuição da probabilidade sobre um
conjunto de cadeias;
Modelos:
Unigramas;
Bigramas;
Trigramas.
5. Modelo Probabilístico de Linguagem
5
Unigramas:
Atribui probabilidade P(w) a cada palavra;
A probabilidade de uma cadeia de palavras é apenas
o produto da probabilidade de cada palavra;
logical are as are confusion a may right tries agent
goal the was diesel more object then information-
gathering search is
6. Modelo Probabilístico de Linguagem
6
Bigramas:
A probabilidade de cada palavra dada a palavra
anterior.
P(wi|wi -1)
planning purely diagnostic expert systems are very
similar computational approach would be represented
compactly using tic tac toe a predicate
7. Modelo Probabilístico de Linguagem
7
N-gramas:
Considera n-1 palavras anteriores;
P(wi|wi – (n-1) ... wi – 1);
Trigramas
planning and scheduling are integrated the success
of naive Bayes model is just a possible prior source
by that time.
8. Modelo Probabilístico de Linguagem
8
Suavização:
Conta igual a zero
Suavização soma um
(c + 1)/(N + B);
N número de palavras;
B bigramas possíveis;
c contagem real;
(elimina a possibilidade de uma combinação de uma
palavras nunca sair).
9. Modelo Probabilístico de Linguagem
9
Suavização:
Suavização de interpolação linear
Combinação dos modelos Unigramas, Bigramas e
Trigramas.
P(wi|wi – 2 wi – 1) =
c3 P(wi|wi – 2 wi – 1)+ c2P(wi|wi -1)+ c1 P(w)
10. Método de avaliação
Utilização de área de treinamento e área de
testes.
Problemas: P(Palavras) é muito pequena, os números
poderiam causar underflow.
Calcular Perplexidade
Quanto mais baixa a perplexidade melhor o modelo
−������������������2 (������ ������������������������������������������������
������������������������������������������������������������������������ ������������������������������������������������ = 2 )
������
N = Numero de palavras
Underflow: Erro de memoria, valor abaixo do esperado
11. Gramática probabilística livre de
11
contexto (GPLC)
Utiliza os formalismos gramaticais para gerar
uma árvore de probabilidades de palavras;
A probabilidade de uma cadeia, P(palavras), é
apenas a probabilidade de sua árvore;
Para percorrer a árvore podemos utilizar:
Algoritmo de Viterbi;
A* (busca pelo melhor esforço).
12. GPLC lexicalizadas
12
Tenta resolver o problema de contexto
P(come uma banana) e P(come uma bandana) depende
de P(banana) vs P(bandana);
SV SV SN
SV cabeça do SV (comer)
SN cabeça do SN (banana)
SV sintagmas verbais
SN sintagmas nominais
Sintagma é um segmento linguístico que expressa uma relação
de dependência
13. Problemas no GPLC
Dificuldade de se construir a GPL
Problemas na atribuição de probabilidade
Aprendizagem
Com arvore sintática utiliza uma regra para a
combinação dos filhos
Maximização de expectativas (EM)
14. 14 Recuperação de Informação
É a tarefa de encontrar informações
relevantes para as necessidade de
informação de um usuário;
15. Recuperação de Informação
15
Características:
Uma coleção de documentos;
Uma consulta apresentada em uma linguagem de
consulta;
Um conjunto de resultados;
Uma apresentação do conjunto de resultado;
16. Recuperação de Informação
16
Modelo booleano de palavras chaves:
O modelo é verdadeiro para a palavra em um
documento se ela ocorre e falso se ela não ocorre;
Simples;
Mas, não apresenta grau de relevância;
Pouca familiaridade de usuários leigos com as
excreções;
Resultados ruim (muito especifica).
17. Recuperação de Informação
17
Modelagem de linguagem:
Tenta definir uma regra de ordenação dos resultados
P(r | D, Q) P( r | D)
P(r | D, Q)
P(r | D, Q) P(r | D)
r variável booleana aleatória que indica
Relevância = verdadeiro
D Documento
Q Consulta
18. P(r | D, Q) P( r | D)
P(r | D, Q)
P(r | D, Q) P(r | D)
18
Divide a quantidade de Representa as chances
resultados relevantes no Probabilidade de r ser independentes da
documento pela quantidade de verdadeiro dado um consulta do documento ser
resultados irrelevantes documento D e uma relevante
consulta Q
r variável booleana aleatória que indica Relevância
= verdadeiro
A relevância do documento
D Documento independente da consulta pode ser
Q Consulta dada pela quantidade de links que
apontam para ele como (se for um
artigo) o numero de citações do
periódico
19. P(r | D, Q) P( r | D)
P(r | D, Q)
P(r | D, Q) P(r | D)
19
Modelo de saco de palavras
Utiliza unigrama para contar o numero de ocorrências;
Documentos com mais ocorrências individuais são mais
relevantes;
P(r | D, Q) jP(Qj | D, r )
Calcula a probabilidade de uma consulta dado um
documento relevante multiplicado pela probabilidade das
palavras na consulta
P(r | D, Q) P ( r | D)
jP(Qj | D, r )
P(r | D, Q) P(r | D)
20. Recuperação de Informação
20
Refinamento de RI
Problema
Sistemasunigrama tratam todas as palavras como se fossem
independentes;
poltrona, POLTRONA, poltronas, sofá, Poltrona.
Solução
Utilizar
só letras maiúsculas/minúsculas;
Procurar pelo radical;
Problema: stocking (meia), Stock (estoque);
Solução: uso de dicionário;
Dicionário de sinônimos;
Problema: Modificação do significado;
Uso de corretor ortográfico e metadados.
21. Recuperação de Informação
21
Apresentação do conjunto de resultados:
Até o momento só o problema de relevância foi visto a
utilidade não foi avaliada;
Qual a utilidade de dois documentos iguais?
Realimentação de relevância: o usuário informa os
dados relevantes;
Classificação de documentos
Formação de agrupamentos de documentos;
22. Recuperação de Informação
22
Apresentação do conjunto de resultados:
Classificação de documentos
Problema de aprendizagem supervisionada
Agrupamento de documentos
Problema de aprendizagem não-supervisionada
Agrupamentos aglomerativo
Agrupamentos K-média
23. Recuperação de Informação
23
Implementação de sistemas RI:
Como fazer uma pesquisa eficiente na web onde
existem bilhões de documentos?
Léxico
Lista todas as palavras da coleção de documentos;
Pode armazenar o número de ocorrências;
Utiliza lista de palavras ignoráveis (o, de, ou);
Índice invertido (lista de acertos)
Lista
o lugar em que cada palavra aparece (link);
Para a busca de frases ele deve guardar a localização da
palavra no documento.
24. Recuperação de Informação
24
Como funciona:
Fazemos uma busca no léxico para obter o endereço
da lista de acertos;
Em seguida percorremos a lista de acerto de cada
documento e verificamos a contagem para cada
documento.
25. Recuperação de Informação
25
Na prática:
750.000 documentos totalizando 2 GB;
Léxico contem 500.00 palavras 7 a 10 MB;
Indicie invertido (documento, contagem) ocupa 324MB;
O suporte a consulta de frases (e, ou, etc.) eleva o Índice
Invertido a 1200 MB;
Na Web existem cerca de 3.000 vezes mais documentos;
Solução: segmentação e distribuição de copias.
26. Problemas do PLN
26
Ambiguidade:
uh!
Eitcha Piula,
Qual é a dele??!
Reiou...
27. Problemas do PLN
27
Ambiguidade léxica: diferentes interpretação para uma
palavra;
Ex: João procurou um banco;
Ambiguidade sintática: uma sentença pode ser
mapeada de diferentes formas;
Ex: O menino viu o homem de binóculo;
Ambiguidade semântica: diferentes significado para
uma frase;
Ex: Pedro viu Maria passeando;
Ambiguidade anafórica: anáfora pronominal
relacionada a duas os mais palavras distintas:
Ex: o ladrão entrou na casa do prefeito e tirou sua roupa;
28. 28 Extração de Informação
É originalmente a tarefa de encontrar
informações a partir de grandes volumes
de documentos ou textos;
Documentos ou textos: estruturados ou livres;
29. Extração de Informação
29
Características:
EI visa localizar e extrair de forma automática
informações relevantes;
Banco de dados;
Sistemas de Extração de Informação (SEI) não realizar o
entendimento completo do documento;
Objetivo: construir sistemas que encontrem e combinem
informações relevantes;
EI é diferente de RI;
30. Extração de Informação
30
Arquitetura:
Definidapor Grishhan (1997 apud ÁLVARES, 2007);
6 módulos presentes em SEI;
Processador léxico;
Reconhecimento de nomes;
Analisador sintático/semântico;
Padrão de extração;
Analisador de discurso;
Templates.
31. Extração de Informação
31
Arquitetura:
Processador léxico:
Textodividindo em sentenças e termos;
Separação dos termos (tokenização);
Reconhecimento de nomes:
Identifica vários tipos de nomes próprios;
Analisador sintático/semântico:
Receber itens léxicos e tenta construir uma estrutura sintática;
32. Extração de Informação
32
Arquitetura:
Extração de padrão:
Indução de um conjunto de regras de extração;
Análise de Discurso:
Relacionar diferentes elementos do texto;
Inclusão de algumas tarefas:
Análise de frases nominais;
Resolução de recorrência;
Templates:
Preenchimento com as informações relevantes;
33. Extração de Informação
33
Arquitetura:
Figura. Arquitetura. Fonte: Grishhan (1997 apud ÁLVARES, 2007)
34. Extração de Informação
34
Tipos de textos:
o tipo de texto influência na escolha da técnica;
Estruturado: quando apresenta regularidade das
informações;
Ex: formulário;
Semi-estrurado: alguma regularidade dos dados;
Ex: artigo;
Não-estruturado: não exibe regularidade;
Ex: páginas web;
35. 35 Tradução automática
É umas das atividades que mais utiliza o
conhecimento de linguística;
Necessidade de fazer a codificação da língua fonte (LF) para a
língua alvo (LA);
36. Tradução automática
36
Processos de TA:
Tradução bruta: obter um significado de uma sentença;
Ex: navegação na web;
Tradução de origem restrita: conteúdo dos textos é
restrito;
Ex: Taum-meteo;
Tradução pré-editada: realiza uma edição prévia do
conteúdo;
Ex: manuais de empresas;
Tradução literária: está além do estado da arte de TA;
37. Tradução automática
37
Processos de TA:
Problema: idiomas;
A dificuldade encontrar-se no processo de análise e
interpretação do enunciado da LN;
Estratégias:
Tradução baseada exclusivamente em conhecimento linguístico
(LBMT);
Tradução baseada em conhecimento (KBMT);
Tradução baseada em exemplo (EBMT);
38. Tradução automática
38
Sistemas de TA;
Comercias: translator pro, power translator pro;
Gratuitos: altavista, google translator;
Sistemas preliminares;
Metodologias
Sistemas transferenciais: mantém um BD com regras de
tradução;
Sistemas interlíngua: representação intermediária entre LF e
LA;
Sistemas diretos: tradução direta;
39. Tradução automática
39
Tradução direta e indireta;
Direta:
A própria LA é considerada um instrumento para a LF;
Indireta:
São desenvolvidas formas para a representação
intermediária;
40. Estado da Arte
40
AIML - Artificial Intelligence Markup Language
Linguagem Baseada em XML;
Desenvolvida Richard S. Wallace;
Comunidades mundial de software livre;
Foi a base pro ChatterBot Alice, Antigamente chamado
de Eliza;
Interpretada em Phyton, C, C++, Entre outras
Linguagens;
Padronizada pelo W3C XML;
41. Estado da Arte
41
WordTree:
Ferramenta de busca para texto não-estruturado;
Analisadores de Texto baseados em palavras;
Visualização de Textos baseados em Concordância;
43. Aplicações
43
Chatter Bot
ALICE
Sistemas Operacionais que interpretam LN
DOSVOX e Virtual Vision
Mecanismos de Busca que utilizam PLN
PowerSet
44. Referências bibliográficas
44
RUSSEL, Stuard J.; NORVIG, Peter. Artificial Intelligence: A
Modern Approach. Prentice Hall, New Jersey, 2 edition, 2003.
ÁLVARES, Alberto Cáceres. Extração de informação de
artigos científicos: uma abordagem baseada em indução de
regras de etiquetagem. 131p. Dissertação (mestrado),
Universidade de São Paulo - USP, São Carlos, SP, fevereiro de
2007.