Extração de informações de texto e cálculo de similaridade usando Apache Lucene

Extração de informações de texto e
cálculo de similaridade usando
Apache Lucene
André Luis Schwerz
Rafael Liberato Roberto

Abril/ 2012

By André Luis Schwerz e Rafael Liberato Roberto . Este trabalho foi licenciado
com uma Licença Creative Commons - Atribuição 3.0 Não Adaptada.

Roteiro
• Por que extrair informações?
• Processo de extração de informação
• Tokenização
• Normalização
• Eliminação de Stopwords
• Stemming
• Indexação e Busca
• Apache Lucene
• Atividade

2

Por que extrair informação?
• Muito conteúdo sendo gerado
• Textos não estruturados
• Blogs
• E-mails
• Fóruns
• Redes sociais
• Artigos
• Websites

• Realizar busca em textos não estruturados

• Inteligência Coletiva

• Como extrair informação desses conteúdos?
3

Processo de Extração de Informação

Refinamento

Pré-
Coleta Indexação Mineração Análise
Processamento

• Formação da • Preparação dos • Organização com • Cálculos, • Análise humana
base de dados objetivo de busca inferências,
conhecimento rápida extração de
• Processamento conhecimento
• Leitura e
• Varredura manual de Linguagem • Recuperação da interpretação dos
ou automática natural Informação • Mineração de dados
(Crawling) dados

4

Processo de Extração de Informação

Refinamento

Pré-
Coleta Indexação Mineração Análise
Processamento

• Formação da • Preparação dos • Organização com • Cálculos, • Análise humana
base de dados objetivo de busca inferências,
conhecimento rápida extração de
• Processamento conhecimento
• Leitura e
• Varredura manual de Linguagem • Recuperação da interpretação dos
ou automática natural Informação • Mineração de dados
(Crawling) dados

5

Extração de Informações de Texto
Pré-
Indexação Mineração
Processamento

1 Tokenização

2 Normalização

3 Stopwords

4 Stemming

6

1 Tokenização
Tokenização 2 Normalização
Pré-
Processamento
3 Stopwords

• Interpreta o texto transformado em termos 4 Stemming

• Exemplo

Texto: Pouco se aprende com a vitória, mas muito com a derrota.
1 1 1

Pouco se aprende com

0 5 6 8 9 16 17 20

Termos:
[“Pouco”, “se”, “aprende”, “com”, “a”, “vitória”, “mas”, “muito”, “com”, “a”, “derrota”]

7

1 Tokenização
Tokenização 2 Normalização
Pré-
Processamento
3 Stopwords

• Diferentes formas de tokenização 4 Stemming

Pouco se aprende com a vitória, mas muito com a derrota.

Shingle n=4

Pouco aprende com
Pouco se aprende com a
Pouco se aprende aprende com a vitória
Pouco se aprende com com
se com a
se aprende com a vitória
se aprende com a
se aprende com a a vitória
aprende vitória
8

1 Tokenização
Normalização 2 Normalização
Pré-
Processamento
3 Stopwords

4 Stemming
• Conversão do texto para letras minúsculas.

• Pode remover acentos, pontos, números, etc.


[“pouco”, “se”, “aprende”, “com”, “a”, “vitoria”, “mas”, “muito”, “com”, “a”, “derrota”]

9

1 Tokenização
Remoção de Stopwords 2 Normalização
Pré-
Processamento
3 Stopwords

• Remove as palavras comuns 4 Stemming

• Sem significado relevante
• Preposição, pronome, etc.
• Depende do idioma


[“pouco”, “aprende”, “vitoria”, “muito”, “derrota”]

10

1 Tokenização
Stemming 2 Normalização
Pré-
Processamento
3 Stopwords

• Converte os termos em sua raiz gramatical 4 Stemming

• Elimina plural
Pouco se aprende com a vitória, mas muito com a derrota.
[“pouco”, “aprende”, “vitoria”, “muito”, “derrota”]

pouco pouc
aprende aprend
vitoria vitor
muito muit
derrota derrot

11

Indexação
Pré-
Processamento
Documento 1

• Estabelece uma estrutura para os dados
Termos Documentos
Documento 2
• Índice invertido Termo1 1
Termo2 1,2
• Vocabulário e ocorrência
Termo3 2
Termo4 3
Documento 3

• Banco de dados

12

Indexação
Pré-
Processamento

• Tratamento de termos que são muito usados em uma coleção de
documentos

• Fator tf
• Quantidade de vezes que o termo i aparece no documento (Quão bem i
descreve d)

• Fator idf
• Inverso da frequência do termo i dentro da coleção de documentos.
• Quanto menos usado for o termo, maior o idf

13

Mineração
Pré-
Processamento

• Utilização algoritmos para extrair informações dos dados
estruturados

14

Apache Lucene™
• Biblioteca para recuperação de informação;

• Projeto código aberto implementado em Java;

• Primeira distribuição em 2000;

• Versão atual 3.5;

• Disponível em http://lucene.apache.org/core/

• Documentação em
http://lucene.apache.org/core/old_versioned_docs/versions/3_5_0/api/core/index.html

*Os slides a seguir tem como objetivo fornecer um tutorial rápido e
básico da utilização do Lucene
15

Analisadores
Pré-
Processamento

• Estabelece regras para realização do pré-processamento

• Alguns tipos de Analisadores

Analyzer
Whitespace Analyzer Divide tokens por espaço em branco

Simple Analyzer Divide tokens por caracteres que não são letras,
normaliza (lowercase) e remove pontuação.
Stop Analyzer Simple Analyzer mais remoção de stopwords em
inglês
Standard Analyzer Mais sofisticado. Identifica certos tipos de tokens,
como e-mail, nomes de empresas, etc. Normaliza
(lowercase) e remove pontuação e stopwords

16

Analisadores
Pré-
Processamento

Analyzer

Reader Tokenizer ... TokenFilter TokenFilter Tokens

TokenFilter

StopFilter Length
Filter

LowerCase Standard
Filter Filter

Shingle PorterStem
Filter Filter
17

Analisadores
Pré-
Processamento

Analyzer

Reader Tokenizer ... TokenFilter TokenFilter Tokens

public final class MeuAnalisador extends Analyzer{
TokenFilter

@Override
public TokenStream tokenStream(String fieldName, Reader reader)
{
StopFilter Length
TokenStream t = new WhitespaceTokenizer(Version.LUCENE_35, reader)
Filter
return new ShingleFilter(t, 4);
LowerCase Standard
} Filter Filter

Shingle PorterStem
}
Filter Filter
18

Analisadores
Pré-
Processamento

• Suporte a outros idiomas

• Definido pelo analisador

• Somente é necessário se o analisador realizar stemming e a remoção de
stopwords

• Idiomas suportados pelo Apache Lucene
• Brazilian
• Chinese
• Dutch
• French
• German
• Greek
• Russian
• Thai

19

Indexação
Pré-
Processamento

• Cria arquivos estruturados que permitem o rápido acesso
as palavras.
• Índice Invertido

Termos Documentos
aprend 1
derrot 1,2
muit 1,3
pouc 1,2
vitor 1,5

20

Indexação
Pré-
Processamento

Document

Field

Field

Field

Index Writer Analyzer

21

Indexação
Pré-
Processamento

• IndexWriter responsável por escrever no índice.

IndexWriter(Directory dir, IndexWriterConfig config)
dir Diretório onde o índice será escrito
config responsável por definir a versão do lucene e o analyzer a ser utilizado

Métodos
addDocument(Document doc) Insere o documento no índice
close() Encerra o processo de indexação

• IndexWriterConfig
IndexWriterConfig(Version matchVersion, Analyzer analyzer)

matchVersion Versão do lucene. Version.LUCENE_35
analyzer Analisador a ser utilizado

22

Indexação
Pré-
Processamento
Document

• Document Field
Document()
Field
Métodos
add(Fieldable field) Adiciona o field no documento Field

• Field
Field(String name, String value, Field.Store store, Field.Index index)

name Nome do campo
value String a ser processada
store Store.YES / Store.NO
index Index.ANALYZED | Index.NOT_ANALYZED

23

Indexação
Pré-
Processamento

• BrazilianAnalyzer responsável por estabelecer as regras do pré-processamento.

BrazilianAnalyzer(Version matchVersion) Field

matchVersion Versão do lucene. Version.LUCENE_35 Field

Field

Analyzer Index Writer

Directory dir = FSDirectory.open(new File(pathIndexDir));
Analyzer an = new BrazilianAnalyzer(Version.LUCENE_35);
IndexWriterConfig config = new IndexWriterConfig(Version.LUCENE_35, an);
IndexWriter indexWriter = new IndexWriter(dir, config);

Document d = new Document();
d.add(new Field("livro", “livro”, Store.YES, Index.ANALYZED));
24

Busca
Pré-
Processamento

• Encontra documentos que são relevantes para a
consulta.
• Rapidez e Classificação

Busca

Resultados

25

Busca
Pré-
Processamento

Consulta Query Parser Analyzer

Index Resultados
Searcher

Index Reader

Busca

Resultados
26

Busca
Pré-
Processamento

IndexReader responsável pela leitura do índice.

Directory dir = FSDirectory.open(new File(“c://data”));
IndexReader reader = IndexReader.open(dir);

IndexSearcher implementa um buscador para o IndexReader.

IndexSearcher searcher = new IndexSearcher(reader)

QueryParser analisador da consulta.

QueryParser parser = new QueryParser(Version.LUCENE_35, “field”,
analyzer)

27

Busca
Pré-
Processamento

Query consulta analisada pelo QueryParser

Query query = parser.parse(“string de busca”);

Cálculo de similaridade entre a query e os documentos
TopDocs hits = searcher.search(q,100);
ScoreDoc[] scoreDocs = hits.scoreDocs;

Exibindo o resultado
for(ScoreDoc sd : scoreDocs){
Document d = searcher.doc(sd.doc);
System.out.println("Nome do Arquivo: " + d.get("file"));
System.out.println("Detalhando os resultados:");
System.out.println(searcher.explain(q, sd.doc));
}
28

Score
Pré-
Processamento

• Retorno do cálculo de similaridade entre a query e o
documento

Termo Descrição
tf(t in d) O número de vezes que o termo t ocorre no documento d

idf(t) Leva em consideração o número de documentos que contém o termo t

coord(q,d) Fração de todos os termos da consulta que o documento contém

queryNorm(q,d) Fator de normalização da consulta

t.getBoost() Privilegia o termo t na consulta q em tempo de busca

norm(t,d) Encapsula alguns fatores de boost em tempo de indexação
29

Operadores

Consulta Encontra o documento que...
java Contém o termo java no campo padrão (default field)
java junit Contém o termo java ou junit ou os dois no campo padrão (default field)
java OR junit
+java +junit Contém ambos, java e junit no campo padrão (default field)
java AND junit

Contém o termo java ou junit ou os dois no campo padrão (default field)
titulo:ant Contém o termo ant no campo titulo
titulo:extremo Contém o termo extremo no campo titulo e que não contenha esporte no
–assunto:esporte campo assunto
titulo:extremo
AND NOT
assunto:sports

30

Operadores

Consulta Encontra o documento que...
(agil OR extrema) Contém metodologia e deve conter agil ou extrema, todos no campo
AND padrão (default field)
metodologia
titulo:"junit in Contém a frase “junit in action” no campo titulo
action"
titulo:"junit Contém os termos junit e action com 5 posições um do outro, no campo
action"~5 titulo
java* Contém termos que começam com java, tais como javaspaces,
javaservers
java~ Contém termo próximos ao termo java, como lava

31

Atividade
1. Baixar o projeto com o esqueleto e os livros da bíblia na
forma de arquivos texto
2. Fazer a indexação da bíblia
3. Fazer a busca que mostra os versículos da Bíblia
correspondentes a consulta

Obs. Cada arquivo possui um capítulo do livro

Gênesis 01.txt
I Samuel 01.txt Mateus 01.txt 1 No princípio criou Deus os céus e a terra.
2 A terra era sem forma e vazia; e havia trevas sobre a face do
I Samuel 02.txt Mateus 02.txt abismo, mas o Espírito de Deus pairava sobre a face das águas.
3 Disse Deus: haja luz. E houve luz.
... ... 4 Viu Deus que a luz era boa; e fez separação entre a luz e as
trevas.
5 E Deus chamou à luz dia, e às trevas noite. E foi a tarde e a
manhã, o dia primeiro.
...
32

Atividade
2. Fazer a indexação da bíblia
• Para permitir a busca por versículo, criar um document por
versículo
Document

livro Gênesis
Gênesis 01.txt
1 No princípio criou Deus os céus e a terra. capitulo 01
2 A terra era sem forma e vazia; e havia trevas sobre a face do
abismo, mas o Espírito de Deus pairava sobre a face das águas. 1 No princípio criou Deus os céus e a
versiculo
terra.
3 Disse Deus: haja luz. E houve luz.
4 Viu Deus que a luz era boa; e fez separação entre a luz e as
trevas.
5 E Deus chamou à luz dia, e às trevas noite. E foi a tarde e a Document
manhã, o dia primeiro.
... livro Gênesis

capitulo 01

2 A terra era sem forma e vazia; e
versiculo
havia trevas sobre a face do
*usar o nome do arquivo para preencher os campos abismo, mas o Espírito de Deus
livro e capítulo pairava sobre a face das águas.

33

Atividade – Código exemplo

Passo 01: Inicializa o processo de Indexação

Passo 02: Processo de Indexação

Passo 03: Processo de Busca e impressão do resultado

34

Referências
• RAJARAMAN, A. & ULLMAN, J.D., Mining of Massive
Datasets, 2011

• ALAG, S., Collective Intelligence in Action, Manning,
2009.

• MCCANDLES, M. et al. Lucene in Action, 2010.

35

Extração de informações de texto e cálculo de similaridade usando Apache Lucene

Recommandé

Recommandé

Contenu connexe

En vedette

En vedette (20)

Dernier

Dernier (20)

Extração de informações de texto e cálculo de similaridade usando Apache Lucene