3. Enquadramento Aumento do volume de informação têm vindo a crescer Criação de motores de pesquisa Indexação Pesquisa Indexador versus Base de Dados relacional Necessidades de distribuir a indexação e pesquisa por vários sistemas computacionais Enquadramento Hadoop Lucene Conclusões LuceneDistribuido
4. Apache Lucene Projecto da ASF (Apache Software Fundation) Plataforma Open Source Interfaces de indexação e pesquisa bem definidos Pesquisa “full-text”, capacidade de filtragem, expressões booleanas, intervalos, etc. Capacidade de fazer “merge” de vários índices Útil para indexadores distribuídos Enquadramento Hadoop Lucene Conclusões LuceneDistribuido
5. ProjectoHadoop Hadoop: ASF + Open Source Motivação: criação de um sistema de ficheiros distribuído efectuar processamento nos vários nós do cluster Enquadramento Hadoop Lucene Conclusões LuceneDistribuido
6. ProjectoHadoop Subprojectos do Hadoop: Common HDSF MapReduce ZooKeeper Enquadramento Hadoop Lucene Conclusões LuceneDistribuido
7. HDFS: HadoopDistributed File System Sistema de ficheiros distribuídos Construído para grandes volumes de informação Blocos divididos em blocos de 64MB Redundância Orientado a “batchprocessing” e streaming ArquitecturaMaster/Slave Enquadramento Hadoop Lucene Conclusões LuceneDistribuido
11. Doug Cutting Approach Indicesdistribuidos pelos sistemas computacionais ArquitecturaMaster/Slaves Master: contém a localização dos vários indices Cada indice têm uma versão Enquadramento Hadoop Lucene Conclusões LuceneDistribuido
12. DistributedLucene Não utiliza o HDFS Utiliza mecanismos de IPC do Hadoop Segue os conceitos propostos por Doug Cutting Introduz o conceito do estado do indice: “uncommited”, “replicating” e “live” Actualizaçãobaseadaem “leasing” Enquadramento Hadoop Lucene Conclusões LuceneDistribuido
13. Distributed Index for Semantic Search Utilização do MapReduce Map: Parser dos documentos armazenados no sistema de ficheiros distribuído Redução: obter documentos que contém o mesmo termo Enquadramento Hadoop Lucene Conclusões LuceneDistribuido
14. Conclusões Mover processamento é preferível a mover dados Algumas implementações de Lucene distribuídos, contudo: Limitativas para o utilizador Ainda em fase beta de desenvolvimento Não existe standarização ao nível de indexação distribuída, não permitindo a criação de sinergias entre projectos. Hadoop revelou-se uma plataforma bastante estável Enquadramento Hadoop Lucene Conclusões LuceneDistribuido
Volume de dadosnos sistemas informáticos têm vindo a crescer substancialmente na última decada. Com tantos dados, torna-se importante ao utilizador poder extrair informação.Para isso surgiram motores de pesquisa, que permitem aos utilizadores extrair informação dos dados. Exisem dois processos diferentes na construção de um motor de pesquisa:Indexação dos dadosPesquisaUm sistema de indexação e pesquisa baseado em índice permite escalar a aplicação e fazer3ranking de informação relevante integrando várias fontes de dados como exemplos: email, webpages, ficheiros ou mesmo base de dados.
Projecto da ASF – Open SourceBiblioteca Interfaces bem definidos: indexação e pesquisa.Pesquisa fulltext, range etc.Capacidade de fazer merge de vários indices. Ex. PC1 indexa PC2 Indexa No final podemos ter um unicoindice.
ASF + OSSFrameworkMotivação: - criar um sistema ficheiros distribuidos - distribuir processamento nos vários nos do cluster, tirando partido do sistemas de ficheiros distribuidos.
Centramo nos HDFS e MapReduce
A fase de Map pode ser usada para carregar documentos do DFS