Indexadores Distribuidos utilizando Hadoop

•Transferir como PPTX, PDF•

0 gostou•749 visualizações

Luís Bastião Silva

Tecnologia

Indexadores distribuídos utilizando Apache Hadoop Luís A. Bastião Silva Recuperação de informação

Agenda Enquadramento Lucene Hadoop HDFS MapReduce Implementações do Lucene distribuídas Conclusões

Enquadramento Aumento do volume de informação têm vindo a crescer Criação de motores de pesquisa Indexação Pesquisa Indexador versus Base de Dados relacional Necessidades de distribuir a indexação e pesquisa por vários sistemas computacionais Enquadramento Hadoop Lucene Conclusões LuceneDistribuido

Apache Lucene Projecto da ASF (Apache Software Fundation) Plataforma Open Source Interfaces de indexação e pesquisa bem definidos Pesquisa “full-text”, capacidade de filtragem, expressões booleanas, intervalos, etc. Capacidade de fazer “merge” de vários índices Útil para indexadores distribuídos Enquadramento Hadoop Lucene Conclusões LuceneDistribuido

ProjectoHadoop Hadoop: ASF + Open Source Motivação: criação de um sistema de ficheiros distribuído efectuar processamento nos vários nós do cluster Enquadramento Hadoop Lucene Conclusões LuceneDistribuido

ProjectoHadoop Subprojectos do Hadoop: Common HDSF MapReduce ZooKeeper Enquadramento Hadoop Lucene Conclusões LuceneDistribuido

HDFS: HadoopDistributed File System Sistema de ficheiros distribuídos Construído para grandes volumes de informação Blocos divididos em blocos de 64MB Redundância Orientado a “batchprocessing” e streaming ArquitecturaMaster/Slave Enquadramento Hadoop Lucene Conclusões LuceneDistribuido

HDFS - Arquitectura Enquadramento Hadoop Lucene Conclusões LuceneDistribuido

MapReduce Enquadramento Hadoop Lucene Conclusões LuceneDistribuido Modelo de programação Map “Shuffle” Reduce

LuceneDistribuido Discussão de diferentes abordagens Enquadramento Hadoop Lucene Conclusões LuceneDistribuido

Doug Cutting Approach Indicesdistribuidos pelos sistemas computacionais ArquitecturaMaster/Slaves Master: contém a localização dos vários indices Cada indice têm uma versão Enquadramento Hadoop Lucene Conclusões LuceneDistribuido

DistributedLucene Não utiliza o HDFS Utiliza mecanismos de IPC do Hadoop Segue os conceitos propostos por Doug Cutting Introduz o conceito do estado do indice: “uncommited”, “replicating” e “live” Actualizaçãobaseadaem “leasing” Enquadramento Hadoop Lucene Conclusões LuceneDistribuido

Distributed Index for Semantic Search Utilização do MapReduce Map: Parser dos documentos armazenados no sistema de ficheiros distribuído Redução: obter documentos que contém o mesmo termo Enquadramento Hadoop Lucene Conclusões LuceneDistribuido

Conclusões Mover processamento é preferível a mover dados Algumas implementações de Lucene distribuídos, contudo: Limitativas para o utilizador Ainda em fase beta de desenvolvimento Não existe standarização ao nível de indexação distribuída, não permitindo a criação de sinergias entre projectos. Hadoop revelou-se uma plataforma bastante estável Enquadramento Hadoop Lucene Conclusões LuceneDistribuido

Mais conteúdo relacionado

Semelhante a Indexadores Distribuidos utilizando Hadoop

Interoperabilidade com BigData Hadoop para Windows Azure

Alessandro Binhara

Apresentação na disciplina de Aplicações Distribuídas, no curso de Graduação em Sistemas de Informação, na PUC Minas no campus Barreiro. Relatório com informações valiosas para programadores que desejam conhecer o potencial da ferramenta para aplicações distribuídas Hadoop e seu algoritmo MapReduce. Acesse https://www.desenvolvedormatteus.com.br/ para conhecer as soluções da web disponíveis para seu negócio.

Apresentação em Aplicações Distribuídas – Hadoop MapReduce

Matteus Barbosa

Integrado Linux y Active Directory

jdavalos

Como são as ferramentas mais utilizadas do ecossistema do Hadoop. - Quem sou eu? - O que é um BigData? - Hadoop. - Hadoop Yanr | Apache Storm Fontes de informação: Fontes de integração: - Flume | Kafka | Sqoop Camadas de armazenamento: - HDFS | Hive - HBase - Cassandra Camadas de processamento: - Hadoop - MapReduce Ferramentas de busca: - Solr Camada de análise: - Pig | Apache Spark | GraphX | SparkMLLib Ferramentas de análise: - Apache mahout Ferramentas de administração: - Apache ambari | Oozie Ferramentas de diagnóstico: - Zookeeper Ecossistema do Apache Hadoop Conclusões Dúvidas? Contatos Agradecimento

Bigdata - compreendendo Hadoop e seu ecossistema.

Natalia Raythz

Arquitetura do Framework Apache Hadoop 2.6

Felipe Schimith Batista

Oficina online para compartilhamento de experiências no uso do DSPACE: BIREME

ComunidadRedDes

Interoperabilidade, Normas, Diretrizes e Qualidade dos Repositórios - José ca...

josekarvalho

BrunoSQLSat 469

Bruno Feldman da Costa

SQL Saturday 570 - São Paulo - 2016

Rodrigo Dornel

Instalando arquitetura Lambda com Graphx e Elasticsearch 2.0 em uma aplicação...

tdc-globalcode

Sistemas distribuidos - Hadoop

renanaugusto18

Instanciando a Arquitetura Lambda com GraphX e Elasticsearch 2.0 em uma apl...

Luiz Henrique Zambom Santana

Tecnologias para bibliotecas

Anderson Santana

Um LCMS

Lanylldo Araujo

CBIE WRE Lanylldo

Lanylldo Araujo

7masters - DevOps - Aplicações e Infra Estrutura Escaláveis na AWS

iMasters

Oficina 1 Confoa 2013 - Parte 3 - Interoperabilidade e repositórios - josé c...

Conferência Luso-Brasileira de Ciência Aberta

Integrando FreeBSD com Active Directory e OpenLDAP

elliando dias

Ebook Apache Server: Guia Introdutório

Fernando Palma

NoSQL

Andre Danelon

Semelhante a Indexadores Distribuidos utilizando Hadoop (20)

Interoperabilidade com BigData Hadoop para Windows Azure

Apresentação em Aplicações Distribuídas – Hadoop MapReduce

Integrado Linux y Active Directory

Bigdata - compreendendo Hadoop e seu ecossistema.

Arquitetura do Framework Apache Hadoop 2.6

Oficina online para compartilhamento de experiências no uso do DSPACE: BIREME

Interoperabilidade, Normas, Diretrizes e Qualidade dos Repositórios - José ca...

BrunoSQLSat 469

SQL Saturday 570 - São Paulo - 2016

Instalando arquitetura Lambda com Graphx e Elasticsearch 2.0 em uma aplicação...

Sistemas distribuidos - Hadoop

Instanciando a Arquitetura Lambda com GraphX e Elasticsearch 2.0 em uma apl...

Tecnologias para bibliotecas

Um LCMS

CBIE WRE Lanylldo

7masters - DevOps - Aplicações e Infra Estrutura Escaláveis na AWS

Oficina 1 Confoa 2013 - Parte 3 - Interoperabilidade e repositórios - josé c...

Integrando FreeBSD com Active Directory e OpenLDAP

Ebook Apache Server: Guia Introdutório

NoSQL

Indexadores Distribuidos utilizando Hadoop

1. Indexadores distribuídos utilizando Apache Hadoop Luís A. Bastião Silva Recuperação de informação

2. Agenda Enquadramento Lucene Hadoop HDFS MapReduce Implementações do Lucene distribuídas Conclusões

3. Enquadramento Aumento do volume de informação têm vindo a crescer Criação de motores de pesquisa Indexação Pesquisa Indexador versus Base de Dados relacional Necessidades de distribuir a indexação e pesquisa por vários sistemas computacionais Enquadramento Hadoop Lucene Conclusões LuceneDistribuido

4. Apache Lucene Projecto da ASF (Apache Software Fundation) Plataforma Open Source Interfaces de indexação e pesquisa bem definidos Pesquisa “full-text”, capacidade de filtragem, expressões booleanas, intervalos, etc. Capacidade de fazer “merge” de vários índices Útil para indexadores distribuídos Enquadramento Hadoop Lucene Conclusões LuceneDistribuido

5. ProjectoHadoop Hadoop: ASF + Open Source Motivação: criação de um sistema de ficheiros distribuído efectuar processamento nos vários nós do cluster Enquadramento Hadoop Lucene Conclusões LuceneDistribuido

6. ProjectoHadoop Subprojectos do Hadoop: Common HDSF MapReduce ZooKeeper Enquadramento Hadoop Lucene Conclusões LuceneDistribuido

7. HDFS: HadoopDistributed File System Sistema de ficheiros distribuídos Construído para grandes volumes de informação Blocos divididos em blocos de 64MB Redundância Orientado a “batchprocessing” e streaming ArquitecturaMaster/Slave Enquadramento Hadoop Lucene Conclusões LuceneDistribuido

8. HDFS - Arquitectura Enquadramento Hadoop Lucene Conclusões LuceneDistribuido

9. MapReduce Enquadramento Hadoop Lucene Conclusões LuceneDistribuido Modelo de programação Map “Shuffle” Reduce

10. LuceneDistribuido Discussão de diferentes abordagens Enquadramento Hadoop Lucene Conclusões LuceneDistribuido

11. Doug Cutting Approach Indicesdistribuidos pelos sistemas computacionais ArquitecturaMaster/Slaves Master: contém a localização dos vários indices Cada indice têm uma versão Enquadramento Hadoop Lucene Conclusões LuceneDistribuido

12. DistributedLucene Não utiliza o HDFS Utiliza mecanismos de IPC do Hadoop Segue os conceitos propostos por Doug Cutting Introduz o conceito do estado do indice: “uncommited”, “replicating” e “live” Actualizaçãobaseadaem “leasing” Enquadramento Hadoop Lucene Conclusões LuceneDistribuido

13. Distributed Index for Semantic Search Utilização do MapReduce Map: Parser dos documentos armazenados no sistema de ficheiros distribuído Redução: obter documentos que contém o mesmo termo Enquadramento Hadoop Lucene Conclusões LuceneDistribuido

14. Conclusões Mover processamento é preferível a mover dados Algumas implementações de Lucene distribuídos, contudo: Limitativas para o utilizador Ainda em fase beta de desenvolvimento Não existe standarização ao nível de indexação distribuída, não permitindo a criação de sinergias entre projectos. Hadoop revelou-se uma plataforma bastante estável Enquadramento Hadoop Lucene Conclusões LuceneDistribuido

15. Questões?

Notas do Editor

Volume de dadosnos sistemas informáticos têm vindo a crescer substancialmente na última decada. Com tantos dados, torna-se importante ao utilizador poder extrair informação.Para isso surgiram motores de pesquisa, que permitem aos utilizadores extrair informação dos dados. Exisem dois processos diferentes na construção de um motor de pesquisa:Indexação dos dadosPesquisaUm sistema de indexação e pesquisa baseado em índice permite escalar a aplicação e fazer3ranking de informação relevante integrando várias fontes de dados como exemplos: email, webpages, ficheiros ou mesmo base de dados.
Projecto da ASF – Open SourceBiblioteca Interfaces bem definidos: indexação e pesquisa.Pesquisa fulltext, range etc.Capacidade de fazer merge de vários indices. Ex. PC1 indexa PC2 Indexa No final podemos ter um unicoindice.
ASF + OSSFrameworkMotivação: - criar um sistema ficheiros distribuidos - distribuir processamento nos vários nos do cluster, tirando partido do sistemas de ficheiros distribuidos.
Centramo nos HDFS e MapReduce
A fase de Map pode ser usada para carregar documentos do DFS

Indexadores Distribuidos utilizando Hadoop

Recomendados

Recomendados

Mais conteúdo relacionado

Semelhante a Indexadores Distribuidos utilizando Hadoop

Semelhante a Indexadores Distribuidos utilizando Hadoop (20)

Indexadores Distribuidos utilizando Hadoop

Notas do Editor