SlideShare une entreprise Scribd logo
1  sur  74
DOS ANTIGOS SISTEMAS DE
BUSCA NA INTERNET AO
NOVO PROCESSAMENTO DE
DADOS NÃO-ESTRUTURADOS
(BIG DATA)
Leandro Pimentel Borges
Matr. 1020900
P R O B L E M ÁT I C A :
Atualmente a quantidade de dados gerados por
segundo é muito maior do que a gerada há 10 anos no período
de um ano, além desta ser não-estruturada também é preciso
analisa-la e gerar resultados precisos em um curto período de
tempo - BIG DATA.
Para ser dado outro grande passo na evolução da
internet é necessário que todas as máquinas se comuniquem e
entendam os dados que recebem utilizando ONTOLOGIA.
Problema a ser explorado:
O problema a ser explorado é a falta de conhecimento,

tanto o usuário comum como do aluno inicial, de como
funcionavam os primeiros buscadores da internet, como
evoluíram, como encontra-se a internet atual, interação de

sites e bancos de dados, como caminha o atual sistema de
gerenciamento de informação dinâmico da internet e como
será a internet do futuro.

O objetivo é explicar tudo isso e de forma resumida mas
sem aprofundar-se tecnologicamente em cada assunto.
CAPÍTULO I –Motores de busca (buscadores)
É

um

programa

para

encontrar

informações

armazenadas em um banco de dados a partir de palavras-chave
indicadas, apresentando os resultados organizadamente, e de
maneira rápida e eficiente.
As maiores empresas na área de busca em 01/10/2012
são Google (Us$ 249,2 bilhões), a Microsoft (Us$ 248,7
bilhões), o Yahoo
disponível).

(Us$ 20 bilhões) e o Bing (valor não
CAPÍTULO II – História dos Buscadores
1990 – Archie (arquivos em FTP anônimos);
1991 – Gopher (textos em geral);
Veronica e Jughead (para o Gopher);
1993 – Wandex (índice de textos), Aliweb;
1994 – Web Crawler (buscador moderno), Lycos;
1995 – Yahoo Diretórios (formulário para cadastro);
1998 – beta spider na página inicial, Google;
2000 – robot automático varria links de sites (motores
indexantes, crawlers ou spiders).
O Webcrawler aparece no filme “Possuídos”, (Fallen / 1998), com Denzel
Washington, aos 21:25min, como exemplo de principal buscador.
CAPÍTULO II – Tipos de Buscadores

Globais (Google, Yahoo, Bing);
Verticais (Buscapé, Bondfaro);
Locais (Telelistas, Apontador, Icarros);
Diretórios (índices de categorias);
Open Directory (www.DMOZ.org);
CAPÍTULO II – Indexação de páginas
Forma mais eficiente de organizar e encontrar dados;
Formato atual: XML (maior eficácia, crawler simples)
Crawlers varrem sites copiando dados p/ B.D.;
Pagerank definindo importância do site;
Metatags definindo conteúdo para buscadores;
keywords, description, content-language, content-type, author,
reply-to, generator. Comandos: refresh, Header "Location"
CAPÍTULO II – ROBOTS
O robots.txt é um arquivo que é procurado pelas
ferramentas de busca para saber quais partes do site não
devem ser indexados.
Robots.txt
User-agent: *
Disallow: /cgi-bin/ #scripts e programas
Disallow: /logado/
Disallow: /tmp/ #parte de testes
Disallow: /private/ #arquivos da empresa
CAPÍTULO II – SITEMAPS
Um Sitemap é um arquivo XML que lista os URLs de um
site para facilitar a indexação do site pelos motores de busca de
forma mais inteligente, podendo incluir informações sobre cada
URL, última atualização, etc.
Enquanto os sitemaps servem para inclusão de URL os
robots.txt tem a função contrária, servindo para exclusão.
O Google deu início ao Sitemaps versão 0.85 em junho
de 2005, MSN e Yahoo anunciaram apoio em novembro de
2006 e em abril de 2007 a Ask e a IBM iniciaram suporte.
C A P Í T U L O I I – M E TA B U S C A
É um sistema que realiza uma pesquisa em vários
mecanismos de busca ao mesmo tempo, funcionando da
mesma forma que os motores de busca convencionais e com a
vantagem de padronizar e mostrar um resultado muito maior.
Os metabuscadores (ou multibuscadores) são muito
eficientes quando utilizados na busca de termos muito
específicos e quando há necessidade de cruzar muitos dados
afim de estreitar o resultado final de uma pesquisa.
C A P Í T U L O I I – W E B C R AW L E R
Também chamados de agentes, bots, spiders, robots ou
scutters. São indexadores automáticos que navegam pela
internet de uma forma metódica e automatizada visitando cada
página de um site, colhendo informações e copiando todo o
texto principal e indexando-as ao banco de dados.
Bots também podem ser usados para colher emails,
verificar atualizações, validar links, validar código fonte, checar
erros, apagar links inválidos dos bancos de dados, adicionar
novos links, etc.
C A P Í T U L O I I – A LTAV I S TA
O AltaVista

(www.altavista.digital.com) começou a

funcionar em 15/12/1995, pertencia a Digital Equipment
Corporation e chegava a fazer 61.000 pesquisas diárias.
Em 1998 a Compac compra o Altavista, depois foi
comprada em 02/2003 pela Overture Services (GoTo.com) e
depois comprada pelo Yahoo, em 08/2004, por Us$ 1,63 bilhão.
Enquanto esta monografia estava sendo elaborada, o
vice-presidente do Yahoo!, Jay Rossiter, anunciou que dia
08/07/2013 o Altavista Search encerraria seus serviços.
CAPÍTULO II – Search Engine Optimization (SEO)
É o processo de influenciar a visibilidade de um site
num mecanismo de pesquisa em resultados gratuitos ou pagos
afim de receber mais visitantes e ter maior lucro, podendo
pesquisar por imagens, vídeos, notícias, etc.
Provavelmente essa expressão SEO entrou em uso em
1997 com John Audette e sua empresa Multimedia Marketing
Group.
QDF: http://www.branded3.com/blogs/using-google-query-deserves-freshness-model/
CAPÍTULO III – Ontologia
Ontologia é uma modelagem de dados de um conjunto
de conceitos, objetos e estruturas.
É utilizada em inteligência artificial, web semântica,
engenharia de software e arquitetura da informação, como
uma forma de representação de conhecimento.
Ontologias geralmente descrevem Indivíduos (objetos
básicos), Classes (conjuntos, coleções ou tipos de objetos),
Atributos (propriedades e características dos objetos) e
Relacionamentos (formas de relacionamento entre objetos).
CAPÍTULO III – Ferramentas de Ontologia
Protégé 2000 - Ambiente interativo com arquitetura modulada.
Possui código aberto, importando e exportando para XML.
CAPÍTULO III – Ferramentas de Ontologia
WebODE - Desenvolvido na Universidade Politécnica de Madri.
Aplicação Web com ontologias armazenadas em BD relacionais.
CAPÍTULO III – Ferramentas de Ontologia
OntoEdit - Ambiente gráfico para edição, navegação, e
alteração de ontologias. Disponível como Free ou Professional.
CAPÍTULO III – Bibliotecas de Ontologia
Disponibilizam listas ou diretórios de ontologias com
mecanismos de buscas.

• DAML Ontology Library - ontologias em DAML.
• SchemaWeb - diretório de RDF em OWL e DAML+OIL.
• Swoogle - recursos RDF e ontologias.
• OntoSelect - recursos em RDF/S, DAML e OWL.
• Ontaria - diretório navegável em RDF e OWL.
CAPÍTULO III – Linguagens de Ontologia
A DAML (DARP Agent Markup Language) é uma
linguagem de ontologia e inferência baseada em RDF, uma
iniciativa da DARPA (Defense Advanced Research Projects
Agency) e oriunda da combinação de DAML e OIL, denominada
DAML+OIL, uma linguagem anteriormente proposta pelo W3C.
CAPÍTULO III – Bibliotecas de Ontologia
A OWL (Web Ontology Language) - para aplicações que
processam o conteúdo e o significado de informações em
termos em vocabulários e seus relacionamentos, expressando
significados e semânticas mais facilmente do que XML, RDF e
RDF Schema pois é uma revisão da linguagem DAML+OIL,
passando a fazer parte das recomendações do W3C para a Web
Semântica.
C A P Í T U L O I I I – W 3 C We b S e m â n t i c a
A Web Semântica foi uma iniciativa da World Wide Web
Consortium (W3C), desenvolvendo especificações para troca de
dados e processamento por programas independentes.
www.w3c.br/Home/WebHome
http://validator.w3.org
W3C - Consórcio criado para estimular a acessibilidade
em sites, estudar novas possibilidades em modelagens
semânticas, metadados e vocabulários. Atualmente se
empenha na abertura de dados governamentais.
C A P Í T U L O I I I – W 3 C We b S e m â n t i c a
A linguagem de consulta SPARQL para dados RDF é
formada pelos componentes Resource Description Framework
(RDF) Modelo Core, a linguagem RDF Schema, a linguagem
Ontology Web (OWL) e do Sistema de Organização do
Conhecimento Simples (SKOS). As recomendações POWDER
permitem encontrar descrições que podem ser "unidas" em
RDF. As recomendações GRDDL e RDFa integram o modelo RDF
e formatos XHTML.
C A P Í T U L O I I I – W 3 C We b S e m â n t i c a
RDFa adiciona dados estruturados para HTML, ou seja,
um meio para utilizar Linked Data em aplicações web. O
objetivo da linguagem R2RML é servir como uma linguagem
padrão mapeando dados relacionais e esquemas de banco de
dados relacional para RDF e OWL. O objetivo do Linked Perfil
Data Group é fornecer uma camada de "nível de entrada" da
Linked Data usando RESTful, baseado em API HTTP.
CAPÍTULO IV – Sistemas Distribuídos
Um Banco de Dados Relacional define maneiras de
armazenar,

manipular

e

recuperar

dados

estruturados

unicamente na forma de tabelas.
Foram desenvolvidos para facilitar o acesso aos dados
pois os usuários podem fazer perguntas através de vários
pontos em centenas de tabelas, associadas por chaves
(conjunto

de

relacionamentos.

seus

atributos),

através

de

regras

de
C A P Í T U L O I V – L i n ke d D a t a . O r g
Linked Data é a forma de se usar a internet para
conectar dados relacionados separados.
A Wikipedia define como "um termo usado para
descrever uma prática recomendada para expor, compartilhar e
se conectar pedaços de dados, informações e conhecimentos
sobre a Web Semântica usando URIs e RDF."
C A P Í T U L O I V – L i n ke d D a t a . O r g
O Movimento Open Data visa tornar os dados atuais
disponíveis livres para todos. Atualmente temos: Wikipédia,
Wikibooks, Geonames, MusicBrainz, WordNet, a bibliografia
DBLP e as publicações sob licenças Creative Commons ou Talis.
Até setembro de 2011 foram 295 conjuntos de dados
com mais de 31 bilhões de triplos RDF interligados por cerca de
504 milhões de ligações RDF.
C A P Í T U L O I V – L i n ke d D a t a P l a t f o r m
O Grupo de Trabalho Linked Data Platform desenvolveu
um protocolo para APIs RESTful Web Services para acessar
dados RDF utilizando SPARQL que podem ser definidas
independentemente para obter e alterar o estado de objetos
no servidor, identificados com URIs.
Aplicações LDP simples podem ser desenvolvidos e
implantados usando apenas RDF e HTTP.
Aplicações mais extensas do LDP podem ser construídas
utilizando RDFS, SPARQL, OWL, RIF, etc.
C A P Í T U L O I V – S PA R Q L
SPARQL é uma linguagem de consulta RDF para bancos
de dados capaz de recuperar e manipular dados.
Foi feito um padrão pelo Grupo RDF Data Access
Working do W3C e é uma das principais tecnologias da web
semântica pois permite uma consulta em padrões triplos,
conjunções, disjunções e padrões opcionais além de existir
implementações para várias linguagens de programação.
CAPÍTULO IV – DBPedia
A DBpedia

é uma tarefa conjunta para extrair

informações estruturadas da Wikipedia e disponibilizá-las na
Web, permitindo criar ligações com outros bancos de dados,
interligando e melhoramento da própria enciclopédia.
A DBpedia oferece um gigantesco banco de dados, em
várias línguas, compartilhados sob uma licença de domínio
público pois a ideia desse projeto é construir uma comunidade
colaborativa,

catalogando

o

conhecimento

humano,

modelando, representando e compartilhando informações.
Banco de dados da DBPedia sobre o Filme “O Homem do Futuro”:
Mesmo exemplo utilizando RDF:
Mesmo exemplo utilizando JSON:
Mesmo exemplo utilizando NTriples:
CAPÍTULO IV – Buscadores e Indexadores
Existem crawlers que permitem processar RDF/XML,
Turtle, Notation 3, RDF e microformatos para armazená-los
como arquivos ou repositórios RDF e o LDspider .
Exemplos:

Sig.ma

(http://sig.ma),

(ws.nju.edu.cn/falcons/objectsearch/index.jsp),
(swse.org/index.php),

Sindice

(swoogle.umbc.edu),

Watson

RST_API.html), etc.

(sindice.com),

Falcons
SWSE
Swoogle

(kmi-web05.open.ac.uk/
C A P Í T U L O V – Te c n o l o g i a s E m e r g e n t e s
A Web 1.0 tinha a interatividade limitada a troca de
emails e chats e a interatividade era praticamente nula.
Lévy (2010) chama a Web 2.0 de computação social,
onde a criação e layout dos conteúdos é feita pelo usuário.
A Web 3.0 foi anunciada pela primeira vez em 2011, por
Tim Berners Lee, James Hendler e Ora Lassila, intitulado “Web
Semântica: um novo formato de conteúdo para a Web que tem
significado para computadores e vai iniciar uma revolução de
novas possibilidades”.
C A P Í T U L O V – Te c n o l o g i a s E m e r g e n t e s
Em seu relatório de tecnologias emergentes, Gartner
afirmou que Column-store DBMS, Computação da Nuvem, InMemory Database Management Systems serão os três maiores
transformadores de tecnologias nos próximos cinco anos. Esse
mesmo relatório também cita Complex Event Processing,
conteúdo analítico, serviços de contextos enriquecidos,
Computação na Nuvem híbrida, Framework de Capacidades de
Informação e Telemática.
C A P Í T U L O V – B I G DATA
É o conjunto de soluções capaz de lidar com dados em
volume, variedade e velocidades gigantescos, analisando
informações em tempo real e sendo fundamental para a
tomada de decisões.
A quantidade global de dados digitais crescerá de forma
exponencial de 1,8 zettabytes, em 04/2012, para 7,9 zettabytes
em 3 anos (04/2015).
C A P Í T U L O V – B I G DATA 1 . 0 ( 0 4 / 2 0 1 2 )
C A P Í T U L O V – B I G DATA 2 . 0 ( 1 1 / 2 0 1 2 )
CAPÍTULO V – Projeto IBM Apache Hadoop
É um framework aberto em java para processamento
distribuído para Big Data praticamente financiador pelo Yahoo.
Foi o vencedor do Terabyte Sort Benchmark 2013 com
os

impressionantes

resultados:

Velocidade

máxima

de

processamento de 1.42 TB/min, com 102.5TB de dados
analisados e refinados em 72 minutos e utilizando 2100 nodes
de 2.3Ghz hexcore Xeon E5-2630, 64 GB memory, 12x3TB disks,
sendo 80% mais rápido que as concorrentes .
C A P Í T U L O V – Te r a b y t e S o r t B e n c h m a r k 2 0 1 3
CAPÍTULO V – IBM Big Data
CAPÍTULO V – Windows Azure
CAPÍTULO V – Google Big Query
Estatísticas de nascimento nos Estados Unidos de 1969
a 2008, sendo mais de 137 milhões de fileiras de dados.
C U R I O S I DA D E S

OLD PRINT SCREENS
FINAL

Contenu connexe

Tendances

Palestra Dia da Liberdade dos Documentos - 2011-03-30
Palestra Dia da Liberdade dos Documentos - 2011-03-30Palestra Dia da Liberdade dos Documentos - 2011-03-30
Palestra Dia da Liberdade dos Documentos - 2011-03-30UEPA
 
Curso Pesquisa Weblinux
Curso Pesquisa WeblinuxCurso Pesquisa Weblinux
Curso Pesquisa Weblinuxmarcosoliv
 
Aula metadados 2012
Aula metadados 2012Aula metadados 2012
Aula metadados 2012rachelvesu
 
Metadados
MetadadosMetadados
Metadadoslulinha
 
GT4 - Tópicos de Programação e Evolução WEB
GT4 - Tópicos de Programação e Evolução WEBGT4 - Tópicos de Programação e Evolução WEB
GT4 - Tópicos de Programação e Evolução WEBJhonatas Bruno
 
Interoperabilidade, metadados e outras coisitas mais
Interoperabilidade, metadados e outras coisitas maisInteroperabilidade, metadados e outras coisitas mais
Interoperabilidade, metadados e outras coisitas maisMarcos Luis Mori
 
Ver
VerVer
Vercsmp
 
Síntese Web Semântica U F P E Maio 2009
Síntese  Web  Semântica    U F P E Maio 2009Síntese  Web  Semântica    U F P E Maio 2009
Síntese Web Semântica U F P E Maio 2009gestao
 
Introdução a web semântica, ontologia e máquinas de busca
Introdução a web semântica, ontologia e máquinas de buscaIntrodução a web semântica, ontologia e máquinas de busca
Introdução a web semântica, ontologia e máquinas de buscaAlexandre Grolla
 

Tendances (18)

Tópico 3 - RDF
Tópico 3 - RDFTópico 3 - RDF
Tópico 3 - RDF
 
Palestra Introdução a Linked Data
Palestra Introdução a Linked DataPalestra Introdução a Linked Data
Palestra Introdução a Linked Data
 
Metadados: dados a respeito de dados
Metadados: dados a respeito de dadosMetadados: dados a respeito de dados
Metadados: dados a respeito de dados
 
Metadados com XML
Metadados com XMLMetadados com XML
Metadados com XML
 
Metadados
MetadadosMetadados
Metadados
 
Palestra Dia da Liberdade dos Documentos - 2011-03-30
Palestra Dia da Liberdade dos Documentos - 2011-03-30Palestra Dia da Liberdade dos Documentos - 2011-03-30
Palestra Dia da Liberdade dos Documentos - 2011-03-30
 
Base de Dados
Base de Dados Base de Dados
Base de Dados
 
Curso Pesquisa Weblinux
Curso Pesquisa WeblinuxCurso Pesquisa Weblinux
Curso Pesquisa Weblinux
 
Aula metadados 2012
Aula metadados 2012Aula metadados 2012
Aula metadados 2012
 
Metadados
MetadadosMetadados
Metadados
 
GT4 - Tópicos de Programação e Evolução WEB
GT4 - Tópicos de Programação e Evolução WEBGT4 - Tópicos de Programação e Evolução WEB
GT4 - Tópicos de Programação e Evolução WEB
 
Metadados
MetadadosMetadados
Metadados
 
Base de Dados
Base de DadosBase de Dados
Base de Dados
 
Interoperabilidade, metadados e outras coisitas mais
Interoperabilidade, metadados e outras coisitas maisInteroperabilidade, metadados e outras coisitas mais
Interoperabilidade, metadados e outras coisitas mais
 
Web semantica
Web semanticaWeb semantica
Web semantica
 
Ver
VerVer
Ver
 
Síntese Web Semântica U F P E Maio 2009
Síntese  Web  Semântica    U F P E Maio 2009Síntese  Web  Semântica    U F P E Maio 2009
Síntese Web Semântica U F P E Maio 2009
 
Introdução a web semântica, ontologia e máquinas de busca
Introdução a web semântica, ontologia e máquinas de buscaIntrodução a web semântica, ontologia e máquinas de busca
Introdução a web semântica, ontologia e máquinas de busca
 

Similaire à Do Gopher, Web Crawler, Google, pagerank, sitemaps, ontologia, ao Big Data, Windows Azure, IBM Hadoop.

Web 3.0 - A Semântica na Rede
Web 3.0 - A Semântica na RedeWeb 3.0 - A Semântica na Rede
Web 3.0 - A Semântica na RedeElvis Fusco
 
Microformats e Web Semântica, transformando seu site para web 3.0 - Road Show...
Microformats e Web Semântica, transformando seu site para web 3.0 - Road Show...Microformats e Web Semântica, transformando seu site para web 3.0 - Road Show...
Microformats e Web Semântica, transformando seu site para web 3.0 - Road Show...Renato Bongiorno Bonfanti
 
Web 2.0 - Uma revisão da Internet
Web 2.0 - Uma revisão da InternetWeb 2.0 - Uma revisão da Internet
Web 2.0 - Uma revisão da InternetRommel Carneiro
 
Disciplina Sociedade da Informação Semântica e Ontologias
Disciplina Sociedade da Informação Semântica e OntologiasDisciplina Sociedade da Informação Semântica e Ontologias
Disciplina Sociedade da Informação Semântica e OntologiasSociedade da Informação
 
Arquiteturadeinformao apresentao2-03-05-10
Arquiteturadeinformao apresentao2-03-05-10Arquiteturadeinformao apresentao2-03-05-10
Arquiteturadeinformao apresentao2-03-05-10Rafael Marinho
 
Inteligência Coletiva Empresarial
Inteligência Coletiva EmpresarialInteligência Coletiva Empresarial
Inteligência Coletiva EmpresarialElvis Fusco
 
4 semestre trabalho individual analise e desenvolvimento de sistemas 2014
4 semestre trabalho individual analise e desenvolvimento de sistemas 20144 semestre trabalho individual analise e desenvolvimento de sistemas 2014
4 semestre trabalho individual analise e desenvolvimento de sistemas 2014WANDERSON JONER
 
Linked Data - Minicurso - SBBD 2011
Linked Data - Minicurso - SBBD 2011Linked Data - Minicurso - SBBD 2011
Linked Data - Minicurso - SBBD 2011Regis Magalhães
 
Modeloestruturaçaoads
ModeloestruturaçaoadsModeloestruturaçaoads
Modeloestruturaçaoadscsmp
 
Arquiteturade informaçaoo senac-planetaweb
Arquiteturade informaçaoo senac-planetawebArquiteturade informaçaoo senac-planetaweb
Arquiteturade informaçaoo senac-planetawebDan
 
Web 2.0 - Uma Visão Corporativa e Tecnológica
Web 2.0 - Uma Visão Corporativa e TecnológicaWeb 2.0 - Uma Visão Corporativa e Tecnológica
Web 2.0 - Uma Visão Corporativa e TecnológicaElvis Fusco
 

Similaire à Do Gopher, Web Crawler, Google, pagerank, sitemaps, ontologia, ao Big Data, Windows Azure, IBM Hadoop. (20)

Web 3.0 - A Semântica na Rede
Web 3.0 - A Semântica na RedeWeb 3.0 - A Semântica na Rede
Web 3.0 - A Semântica na Rede
 
Microformats e Web Semântica, transformando seu site para web 3.0 - Road Show...
Microformats e Web Semântica, transformando seu site para web 3.0 - Road Show...Microformats e Web Semântica, transformando seu site para web 3.0 - Road Show...
Microformats e Web Semântica, transformando seu site para web 3.0 - Road Show...
 
Web 2.0 - Uma revisão da Internet
Web 2.0 - Uma revisão da InternetWeb 2.0 - Uma revisão da Internet
Web 2.0 - Uma revisão da Internet
 
WEB 3.0
WEB 3.0WEB 3.0
WEB 3.0
 
web_semantica
web_semanticaweb_semantica
web_semantica
 
Websemantica
WebsemanticaWebsemantica
Websemantica
 
Web 3 - A Web de Dados
Web 3 - A Web de DadosWeb 3 - A Web de Dados
Web 3 - A Web de Dados
 
Web_2.0 Web Standards Web Semântica
Web_2.0 Web Standards Web SemânticaWeb_2.0 Web Standards Web Semântica
Web_2.0 Web Standards Web Semântica
 
Disciplina Sociedade da Informação Semântica e Ontologias
Disciplina Sociedade da Informação Semântica e OntologiasDisciplina Sociedade da Informação Semântica e Ontologias
Disciplina Sociedade da Informação Semântica e Ontologias
 
Arquiteturadeinformao apresentao2-03-05-10
Arquiteturadeinformao apresentao2-03-05-10Arquiteturadeinformao apresentao2-03-05-10
Arquiteturadeinformao apresentao2-03-05-10
 
Inteligência Coletiva Empresarial
Inteligência Coletiva EmpresarialInteligência Coletiva Empresarial
Inteligência Coletiva Empresarial
 
Os mecanismos-de-busca-e-suas-implicações
Os mecanismos-de-busca-e-suas-implicaçõesOs mecanismos-de-busca-e-suas-implicações
Os mecanismos-de-busca-e-suas-implicações
 
Os mecanismos-de-busca-e-suas-implicações
Os mecanismos-de-busca-e-suas-implicaçõesOs mecanismos-de-busca-e-suas-implicações
Os mecanismos-de-busca-e-suas-implicações
 
4 semestre trabalho individual analise e desenvolvimento de sistemas 2014
4 semestre trabalho individual analise e desenvolvimento de sistemas 20144 semestre trabalho individual analise e desenvolvimento de sistemas 2014
4 semestre trabalho individual analise e desenvolvimento de sistemas 2014
 
Linked Data - Minicurso - SBBD 2011
Linked Data - Minicurso - SBBD 2011Linked Data - Minicurso - SBBD 2011
Linked Data - Minicurso - SBBD 2011
 
Modeloestruturaçaoads
ModeloestruturaçaoadsModeloestruturaçaoads
Modeloestruturaçaoads
 
Arquiteturade informaçaoo senac-planetaweb
Arquiteturade informaçaoo senac-planetawebArquiteturade informaçaoo senac-planetaweb
Arquiteturade informaçaoo senac-planetaweb
 
Web 2.0 - Uma Visão Corporativa e Tecnológica
Web 2.0 - Uma Visão Corporativa e TecnológicaWeb 2.0 - Uma Visão Corporativa e Tecnológica
Web 2.0 - Uma Visão Corporativa e Tecnológica
 
Curso de Pesquisa na Web
Curso de Pesquisa na WebCurso de Pesquisa na Web
Curso de Pesquisa na Web
 
Folksonomia
FolksonomiaFolksonomia
Folksonomia
 

Do Gopher, Web Crawler, Google, pagerank, sitemaps, ontologia, ao Big Data, Windows Azure, IBM Hadoop.

  • 1. DOS ANTIGOS SISTEMAS DE BUSCA NA INTERNET AO NOVO PROCESSAMENTO DE DADOS NÃO-ESTRUTURADOS (BIG DATA) Leandro Pimentel Borges Matr. 1020900
  • 2. P R O B L E M ÁT I C A : Atualmente a quantidade de dados gerados por segundo é muito maior do que a gerada há 10 anos no período de um ano, além desta ser não-estruturada também é preciso analisa-la e gerar resultados precisos em um curto período de tempo - BIG DATA. Para ser dado outro grande passo na evolução da internet é necessário que todas as máquinas se comuniquem e entendam os dados que recebem utilizando ONTOLOGIA.
  • 3. Problema a ser explorado: O problema a ser explorado é a falta de conhecimento, tanto o usuário comum como do aluno inicial, de como funcionavam os primeiros buscadores da internet, como evoluíram, como encontra-se a internet atual, interação de sites e bancos de dados, como caminha o atual sistema de gerenciamento de informação dinâmico da internet e como será a internet do futuro. O objetivo é explicar tudo isso e de forma resumida mas sem aprofundar-se tecnologicamente em cada assunto.
  • 4. CAPÍTULO I –Motores de busca (buscadores) É um programa para encontrar informações armazenadas em um banco de dados a partir de palavras-chave indicadas, apresentando os resultados organizadamente, e de maneira rápida e eficiente. As maiores empresas na área de busca em 01/10/2012 são Google (Us$ 249,2 bilhões), a Microsoft (Us$ 248,7 bilhões), o Yahoo disponível). (Us$ 20 bilhões) e o Bing (valor não
  • 5. CAPÍTULO II – História dos Buscadores 1990 – Archie (arquivos em FTP anônimos); 1991 – Gopher (textos em geral); Veronica e Jughead (para o Gopher); 1993 – Wandex (índice de textos), Aliweb; 1994 – Web Crawler (buscador moderno), Lycos; 1995 – Yahoo Diretórios (formulário para cadastro); 1998 – beta spider na página inicial, Google; 2000 – robot automático varria links de sites (motores indexantes, crawlers ou spiders).
  • 6. O Webcrawler aparece no filme “Possuídos”, (Fallen / 1998), com Denzel Washington, aos 21:25min, como exemplo de principal buscador.
  • 7. CAPÍTULO II – Tipos de Buscadores Globais (Google, Yahoo, Bing); Verticais (Buscapé, Bondfaro); Locais (Telelistas, Apontador, Icarros); Diretórios (índices de categorias); Open Directory (www.DMOZ.org);
  • 8. CAPÍTULO II – Indexação de páginas Forma mais eficiente de organizar e encontrar dados; Formato atual: XML (maior eficácia, crawler simples) Crawlers varrem sites copiando dados p/ B.D.; Pagerank definindo importância do site; Metatags definindo conteúdo para buscadores; keywords, description, content-language, content-type, author, reply-to, generator. Comandos: refresh, Header "Location"
  • 9.
  • 10. CAPÍTULO II – ROBOTS O robots.txt é um arquivo que é procurado pelas ferramentas de busca para saber quais partes do site não devem ser indexados. Robots.txt User-agent: * Disallow: /cgi-bin/ #scripts e programas Disallow: /logado/ Disallow: /tmp/ #parte de testes Disallow: /private/ #arquivos da empresa
  • 11.
  • 12. CAPÍTULO II – SITEMAPS Um Sitemap é um arquivo XML que lista os URLs de um site para facilitar a indexação do site pelos motores de busca de forma mais inteligente, podendo incluir informações sobre cada URL, última atualização, etc. Enquanto os sitemaps servem para inclusão de URL os robots.txt tem a função contrária, servindo para exclusão. O Google deu início ao Sitemaps versão 0.85 em junho de 2005, MSN e Yahoo anunciaram apoio em novembro de 2006 e em abril de 2007 a Ask e a IBM iniciaram suporte.
  • 13.
  • 14.
  • 15. C A P Í T U L O I I – M E TA B U S C A É um sistema que realiza uma pesquisa em vários mecanismos de busca ao mesmo tempo, funcionando da mesma forma que os motores de busca convencionais e com a vantagem de padronizar e mostrar um resultado muito maior. Os metabuscadores (ou multibuscadores) são muito eficientes quando utilizados na busca de termos muito específicos e quando há necessidade de cruzar muitos dados afim de estreitar o resultado final de uma pesquisa.
  • 16. C A P Í T U L O I I – W E B C R AW L E R Também chamados de agentes, bots, spiders, robots ou scutters. São indexadores automáticos que navegam pela internet de uma forma metódica e automatizada visitando cada página de um site, colhendo informações e copiando todo o texto principal e indexando-as ao banco de dados. Bots também podem ser usados para colher emails, verificar atualizações, validar links, validar código fonte, checar erros, apagar links inválidos dos bancos de dados, adicionar novos links, etc.
  • 17.
  • 18. C A P Í T U L O I I – A LTAV I S TA O AltaVista (www.altavista.digital.com) começou a funcionar em 15/12/1995, pertencia a Digital Equipment Corporation e chegava a fazer 61.000 pesquisas diárias. Em 1998 a Compac compra o Altavista, depois foi comprada em 02/2003 pela Overture Services (GoTo.com) e depois comprada pelo Yahoo, em 08/2004, por Us$ 1,63 bilhão. Enquanto esta monografia estava sendo elaborada, o vice-presidente do Yahoo!, Jay Rossiter, anunciou que dia 08/07/2013 o Altavista Search encerraria seus serviços.
  • 19.
  • 20. CAPÍTULO II – Search Engine Optimization (SEO) É o processo de influenciar a visibilidade de um site num mecanismo de pesquisa em resultados gratuitos ou pagos afim de receber mais visitantes e ter maior lucro, podendo pesquisar por imagens, vídeos, notícias, etc. Provavelmente essa expressão SEO entrou em uso em 1997 com John Audette e sua empresa Multimedia Marketing Group.
  • 22. CAPÍTULO III – Ontologia Ontologia é uma modelagem de dados de um conjunto de conceitos, objetos e estruturas. É utilizada em inteligência artificial, web semântica, engenharia de software e arquitetura da informação, como uma forma de representação de conhecimento. Ontologias geralmente descrevem Indivíduos (objetos básicos), Classes (conjuntos, coleções ou tipos de objetos), Atributos (propriedades e características dos objetos) e Relacionamentos (formas de relacionamento entre objetos).
  • 23. CAPÍTULO III – Ferramentas de Ontologia Protégé 2000 - Ambiente interativo com arquitetura modulada. Possui código aberto, importando e exportando para XML.
  • 24. CAPÍTULO III – Ferramentas de Ontologia WebODE - Desenvolvido na Universidade Politécnica de Madri. Aplicação Web com ontologias armazenadas em BD relacionais.
  • 25. CAPÍTULO III – Ferramentas de Ontologia OntoEdit - Ambiente gráfico para edição, navegação, e alteração de ontologias. Disponível como Free ou Professional.
  • 26. CAPÍTULO III – Bibliotecas de Ontologia Disponibilizam listas ou diretórios de ontologias com mecanismos de buscas. • DAML Ontology Library - ontologias em DAML. • SchemaWeb - diretório de RDF em OWL e DAML+OIL. • Swoogle - recursos RDF e ontologias. • OntoSelect - recursos em RDF/S, DAML e OWL. • Ontaria - diretório navegável em RDF e OWL.
  • 27. CAPÍTULO III – Linguagens de Ontologia A DAML (DARP Agent Markup Language) é uma linguagem de ontologia e inferência baseada em RDF, uma iniciativa da DARPA (Defense Advanced Research Projects Agency) e oriunda da combinação de DAML e OIL, denominada DAML+OIL, uma linguagem anteriormente proposta pelo W3C.
  • 28. CAPÍTULO III – Bibliotecas de Ontologia A OWL (Web Ontology Language) - para aplicações que processam o conteúdo e o significado de informações em termos em vocabulários e seus relacionamentos, expressando significados e semânticas mais facilmente do que XML, RDF e RDF Schema pois é uma revisão da linguagem DAML+OIL, passando a fazer parte das recomendações do W3C para a Web Semântica.
  • 29. C A P Í T U L O I I I – W 3 C We b S e m â n t i c a A Web Semântica foi uma iniciativa da World Wide Web Consortium (W3C), desenvolvendo especificações para troca de dados e processamento por programas independentes. www.w3c.br/Home/WebHome http://validator.w3.org W3C - Consórcio criado para estimular a acessibilidade em sites, estudar novas possibilidades em modelagens semânticas, metadados e vocabulários. Atualmente se empenha na abertura de dados governamentais.
  • 30. C A P Í T U L O I I I – W 3 C We b S e m â n t i c a A linguagem de consulta SPARQL para dados RDF é formada pelos componentes Resource Description Framework (RDF) Modelo Core, a linguagem RDF Schema, a linguagem Ontology Web (OWL) e do Sistema de Organização do Conhecimento Simples (SKOS). As recomendações POWDER permitem encontrar descrições que podem ser "unidas" em RDF. As recomendações GRDDL e RDFa integram o modelo RDF e formatos XHTML.
  • 31. C A P Í T U L O I I I – W 3 C We b S e m â n t i c a RDFa adiciona dados estruturados para HTML, ou seja, um meio para utilizar Linked Data em aplicações web. O objetivo da linguagem R2RML é servir como uma linguagem padrão mapeando dados relacionais e esquemas de banco de dados relacional para RDF e OWL. O objetivo do Linked Perfil Data Group é fornecer uma camada de "nível de entrada" da Linked Data usando RESTful, baseado em API HTTP.
  • 32. CAPÍTULO IV – Sistemas Distribuídos Um Banco de Dados Relacional define maneiras de armazenar, manipular e recuperar dados estruturados unicamente na forma de tabelas. Foram desenvolvidos para facilitar o acesso aos dados pois os usuários podem fazer perguntas através de vários pontos em centenas de tabelas, associadas por chaves (conjunto de relacionamentos. seus atributos), através de regras de
  • 33. C A P Í T U L O I V – L i n ke d D a t a . O r g Linked Data é a forma de se usar a internet para conectar dados relacionados separados. A Wikipedia define como "um termo usado para descrever uma prática recomendada para expor, compartilhar e se conectar pedaços de dados, informações e conhecimentos sobre a Web Semântica usando URIs e RDF."
  • 34. C A P Í T U L O I V – L i n ke d D a t a . O r g O Movimento Open Data visa tornar os dados atuais disponíveis livres para todos. Atualmente temos: Wikipédia, Wikibooks, Geonames, MusicBrainz, WordNet, a bibliografia DBLP e as publicações sob licenças Creative Commons ou Talis. Até setembro de 2011 foram 295 conjuntos de dados com mais de 31 bilhões de triplos RDF interligados por cerca de 504 milhões de ligações RDF.
  • 35.
  • 36.
  • 37. C A P Í T U L O I V – L i n ke d D a t a P l a t f o r m O Grupo de Trabalho Linked Data Platform desenvolveu um protocolo para APIs RESTful Web Services para acessar dados RDF utilizando SPARQL que podem ser definidas independentemente para obter e alterar o estado de objetos no servidor, identificados com URIs. Aplicações LDP simples podem ser desenvolvidos e implantados usando apenas RDF e HTTP. Aplicações mais extensas do LDP podem ser construídas utilizando RDFS, SPARQL, OWL, RIF, etc.
  • 38. C A P Í T U L O I V – S PA R Q L SPARQL é uma linguagem de consulta RDF para bancos de dados capaz de recuperar e manipular dados. Foi feito um padrão pelo Grupo RDF Data Access Working do W3C e é uma das principais tecnologias da web semântica pois permite uma consulta em padrões triplos, conjunções, disjunções e padrões opcionais além de existir implementações para várias linguagens de programação.
  • 39. CAPÍTULO IV – DBPedia A DBpedia é uma tarefa conjunta para extrair informações estruturadas da Wikipedia e disponibilizá-las na Web, permitindo criar ligações com outros bancos de dados, interligando e melhoramento da própria enciclopédia. A DBpedia oferece um gigantesco banco de dados, em várias línguas, compartilhados sob uma licença de domínio público pois a ideia desse projeto é construir uma comunidade colaborativa, catalogando o conhecimento humano, modelando, representando e compartilhando informações.
  • 40. Banco de dados da DBPedia sobre o Filme “O Homem do Futuro”:
  • 44. CAPÍTULO IV – Buscadores e Indexadores Existem crawlers que permitem processar RDF/XML, Turtle, Notation 3, RDF e microformatos para armazená-los como arquivos ou repositórios RDF e o LDspider . Exemplos: Sig.ma (http://sig.ma), (ws.nju.edu.cn/falcons/objectsearch/index.jsp), (swse.org/index.php), Sindice (swoogle.umbc.edu), Watson RST_API.html), etc. (sindice.com), Falcons SWSE Swoogle (kmi-web05.open.ac.uk/
  • 45. C A P Í T U L O V – Te c n o l o g i a s E m e r g e n t e s A Web 1.0 tinha a interatividade limitada a troca de emails e chats e a interatividade era praticamente nula. Lévy (2010) chama a Web 2.0 de computação social, onde a criação e layout dos conteúdos é feita pelo usuário. A Web 3.0 foi anunciada pela primeira vez em 2011, por Tim Berners Lee, James Hendler e Ora Lassila, intitulado “Web Semântica: um novo formato de conteúdo para a Web que tem significado para computadores e vai iniciar uma revolução de novas possibilidades”.
  • 46. C A P Í T U L O V – Te c n o l o g i a s E m e r g e n t e s Em seu relatório de tecnologias emergentes, Gartner afirmou que Column-store DBMS, Computação da Nuvem, InMemory Database Management Systems serão os três maiores transformadores de tecnologias nos próximos cinco anos. Esse mesmo relatório também cita Complex Event Processing, conteúdo analítico, serviços de contextos enriquecidos, Computação na Nuvem híbrida, Framework de Capacidades de Informação e Telemática.
  • 47. C A P Í T U L O V – B I G DATA É o conjunto de soluções capaz de lidar com dados em volume, variedade e velocidades gigantescos, analisando informações em tempo real e sendo fundamental para a tomada de decisões. A quantidade global de dados digitais crescerá de forma exponencial de 1,8 zettabytes, em 04/2012, para 7,9 zettabytes em 3 anos (04/2015).
  • 48. C A P Í T U L O V – B I G DATA 1 . 0 ( 0 4 / 2 0 1 2 )
  • 49. C A P Í T U L O V – B I G DATA 2 . 0 ( 1 1 / 2 0 1 2 )
  • 50.
  • 51. CAPÍTULO V – Projeto IBM Apache Hadoop É um framework aberto em java para processamento distribuído para Big Data praticamente financiador pelo Yahoo. Foi o vencedor do Terabyte Sort Benchmark 2013 com os impressionantes resultados: Velocidade máxima de processamento de 1.42 TB/min, com 102.5TB de dados analisados e refinados em 72 minutos e utilizando 2100 nodes de 2.3Ghz hexcore Xeon E5-2630, 64 GB memory, 12x3TB disks, sendo 80% mais rápido que as concorrentes .
  • 52. C A P Í T U L O V – Te r a b y t e S o r t B e n c h m a r k 2 0 1 3
  • 53. CAPÍTULO V – IBM Big Data
  • 54. CAPÍTULO V – Windows Azure
  • 55. CAPÍTULO V – Google Big Query Estatísticas de nascimento nos Estados Unidos de 1969 a 2008, sendo mais de 137 milhões de fileiras de dados.
  • 56. C U R I O S I DA D E S OLD PRINT SCREENS
  • 57.
  • 58.
  • 59.
  • 60.
  • 61.
  • 62.
  • 63.
  • 64.
  • 65.
  • 66.
  • 67.
  • 68.
  • 69.
  • 70.
  • 71.
  • 72.
  • 73.
  • 74. FINAL