Este documento fornece uma introdução aos princípios e tecnologias por trás dos Linked Data e da Web Semântica. Ele discute a motivação para estruturar dados na web, as limitações da web atual, e como RDF, URIs e links entre dados podem superar essas limitações e conectar ilhas de informação em um espaço global de dados.
1. Linked Data parte 1
Mestrado em Ciência da Computação
Integração de Dados e Warehouse
Bruno Felipe – bffs@cin.ufpe.br
2. Agenda
o Motivação
o A Web Hoje
o Web de Documentos
o Web Semântica
o Princípios de Linked Data
o O Modelo RDF
o Serialização do RDF
o Conectando Coisas
o Conclusão
o Referências
o O que vem por ai
2
4. Motivação
Vivemos em um mundo cercado por informações de
diversos tipos e com a popularização da Internet, este
cenário tomou proporções ainda maiores.
Temos sempre a necessidade de compartilhar certos tipos
de informações.
Na Internet por exemplo, vários dados são compartilhados
entre as empresas:
o Amazon e Yahoo!;
o Jornais tais como: The Guardian e The New York Times;
o e instituições governamentais dos US e UK;
4
6. Motivação [2]
A força e a diversidade desses tipos de sistemas, como
visto previamente, fez surgir três perguntas pertinentes
aos dados na Internet:
o Qual a melhor maneira de provê acesso para os dados e
estes serem reusados da forma mais fácil?
o Como permitir a descoberta de dados relevantes entre
os inúmeros conjuntos de dados disponíveis?
o Como permitir que aplicações integrem dados em larga
escala provenientes de fontes de dados desconhecidas?
6
7. Motivação [3]
Da mesma forma que a Internet revolucionou a maneira
que nos conectamos e consumimos documentos, a
mesma pode revolucionar a maneira que nós
descobrimos, acessamos, integramos e usamos os dados.
Com uma série de princípios e tecnologias chamadas de
Linked Data que permiti o compartilhamento e reuso de
dados em grande escala.
7
8. A Web Hoje
Atualmente, um fator chave na re-usabilidade de dados na web é que
os mesmos são bem estruturados.
Quanto mais bem definida a estrutura de um dado, mais fácil é a
criação de ferramentas para processá-lo e reutilizá-lo.
Mas ao final, na web, tudo se resumi à HTML.
8
9. A Web Hoje [2]
Visando melhorar este problema com os dados não-estruturados, foi
criado os microformats.
Microformats podem ser usados para publicar dados estruturados
descrevendo alguns tipos de entidades específicas tais como,
pessoas, organizações, eventos e etc...
9
10. A Web Hoje [3]
Embora os microformats, ajudem na solução de problemas
específicos, eles são muito limitados quanto ao conjunto de
atributos que podem descrever uma entidade.
Além disso, não é possível exprimir relacionamentos entre as
entidades.
X alsoHas
X alsoParticipate
10
12. A Web Hoje [5]
Uma abordagem mais genérica atualmente para permitir dados
estruturados na Web são as APIs.
APIs também podem ser chamadas de Web Services. Uma API fornece
uma série de métodos públicos para consultar dados por meio do
protocolo HTTP.
Um exemplo de aplicação que fornece uma API é o Twitter, onde
podemos ter acesso a vários métodos para manipular a aplicação.
Ainda não é a melhor solução...
12
13. A Web Hoje [6]
As APIs oferecem interface proprietárias;
Não se pode conectar dados de APIs diferentes;
Várias APIs existentes;
X X
13
14. A Web de Documentos
De humanos para humanos
14
15. A Web de Documentos
As máquinas não são bem vindas.
15
16. A Web de Documentos
O que fazer para tornar a Web em um verdadeiro espaço
global de dados?
o Aumentar a estrutura do conteúdo da Web?
o Provê significado para os dados?
o Estabelecer padrões para publicação de dados e criação de links
entre eles?
16
17. Web Semântica
“A Web semântica é uma extensão da Web atual, que permitirá
aos computadores e humanos trabalharem em cooperação. A Web
semântica interliga significados de palavras e, neste âmbito, tem
como finalidade conseguir atribuir um significado (sentido) aos
conteúdos publicados na Internet de modo que seja perceptível
tanto pelo humano como pelo computador.”
Tim Berners-Lee, James Hendler e Ora Lassila
17
18. De uma Ilha de Dados para um Data Space Global
Conectando dados distribuídos através da Web necessita de um
mecanismo padrão para especificar a existência e o significado das
conexões entre os itens descritos nos dados.
Este mecanismo é oferecido pelo Resource Description Framework
(RDF).
RDF oferece uma maneira de descrever diversas
entidades do mundo real tais como:
pessoas, localizações, eventos e etc. Além
disso, permite expressar o relacionamento destas
entidades com outras coisas.
18
19. De uma Ilha de Dados para um Data Space Global
Então agora podemos fazer as APIs se comunicarem, por exemplo:
myBook
forSaleIn
locatedIn
19
20. De uma Ilha de Dados para um Data Space Global
Pontos chave:
o RDF conecta coisas, não só documentos;
o Conectores RDF são tipados;
o Mais descoberta de dados;
o Mais reuso dos dados;
Linked Data permite a conexão entre diferentes fontes de dados e
consequentemente conectar estas fontes em um Data Space
global, dando origem à Web de Dados (Web of Data).
20
21. Princípios de Linked Data
Como dito anteriormente, Linked Data é um termo que refere-se a
um conjunto de princípios para publicar e interligar dados
estruturados na Web.
Estes princípios são os seguintes:
o Use URIs para nomear as coisas;
o Use URIs HTTP para que as pessoas possam requisitar mais
,
informações sobre essas coisas;
o Quando alguém requisitar uma URI, forneça informações úteis
(RDF);
o Inclua links para outras URIs, desta forma promovendo a
descoberta;
21
22. Princípios de Linked Data
Estendem a Web em direção a um espaço global de informações.
1. Por meio do uso do RDF para publicação de dados estruturados na
Web.
2. Por meio de links entre itens de dados em fontes de dados
distintas.
22
23. Oferecendo Informações Úteis (RDF)
Resource Description Framework é um framework para descrever
recursos na Web, como por exemplo o título, autor, conteúdo, data
de modificação e informações autorais de um web site.
É um formato padronizado para conteúdo estruturado;
É possível expressar relacionamentos entre as entidades;
É um modelo simples baseados em triplas;
Documento com informações para as máquinas;
É uma recomendação da W3C;
Pode ser serializado com XML;
23
24. O Modelo de Dados RDF
O modelo RDF representa as informações como grafos direcionados
com nós e arcos rotulados.
24
25. O Modelo de Dados RDF
Em RDF uma descrição do recurso é representada como uma série de
triplas. As três partes da tripla são chamadas: sujeito, predicado e
objeto.
Bruno Felipe hasNickName bffs
Sujeito Predicado Objeto
URI Literal ou URI
Tipo de
Relacionamento
25
26. O Modelo de Dados RDF
Predicados como o mostrado anteriormente hasNickName, são
determinados por vocabulários existentes para cada domínio.
Cada domínio cria seu próprio vocabulário e o disponibiliza para reuso
em um repositório.
Alguns destes repositórios são:
o The Friend of a Friend (FOAF);
o The Music Ontology;
o The Programmes Ontology;
o The Creative Commom Schema;
26
27. O Modelo de Dados RDF
Irá haver casos em que novos termos terão que ser criados
para um domínio específico, neste caso, os novos termos
devem ser mapeados para termos relacionados, existentes em
outros vocabulários bem definidos.
27
28. Serialização do RDF
RDF é um modelo de dados, por isso deve ser acoplado em alguma
linguagem para ser entendida pela máquina.
A sintaxe mais aceita no momento é a RDF/XML padronizada pela
W3C. [1]
28
29. Serialização do RDF
Quando um documento RDF é requisitado na Web, o MIME type que
deve ser usado com o protocolo HTTP é o application/rdf+xml.
Vejamos no exemplo do site:
http://rdf.myexperiment.org/
29
30. Serialização do RDF
RDFa é outro tipo de formato para serialização de RDF bastante usado
[1]. Este formato é acoplado dentro do HTML em triplas. Se torna
uma opção mais cômoda para desenvolvedores web que estão
adaptados ao estilo de sintaxe HTML.
30
31. Serialização do RDF
O Turtle é outro formato de serialização bastante popular [1] devido à
criação de namespaces para uso na criação de documentos RDF. É o
mais requisitado quando o documento RDF é lido por humanos,
criado a mão e do “zero”.
31
32. Conectando Coisas
Um dos princípios de Linked Data é fazer que arquivos RDF apontem
para outros recursos na Web, ou seja, para outras fontes de dados.
Este é um dos recursos fundamentais da Web de Dados já que estes
links são os responsáveis por tornarem ilhas de dados em algo global
e interconectado na Web.
Estes tipos de links são chamados links RDF externos (external RDF
links) e existem três deles:
o Links de Relacionamento (Relationship Links);
o Links de Identidade (Identity Links);
o Links de Vocabulários (Vocabulary Links);
32
33. Conectando Coisas
Links de Relacionamentos - Apontam para coisas relacionadas em
outras fontes de dados. Por exemplo, permite pessoas apontarem
para informações de background sobre lugares que viveu ou livros
que gosta, as publicações que escreveram e etc.
Dave Smith – coordenadas de onde mora – cidade onde mora – interesses – quem ele conhece
33
34. Conectando Coisas
Links de Entidade - São documentos que apontam para outros
documentos que descrevem uma entidade, seja esta uma pessoa, um
lugar, um animal, um objeto e etc.
Pode haver casos em que uma entidade (uma pessoa por exemplo) já
possui uma descrição em algum recurso na Web. Para fazer
referência a esta mesma descrição, a pessoa pode colocar no seu
site pessoal o link http>//www.w3.org/2002/07/owl#sameAs. Desta
forma quer dizer que ambos os URIs expressam a mesma entidade do
mundo real.
34
35. Conectando Coisas
Links de Vocabulários - Documentos que apontam para outros
documentos que definem vocabulários para determinados domínios.
Links de Vocabulários é uma maneira de oferecer a integração de
dados entre esquemas RDF.
A Web de Dados evita ao máximo a heterogeneidade partindo de duas
abordagens:
o Reuso dos termos dos vocabulários bem estabilizados;
o Alta descrição de dados provindos de um vocabulário desconhecido;
35
36. Conectando Coisas
No exemplo abaixo vemos como um vocabulário proprietário
http://biglynx.co.uk/vocab/sme#SmallMEdiumEnterprise está
interligado com termos relacionados ao Dbpedia, Freebase, UMBEL e
OpenCyc.
36
37. Conclusão
Com certeza precisamos ir rumo a uma Internet mais semântica. Onde
os dados têm que oferecer significados também para a máquina, não
só para os humanos.
RDF é um padrão bastante usado e que expressa bem significados,
mas outras tecnologias podem aumentar este poder de
expressividade.
Muitos esforços estão sendo feitos por grandes empresas para
começar essa revolução na Web atual.
Publiquem em RDF, usem HTML5 e microformats.
37
38. O que vem por ai...
o Quem publica atualmente seguindo os princípios de Linked Data;
o Detalhes da publicação;
o Topologia dos conjuntos de dados ligados de 2007 até 2011;
38
40. Referências
[1] Book - Linked Data Evolving the Web into a Global Data Space
www.microformats.org
www.w3.org/RDF/
The Semantic Web A new form of Web content that is meaningful to
computers will unleash a revolution of new possibilities by TIM
BERNERS-LEE, JAMES HENDLER and ORA LASSILA
40
41. Linked Data parte 1
Mestrado em Ciência da Computação
Integração de Dados e Warehouse
Bruno Felipe – bffs@cin.ufpe.br