Este documento discute a anotação semântica em documentos não estruturados, comparando diferentes padrões como Microformatos, eRDF, RDFa e Microdata. Também apresenta ferramentas de anotação e extração semântica e discute como elas representam e armazenam anotações.
1. Anotação semântica em
documentos não estruturados
Celso Araujo Fontes
Professoras: Maria Claudia R. Cavalcanti, D.Sc. e
Ana Maria de Carvalho Moura, Dr. Ing
SC 214202 – maio de 2010 Instituto Militar de Engenharia
Sistemas de Banco de Dados, Profa. Maria Claudia Curso de Mestrado em Sistemas e Computação
2. Introdução
Existem hoje bilhões de documentos na Web e
ainda milhões de páginas em intranets, sendo
acessados por 1,5 bilhões de usuários no mundo [1].
A maior parte destas informações é construída
apenas para o consumo humano.
Vem à tona a necessidade do gerenciamento desse
conteúdo, no que diz respeito à dificuldade na
busca, organização, acesso e manutenção das
informações.
3. Problemas da Web Atual
Busca da Informação
Problema de “precisão” das atuais
ferramentas de pesquisa
– Navegação através de links e uso de palavras
chaves p/ busca
– Problemas p/ identificar, descrever e localizar
recursos de forma mais eficiente [2]
4. Problemas da Web Atual
A falta de meta dados na web inibe um
processamento por máquina mais
inteligente.
5. Metadados
Metadados permitem descrever informações,
auxiliando na identificação, localização e
gerenciamento dos dados (BONIFACIO,
2002).
6. Ontologias
Segundo Grubber (GRUBBER, 1992), uma ontologia
é uma especificação explícita de uma conceituação.
A conceituação é uma abstração simplificada do
domínio em que desejamos representar para algum
propósito.
No campo da Filosofia, as ontologias têm sido
utilizadas para tentar descrever domínios naturais
(as coisas naturais do mundo) e a existência dos
seres e coisas em si, desvendando, desta forma, o
significado das coisas no mundo (LIMA e
SCHWABE, 2004).
7. Web Semântica
A web semântica é “uma extensão da web
atual, em que a informação é dada com um
significado bem definido, permitindo que
computadores e pessoas trabalhem em
cooperação”. [Bernes-Lee, 2001]
8. Web Semântica e Ontologias
Evolução natural de esforços anteriores
– Metadados na Web
– Padrões de Metadados
– Arquiteturas de Metadados
– RDF e RDFS foram os precursores das ontologias na Web
– Rápida evolução das demais iniciativas
DAML
OIL
DAML+OIL
OWL
OWL2
9. Web Semântica – Representação do
Conhecimento
RDF
RDFS
OWL
OWL2
10. O que significa chamar uma tecnologia
de “semântica” ?
Pretende:
– Representar conhecimento
– Compartilhar um entendimento comum em relação ao
significado
– Ser apropriada para a ligação de recursos sob diferentes
esquemas de representação
– Estabelecer associações entre os itens que não estão
explicitas
– Apoiar inferência sobre o conhecimento para gerar mais
conhecimento
11. Problema
Dados estruturados para interpretação por
máquina normalmente são distribuídos num
formato distinto e separado do conteúdo
original e a correspondência entre eles é
bastante limitada (ADIDA et al., 2008).
RDF, OWL e outros formatos XML são
complexos para interpretação da maioria das
pessoas
12. Solução
Visando incorporar metadados ricos a um
documento e manter o seu conteúdo visual
legível ao ser humano, foram propostos
padrões de anotação semântica.
– Objetivo: utilizar um conjunto de descritores,
relacionados a um vocabulário, para “anotar”
informações de um documento da internet,
expressando o significado do conteúdo neles
descritos.
13. Anotação Semântica
“Esquema específico para geração e uso de
metadados, possibilitando novos métodos de
acesso a informação” [Popov et al., 2003].
“A anotação semântica de um documento
descreve o seu conteúdo pela associação a
conceitos e instâncias descritos na
ontologia” [Eller, 2008].
14. Anotação Semântica
Na figura abaixo, podem ser observadas as anotações semânticas
referentes a um texto simples. As entidades presentes no texto são
associadas à sua definição semântica:
Exemplo de marcação
semântica. Fonte: [7]
com adaptações
15. Características Relacionadas para Análise
dos Padrões de Anotação Semântica
Uso de vocabulários customizados
DRY
Compatibilidade com HTML
Compatibilidade com XHTML
Utilização somente de atributos nativos do HTML e XHTML
Suporte ao Blank Node
Utilização de namespaces
Suporte a Literal simples
Suporte a Literal XML
Suporte à Literal tipada
Suporte a CURIE
Referência a nodos não descendentes
16. Microformat
É um conjunto limitado de especificações utilizado
para descrever informações em documentos web.
[PEREIRA, 2009]
Suas especificações ou vocabulários se dividem em
duas categorias:
– Padrões aceitos: validados pela comunidade e utilizados
conforme descrito nas especificações;
– Propostas emergentes: projetos que se encontram em
processo de desenvolvimento, estando suas
especificações sujeitam a alterações até sua aceitação final
(RAMOS et al., 2009).
18. Microformat
Vantagens
– Simplicidade
– Popularidade (Twitter, Facebook, Flickr...)
– Utiliza atributos nativos do HTML
Desvantagens
– Restrito a um pequeno número de vocabulários
– Não suporta o HTML5 100%
19. eRDF (Embedded RDF)
Baseado em alguns princípios do
Microformat, porém permite a anotação a
utilização vocabulários arbitrários em suas
anotações semânticas [Nowack, 2005]
21. eRDF
Vantagens
– Permite a utilização de vocabulários arbitrários
Desvantagens
– Não possui suporte explícito a recursos anônimos
(Blank Nodes)
– Não possui suporte a literal XML e Tipada
22. RDFa (Resource Description Framework – in – attributes)
Recomendação da W3C para anotação
semântica em documentos XHMTL 1.1
[W3C, 2008].
Definido como “A collection of attributes and
processing rules for extending XHTML to
support RDF”
24. RDFa
Vantagens
– Blank Nodes
– CURIEs
– Suporte a literal XML e Tipada
Desvantagens
– Adição de novos elementos ao XHMTL (about,
property, resource, datatype, typeof)
– Suporte apenas ao XHTML 1.1 (suporte ao HTML
encontra-se em fase de rascunho)
25. Microdata
Padrão da W3C para anotação semântica
em documentos HTML5 [W3C, 2008].
Esta especificação é resultado das
investigações de Ian Hickson sobre os
problemas que o RDFa consegue resolver
em contrapartida a sua complexidade
(STUDHOLME, 2010).
26. Microdata (Exemplo)
<div itemscope itemref="a b"></div>
<p id="a"> Meu nome é: <span itemprop="name">Celso</span>
</p>. Sou aluno da professora
<div id=“MariaClaudia" itemprop=“alunoDe" itemscope>
<span itemprop="name">Maria</span>,
Também conhecida como:
<span itemprop=“nickname">Yoko</span>
</div>
“Celso Araujo”
name “Yoko”
_blanknode1 nickname
alunoDe
#MariaClaudia name “Maria”
27. Microdata
Vantagens
– Mais simples que o RDFa
– Flexibilidade para referência entre nodos
Desvantagens
– Imaturo (poucas ferramentas, exemplos etc…)
28. Comparativo
Microformatos eRDF RDFa Microdata
Uso de vocabulários customizados NÃO* SIM SIM SIM
DRY SIM SIM SIM SIM
Compatibilidade com HTML SIM SIM SIM** SIM***
Compatibilidade com XHTML SIM SIM SIM**** SIM
Utilização somente de atributos nativos do SIM SIM NÃO NÃO***
HTML e XHTML
Suporte ao Blank Node NÃO NÃO SIM SIM
Utilização de namespaces NÃO SIM SIM SIM
Suporte a Literal simples SIM SIM SIM SIM
Suporte a Literal XML NÃO NÃO SIM NÃO
Suporte à Literal tipada SIM NÃO SIM SIM
Suporte a CURIE NÃO NÃO SIM NÃO
Referência a nodos não filho NÃO NÃO NÃO SIM
29. Ferramentas de Anotação Semântica
São sistemas que provêem anotação
semântica sobre um conteúdo qualquer com
o auxílio de um vocabulário através de
extração automática, sugestões de
anotações ou interfaces gráficas para a
anotação manual (SEMANTICWEB, 2008).
31. Comparativo
Tipo Represent Armazenamento da Anotação Referência com o Referência entre termo e Entrada de Plataforma
ação da Vocabulário Anotação Vocabulários
Anotação Arbitrários
Annotea Manual Não RDF/XML Xpointer SIM SIM Desktop
intrusiva
GATE Híbrida Híbrida Banco de dados e XML URIS SIM SIM Desktop
KIM Automática Não SIM* SIM Híbrida
intrusiva
OpenCalais Automática Não RDF/XML, JSON, URIS SIM NÃO Web
intrusiva Microformat e SimpleFormat
Zemanta Automática Não XML, JSON, WNJSON, URL NÃO NÃO Web
intrusiva RDF/XML
SMORE Manual Não RDF/XML URIS NÃO SIM Desktop
intrusiva
Ontos Automática Não JSON URIS NÃO SIM*** Web
intrusiva
TextWise Automática Não JSON e XML URIS NÃO NÃO Web
intrusiva
32. Ferramentas de Extração Semântica
Ferramentas capazes de indexar metadados
contidos em ontologias ou documentos com
anotações semânticas.
Também conhecidas como ferramentas de
“busca semântica”
33. Sindice
Sindice (Semantic Web Index) é uma
ferramenta de busca semântica que coleta
dados de documentos RDF e de páginas
web com anotações no padrão
microformatos ou RDFa.
34. Yahoo Search Monkey
SearchMonkey é um serviço do Yahoo! que
permite desenvolvedores e proprietários de
sites utilizarem dados estruturados de forma
a tornar as buscas pelo Yahoo! mais úteis e
visualmente atraentes, direcionando o
tráfego mais relevante para os seus sites
(YAHOO, 2010).
35. Google Rich Snippets
O Google Rich Snippets é uma nova
abordagem de apresentação dos resultados
de pesquisa do Google (Figura 10) visando
destacar alguns dados estruturados
incorporados em páginas da web (GOEL et
al., 2009).
36. Características Relacionadas para Análise
dos Ferramentas de Extração Semântica
Padrões de Anotação
Vocabulários suportados
Uso de vocabulários arbitrários
37. Comparativo
Google Rich
Sindice Yahoo! SearchMonkey
Snippets
RDFa SIM SIM SIM
Padrões de Microformatos SIM SIM SIM
Anotações eRDF NÃO NÃO SIM
Microdata SIM NÃO NÃO
hCalendar, hReview, XFN, hCard, Dublin Core, Foaf,
hProduct, hCalendar, hCard, hCalendar,
Vocabulários hCard, hReview, Rel- hReview, SIOC,
Suportados Facebook Share License, GoodRelations,
e YahooSearch hListing e Dbpedia, Freebase,
Monkey Media hResume hFeed e XFN
Uso de Vocabulários Arbitrários NÃO ??? SIM
38. Bibliografia
IWS – Internet World Stats. 2009. Disponível em:
http://www.internetworldstats. com/pr/edi038.htm.
MOURA, ANA. 2004. Introdução a Web Semântica.
http://www.mar.mil.br/sdms/Tutorial-SDMS-0051.htm
LUIZA, Maria. O Papel de Ontologias em
Sistemas de Informação.
Bernes-Lee T. The Semantic Web.
http://www.scientificamerican.com/article.cfm?id=the-semantic-web&page=2
Perreira H. Microformats
http://revolucao.etc.br/archives/microformats
Nowack B. Embedded RDF (eRDF) Parser for PHP
http://bnode.org/blog/2006/05/29/arc-embedded-rdf-erdf-parser-for-php
POPOV, B., KIRYAKOV, A., KIRILOV, A., MANOV, D., OGNYANOFF, D.,
GORANOV, M. KIM – Semantic Annotation Platform. Disponível em: <http://
www.ontotext.com/kim/>. Acesso em 25 ago 2009