SlideShare une entreprise Scribd logo
1  sur  75
Télécharger pour lire hors ligne
Universidad Autónoma de Madrid
                         Escuela Politécnica Superior
                    Máster Universitario en Investigación e Innovación en
                    Tecnologías de la Información y las Comunicaciones

                                     Web Mining	
  
                    Mining semi-structured data	
  

The Semantic Web: From words to meanings




Miriam Fernández, m.fernandez@open.ac.uk
Knowledge Media Institute, The Open University, UK
1	
  




 •  1. Introduction
     •  Unstructured data vs. structured data
     •  Data vs. information vs. knowledge
     •  Motivation
 •  2. The Semantic Web
     •  What is the Semantic Web?
     •  The Semantic Web weapons: ontologies & representation languages
     •  The Semantic Web tools: ontology editors & triple stores




The Semantic Web: From words to meanings                                                                                       Web Mining
                                           Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones
                                                                                       Escuela Politécnica Superior, Universidad Autónoma de Madrid
2	
  



 •  3. Two paths towards the Sematic Web vision
     •  Metadata embedded in HTML
     •  Linked Data
          -­‐  An example
 •  4. Sematic Web applications
     •    Search engines
     •    Recommendations
     •    Open government
     •    Institutions
            -­‐  The Open University
            -­‐  BBC

The Semantic Web: From words to meanings                                                                                       Web Mining
                                           Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones
                                                                                       Escuela Politécnica Superior, Universidad Autónoma de Madrid
3	
  




 •  1. Introduction
     •  Unstructured data vs. structured data
     •  Data vs. information vs. knowledge
     •  Motivation
 •  2. The Semantic Web
     •  What is the Semantic Web?
     •  The Semantic Web weapons: ontologies & representation languages
     •  The Semantic Web tools: ontology editors & triple stores




The Semantic Web: From words to meanings                                                                                       Web Mining
                                           Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones
                                                                                       Escuela Politécnica Superior, Universidad Autónoma de Madrid
What is … ?                                                                                                                                   4	
  




                                 	


                                           	





The Semantic Web: From words to meanings                                                                                         Web Mining
                                             Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones
                                                                                         Escuela Politécnica Superior, Universidad Autónoma de Madrid
What is … ?                                                                                                                                              5	
  




                         Rigid structure: well defined
                        vocabularies and representation
                               (e.g. databases)	





                                Flexible structure 	

                             (e.g. tags, taxonomies)	




                                                  	

                                  No structure 	

                                 (e.g. free text)	



The Semantic Web: From words to meanings                                                                                                    Web Mining
                                                        Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones
                                                                                                    Escuela Politécnica Superior, Universidad Autónoma de Madrid
What is … ?                                                                                                                                             6	
  




                                                                         Iván in Italy!	

                          Semantic interpretation	




                                                                             A picture!	

                         Syntactic interpretation	



                  	


The Semantic Web: From words to meanings                                                                                                   Web Mining
                                                       Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones
                                                                                                   Escuela Politécnica Superior, Universidad Autónoma de Madrid
Why do we need to add structure? THE CHALLENGE                                                                                                        7	
  



                                      Is this a person, an object, a
                                      place? I don’t understand
                                      anything! L 	


                           Semantic interpretation	



                                                                           A picture!	



                           Syntactic interpretation	


                    	


  Find the way machines can extract & interpret knowledge!
The Semantic Web: From words to meanings                                                                                                 Web Mining
                                                     Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones
                                                                                                 Escuela Politécnica Superior, Universidad Autónoma de Madrid
Why is this important?                                                                                                                          8	
  

     We have entered the Zettabyte era! (a billion terabytes)
     http://www.emc.com/collateral/demos/microsites/emc-digital-universe-2011/index.htm




The Semantic Web: From words to meanings                                                                                           Web Mining
                                               Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones
                                                                                           Escuela Politécnica Superior, Universidad Autónoma de Madrid
Why is this important?                                                                                                                            9	
  




  •  Information overwhelming
      •  We need mechanisms to support
           -­‐  better information search
           -­‐  better information integration
           -­‐  automatic knowledge extraction


  •  User generated content is generally unstructured
      •  Machines can not understand such content!




The Semantic Web: From words to meanings                                                                                             Web Mining
                                                 Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones
                                                                                             Escuela Politécnica Superior, Universidad Autónoma de Madrid
Why is this important?                                                                                                                    10	
  




                                                                      Many pages later I still didn’t
                                                                      find what I was looking for!
                                                                      L

                                                                      The search engine didn’t
                                                                      understood my query




The Semantic Web: From words to meanings                                                                                       Web Mining
                                           Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones
                                                                                       Escuela Politécnica Superior, Universidad Autónoma de Madrid
Why is this important?                                                                                                                     11	
  




                                                                  Available houses
 Moving to England…                                                                Crime reports in
 looking for a place to live                                                       different areas


                                                                                                  Amenities




                        Far too much distributed and unrelated information
The Semantic Web: From words to meanings                                                                                        Web Mining
                                            Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones
                                                                                        Escuela Politécnica Superior, Universidad Autónoma de Madrid
12	
  




 •  1. Introduction
     •  Unstructured data vs. structured data
     •  Data vs. information vs. knowledge
     •  Why is this important?
 •  2. The Semantic Web
     •  What is the Semantic Web?
     •  The Semantic Web weapons: ontologies & representation
        languages
     •  The Semantic Web tools: ontology editors & triple stores



The Semantic Web: From words to meanings                                                                                       Web Mining
                                           Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones
                                                                                       Escuela Politécnica Superior, Universidad Autónoma de Madrid
The Semantic Web                                                                                                                                  13	
  


     “I have a dream for the Web in which computers become capable of
     analysing all the data on the Web”



     "The Semantic Web is an extension of the current Web in which
     information is given well-defined meaning, better enabling computers
     and people to work in cooperation."
          Tim Berners-Lee, James Hendler, Ora Lassila, The Semantic Web, Scientific American,
          May 2001

     “The Semantic Web is a vision: the idea of having data on the web
     defined and linked in a way that it can be used by machines not just for
     display purposes, but for automation, integration and reuse of data
     across various applications”
                                                                                        http://www.w3.org/2001/sw

The Semantic Web: From words to meanings                                                                                               Web Mining
                                                   Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones
                                                                                               Escuela Politécnica Superior, Universidad Autónoma de Madrid
The Semantic Web                                                                                                                          14	
  



               To the Web of machine understandable content
                      The Web of objects and relations
                                                                                           Structured




                                                                                         Unstructured




            From the Web of human understandable content
                   The Web of documents and links

The Semantic Web: From words to meanings                                                                                       Web Mining
                                           Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones
                                                                                       Escuela Politécnica Superior, Universidad Autónoma de Madrid
The Semantic Web weapons: ONTOLOGIES                                                                                                      15	
  



                      An ontology is a formal, explicit
                specification of a shared conceptualization
     Formal: machine-readable
     Explicit: concepts, properties,
     relations, functions, constraints,
     axioms are explicitly defined
     Shared: consensual knowledge
     Conceptualization: abstract
     model and simplified vide of
     some phenomenon in the world
     that we want to represent
The Semantic Web: From words to meanings                                                                                       Web Mining
                                           Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones
                                                                                       Escuela Politécnica Superior, Universidad Autónoma de Madrid
The Semantic Web weapons: ONTOLOGIES                                                                                                                 16	
  


                   How to model the world of Pizzas?
                            ontology                 knowledge base
                         Classes                  Properties                                             Individuals

                                                                                                    Cuatrro	
  
                                                                                                    Formaggi	
  


                                                                                                hasCountryOrigin	
  




                                                                                                               Italy	
  
                                              Restrictions

  h>p://owl.cs.manchester.ac.uk/tutorials/protegeowltutorial/resources/ProtegeOWLTutorialP4_v1_3.pdf	
  	
  
The Semantic Web: From words to meanings                                                                                                  Web Mining
                                                      Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones
                                                                                                  Escuela Politécnica Superior, Universidad Autónoma de Madrid
The Semantic Web weapons:                                                                                                                 17	
  

 REPRESENTATION AND QUERY LANGUAGES




  Querying data (SPARQL)

  Capturing ontologies (OWL)


  Expressing and linking data,
  including metadata (RDF)

  Assigning unambiguous names (URI)

The Semantic Web: From words to meanings                                                                                       Web Mining
                                           Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones
                                                                                       Escuela Politécnica Superior, Universidad Autónoma de Madrid
RDF (Resource Description Framework)                                                                                                                 18	
  

  •  RDF identifies things using Web identifiers (URIs), and describes
     resources with properties and property values.
      •  The triple representation (subject, predicate, object)
         <?xml	
  version="1.0"?>	
  
         <rdf:RDF	
  
              xmlns:rdf="h>p://www.w3.org/1999/02/22-­‐rdf-­‐syntax-­‐ns#"	
  
              Xmlns:epsp=h>p://www.ir.ii.uam.es/personnel#>	
  
              <rdf:DescripYon	
  
                      	
  	
  rdf:about="h>p://www.ir.ii.uam.es/personnel/IvanCantador">	
  
                      	
  	
  <epsp:name>Ivan</epsp:name>	
  
                      	
  	
  <epsp:lastname>Cantador</epsp:lastname>	
  
                      	
  	
  <epsp:naYonality>Spanish</epsp:naYonality>	
  
                      	
  	
  <rdf:type>Assistant	
  Professor</rdf:type>	
  
              </rdf:DescripYon>	
  
         </rdf:RDF>	
  
                                                 h>p://www.ir.ii.uam.es/personnel/name	
  
          h>p://www.ir.ii.uam.es/	
  
                                                                                             Ivan	
  
          personnel/IvanCantador	
  
The Semantic Web: From words to meanings                                                                                                  Web Mining
                                                      Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones
                                                                                                  Escuela Politécnica Superior, Universidad Autónoma de Madrid
RDFS (RDF Schema)                                                                                                                                    19	
  



  •  RDFS provides the framework to describe classes and properties. It
     allows the creation of hierarchies
      <?xml	
  version="1.0"?>	
  
      	
  
      <rdf:RDF	
  
           xmlns:rdf="h>p://www.w3.org/1999/02/22-­‐rdf-­‐syntax-­‐ns#"	
  
           xmlns:rdfs="h>p://www.w3.org/2000/01/rdf-­‐schema#"	
  
           xml:base=”	
  h>p://www.eps.uam.es#	
  
           <rdfs:Class	
  rdf:ID=”Professor"	
  />	
  
           <rdfs:Class	
  rdf:ID=”Assistant	
  Professor">	
  
                  	
  	
  	
  <rdfs:subClassOf	
  rdf:resource=”#Professor"/>	
  
           </rdfs:Class>	
  
           <rdf:Property	
  rdf:ID=“teachesSubject”>	
  	
  
                  	
  <rdfs:Domain	
  rdf:resource=“#Professor"/>	
  
                  	
  <rdfs:Range	
  rdf:resource=“#Subject"/>	
  
           </rdf:Property>	
  	
  
      </rdf:RDF>	
  


The Semantic Web: From words to meanings                                                                                                  Web Mining
                                                      Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones
                                                                                                  Escuela Politécnica Superior, Universidad Autónoma de Madrid
OWL (Web Ontology Language)                                                                                                                                              20	
  


  •  OWL is a stronger language with greater machine interpretability than
     RDF/RDFS (reasoning support)
        •  OWL Little / OWL DL / OWL Full                                                                             Value	
  constraints:	
  
                                                                                                                      owl:allValuesFrom	
  
 <?xml	
  version="1.0"?>	
  
                                                                                                                      owl:someValuesFrom	
  
 <rdf:RDF	
  
                                                                                                                      owl:hasValue	
  
      xmlns:rdf="h>p://www.w3.org/1999/02/22-­‐rdf-­‐syntax-­‐ns#"	
  
                                                                                                                      	
  
      xmlns:rdfs=h>p://www.w3.org/2000/01/rdf-­‐schema#	
  
                                                                                                                      Cardinality	
  constraints:	
  
      xmlns:owl	
  =	
  "h>p://www.w3.org/2002/07/owl#"	
  
                                                                                                                      owl:cardinality	
  
      xml:base=“h>p://www.eps.uam.es#	
  
                                                                                                                      owl:minCardinality	
  
      	
  
                                                                                                                      owl:maxCardinality	
  
      <owl:Class	
  rdf:ID=”Professor”>	
  
                                                                                                                      ….	
  
                                     	
  <owl:restricYon>	
  
      	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  <owl:onProperty	
  rdf:resource=“#hasAcademicTitle"/>	
  
                                     	
  	
  	
  	
  	
  	
  	
  <owl:hasValue>	
  PhD^^h>p://www.w3.org/2001/XMLSchema#string</owl:hasValue>	
  
                                     	
  	
  <owl:restricYon>	
  
      </owl:Class>	
  
 </rdf:RDF>	
                                                                                          Ivan	
  has	
  a	
  PhD	
  -­‐>	
  therefore	
  
                                                                                                       Ivan	
  can	
  be	
  professor!	
  
The Semantic Web: From words to meanings                                                                                                                      Web Mining
                                                                          Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones
                                                                                                                      Escuela Politécnica Superior, Universidad Autónoma de Madrid
SPARQL (SPARQL Protocol and RDF Query Language)                                                                                                                   21	
  


  •  SPARQL is a query language for RDF
      •  Based on the triple representation (subject, predicate, object)
      •  SPARQL 1.1 is W3C Recommendation since 21st March 2013
          PREFIX	
  epsp:	
  <h>p://www.eps.uam.es>	
  
          <rdf:RDF	
  
               xmlns:rdf="h>p://www.w3.org/1999/02/22-­‐rdf-­‐syntax-­‐ns#"	
  
               SELECT	
  ?x	
  ?name	
  
               WHERE	
  
               	
  {	
  	
  ?x	
  rdf:type	
  epsp:Assistant	
  Professor.	
  
               	
  	
  	
  	
  ?x	
  epsp:name	
  ?name.	
                     Can	
  you	
  Google	
  this?	
  
               	
  	
  	
  	
  ?x	
  epsp:naYonality	
  “Spanish”}	
  

        SPARQL	
  allows	
  the	
  construcYon	
  of	
  very	
  powerful	
  queries	
  
        -­‐	
  Filtering	
  elements	
  
        -­‐	
  Querying	
  named	
  graphs	
  
        -­‐	
  Ordering	
  by/	
  disYnct	
  /	
  reduced	
  /	
  offset	
  /	
  limit	
  
        -­‐	
  Count	
  /	
  sum	
  /	
  avg	
  /	
  min	
  /	
  max	
  /	
  GroupConcat	
  

The Semantic Web: From words to meanings                                                                                                               Web Mining
                                                                   Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones
                                                                                                               Escuela Politécnica Superior, Universidad Autónoma de Madrid
The Semantic Web tools: ONTOLOGY EDITORS                                                                                                  22	
  


  •  An ontology editor lets the creation or manipulation of ontologies




                                           h>p://en.wikipedia.org/wiki/Ontology_editor	
  	
  
The Semantic Web: From words to meanings                                                                                       Web Mining
                                           Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones
                                                                                       Escuela Politécnica Superior, Universidad Autónoma de Madrid
The Semantic Web tools: TRIPLE STORES                                                                                                     23	
  


  •  A triple store lets persistent storage of RDF data and querying via
     SPARQL




                                                   h>p://www.garshol.priv.no/blog/231.html	
  	
  
The Semantic Web: From words to meanings                                                                                       Web Mining
                                           Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones
                                                                                       Escuela Politécnica Superior, Universidad Autónoma de Madrid
24	
  



 •  3. Two paths towards the Sematic Web vision
     •  Metadata embedded in HTML
     •  Linked Data
          -­‐  An example
 •  4. Sematic Web applications
     •    Search engines
     •    Recommendations
     •    Open government
     •    Institutions
            -­‐  The Open University
            -­‐  BBC

The Semantic Web: From words to meanings                                                                                       Web Mining
                                           Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones
                                                                                       Escuela Politécnica Superior, Universidad Autónoma de Madrid
Two paths towards the SW vision: ADDING DATA TO THE WEB
                                                       25	
  




  •  Metadata embedded in HTML
      •    Microformats
      •    RDFa
      •    Schema.org
      •    HTML5


  •  Linked Data
      •  Publish the data online in a standard, web enabled representation
         (RDF)
      •  Make the data web addressable (URI)
      •  Link with other data

The Semantic Web: From words to meanings                                                                                       Web Mining
                                           Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones
                                                                                       Escuela Politécnica Superior, Universidad Autónoma de Madrid
26	
  



 •  3. Two paths towards the Sematic Web vision
     •  Metadata embedded in HTML
     •  Linked Data
          -­‐  An example
 •  4. Sematic Web applications
     •    Search engines
     •    Social Networks
     •    Open government
     •    Institutions
            -­‐  The Open University
            -­‐  BBC

The Semantic Web: From words to meanings                                                                                       Web Mining
                                           Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones
                                                                                       Escuela Politécnica Superior, Universidad Autónoma de Madrid
Microformats                                                                                                                                                                  27	
  


  •  Microformats use existing HTML attributes to embed structured data
     types in an HTML document
  •  Expressive power is limited as microformats are only designed to pre-
     defined vocabularies
  •  No interlinking between entities
 <div	
  class="vcard">	
  
 	
  	
  <a	
  class="fn	
  org	
  url"	
  href="h>p://www.eps.uam.es/">EPS</a>	
  
 	
  	
  <div	
  class="adr">	
  
 	
  	
  	
  	
  	
  	
  	
  	
  <span	
  class="street-­‐address">Francisco	
  Tomas	
  y	
  Valiente</span	
  >	
  
 	
  	
  	
  	
  	
  	
  	
  	
  <span	
  class="locality">Madrid</span>,	
  	
  	
  
 	
  	
  	
  	
  	
  	
  	
  	
  <span	
  class="postal-­‐code">28049</span>	
  
 	
  	
  	
  	
  	
  	
  	
  <span	
  class="country-­‐name">Spain</span	
  >	
  
 	
  </div>	
  
 </div>	
  

                                                                                                                              h>p://microformats.org	
  	
  

The Semantic Web: From words to meanings                                                                                                                           Web Mining
                                                                               Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones
                                                                                                                           Escuela Politécnica Superior, Universidad Autónoma de Madrid
RDFa (Resource Description Framework in Attributes)                                                                                                 28	
  


  •  W3C standard for embedding RDF data in HTML documents
       •  A set of new HTML attributes ands specs of how to use them
  •  RDFa is just a syntax, the publisher has to choose the vocabulary
  •  RDFa is domain independent
      <html>	
  
      <body	
  vocab="h>p://xmlns.com/foaf/0.1/">	
  
      	
  	
  ...	
  
      	
  	
  <h2	
  property=”name”>Ivan	
  Cantador</h2>	
  
      	
  	
  <p><span	
  property=”gender">undefined</span></p>	
  
      	
  	
  ...	
  
      </body>	
  
      </html>	
  


   Web	
  standard	
  since	
  June	
  2012	
  
  h>p://www.w3.org/TR/rdfa-­‐core/	
  
                                                              h>p://www.w3.org/TR/xhtml-­‐rdfa-­‐primer	
  	
  
The Semantic Web: From words to meanings                                                                                                 Web Mining
                                                     Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones
                                                                                                 Escuela Politécnica Superior, Universidad Autónoma de Madrid
RDFa (Resource Description Framework in Attributes)                                                                                                             29	
  


  •  Used by Facebook! … among others ;)
      •  RDF vocabulary to be used in conjunction with RDFa

     <html	
  xmlns:og="h>p://opengraphprotocol.org/schema/">	
  	
  
     <head>	
  	
  
          	
  <Ytle>The	
  Rock	
  (1996)</Ytle>	
  	
  
          	
  <meta	
  property="og:Ytle"	
  content="The	
  Rock"	
  />	
  	
  
          	
  <meta	
  property="og:type"	
  content="movie"	
  />	
  	
  
          	
  <meta	
  property="og:url"	
  content="h>p://www.imdb.com/Ytle/>0117500/"	
  />	
  	
  
          	
  <meta	
  property="og:image"	
  content="h>p://ia.media-­‐imdb.com/images/
              rock.jpg"	
  />	
  …	
  
     </head>	
  ...	
  	
  
     </html>	
  
     	
  

The Semantic Web: From words to meanings                                                                                                             Web Mining
                                                                 Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones
                                                                                                             Escuela Politécnica Superior, Universidad Autónoma de Madrid
HTML5 (microdata)                                                                                                                                                   30	
  


  •  HTML introduces inline elements (text-level semantics) to describe
     specific type of information
      <div	
  itemscope	
  itemtype="h>p://data-­‐vocabulary.org/Person">	
  	
  
      	
          	
  	
  My	
  name	
  is	
  <span	
  itemprop="name">Ivan</span>	
  	
  
                  	
  Here	
  is	
  my	
  home	
  page:	
  
      	
          	
  	
  <a	
  href="h>p://arantxa.ii.uam.es/~cantador/"	
  	
  	
  	
  
                  	
  itemprop="url">h>p://arantxa.ii.uam.es/~cantador/</a>	
  
      	
  	
      	
  I	
  live	
  in	
  Madrid,	
  and	
  work	
  as	
  an	
  <span	
  itemprop="Ytle">Assistant	
  
                  	
  Professor</span>	
  	
  	
  at	
  <span	
  itemprop="affiliaYon">UAM</span>.	
  
      </div>	
  

                                                                                                                    •     Itemid	
  
                                                                                                                    •     Itemprop	
  
                                                                                                                    •     Itemref	
  
                                                                                                                    •     Itemscope	
  
                                                                                                                    •     itemtype	
  
                                                   h>p://dev.w3.org/html5/md-­‐LC/#encoding-­‐microdata	
  	
  
The Semantic Web: From words to meanings                                                                                                                 Web Mining
                                                                     Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones
                                                                                                                 Escuela Politécnica Superior, Universidad Autónoma de Madrid
Schema.org                                                                                                                                                31	
  


  •  Provides a collection of vocabularies, a long with the microdata
     format, that are recognised by the major search engine providers (de
     facto standard)
      <div	
  itemscope	
  itemtype=h>p://schema.org/Movie>	
  	
  
      <h1	
  itemprop="name">Pirates	
  of	
  the	
  Carribean:	
  On	
  Stranger	
  Tides	
  (2011)</h1>	
  
      Director:	
  
              	
  <div	
  itemprop="director"	
  itemscope	
  itemtype="h>p://schema.org/Person">	
  
              <span	
  itemprop="name">Rob	
  Marshall</span>	
  
      </div>	
  




The Semantic Web: From words to meanings                                                                                                       Web Mining
                                                           Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones
                                                                                                       Escuela Politécnica Superior, Universidad Autónoma de Madrid
32	
  



 •  3. Two paths towards the Sematic Web vision
     •  Metadata embedded in HTML
     •  Linked Data
         -­‐  An example
 •  4. Sematic Web applications
     •    Search engines
     •    Recommendations
     •    Open government
     •    Institutions
            -­‐  The Open University
            -­‐  BBC

The Semantic Web: From words to meanings                                                                                       Web Mining
                                           Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones
                                                                                       Escuela Politécnica Superior, Universidad Autónoma de Madrid
Linked Data                                                                                                                               33	
  

   Linked Open Data
   (September 2011)	
  




The Semantic Web: From words to meanings                                                                                       Web Mining
                                           Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones
                                                                                       Escuela Politécnica Superior, Universidad Autónoma de Madrid
Linked Data: WHAT IS IT ABOUT?                                                                                                                34	
  




  •  The Web as one huge interconnected data graph
  •  A Web of interlinked objects
      •  Objects described in a standard, web enabled representation (RDF)
      •  Each RDF document describes the characteristics of a single object,
         and links to related objects
      •  Each object has a unique web address (URI)
      •  Objects are linked with other objects
           -­‐  Important: links to the same objects in different datasets (sameAs)
  •  Guidelines for proper configuration of web servers to serve such
     documents
  •  Vocabularies should be reused!

The Semantic Web: From words to meanings                                                                                           Web Mining
                                               Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones
                                                                                           Escuela Politécnica Superior, Universidad Autónoma de Madrid
Linked Data: WE TALK ABOUT OBJECTS                                                                                                          35	
  

                                           The DBpedia ontology, http://dbpedia.org
Wikipedia




The Semantic Web: From words to meanings                                                                                         Web Mining
                                             Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones
                                                                                         Escuela Politécnica Superior, Universidad Autónoma de Madrid
Linked Data: OBJECTS ARE LINKED!                                                  Data	
  
                                                                                                                                                 36	
  


                                                                                  Mashups	
  
  Moving to England…
  looking for a place to
  leave


                            A unique information space




                                                                                           Available houses
              Amenities                    Crime reports
The Semantic Web: From words to meanings                                                                                             Web Mining
                                                 Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones
                                                                                             Escuela Politécnica Superior, Universidad Autónoma de Madrid
Linked Data                                                                                                                               37	
  


  •  Advantages:
      •  No change to the publishing of the HTML documents
      •  Data can be published by third party (e.g. DBpedia)
      •  Data is interlinked
  •  Disadvantages:
      •  Web servers need to be configured to properly handle URIs that identify
         concepts instead of documents
      •  Search engines need to be extended to crawl Linked Data
      •  Suitable vocabularies/ontologies are not always available
      •  Data is not always easy to obtain
      •  Data is not always linked to relevant data
      •  Data is not always linked to HTML documents
          -­‐  Web mining: OBTAINING, STRUCTURING AND LINKING DATA
The Semantic Web: From words to meanings                                                                                       Web Mining
                                           Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones
                                                                                       Escuela Politécnica Superior, Universidad Autónoma de Madrid
Methodological guidelines for publishing Linked Data                                                                                             38	
  




                                     h>p://delicias.dia.fi.upm.es/wiki/images/f/f6/04_MGLD.pdf	
  	
  
The Semantic Web: From words to meanings                                                                                              Web Mining
                                                  Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones
                                                                                              Escuela Politécnica Superior, Universidad Autónoma de Madrid
Vocabularies / Schemas / Ontologies                                                                                                       39	
  



  •  Search for suitable vocabularies
      •  Reuse (if they exist)
      •  Build new vocabularies based on existing ones (if they do not exist)




The Semantic Web: From words to meanings                                                                                       Web Mining
                                           Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones
                                                                                       Escuela Politécnica Superior, Universidad Autónoma de Madrid
Obtaining and structuring data                                                                                                                    40	
  


  •  From unstructured, semi-structured and structured data sources


                      Textual	
  documents	
                                                 Spreadsheets	
  


  Natural Language Processing (NLP)
   •  Entity extractors
   •  Relation extractors                        NOR2O
                                                 http://oeg-dev.dia.fi.upm.es/nor2o/#download
  TextRunner
  http://openie.cs.washington.edu                Cvs2rdf4LOD
                                                 http://logd.tw.rpi.edu/technology/csv2rdf4lod
  YAGO: A Core of Semantic Knowledge
  Unifying WordNet and Wikipedia, Suchanek et
  al., WWW 2007.                              MappingMaster
                                                 http://protege.cim3.net/cgi-bin/wiki.pl?MappingMaster

The Semantic Web: From words to meanings                                                                                               Web Mining
                                                   Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones
                                                                                               Escuela Politécnica Superior, Universidad Autónoma de Madrid
Obtaining and structuring data                                                                                                                      41	
  
                                                                 Bringing	
  the	
  Deep	
  Web	
  to	
  the	
  
                                                                               Surface!	
  

                     DataBases	
                                                    WebAPis	
  

                                                     Bizer	
  et	
  al.	
  The	
  RDF	
  Book	
  Mashups:	
  
  Whole	
  subarea	
  of	
  research	
  within	
     From	
  Web	
  APIs	
  to	
  a	
  Web	
  of	
  Data	
  
  the	
  SW	
  community	
                           h>p://www.dvi.uni-­‐kl.de/~grimnes/	
  
  	
                                                 2007/06/SFSW07Papers/6.pdf	
  
  RDB2RDF	
  
  h>p://www.w3.org/2001/sw/rdb2rdf	
  
  	
  
                                                                                    WebForms	
  
  ultrawrap	
  
  h>p://capsenta.com/ultrawrap	
  	
  
  	
  
  RDBToOnto	
                                          Madhavan	
  et	
  al.	
  Google's	
  Deep-­‐Web	
  
  h>p://www.tao-­‐project.eu/	
  
                                                       Crawl.	
  VLDB	
  2008	
  
  researchanddevelopment/	
  
                                                       h>p://www.cs.cornell.edu/~lucja/	
  
  demosanddownloads/
                                                       publicaYons/i03.pdf	
  
  RDBToOnto.html	
  
  	
                                                                                                                                     Web Mining
The Semantic Web: From words to meanings
                                                     Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones
                                                                                                 Escuela Politécnica Superior, Universidad Autónoma de Madrid
Obtaining and structuring data                                                                                                                          42	
  



                                  HTML	
  Tables	
     And	
  many	
  other	
  semi-­‐structured	
  data	
  
                                                       XML,	
  UML,	
  BibText,	
  Tags,	
  …	
  
                                                       	
  
  Cafarella	
  et	
  al.	
  WebTables:	
               ConverterToRDF	
  
  Exploring	
  the	
  Power	
  of	
  Tables	
          h>p://www.w3.org/wiki/ConverterToRdf	
  	
  
  on	
  the	
  Web.	
  VLDB	
  2008	
  

     Other useful tools to obtain and structure data
                                   Google	
  Refine	
  
                                   h>ps://code.google.com/p/google-­‐refine	
  	
  
                                   And	
  its	
  extension	
  RDF	
  Refine	
  	
  
                                   h>p://refine.deri.ie	
  	
  
                                   Google	
  Fusion	
  Tables	
  
                                   h>p://support.google.com/fusiontables	
  	
  


The Semantic Web: From words to meanings                                                                                                     Web Mining
                                                         Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones
                                                                                                     Escuela Politécnica Superior, Universidad Autónoma de Madrid
Linking Data                                                                                                                                       43	
  


  •  1. Identify suitable datasets as linking targets

                                             Data	
  Hub	
  
                                             ckan.net	
  
                                                                                                                           Geonames	
  

                                                                                                                                DBpedia	
  

  •  2. Discover relationships between data items
                            owl:sameAs	
                                        owl:sameAs	
  
              http://                                                                                                     http://
                                              http://mydataset/
        sws.geonames.org/                                                                                              dbpedia.org/
                                                    Madrid
             6355233                                                                                                 resource/Madrid


   Silk	
  Framework:	
  h>p://wifo5-­‐03.informaYk.uni-­‐mannheim.de/bizer/silk	
  	
  
   Limes:	
  h>p://aksw.org/Projects/LIMES.html	
  	
  
                                     h>p://delicias.dia.fi.upm.es/wiki/images/f/f6/04_MGLD.pdf	
  	
  
The Semantic Web: From words to meanings                                                                                                Web Mining
                                                    Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones
                                                                                                Escuela Politécnica Superior, Universidad Autónoma de Madrid
Linking Data to HTML Documents: THE ANNOTATORS                                                                                            44	
  


  •  The annotators extract entities (classes / individuals) and relations
     from the text and link them to object URIs




The Semantic Web: From words to meanings                                                                                       Web Mining
                                           Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones
                                                                                       Escuela Politécnica Superior, Universidad Autónoma de Madrid
45	
  



 •  3. Two paths towards the Sematic Web vision
     •  Metadata embedded in HTML
     •  Linked Data
         -­‐  An example
 •  4. Sematic Web applications
     •    Search engines
     •    Recommendations
     •    Open government
     •    Institutions
            -­‐  The Open University
            -­‐  BBC

The Semantic Web: From words to meanings                                                                                       Web Mining
                                           Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones
                                                                                       Escuela Politécnica Superior, Universidad Autónoma de Madrid
Obtaining, structuring and linking data: AN EXAMPLE                                                                                                46	
  


      BEFORE LINKED DATA

  Any material
  about C++?...
  Ufff...
  Where to start?!




       AFTER LINKED DATA

                                           One unique
                                           information
                                              space


The Semantic Web: From words to meanings                                                                                                Web Mining
                                                    Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones
                                                                                                Escuela Politécnica Superior, Universidad Autónoma de Madrid
Obtaining, structuring and linking data: AN EXAMPLE                                                                                                                  47	
  




                                                                Use of Linked Data
                                                                  1.  Select and extract educational
                                                                      information from various sources
                                                                  2.  Reuse well-known vocabularies to
                                                                      describe and structure the previously
  Fernandez	
  et	
  al.	
  	
  (2011)	
  Linking	
  Data	
  
  Across	
  UniversiYes:	
  An	
  Integrated	
  
                                                                      extracted data
  Video	
  Lectures	
  Dataset,	
  10th	
                         3.  Link the educational material under a
  InternaYonal	
  SemanYc	
  Web	
                                    common categorization scheme
  Conference	
  (ISWC	
  2011),	
  Bonn	
                     	
  

The Semantic Web: From words to meanings                                                                                                                  Web Mining
                                                                      Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones
                                                                                                                  Escuela Politécnica Superior, Universidad Autónoma de Madrid
Specification: SELECTING & ANALYSING DATA                                                                                                 48	
  


  •  VideoLectures.net


                                                                                  Web scrapper
                                                                                  Study the structure of
                                                                                  HTML pages and use a
                                                                                  HTML parser to extract
                                                                                  the data of interest




The Semantic Web: From words to meanings                                                                                       Web Mining
                                           Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones
                                                                                       Escuela Politécnica Superior, Universidad Autónoma de Madrid
Specification: SELECTING & ANALYSING DATA                                                                                                    49	
  


  •  YouTube University Channels
    <entry gd:etag='W/"DkADSH47eCp7ImA9WhZWFEg."'>
      <id>tag:youtube.com,2008:video:zZCaHSW88Ts</id>
      <published>2011-02-18T11:41:08.000Z</published>
      <updated>2011-05-15T10:19:39.000Z</updated>
      <category scheme='http://gdata.youtube.com/schemas/2007/categories.cat'
             term='Education' label='Education'/>
      <category scheme='http://gdata.youtube.com/schemas/2007/keywords.cat'
             term='Dr Barry Cooper'/>
      <title>Intro to Professional Practice (Children & Families)</title>
      <author>       … </author>
     <media:description … </media:description>
     <media:keywords>…</media:keywords>
     <media:thumbnail …/>
     <yt:duration seconds='399'/>
      <content …'/>	




    YouTube API: select the the fields of interest
The Semantic Web: From words to meanings                                                                                          Web Mining
                                              Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones
                                                                                          Escuela Politécnica Superior, Universidad Autónoma de Madrid
Specification: SELECTING & ANALYSING DATA                                                                                                 50	
  


  •  OU Podcasts (data.open.ac.uk)




       Already structured data: SPARQL query
The Semantic Web: From words to meanings                                                                                       Web Mining
                                           Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones
                                                                                       Escuela Politécnica Superior, Universidad Autónoma de Madrid
Modeling: REUSING VOCABULARIES                                                                                                              51	
  


  Vocabularies selected to describe the data

  •  Dublin Core                                                                                                 I describe
      •  http://dublincore.org/documents/dcmi-terms (dcterms)                                                   educational
                                                                                                                  material
  •  FOAF
                                                                                                           I describe people
      •  http://xmlns.com/foaf/spec (foaf)                                                                    and relations
  •  The W3C ontology for media resources
      •  http://www.w3.org/TR/mediaont-10 (ma)
                                                                                                         We describe media
  •  The Media Vocabulary                                                                                    resources
      •  http://payswarm.com/vocabs/media (media)
  •  The Nice Tag Ontology
      •  http://ns.inria.fr/nicetag/2010/09/09/voc.html (nt)                                                 I describe tags

The Semantic Web: From words to meanings                                                                                         Web Mining
                                             Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones
                                                                                         Escuela Politécnica Superior, Universidad Autónoma de Madrid
Modeling: REUSING VOCABULARIES                                                                                                            52	
  




   The selected base URI is: http://linkeduniversities.org

   1.  VideoLectures objects are represented as media:Recording,
       authors are represented as foaf:Person
   2.  The video title is duplicated in the properties rdfs:label &
       dcterms:title
   4.  The set of tags and categories associated to a video is represented by
       the nt:isRelatedTo property
   5.  The assigned classification in the unified search space is represented by
       the dcterms:subject property


The Semantic Web: From words to meanings                                                                                       Web Mining
                                           Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones
                                                                                       Escuela Politécnica Superior, Universidad Autónoma de Madrid
RDF generation: CREATING OBJECTS                                                                                                                      53	
  


                                       Type	
            Provenance	
                                          ID	
  

     http://linkeduniversities.org/video/CarnegieMellonU/youtube/B135229F3706D215

   rdf:type               media:Recording
   media:download         http://www.youtube.com/watch?v=TOTuStPIeFc&feature=youtube_gdata_player
   dcterms:title          CMU Football Engineering Summer 2008 Video
   rdfs:label             CMU Football Engineering Summer 2008 Video
   dcterms:description    Football […]Summer 2008 Video

   foaf:thumbnail         http://i.ytimg.com/vi/TOTuStPIeFc/3.jpg
   media:duration         155
   dcterms:isPart         http://linkeduniversities.org/video/CarnegieMellonU/youtube/playlist/B135229F37

   ma:publisher           http://linkeduniversities.org/video/CarnegieMellonU/youtube/user/footballtracking
   dcterms:published      2011-06-03T23:23:53.262Z

   nt:isRelatedTo         http://linkeduniversities.org/video/CarnegieMellonU/tag/sports
   nt:isRelatedTo         http://linkeduniversities.org/video/CarnegieMellonU/tag/football
   dcterms:subject        http://dmoz.org/Sports/Football/Rugby_Union
   dcterms:subject        http://linkeduniversities.org/video/CarnegieMellonU/dmoz/Sports/Football/Rugby_Union




The Semantic Web: From words to meanings                                                                                                   Web Mining
                                                       Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones
                                                                                                   Escuela Politécnica Superior, Universidad Autónoma de Madrid
Links Generation: SELECTING THE LINKING POINTS                                                                                                 54	
  


 •  A common categorization scheme:
     1.  The International Press Telecommunications Council (IPTC)
          http://www.iptc.org/site/NewsCodes/
     2.  Library of Congress Subject Headings
          http://id.loc.gov/authorities/about.html
     3.  The Open Directory Project (DMOZ)
          http://www.dmoz.org/rdf.html
     4.  DBpedia Categories
          http://dbpedia.org/About




The Semantic Web: From words to meanings                                                                                            Web Mining
                                                Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones
                                                                                            Escuela Politécnica Superior, Universidad Autónoma de Madrid
Links Generation: EXPLOITING THE ANNOTATORS                                                                                               55	
  

  (1) Extract the information
  from the video lecture                         (4) Obtain the ODP document
                                                 classification

                                                 Reference/Knowledge_Management (id=495),
                                                 weight=0.71




                                                 (3) Provide the document to the
  (2) Generate an textual document               Textwise classification service




The Semantic Web: From words to meanings                                                                                       Web Mining
                                           Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones
                                                                                       Escuela Politécnica Superior, Universidad Autónoma de Madrid
PUBLICATION                                                                                                                               56	
  


  •  New LD educational dataset
      •  More than 14,000 video lectures from 27 institutions




The Semantic Web: From words to meanings                                                                                       Web Mining
                                           Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones
                                                                                       Escuela Politécnica Superior, Universidad Autónoma de Madrid
57	
  



 •  3. Two paths towards the Sematic Web vision
     •  Metadata embedded in HTML
     •  Linked Data
          -­‐  An example
 •  4. Sematic Web applications
     •    Search engines
     •    Recommendations
     •    Open government
     •    Institutions
            -­‐  The Open University
            -­‐  BBC

The Semantic Web: From words to meanings                                                                                       Web Mining
                                           Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones
                                                                                       Escuela Politécnica Superior, Universidad Autónoma de Madrid
Search engines: BETTER DATA VISUALISATION                                                                                                 58	
  




                                                         •  2007 Yahoo! Presented
                                                            Search Monkey



                                                                                         •  2009 Google
                                                                                            announced
                                                                                            Rich Snippets

   If search engines could understand the data inside the HTML pages they
   would display such data in better ways: pictures, dates, prices, ratings, etc.
The Semantic Web: From words to meanings                                                                                       Web Mining
                                           Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones
                                                                                       Escuela Politécnica Superior, Universidad Autónoma de Madrid
Search engines: BETTER CONTENT RETRIEVAL                                                                                                     59	
  




2012 Google announced Knowledge Graph
http://googleblog.blogspot.co.uk/2012/05/
introducing-knowledge-graph-things-not.html


The Semantic Web: From words to meanings                                                                                          Web Mining
                                              Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones
                                                                                          Escuela Politécnica Superior, Universidad Autónoma de Madrid
Search engines: NOT ALL IS ABOUT DOCUMENTS                                                                                                        60	
  


  •  Search engines oriented to concept-search vs. document search
                                           FreeBase: In July 2010
                                           Google bought Metaweb,
                                           the company behind
                                           freebase




                                                                                                   Wolfram Alpha: Active
                                       Powerset: Bought by                                         since 2009
                                       Microsoft in 2008

The Semantic Web: From words to meanings                                                                                               Web Mining
                                                   Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones
                                                                                               Escuela Politécnica Superior, Universidad Autónoma de Madrid
61	
  



 •  3. Two paths towards the Sematic Web vision
     •  Metadata embedded in HTML
     •  Linked Data
          -­‐  An example
 •  4. Sematic Web applications
     •    Search engines
     •    Recommendations
     •    Open government
     •    Institutions
            -­‐  The Open University
            -­‐  BBC

The Semantic Web: From words to meanings                                                                                       Web Mining
                                           Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones
                                                                                       Escuela Politécnica Superior, Universidad Autónoma de Madrid
Recommendations: FACEBOOK GRAPH SEARCH                                                                                                    62	
  

                                                         Links among people, places,
                                                         music, and other objects can
                                                         lead to better content
                                                         recommendation




The Semantic Web: From words to meanings                                                                                       Web Mining
                                           Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones
                                                                                       Escuela Politécnica Superior, Universidad Autónoma de Madrid
63	
  



 •  3. Two paths towards the Sematic Web vision
     •  Metadata embedded in HTML
     •  Linked Data
          -­‐  An example
 •  4. Sematic Web applications
     •    Search engines
     •    Recommendations
     •    Open government
     •    Institutions
            -­‐  The Open University
            -­‐  BBC

The Semantic Web: From words to meanings                                                                                       Web Mining
                                           Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones
                                                                                       Escuela Politécnica Superior, Universidad Autónoma de Madrid
Open Government                                                                                                                            64	
  


  •  Open government
      •  Data.gov
      •  Data.gov.uk
      •  Many others…




                                                                 •  Linking data lets more
                                                                    complex queries and deeper
                                                                    data analysis
                                                                 •  Organizations can now easily
                                                                    link to public government data
                Research Funding Explorer                        •  Favour transparency
The Semantic Web: From words to meanings                                                                                        Web Mining
                                            Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones
                                                                                        Escuela Politécnica Superior, Universidad Autónoma de Madrid
65	
  



 •  3. Two paths towards the Sematic Web vision
     •  Metadata embedded in HTML
     •  Linked Data
          -­‐  An example
 •  4. Sematic Web applications
     •    Search engines
     •    Recommendations
     •    Open government
     •    Institutions
            -­‐  The Open University
            -­‐  BBC

The Semantic Web: From words to meanings                                                                                       Web Mining
                                           Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones
                                                                                       Escuela Politécnica Superior, Universidad Autónoma de Madrid
The Open University                                                                                                                                       66	
  



 OU public data sit in
  OU public data sit in
 different systems ––hard to
  different systems hard to                                                                                                    RAE	
  
 discover, obtain, integrate
  discover, obtain, integrate
                                                                                              Data	
  from	
  	
  
 by users
  by users                           OpenLearn	
  
                                                                                              Research	
  	
  
                                      Content	
                      ORO	
  
                                                                                               Outputs	
  


                                             Archive	
  of	
  	
  
                                                                                Library’s	
  
                                              Course	
  	
  
 Exposed as linked data,
  Exposed as linked data,                     Material	
  
                                                                               Catalogue	
  
                                                                               Of	
  Digital	
  
 our data interlink with each
  our data interlink with each                                                  	
  Content	
  
 other and the external
  other and the external                                                                                                     data.gov.uk	
  
 world: become part of the
  world: become part of the                    A/V	
  Material	
  
                                                 Podcasts	
  
 “global data space” on the
  “global data space” on the                     iTunesU	
  
 Web
  Web
                                                                                                                 DBLP	
  


The Semantic Web: From words to meanings                                                                                                       Web Mining
                                                           Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones
                                                                                                       Escuela Politécnica Superior, Universidad Autónoma de Madrid
The Open University                                                                                                                        67	
  


  •  The OU has been the first University to expose its data as linked data:
     http://data.open.ac.uk
  •  Now widely recognized as a critical step forward for the HE sector in
     the UK (and worldwide)
      •  Favor transparency and reuse of data, both externally and internally
      •  Reduces cost of dealing with our own public data: integration and reuse by
         design
      •  Enable both new kinds of applications, and to make the ones that are already
         feasible more cost effective




The Semantic Web: From words to meanings                                                                                        Web Mining
                                            Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones
                                                                                        Escuela Politécnica Superior, Universidad Autónoma de Madrid
The Open University                                                                                                                       68	
  


  •  Linking Open Learn with relevant Podcasts




The Semantic Web: From words to meanings                                                                                       Web Mining
                                           Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones
                                                                                       Escuela Politécnica Superior, Universidad Autónoma de Madrid
The Open University                                                                                                                       69	
  


  •  Exploring research communities




The Semantic Web: From words to meanings                                                                                       Web Mining
                                           Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones
                                                                                       Escuela Politécnica Superior, Universidad Autónoma de Madrid
70	
  



 •  3. Two paths towards the Sematic Web vision
     •  Metadata embedded in HTML
     •  Linked Data
          -­‐  An example
 •  4. Sematic Web applications
     •    Search engines
     •    Recommendations
     •    Open government
     •    Institutions
            -­‐  The Open University
            -­‐  BBC

The Semantic Web: From words to meanings                                                                                       Web Mining
                                           Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones
                                                                                       Escuela Politécnica Superior, Universidad Autónoma de Madrid
BBC: British Broadcasting Corporation                                                                                                         71	
  


  •  Historically when developing websites…
      •  Hand-crafted customized sites
      •  Only some programs could be covered
          -­‐  Shame considering they broadcast between 1,000 and
               1,500 programs/day
      •  All those sites were developed in isolation
          -  Often not maintained
          -  Often not persistent


         Using Linked Data to build Websites more productively
         http://www.slideshare.net/metade/linked-data-on-the-bbc
The Semantic Web: From words to meanings                                                                                           Web Mining
                                               Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones
                                                                                           Escuela Politécnica Superior, Universidad Autónoma de Madrid
BBC: British Broadcasting Corporation                                                                                                     72	
  


  •  The Linked Data Website construction model
                                                         Domain-driven design
                                                         •  Identify the domain objects
                                                            and relations
                                                         •  Check the domain model with
                                                            users
                                                         •  Design your schema
                                                         •  Design your URIs
                                                         •  Define data you need to build
                                                            each of your pages
                                                         •  Automatically build up your
                                                            HTML pages by querying
                                                            these data and applying CSS
                                                            layouts
The Semantic Web: From words to meanings                                                                                       Web Mining
                                           Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones
                                                                                       Escuela Politécnica Superior, Universidad Autónoma de Madrid
BBC: British Broadcasting Corporation                                                                                                     73	
  
                                                                                         •     Programs
  •  Starting with the WorldCup 2010… and now…                                           •     Music
                                                                                         •     Artists
                                                                                         •     Animal life
                                                                                         •     …..




The Semantic Web: From words to meanings                                                                                       Web Mining
                                           Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones
                                                                                       Escuela Politécnica Superior, Universidad Autónoma de Madrid
Thx! J                                                                                                                                   74	
  




  •  Questions, doubts?




The Semantic Web: From words to meanings                                                                                       Web Mining
                                           Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones
                                                                                       Escuela Politécnica Superior, Universidad Autónoma de Madrid

Contenu connexe

En vedette (20)

Lobby
LobbyLobby
Lobby
 
Arbre genealògic
Arbre genealògicArbre genealògic
Arbre genealògic
 
Bar
BarBar
Bar
 
экслибрис текст
экслибрис текстэкслибрис текст
экслибрис текст
 
S.O.
S.O.S.O.
S.O.
 
Trabaj
TrabajTrabaj
Trabaj
 
Libro1
Libro1Libro1
Libro1
 
Kuroneko
KuronekoKuroneko
Kuroneko
 
Unicolor zentai suit
Unicolor zentai suitUnicolor zentai suit
Unicolor zentai suit
 
Presentation1
Presentation1Presentation1
Presentation1
 
Revista oficial chik's
Revista oficial chik'sRevista oficial chik's
Revista oficial chik's
 
Revista
RevistaRevista
Revista
 
Propósitos de las pruebas de auditoria
Propósitos de las pruebas de auditoriaPropósitos de las pruebas de auditoria
Propósitos de las pruebas de auditoria
 
Anual 2012 meta pesa
Anual 2012 meta pesaAnual 2012 meta pesa
Anual 2012 meta pesa
 
Diapositivas dahian guerrero 1.
Diapositivas dahian guerrero 1.Diapositivas dahian guerrero 1.
Diapositivas dahian guerrero 1.
 
Entregable1pps
Entregable1ppsEntregable1pps
Entregable1pps
 
Cien.mat132ºc
Cien.mat132ºcCien.mat132ºc
Cien.mat132ºc
 
Los 15 mejores lugares del mundo
Los 15 mejores lugares del mundoLos 15 mejores lugares del mundo
Los 15 mejores lugares del mundo
 
Rogue IT
Rogue IT Rogue IT
Rogue IT
 
Buducnost kablovske televizije - IPTV - WebTV - OTT
Buducnost kablovske televizije - IPTV - WebTV - OTTBuducnost kablovske televizije - IPTV - WebTV - OTT
Buducnost kablovske televizije - IPTV - WebTV - OTT
 

Similaire à Wm unit1.6-slides-semantic web-final

Produccinperiodismoenweb 120122075955-phpapp02
Produccinperiodismoenweb 120122075955-phpapp02Produccinperiodismoenweb 120122075955-phpapp02
Produccinperiodismoenweb 120122075955-phpapp02elrotativodebaranoa
 
Paradigmas clase 2
Paradigmas clase 2Paradigmas clase 2
Paradigmas clase 2sullinsan
 
Competencia digital
Competencia digitalCompetencia digital
Competencia digitall_siller
 
Diplomado Periodismo Digital, Clases 1 y 2
Diplomado Periodismo Digital, Clases 1 y 2Diplomado Periodismo Digital, Clases 1 y 2
Diplomado Periodismo Digital, Clases 1 y 2Universidad Autónoma
 
Diplomado Periodismo Digital, clases 1, 2 y 3
Diplomado Periodismo Digital, clases 1, 2 y 3Diplomado Periodismo Digital, clases 1, 2 y 3
Diplomado Periodismo Digital, clases 1, 2 y 3Universidad Autónoma
 
Materia nti cx programa
Materia nti cx  programaMateria nti cx  programa
Materia nti cx programapepapompin
 
Tecnología de la información y la Comunicación
Tecnología de la información y la ComunicaciónTecnología de la información y la Comunicación
Tecnología de la información y la ComunicaciónTrabajo Colaborativo
 
Las tecnologías
Las tecnologíasLas tecnologías
Las tecnologíasManuel Vaca
 
Sistemas inteligentes y la ciencia del dato (y II)
Sistemas inteligentes y la ciencia del dato (y II)Sistemas inteligentes y la ciencia del dato (y II)
Sistemas inteligentes y la ciencia del dato (y II)Joaquín Borrego-Díaz
 
La Universidad como creadora de talento
La Universidad como creadora de talentoLa Universidad como creadora de talento
La Universidad como creadora de talentoAlvaro Castillo
 
Tecnología de la información y comunicación
Tecnología de la información y comunicaciónTecnología de la información y comunicación
Tecnología de la información y comunicaciónLilian Koch
 
Contenidos de la materia
Contenidos de la materiaContenidos de la materia
Contenidos de la materiaProfeMasera
 
Planificacion anual
Planificacion anualPlanificacion anual
Planificacion anualCarlys Pgm
 
Ender Melean DiseñO Instruccional(2)
Ender Melean DiseñO Instruccional(2)Ender Melean DiseñO Instruccional(2)
Ender Melean DiseñO Instruccional(2)Ender Melean
 
Web Semantica
Web SemanticaWeb Semantica
Web Semanticapatmed
 

Similaire à Wm unit1.6-slides-semantic web-final (20)

Tics web
Tics webTics web
Tics web
 
Produccinperiodismoenweb 120122075955-phpapp02
Produccinperiodismoenweb 120122075955-phpapp02Produccinperiodismoenweb 120122075955-phpapp02
Produccinperiodismoenweb 120122075955-phpapp02
 
Periodismo Digital, clase 1
Periodismo Digital, clase 1Periodismo Digital, clase 1
Periodismo Digital, clase 1
 
Paradigmas clase 2
Paradigmas clase 2Paradigmas clase 2
Paradigmas clase 2
 
Competencia digital
Competencia digitalCompetencia digital
Competencia digital
 
Periodismoenweb.phpapp02
Periodismoenweb.phpapp02Periodismoenweb.phpapp02
Periodismoenweb.phpapp02
 
Diplomado Periodismo Digital, Clases 1 y 2
Diplomado Periodismo Digital, Clases 1 y 2Diplomado Periodismo Digital, Clases 1 y 2
Diplomado Periodismo Digital, Clases 1 y 2
 
Diplomado Periodismo Digital, clases 1, 2 y 3
Diplomado Periodismo Digital, clases 1, 2 y 3Diplomado Periodismo Digital, clases 1, 2 y 3
Diplomado Periodismo Digital, clases 1, 2 y 3
 
Materia nti cx programa
Materia nti cx  programaMateria nti cx  programa
Materia nti cx programa
 
Tecnología de la información y la Comunicación
Tecnología de la información y la ComunicaciónTecnología de la información y la Comunicación
Tecnología de la información y la Comunicación
 
Las tecnologías
Las tecnologíasLas tecnologías
Las tecnologías
 
Peridismo digital
Peridismo digitalPeridismo digital
Peridismo digital
 
Sistemas inteligentes y la ciencia del dato (y II)
Sistemas inteligentes y la ciencia del dato (y II)Sistemas inteligentes y la ciencia del dato (y II)
Sistemas inteligentes y la ciencia del dato (y II)
 
La Universidad como creadora de talento
La Universidad como creadora de talentoLa Universidad como creadora de talento
La Universidad como creadora de talento
 
Jesus flores pres-proyectocybermedia-ucm-mec-23-03-10
Jesus flores pres-proyectocybermedia-ucm-mec-23-03-10Jesus flores pres-proyectocybermedia-ucm-mec-23-03-10
Jesus flores pres-proyectocybermedia-ucm-mec-23-03-10
 
Tecnología de la información y comunicación
Tecnología de la información y comunicaciónTecnología de la información y comunicación
Tecnología de la información y comunicación
 
Contenidos de la materia
Contenidos de la materiaContenidos de la materia
Contenidos de la materia
 
Planificacion anual
Planificacion anualPlanificacion anual
Planificacion anual
 
Ender Melean DiseñO Instruccional(2)
Ender Melean DiseñO Instruccional(2)Ender Melean DiseñO Instruccional(2)
Ender Melean DiseñO Instruccional(2)
 
Web Semantica
Web SemanticaWeb Semantica
Web Semantica
 

Plus de Miriam Fernandez

Biases in Social Media Research (NoBias EU project)
Biases in Social Media Research (NoBias EU project)Biases in Social Media Research (NoBias EU project)
Biases in Social Media Research (NoBias EU project)Miriam Fernandez
 
Research seminar Queen Mary University of London (CogSci)
Research seminar Queen Mary University of London (CogSci)Research seminar Queen Mary University of London (CogSci)
Research seminar Queen Mary University of London (CogSci)Miriam Fernandez
 
Vision track october_2020_fernandez_v5
Vision track october_2020_fernandez_v5Vision track october_2020_fernandez_v5
Vision track october_2020_fernandez_v5Miriam Fernandez
 
On the Application of Social Data Science to Address Societal Challenges
On the Application of Social Data Science to Address Societal ChallengesOn the Application of Social Data Science to Address Societal Challenges
On the Application of Social Data Science to Address Societal ChallengesMiriam Fernandez
 
Online radicalisation: work, challenges and future directions
Online radicalisation: work, challenges and future directionsOnline radicalisation: work, challenges and future directions
Online radicalisation: work, challenges and future directionsMiriam Fernandez
 
Mining Social Media Data For Policing
Mining Social Media Data For PolicingMining Social Media Data For Policing
Mining Social Media Data For PolicingMiriam Fernandez
 
Introduction to Mining Social Media Data
Introduction to Mining Social Media DataIntroduction to Mining Social Media Data
Introduction to Mining Social Media DataMiriam Fernandez
 
Online Misinformation: Challenges and Future Directions
Online Misinformation: Challenges and Future DirectionsOnline Misinformation: Challenges and Future Directions
Online Misinformation: Challenges and Future DirectionsMiriam Fernandez
 
Slides 28-feb-2018-v2.pptx
Slides 28-feb-2018-v2.pptxSlides 28-feb-2018-v2.pptx
Slides 28-feb-2018-v2.pptxMiriam Fernandez
 
Artificial Intelligence for Policing
Artificial Intelligence for PolicingArtificial Intelligence for Policing
Artificial Intelligence for PolicingMiriam Fernandez
 
OUSocial OUSocMed conference
OUSocial OUSocMed conference OUSocial OUSocMed conference
OUSocial OUSocMed conference Miriam Fernandez
 
On the use of social media for evidence-based policing
On the use of social media for evidence-based policingOn the use of social media for evidence-based policing
On the use of social media for evidence-based policingMiriam Fernandez
 
SocInfo2014 CityLabs Workshop
SocInfo2014 CityLabs WorkshopSocInfo2014 CityLabs Workshop
SocInfo2014 CityLabs WorkshopMiriam Fernandez
 
ECSM2014: Using Social Media To Inform Policy Making: To whom are we listenin...
ECSM2014: Using Social Media To Inform Policy Making: To whom are we listenin...ECSM2014: Using Social Media To Inform Policy Making: To whom are we listenin...
ECSM2014: Using Social Media To Inform Policy Making: To whom are we listenin...Miriam Fernandez
 
ESWC 2014 Tutorial Handson 1: Collect Data from Facebook
ESWC 2014 Tutorial Handson 1: Collect Data from FacebookESWC 2014 Tutorial Handson 1: Collect Data from Facebook
ESWC 2014 Tutorial Handson 1: Collect Data from FacebookMiriam Fernandez
 

Plus de Miriam Fernandez (20)

Biases in Social Media Research (NoBias EU project)
Biases in Social Media Research (NoBias EU project)Biases in Social Media Research (NoBias EU project)
Biases in Social Media Research (NoBias EU project)
 
Research seminar Queen Mary University of London (CogSci)
Research seminar Queen Mary University of London (CogSci)Research seminar Queen Mary University of London (CogSci)
Research seminar Queen Mary University of London (CogSci)
 
Vision track october_2020_fernandez_v5
Vision track october_2020_fernandez_v5Vision track october_2020_fernandez_v5
Vision track october_2020_fernandez_v5
 
On the Application of Social Data Science to Address Societal Challenges
On the Application of Social Data Science to Address Societal ChallengesOn the Application of Social Data Science to Address Societal Challenges
On the Application of Social Data Science to Address Societal Challenges
 
Online radicalisation: work, challenges and future directions
Online radicalisation: work, challenges and future directionsOnline radicalisation: work, challenges and future directions
Online radicalisation: work, challenges and future directions
 
Mining Social Media Data For Policing
Mining Social Media Data For PolicingMining Social Media Data For Policing
Mining Social Media Data For Policing
 
Introduction to Mining Social Media Data
Introduction to Mining Social Media DataIntroduction to Mining Social Media Data
Introduction to Mining Social Media Data
 
Online Misinformation: Challenges and Future Directions
Online Misinformation: Challenges and Future DirectionsOnline Misinformation: Challenges and Future Directions
Online Misinformation: Challenges and Future Directions
 
Slides 28-feb-2018-v2.pptx
Slides 28-feb-2018-v2.pptxSlides 28-feb-2018-v2.pptx
Slides 28-feb-2018-v2.pptx
 
Artificial Intelligence for Policing
Artificial Intelligence for PolicingArtificial Intelligence for Policing
Artificial Intelligence for Policing
 
OUSocial OUSocMed conference
OUSocial OUSocMed conference OUSocial OUSocMed conference
OUSocial OUSocMed conference
 
On the use of social media for evidence-based policing
On the use of social media for evidence-based policingOn the use of social media for evidence-based policing
On the use of social media for evidence-based policing
 
SocInfo2014 CityLabs Workshop
SocInfo2014 CityLabs WorkshopSocInfo2014 CityLabs Workshop
SocInfo2014 CityLabs Workshop
 
ECSM2014: Using Social Media To Inform Policy Making: To whom are we listenin...
ECSM2014: Using Social Media To Inform Policy Making: To whom are we listenin...ECSM2014: Using Social Media To Inform Policy Making: To whom are we listenin...
ECSM2014: Using Social Media To Inform Policy Making: To whom are we listenin...
 
ESWC 2014 Tutorial Handson 1: Collect Data from Facebook
ESWC 2014 Tutorial Handson 1: Collect Data from FacebookESWC 2014 Tutorial Handson 1: Collect Data from Facebook
ESWC 2014 Tutorial Handson 1: Collect Data from Facebook
 
ESWC 2014 Tutorial Part 4
ESWC 2014 Tutorial Part 4ESWC 2014 Tutorial Part 4
ESWC 2014 Tutorial Part 4
 
ESWC 2014 Tutorial part 3
ESWC 2014 Tutorial part 3ESWC 2014 Tutorial part 3
ESWC 2014 Tutorial part 3
 
ESWC 2014 Tutorial part 2
ESWC 2014 Tutorial part 2ESWC 2014 Tutorial part 2
ESWC 2014 Tutorial part 2
 
ESWC 2014 Tutorial part 1
ESWC 2014 Tutorial part 1ESWC 2014 Tutorial part 1
ESWC 2014 Tutorial part 1
 
CAEPIA 2011
CAEPIA 2011CAEPIA 2011
CAEPIA 2011
 

Dernier

libro grafismo fonético guía de uso para el lenguaje
libro grafismo fonético guía de uso para el lenguajelibro grafismo fonético guía de uso para el lenguaje
libro grafismo fonético guía de uso para el lenguajeKattyMoran3
 
DIGNITAS INFINITA - DIGNIDAD HUMANA; Declaración del dicasterio para la doctr...
DIGNITAS INFINITA - DIGNIDAD HUMANA; Declaración del dicasterio para la doctr...DIGNITAS INFINITA - DIGNIDAD HUMANA; Declaración del dicasterio para la doctr...
DIGNITAS INFINITA - DIGNIDAD HUMANA; Declaración del dicasterio para la doctr...Martin M Flynn
 
PÉNSUM ENFERMERIA 2024 - ECUGENIUS S.A. V2
PÉNSUM ENFERMERIA 2024 - ECUGENIUS S.A. V2PÉNSUM ENFERMERIA 2024 - ECUGENIUS S.A. V2
PÉNSUM ENFERMERIA 2024 - ECUGENIUS S.A. V2Eliseo Delgado
 
Cuadernillo de actividades eclipse solar.pdf
Cuadernillo de actividades eclipse solar.pdfCuadernillo de actividades eclipse solar.pdf
Cuadernillo de actividades eclipse solar.pdflizcortes48
 
TEMA 13. LOS GOBIERNOS DEMOCRÁTICOS (1982-2018)
TEMA 13. LOS GOBIERNOS DEMOCRÁTICOS (1982-2018)TEMA 13. LOS GOBIERNOS DEMOCRÁTICOS (1982-2018)
TEMA 13. LOS GOBIERNOS DEMOCRÁTICOS (1982-2018)jlorentemartos
 
HISPANIDAD - La cultura común de la HISPANOAMERICA
HISPANIDAD - La cultura común de la HISPANOAMERICAHISPANIDAD - La cultura común de la HISPANOAMERICA
HISPANIDAD - La cultura común de la HISPANOAMERICAJesus Gonzalez Losada
 
Si cuidamos el mundo, tendremos un mundo mejor.
Si cuidamos el mundo, tendremos un mundo mejor.Si cuidamos el mundo, tendremos un mundo mejor.
Si cuidamos el mundo, tendremos un mundo mejor.monthuerta17
 
BITÁCORA DE ESTUDIO DE PROBLEMÁTICA. TUTORÍA V. PDF 2 UNIDAD.pdf
BITÁCORA DE ESTUDIO DE PROBLEMÁTICA. TUTORÍA V. PDF 2 UNIDAD.pdfBITÁCORA DE ESTUDIO DE PROBLEMÁTICA. TUTORÍA V. PDF 2 UNIDAD.pdf
BITÁCORA DE ESTUDIO DE PROBLEMÁTICA. TUTORÍA V. PDF 2 UNIDAD.pdfsolidalilaalvaradoro
 
ENSEÑAR ACUIDAR EL MEDIO AMBIENTE ES ENSEÑAR A VALORAR LA VIDA.
ENSEÑAR ACUIDAR  EL MEDIO AMBIENTE ES ENSEÑAR A VALORAR LA VIDA.ENSEÑAR ACUIDAR  EL MEDIO AMBIENTE ES ENSEÑAR A VALORAR LA VIDA.
ENSEÑAR ACUIDAR EL MEDIO AMBIENTE ES ENSEÑAR A VALORAR LA VIDA.karlazoegarciagarcia
 
NUEVO PLAN Y PROGRAMAS DE ESTUDIO 2022.pdf
NUEVO PLAN Y PROGRAMAS DE ESTUDIO  2022.pdfNUEVO PLAN Y PROGRAMAS DE ESTUDIO  2022.pdf
NUEVO PLAN Y PROGRAMAS DE ESTUDIO 2022.pdfEDNAMONICARUIZNIETO
 
DIDÁCTICA DE LA EDUCACIÓN SUPERIOR- DR LENIN CARI MOGROVEJO
DIDÁCTICA DE LA EDUCACIÓN SUPERIOR- DR LENIN CARI MOGROVEJODIDÁCTICA DE LA EDUCACIÓN SUPERIOR- DR LENIN CARI MOGROVEJO
DIDÁCTICA DE LA EDUCACIÓN SUPERIOR- DR LENIN CARI MOGROVEJOLeninCariMogrovejo
 
TALLER_DE_ORALIDAD_LECTURA_ESCRITURA_Y.pptx
TALLER_DE_ORALIDAD_LECTURA_ESCRITURA_Y.pptxTALLER_DE_ORALIDAD_LECTURA_ESCRITURA_Y.pptx
TALLER_DE_ORALIDAD_LECTURA_ESCRITURA_Y.pptxMartaChaparro1
 
programa PLAN ANUAL TUTORIA 3° SEC-2024.docx
programa PLAN ANUAL TUTORIA 3° SEC-2024.docxprograma PLAN ANUAL TUTORIA 3° SEC-2024.docx
programa PLAN ANUAL TUTORIA 3° SEC-2024.docxCram Monzon
 
EJEMPLO MODELO DE PLAN DE REFUERZO ESCOLAR.docx
EJEMPLO MODELO DE PLAN DE REFUERZO ESCOLAR.docxEJEMPLO MODELO DE PLAN DE REFUERZO ESCOLAR.docx
EJEMPLO MODELO DE PLAN DE REFUERZO ESCOLAR.docxFabianValenciaJabo
 
4° UNIDAD 2 SALUD,ALIMENTACIÓN Y DÍA DE LA MADRE 933623393 PROF YESSENIA CN.docx
4° UNIDAD 2 SALUD,ALIMENTACIÓN Y DÍA DE LA MADRE 933623393 PROF YESSENIA CN.docx4° UNIDAD 2 SALUD,ALIMENTACIÓN Y DÍA DE LA MADRE 933623393 PROF YESSENIA CN.docx
4° UNIDAD 2 SALUD,ALIMENTACIÓN Y DÍA DE LA MADRE 933623393 PROF YESSENIA CN.docxMagalyDacostaPea
 

Dernier (20)

libro grafismo fonético guía de uso para el lenguaje
libro grafismo fonético guía de uso para el lenguajelibro grafismo fonético guía de uso para el lenguaje
libro grafismo fonético guía de uso para el lenguaje
 
DIGNITAS INFINITA - DIGNIDAD HUMANA; Declaración del dicasterio para la doctr...
DIGNITAS INFINITA - DIGNIDAD HUMANA; Declaración del dicasterio para la doctr...DIGNITAS INFINITA - DIGNIDAD HUMANA; Declaración del dicasterio para la doctr...
DIGNITAS INFINITA - DIGNIDAD HUMANA; Declaración del dicasterio para la doctr...
 
PÉNSUM ENFERMERIA 2024 - ECUGENIUS S.A. V2
PÉNSUM ENFERMERIA 2024 - ECUGENIUS S.A. V2PÉNSUM ENFERMERIA 2024 - ECUGENIUS S.A. V2
PÉNSUM ENFERMERIA 2024 - ECUGENIUS S.A. V2
 
Cuadernillo de actividades eclipse solar.pdf
Cuadernillo de actividades eclipse solar.pdfCuadernillo de actividades eclipse solar.pdf
Cuadernillo de actividades eclipse solar.pdf
 
TEMA 13. LOS GOBIERNOS DEMOCRÁTICOS (1982-2018)
TEMA 13. LOS GOBIERNOS DEMOCRÁTICOS (1982-2018)TEMA 13. LOS GOBIERNOS DEMOCRÁTICOS (1982-2018)
TEMA 13. LOS GOBIERNOS DEMOCRÁTICOS (1982-2018)
 
HISPANIDAD - La cultura común de la HISPANOAMERICA
HISPANIDAD - La cultura común de la HISPANOAMERICAHISPANIDAD - La cultura común de la HISPANOAMERICA
HISPANIDAD - La cultura común de la HISPANOAMERICA
 
¿Amor o egoísmo? Esa es la cuestión.pptx
¿Amor o egoísmo? Esa es la cuestión.pptx¿Amor o egoísmo? Esa es la cuestión.pptx
¿Amor o egoísmo? Esa es la cuestión.pptx
 
Si cuidamos el mundo, tendremos un mundo mejor.
Si cuidamos el mundo, tendremos un mundo mejor.Si cuidamos el mundo, tendremos un mundo mejor.
Si cuidamos el mundo, tendremos un mundo mejor.
 
BITÁCORA DE ESTUDIO DE PROBLEMÁTICA. TUTORÍA V. PDF 2 UNIDAD.pdf
BITÁCORA DE ESTUDIO DE PROBLEMÁTICA. TUTORÍA V. PDF 2 UNIDAD.pdfBITÁCORA DE ESTUDIO DE PROBLEMÁTICA. TUTORÍA V. PDF 2 UNIDAD.pdf
BITÁCORA DE ESTUDIO DE PROBLEMÁTICA. TUTORÍA V. PDF 2 UNIDAD.pdf
 
ENSEÑAR ACUIDAR EL MEDIO AMBIENTE ES ENSEÑAR A VALORAR LA VIDA.
ENSEÑAR ACUIDAR  EL MEDIO AMBIENTE ES ENSEÑAR A VALORAR LA VIDA.ENSEÑAR ACUIDAR  EL MEDIO AMBIENTE ES ENSEÑAR A VALORAR LA VIDA.
ENSEÑAR ACUIDAR EL MEDIO AMBIENTE ES ENSEÑAR A VALORAR LA VIDA.
 
NUEVO PLAN Y PROGRAMAS DE ESTUDIO 2022.pdf
NUEVO PLAN Y PROGRAMAS DE ESTUDIO  2022.pdfNUEVO PLAN Y PROGRAMAS DE ESTUDIO  2022.pdf
NUEVO PLAN Y PROGRAMAS DE ESTUDIO 2022.pdf
 
DIDÁCTICA DE LA EDUCACIÓN SUPERIOR- DR LENIN CARI MOGROVEJO
DIDÁCTICA DE LA EDUCACIÓN SUPERIOR- DR LENIN CARI MOGROVEJODIDÁCTICA DE LA EDUCACIÓN SUPERIOR- DR LENIN CARI MOGROVEJO
DIDÁCTICA DE LA EDUCACIÓN SUPERIOR- DR LENIN CARI MOGROVEJO
 
TALLER_DE_ORALIDAD_LECTURA_ESCRITURA_Y.pptx
TALLER_DE_ORALIDAD_LECTURA_ESCRITURA_Y.pptxTALLER_DE_ORALIDAD_LECTURA_ESCRITURA_Y.pptx
TALLER_DE_ORALIDAD_LECTURA_ESCRITURA_Y.pptx
 
Unidad 2 | Teorías de la Comunicación | MCDIU
Unidad 2 | Teorías de la Comunicación | MCDIUUnidad 2 | Teorías de la Comunicación | MCDIU
Unidad 2 | Teorías de la Comunicación | MCDIU
 
Acuerdo segundo periodo - Grado Noveno.pptx
Acuerdo segundo periodo - Grado Noveno.pptxAcuerdo segundo periodo - Grado Noveno.pptx
Acuerdo segundo periodo - Grado Noveno.pptx
 
Aedes aegypti + Intro to Coquies EE.pptx
Aedes aegypti + Intro to Coquies EE.pptxAedes aegypti + Intro to Coquies EE.pptx
Aedes aegypti + Intro to Coquies EE.pptx
 
programa PLAN ANUAL TUTORIA 3° SEC-2024.docx
programa PLAN ANUAL TUTORIA 3° SEC-2024.docxprograma PLAN ANUAL TUTORIA 3° SEC-2024.docx
programa PLAN ANUAL TUTORIA 3° SEC-2024.docx
 
Sesión ¿Amor o egoísmo? Esa es la cuestión
Sesión  ¿Amor o egoísmo? Esa es la cuestiónSesión  ¿Amor o egoísmo? Esa es la cuestión
Sesión ¿Amor o egoísmo? Esa es la cuestión
 
EJEMPLO MODELO DE PLAN DE REFUERZO ESCOLAR.docx
EJEMPLO MODELO DE PLAN DE REFUERZO ESCOLAR.docxEJEMPLO MODELO DE PLAN DE REFUERZO ESCOLAR.docx
EJEMPLO MODELO DE PLAN DE REFUERZO ESCOLAR.docx
 
4° UNIDAD 2 SALUD,ALIMENTACIÓN Y DÍA DE LA MADRE 933623393 PROF YESSENIA CN.docx
4° UNIDAD 2 SALUD,ALIMENTACIÓN Y DÍA DE LA MADRE 933623393 PROF YESSENIA CN.docx4° UNIDAD 2 SALUD,ALIMENTACIÓN Y DÍA DE LA MADRE 933623393 PROF YESSENIA CN.docx
4° UNIDAD 2 SALUD,ALIMENTACIÓN Y DÍA DE LA MADRE 933623393 PROF YESSENIA CN.docx
 

Wm unit1.6-slides-semantic web-final

  • 1. Universidad Autónoma de Madrid Escuela Politécnica Superior Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones Web Mining   Mining semi-structured data   The Semantic Web: From words to meanings Miriam Fernández, m.fernandez@open.ac.uk Knowledge Media Institute, The Open University, UK
  • 2. 1   •  1. Introduction •  Unstructured data vs. structured data •  Data vs. information vs. knowledge •  Motivation •  2. The Semantic Web •  What is the Semantic Web? •  The Semantic Web weapons: ontologies & representation languages •  The Semantic Web tools: ontology editors & triple stores The Semantic Web: From words to meanings Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones Escuela Politécnica Superior, Universidad Autónoma de Madrid
  • 3. 2   •  3. Two paths towards the Sematic Web vision •  Metadata embedded in HTML •  Linked Data -­‐  An example •  4. Sematic Web applications •  Search engines •  Recommendations •  Open government •  Institutions -­‐  The Open University -­‐  BBC The Semantic Web: From words to meanings Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones Escuela Politécnica Superior, Universidad Autónoma de Madrid
  • 4. 3   •  1. Introduction •  Unstructured data vs. structured data •  Data vs. information vs. knowledge •  Motivation •  2. The Semantic Web •  What is the Semantic Web? •  The Semantic Web weapons: ontologies & representation languages •  The Semantic Web tools: ontology editors & triple stores The Semantic Web: From words to meanings Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones Escuela Politécnica Superior, Universidad Autónoma de Madrid
  • 5. What is … ? 4   The Semantic Web: From words to meanings Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones Escuela Politécnica Superior, Universidad Autónoma de Madrid
  • 6. What is … ? 5   Rigid structure: well defined vocabularies and representation (e.g. databases) Flexible structure (e.g. tags, taxonomies) No structure (e.g. free text) The Semantic Web: From words to meanings Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones Escuela Politécnica Superior, Universidad Autónoma de Madrid
  • 7. What is … ? 6   Iván in Italy! Semantic interpretation A picture! Syntactic interpretation The Semantic Web: From words to meanings Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones Escuela Politécnica Superior, Universidad Autónoma de Madrid
  • 8. Why do we need to add structure? THE CHALLENGE 7   Is this a person, an object, a place? I don’t understand anything! L Semantic interpretation A picture! Syntactic interpretation Find the way machines can extract & interpret knowledge! The Semantic Web: From words to meanings Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones Escuela Politécnica Superior, Universidad Autónoma de Madrid
  • 9. Why is this important? 8   We have entered the Zettabyte era! (a billion terabytes) http://www.emc.com/collateral/demos/microsites/emc-digital-universe-2011/index.htm The Semantic Web: From words to meanings Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones Escuela Politécnica Superior, Universidad Autónoma de Madrid
  • 10. Why is this important? 9   •  Information overwhelming •  We need mechanisms to support -­‐  better information search -­‐  better information integration -­‐  automatic knowledge extraction •  User generated content is generally unstructured •  Machines can not understand such content! The Semantic Web: From words to meanings Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones Escuela Politécnica Superior, Universidad Autónoma de Madrid
  • 11. Why is this important? 10   Many pages later I still didn’t find what I was looking for! L The search engine didn’t understood my query The Semantic Web: From words to meanings Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones Escuela Politécnica Superior, Universidad Autónoma de Madrid
  • 12. Why is this important? 11   Available houses Moving to England… Crime reports in looking for a place to live different areas Amenities Far too much distributed and unrelated information The Semantic Web: From words to meanings Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones Escuela Politécnica Superior, Universidad Autónoma de Madrid
  • 13. 12   •  1. Introduction •  Unstructured data vs. structured data •  Data vs. information vs. knowledge •  Why is this important? •  2. The Semantic Web •  What is the Semantic Web? •  The Semantic Web weapons: ontologies & representation languages •  The Semantic Web tools: ontology editors & triple stores The Semantic Web: From words to meanings Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones Escuela Politécnica Superior, Universidad Autónoma de Madrid
  • 14. The Semantic Web 13   “I have a dream for the Web in which computers become capable of analysing all the data on the Web” "The Semantic Web is an extension of the current Web in which information is given well-defined meaning, better enabling computers and people to work in cooperation." Tim Berners-Lee, James Hendler, Ora Lassila, The Semantic Web, Scientific American, May 2001 “The Semantic Web is a vision: the idea of having data on the web defined and linked in a way that it can be used by machines not just for display purposes, but for automation, integration and reuse of data across various applications” http://www.w3.org/2001/sw The Semantic Web: From words to meanings Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones Escuela Politécnica Superior, Universidad Autónoma de Madrid
  • 15. The Semantic Web 14   To the Web of machine understandable content The Web of objects and relations Structured Unstructured From the Web of human understandable content The Web of documents and links The Semantic Web: From words to meanings Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones Escuela Politécnica Superior, Universidad Autónoma de Madrid
  • 16. The Semantic Web weapons: ONTOLOGIES 15   An ontology is a formal, explicit specification of a shared conceptualization Formal: machine-readable Explicit: concepts, properties, relations, functions, constraints, axioms are explicitly defined Shared: consensual knowledge Conceptualization: abstract model and simplified vide of some phenomenon in the world that we want to represent The Semantic Web: From words to meanings Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones Escuela Politécnica Superior, Universidad Autónoma de Madrid
  • 17. The Semantic Web weapons: ONTOLOGIES 16   How to model the world of Pizzas? ontology knowledge base Classes Properties Individuals Cuatrro   Formaggi   hasCountryOrigin   Italy   Restrictions h>p://owl.cs.manchester.ac.uk/tutorials/protegeowltutorial/resources/ProtegeOWLTutorialP4_v1_3.pdf     The Semantic Web: From words to meanings Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones Escuela Politécnica Superior, Universidad Autónoma de Madrid
  • 18. The Semantic Web weapons: 17   REPRESENTATION AND QUERY LANGUAGES Querying data (SPARQL) Capturing ontologies (OWL) Expressing and linking data, including metadata (RDF) Assigning unambiguous names (URI) The Semantic Web: From words to meanings Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones Escuela Politécnica Superior, Universidad Autónoma de Madrid
  • 19. RDF (Resource Description Framework) 18   •  RDF identifies things using Web identifiers (URIs), and describes resources with properties and property values. •  The triple representation (subject, predicate, object) <?xml  version="1.0"?>   <rdf:RDF   xmlns:rdf="h>p://www.w3.org/1999/02/22-­‐rdf-­‐syntax-­‐ns#"   Xmlns:epsp=h>p://www.ir.ii.uam.es/personnel#>   <rdf:DescripYon      rdf:about="h>p://www.ir.ii.uam.es/personnel/IvanCantador">      <epsp:name>Ivan</epsp:name>      <epsp:lastname>Cantador</epsp:lastname>      <epsp:naYonality>Spanish</epsp:naYonality>      <rdf:type>Assistant  Professor</rdf:type>   </rdf:DescripYon>   </rdf:RDF>   h>p://www.ir.ii.uam.es/personnel/name   h>p://www.ir.ii.uam.es/   Ivan   personnel/IvanCantador   The Semantic Web: From words to meanings Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones Escuela Politécnica Superior, Universidad Autónoma de Madrid
  • 20. RDFS (RDF Schema) 19   •  RDFS provides the framework to describe classes and properties. It allows the creation of hierarchies <?xml  version="1.0"?>     <rdf:RDF   xmlns:rdf="h>p://www.w3.org/1999/02/22-­‐rdf-­‐syntax-­‐ns#"   xmlns:rdfs="h>p://www.w3.org/2000/01/rdf-­‐schema#"   xml:base=”  h>p://www.eps.uam.es#   <rdfs:Class  rdf:ID=”Professor"  />   <rdfs:Class  rdf:ID=”Assistant  Professor">        <rdfs:subClassOf  rdf:resource=”#Professor"/>   </rdfs:Class>   <rdf:Property  rdf:ID=“teachesSubject”>      <rdfs:Domain  rdf:resource=“#Professor"/>    <rdfs:Range  rdf:resource=“#Subject"/>   </rdf:Property>     </rdf:RDF>   The Semantic Web: From words to meanings Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones Escuela Politécnica Superior, Universidad Autónoma de Madrid
  • 21. OWL (Web Ontology Language) 20   •  OWL is a stronger language with greater machine interpretability than RDF/RDFS (reasoning support) •  OWL Little / OWL DL / OWL Full Value  constraints:   owl:allValuesFrom   <?xml  version="1.0"?>   owl:someValuesFrom   <rdf:RDF   owl:hasValue   xmlns:rdf="h>p://www.w3.org/1999/02/22-­‐rdf-­‐syntax-­‐ns#"     xmlns:rdfs=h>p://www.w3.org/2000/01/rdf-­‐schema#   Cardinality  constraints:   xmlns:owl  =  "h>p://www.w3.org/2002/07/owl#"   owl:cardinality   xml:base=“h>p://www.eps.uam.es#   owl:minCardinality     owl:maxCardinality   <owl:Class  rdf:ID=”Professor”>   ….    <owl:restricYon>                                <owl:onProperty  rdf:resource=“#hasAcademicTitle"/>                <owl:hasValue>  PhD^^h>p://www.w3.org/2001/XMLSchema#string</owl:hasValue>      <owl:restricYon>   </owl:Class>   </rdf:RDF>   Ivan  has  a  PhD  -­‐>  therefore   Ivan  can  be  professor!   The Semantic Web: From words to meanings Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones Escuela Politécnica Superior, Universidad Autónoma de Madrid
  • 22. SPARQL (SPARQL Protocol and RDF Query Language) 21   •  SPARQL is a query language for RDF •  Based on the triple representation (subject, predicate, object) •  SPARQL 1.1 is W3C Recommendation since 21st March 2013 PREFIX  epsp:  <h>p://www.eps.uam.es>   <rdf:RDF   xmlns:rdf="h>p://www.w3.org/1999/02/22-­‐rdf-­‐syntax-­‐ns#"   SELECT  ?x  ?name   WHERE    {    ?x  rdf:type  epsp:Assistant  Professor.          ?x  epsp:name  ?name.   Can  you  Google  this?          ?x  epsp:naYonality  “Spanish”}   SPARQL  allows  the  construcYon  of  very  powerful  queries   -­‐  Filtering  elements   -­‐  Querying  named  graphs   -­‐  Ordering  by/  disYnct  /  reduced  /  offset  /  limit   -­‐  Count  /  sum  /  avg  /  min  /  max  /  GroupConcat   The Semantic Web: From words to meanings Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones Escuela Politécnica Superior, Universidad Autónoma de Madrid
  • 23. The Semantic Web tools: ONTOLOGY EDITORS 22   •  An ontology editor lets the creation or manipulation of ontologies h>p://en.wikipedia.org/wiki/Ontology_editor     The Semantic Web: From words to meanings Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones Escuela Politécnica Superior, Universidad Autónoma de Madrid
  • 24. The Semantic Web tools: TRIPLE STORES 23   •  A triple store lets persistent storage of RDF data and querying via SPARQL h>p://www.garshol.priv.no/blog/231.html     The Semantic Web: From words to meanings Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones Escuela Politécnica Superior, Universidad Autónoma de Madrid
  • 25. 24   •  3. Two paths towards the Sematic Web vision •  Metadata embedded in HTML •  Linked Data -­‐  An example •  4. Sematic Web applications •  Search engines •  Recommendations •  Open government •  Institutions -­‐  The Open University -­‐  BBC The Semantic Web: From words to meanings Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones Escuela Politécnica Superior, Universidad Autónoma de Madrid
  • 26. Two paths towards the SW vision: ADDING DATA TO THE WEB 25   •  Metadata embedded in HTML •  Microformats •  RDFa •  Schema.org •  HTML5 •  Linked Data •  Publish the data online in a standard, web enabled representation (RDF) •  Make the data web addressable (URI) •  Link with other data The Semantic Web: From words to meanings Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones Escuela Politécnica Superior, Universidad Autónoma de Madrid
  • 27. 26   •  3. Two paths towards the Sematic Web vision •  Metadata embedded in HTML •  Linked Data -­‐  An example •  4. Sematic Web applications •  Search engines •  Social Networks •  Open government •  Institutions -­‐  The Open University -­‐  BBC The Semantic Web: From words to meanings Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones Escuela Politécnica Superior, Universidad Autónoma de Madrid
  • 28. Microformats 27   •  Microformats use existing HTML attributes to embed structured data types in an HTML document •  Expressive power is limited as microformats are only designed to pre- defined vocabularies •  No interlinking between entities <div  class="vcard">      <a  class="fn  org  url"  href="h>p://www.eps.uam.es/">EPS</a>      <div  class="adr">                  <span  class="street-­‐address">Francisco  Tomas  y  Valiente</span  >                  <span  class="locality">Madrid</span>,                      <span  class="postal-­‐code">28049</span>                <span  class="country-­‐name">Spain</span  >    </div>   </div>   h>p://microformats.org     The Semantic Web: From words to meanings Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones Escuela Politécnica Superior, Universidad Autónoma de Madrid
  • 29. RDFa (Resource Description Framework in Attributes) 28   •  W3C standard for embedding RDF data in HTML documents •  A set of new HTML attributes ands specs of how to use them •  RDFa is just a syntax, the publisher has to choose the vocabulary •  RDFa is domain independent <html>   <body  vocab="h>p://xmlns.com/foaf/0.1/">      ...      <h2  property=”name”>Ivan  Cantador</h2>      <p><span  property=”gender">undefined</span></p>      ...   </body>   </html>   Web  standard  since  June  2012   h>p://www.w3.org/TR/rdfa-­‐core/   h>p://www.w3.org/TR/xhtml-­‐rdfa-­‐primer     The Semantic Web: From words to meanings Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones Escuela Politécnica Superior, Universidad Autónoma de Madrid
  • 30. RDFa (Resource Description Framework in Attributes) 29   •  Used by Facebook! … among others ;) •  RDF vocabulary to be used in conjunction with RDFa <html  xmlns:og="h>p://opengraphprotocol.org/schema/">     <head>      <Ytle>The  Rock  (1996)</Ytle>      <meta  property="og:Ytle"  content="The  Rock"  />      <meta  property="og:type"  content="movie"  />      <meta  property="og:url"  content="h>p://www.imdb.com/Ytle/>0117500/"  />      <meta  property="og:image"  content="h>p://ia.media-­‐imdb.com/images/ rock.jpg"  />  …   </head>  ...     </html>     The Semantic Web: From words to meanings Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones Escuela Politécnica Superior, Universidad Autónoma de Madrid
  • 31. HTML5 (microdata) 30   •  HTML introduces inline elements (text-level semantics) to describe specific type of information <div  itemscope  itemtype="h>p://data-­‐vocabulary.org/Person">          My  name  is  <span  itemprop="name">Ivan</span>      Here  is  my  home  page:        <a  href="h>p://arantxa.ii.uam.es/~cantador/"          itemprop="url">h>p://arantxa.ii.uam.es/~cantador/</a>        I  live  in  Madrid,  and  work  as  an  <span  itemprop="Ytle">Assistant    Professor</span>      at  <span  itemprop="affiliaYon">UAM</span>.   </div>   •  Itemid   •  Itemprop   •  Itemref   •  Itemscope   •  itemtype   h>p://dev.w3.org/html5/md-­‐LC/#encoding-­‐microdata     The Semantic Web: From words to meanings Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones Escuela Politécnica Superior, Universidad Autónoma de Madrid
  • 32. Schema.org 31   •  Provides a collection of vocabularies, a long with the microdata format, that are recognised by the major search engine providers (de facto standard) <div  itemscope  itemtype=h>p://schema.org/Movie>     <h1  itemprop="name">Pirates  of  the  Carribean:  On  Stranger  Tides  (2011)</h1>   Director:    <div  itemprop="director"  itemscope  itemtype="h>p://schema.org/Person">   <span  itemprop="name">Rob  Marshall</span>   </div>   The Semantic Web: From words to meanings Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones Escuela Politécnica Superior, Universidad Autónoma de Madrid
  • 33. 32   •  3. Two paths towards the Sematic Web vision •  Metadata embedded in HTML •  Linked Data -­‐  An example •  4. Sematic Web applications •  Search engines •  Recommendations •  Open government •  Institutions -­‐  The Open University -­‐  BBC The Semantic Web: From words to meanings Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones Escuela Politécnica Superior, Universidad Autónoma de Madrid
  • 34. Linked Data 33   Linked Open Data (September 2011)   The Semantic Web: From words to meanings Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones Escuela Politécnica Superior, Universidad Autónoma de Madrid
  • 35. Linked Data: WHAT IS IT ABOUT? 34   •  The Web as one huge interconnected data graph •  A Web of interlinked objects •  Objects described in a standard, web enabled representation (RDF) •  Each RDF document describes the characteristics of a single object, and links to related objects •  Each object has a unique web address (URI) •  Objects are linked with other objects -­‐  Important: links to the same objects in different datasets (sameAs) •  Guidelines for proper configuration of web servers to serve such documents •  Vocabularies should be reused! The Semantic Web: From words to meanings Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones Escuela Politécnica Superior, Universidad Autónoma de Madrid
  • 36. Linked Data: WE TALK ABOUT OBJECTS 35   The DBpedia ontology, http://dbpedia.org Wikipedia The Semantic Web: From words to meanings Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones Escuela Politécnica Superior, Universidad Autónoma de Madrid
  • 37. Linked Data: OBJECTS ARE LINKED! Data   36   Mashups   Moving to England… looking for a place to leave A unique information space Available houses Amenities Crime reports The Semantic Web: From words to meanings Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones Escuela Politécnica Superior, Universidad Autónoma de Madrid
  • 38. Linked Data 37   •  Advantages: •  No change to the publishing of the HTML documents •  Data can be published by third party (e.g. DBpedia) •  Data is interlinked •  Disadvantages: •  Web servers need to be configured to properly handle URIs that identify concepts instead of documents •  Search engines need to be extended to crawl Linked Data •  Suitable vocabularies/ontologies are not always available •  Data is not always easy to obtain •  Data is not always linked to relevant data •  Data is not always linked to HTML documents -­‐  Web mining: OBTAINING, STRUCTURING AND LINKING DATA The Semantic Web: From words to meanings Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones Escuela Politécnica Superior, Universidad Autónoma de Madrid
  • 39. Methodological guidelines for publishing Linked Data 38   h>p://delicias.dia.fi.upm.es/wiki/images/f/f6/04_MGLD.pdf     The Semantic Web: From words to meanings Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones Escuela Politécnica Superior, Universidad Autónoma de Madrid
  • 40. Vocabularies / Schemas / Ontologies 39   •  Search for suitable vocabularies •  Reuse (if they exist) •  Build new vocabularies based on existing ones (if they do not exist) The Semantic Web: From words to meanings Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones Escuela Politécnica Superior, Universidad Autónoma de Madrid
  • 41. Obtaining and structuring data 40   •  From unstructured, semi-structured and structured data sources Textual  documents   Spreadsheets   Natural Language Processing (NLP) •  Entity extractors •  Relation extractors NOR2O http://oeg-dev.dia.fi.upm.es/nor2o/#download TextRunner http://openie.cs.washington.edu Cvs2rdf4LOD http://logd.tw.rpi.edu/technology/csv2rdf4lod YAGO: A Core of Semantic Knowledge Unifying WordNet and Wikipedia, Suchanek et al., WWW 2007. MappingMaster http://protege.cim3.net/cgi-bin/wiki.pl?MappingMaster The Semantic Web: From words to meanings Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones Escuela Politécnica Superior, Universidad Autónoma de Madrid
  • 42. Obtaining and structuring data 41   Bringing  the  Deep  Web  to  the   Surface!   DataBases   WebAPis   Bizer  et  al.  The  RDF  Book  Mashups:   Whole  subarea  of  research  within   From  Web  APIs  to  a  Web  of  Data   the  SW  community   h>p://www.dvi.uni-­‐kl.de/~grimnes/     2007/06/SFSW07Papers/6.pdf   RDB2RDF   h>p://www.w3.org/2001/sw/rdb2rdf     WebForms   ultrawrap   h>p://capsenta.com/ultrawrap       RDBToOnto   Madhavan  et  al.  Google's  Deep-­‐Web   h>p://www.tao-­‐project.eu/   Crawl.  VLDB  2008   researchanddevelopment/   h>p://www.cs.cornell.edu/~lucja/   demosanddownloads/ publicaYons/i03.pdf   RDBToOnto.html     Web Mining The Semantic Web: From words to meanings Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones Escuela Politécnica Superior, Universidad Autónoma de Madrid
  • 43. Obtaining and structuring data 42   HTML  Tables   And  many  other  semi-­‐structured  data   XML,  UML,  BibText,  Tags,  …     Cafarella  et  al.  WebTables:   ConverterToRDF   Exploring  the  Power  of  Tables   h>p://www.w3.org/wiki/ConverterToRdf     on  the  Web.  VLDB  2008   Other useful tools to obtain and structure data Google  Refine   h>ps://code.google.com/p/google-­‐refine     And  its  extension  RDF  Refine     h>p://refine.deri.ie     Google  Fusion  Tables   h>p://support.google.com/fusiontables     The Semantic Web: From words to meanings Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones Escuela Politécnica Superior, Universidad Autónoma de Madrid
  • 44. Linking Data 43   •  1. Identify suitable datasets as linking targets Data  Hub   ckan.net   Geonames   DBpedia   •  2. Discover relationships between data items owl:sameAs   owl:sameAs   http:// http:// http://mydataset/ sws.geonames.org/ dbpedia.org/ Madrid 6355233 resource/Madrid Silk  Framework:  h>p://wifo5-­‐03.informaYk.uni-­‐mannheim.de/bizer/silk     Limes:  h>p://aksw.org/Projects/LIMES.html     h>p://delicias.dia.fi.upm.es/wiki/images/f/f6/04_MGLD.pdf     The Semantic Web: From words to meanings Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones Escuela Politécnica Superior, Universidad Autónoma de Madrid
  • 45. Linking Data to HTML Documents: THE ANNOTATORS 44   •  The annotators extract entities (classes / individuals) and relations from the text and link them to object URIs The Semantic Web: From words to meanings Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones Escuela Politécnica Superior, Universidad Autónoma de Madrid
  • 46. 45   •  3. Two paths towards the Sematic Web vision •  Metadata embedded in HTML •  Linked Data -­‐  An example •  4. Sematic Web applications •  Search engines •  Recommendations •  Open government •  Institutions -­‐  The Open University -­‐  BBC The Semantic Web: From words to meanings Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones Escuela Politécnica Superior, Universidad Autónoma de Madrid
  • 47. Obtaining, structuring and linking data: AN EXAMPLE 46   BEFORE LINKED DATA Any material about C++?... Ufff... Where to start?! AFTER LINKED DATA One unique information space The Semantic Web: From words to meanings Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones Escuela Politécnica Superior, Universidad Autónoma de Madrid
  • 48. Obtaining, structuring and linking data: AN EXAMPLE 47   Use of Linked Data 1.  Select and extract educational information from various sources 2.  Reuse well-known vocabularies to describe and structure the previously Fernandez  et  al.    (2011)  Linking  Data   Across  UniversiYes:  An  Integrated   extracted data Video  Lectures  Dataset,  10th   3.  Link the educational material under a InternaYonal  SemanYc  Web   common categorization scheme Conference  (ISWC  2011),  Bonn     The Semantic Web: From words to meanings Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones Escuela Politécnica Superior, Universidad Autónoma de Madrid
  • 49. Specification: SELECTING & ANALYSING DATA 48   •  VideoLectures.net Web scrapper Study the structure of HTML pages and use a HTML parser to extract the data of interest The Semantic Web: From words to meanings Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones Escuela Politécnica Superior, Universidad Autónoma de Madrid
  • 50. Specification: SELECTING & ANALYSING DATA 49   •  YouTube University Channels <entry gd:etag='W/"DkADSH47eCp7ImA9WhZWFEg."'> <id>tag:youtube.com,2008:video:zZCaHSW88Ts</id> <published>2011-02-18T11:41:08.000Z</published> <updated>2011-05-15T10:19:39.000Z</updated> <category scheme='http://gdata.youtube.com/schemas/2007/categories.cat' term='Education' label='Education'/> <category scheme='http://gdata.youtube.com/schemas/2007/keywords.cat' term='Dr Barry Cooper'/> <title>Intro to Professional Practice (Children & Families)</title> <author> … </author> <media:description … </media:description> <media:keywords>…</media:keywords> <media:thumbnail …/> <yt:duration seconds='399'/> <content …'/> YouTube API: select the the fields of interest The Semantic Web: From words to meanings Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones Escuela Politécnica Superior, Universidad Autónoma de Madrid
  • 51. Specification: SELECTING & ANALYSING DATA 50   •  OU Podcasts (data.open.ac.uk) Already structured data: SPARQL query The Semantic Web: From words to meanings Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones Escuela Politécnica Superior, Universidad Autónoma de Madrid
  • 52. Modeling: REUSING VOCABULARIES 51   Vocabularies selected to describe the data •  Dublin Core I describe •  http://dublincore.org/documents/dcmi-terms (dcterms) educational material •  FOAF I describe people •  http://xmlns.com/foaf/spec (foaf) and relations •  The W3C ontology for media resources •  http://www.w3.org/TR/mediaont-10 (ma) We describe media •  The Media Vocabulary resources •  http://payswarm.com/vocabs/media (media) •  The Nice Tag Ontology •  http://ns.inria.fr/nicetag/2010/09/09/voc.html (nt) I describe tags The Semantic Web: From words to meanings Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones Escuela Politécnica Superior, Universidad Autónoma de Madrid
  • 53. Modeling: REUSING VOCABULARIES 52   The selected base URI is: http://linkeduniversities.org 1.  VideoLectures objects are represented as media:Recording, authors are represented as foaf:Person 2.  The video title is duplicated in the properties rdfs:label & dcterms:title 4.  The set of tags and categories associated to a video is represented by the nt:isRelatedTo property 5.  The assigned classification in the unified search space is represented by the dcterms:subject property The Semantic Web: From words to meanings Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones Escuela Politécnica Superior, Universidad Autónoma de Madrid
  • 54. RDF generation: CREATING OBJECTS 53   Type   Provenance   ID   http://linkeduniversities.org/video/CarnegieMellonU/youtube/B135229F3706D215 rdf:type media:Recording media:download http://www.youtube.com/watch?v=TOTuStPIeFc&feature=youtube_gdata_player dcterms:title CMU Football Engineering Summer 2008 Video rdfs:label CMU Football Engineering Summer 2008 Video dcterms:description Football […]Summer 2008 Video foaf:thumbnail http://i.ytimg.com/vi/TOTuStPIeFc/3.jpg media:duration 155 dcterms:isPart http://linkeduniversities.org/video/CarnegieMellonU/youtube/playlist/B135229F37 ma:publisher http://linkeduniversities.org/video/CarnegieMellonU/youtube/user/footballtracking dcterms:published 2011-06-03T23:23:53.262Z nt:isRelatedTo http://linkeduniversities.org/video/CarnegieMellonU/tag/sports nt:isRelatedTo http://linkeduniversities.org/video/CarnegieMellonU/tag/football dcterms:subject http://dmoz.org/Sports/Football/Rugby_Union dcterms:subject http://linkeduniversities.org/video/CarnegieMellonU/dmoz/Sports/Football/Rugby_Union The Semantic Web: From words to meanings Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones Escuela Politécnica Superior, Universidad Autónoma de Madrid
  • 55. Links Generation: SELECTING THE LINKING POINTS 54   •  A common categorization scheme: 1.  The International Press Telecommunications Council (IPTC) http://www.iptc.org/site/NewsCodes/ 2.  Library of Congress Subject Headings http://id.loc.gov/authorities/about.html 3.  The Open Directory Project (DMOZ) http://www.dmoz.org/rdf.html 4.  DBpedia Categories http://dbpedia.org/About The Semantic Web: From words to meanings Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones Escuela Politécnica Superior, Universidad Autónoma de Madrid
  • 56. Links Generation: EXPLOITING THE ANNOTATORS 55   (1) Extract the information from the video lecture (4) Obtain the ODP document classification Reference/Knowledge_Management (id=495), weight=0.71 (3) Provide the document to the (2) Generate an textual document Textwise classification service The Semantic Web: From words to meanings Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones Escuela Politécnica Superior, Universidad Autónoma de Madrid
  • 57. PUBLICATION 56   •  New LD educational dataset •  More than 14,000 video lectures from 27 institutions The Semantic Web: From words to meanings Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones Escuela Politécnica Superior, Universidad Autónoma de Madrid
  • 58. 57   •  3. Two paths towards the Sematic Web vision •  Metadata embedded in HTML •  Linked Data -­‐  An example •  4. Sematic Web applications •  Search engines •  Recommendations •  Open government •  Institutions -­‐  The Open University -­‐  BBC The Semantic Web: From words to meanings Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones Escuela Politécnica Superior, Universidad Autónoma de Madrid
  • 59. Search engines: BETTER DATA VISUALISATION 58   •  2007 Yahoo! Presented Search Monkey •  2009 Google announced Rich Snippets If search engines could understand the data inside the HTML pages they would display such data in better ways: pictures, dates, prices, ratings, etc. The Semantic Web: From words to meanings Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones Escuela Politécnica Superior, Universidad Autónoma de Madrid
  • 60. Search engines: BETTER CONTENT RETRIEVAL 59   2012 Google announced Knowledge Graph http://googleblog.blogspot.co.uk/2012/05/ introducing-knowledge-graph-things-not.html The Semantic Web: From words to meanings Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones Escuela Politécnica Superior, Universidad Autónoma de Madrid
  • 61. Search engines: NOT ALL IS ABOUT DOCUMENTS 60   •  Search engines oriented to concept-search vs. document search FreeBase: In July 2010 Google bought Metaweb, the company behind freebase Wolfram Alpha: Active Powerset: Bought by since 2009 Microsoft in 2008 The Semantic Web: From words to meanings Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones Escuela Politécnica Superior, Universidad Autónoma de Madrid
  • 62. 61   •  3. Two paths towards the Sematic Web vision •  Metadata embedded in HTML •  Linked Data -­‐  An example •  4. Sematic Web applications •  Search engines •  Recommendations •  Open government •  Institutions -­‐  The Open University -­‐  BBC The Semantic Web: From words to meanings Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones Escuela Politécnica Superior, Universidad Autónoma de Madrid
  • 63. Recommendations: FACEBOOK GRAPH SEARCH 62   Links among people, places, music, and other objects can lead to better content recommendation The Semantic Web: From words to meanings Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones Escuela Politécnica Superior, Universidad Autónoma de Madrid
  • 64. 63   •  3. Two paths towards the Sematic Web vision •  Metadata embedded in HTML •  Linked Data -­‐  An example •  4. Sematic Web applications •  Search engines •  Recommendations •  Open government •  Institutions -­‐  The Open University -­‐  BBC The Semantic Web: From words to meanings Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones Escuela Politécnica Superior, Universidad Autónoma de Madrid
  • 65. Open Government 64   •  Open government •  Data.gov •  Data.gov.uk •  Many others… •  Linking data lets more complex queries and deeper data analysis •  Organizations can now easily link to public government data Research Funding Explorer •  Favour transparency The Semantic Web: From words to meanings Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones Escuela Politécnica Superior, Universidad Autónoma de Madrid
  • 66. 65   •  3. Two paths towards the Sematic Web vision •  Metadata embedded in HTML •  Linked Data -­‐  An example •  4. Sematic Web applications •  Search engines •  Recommendations •  Open government •  Institutions -­‐  The Open University -­‐  BBC The Semantic Web: From words to meanings Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones Escuela Politécnica Superior, Universidad Autónoma de Madrid
  • 67. The Open University 66   OU public data sit in OU public data sit in different systems ––hard to different systems hard to RAE   discover, obtain, integrate discover, obtain, integrate Data  from     by users by users OpenLearn   Research     Content   ORO   Outputs   Archive  of     Library’s   Course     Exposed as linked data, Exposed as linked data, Material   Catalogue   Of  Digital   our data interlink with each our data interlink with each  Content   other and the external other and the external data.gov.uk   world: become part of the world: become part of the A/V  Material   Podcasts   “global data space” on the “global data space” on the iTunesU   Web Web DBLP   The Semantic Web: From words to meanings Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones Escuela Politécnica Superior, Universidad Autónoma de Madrid
  • 68. The Open University 67   •  The OU has been the first University to expose its data as linked data: http://data.open.ac.uk •  Now widely recognized as a critical step forward for the HE sector in the UK (and worldwide) •  Favor transparency and reuse of data, both externally and internally •  Reduces cost of dealing with our own public data: integration and reuse by design •  Enable both new kinds of applications, and to make the ones that are already feasible more cost effective The Semantic Web: From words to meanings Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones Escuela Politécnica Superior, Universidad Autónoma de Madrid
  • 69. The Open University 68   •  Linking Open Learn with relevant Podcasts The Semantic Web: From words to meanings Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones Escuela Politécnica Superior, Universidad Autónoma de Madrid
  • 70. The Open University 69   •  Exploring research communities The Semantic Web: From words to meanings Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones Escuela Politécnica Superior, Universidad Autónoma de Madrid
  • 71. 70   •  3. Two paths towards the Sematic Web vision •  Metadata embedded in HTML •  Linked Data -­‐  An example •  4. Sematic Web applications •  Search engines •  Recommendations •  Open government •  Institutions -­‐  The Open University -­‐  BBC The Semantic Web: From words to meanings Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones Escuela Politécnica Superior, Universidad Autónoma de Madrid
  • 72. BBC: British Broadcasting Corporation 71   •  Historically when developing websites… •  Hand-crafted customized sites •  Only some programs could be covered -­‐  Shame considering they broadcast between 1,000 and 1,500 programs/day •  All those sites were developed in isolation -  Often not maintained -  Often not persistent Using Linked Data to build Websites more productively http://www.slideshare.net/metade/linked-data-on-the-bbc The Semantic Web: From words to meanings Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones Escuela Politécnica Superior, Universidad Autónoma de Madrid
  • 73. BBC: British Broadcasting Corporation 72   •  The Linked Data Website construction model Domain-driven design •  Identify the domain objects and relations •  Check the domain model with users •  Design your schema •  Design your URIs •  Define data you need to build each of your pages •  Automatically build up your HTML pages by querying these data and applying CSS layouts The Semantic Web: From words to meanings Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones Escuela Politécnica Superior, Universidad Autónoma de Madrid
  • 74. BBC: British Broadcasting Corporation 73   •  Programs •  Starting with the WorldCup 2010… and now… •  Music •  Artists •  Animal life •  ….. The Semantic Web: From words to meanings Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones Escuela Politécnica Superior, Universidad Autónoma de Madrid
  • 75. Thx! J 74   •  Questions, doubts? The Semantic Web: From words to meanings Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones Escuela Politécnica Superior, Universidad Autónoma de Madrid