Riccardo Govoni - Search

Search
Corso di formazione d’Eccellenza in Web 2.0, online
business e social media marketing

Social Media Lab
Universita’ IULM

Govoni Riccardo - 28/Apr/2009

Intro

• Il Web, la ricerca quantitativa e
l’informazione strutturata
• Fonti dati e disponibilita’
• Data & Text mining
• Case studies ed esempi

Web

An internet ﬁrewall, as seen from www.warriorsofthe.net

Breve storia del web
• Da 3 terminali a 1.1B utenti
• Arpanet e il TCP/IP
• Cern e WWW
• HTTP ed il modello page-by-page
• HTML ed i linguaggi di markup
• La crescita esponenziale, i motori di ricerca

HTML
• Linguaggio di markup piu’ popolare per
contenuti web
• prima apparizione nel 1991, formalizzato
nel 1993
• E’ de-facto il mattone base del world-wide-
web...
• ma l’ultima revisione (HTML 4.01) risale al
1999 !

HTML
• Pro:
• Semplicita’
• Portabilita’
• Contro:
• Applicabilita’ limitata nella sua concezione
originale
• Commistione di presentazione e
contenuto

HTML
• Perfetto per contenuti testuali
• Pessimo per lo scambio dati
• Un layer di presentazione di troppo
successo

Text Data

Human Machine

HTML (cont.)
<td>1</td>
<td>
<span class=quot;ﬂagiconquot;>
<a href=quot;/wiki/File:Flag_of_Utah.svgquot;
class=quot;imagequot; title=quot;Flag of Utah.svgquot;>
<img alt=quot;quot; src=quot;http://.../22px-Flag_of_Utah.svg.pngquot;
width=quot;22quot; height=quot;15quot; border=quot;0quot;
class=quot;thumbborderquot; />
</a> </span>
<a href=quot;/wiki/Utahquot; title=quot;Utahquot;>Utah</a>
</td>
<td>2.50</td>

Altri standard

• Cascading Style Sheet (CSS)
• Javascript
• Flash
• eXtensible Markup Language (XML)
• Really Simple Syndication (RSS)

Ricerca Quantitativa
Dato, Misura, Ripetibilita’, Statistica, Esperimento

2-var normal gaussian distribution

Obiettivo

• dati, dati, dati
• Hard numbers, quantita' veriﬁcabili,
datasets, serie storiche.
• Esistono sul web? Esistono in formati aperti
a successive analisi?

Come trovarli?

• Ehi, ma il web e’ (quasi) tutto testo!
• Identiﬁchiamo le fonti dati disponibili
• Preferiamo l’utilizzo di informazioni
strutturate

Searching...
Dal testo ai dati

Alcuni esempi

• Google Insights for Search
• Google Ad Planner

Insights for Search

http://www.google.com/insights/search/

Esempi

• Seasonality
• Brand recognition
• Marketing response
• Demographics
• Sales Trends

Demographics: Obesity

• Google insights for search for obesity - weight loss

• http://calorielab.com/news/wp-images/post-images/
fattest-states-2007.gif

• http://www.google.com/insights/search/#cat=&q=Weight
%20Loss&geo=US&date=&clp=&cmpt=geo

Demographics: Swine Flu

• Google insights for search for swine flu

• http://en.wikipedia.org/wiki/
2009_swine_flu_outbreak_in_the_United_States

• http://www.google.com/insights/search/#q=swine
%20flu&geo=US&date=today%207-d&cmpt=geo

[Un]structured information
Why structure matters

Never tell a typographer that text is “just text”

Perche’ e’ importante?
• Importanza dell’informazione strutturata
per l’analisi quantitativa
• Gestire l’information overload
• Facilitano l’elaborazione automatica
• Ripetibilita’ del processo di analisi
• Migliore interpretazione del dato: meno
soggettivo, piu’ oggettivo.

Text
RSS
Data Provisioning
CSV

Microformat
Semantic Web
API

Microformats
Embedding structured info under the hood

An example of microchip art. Milhouse on a Sil154CT64 chip

Cosa sono?
“Designed for humans ﬁrst and machines
second, microformats are a set of simple,
open data formats built upon existing and
widely adopted standards.”

http://microformats.org/

Cosa sono?
• Un sistema totalmente compatibile con gli
standard esistenti (HTML, XHTML) per
arricchire i contenuti web con metadati
semantici
• Un tentativo per risolvere la commistione
tra presentazione e contenuto dell’ HTML.
• Ad esempio: contact details, coordinate
geograﬁche, eventi di calendario.

Microformat:geo
Informazioni geograﬁche: http://microformats.org/wiki/geo

per l’utente
N 37° 24.491 W 122° 08.313

per la macchina
<div class=quot;geoquot;>
<abbr class=quot;latitudequot; title=quot;37.408183quot;>N 37° 24.491</abbr>
<abbr class=quot;longitudequot; title=quot;-122.13855quot;>W 122° 08.313</abbr>
</div>

Microformat:xfn
Informazioni sociali: http://en.wikipedia.org/wiki/XHTML_Friends_Network

per l’utente
Riccardo Govoni

per la macchina
<a href=quot;http://www.battlehorse.net/quot; rel=quot;colleaguequot;>
Riccardo Govoni
</a>

Search Engines
• Yahoo Search Monkey
http://developer.yahoo.net/blog/archives/2008/12/monkey_ﬁnds_microformats_and_rdf.html

• Google Social Graph APIs
http://code.google.com/apis/socialgraph/

http://microformats.org/wiki/search-engines

Semantic Web
<item rdf:about=quot;http://dbpedia.org/resource/Catquot;>Cat</item>

Artwork of the W3C Semantic Web logo

Semantic Web
“Semantic technologies include software
standards and methodologies that are
aimed at providing more explicit meaning
for the information that's at our disposal”
http://www.semantic-conference.com/primer.html

• E’ un set di principi, standard e tecnologie volta a superare la limitazione del
web odierno nel discernere presentazione da contenuto.

• E’ una forma di fruizione dell’universo di informazioni presenti sul web
orientata all’elaborazione da parte di una macchina.

Cos’e’ una lista? E uno stato?

Cos’e’ una lista?
<td>1</td>
<td>
<span class=quot;ﬂagiconquot;>
<a href=quot;/wiki/File:Flag_of_Utah.svgquot;
class=quot;imagequot; title=quot;Flag of Utah.svgquot;>
<img alt=quot;quot; src=quot;http://.../22px-Flag_of_Utah.svg.pngquot;
width=quot;22quot; height=quot;15quot; border=quot;0quot;
class=quot;thumbborderquot; />
</a> </span>
<a href=quot;/wiki/Utahquot; title=quot;Utahquot;>Utah</a>
</td>
<td>2.50</td>

OWL

• Ontologia: una rappresentazione formale di
un set di concetti all’interno di un dominio
deﬁnito e delle relazioni che li collegano
• OWL (Web Ontology Language):
Linguaggio per la deﬁnizione di ontologie.

RDF

• RDF (Resource Description Framework):
un’insieme di speciﬁche per la descrizione e
modellazione di ‘risorse’ in forma di triple
“Soggetto - Predicato - Oggetto”
• SPARQL: linguaggio di ricerca per risorse
descritte tramite RDF.

RDF: esempio
<RDF:RDF xmlns:RDF=quot;http://www.w3.org/1999/02/22-rdf-syntax-ns#quot;
xmlns:ANIMALS=quot;http://www.some-fictitious-zoo.com/rdf#quot;>

<RDF:Seq about=quot;http://www.some-fictitious-zoo.com/all-animalsquot;>
<RDF:li>
<RDF:Description about=quot;http://www.some-fictitious-zoo.com/mammals/lionquot;>
<ANIMALS:name>Lion</ANIMALS:name>
<ANIMALS:species>Panthera leo</ANIMALS:species>
<ANIMALS:class>Mammal</ANIMALS:class>
</RDF:Description>
</RDF:li>
<RDF:li>
<RDF:Description about=quot;http://www.some-fictitious-zoo.com/arachnids/tarantulaquot;>
<ANIMALS:name>Tarantula</ANIMALS:name>
<ANIMALS:species>Avicularia avicularia</ANIMALS:species>
<ANIMALS:class>Arachnid</ANIMALS:class>
</RDF:Description>
</RDF:li>
<RDF:li>
<RDF:Description about=quot;http://www.some-fictitious-zoo.com/mammals/hippopotamusquot;>
<ANIMALS:name>Hippopotamus</ANIMALS:name>
<ANIMALS:species>Hippopotamus amphibius</ANIMALS:species>
<ANIMALS:class>Mammal</ANIMALS:class>
</RDF:Description>
</RDF:li>
</RDF:Seq>
</RDF:RDF>

RDF: esempio

• http://creativecommons.org/licenses/by/3.0/

FOAF

• FOAF (Friend of a Friend): E’ un’ ontologia
rivolta alla descrizione di persone e reti
sociali.

FOAF example
<rdf:RDF
xmlns:rdf=quot;http://www.w3.org/1999/02/22-rdf-syntax-ns#quot;
xmlns:rdfs=quot;http://www.w3.org/2000/01/rdf-schema#quot;
xmlns:foaf=quot;http://xmlns.com/foaf/0.1/quot;>
<foaf:Person>
<foaf:name>Sam Ruby</foaf:name>
<foaf:firstName>Sam</foaf:firstName>
<foaf:surname>Ruby</foaf:surname>
<foaf:nick>rubys</foaf:nick>
<foaf:mbox_sha1sum>703471c6f39094d88665d24ce72c42fdc5f20585</foaf:mbox_sha1sum>
<foaf:homepage rdf:resource=quot;http://www.intertwingly.net/quot;/>
<foaf:depiction rdf:resource=quot;http://www.intertwingly.net/images/SamR_small.jpgquot;/>
<foaf:workplaceHomepage rdf:resource=quot;http://www.ibm.com/quot;/>
<foaf:schoolHomepage rdf:resource=quot;http://www.cnu.edu/quot;/>


<foaf:knows>
<foaf:Person rdf:ID=quot;djquot;>
<foaf:givenName>DJ</foaf:givenName>
<foaf:surname>Adams</foaf:surname>
<foaf:mbox rdf:resource=quot;mailto:dj.adams@pobox.comquot;/>
<rdfs:seeAlso rdf:resource=quot;http://www.pipetree.com/~dj/foaf.rdfquot;/>
</foaf:Person>
</foaf:knows>
...

Case: Open Calais
http://www.opencalais.com/
http://viewer.opencalais.com/

• Calais, un progetto Thomson Reuters, e’ un
servizio online per la conversione di testo
non strutturato in strutture semantiche,
utilizzando tecniche di Natural language
Processing e Machine Learning.
• Esempio: Gnosis
• Alternative: KIM - OntoText

API
Application
Programming
Interface

Tektronix 556 dual beam spectrum analyzer

API
• Il modo migliore per avere
accesso a dati strutturati.

• Permettono all’utente
(programmatore) l’accesso al
dato saltando il layer di
presentazione (HTML).

• Sono ubiquitarie: ricerca, e-
commerce, news, ﬁnance, reti
sociali, photo, mapping, mobile,
travel, music, ovunque.

• Sono componibili (Mashups).

API
• Sono rivolte a “programmatori”, ma ...
• Riducono la barriera di accesso
all’informazione per chiunque
• Rendono possibile l’accesso a sistemi che il
singolo non sarebbe in grado di ottenere.
• Sono espressione dell’idea di “open
communication” come forma di auto-
gestione del web.
• Sono un esempio digitale di mutua simbiosi.

Twitter API
{
quot;trendsquot;:{
quot;2009-04-27 22:10:19quot;:[
{
quot;queryquot;:quot;quot;Swine Fluquot; OR Fluquot;,
quot;namequot;:quot;Swine Fluquot;
},
{
quot;queryquot;:quot;#swinefluquot;,
quot;namequot;:quot;#swinefluquot;
},
{
quot;queryquot;:quot;Mexicoquot;,
quot;namequot;:quot;Mexicoquot;
},
{
quot;queryquot;:quot;#musicmondayquot;,
quot;namequot;:quot;#musicmondayquot;
},
{
quot;queryquot;:quot;#savechuckquot;,
quot;namequot;:quot;#savechuckquot;
} http://search.twitter.com/trends/current.json
]
},
quot;as_ofquot;:1240870219
}

New York Times APIs

http://developer.nytimes.com/docs

NYT elastic lists

Text

http://moritz.stefaner.eu/projects/elastic-lists/NYT/

Mashups
Blending the web together

Mashups
• Applicazioni web che combinano dati
provenienti da piu’ fonti in una singola
funzionalita’ integrata.
• Si basano quasi sempre sulle API rese
disponibili dai singoli servizi
• Offrono a non sviluppatori l’accesso a
informazioni strutturate “pre-digerite”
• Yahoo pipes (e.g.: Social Media Tracker)
• Programmable Web

Yahoo Pipes

http://pipes.yahoo.com/pjdonnellywork/5bd39564344cffbc9c9fabbeecec1576

Programmable Web
• La risorsa di riferimento, dove aggiornarsi
su API e Mashups disponibili

Programmable Web
• http://www.liveplasma.com/
• http://dev.benedictoneill.com/bbc/
• http://imagine-it.org/amazong/arbore.php?
XMLFileName=0738204315.xml
• http://imagine-it.org/amazong/
vissimweb.htm

At the end,
it’s all text...
Introduzione al Text processing e
Text mining

Book of Kells, Trinity College, Dublino

Data mining
• Il problema dell’information overload
• Data mining “is the process of extracting
hidden patterns from data”
• Il Data mining si divide in 2 rami: Discovery
e Prediction
• Il Data mining riguarda 4 classi di problemi:
Classiﬁcation, Clustering, Regression,
Pattern Inference

Text mining,
Information Retrieval
• ramo del Data Mining, focalizzato
all’estrazione di dati a partire da corpora
testuali.
• Sottogruppi: text clustering, normalization,
entity recognition, summarization,
computational linguistics, natural language
processing

Zipf distribution
Originally, Zipf's law stated that, “in a corpus of natural
language utterances, the frequency of any word is roughly
inversely proportional to its rank in the frequency table”.

http://www.ohohlfeld.com/zipf.html

tf-idf
• Le basi della ricerca testuale:
• All’interno di un corpo di testo, come
distinguere i termini che danno un contributo
signiﬁcativo ad un documento, rispetto ai
connettivi?
• Valorizzare i termini che appaiono spesso in un
documento
• Penalizzare i termini che appaiono spesso
nell’intero corpus

tf-idf

• tf-idf : Term Frequency / Inverse Document Freq.
• Term weighting: aij = f(Lij,Gi,Nj) = Lij Gi Nj

• Classic tf-idf:

http://irthoughts.wordpress.com/2008/07/07/understanding-tﬁdf/

Clustering
• Identiﬁcare una struttura in un’insieme di
dati non noti a priori.
• Organizzare oggetti in gruppi i cui mmbri
sono simili secondo una certa metrica.

http://home.dei.polimi.it/matteucc/
Clustering/tutorial_html/index.html

Graph Theory
• the study of graphs: mathematical structures
used to model pairwise relations between
objects from a certain collection.

• A quot;graphquot; in this context refers to a collection
of vertices or 'nodes' and a collection of
edges that connect pairs of vertices. A graph
may be undirected, meaning that there is no
distinction between the two vertices
associated with each edge, or its edges may be
directed from one vertex to another.

Graph Theory e Clustering
• Entrambe le teorie si basano sul concetto
di metrica. Perche’ non sfruttarlo?
• Esempio: identiﬁcare gruppi all’interno di un
network sociale.

Esempio: processing battlehorse.net

Machine learning
• Riguarda il disegno e lo sviluppo di
algoritmi che permettono ad un computer
di migliorare le proprie capacita’ nel
tempo, sulla base dei dati a disposizione.
• Include numerose discipline usate
quotidianamente per gestire l’enorme mole
di dati disponibile sul web.

Case study: Enron
• Enron ando’ in bancarotta il 2 Dicembre
2001, a seguito di scandali e illegalita’
ﬁnanziarie.
• Per effetto delle indagini, un corpus di
200.000(*) email riguardanti 150 persone e’
diventato di dominio pubblico: il dataset
Enron.

L’analisi quantitativa
• Utilizziamo i legami mittente-destinatario
per creare graﬁ di relazioni, da cui estrarre
informazioni sociali in base ai volumi di
scambio: chi parla con chi? chi agisce da
accentratore?

Enron: riferimenti

• http://www.cs.cmu.edu/~enron/

• http://jheer.org/enron/

• http://www.cs.umass.edu/~ronb/enron_dataset.html

BayesFor
Un caso di studio su
Web crawling e Media monitoring

www.bayesfor.eu

BayesFor.eu
• Un’associazione che si propone di promuovere e realizzare
ricerche, studi o sperimentazioni in materia di analisi dei dati
e utilizzo di tecniche statistiche

• Ha l’obiettivo di fare spidering di fonti sul web con lo scopo
di estrarre informazioni, come ad esempio:

• Correlazione tra concetti semantici nel tempo

• Associazioni tra concetti semantici e publisher

• Media bias e relazioni tra informazioni e notizie

• Interrelazione tra news, media e mercati ﬁnanziari

Come funziona?
• Lista di fonti (siti di quotidiani italiani ed
esteri, agenzie di stampa, feed rss, etc...)
• Lista di topics di interesse, incrementata
dinamicamente in base alla popolarita’
• Un motore di crawling web
• Un archivio dati con memoria storica dei
contenuti analizzati ﬁno ad oggi
• Strumenti di analisi statistica e numerica

Volumi
• ca. 200 fonti : portali, news websites, feeds
• 40000 termini lessicali tracciati
giornalmente
• 20M di termini identiﬁcati negli ultimi 5
mesi
• ~ 50Mb di dati giornalieri : come 60 libri di
300 pagine l’uno
• ~ 25Gb di dati accumulati da ﬁne 2007,
come una biblioteca di 40.000 volumi

Il processo di
estrazione
Estrazione automatica dei contenuti delle pagine web di
Crawling interesse.

Archival Archiviazione storica per giorno e per fonte

Rimozione della formattazione indesiderata. Pulizia del
Cleaning
codice HTML e della punteggiatura.

Filtering Separazione delle stop-word per ogni lingua analizzata

Stemming Identiﬁcazione delle radici lessicali e raggruppamento

Pesatura dei termini in base a posizione e prominenza
Weighting all’interno delle pagine web

Indexing Analysis Indicizzazione, ricerca e analisi statistica

Graph theory & News
events

Case: Primarie PD
True Value Predicted

Candidato True Value Predicted
Veltroni 75.81% 68.95%
Bindi 12.88% 15.47%
Letta 11.07% 15.47%
Bonazzi A., Brunori P., Govoni R., Lampronti G.I., and Zandi M. Italy 2008 Polls, Web Visibility and
Election Results, EDem2008 E-Democracy Conference proceedings, Danube University Krems

Zandi, Grippa, Bazarnick, Brunori, Frongia, Govoni, Bonazzi, Poster: Media Behavior During 2008
Electoral Campaign: a Web Content Analyis, SUNBELT Annual Conference, San Diego USA

Case: 2008 US Presidential Campaign

Web
Datasets
Dove stanno i dati sul web?
Quali datasets sono disponibili?

Oracle headquarters, California

Datasets?

• Wikipedia Dump: http://download.wikimedia.org/
• il caso Enron: http://www.cs.cmu.edu/~enron/
• Grouplens: http://www.grouplens.org/taxonomy/term/14
• swivel.com , many-eyes.com
• http://www.gapminder.org/
• http://www.ted.com/index.php/talks/
hans_rosling_shows_the_best_stats_you_ve_ever_seen.html

J. Minard map of Napoleon’s Russia campaign. ca 1861.

Data Visualization
Un’immagine vale piu’ di mille parole

Data Visualization

• Processing:
• http://www.processing.org
• http://www.openprocessing.org
• Google Visualization APIs
• http://code.google.com/apis/visualization/

Riccardo Govoni - Search

Recommandé

Recommandé

Contenu connexe

En vedette

En vedette (10)

Similaire à Riccardo Govoni - Search

Similaire à Riccardo Govoni - Search (20)

Plus de Social Media Lab

Plus de Social Media Lab (20)

Dernier

Dernier (19)

Riccardo Govoni - Search