SlideShare une entreprise Scribd logo
1  sur  19
Pár málo známých
nástrojů pro webmining
BigCleanCZ, Praha, 19. 3. 2011
Google Search

Google search oparátory
site: (hledá jen v určené doméně)
ext: (hledá soubory s určenou příponou)
XPath


http://www.w3schools.com/xpath/
1. Google Spreadsheet

Import XML
Import CSV nebo TSV via HTTP
Import HTML
Import RSS
Import XML

importXML("URL";"query",number)
importXml("http://www.google.com", "//a")
 importXml("http://www.msmt.cz/dokumenty"; "//
p[@class='hash']/a/@href")
Import CSV


importData("URL")
Import HTML
ImportHtml(URL; "list" | "table"; index)
ImportHtml("http://cs.wikipedia.org/wiki/Ma
%C4%8Farsko"; "table";1)
 ImportHtml("http://portal.chmi.cz/files/portal/docs/
uoco/web_generator/actual_hour_data_CZ.html";
"table";1)
Import RSS feed


ImportFeed(URL).
 ImportFeed("http://news.google.com/?
output=atom")
2. YQL


http://developer.yahoo.com/yql/console/
 http://developer.yahoo.com/yql/console/?
env=http://datatables.org/alltables.env
SQL pro WWW

select * from html where url="http://
www.novinky.cz"
select * from html where url="http://
www.novinky.cz" and xpath='//h3'
HTML obsah


select content from html where url="http://
www.novinky.cz" and xpath='//h3/a'
úplná podpora XPath
Joiny a lá SQL


 select * from search.web where query in (select
content from html where url="http://
www.novinky.cz" and xpath='//h3/a')
Podpora dalších služeb

 select * from search.web where query in (select
content from html where url="http://
www.novinky.cz" and xpath='//h3/a')
 select * from geo.placefinder where query in
(select content from html where url="http://
www.novinky.cz" and xpath='//h3/a')
... a formátů

 select * from json where url="http://
search.twitter.com/search.json?q=bigclean" AND
itemPath = "json.results.from_user"
 select * from json where url="https://
graph.facebook.com/search?q=ODS&type=post"
I mikroformátů


 select * from microformats where url='http://
twitter.com/josefslerka'
3. Yahoo Pipes


http://pipes.yahoo.com/pipes/
vizuální prostředí pro vytváření mashupů
4. Google Fusiona Tables
http://www.google.com/fusiontables
 webová služba pro zpracování a vizualizaci
velkých datových souborů (CSV až 100MB)
obsahuje geoparsering
je zcela zadarmo
má SQL-like API
Praktické ukázky...


... jdeme na to!
Otázky? Odpovědi?

Děkuji za pozornost.
josef.slerka@gmail.com
twitter.com/josefslerka

Contenu connexe

Plus de Josef Šlerka

Algoritmy a sociální sítě - stručný úvod
Algoritmy a sociální sítě - stručný úvodAlgoritmy a sociální sítě - stručný úvod
Algoritmy a sociální sítě - stručný úvodJosef Šlerka
 
Parallel Polis Revisited: Way from concept of Parallel Polis to Distributed R...
Parallel Polis Revisited: Way from concept of Parallel Polis to Distributed R...Parallel Polis Revisited: Way from concept of Parallel Polis to Distributed R...
Parallel Polis Revisited: Way from concept of Parallel Polis to Distributed R...Josef Šlerka
 
Dezinformační weby a zpravodajství v ČR
Dezinformační weby a zpravodajství v ČRDezinformační weby a zpravodajství v ČR
Dezinformační weby a zpravodajství v ČRJosef Šlerka
 
INFOWAR IN CZECH REPUBLIC
INFOWAR IN CZECH REPUBLICINFOWAR IN CZECH REPUBLIC
INFOWAR IN CZECH REPUBLICJosef Šlerka
 
Česká média dnes aneb Pokus o kontext k aktuální debatě
Česká média dnes aneb Pokus o kontext k aktuální debatěČeská média dnes aneb Pokus o kontext k aktuální debatě
Česká média dnes aneb Pokus o kontext k aktuální debatěJosef Šlerka
 
Svět viděný cizíma očima
Svět viděný cizíma očimaSvět viděný cizíma očima
Svět viděný cizíma očimaJosef Šlerka
 
Do Birds of a Feather Flock Together?
Do Birds of a Feather Flock Together?Do Birds of a Feather Flock Together?
Do Birds of a Feather Flock Together?Josef Šlerka
 
Projekt Navigátor - datová část
Projekt Navigátor - datová částProjekt Navigátor - datová část
Projekt Navigátor - datová částJosef Šlerka
 
Stručná zpráva o jednom experimentu
Stručná zpráva o jednom experimentuStručná zpráva o jednom experimentu
Stručná zpráva o jednom experimentuJosef Šlerka
 
Wikipedie ve službách zla?!
Wikipedie ve službách zla?!Wikipedie ve službách zla?!
Wikipedie ve službách zla?!Josef Šlerka
 
Mediální krajinka?
Mediální krajinka?Mediální krajinka?
Mediální krajinka?Josef Šlerka
 
Facebook data mining - case study
Facebook data mining - case studyFacebook data mining - case study
Facebook data mining - case studyJosef Šlerka
 
Facebookové fasády
Facebookové fasádyFacebookové fasády
Facebookové fasádyJosef Šlerka
 
Malý velký svět bublin na Facebooku
Malý velký svět bublin na FacebookuMalý velký svět bublin na Facebooku
Malý velký svět bublin na FacebookuJosef Šlerka
 
Jak se žije v Matrixu
Jak se žije v MatrixuJak se žije v Matrixu
Jak se žije v MatrixuJosef Šlerka
 

Plus de Josef Šlerka (20)

Algoritmy a sociální sítě - stručný úvod
Algoritmy a sociální sítě - stručný úvodAlgoritmy a sociální sítě - stručný úvod
Algoritmy a sociální sítě - stručný úvod
 
Atlas konspirací
Atlas konspiracíAtlas konspirací
Atlas konspirací
 
Parallel Polis Revisited: Way from concept of Parallel Polis to Distributed R...
Parallel Polis Revisited: Way from concept of Parallel Polis to Distributed R...Parallel Polis Revisited: Way from concept of Parallel Polis to Distributed R...
Parallel Polis Revisited: Way from concept of Parallel Polis to Distributed R...
 
Dezinformační weby a zpravodajství v ČR
Dezinformační weby a zpravodajství v ČRDezinformační weby a zpravodajství v ČR
Dezinformační weby a zpravodajství v ČR
 
INFOWAR IN CZECH REPUBLIC
INFOWAR IN CZECH REPUBLICINFOWAR IN CZECH REPUBLIC
INFOWAR IN CZECH REPUBLIC
 
Česká média dnes aneb Pokus o kontext k aktuální debatě
Česká média dnes aneb Pokus o kontext k aktuální debatěČeská média dnes aneb Pokus o kontext k aktuální debatě
Česká média dnes aneb Pokus o kontext k aktuální debatě
 
Svět viděný cizíma očima
Svět viděný cizíma očimaSvět viděný cizíma očima
Svět viděný cizíma očima
 
Do Birds of a Feather Flock Together?
Do Birds of a Feather Flock Together?Do Birds of a Feather Flock Together?
Do Birds of a Feather Flock Together?
 
Projekt Navigátor - datová část
Projekt Navigátor - datová částProjekt Navigátor - datová část
Projekt Navigátor - datová část
 
AI a žurnalistika
AI a žurnalistikaAI a žurnalistika
AI a žurnalistika
 
Stručná zpráva o jednom experimentu
Stručná zpráva o jednom experimentuStručná zpráva o jednom experimentu
Stručná zpráva o jednom experimentu
 
Volba a metoda
Volba a metodaVolba a metoda
Volba a metoda
 
Wikipedie ve službách zla?!
Wikipedie ve službách zla?!Wikipedie ve službách zla?!
Wikipedie ve službách zla?!
 
Mediální krajinka?
Mediální krajinka?Mediální krajinka?
Mediální krajinka?
 
Facebook data mining - case study
Facebook data mining - case studyFacebook data mining - case study
Facebook data mining - case study
 
Facebookové fasády
Facebookové fasádyFacebookové fasády
Facebookové fasády
 
Propaganda
PropagandaPropaganda
Propaganda
 
Malý velký svět bublin na Facebooku
Malý velký svět bublin na FacebookuMalý velký svět bublin na Facebooku
Malý velký svět bublin na Facebooku
 
The Nature of Data
The Nature of DataThe Nature of Data
The Nature of Data
 
Jak se žije v Matrixu
Jak se žije v MatrixuJak se žije v Matrixu
Jak se žije v Matrixu
 

Pár málo známých nástrojů pro webmining

Notes de l'éditeur

  1. \n
  2. \n
  3. \n
  4. \n
  5. \n
  6. \n
  7. \n
  8. \n
  9. \n
  10. \n
  11. \n
  12. \n
  13. \n
  14. \n
  15. \n
  16. \n
  17. \n
  18. \n
  19. \n