Ce diaporama a bien été signalé.
Nous utilisons votre profil LinkedIn et vos données d’activité pour vous proposer des publicités personnalisées et pertinentes. Vous pouvez changer vos préférences de publicités à tout moment.
Dr.SabinBuragawww.purl.org/net/busaco
Dezvoltarea aplicațiilor Web
la nivel de client

(re)găsirea resurselor Web
de la ...
Dr.SabinBuragawww.purl.org/net/busaco
“A well-defined problem is half solved.”
Michael Osborne
Dr.SabinBuragawww.purl.org/net/busaco
Cum prezentăm conținutul
altor clienți – diferiți de cei umani?
Dr.SabinBuragawww.purl.org/net/busaco
Am putea recurge la extragerea automată
a datelor expuse pe Web?
Dr.SabinBuragawww.purl.org/net/busaco
Roboți
programe ce traversează automat Web-ul,
cu scopul de a extrage date
spiders,...
Dr.SabinBuragawww.purl.org/net/busaco
Roboți
programe ce traversează automat Web-ul,
cu scopul de a extrage date
robot We...
Dr.SabinBuragawww.purl.org/net/busaco
Roboți
pornind de la un URI, realizează o conexiune HTTP
la un server Web, pentru a...
Dr.SabinBuragawww.purl.org/net/busaco
Roboți
pornind de la un URI, realizează o conexiune HTTP
la un server Web, pentru a...
Dr.SabinBuragawww.purl.org/net/busaco
roboți: pericole
Operarea în foc rapid (rapid-fire)
trafic de rețea
supraîncărcarea...
Dr.SabinBuragawww.purl.org/net/busaco
roboți: pericole
Actualizarea cu întârziere a bazelor de date
ale motoarelor de cău...
Dr.SabinBuragawww.purl.org/net/busaco
roboți: pericole
Actualizarea cu întârziere a bazelor de date
ale motoarelor de cău...
Dr.SabinBuragawww.purl.org/net/busaco
roboți: pericole
Exploatarea (ne)controlată de către utilizatori
atacuri „brute”
Dr.SabinBuragawww.purl.org/net/busaco
roboți: pericole
Intrarea în „găurile negre”
Dr.SabinBuragawww.purl.org/net/busaco
roboți: pericole
Accesarea unor date nerelevante
Dr.SabinBuragawww.purl.org/net/busaco
roboți: identificare
Fiecare robot Web trebuie să se identifice
(nume, domeniu, cre...
Dr.SabinBuragawww.purl.org/net/busaco
19539 de roboți Web – statistica din 2013
Alexa (7004), Bing/MSN (100), Facebook (6...
Dr.SabinBuragawww.purl.org/net/busaco
roboți: identificare
Fiecare robot Web trebuie să se identifice
(nume, domeniu, cre...
Dr.SabinBuragawww.purl.org/net/busaco
roboți: identificare
Fiecare robot Web trebuie să se identifice
(nume, domeniu, cre...
Dr.SabinBuragawww.purl.org/net/busaco
roboți: identificare
Fiecare robot Web trebuie să se identifice
(nume, domeniu, cre...
Dr.SabinBuragawww.purl.org/net/busaco
66.249.65.173 - - [09/Nov/2015:11:26:31 +0200] "GET /~introp/ HTTP/1.1" 304 - "-"
"...
Dr.SabinBuragawww.purl.org/net/busaco
Cum putem „instrui” roboții Web
să nu viziteze anumite zone ale sitului?
Dr.SabinBuragawww.purl.org/net/busaco
Orice robot trebuie să respecte
standardul de excludere
Dr.SabinBuragawww.purl.org/net/busaco
Orice robot trebuie să respecte
standardul de excludere
fișierul robots.txt
http://...
Dr.SabinBuragawww.purl.org/net/busaco
Orice robot trebuie să respecte
standardul de excludere
fișierul robots.txt
# /robo...
Dr.SabinBuragawww.purl.org/net/busaco
de studiat câteva exemple reale de fișiere robots.txt:
http://www.amazon.com/robots...
Dr.SabinBuragawww.purl.org/net/busaco
Orice robot trebuie să respecte
standardul de excludere
evitarea indexării conținut...
Dr.SabinBuragawww.purl.org/net/busaco
Ce activități realizează un motor de căutare?
Dr.SabinBuragawww.purl.org/net/busaco
Scop:
localizarea resurselor existente pe Web
Dr.SabinBuragawww.purl.org/net/busaco
Tipuri de căutări – maniera tradițională:
pe bază de indecși (crawling & indexing)
...
Dr.SabinBuragawww.purl.org/net/busaco
Tipuri de căutări – maniera tradițională:
pe baza ierarhiilor de termeni
(servicii ...
Dr.SabinBuragawww.purl.org/net/busaco
Tipuri de căutări – maniera tradițională:
hibride
indecși + taxonomiiportal Web
Ex...
Dr.SabinBuragawww.purl.org/net/busaco
Tipuri de căutări – maniera tradițională:
pe baza legăturilor hipertext
(hyperlink ...
Dr.SabinBuragawww.purl.org/net/busaco
Tipuri de căutări – maniera modernă:
pe baza datelor structurate
(determinare și ex...
Dr.SabinBuragawww.purl.org/net/busaco
Un motor de căutare trebuie să satisfacă
nevoia de informații a utilizatorului
(use...
Dr.SabinBuragawww.purl.org/net/busaco
Preluarea + indexarea resurselor se pot realiza:
automat – via roboți Web
manual – ...
Dr.SabinBuragawww.purl.org/net/busaco
Preluarea și indexarea resurselor
strategii:
natura datelor/relațiilor (data/relati...
Dr.SabinBuragawww.purl.org/net/busaco
Caracteristici ale unui motor de căutare ideal
scop
căutarea oricărei resurse exist...
Dr.SabinBuragawww.purl.org/net/busaco
Caracteristici ale unui motor de căutare ideal
viteză
rezultatele să fie disponibil...
Dr.SabinBuragawww.purl.org/net/busaco
Caracteristici ale unui motor de căutare ideal
disponibilitate
actualizarea permane...
Dr.SabinBuragawww.purl.org/net/busaco
Caracteristici ale unui motor de căutare ideal
recall
găsirea tuturor resurselor re...
Dr.SabinBuragawww.purl.org/net/busaco
Caracteristici ale unui motor de căutare ideal
precizie
rezultatul conține doar doc...
Dr.SabinBuragawww.purl.org/net/busaco
Caracteristici ale unui motor de căutare ideal
ranking
cele mai relevante documente...
Dr.SabinBuragawww.purl.org/net/busaco
Care sunt principalele componente
ale unui motor de căutare?
Dr.SabinBuragawww.purl.org/net/busaco
Robot Web
extrage informații
Index (catalog)
stochează – în mod persistent – (meta)...
Dr.SabinBuragawww.purl.org/net/busaco
Diferențele dintre motoarele de căutare actuale
sunt date de fiecare componentă în ...
Dr.SabinBuragawww.purl.org/net/busaco
structura generică a unui motor de căutare
(Chakrabarti, 2003)
Dr.SabinBuragawww.purl.org/net/busaco
motoare: căutarea
Activitatea generală a unui robot (crawler) simplu:
F = mulțimea ...
Dr.SabinBuragawww.purl.org/net/busaco
motoare: căutarea
Bazată pe învățare
data mining
(de exemplu, reinforcement learnin...
Dr.SabinBuragawww.purl.org/net/busaco
motoare: căutarea
Conținutul ce trebuie indexat nu e doar textual
hiper-informația:...
Dr.SabinBuragawww.purl.org/net/busaco
motoare: căutarea
Robotul/motorul de căutare decide momentul
revizitării resursei c...
Dr.SabinBuragawww.purl.org/net/busaco
motoare: căutarea
Aspect de interes:
rezoluția adreselor Web
(nume de domeniiadres...
Dr.SabinBuragawww.purl.org/net/busaco
motoare: căutarea
Aspect de interes:
realizarea cererilor concurente
Dr.SabinBuragawww.purl.org/net/busaco
motoare: căutarea
Aspect de interes:
extragerea legăturilor
e.g., normalizarea URI-...
Dr.SabinBuragawww.purl.org/net/busaco
motoare: căutarea
Aspect de interes:
eliminarea adreselor deja vizitate
evitarea „g...
Dr.SabinBuragawww.purl.org/net/busaco
motoare: căutarea
Aspect de interes:
monitorizarea accesărilor
load monitoring + ma...
Dr.SabinBuragawww.purl.org/net/busaco
motoare: căutarea
Aspect de interes:
strategii de revizitare/reîmprospătare
a conți...
Dr.SabinBuragawww.purl.org/net/busaco
motoare: indexarea
Necesitatea folosirii sistemelor de baze de date
depozit distri...
Dr.SabinBuragawww.purl.org/net/busaco
motoare: indexarea
Necesitatea folosirii sistemelor de baze de date
depozit distri...
Dr.SabinBuragawww.purl.org/net/busaco
motoare: indexarea
Necesitatea folosirii sistemelor de baze de date
depozit distri...
Dr.SabinBuragawww.purl.org/net/busaco
Cum se realizează indexarea?
Dr.SabinBuragawww.purl.org/net/busaco
motoare: indexarea
Utilizarea nu doar a datelor propriu-zise
(conținutului textual)...
Dr.SabinBuragawww.purl.org/net/busaco
motoare: indexarea
Indexare bazată pe cuvinte-cheie
relevanță, plasament, meta-date...
Dr.SabinBuragawww.purl.org/net/busaco
motoare: indexarea
O importanță mare o au:
maniera de structurare a informației și
...
Dr.SabinBuragawww.purl.org/net/busaco
motoare: interogarea
Cererile sunt formulate via o interfață Web
Dr.SabinBuragawww.purl.org/net/busaco
motoare: interogarea
Cererile sunt formulate via o interfață Web
unele motoare de c...
Dr.SabinBuragawww.purl.org/net/busaco
motoare: interogarea
Cererile sunt formulate via o interfață Web
exemplificare: o p...
Dr.SabinBuragawww.purl.org/net/busaco
motoare: interogarea
digital camera $700 .. 1400
~book
intitle:design –intitle:web
...
Dr.SabinBuragawww.purl.org/net/busaco
motoare: interogarea
Interogările din prisma utilizatorului:
grad mare de subiectiv...
Dr.SabinBuragawww.purl.org/net/busaco
motoare: interogarea
Interogările din prisma utilizatorului:
depind de contextul so...
Dr.SabinBuragawww.purl.org/net/busaco
motoare: interogarea
Interogările din prisma utilizatorului:
dependente de scop
inf...
Dr.SabinBuragawww.purl.org/net/busaco
motoare: interogarea
Remarci:
utilizatorii obișnuiți nu înțeleg limbajul logic – „b...
Dr.SabinBuragawww.purl.org/net/busaco
motoare: interogarea
Remarci:
interogările uzual sunt scurte (media: 2,6 cuvinte),
...
Dr.SabinBuragawww.purl.org/net/busaco
motoare: interogarea
Remarci:
apar confuzii:
URI vs. text,
lipsa spațiilor,
vocabul...
Dr.SabinBuragawww.purl.org/net/busaco
Remarci:
implicit, termenii de căutare trebuie să se regăsească
identic în cadrul c...
Dr.SabinBuragawww.purl.org/net/busaco
motoare: interogarea
Interogări formulate în limbaj natural:
eliminarea ambiguități...
Dr.SabinBuragawww.purl.org/net/busaco
motoare: interogarea
Evaluarea cererii – schema generală:
1. Analizarea interogării...
Dr.SabinBuragawww.purl.org/net/busaco
motoare: interogarea
Conținutul fiecărui document extras
este analizat și divizat î...
Dr.SabinBuragawww.purl.org/net/busaco
motoare: interogarea
Unele construcții se ignoră/constrâng
e.g., “the”, “is”/“are”/...
Dr.SabinBuragawww.purl.org/net/busaco
motoare: interogarea
Fiecărui token i se reține și poziția apariției
în document
po...
Dr.SabinBuragawww.purl.org/net/busaco
motoare: interogarea
Criterii vizând calculul relevanței:
ranking bazat pe clasific...
Dr.SabinBuragawww.purl.org/net/busaco
motoare: interogarea
Criterii vizând calculul relevanței:
ranking bazat pe informaț...
Dr.SabinBuragawww.purl.org/net/busaco
motoare: interogarea
Criterii vizând calculul relevanței:
ranking bazat pe conectiv...
Dr.SabinBuragawww.purl.org/net/busaco
motoare: interogarea
Calculul relevanței:
tehnici privind IR (Information Retrieval...
Dr.SabinBuragawww.purl.org/net/busaco
motoare: interogarea
Page Rank (Google)
evaluarea relevanței pe baza contextului de...
Dr.SabinBuragawww.purl.org/net/busaco
motoare: interogarea
Page Rank (Google)
exploatarea relațiilor dintre diferite pagi...
Dr.SabinBuragawww.purl.org/net/busaco
motoare: interogarea
Page Rank (Google)
recurgerea la tehnici adaptive, euristice
Dr.SabinBuragawww.purl.org/net/busaco
motoare: interogarea
Page Rank (Google)
determinarea corelației dintre relevanța ca...
Dr.SabinBuragawww.purl.org/net/busaco
motoare: interogarea
Page Rank (Google)
(Larry Page & Sergey Brin, 1996 – doctorat ...
Dr.SabinBuragawww.purl.org/net/busaco
motoare: interogarea
Alternative la Page Rank:
TrustRank (Friesen, 2007)
folosește ...
Dr.SabinBuragawww.purl.org/net/busaco
motoare: interogarea
Alternative la Page Rank:
TrustRank (Friesen, 2007)
cu cât un ...
Dr.SabinBuragawww.purl.org/net/busaco
motoare: interogarea
Alternative la Page Rank:
utilizarea tehnologiilor Web-ului se...
Dr.SabinBuragawww.purl.org/net/busaco
timp strategie
înainte de
2000
conținut – indexarea textului
(titlu, anteturi, URL,...
Dr.SabinBuragawww.purl.org/net/busaco
generale Bing, DuckDuckGo, Google, Yahoo!, Volunia,…
regionale
Baidu (China), Daum ...
Dr.SabinBuragawww.purl.org/net/busaco
Motoarele tind să „recompenseze” siturile:
de mari dimensiuni
cu viață lungă
specia...
Dr.SabinBuragawww.purl.org/net/busaco
SERP (Search Engine Result Page)
specifică maniera de redare a rezultatelor
oferite...
Dr.SabinBuragawww.purl.org/net/busaco
SERP (Search Engine Result Page)
se includ recomandări pe baza:
preferințelor utili...
Dr.SabinBuragawww.purl.org/net/busaco
“At any one time you rank #1 or #8 or #40
based on who is searching, where they sea...
Dr.SabinBuragawww.purl.org/net/busaco
(în loc de) pauză
Dr.SabinBuragawww.purl.org/net/busaco
Cum putem proiecta
mijloacele de căutare internă?
Dr.SabinBuragawww.purl.org/net/busaco
Motor de căutare internă (la nivel de sit)
oferirea de sugestii utilizatorului
e.g....
Dr.SabinBuragawww.purl.org/net/busaco
Motor de căutare internă (la nivel de sit)
sugestii de soluții
de exemplu, răspunsu...
Dr.SabinBuragawww.purl.org/net/busaco
Motor de căutare internă (la nivel de sit)
îmbunătățirea interacțiunii – utilizabil...
Dr.SabinBuragawww.purl.org/net/busaco
Motor de căutare internă (la nivel de sit)
în pagina de redare a rezultatelor, va f...
Dr.SabinBuragawww.purl.org/net/busaco
Motor de căutare internă (la nivel de sit)
calitatea rezultatelor oferite e depende...
Dr.SabinBuragawww.purl.org/net/busaco
Dr.SabinBuragawww.purl.org/net/busaco
Motor de căutare internă (la nivel de sit)
utilizatorul să aibă libertatea de a efe...
Dr.SabinBuragawww.purl.org/net/busaco
Cum trebuie scris codul HTML
pentru a obține o relevanță bună a conținutului?
Dr.SabinBuragawww.purl.org/net/busaco
SEO – Search Engine Optimization
suită de strategii de redactare a codului HTML
în ...
Dr.SabinBuragawww.purl.org/net/busaco
Structurarea codului-sursă a documentelor Web
Structurarea conținutului
Structurare...
Dr.SabinBuragawww.purl.org/net/busaco
Structurarea codului-sursă – SEO la nivel de pagină
documentul trebuie să fie bine-...
Dr.SabinBuragawww.purl.org/net/busaco
Structurarea codului-sursă – SEO la nivel de pagină
includerea de meta-date:
în ant...
Dr.SabinBuragawww.purl.org/net/busaco
Structurarea codului-sursă – SEO la nivel de pagină
a nu se folosi:
cadre (frame-ur...
Dr.SabinBuragawww.purl.org/net/busaco
Structurarea codului-sursă – SEO la nivel de pagină
conținutul primează (“content i...
Dr.SabinBuragawww.purl.org/net/busaco
Structurarea codului-sursă – SEO la nivel de pagină
situl trebuie actualizat period...
Dr.SabinBuragawww.purl.org/net/busaco
Structurarea conținutului
codul trebuie structurat conform semnificației logice
PO...
Dr.SabinBuragawww.purl.org/net/busaco
Structurarea conținutului
conținutul relavant trebuie plasat ierarhic
via <h1>, <h2...
Dr.SabinBuragawww.purl.org/net/busaco
Structurarea conținutului
conținuturile multimedia binare
trebuie să aibă alternati...
Dr.SabinBuragawww.purl.org/net/busaco
Structurarea conținutului
numele fișierelor (imagini, stiluri,…) contează

human f...
Dr.SabinBuragawww.purl.org/net/busaco
Structurarea legăturilor – SEO la nivel de sit
obligatoriu, de inclus legături spre...
Dr.SabinBuragawww.purl.org/net/busaco
Structurarea legăturilor – SEO la nivel de sit
dorim legături spre/de la situri imp...
Dr.SabinBuragawww.purl.org/net/busaco
Structurarea legăturilor – SEO la nivel de sit
dorim legături spre/de la situri imp...
Dr.SabinBuragawww.purl.org/net/busaco
Structurarea legăturilor – SEO la nivel de sit
de verificat și menținut structura h...
Dr.SabinBuragawww.purl.org/net/busaco
Structurarea legăturilor – SEO la nivel de sit
a se evita spam-ul
e.g., legături în...
Dr.SabinBuragawww.purl.org/net/busaco
Utilizarea elementului <meta>
descrierea paginii – description
cuvintele-cheie – ke...
Dr.SabinBuragawww.purl.org/net/busaco
Paginile de „acoperire” (page cloaking)
scop: oferirea de conținut diferit,
în func...
Dr.SabinBuragawww.purl.org/net/busaco
black-hat page cloaking
tehnică penalizată de Google: http://youtu.be/QHtnfOgp65Q
s...
Dr.SabinBuragawww.purl.org/net/busaco
„Estetica” URL-urilor
distincția dintre conținutul static și cel dinamic
(component...
Dr.SabinBuragawww.purl.org/net/busaco
„Estetica” URL-urilor
indexarea conținutului dinamic poate fi limitată
ori poate fi...
Dr.SabinBuragawww.purl.org/net/busaco
„Estetica” URL-urilor
evitarea numerelor de sesiune (SID) din URL
uzual, roboții ig...
Dr.SabinBuragawww.purl.org/net/busaco
„Estetica” URL-urilor
evitarea numerelor de sesiune (SID) din URL
la nivel de serve...
Dr.SabinBuragawww.purl.org/net/busaco
„Estetica” URL-urilor
„mascarea” URL-urilor oferind conținut dinamic
exemplificare:...
Dr.SabinBuragawww.purl.org/net/busaco
Rezultatul returnat clientului
de evitat paginile de eroare – e.g., 404
orice pagin...
Dr.SabinBuragawww.purl.org/net/busaco
Rezultatul returnat clientului
se folosesc facilitățile oferite de serverul Web
pen...
Dr.SabinBuragawww.purl.org/net/busaco
Navigarea bazată pe interacțiunea cu utilizatorul
legături spre alte resurse realiz...
Dr.SabinBuragawww.purl.org/net/busaco
Oferirea de conținut via documente
adoptând formate de date nestandardizate
de evit...
Dr.SabinBuragawww.purl.org/net/busaco
Titluri identice pentru toate paginile unui sit
de evitat
Dr.SabinBuragawww.purl.org/net/busaco
Pagini de eroare care sunt oferite de server
via codul de stare HTTP 200 Ok
de evit...
Dr.SabinBuragawww.purl.org/net/busaco
Redirecționări incorecte și/sau abuzive
de evitat
Dr.SabinBuragawww.purl.org/net/busaco
Ignorarea utilizatorilor cu nevoi speciale
web accessibility
http://webaim.org/
de ...
Dr.SabinBuragawww.purl.org/net/busaco
Abuzul de transferuri asincrone prin Ajax
de evitat
Dr.SabinBuragawww.purl.org/net/busaco
Crearea documentului sitemap.xml
pentru a-l expedia la Google Sitemaps
complementar...
Dr.SabinBuragawww.purl.org/net/busaco
Resurse de interes:
Google Webmaster Central
https://developers.google.com/webmaste...
Dr.SabinBuragawww.purl.org/net/busaco
Invisible Web (Deep Web)
acea parte a spațiului World Wide Web
care nu este detecta...
Dr.SabinBuragawww.purl.org/net/busaco
Cum am putea descrie conținutul resurselor Web
astfel încât să poată fi procesat „i...
Dr.SabinBuragawww.purl.org/net/busaco
Idee:
specificarea unor meta-date (date privind datele)
direct în cadrul documentel...
Dr.SabinBuragawww.purl.org/net/busaco
Idee:
specificarea unor meta-date (date privind datele)
direct în cadrul documentel...
Dr.SabinBuragawww.purl.org/net/busaco
Microformate
(Tantek Çelik & Kevin Marks, 2004)
www.microformats.org
Dr.SabinBuragawww.purl.org/net/busaco
Microformate
utilizarea de marcaje (X)HTML pentru a desemna
semantica și/sau struct...
Dr.SabinBuragawww.purl.org/net/busaco
Microformate
reutilizarea unor vocabulare de termeni,
disponibile liber și standard...
Dr.SabinBuragawww.purl.org/net/busaco
Microformate
reutilizarea unor vocabulare de termeni,
disponibile liber și standard...
Dr.SabinBuragawww.purl.org/net/busaco
marcaje HTML (<div>, <span>)
pentru specificarea datelor &
structurii lor
„clase” C...
Dr.SabinBuragawww.purl.org/net/busaco
Microformate
elementare – desemnează o caracteristică unică
+
compuse – specifică m...
Dr.SabinBuragawww.purl.org/net/busaco
rel-tag
asociază unei legături hipertext un termen (tag)
– cuvânt-cheie ori subiect...
Dr.SabinBuragawww.purl.org/net/busaco
rel-tag
<p>Tutorial despre <a href="http://www.slideshare.net/tag/web"
rel="tag">ww...
Dr.SabinBuragawww.purl.org/net/busaco
XFN (XHTML Friend Network)
relații între „prieteni”: colaboratori, rude, cunoscuți,...
Dr.SabinBuragawww.purl.org/net/busaco
recurgerea la XFN în cadrul sistemului WordPress
Dr.SabinBuragawww.purl.org/net/busaco
hCalendar
desemnează evenimente și orare
vezi formatul iCalendar – RFC 5545
https:/...
Dr.SabinBuragawww.purl.org/net/busaco
hCalendar
<div class="vevent">
<a class="url" href="http://tinyurl.com/cliw-seo"
<a...
Dr.SabinBuragawww.purl.org/net/busaco
hCard
informații de contact despre persoane, organizații etc.
în conformitate cu fo...
Dr.SabinBuragawww.purl.org/net/busaco
specificarea informațiilor despre o persoană via hCard
Dr.SabinBuragawww.purl.org/net/busaco
hResume
modelează informații despre un CV
folosit în conjuncție cu hCard și hCalend...
Dr.SabinBuragawww.purl.org/net/busaco
hReview
desemnează opinii emise despre „ceva” – o entitate
(produs, locație, evenim...
Dr.SabinBuragawww.purl.org/net/busaco
<div class="hreview">
<!-- resursa recenzată -->
<h1 class="item">Recenzie despre <...
Dr.SabinBuragawww.purl.org/net/busaco
Dr.SabinBuragawww.purl.org/net/busaco
Microformate 2
simplifică maniera de specificare (2012)
http://microformats.org/wik...
Dr.SabinBuragawww.purl.org/net/busaco
Microformate 2
vocabularele sunt definite pe baza unor prefixe
h- includerea unui m...
Dr.SabinBuragawww.purl.org/net/busaco
<div class="h-card vcard">
<img src="/content/content_about-experts/brendaneich.jpg...
Dr.SabinBuragawww.purl.org/net/busaco
Microformate 2
vocabulare predefinite – unele în stadiu de ciornă:
h-adr h-card h-e...
Dr.SabinBuragawww.purl.org/net/busaco
<!-- specificarea unui eveniment via microformate versiunea 2 -->
<section class="h...
Dr.SabinBuragawww.purl.org/net/busaco
microformate: utilizări
…și multe altele
detalii la http://microformats.org/wiki/im...
Dr.SabinBuragawww.purl.org/net/busaco
microformate: utilizări
detectarea și exportul de microformate cu extensia
Operator...
Dr.SabinBuragawww.purl.org/net/busaco
Microdata HTML 5
alternativă la microformate
specificație W3C – Working Draft (octo...
Dr.SabinBuragawww.purl.org/net/busaco
Microdata HTML 5
posibilitatea de a specifica perechi de proprietăți
(nume, valoare...
Dr.SabinBuragawww.purl.org/net/busaco
Microdata HTML 5
grupurile de perechi de proprietăți nume—valoare
sunt denumite ite...
Dr.SabinBuragawww.purl.org/net/busaco
Microdata HTML 5
grupurile de perechi de proprietăți nume—valoare
sunt denumite ite...
Dr.SabinBuragawww.purl.org/net/busaco
Microdata HTML 5
grupurile de perechi de proprietăți nume—valoare
sunt denumite ite...
Dr.SabinBuragawww.purl.org/net/busaco
Există o serie de modele de date
(exprimate via microformate sau microdate)
ce pot ...
Dr.SabinBuragawww.purl.org/net/busaco
schema.org
colecție de vocabulare (scheme de date)
– e.g., Book, Event, LocalBusine...
Dr.SabinBuragawww.purl.org/net/busaco
schema.org
colecție de vocabulare (scheme de date)
– e.g., Book, Event, LocalBusine...
Dr.SabinBuragawww.purl.org/net/busaco
a se consulta și http://www.w3.org/wiki/WebSchemas
Dr.SabinBuragawww.purl.org/net/busaco
tipurile primare de date definite de schema.org
Dr.SabinBuragawww.purl.org/net/busaco
diverse proprietăți ce relaționează Integer cu alte concepte
Dr.SabinBuragawww.purl.org/net/busaco
Thing – schema cea mai generală, incluzând conceptualizări
Action
BroadcastService
...
Dr.SabinBuragawww.purl.org/net/busaco
Person – modelează conceptul „persoană”
http://schema.org/Person
Dr.SabinBuragawww.purl.org/net/busaco
schema.org
relațiile dintre entități sunt precizate via proprietăți
Dr.SabinBuragawww.purl.org/net/busaco
<div lang="en" itemscope="" itemtype="http://schema.org/RealEstateAgent">
<span ite...
Dr.SabinBuragawww.purl.org/net/busaco
<ul>
<li>
<p itemid="#busaco" itemscope="" itemtype="http://schema.org/Person">
<a ...
Dr.SabinBuragawww.purl.org/net/busaco
extragerea/verificarea de date structurate
via Structured Data Testing Tool
https:/...
Dr.SabinBuragawww.purl.org/net/busaco
<section id="week6">
<h2>Săptămâna 6</h2>
<ul>
<li itemscope="" itemtype="http://sc...
Dr.SabinBuragawww.purl.org/net/busaco
extragerea
informațiilor
din HTML5
aici, despre
prelegerile
materiei CLIW
Dr.SabinBuragawww.purl.org/net/busaco
<article itemscope="" itemtype="http://schema.org/Event">
<section id="contest">
<h...
Dr.SabinBuragawww.purl.org/net/busaco
date pentru „consum” uman vs. date structurate
interpretate și prelucrate, ulterior...
Dr.SabinBuragawww.purl.org/net/busaco
<!-- microformate (utilizarea microformatului hCard) -->
<div class="vcard">
<p>Num...
Dr.SabinBuragawww.purl.org/net/busaco
Alte resurse de interes,
inclusiv instrumente de validare și conversie,
sunt oferit...
Dr.SabinBuragawww.purl.org/net/busaco
Microformatele și microdatele HTML5
sunt indexate de motoarele de căutare
Bing Webm...
Dr.SabinBuragawww.purl.org/net/busaco
Cum ar putea fi detectate și penalizate
siturile Web care „trișează” în ceea ce pri...
Dr.SabinBuragawww.purl.org/net/busaco
Oferiți o soluție (empirică) de prevenire
a spam-ului vizând documentele HTML
test ...
Dr.SabinBuragawww.purl.org/net/busaco
episodul viitor: limbajul JavaScript
Prochain SlideShare
Chargement dans…5
×

CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

735 vues

Publié le

Detalii privind căutarea resurselor Web. De la motoare de căutare și SEO la date structurate (microformate + scheme de date HTML5). Detalii la http://profs.info.uaic.ro/~busaco/teach/courses/cliw/web-film.html

Publié dans : Logiciels
  • Soyez le premier à commenter

CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

  1. 1. Dr.SabinBuragawww.purl.org/net/busaco Dezvoltarea aplicațiilor Web la nivel de client  (re)găsirea resurselor Web de la motoare de căutare și SEO la date structurate
  2. 2. Dr.SabinBuragawww.purl.org/net/busaco “A well-defined problem is half solved.” Michael Osborne
  3. 3. Dr.SabinBuragawww.purl.org/net/busaco Cum prezentăm conținutul altor clienți – diferiți de cei umani?
  4. 4. Dr.SabinBuragawww.purl.org/net/busaco Am putea recurge la extragerea automată a datelor expuse pe Web?
  5. 5. Dr.SabinBuragawww.purl.org/net/busaco Roboți programe ce traversează automat Web-ul, cu scopul de a extrage date spiders, crawlers, Web bots
  6. 6. Dr.SabinBuragawww.purl.org/net/busaco Roboți programe ce traversează automat Web-ul, cu scopul de a extrage date robot Web  navigator Web
  7. 7. Dr.SabinBuragawww.purl.org/net/busaco Roboți pornind de la un URI, realizează o conexiune HTTP la un server Web, pentru a întreprinde anumite acțiuni privitoare la reprezentarea unei resurse și, recursiv, din toate documentele desemnate de legăturile existente în cadrul reprezentării
  8. 8. Dr.SabinBuragawww.purl.org/net/busaco Roboți pornind de la un URI, realizează o conexiune HTTP la un server Web, pentru a întreprinde anumite acțiuni privitoare la reprezentarea unei resurse și, recursiv, din toate documentele desemnate de legăturile existente în cadrul reprezentării acțiuni: extragere, copiere, sumarizare, agregare de conținut, monitorizare etc.
  9. 9. Dr.SabinBuragawww.purl.org/net/busaco roboți: pericole Operarea în foc rapid (rapid-fire) trafic de rețea supraîncărcarea serverelor Webdenial of service
  10. 10. Dr.SabinBuragawww.purl.org/net/busaco roboți: pericole Actualizarea cu întârziere a bazelor de date ale motoarelor de căutare
  11. 11. Dr.SabinBuragawww.purl.org/net/busaco roboți: pericole Actualizarea cu întârziere a bazelor de date ale motoarelor de căutare necesitatea specificării timpului de revizitare a sitului de către robotul Web <meta name="Revisit-After" content="30 Days" />
  12. 12. Dr.SabinBuragawww.purl.org/net/busaco roboți: pericole Exploatarea (ne)controlată de către utilizatori atacuri „brute”
  13. 13. Dr.SabinBuragawww.purl.org/net/busaco roboți: pericole Intrarea în „găurile negre”
  14. 14. Dr.SabinBuragawww.purl.org/net/busaco roboți: pericole Accesarea unor date nerelevante
  15. 15. Dr.SabinBuragawww.purl.org/net/busaco roboți: identificare Fiecare robot Web trebuie să se identifice (nume, domeniu, creator,...) uzual, va fi folosit câmpul User-Agent din antetul unei cereri HTTP
  16. 16. Dr.SabinBuragawww.purl.org/net/busaco 19539 de roboți Web – statistica din 2013 Alexa (7004), Bing/MSN (100), Facebook (60), Googlebot (6085), Twitter (84) + neidentificați (374730) conform www.botsvsbrowsers.com search engines 51% scrapers 8% hacking tools 7% spammers 1% others 33%
  17. 17. Dr.SabinBuragawww.purl.org/net/busaco roboți: identificare Fiecare robot Web trebuie să se identifice (nume, domeniu, creator,...) roboți personali (e.g., motoare experimentale, software de oglindire) BackRub (pre-Google) wget – http://www.gnu.org/software/wget/ etc.
  18. 18. Dr.SabinBuragawww.purl.org/net/busaco roboți: identificare Fiecare robot Web trebuie să se identifice (nume, domeniu, creator,...) roboți ai motoarelor de căutare majore Baiduspider – www.baidu.com/search/spider.html bingbot – www.bing.com/bingbot.htm Googlebot – www.google.com/bot.html Slurp – http://help.yahoo.com/help/us/ysearch/slurp YandexBot – yandex.com/bots
  19. 19. Dr.SabinBuragawww.purl.org/net/busaco roboți: identificare Fiecare robot Web trebuie să se identifice (nume, domeniu, creator,...) roboți specializați (e.g., validarea codului HTML, scurtarea lungimii URL-urilor, scanare de vulnerabilități, statistici,…) exemplificări: citeseerxbot, Page2RSS, extensii Nagios, W3C Validator
  20. 20. Dr.SabinBuragawww.purl.org/net/busaco 66.249.65.173 - - [09/Nov/2015:11:26:31 +0200] "GET /~introp/ HTTP/1.1" 304 - "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)" 93.158.178.188 - - [09/Nov/2015:11:25:08 +0200] "GET /~adria/...pdf HTTP/1.1" 200 198738 "- " "Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots)" 66.249.65.70 - - [09/Nov/2015:11:22:06 +0200] "GET /~busaco/teach/courses/cliw/ HTTP/1.1" 200 2120 "-" "Mozilla/5.0 (iPhone; …Safari/600.1.4 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)" 180.76.5.101 - - [09/Nov/2015:11:22:02 +0200] "GET /~busaco/ HTTP/1.1" 200 1907 "-" "Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)" 98.137.206.250 - - [09/Nov/2015:11:21:07 +0200] "GET /~busaco/ HTTP/1.1" 200 1907 "-" "Mozilla/5.0 (compatible; Yahoo! Slurp/3.0; http://help.yahoo.com/help/us/ysearch/slurp)" 157.55.39.73 - - [09/Nov/2015:11:20:43 +0200] "GET /~webdata/…/OCT.pdf HTTP/1.1" 403 220 "-" "Mozilla/5.0 (compatible; bingbot/2.0; +http://www.bing.com/bingbot.htm)" 208.115.111.71 - - [09/Nov/2015:11:20:42 +0200] "GET /%7Eorar/ HTTP/1.1" 200 12705 "-" "Mozilla/5.0 (DotBot/1.1; http://www.opensiteexplorer.org/dotbot, help@moz.com)" 63.249.66.212 - - [09/Nov/2015:11:14:55 +0200] "GET /~croitoru/ag/ HTTP/1.1" 200 2575 "-" "Mozilla/4.0 (compatible; MSIE 6.0; http://www.changedetection.com/bot.html)" 66.249.65.70 - - [09/Nov/2015:11:12:47 +0200] "GET /~busaco/paint/leaf/leaf-9.jpg HTTP/1.1" 304 - "-" "Googlebot-Image/1.0" 157.55.39.177 - - [09/Nov/2015:11:11:53 +0200] "GET /~lrc/ HTTP/1.1" 200 1914 "-" "msnbot- media/1.1 (+http://search.msn.com/msnbot.htm)" 136.243.9.23 - - [09/Nov/2015:09:40:35 +0200] "GET /~busaco/ HTTP/1.0" 200 1907 "-" "Mozilla/5.0 (… James BOT - WebCrawler http://cognitiveseo.com/bot.html" cereri HTTP efectuate de diverși roboți Web (menționate în fișierul de jurnalizare Apache)
  21. 21. Dr.SabinBuragawww.purl.org/net/busaco Cum putem „instrui” roboții Web să nu viziteze anumite zone ale sitului?
  22. 22. Dr.SabinBuragawww.purl.org/net/busaco Orice robot trebuie să respecte standardul de excludere
  23. 23. Dr.SabinBuragawww.purl.org/net/busaco Orice robot trebuie să respecte standardul de excludere fișierul robots.txt http://www.robotstxt.org/robotstxt.html
  24. 24. Dr.SabinBuragawww.purl.org/net/busaco Orice robot trebuie să respecte standardul de excludere fișierul robots.txt # /robots.txt pentru http://www.info.uaic.ro User-agent: * # toți roboții Crawl-delay: 20 # 20 sec. între cereri Disallow: /tmp/ # date temporare Disallow: /xwiki/bin/xmlrpc/ # director privat
  25. 25. Dr.SabinBuragawww.purl.org/net/busaco de studiat câteva exemple reale de fișiere robots.txt: http://www.amazon.com/robots.txt http://facebook.com/robots.txt http://www.emag.ro/robots.txt http://www.google.com/robots.txt User-agent: * Disallow: /user/* Disallow: /addtocart* Disallow: /proces_comanda Disallow: /cart$ Disallow: /checkout Disallow: /imagini/* Disallow: /images/* Disallow: /compare/* Disallow: /mesaje Disallow: /cat-*/pid-*/ord-*/p-* Disallow: /adauga-review Disallow: /adauga-intrebare Disallow: /header-cart Disallow: /header-wl Disallow: /product_get_recommandations/* Disallow: /widgets/track.json Disallow: /get_back_to_search_url Disallow: /search-tools/* Disallow: /ajax_live_products Disallow: /box_user_history Disallow: /gr_box_bottom_landing/* Disallow: /site_ajax_ads User-agent: 008 Disallow: /
  26. 26. Dr.SabinBuragawww.purl.org/net/busaco Orice robot trebuie să respecte standardul de excludere evitarea indexării conținutului: <meta name="robots" content="noindex, nofollow" />
  27. 27. Dr.SabinBuragawww.purl.org/net/busaco Ce activități realizează un motor de căutare?
  28. 28. Dr.SabinBuragawww.purl.org/net/busaco Scop: localizarea resurselor existente pe Web
  29. 29. Dr.SabinBuragawww.purl.org/net/busaco Tipuri de căutări – maniera tradițională: pe bază de indecși (crawling & indexing) Lycos – 1994 AltaVista – 1995
  30. 30. Dr.SabinBuragawww.purl.org/net/busaco Tipuri de căutări – maniera tradițională: pe baza ierarhiilor de termeni (servicii de tip catalog – topic directory, taxonomii) Yahoo! – Yet Another Hierarchical Officious Oracle 1994
  31. 31. Dr.SabinBuragawww.purl.org/net/busaco Tipuri de căutări – maniera tradițională: hibride indecși + taxonomiiportal Web Excite – 1994
  32. 32. Dr.SabinBuragawww.purl.org/net/busaco Tipuri de căutări – maniera tradițională: pe baza legăturilor hipertext (hyperlink analysis) Google – 1996
  33. 33. Dr.SabinBuragawww.purl.org/net/busaco Tipuri de căutări – maniera modernă: pe baza datelor structurate (determinare și extragere de meta-date și concepte) Microsoft Satori Entity Engine Google Knowledge Graph/Vault
  34. 34. Dr.SabinBuragawww.purl.org/net/busaco Un motor de căutare trebuie să satisfacă nevoia de informații a utilizatorului (user information-seeking)
  35. 35. Dr.SabinBuragawww.purl.org/net/busaco Preluarea + indexarea resurselor se pot realiza: automat – via roboți Web manual – recurgând la experți umani hibrid
  36. 36. Dr.SabinBuragawww.purl.org/net/busaco Preluarea și indexarea resurselor strategii: natura datelor/relațiilor (data/relation mining) detectarea subiectului conținutului (topic distillation) meta-date – date descriind date (e.g., doar însemnări ca replici la alte mesaje) căutare socială (tag-uri, anturaj, aplicații Web sociale) context (e.g., localizare geografică, timp, dispozitiv) profil al utilizatorului (e.g., istoric al căutărilor, preferințe lingvistice)
  37. 37. Dr.SabinBuragawww.purl.org/net/busaco Caracteristici ale unui motor de căutare ideal scop căutarea oricărei resurse existente
  38. 38. Dr.SabinBuragawww.purl.org/net/busaco Caracteristici ale unui motor de căutare ideal viteză rezultatele să fie disponibile imediat direcție de interes major: real-time Web search
  39. 39. Dr.SabinBuragawww.purl.org/net/busaco Caracteristici ale unui motor de căutare ideal disponibilitate actualizarea permanentă (orice modificare să fie indexată „instantaneu”)
  40. 40. Dr.SabinBuragawww.purl.org/net/busaco Caracteristici ale unui motor de căutare ideal recall găsirea tuturor resurselor relevante pentru o cerere dată
  41. 41. Dr.SabinBuragawww.purl.org/net/busaco Caracteristici ale unui motor de căutare ideal precizie rezultatul conține doar documente relevante
  42. 42. Dr.SabinBuragawww.purl.org/net/busaco Caracteristici ale unui motor de căutare ideal ranking cele mai relevante documente sunt plasate primele
  43. 43. Dr.SabinBuragawww.purl.org/net/busaco Care sunt principalele componente ale unui motor de căutare?
  44. 44. Dr.SabinBuragawww.purl.org/net/busaco Robot Web extrage informații Index (catalog) stochează – în mod persistent – (meta)date despre resursele existente pe Web Mecanism de evaluare (ranking) pe baza cererii utilizatorului, oferă răspunsuri
  45. 45. Dr.SabinBuragawww.purl.org/net/busaco Diferențele dintre motoarele de căutare actuale sunt date de fiecare componentă în parte
  46. 46. Dr.SabinBuragawww.purl.org/net/busaco structura generică a unui motor de căutare (Chakrabarti, 2003)
  47. 47. Dr.SabinBuragawww.purl.org/net/busaco motoare: căutarea Activitatea generală a unui robot (crawler) simplu: F = mulțimea de URL-uri de start (frontiera) cât-timp F este nevidă extrage un URL u din F preia pagina (resursa Web) p cu adresa u dacă p este relevantă stochează p în index pentru-fiecare legătură v din p dacă v nu este în index și v nu aparține lui F și v ar putea fi vizitată adaugă v la F
  48. 48. Dr.SabinBuragawww.purl.org/net/busaco motoare: căutarea Bazată pe învățare data mining (de exemplu, reinforcement learning) vezi materia „Învățare automată”
  49. 49. Dr.SabinBuragawww.purl.org/net/busaco motoare: căutarea Conținutul ce trebuie indexat nu e doar textual hiper-informația: INFORMATION = HYPERINFO + TEXTINFO dependența de legături ordonarea legăturilor (alegerea unor criterii vizând importanța)
  50. 50. Dr.SabinBuragawww.purl.org/net/busaco motoare: căutarea Robotul/motorul de căutare decide momentul revizitării resursei care urmează a fi reindexată sau doar verificată
  51. 51. Dr.SabinBuragawww.purl.org/net/busaco motoare: căutarea Aspect de interes: rezoluția adreselor Web (nume de domeniiadrese IP) DNS caching, pre-fetching & resolution
  52. 52. Dr.SabinBuragawww.purl.org/net/busaco motoare: căutarea Aspect de interes: realizarea cererilor concurente
  53. 53. Dr.SabinBuragawww.purl.org/net/busaco motoare: căutarea Aspect de interes: extragerea legăturilor e.g., normalizarea URI-urilor: www.InfoIasi.Ro:80www.info.uaic.ro
  54. 54. Dr.SabinBuragawww.purl.org/net/busaco motoare: căutarea Aspect de interes: eliminarea adreselor deja vizitate evitarea „găurilor negre”
  55. 55. Dr.SabinBuragawww.purl.org/net/busaco motoare: căutarea Aspect de interes: monitorizarea accesărilor load monitoring + managing (evitarea supra-solicitării serverelor Web)
  56. 56. Dr.SabinBuragawww.purl.org/net/busaco motoare: căutarea Aspect de interes: strategii de revizitare/reîmprospătare a conținutului resurselor Web
  57. 57. Dr.SabinBuragawww.purl.org/net/busaco motoare: indexarea Necesitatea folosirii sistemelor de baze de date depozit distribuit de stocare (eventual, în cloud) optimizarea regăsirii
  58. 58. Dr.SabinBuragawww.purl.org/net/busaco motoare: indexarea Necesitatea folosirii sistemelor de baze de date depozit distribuit de stocare (eventual, în cloud) optimizarea regăsirii modele non-relaționale de stocare – „mișcarea” NoSQL printre primele abordări: BigTable (Chang et al., 2006) http://labs.google.com/papers/bigtable.html
  59. 59. Dr.SabinBuragawww.purl.org/net/busaco motoare: indexarea Necesitatea folosirii sistemelor de baze de date depozit distribuit de stocare (eventual, în cloud) arhivarea datelor indexate e.g., recurgerea la algoritmul de compresie bzip2 (cazul Google)
  60. 60. Dr.SabinBuragawww.purl.org/net/busaco Cum se realizează indexarea?
  61. 61. Dr.SabinBuragawww.purl.org/net/busaco motoare: indexarea Utilizarea nu doar a datelor propriu-zise (conținutului textual), ci și a meta-datelor e.g., limbă, cuvinte-cheie, autor, format, data ultimei actualizări,…
  62. 62. Dr.SabinBuragawww.purl.org/net/busaco motoare: indexarea Indexare bazată pe cuvinte-cheie relevanță, plasament, meta-date, data mining, procesarea limbajului natural,... versus indexare semantică – bazată pe concepte social tagging (folksonomy), microformate, microdate HTML5, Web semantic (RDF, RDFa),...
  63. 63. Dr.SabinBuragawww.purl.org/net/busaco motoare: indexarea O importanță mare o au: maniera de structurare a informației și „relația” unei pagini cu altele înrudite
  64. 64. Dr.SabinBuragawww.purl.org/net/busaco motoare: interogarea Cererile sunt formulate via o interfață Web
  65. 65. Dr.SabinBuragawww.purl.org/net/busaco motoare: interogarea Cererile sunt formulate via o interfață Web unele motoare de căutare acceptă folosirea unor operatori specifici
  66. 66. Dr.SabinBuragawww.purl.org/net/busaco motoare: interogarea Cererile sunt formulate via o interfață Web exemplificare: o parte dintre operatorii Google "expresie" ~termen –termen numar1 .. numar2 related: URL cache: URL intitle: termen(i) intext: termen(i) inurl: termen(i) link: URL site: domeniu info: domeniu define: termen filetype: extensie unit1 in unit2 detalii la www.googleguide.com/advanced_operators_reference.html
  67. 67. Dr.SabinBuragawww.purl.org/net/busaco motoare: interogarea digital camera $700 .. 1400 ~book intitle:design –intitle:web "burse de merit" site:uaic.ro inurl: art nouveau allinurl: js library 16 cm in inch related:www.w3.org js mvc inanchor:slideshare define:design cache:http://devdocs.io/ map:predeal firefox filetype:svg OR filetype:png
  68. 68. Dr.SabinBuragawww.purl.org/net/busaco motoare: interogarea Interogările din prisma utilizatorului: grad mare de subiectivitate e.g., “miserable failure”
  69. 69. Dr.SabinBuragawww.purl.org/net/busaco motoare: interogarea Interogările din prisma utilizatorului: depind de contextul social/cultural exemple: “pants” în UK versus US “madonna and child”
  70. 70. Dr.SabinBuragawww.purl.org/net/busaco motoare: interogarea Interogările din prisma utilizatorului: dependente de scop informațional (listă, locație, sfat) navigațional vizând accesarea resurselor (download, amuzament, interactivitate,…)
  71. 71. Dr.SabinBuragawww.purl.org/net/busaco motoare: interogarea Remarci: utilizatorii obișnuiți nu înțeleg limbajul logic – „booleana” exemplu: “hotels located in Bucharest and Iasi”
  72. 72. Dr.SabinBuragawww.purl.org/net/busaco motoare: interogarea Remarci: interogările uzual sunt scurte (media: 2,6 cuvinte), dar focalizate – e.g., 25% pe business (conform Yahoo!) vezi și http://labs.yahoo.com/publication/?area=web-mining-search
  73. 73. Dr.SabinBuragawww.purl.org/net/busaco motoare: interogarea Remarci: apar confuzii: URI vs. text, lipsa spațiilor, vocabular etc.
  74. 74. Dr.SabinBuragawww.purl.org/net/busaco Remarci: implicit, termenii de căutare trebuie să se regăsească identic în cadrul conținutului unui document Web e.g., căutând “children”, nu vom obține neapărat și paginile care includ “kids” motoare: interogarea
  75. 75. Dr.SabinBuragawww.purl.org/net/busaco motoare: interogarea Interogări formulate în limbaj natural: eliminarea ambiguităților (dezambiguizarea) filtrarea cuvintelor nerelevante expandarea interogării: sinonime, forme derivate,…
  76. 76. Dr.SabinBuragawww.purl.org/net/busaco motoare: interogarea Evaluarea cererii – schema generală: 1. Analizarea interogării (tokenizing) 2. Căutarea în indecșii termenilor 3. Scanarea documentelor 4. Evaluarea relevanței paginilor 5. Eliminarea duplicatelor + sortarea 6. Afișarea primelor N documente relevante (URI + alte informații)
  77. 77. Dr.SabinBuragawww.purl.org/net/busaco motoare: interogarea Conținutul fiecărui document extras este analizat și divizat în token-uri
  78. 78. Dr.SabinBuragawww.purl.org/net/busaco motoare: interogarea Unele construcții se ignoră/constrâng e.g., “the”, “is”/“are”/“were” → “be”, “running” → “run” procesare de bază a conținutului textual
  79. 79. Dr.SabinBuragawww.purl.org/net/busaco motoare: interogarea Fiecărui token i se reține și poziția apariției în document poziția poate fi folosită la determinarea relevanței termenului
  80. 80. Dr.SabinBuragawww.purl.org/net/busaco motoare: interogarea Criterii vizând calculul relevanței: ranking bazat pe clasificare umană resurse clasificate de oameni
  81. 81. Dr.SabinBuragawww.purl.org/net/busaco motoare: interogarea Criterii vizând calculul relevanței: ranking bazat pe informații privitoare la utilizarea unei resurse timpul de vizită, periodicitatea vizitei, frecvența actualizării resursei, importanța relativă etc.
  82. 82. Dr.SabinBuragawww.purl.org/net/busaco motoare: interogarea Criterii vizând calculul relevanței: ranking bazat pe conectivitate analiza relațiilor (legăturilor hipertext) cu alte pagini eventual, în funcție de reputație e.g., importanța domeniului Internet (sunt luați în calcul factori ca vechimea, localizarea,…)
  83. 83. Dr.SabinBuragawww.purl.org/net/busaco motoare: interogarea Calculul relevanței: tehnici privind IR (Information Retrieval) căutări bazate pe similaritate – similarity search recurgând la învățare automată (machine learning) clasificarea conținutului hipermedia social network analysis – bibliometrie, prestigiu,…
  84. 84. Dr.SabinBuragawww.purl.org/net/busaco motoare: interogarea Page Rank (Google) evaluarea relevanței pe baza contextului de apariție
  85. 85. Dr.SabinBuragawww.purl.org/net/busaco motoare: interogarea Page Rank (Google) exploatarea relațiilor dintre diferite pagini Web www.google.com/insidesearch/howsearchworks/algorithms.html
  86. 86. Dr.SabinBuragawww.purl.org/net/busaco motoare: interogarea Page Rank (Google) recurgerea la tehnici adaptive, euristice
  87. 87. Dr.SabinBuragawww.purl.org/net/busaco motoare: interogarea Page Rank (Google) determinarea corelației dintre relevanța calculată automat de sistem și cea precizată (in)direct de către utilizator
  88. 88. Dr.SabinBuragawww.purl.org/net/busaco motoare: interogarea Page Rank (Google) (Larry Page & Sergey Brin, 1996 – doctorat la Stanford) se baza inițial pe structura hipertext o legătură de la pagina A la B reprezintă un vot dat paginii B de către A cu cât un sit este mai important, cu atât page rank-ul asociat lui e mai mare
  89. 89. Dr.SabinBuragawww.purl.org/net/busaco motoare: interogarea Alternative la Page Rank: TrustRank (Friesen, 2007) folosește domenii Web de încredere selectate de oameni
  90. 90. Dr.SabinBuragawww.purl.org/net/busaco motoare: interogarea Alternative la Page Rank: TrustRank (Friesen, 2007) cu cât un sit e mai aproape (în termeni de legături Web) de siturile evaluate și considerate de încredere de către oameni, cu atât va avea o importanță mai mare vizează un sit (domeniu), nu o pagină Web
  91. 91. Dr.SabinBuragawww.purl.org/net/busaco motoare: interogarea Alternative la Page Rank: utilizarea tehnologiilor Web-ului semantic se iau în considerație concepte (cunoștințe), nu cuvinte “things, not strings” de vizionat prezentarea M. Lanthaler, “The Future of the Web – From Strings to Things” (2015) – https://vimeo.com/133137907
  92. 92. Dr.SabinBuragawww.purl.org/net/busaco timp strategie înainte de 2000 conținut – indexarea textului (titlu, anteturi, URL, descriere via <meta>) 2000—2010 conținut autoritate (via legături) 2010— prezent conținut autoritate personalizare (social media + profil utiliz.) 2012— prezent conținut autoritate personalizare concepte (date-structurate + Web of data) context (localizare, timp, dispozitiv,…) adaptare după (K. Bodnar & J. Hopkins, 2011) a se studia și www.slideshare.net/randfish/presentations
  93. 93. Dr.SabinBuragawww.purl.org/net/busaco generale Bing, DuckDuckGo, Google, Yahoo!, Volunia,… regionale Baidu (China), Daum (Coreea), Goo (Japonia), Guruji (India), Rambler (Rusia) etc. meta-căutare Dogpile, Excite, Mamma, Yippy enterprise search Apache Solr, ElasticSearch, OpenSearchServer,… răspunsuri (answer-based) umane: Stack Overflow, Yahoo! Answers, Quora automate: AskMeNow, Evi, Wolfram Alpha news search BingNews, Daylife, Topix, Yahoo! News,… hărți (maps) Nokia HERE, OpenStreetMap, WikiMapia etc. cod-sursă Google Code Search, Koders, Krugle căutare pe baza P2P FAROO, Seeks, YaCy desktop search DocFetcher, Recoll, Tropes Zoom pentru dezvoltatori: Apache Lucene, Apache Nutch, mnoGoSearch, Namazu, Xapian,… API-uri: www.programmableweb.com/category/search
  94. 94. Dr.SabinBuragawww.purl.org/net/busaco Motoarele tind să „recompenseze” siturile: de mari dimensiuni cu viață lungă specializate, de „nișă” aparținând unor autorități de încredere motoare: interogarea
  95. 95. Dr.SabinBuragawww.purl.org/net/busaco SERP (Search Engine Result Page) specifică maniera de redare a rezultatelor oferite de motorul de căutare motoare: afișarea rezultatelor
  96. 96. Dr.SabinBuragawww.purl.org/net/busaco SERP (Search Engine Result Page) se includ recomandări pe baza: preferințelor utilizatorului istoricului căutărilor URL-urilor partajate via rețele sociale meta-datelor (rich snippets) adnotărilor realizate de utilizatori localizării geografice (local search) motoare: afișarea rezultatelor
  97. 97. Dr.SabinBuragawww.purl.org/net/busaco “At any one time you rank #1 or #8 or #40 based on who is searching, where they search, and what is happening.” K. Bodnar & J. Hopkins, 2011
  98. 98. Dr.SabinBuragawww.purl.org/net/busaco (în loc de) pauză
  99. 99. Dr.SabinBuragawww.purl.org/net/busaco Cum putem proiecta mijloacele de căutare internă?
  100. 100. Dr.SabinBuragawww.purl.org/net/busaco Motor de căutare internă (la nivel de sit) oferirea de sugestii utilizatorului e.g., spelling suggestions, sinonime (car → automobile, truck,…)
  101. 101. Dr.SabinBuragawww.purl.org/net/busaco Motor de căutare internă (la nivel de sit) sugestii de soluții de exemplu, răspunsuri la cele mai frecvente întrebări
  102. 102. Dr.SabinBuragawww.purl.org/net/busaco Motor de căutare internă (la nivel de sit) îmbunătățirea interacțiunii – utilizabilitatea integrarea în designul general al sitului tactici: oferirea unui următor pas de realizat (mai ales când nu există rezultate), sugestii privind căutarea, exemple, rafinarea cererii etc.
  103. 103. Dr.SabinBuragawww.purl.org/net/busaco Motor de căutare internă (la nivel de sit) în pagina de redare a rezultatelor, va fi afișată și interogarea inițială, cu posibilitatea modificării ei oferirea a cel puțin N rezultate/pagină + indicarea numărului total de pagini de rezultate sau încărcarea progresivă a următoarelor rezultate
  104. 104. Dr.SabinBuragawww.purl.org/net/busaco Motor de căutare internă (la nivel de sit) calitatea rezultatelor oferite e dependentă și de modul de structurare a datelor fiecare rezultat să includă informații utile folosirea unui vocabular înțeles de către vizitator, utilizarea unor tehnici de vizualizare intuitivă, facilitarea filtrării și sortării datelor etc.
  105. 105. Dr.SabinBuragawww.purl.org/net/busaco
  106. 106. Dr.SabinBuragawww.purl.org/net/busaco Motor de căutare internă (la nivel de sit) utilizatorul să aibă libertatea de a efectua oricând o nouă interogare evitarea „fundăturilor” – oferirea de ajutor, sugestii,…
  107. 107. Dr.SabinBuragawww.purl.org/net/busaco Cum trebuie scris codul HTML pentru a obține o relevanță bună a conținutului?
  108. 108. Dr.SabinBuragawww.purl.org/net/busaco SEO – Search Engine Optimization suită de strategii de redactare a codului HTML în vederea obținerii unei relevanțe ridicate a conținutului, astfel încât pagina/situl să fie regăsite în urma unei căutări specifice efectuate cu un instrument de căutare
  109. 109. Dr.SabinBuragawww.purl.org/net/busaco Structurarea codului-sursă a documentelor Web Structurarea conținutului Structurarea legăturilor cu alte pagini
  110. 110. Dr.SabinBuragawww.purl.org/net/busaco Structurarea codului-sursă – SEO la nivel de pagină documentul trebuie să fie bine-formatat
  111. 111. Dr.SabinBuragawww.purl.org/net/busaco Structurarea codului-sursă – SEO la nivel de pagină includerea de meta-date: în antet – elementul <meta /> conținut textual alternativ pentru imagini (<img alt="..." />), multimedia, legături (<a title="...">), tabele (<table summary="...">) etc. atașarea de meta-date externe via elementul <link />
  112. 112. Dr.SabinBuragawww.purl.org/net/busaco Structurarea codului-sursă – SEO la nivel de pagină a nu se folosi: cadre (frame-uri) sau elemente învechite sau proprietare (e.g., <blink> ori <marquee>)
  113. 113. Dr.SabinBuragawww.purl.org/net/busaco Structurarea codului-sursă – SEO la nivel de pagină conținutul primează (“content is king”) alegerea judicioasă a cuvintelor-cheie în <meta> criterii: relevanță, densitate, internaționalizare o importanță majoră o are titlul paginii
  114. 114. Dr.SabinBuragawww.purl.org/net/busaco Structurarea codului-sursă – SEO la nivel de pagină situl trebuie actualizat periodic, frecvent un criteriu important: timpul de încărcare despre performanța aplicațiilor Web într-un curs viitor
  115. 115. Dr.SabinBuragawww.purl.org/net/busaco Structurarea conținutului codul trebuie structurat conform semnificației logice POSH (Plain Old Semantic HTML)
  116. 116. Dr.SabinBuragawww.purl.org/net/busaco Structurarea conținutului conținutul relavant trebuie plasat ierarhic via <h1>, <h2>,... pentru HTML5, de utilizat noile elemente vizând structura: <article>, <header>, <footer>, <nav> etc. layout bazat pe CSS și nu pe marcaje tabelare
  117. 117. Dr.SabinBuragawww.purl.org/net/busaco Structurarea conținutului conținuturile multimedia binare trebuie să aibă alternative textuale anumite date pot fi „ascunse” de roboți via robots.txt
  118. 118. Dr.SabinBuragawww.purl.org/net/busaco Structurarea conținutului numele fișierelor (imagini, stiluri,…) contează  human friendly URLs
  119. 119. Dr.SabinBuragawww.purl.org/net/busaco Structurarea legăturilor – SEO la nivel de sit obligatoriu, de inclus legături spre alte pagini (ale sitului ori ale altor situri)
  120. 120. Dr.SabinBuragawww.purl.org/net/busaco Structurarea legăturilor – SEO la nivel de sit dorim legături spre/de la situri importante având conținut similar cu situl nostru tehnici clasice (considerate „demodate”): interschimb de link-uri – banner-e, blogroll-uri, marketing bazat pe context
  121. 121. Dr.SabinBuragawww.purl.org/net/busaco Structurarea legăturilor – SEO la nivel de sit dorim legături spre/de la situri importante având conținut similar cu situl nostru recurgerea la aplicații Web sociale  SMO (Social Media Optimization)
  122. 122. Dr.SabinBuragawww.purl.org/net/busaco Structurarea legăturilor – SEO la nivel de sit de verificat și menținut structura hipertext!
  123. 123. Dr.SabinBuragawww.purl.org/net/busaco Structurarea legăturilor – SEO la nivel de sit a se evita spam-ul e.g., legături încrucișate între pagini similare ale aceluiași sit Web ori ale unei colecții de situri Motoarele de căutare detectează + penalizează spam-ul! http://searchenginewatch.com/search?query=spam
  124. 124. Dr.SabinBuragawww.purl.org/net/busaco Utilizarea elementului <meta> descrierea paginii – description cuvintele-cheie – keywords controlul roboților Web – robots alte informații de interes: tipul conținutului, relația cu alte pagini,… seo: strategii
  125. 125. Dr.SabinBuragawww.purl.org/net/busaco Paginile de „acoperire” (page cloaking) scop: oferirea de conținut diferit, în funcție de un anumit criteriu (aici, conținut special pentru roboții de căutare) seo: strategii
  126. 126. Dr.SabinBuragawww.purl.org/net/busaco black-hat page cloaking tehnică penalizată de Google: http://youtu.be/QHtnfOgp65Q seo: strategii
  127. 127. Dr.SabinBuragawww.purl.org/net/busaco „Estetica” URL-urilor distincția dintre conținutul static și cel dinamic (componenta query_string de la finalul unui URL) detectarea simbolurilor “?” și “&” doc.php?var=sda4312&var2=643f545342 seo: strategii
  128. 128. Dr.SabinBuragawww.purl.org/net/busaco „Estetica” URL-urilor indexarea conținutului dinamic poate fi limitată ori poate fi realizată mult mai lent numele variabilelor transmise via GET trebuie să aibă o anumită semnificație seo: strategii
  129. 129. Dr.SabinBuragawww.purl.org/net/busaco „Estetica” URL-urilor evitarea numerelor de sesiune (SID) din URL uzual, roboții ignoră cookie-urile seo: strategii
  130. 130. Dr.SabinBuragawww.purl.org/net/busaco „Estetica” URL-urilor evitarea numerelor de sesiune (SID) din URL la nivel de server Web, se poate activa rescrierea URL-urilor – e.g., utilizarea mod_rewrite la Apache la nivel de server de aplicații, inhibarea transferului SID-ului prin URL (PHP: php_flag sesssion.use_trans_sid off) seo: strategii
  131. 131. Dr.SabinBuragawww.purl.org/net/busaco „Estetica” URL-urilor „mascarea” URL-urilor oferind conținut dinamic exemplificare: www.penguin.info/species/tux.html – pare static www.penguin.info/species.php?type=tux – în realitate seo: strategii
  132. 132. Dr.SabinBuragawww.purl.org/net/busaco Rezultatul returnat clientului de evitat paginile de eroare – e.g., 404 orice pagină de eroare poate fi convertită într-o resursă folositoare omului/robotului exemple: harta sitului, legături relevante,… seo: strategii
  133. 133. Dr.SabinBuragawww.purl.org/net/busaco Rezultatul returnat clientului se folosesc facilitățile oferite de serverul Web pentru specificarea de pagini proprii de eroare e.g., directiva ErrorDocument la Apache seo: strategii
  134. 134. Dr.SabinBuragawww.purl.org/net/busaco Navigarea bazată pe interacțiunea cu utilizatorul legături spre alte resurse realizate exclusiv via Javascript ori – mai desuet – cu Flash sau Silverlight <p>informații despre burse <a href="javascript:sari(1);">aici</a></p> de evitat greșit!
  135. 135. Dr.SabinBuragawww.purl.org/net/busaco Oferirea de conținut via documente adoptând formate de date nestandardizate de evitat
  136. 136. Dr.SabinBuragawww.purl.org/net/busaco Titluri identice pentru toate paginile unui sit de evitat
  137. 137. Dr.SabinBuragawww.purl.org/net/busaco Pagini de eroare care sunt oferite de server via codul de stare HTTP 200 Ok de evitat
  138. 138. Dr.SabinBuragawww.purl.org/net/busaco Redirecționări incorecte și/sau abuzive de evitat
  139. 139. Dr.SabinBuragawww.purl.org/net/busaco Ignorarea utilizatorilor cu nevoi speciale web accessibility http://webaim.org/ de evitat
  140. 140. Dr.SabinBuragawww.purl.org/net/busaco Abuzul de transferuri asincrone prin Ajax de evitat
  141. 141. Dr.SabinBuragawww.purl.org/net/busaco Crearea documentului sitemap.xml pentru a-l expedia la Google Sitemaps complementar fișierului robots.txt furnizează structura hipertext a unui sit Web formate acceptate: text obișnuit, XML, RSS, Atom detalii la http://sitemaps.org/ seo: instrumente
  142. 142. Dr.SabinBuragawww.purl.org/net/busaco Resurse de interes: Google Webmaster Central https://developers.google.com/webmasters/ Learn SEO and Search Marketing https://moz.com/learn/seo Search Engine Land http://searchengineland.com/ Search Engine Watch http://searchenginewatch.com/ Search Engines @ VideoLectures http://videolectures.net/Top/Computer_Science/Search_Engines
  143. 143. Dr.SabinBuragawww.purl.org/net/busaco Invisible Web (Deep Web) acea parte a spațiului World Wide Web care nu este detectată de motoarele de căutare sau de alte tipuri de aplicații de regăsire a resurselor disponibile pe Web
  144. 144. Dr.SabinBuragawww.purl.org/net/busaco Cum am putea descrie conținutul resurselor Web astfel încât să poată fi procesat „inteligent”?
  145. 145. Dr.SabinBuragawww.purl.org/net/busaco Idee: specificarea unor meta-date (date privind datele) direct în cadrul documentelor HTML
  146. 146. Dr.SabinBuragawww.purl.org/net/busaco Idee: specificarea unor meta-date (date privind datele) direct în cadrul documentelor HTML microformate scheme de microdate HTML5 RDFa la master
  147. 147. Dr.SabinBuragawww.purl.org/net/busaco Microformate (Tantek Çelik & Kevin Marks, 2004) www.microformats.org
  148. 148. Dr.SabinBuragawww.purl.org/net/busaco Microformate utilizarea de marcaje (X)HTML pentru a desemna semantica și/sau structura conținutului „curentul” POSH (Plain Old Semantic HTML)
  149. 149. Dr.SabinBuragawww.purl.org/net/busaco Microformate reutilizarea unor vocabulare de termeni, disponibile liber și standardizate
  150. 150. Dr.SabinBuragawww.purl.org/net/busaco Microformate reutilizarea unor vocabulare de termeni, disponibile liber și standardizate realizarea de adnotări semantice direct în HTML și alte limbaje similare prelucrare mai facilă a reprezentărilor resurselor
  151. 151. Dr.SabinBuragawww.purl.org/net/busaco marcaje HTML (<div>, <span>) pentru specificarea datelor & structurii lor „clase” CSS pentru prezentare și asocierea de descrieri ale meta-datelor structurarea paginilor Web: precizarea înțelesului (semanticii) conținutului
  152. 152. Dr.SabinBuragawww.purl.org/net/busaco Microformate elementare – desemnează o caracteristică unică + compuse – specifică mai multe proprietăți care modelează un aspect de interes – e.g., un concept (entitate): persoană, eveniment,…
  153. 153. Dr.SabinBuragawww.purl.org/net/busaco rel-tag asociază unei legături hipertext un termen (tag) – cuvânt-cheie ori subiect – ales liber de autor (tagging content)
  154. 154. Dr.SabinBuragawww.purl.org/net/busaco rel-tag <p>Tutorial despre <a href="http://www.slideshare.net/tag/web" rel="tag">www</a>.</p> <p>Expertiză: <a href="http://en.wikipedia.com/wiki/Unix" rel="tag" class="skill">UNIX</a>.</p> <a href="http://flickr.com/photos/tags/Penguin" rel="tag"> <img src="tux.jpg" alt="Foto cu un pinguin" /></a>
  155. 155. Dr.SabinBuragawww.purl.org/net/busaco XFN (XHTML Friend Network) relații între „prieteni”: colaboratori, rude, cunoscuți,… <a href="http://www.infoiasi.ro/~dlucanu/" rel="met, colleague, co-worker, neighbor"> Dorel Lucanu</a>
  156. 156. Dr.SabinBuragawww.purl.org/net/busaco recurgerea la XFN în cadrul sistemului WordPress
  157. 157. Dr.SabinBuragawww.purl.org/net/busaco hCalendar desemnează evenimente și orare vezi formatul iCalendar – RFC 5545 https://tools.ietf.org/html/rfc5545
  158. 158. Dr.SabinBuragawww.purl.org/net/busaco hCalendar <div class="vevent"> <a class="url" href="http://tinyurl.com/cliw-seo" <abbr class="dtstart" title="20151109">9 noiembrie 2015</abbr> -- <abbr class="dtend" title="20160110">10 ianuarie 2016</abbr> <span class="summary">Concurs SEO @ CLIW</span> la <span class="location">FII, UAIC Iași</span></a> <div class="description">Un concurs vizând SEO pentru articole referitoare la biblioteci JavaScript</div> </div>
  159. 159. Dr.SabinBuragawww.purl.org/net/busaco hCard informații de contact despre persoane, organizații etc. în conformitate cu formatul vCard – RFC 6350, 6868 https://tools.ietf.org/html/rfc6350
  160. 160. Dr.SabinBuragawww.purl.org/net/busaco specificarea informațiilor despre o persoană via hCard
  161. 161. Dr.SabinBuragawww.purl.org/net/busaco hResume modelează informații despre un CV folosit în conjuncție cu hCard și hCalendar
  162. 162. Dr.SabinBuragawww.purl.org/net/busaco hReview desemnează opinii emise despre „ceva” – o entitate (produs, locație, eveniment, persoană,…)
  163. 163. Dr.SabinBuragawww.purl.org/net/busaco <div class="hreview"> <!-- resursa recenzată --> <h1 class="item">Recenzie despre <a class="fn url" title="Situl FII" href="http://www.info.uaic.ro/">situl Web al FII</a></h1> <p> <!-- 'punctajul' obținut (5 din 5), sumarul & data recenziei --> <abbr class="rating stars" title="5">* * * * *</abbr> <span class="summary title">Modern</span>, <abbr class="dtreviewed" title="2010-05-18T22:45:00">18 mai</abbr> </p> <!-- autorul recenziei marcat prin hCard --> <p class="reviewer">Autor al recenziei: <span class="vcard"> <a class="url fn n" href="http://www.purl.org/net/busaco" title="Spre situl Web al lui Sabin Buraga"> <span class="given-name">Sabin</span> <span class="family-name">Buraga</span></a></span></p> <div class="description"> <!-- detalii despre recenzie --> </div> </div>
  164. 164. Dr.SabinBuragawww.purl.org/net/busaco
  165. 165. Dr.SabinBuragawww.purl.org/net/busaco Microformate 2 simplifică maniera de specificare (2012) http://microformats.org/wiki/microformats2
  166. 166. Dr.SabinBuragawww.purl.org/net/busaco Microformate 2 vocabularele sunt definite pe baza unor prefixe h- includerea unui microformat p- specificarea unei proprietăți simple u- desemnarea unui URL dt- definirea de valori privind data & timpul e- specificarea de proprietăți compuse
  167. 167. Dr.SabinBuragawww.purl.org/net/busaco <div class="h-card vcard"> <img src="/content/content_about-experts/brendaneich.jpg" alt="Brendan Eich"> <h5><a href="http://brendaneich.com/" class="p-name fn u-url url">Brendan Eich</a></h5> <p class="p-note note"> Created JavaScript, co-founded the mozilla.org project…</p> <span class="p-category category">Technology</span> </div> exemplu de utilizare a microformatului hCard (în ambele versiuni)
  168. 168. Dr.SabinBuragawww.purl.org/net/busaco Microformate 2 vocabulare predefinite – unele în stadiu de ciornă: h-adr h-card h-entry h-event h-geo h-item h-product h-recipe h-resume h-review h-review-aggregate
  169. 169. Dr.SabinBuragawww.purl.org/net/busaco <!-- specificarea unui eveniment via microformate versiunea 2 --> <section class="h-event"> <a class="p-name u-url" href="http://tinyurl.com/cliw-seo"> Concurs SEO @ CLIW</a> de la <time class="dt-start">2015-11-09</time> până la <time class="dt-end">2016-01-10</time>, fiind organizat la <span class="p-location h-card"> <a class="p-name p-org u-url" href="http://www.info.uaic.ro/"> Facultatea de Informatică</a>, <span class="p-street-address">Strada Berthelot, 16</span>, <span class="p-locality">Iași</span>, <abbr class="p-region" title="Iași">IS</abbr> </span> </section>
  170. 170. Dr.SabinBuragawww.purl.org/net/busaco microformate: utilizări …și multe altele detalii la http://microformats.org/wiki/implementors Drupal Google Intel Joomla Microsoft Nature Publishing Group Six Apart TYPO3 Yahoo! XWiki
  171. 171. Dr.SabinBuragawww.purl.org/net/busaco microformate: utilizări detectarea și exportul de microformate cu extensia Operator pentru Firefox
  172. 172. Dr.SabinBuragawww.purl.org/net/busaco Microdata HTML 5 alternativă la microformate specificație W3C – Working Draft (octombrie 2013) www.w3.org/TR/microdata/ a se studia și http://html5doctor.com/microdata/
  173. 173. Dr.SabinBuragawww.purl.org/net/busaco Microdata HTML 5 posibilitatea de a specifica perechi de proprietăți (nume, valoare) „scufundate” în HTML
  174. 174. Dr.SabinBuragawww.purl.org/net/busaco Microdata HTML 5 grupurile de perechi de proprietăți nume—valoare sunt denumite items
  175. 175. Dr.SabinBuragawww.purl.org/net/busaco Microdata HTML 5 grupurile de perechi de proprietăți nume—valoare sunt denumite items creare via atributul itemscope specificarea unei proprietăți prin atributul itemprop referire cu ajutorul atributului itemref
  176. 176. Dr.SabinBuragawww.purl.org/net/busaco Microdata HTML 5 grupurile de perechi de proprietăți nume—valoare sunt denumite items asocierea unui tip de date se face cu atributul itemtype pentru identificarea unui item se folosește itemid
  177. 177. Dr.SabinBuragawww.purl.org/net/busaco Există o serie de modele de date (exprimate via microformate sau microdate) ce pot fi indexate și folosite de actualele motoare de căutare?
  178. 178. Dr.SabinBuragawww.purl.org/net/busaco schema.org colecție de vocabulare (scheme de date) – e.g., Book, Event, LocalBusiness, Movie, Offer, Person, Place, Recipe, Review, TVSeries,… – recunoscute și indexate de roboții principalelor motoare de căutare Bing, Google, Yahoo!, Yandex
  179. 179. Dr.SabinBuragawww.purl.org/net/busaco schema.org colecție de vocabulare (scheme de date) – e.g., Book, Event, LocalBusiness, Movie, Offer, Person, Place, Recipe, Review, TVSeries,… – recunoscute și indexate de roboții principalelor motoare de căutare Bing, Google, Yahoo!, Yandex amănunte la https://schema.org/docs/gs.html modele conceptuale
  180. 180. Dr.SabinBuragawww.purl.org/net/busaco a se consulta și http://www.w3.org/wiki/WebSchemas
  181. 181. Dr.SabinBuragawww.purl.org/net/busaco tipurile primare de date definite de schema.org
  182. 182. Dr.SabinBuragawww.purl.org/net/busaco diverse proprietăți ce relaționează Integer cu alte concepte
  183. 183. Dr.SabinBuragawww.purl.org/net/busaco Thing – schema cea mai generală, incluzând conceptualizări Action BroadcastService CreativeWork Event Intangible MedicalEntity Organization Person Place Product Class Property modelare de cunoștințe (via o ontologie)
  184. 184. Dr.SabinBuragawww.purl.org/net/busaco Person – modelează conceptul „persoană” http://schema.org/Person
  185. 185. Dr.SabinBuragawww.purl.org/net/busaco schema.org relațiile dintre entități sunt precizate via proprietăți
  186. 186. Dr.SabinBuragawww.purl.org/net/busaco <div lang="en" itemscope="" itemtype="http://schema.org/RealEstateAgent"> <span itemprop="name">Tuxy Unlimited</span> <div itemprop="address" itemscope="" itemtype="http://schema.org/PostalAddress"> <span itemprop="streetAddress">Banchiza, 1</span> <span itemprop="addressLocality">Iasi</span>, <span itemprop="addressRegion">Iasi</span> <span itemprop="postalCode">700550</span> </div> Phone: <span itemprop="telephone">+4032201090</span> <a href= "http://www.openstreetmap.org/way/243817200#map=18/47.17493/27.57378" itemprop="maps">Details on OpenStreetMap</a> </div> fapte vizând domeniul imobiliar …pe baza modelului conceptual schema.org
  187. 187. Dr.SabinBuragawww.purl.org/net/busaco <ul> <li> <p itemid="#busaco" itemscope="" itemtype="http://schema.org/Person"> <a href="http://www.purl.org/net/busaco" title="Spre situl Web al lui Sabin-Corneliu Buraga" itemprop="url"> <span itemprop="name"> <span itemprop="givenName">Sabin-Corneliu</span> <span itemprop="familyName">Buraga</span> </span> </a> &ndash; curs</p> </li> <li> <p itemid="#acip" itemscope="" itemtype="http://schema.org/Person"> <a href="http://ro.linkedin.com/in/ciprianamariei" title="Despre Ciprian Amariei" itemprop="url"> <span itemprop="name"> <span itemprop="givenName">Ciprian</span> <span itemprop="familyName">Amariei</span> </span></a> &ndash; laborator</p> </li> </ul> specificarea faptului: „Ciprian Amariei este o persoană”
  188. 188. Dr.SabinBuragawww.purl.org/net/busaco extragerea/verificarea de date structurate via Structured Data Testing Tool https://developers.google.com/structured-data/testing-tool/
  189. 189. Dr.SabinBuragawww.purl.org/net/busaco <section id="week6"> <h2>Săptămâna 6</h2> <ul> <li itemscope="" itemtype="http://schema.org/CreativeWork" itemid="#cliw-lecture6"> <aside class="menu">concurs: <a href="web-contest.html" title="Detalii"> SEO @ CLIW</a></aside> <p class="lecture">Curs: <a href="presentations/web06-Regasirea- resurselor-Web-SEO-Microformate-MicrodateHTML5.pdf" title="Prezentare în format PDF" itemprop="url"> <span itemprop="name">(Re)găsirea resurselor Web</span></a> </p> <div class="terms" itemprop="keywords">căutare Web, robot, motor de căutare, interogare, SEO, microformate, HTML5 microdata</div> </li> … </ul> </section> specificarea în HTML5 a lucrărilor creative de tip CreativeWork conform modelului conceptual schema.org
  190. 190. Dr.SabinBuragawww.purl.org/net/busaco extragerea informațiilor din HTML5 aici, despre prelegerile materiei CLIW
  191. 191. Dr.SabinBuragawww.purl.org/net/busaco <article itemscope="" itemtype="http://schema.org/Event"> <section id="contest"> <h2>Tema</h2> <p>Concursul este destinat studenților <span itemprop="location" itemscope="" itemtype="http://schema.org/Place"> <a href="http://www.info.uaic.ro/" itemprop="url" title="Spre situl FII> <span itemprop="name">FII</span></a> (UAIC <span itemprop="address">Iași, România</span>)</span> și constă în optimizarea conținutului și structurii unui sit Web.</p> … <p>Perioadă de desfășurare: <span itemprop="startDate" content="2015-11-09T00:00">9 noiembrie 2015 </span>—<strong><span itemprop="endDate" content="2016-01-10T16:00"> 10 ianuarie 2016</span></strong>, ora 16:00.</p> </section> … </articol> pe baza schema.org, se pot modela în HTML date vizând un eveniment (Event) și locul de desfășurare a acestuia (Place)
  192. 192. Dr.SabinBuragawww.purl.org/net/busaco date pentru „consum” uman vs. date structurate interpretate și prelucrate, ulterior, de algoritmi
  193. 193. Dr.SabinBuragawww.purl.org/net/busaco <!-- microformate (utilizarea microformatului hCard) --> <div class="vcard"> <p>Nume: <span class="fn">Sabin Buraga</span></p> <p>Titlu academic: <span class="title">Dr.</span></p> </div> <!-- microdate HTML5 --> <div itemscope itemtype="http://schema.org/Person"> <p>Nume: <span itemprop="name">Sabin Buraga</span></p> <p>Titlu academic: <span itemprop="title">Dr.</span></p> </div> microformate↔microdate adaptare după Marco Lisci & Luisa Scarlata (2011)
  194. 194. Dr.SabinBuragawww.purl.org/net/busaco Alte resurse de interes, inclusiv instrumente de validare și conversie, sunt oferite de situl Web http://getschema.org/
  195. 195. Dr.SabinBuragawww.purl.org/net/busaco Microformatele și microdatele HTML5 sunt indexate de motoarele de căutare Bing Webmaster http://tinyurl.com/b9mx2f2 Google Structured Data developers.google.com/structured-data/ Yahoo! BOSS (Build your Own Search Service) developer.yahoo.com/search/boss/ Yandex Webmaster yandex.com/support/webmaster/schema-org/
  196. 196. Dr.SabinBuragawww.purl.org/net/busaco Cum ar putea fi detectate și penalizate siturile Web care „trișează” în ceea ce privește tehnicile SEO, eventual recurgând la microformate/microdate HTML5? discuție (pentru acasă)
  197. 197. Dr.SabinBuragawww.purl.org/net/busaco Oferiți o soluție (empirică) de prevenire a spam-ului vizând documentele HTML test scris #2 (T2)
  198. 198. Dr.SabinBuragawww.purl.org/net/busaco episodul viitor: limbajul JavaScript

×