Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Jak pracují internetové vyhledávače
1. Jak pracují internetové
vyhledávače
Eliška Skočovská
5.1.2013
Masarykova univerzita Brno
Pedagogická fakulta
2. Obsah
1.1 Argumentace .......................................................................................................................... 2
1.2 Anotace .................................................................................................................................. 2
1.3 Klíčová slova ........................................................................................................................... 2
1.4 Vyhledávače versus katalogy .................................................................................................. 2
1.5 Práce vyhledávačů a proces vyhledávání ................................................................................ 3
1.5.1 Stažení obsahu z internetu ............................................................................................. 3
1.5.2 Zatřízení stažených dat ................................................................................................... 3
1.5.3 Zlepšení výsledků vyhledávání ........................................................................................ 3
1.5.4 Manipulace s výsledky .................................................................................................... 4
1
3. Obrázek 1 - Obsah dokumentu
1 Argumentace
Dnešní doba je označována jako informační a sdílení informací má čím dál větší význam v běžném
životě. V dnešní době se děti stýkají s informačními technologiemi prakticky od doby, kdy začínají
komunikovat. V nepřeberném množství dat nám nejvíce pomáhají s orientací v nich vyhledávače.
Právě pro vysokou periodicitu jejich využívání by měli být uživatelé obeznámeni se způsobem, jakým
při vyhledávání postupují, protože jim to umožní dotazovat se sofistikovaněji, a tak obdržet
relevantnější data. Proto se tato práce nazývá: „Jak pracují internetové vyhledávače“, přestože se
dotkne i souvisejících témat.
2 Anotace
Text se zabývá fulltextovými vyhledávači a vysvětluje základní principy jejich fungování od stažení
obsahu robotem přes indexaci a určení pageranku po vrácení výsledku uživateli. Dále je uvedena
zjednodušená metodika zadávání dotazů tak, aby internetový vyhledávač vrátil relevantní výsledky.
V závěru jsou nastíněny možnosti ovlivňování výsledků ze strany vydavatelů obsahu internetových
stránek.
3 Klíčová slova
Fulltextový vyhledávač, internetový katalog, indexace, zadání dotazu, klíčové slovo, SEO
4 Vyhledávače versus katalogy
Většina uživatelů na internetu příliš nerozlišuje mezi internetovými katalogy a fulltextovým
vyhledávačem.
Je důležité si uvědomit, že katalog je pouze internetová stránka na některém z portálů, v které jsou
zaregistrovány odkazy s popisem na jiné internetové stránky. Svůj obsah tedy aktivně nevyhledávají a
jsou odkázány na data, která jim poskytnou uživatelé, kteří na nich chtějí být vidět. I když katalog
obsahuje vyhledávací funkci, při vyhledávání na něm jsme omezeni daty, která jsou v nich tříděná.
Fulltextové vyhledávače naproti tomu získávají obsah všech stránek na internetu aktivně a na dotaz
vrátí uživateli odkazy na stránky, o kterých si na základě dotazu myslí, že je uživatel hledá. Obecně lze
říci, že nejvíce uživatelů na stránky přichází z vyhledávačů a do budoucna se až na nějaké
specializované oblasti bude tento rozdíl prohlubovat.
Internetové vyhledávače
2
4. o http://www.google.com
o http://www.seznam.cz
o http://www.bing.com
Internetové katalogy
o http://www.atlas.cz
o http://www.centrum.cz
o http://www.seznam.cz
o http://www.yahoo.com/
5 Práce vyhledávačů a proces vyhledávání
5.1 Stažení obsahu z internetu
První polovinou úspěchu vyhledávače je získat obsah jednotlivých stránek na internetu a to proto, že
jinak by nebylo možné, aby nám během momentu vrátil relevantní výsledky a adresy na webovou
stránku, na které se vyskytují. Aby tyto odpovědi nemusely být vyhledávány na internetu v reálném
čase, využívají vyhledávače speciální programy tzv. roboty, pavouky, či crawlery. Robot přijde na
stránku, jednoduše stáhne její obsah a ten uloží do databáze. Roboti vyhledávačů takto prochází
neustále celý internet a obsah, který má provozovatel vyhledávače uložen nepřetržitě aktualizují. Při
procházení stránek zároveň shromažďují další odkazy, které se v textu stránek nacházejí. Pokud na
nějaký odkaz robot narazí, pokusí se takovou stránku načíst a stáhnout její obsah.
5.2 Zatřídění stažených dat
Stránky, které jsou staženy, jsou posílány do skladiště (tzv. storeserveru). Stránka dostane svoje
unikátní identifikační číslo a je dále zařazena do indexu (česky rejstříku stránek). O toto zařazení se
stará tzv. indexer, který může být z tohoto pohledu považován za nejdůležitější část vyhledávače.
Následuje posloupnost činností, která stojí za úspěchem vyhledávání:
1) Dokumenty (obsah stažených stránek) jsou převáděny na slovní spojení, ke kterým jsou dále
přidány informace jako pozice v dokumentu, velikost písma, záznam o slovu.
2) Tyto záznamy (tzv. hity), jsou ukládány do barelů, a zde už jsou připraveny pro odeslání
k uživateli. Slova jsou převedena na unikátní identifikační čísla (wordID), jehož podstata je
uchovávána ve slovnících s kterými indexer spolupracuje.
3) Jednotlivým dokumentům je přiřazen takzvaný PageRank. Význam tohoto slovního spojení by
se dal do češtiny přeložit jako Věrohodnost stránky v očích vyhledávače.
Index, s kterým jsme se již v textu setkali, je databáze všech slov vyskytujících se na stránkách, která
ulehčuje vyhledávání. Vyhledávač prohledá index a v něm najde zadané slovo, pomocí jehož
identifikačního kódu dále prohledá adresy, na kterých se toto slovo vyskytuje, a nabídne ty webové
stránky, které mají nejvyšší PageRank (jsou hodnoceny nejlépe).
5.3 Zlepšení výsledků vyhledávání
Spoustu uživatelů fulltextových vyhledávačů má problém s nalezením obsahu, který požaduji. Je
nutné si uvědomit, že většinou je problém na straně vyhledávajícího, nebo spíše špatně zadaného
slovního spojení ve vyhledávači. Je ovšem nutné, uvědomit si, že vyhledávače pro vyhledávání a
hodnocení stránek používají různé algoritmy a proto se výsledky při zadání stejného slovního spojení
3
5. mohou lišit. Některá zde uvedená doporučení jsou použitelná pouze na nejrozšířenějším vyhledávači
Google.
Uživatel by se měl dotazovat přesně na to, co hledá, využívat odborných termínů.
Je lepší zadávat víceslovná spojení, která konkretizují hledané informace, např. pokud
vyhledávám ubytování v České Lípě, dostanou se relevantnější data, pokud se do vyhledávače
zadá „Penzion Česká Lípa“, než na dotaz „levné ubytování“
Pokud vím, na které stránce chci informace vyhledat, mohu ve vyhledávači Google tuto
stránku definovat pomocí site: Vyhledávací dotaz by pak tedy mohl vypadat např. „site:
www.i-noviny.cz penzion“
Ve vyhledávači Google mohu vybrat specifičtější typ hledání a zvolit například vyhledávání
obrázků, vyhledávání místa na mapě, v knihách atd. Pokud uživatel ví, že bude hledat knihu a
zvolí vyhledávání v knihách, výsledky na dotaz budou indexované knihy na Google. Nemělo
by se zapomínat, že po takovémto zúžení již nejde o plnohodnotné fulltextové vyhledávání.
Obrázek 2 - Možné zúžení fulltextového vyhledávání
5.4 Manipulace s výsledky
Vzhledem k tomu, že pro výpočet relevance dat ke klíčovému slovu (dotazu), existuje algoritmus pro
výpočet pozice, na které se výsledná stránka zobrazí, jsou majitelé stránek, kteří se snaží mít takové
parametry, aby web algoritmus pozitivně vyhodnotil a stránku tak zobrazil na předních pozicích. Pro
majitele stránek totiž takovéto umístění znamená větší návštěvnost. V souvislosti s touto skutečností
by bylo vhodné zmínit dva hlavní marketingové proudy ve vyhledávačích.
SEO – disciplína, která se zabývá optimalizací stránky pro vyhledávače na určitý dotaz.
SEM – placené elektronické kampaně podporované vyhledávači (tvoří podstatnou část jejich
příjmu).
4
6. 6 Použitá literatura
KUBÍČEK, Michal. Velký průvodce SEO: jak dosáhnout nejlepších pozic ve vyhledávačích. Vyd. 1.
Brno: Computer Press, 2008, 318 s. ISBN 978-80-251-2195-5.
V knize je v úvodu popsán obecný princip vyhledávání.
Obsahuje informace o více vyhledávačích.
Autor knihy není pouze teoretik, ale danou problematikou se živí.
Obsahuje praktické ukázky optimalizace stránek pro vyhledávače (SEO), které jsou užitečné
pro pochopení principu vyhledávače.
V knize je uvedena spousta odkazů na další internetové stránky s podobnou tematikou.
FRNAKLIN, Curt. How Internet Search Engines Work. Howstuffworks [online]. [cit. 2013-01-06].
Dostupné z: http://computer.howstuffworks.com/internet/basics/search-engine.htm
Webová stránka, z které článek pochází, má dlouholetou historii a je průběžně aktualizována
(přibývají nové články).
Odkazy na stránce jsou aktivní.
Autor článku je uveden a pohybuje se v dané oblasti.
V článku se používá odborných termínů.
Na serveru jsou i jiné články, které se zabývají internetem.
GOOGLE. Picking the right search terms. Google [online]. [cit. 2013-01-06]. Dostupné z:
https://docs.google.com/document/d/1l4pS26nZLUok_-rx2_w5qu5aYy40p5gXX58l6dgE4_c/edit
Autor v tomto případě není známý, nicméně stránka byla vytvořena týmem Googlu.
Server je věrohodný (sám je vyhledávačem).
Protože vedle autorů ve společnosti pracuje i tým, který vyhledávač vyvíjí a vylepšuje, mají
autoři možnost konzultovat obsah textu.
Text je 100% správný pro zadávání řetězce ve vyhledávači Google, na druhou stranu text není
platný obecně.
Je zde velké množství obdobných článků, které jsou průběžně aktualizovány a rozšiřovány.
5