Poslední středa: Online marketing a měření výkonu webu v e-commerce (Mirek Pe...
Analýza webu pomocí Xenu
1. +420 272 763 111 info@h1.cz www.h1.cz Xenu Vytěžte z Xenu maximum pro analýzu webu
2. Kontrola webu pomocí Xenu Základní informace o Xenu Primárně využívané pro hledání chybných odkazů Xenu kontroluje i další typy linků: obrázky styly, externí soubory vnořené rámce a další http://home.snafu.de/tilman/xenulink.html Nejnovější beta verze - http://home.snafu.de/tilman/tmp/xenubeta.zip
3. Co byste měli o Xenu vědět Nerespektuje direktivy uvedené v robots.txt. Neoznačí stránky se zakázanou indexací (pomocí robots.txt ani meta tagemrobots s hodnotou noindex. Xenu nerozlišuje parametr nofollow. Projde přes přesměrování pomocí meta refresh. Kontrola webu pomocí Xenu
4. Prvotní nastavení kontroly webu Kontrola se spustí pomocí tlačítka Check URL v hlavní nabídce Xenu. Běh Xenu je možné omezit pomocí zakázání adres. Do pole „Do not checkanyURLsbeginningwiththis:“ se přidají potřebné adresy. Adresa se musí přidat včetně domény webu, tedy například www.example.com/skript. Xenu pak bude ignorovat všechny adresy začínající „skript“, tedy např. www.example.com/skripty/, nebo www.example.com/skript.php. Kontrola webu pomocí Xenu
5. Prvotní nastavení kontroly webu Je také možné povolit adresy, které by jinak nebyly zahrnuty: Typicky pokud je úvodní stránka na jiné adrese, než www.example.com (například www.example.com/uvod) nebo pokud je web přes více subdomén. Do adresy pro kontrolu je potom nutné zadat URL homepage a povolit procházení celého webu. Do pole „ConsiderURLsbeginningwiththis as internal:“ se zadá doména webu ve tvaru www.example.com. Kontrola webu pomocí Xenu
7. Prvotní nastavení kontroly webu Z obrázku je patrné následující: Kontrola bude spuštěna nad webem http://www.slevomat.cz/. Úvodní stránka je na URL http://www.slevomat.cz/cs/. Xenu nemá kontrolovat stránky blogu, který je na adrese http://www.slevomat.cz/blog/. Nechceme kontrolovat externí odkazy (tlačítko „Checkexternallinks“). Kontrola webu pomocí Xenu
8. Podrobné nastavení Xenu Před spuštěním je dobré zvolit „More options“ a přizpůsobit další nastavení: Kontrola webu pomocí Xenu
9. Podrobné nastavení Xenu Parallelthreads udává počet souběžně stahovaných vláken. Doporučuji max. 5, aby nedošlo k zahlcení serveru. Apply to alljobs znamená, že si Xenu bude nastavení pamatovat i pro příští kontroly. Ask for password or certificate when needed – Xenu se zeptá na hesla. Je potřeba dát pozor, aby se potom robot nedostal například do administrace webu. Treatredirections as errors přidá do reportu přesměrované odkazy (hlavičky 301 a 302). Kontrola webu pomocí Xenu
10. Podrobné nastavení Xenu Ostatní nastavení slouží pro report, který nemusí být potřeba dělat vždy: FTP andgopherURLszreportuje odkazy na FTP soubory. Valid text URLs zobrazí seznam všech odkazů na webu. Site Map – Generovaná mapa webu není příliš použitelná a její vytvoření trvá u rozsáhlých webů velmi dlouho. OrphanFiles by mělo zobrazit osiřelé (nepoužívané) soubory, tento report ale nedává příliš smysl. Kontrola webu pomocí Xenu
11. Kontrola webu První kontrola webu odhalí přesměrované, nenalezené a další chybové odkazy. V druhém kroku se v options / preferences vypne volba Treatredirections as errors a opět se spustí kontrola webu (Ctrl+R). Xenu tak bude následovat přesměrované odkazy a lze zjistit, zda přesměrování vede na existující soubory. V posledním kroku se zaškrtne volba CheckexternalURLs v Options a opět se spustí běh Xenu (Ctrl+R). Report chybových externích odkazů. Kontrola webu pomocí Xenu
12. Zpracování reportů V každém kroku je nutné uložit report zvlášť (vzniknou tak 3 různé soubory – např. xenu1.xen, xenu2.xen a xenu3.xen) Výsledné soubory se v Xenu exportují jako soubory oddělené tabulátorem (File / Export to TAB separetedfile, nebo CTRL + T) a ty se importují do Excelu. Ne vždy je nutné dělat všechny 3 kontroly a reporty. Kontrola webu pomocí Xenu
13. Import dat do Excelu V novém sešitu vybereme kartu Data / Z textu > vybereme exportovaný soubor. V roletě Typ souboru se zvolí stejné kódování, jako má web (je vidět v Xenu, sloupec Charset). Dokončíme import. Označíme první řádek a přidáme mu Filtr (karta Data / Filtr). Kontrola webu pomocí Xenu
14. Reporty Z výstupů lze vytvořit několik reportů: Indexovatelné stránky: z prvního souboru se vyfiltrují stránky se Status-Code „200“ a zároveň Type „text/html“. Odkazy na neexistující URL. Z druhého (případně třetího) souboru se vyfiltrují stránky se Status-Code „404“, případně i dalšími chybovými kódy. Přesměrovaná URL: Větší počet přesměrovaných URL také není ideální. Z prvního souboru se vyfiltrují stránky se Status-Code „301“, případně “302”. Pokud se na webu objevují další typy chyb (např. chyba serveru 500), mohou se udělat i jejich reporty. Kontrola webu pomocí Xenu
15. Analýza reportů Analýza webu se obvykle dělá nad reportem indexovatelné stránky. Obsahuje stránky, které jsou na webu potencionálně dostupné pro uživatele a vyhledávače. Tj. stránky, na které vede odkaz z interní navigace. Ostatní reporty slouží ke kontrole chybných odkazů. Kontrola webu pomocí Xenu
16. Analýza webu Potencionální duplicitní a podobný obsah Obsah souboru se seřadí zároveň podle titulku a velikosti. Je možné si zvýraznit duplicitní záznamy označením sloupců a vybráním Podmíněné formátování > Zvýraznit pravidla buněk > Duplicitní hodnoty na kartě „Domů“. Porovnáním řádků lze zjistit možné duplicity – stránky se stejným titulkem a shodnou (podobnou ) velikostí. Obdobně lze zjistit obsahově velmi podobné stránky. Získaná data je nutné ručně ověřit. U zjištěných stránek je nutné prověřit, zda nejsou zakázané pro indexaci (robots.txt, meta tagrobots). Kontrola webu pomocí Xenu
17. Analýza webu URL adresy Struktura – klíčová slova, tvar, parametry Délka (cca do 70 znaků) Počet odchozích odkazů Seřazení obsahu souboru sestupně dle LinksOut Maximálně doporučených je cca 100, lepší je méně Kontrola webu pomocí Xenu
18. Analýza webu Velikost kódu Seřazení obsahu dle Size Zjištění nadměrně velkých souborů Struktura webu Seřazení souboru sestupně dle Links In (počet interních odkazů na danou stránku) Na obecné stránky ve vyšších patrech by mělo vést více odkazů než na stránky v nižších úrovních hierarchie. Kontrola webu pomocí Xenu