3. 1.1 Обхождане
Търсачките изпращат ботове, които обхождат линковете на
дадена страница и така намират ново или обновено
съдържание.
За това е важно:
● добрата вътрешна линк архитектура, за да сме сигурни че
важното съдържание ще бъде намерено
● линковете се обхождат линк по линк според HTML на
страницата
● линковете да не се реализират с технологии, които
търсачките не четат
4. 1.2 XML карти
Системните карти са друг начин за търсачките да откриват
съдържание и представляват списък от уеб адреси.
Особености:
● XML картите спомагат за обхождането, но не и за
позиционирането на страници
● използването на такива карти не оправдава лошата
архитектура на сайта
● никога не трябва да са единственият начин за намиране на
съдържание на сайта
5. 1.3 индексиране
Когато ботовете намерят дадена страница, те четат
съдържанието й и го асоциират с даден уеб адрес. Тази
информация се добавя в индекса (базата данни на
търсачката) и е достъпна при търсене.
Особености:
● търсачките се справят с индексирането на текст и текстови
документи (MS Office & PDF)
● НЕ се справят с индексирането на видео и картинки (на този
етап)
6. 1.4 JavaScript
JavaScript е интерпретиран език за програмиране,
разпространяван с повечето уеб браузъри. Търсачките не
могат да изпълняват JavaScript кодове.
Особености:
● линковете които са изпълнени с JavaScript са невидими за
Google
● не бива да се използват в менюта
● могат да се използват за деиндексиране
7. 1.5 Flash
Flash е мултимедиен формат използван за разработка на
интерактивно съдържание. Google твърдят че могат “по-
добре” да индексират съдържание в него, но това не означава
че индексират кой знае какво.
Особености:
● Flash е “течен”, Google не може да асоциира съдържание с
уеб адрес
● Flash може да се използва за всякакво съдържание, което
искаме да анимираме, но трябва да се даде възможност то е
ясно за търсачката и по друг начин
● препоръчва се използването на HTML5
8. 1.6 Рамки (iFrames)
Ако страницата използва код като <frame> or <iframe>,
търсачката счита съдържанието в него като чуждо.
Особености:
● може да се използва когато искате съдържание да не се
асоциира с вашия домейн
● широко се използва в агентски/партньорски програми
9. 1.6 Бисквитки (Cookies)
Cookie е малък дейта файл, който се пази в браузъра ви. Имат
различни приложения, като най-честото е да проследяват
потребителя докато браузва различни сайтове.
Особености:
● могат да се използват за показване на различно съдържание
(за езици, валути, локации)
● търсачките не могат да приемат бисквитки и виждат само
дефолтната страница за даден уеб адрес
● принципно се избягват в SEO, макар да има сериозни бизнес
причини да се използват
10. 1.7 Емулация на Googlebot
Ако не сте сигурни как Googlebot вижда сайта ви, можете да
си направите емулация.
За IE 10 и Chrome, използвайте този инструмент
За FireFox, използвайте този инструмент
Особености:
● понякога Google четат опростен JavaScript; ако не сте сигурни
дали линковете ви се виждат, използвайте симулатор
● с емулация се прави и проверка за клоакинг (cloacking)
11. 1.8 Изображения
Търсачките разпознават наличието на изображения, но не и
съдържанието им.
За да се помогне на търсачките в индексирането:
● image alt tag & title tag
● описателен текст около изображението
● описателен линк към изображението
12. 1.8 PDF § MS Office документи
PDF § MS Office документите могат да бъдат обхождани и
индексирани от търсачките.
Особености:
● да изпращате потребителя директно на PDF не е добра идея
● възприемат се като добър сигнал от търсачките
13. 1.9 Проверка на индексацията
● site:website.com (неточен метод)
● добавяне на XML карта в Google Webmaster tools (много добър
метод)
Обаче:
● Така не можете да правите анализ на конкуренцията
● Не можете да виждате кои точно страници са индексирани и
кои не, само общия им брой
14. 1.10 Контролиране на ботовете
● robots.txt - файл в основната директория, който казва на
ботовете какво нямат право да обхождат
● meta-robots tag - намира се в head секцията на сайта, и
контролира как ботовете интерактват със съдържанието и го
показват в резултатите
● X Robots - разполага се в HTTP хедърите и контролира как
ботовете интерактват и контролират съдържанието
15. 1.10 Контролиране на ботовете
Robots.txt Meta Robots X Robots
спира обхождането Да Не Не
спира обхождането Да Да Да
чисти уеб адреса от
индекса
Не Да Да
лесно за реализация Не Да Да
17. 2.1 какво е статус код?
Статус кодовете могат да се разглеждат като ОК и СТОП знаци от
страниците към търсачките.
Когато достъпят даден адрес, търсачките извикват съдържанието
на страницата от сървъра и заедно с него, идва и статус кода й,
който казва на търсачките дали да продължат с кролирането или
не.
18. 2.2 най-популярни статус кодове
200. Всичко е наред със страницата и бота може да обхожда,
кашира и индексира страницата.
301. Страницата е временно преместена към друг адрес, и бота
трябва да обхожда, кашира и индексира на новия адрес. Бота и
алогиритъма също предава пейдж ранка от старата към новата
страница. Посетителите също се пренасочват.
19. 2.2 най-популярни статус кодове
302. Страницата е временно преместена, адреса й не се маха от
индекса, пейдж ранк не се пренася на новия адрес.
404. Страницата вече не съществува. Ботовете след време сами
я махат от индекса.
500. Грешка в сървъра, съдържанието не може да се покаже.
503. Временно недостъпна страница, казва на ботовете да се
върнат по-късно. Препоръчва се когато сайта е в ремонт,
търсачките одобряват този код.
20. 2.2 как да намерите статус кода на страница
1. Безплатен инструмент от SEOconsultants.com
2. Уеб девелопър тулбар за Firefox
3. Безплатен плъгин за Chrome
21. 2.2 как да намерите статус кода на страница
1. Screaming Frog
2. Xenu
3. И една инфографика от Moz
4. Пълният списък със статус кодовете можете да намерите
тук
23. 3.1 конструкция
Всеки уеб адрес се състои от 4 или повече части:
1. Протокол - HTTP или HTTPs
2. Поддомейн - www или друг
3. Домейн - индивидуалното име
4. разширение (TLD) - .com, .org, etc
24. 3.2 поддомейни
Най-често се използват за да окажат части от сайта, която не
трябва да се счита част от основния сайт.
Търсачките третират поддомейните като отделни сайтове и
всякакъв авторитет който е добил сайта не се прехвърля на
поддомейна.
25. 3.3 оптимизация на уеб адрес
● уникален
● възможно най-кратък
● фокусиран върху ключови думи
Добре възприети сепаратори:
● тире (построени-ето-така)
● долна черта (построени_ето_така)
● плюс (построени+ето+така)
26. 3.4 параметри
Котвите често се използват за насочване в същата страница
www.website.com/ето#така
Те са приети в оптимизацията, защото търсачките игнорират
всичко след #, което е проблем при AJAX, но е ОК навсякъде
другаде.
Друг вид приети параметри са тракинг параметрите като
utm_source, каквито можете да строите с този инструмент.
28. 4.1 канонизация на начална страница
Това е първият и най-чест вид двойно съдържание, то се случва
когато уебсайта ви има повече от една начална страница:
website.com
www.website.com
website.com/index.html
www.website.com/index.html
В този случай се използва пренасочване 301, всеки друг вариант
обърква търсачките.
29. 4.2 решения
Има няколко варианта.
● да направите пренасочването още при сървъра
● да зададете предпочитаната www версия в GWT
30. 4.3 поддомейни, https, релативни връзки
● Поддомейните масово не се предпочитат за SEO, но понякога
в тях има бизнес или хостинг сетъп логика
● Абсолютният линк (website.com/link) и релативния линк
(/link) при вътрешния сетъп на сайта може да създаде
проблеми, особено когато се копира при поддомейни
● Подобен е случая с http и https страници, когато се използват
релативни (/link) връзки, при копирането в поддомейни
31. 4.4 огледални сайтове
Друг често срещан проблем е използването на едно и също
съдържание при два различни домейна, например:
website.com
website.net
Ако разполагате с повече от един домейн, по-добре е да
пренасочите с 301 новия към официалния.
32. 4.5 международни сайтове
Те също могат да са източник на двойно съдържание но не
винаги, например:
website.com
website.co.uk
Това е напълно аналогична ситуация на предната.
33. 4.6 принт версии
Основно се срещат при новинарските сайтове, например:
website.com/story-of-the-day
website.com/story-of-the-day/print
Най-лесното решение е да се използва rel=canonical таг.
34. 4.7 мобилни версии
Ако съдържанието е същото за десктоп и мобилна среда, пак
получавате двойно съдържание, например:
website.com/story-of-the-day
m.website.com/story-of-the-day/print
Отново универсалното решение е да използвате rel=canonical.
35. 4.8 резултати от търсене
Не винаги са проблемни, но определено са, когато:
● наподобяват като съдържание категорийните страници
● зареждат резултатите в рамка
Деиндексирайте ги.
36. 4.9 странициране
Възникват по същият начин както резултатите от търсене.
Решението е, като се използва rel=next и rel=prev тагове. По този
начин търсачките разбират, че страницата не е нужно да е в
индекса, но съдържанието й е част от по-голям списък с
продукти.
Друг вариант е да изключите параметъра си за страници от GWT.
Например, website.com/list.html?pages=5)
pages е параметъра който трябва да се отстрани