БЕСПЛАТНАЯ КОНСУЛЬТАЦИЯ

Настройка индексирования сайта в Яндексе: от теории к практике

Настройка индексирования сайта в Яндексе: от теории к практике


В данной статье рассматриваются вопросы индексации нового сайта и разбирается несколько вопросов о переезде сайтов на HTTPS.

Настройка индексирования сайта в Яндексе: от теории к практике

НАСТРОЙКА ИНДЕКСИРОВАНИЯ НОВОГО САЙТА

При работе над новым сайтом у вас возникает огромное количество вопросов:

  • Как организовать каталог?
  • Куда разместить информационные статьи?
  • Что делать с фильтрами?

Но один вопрос возникает практически у каждого вебмастера:Что делать со страницей пагинации, фильтрами и сортировкой?

ПАГИНАЦИЯ

Для страниц пагинации рекомендуется использовать атрибут rel=»canonical» тега link  с указанием на главную страницу каталога, где будут собраны все Ваши товары из определенного раздела или это будет первая страница пагинации в зависимости от того, как организован ваш каталог.

Тег rel=»canonical» вы можете использовать для исключения страниц пагинации из результатов поиска. Теги rel=»next» и rel=»prev» робот Яндекса игнорирует

Практический пример: несколько страниц пагинации

Рис. 1. Практический пример: несколько страниц пагинации. Для их исключения достаточно «canonical». В этом случае в поиске будет участвовать первая страница вашего каталога или первая страница пагинации.

Подробнее об использовании атрибута Rel canonical для указания канонического адреса страниц и предотвращения дублирования контента

СОРТИРОВКИ, ФИЛЬТРЫ, UTM-МЕТКИ

Что делать со страницами фильтров и сортировки? Для них нужно использовать файл robots.txt, чтобы индексирующий робот не посещал подобные страницы, не загружал и не добавлял информацию о них в свою базу, а также страницы не появлялись в поисковой выдаче.

Рассмотрим страницы сортировки, выбор по размеру и фильтры. Такие страницы лучше запретить от индексации с помощью следующих правил в файле robots.txt:

  • User-agent: *
  • Disallow: *size=*
  • Disallow: *sort=*
  • Disallow: */filter/*

Что делать с UTM-метками? Содержащими параметр, по которому можно отследить, откуда к Вам пришел посетитель, из какой рекламной компании. Для таких меток есть прекрасная директива clean-param.

Файл robots.txt будет выглядеть следующим образом:

  • User-agent: Yandex
  • Сlean-param: utm_sourse&utm_medium&utm_campaign

Перечисленные метки не будут учитываться роботом. Робот не будет загружать и включать подобные страницы в поисковую выдачу.

Важно: поисковые факторы ранжирования с неканонической страницы учитываются для канонической страницы.

ДУБЛИ: КАК УСТРАНИТЬ, ЧТО С НИМИ ДЕЛАТЬ?

В зависимости от того, с какими дублями вы столкнулись, можно использовать несколько способов и методов борьбы с ними.

  1. Используйте 301 редирект в случае, если дубли – это страница со слешем или без слеша в конце адреса страницы.
  2. Если это служебные страницы, то используем запрет в файле robots.txt.
  3. Можно использовать rel=»canonical» для дублей одного и того же товара в нескольких категориях  и для указания только одного товара, который нужно включать в поисковую выдачу.

Важное правило: Если страницы не были доступны для посетителей Вашего сайта, они не могли взять эту ссылку и разместить на тематическом форуме, не пересылали ее друг другу, то такие страницы лучше запрещать в файле robots.txt. Если страницы были доступны для пользователей, то можно использовать rel=»canonical» или 301 перенаправление на канонические адреса.

ФАЙЛ ROBOTS.TXT ДЛЯ НОВОГО САЙТА

Рассмотрим небольшой чек-лист robots.txt  для нового сайта.

  1. Запрещайте к индексации страницы сортировки фильтров, подбора товаров, различные UTM-метки, идентификаторы сессий.
  2. Обязательно запрещайте страницы действий: добавление в сравнение, добавление в корзину, поиск по сайту.
  3. Нужно запрещать данные пользователей: личный кабинет, различные данные по доставке, адреса, телефоны.
  4. Указываем директиву Host с адресом главного зеркала, по которому ваш сайт будет участвовать в поиске.
  5. Указываем директиву Sitemap с адресом соответствующего файла.

Проверить составленный файл robots.txt можно в сервисе Яндекс.Вебмастер с помощью соответствующего инструмента. Посмотрите, какие правила робот использует при обходе Вашего сайта.

Дополнительно: Если проанализировать загруженные роботом страницы, то можно увидеть, что на них содержатся адреса страниц с действиями: голосовалки, экшены, лайки и дизлайки. Такие страницы лучше запрещать в файле robots.txt, поскольку обращения от роботов могут быть восприняты как обращения от обычных посетителей.

РАБОТА С ПРОИНДЕКСИРОВАННЫМ САЙТОМ

Все пользователи поисковой системы хотят, чтобы в результатах поиска участвовала наиболее актуальная и свежая информация. Поэтому перед каждым из Вас встает вопрос: Как устроить индексирование вашего сайта?

Существует три пункта, следуя которым можно повлиять на скорость индексирования вашего ресурса.

1. ЗАПРЕТ ИНДЕКСИРОВАНИЯ НЕНУЖНЫХ СТРАНИЦ

Первый – это самый главный пункт: не разрешайте роботу индексировать то, что не нужно.

Вопрос касательно индексации сайта

Рис. 2. Разбор на практике. Существует сайт, где большая разница между числом загруженных страниц и страниц в поиске. 

Почему так много загруженных страниц? Список всех загруженных страниц можно скачать из Яндекс.Вебмастера.

Как еще можно получить загруженные страницы? Каким образом их можно увидеть? В данном случае страниц в поиске всего 270. Где остальные 300 тысяч?

Берем архив из Яндекс.Вебмастера и видим, что по данному сайту существует огромное количество адресов следующего вида:

Это случайный параметр, который ничего не меняет на странице: ничего не происходит, контент не меняется. Такие страницы разрешены в robots.txt, отвечают кодам 200. Робот загружает и добавляет их в свою базу.

Если проанализировать архив, можно увидеть огромное количество загруженных страниц, из них процентов 80–90 % – это страницы действий (в данном случае – это страницы покупки). Они перенаправляют на страницы корзины и доступны для робота. Робот находит ссылки на них, «кликает» и добавляет их в свою базу.

Все подобные страницы лучше запрещать в файле robots.txt. Со временем данные о них будут удалены из базы робота и они пропадут из сервиса Яндекс.Вебмастер. Количество загруженных страниц уменьшится.

ИНДЕКСИРОВАНИЕ И УЧАСТИЕ ЗАГРУЖЕННЫХ СТРАНИЦ В ПОИСКЕ

Почему так мало страниц в поиске? Если проанализировать исходный код страниц сайта с товарами, то можно увидеть стандартные метатеги для всего каталога и текстовое описание внизу страницы.

Индексация страниц сайта с минимальным количеством контента

Рис. 3. Стандартные метатеги для всего каталога и текстовое описание внизу страницы

Если Вы хотите, чтобы такие страницы с товарами индексировались и участвовали в поиске, над страницами нужно поработать:

  1. Уникализировать метатеги, которые установлены на странице.
  2. Добавить больше текстового описания, рекомендации, отзывы от покупателей и так далее.
  3. Нужно хотя бы добавить фотографию, чтобы узнать об отсутствии ошибки с выбором ножки.

Нужно работать над такими страницами, и они смогут появиться в поисковой выдаче.

2. АНАЛИЗ ЛОГОВ СЕРВЕРА

Страницы, к которым обращается индексирующий робот

Повлиять на индексирование Вашего сайта можно с помощью анализа логов сервера.

Что можно понять с помощью логов сервера?

Во-первых, можете увидеть, к каким именно страницам обращается индексирующий робот.

Анализ логов сервера - индексация страниц

Рис. 4. Пример логов сервера. Четыре запроса от робота

Если посмотреть повнимательнее, можно увидеть, какие параметры в них содержатся: параметры подбора, фильтров, кастинг-подбор и так далее.

Сразу видно, по каким служебным адресам идут запросы.

Из четырех запросов четыре были сделаны роботом к служебным страницам.

Вывод: Запрещайте индексацию служебных страниц в файле robots.txt.

Частота обращений от индексирующего робота

Второе, что можем увидеть в логах сервера, – это частоту обращений от индексирующего робота.

Как правило, к большому сайту робот совершает 1–2 обращения в секунду в зависимости от того, сколько страниц он знает на этом сайте. Если Вы видите, что в логах робот обращается реже, проверьте, установлена ли у Вас директива Crawl-delay. Очень часто она мешает индексировать большие ресурсы.

Также бывают ограничения со стороны хостинг-провайдера. Например, Вы добавили новый раздел на Ваш сайт, робот узнал о его наличии из файла Sitemap, начал обращаться, совершать 3–4 запроса в секунду. Хостер видит запросы робота и начинает отвечать медленнее, так как считает, что сайт подвергся DDOS-атаке.

Как реагирует робот? Робот видит, что сайт работает плохо: отвечал быстро, теперь – медленно. Робот уменьшает количество запросов, так как «думает», что он влияет на работу сайта. При уменьшении количества запросов, частота и скорость обновления информации в поиске падают.

Проверьте, нет ли у Вашего хостера аналогичных ограничений.

HTTP-коды ответов

Третье, что можно увидеть в логах сервера, – это HTTP-коды ответов. Каким образом это работает?

Известно, что доступная страница отвечает кодам 200. Но если, при большом количестве запросов, Ваш сайт начинает отвечать кодам 500, 503, 502 – то робот также снижает количество обращений к Вашему сайту, так как «думает» о проведении работ, о занятости сайта и о том, что лучше к нему реже обращаться. Обязательно смотрите на коды ответа.

Также можно посмотреть скорость ответа сервера – возврат первого и последнего байта. При этом Ваш сервер должен отвечать быстро не только на запрос одной страницы в несколько секунд, но и на запрос нескольких страниц в секунду. Готовьтесь к тому, что при добавлении нового раздела робот может увеличить частоту обращений. Если сервер отвечает медленно, индексирующий робот будет реже к нему обращаться.

3. ФАЙЛ SITEMAP

Вопрос: Добавляем новый раздел на сайт. Что же указывать в файле Sitemap: все адреса страниц или только новые страницы сайта?

Ответ: Здесь можно выбрать любой из вариантов: индексирующий робот, при получении Вашего файла Sitemap со списком всех страниц, проверяет известные ранее страницы и те страницы, которые только что появились на сайте.

При получении новых страниц робот начнет индексировать любые файлы: большой файл по всему сайту или отдельный файл с новым разделом. Новый раздел на сайте может появляться не только при постепенном добавлении информации на сайт, но и при редизайне, смене структуры.

ЧЕК-ЛИСТ ПРИ СМЕНЕ ДИЗАЙНА САЙТА И СТРУКТУРЫ

  1. Обязательно используйте 301 редирект, если меняются адреса страниц на Вашем сайте.
  2. Новые страницы указывайте в файле Sitemap.
  3. Если Вы ранее готовили новую версию сайта на техническом поддомене, а теперь заливаете ее на Ваш работающий сайт, то проверьте файл robots.txt. Очень часто возникает ситуация, когда вместе с техническим доменом и новым дизайном попадает запрещающий файл robots.txt. Сайт пропадает из поиска, и Вы теряете посетителей.
  4. Следите за тем, чтобы все метатеги на нужных страницах были прописаны.
  5. Текст должен быть доступен для робота.
  6. Важная информация не должна загружаться с помощью JavaScript. Робот не использует скрипты при обходе сайта и не увидит тот полезный контент, который Вы хотите ему отдать.
  7. Проверьте <noindex>.
  8. Проверьте, что rel=»canonical» ведет на нужные канонические страницы.
  9. Следите за появлением битых ссылок, которые потом могут попасть  в базу индексирующего робота.

ПЕРЕЕЗД САЙТА НА HTTPS

Как переехать на https, чтобы проблемы не возникали?

До начала переезда следует проверить:

  1. Во-первых, корректен ли сертификат, который Вы получили. Не будут ли посетители сайта видеть предупреждения в браузере о невалидности сертификата и его принадлежности другому сайту, или существует проблема в цепочке сертификатов. Проверить можно с помощью популярного сервиса www.ssllabs.com.
  2. Во-вторых, если Вы используете партнерский контент, например, загружаете видео с других сайтов, убедитесь, что они умеют работать по протоколу https. Очень часто партнеры не могут отдать тот или иной контент по защищенному протоколу.
  3. В-третьих, проверьте, что внутренние ссылки на https-версии ведут на https-страницы и они же указаны в файле Sitemap.

Поэтапный план переезда:

  • Добавляем сайт https в Яндекс.Вебмастер.
  • Устанавливаем директиву Host с указанием защищенного протокола в robots.txt.
  • Используем инструмент «Переезд сайта».
  • Ждем окончания переезда. В большинстве случаев это занимает 3–4 недели.

После того, как данные в Вебмастере обновятся, Вы можете установить перенаправление  с http-версии на HTTPS.

Следуйте рекомендациям Яндекс, все будет отлично!



Источник:  o-es.ru