Составляем правильный robots txt для wordpress

Кроме установки плагинов, настройка сайта предусматривает создание и правильное заполнение robots.txt. Это обычный текстовый файл, в котором содержатся специальные инструкции (директивы) для поисковых роботов. Настройка robots.txt для wordpress имеет свои особенности, о которых я расскажу в этой статье.

Зачем нужен robots.txt

Посредством данного файла можно:

· запретить к индексации страницы и разделы вашего сайта, которые вы хотите скрыть от поисковиков (например, для того, чтобы в индекс не попала рабочая информация или страницы с дублирующимся контентом);
· прописать правильное «зеркалирование» доменного имени;
· указать ссылку на карту сайта;
· задать определенный интервал между скачиваниями с сервера документов.

Значение основных директив

«User-agent:» – метка, к какому именно поисковому роботу относится информация, записанная после этой сроки. Например, «User-agent: Yandex» показывает, что дальше следуют директивы для поискового паука Яндекса, «User-agent: *» – инструкции касаются всех поисковиков.

«Disallow:» – запрет к индексации. Например:

· Disallow: /wp-admin – запрет на индексацию папки «wp-admin»;
· Disallow: /wp-login.php – запрет на индексацию страницы /wp-login.php;
· Disallow: /*.pdf – запрет на индексацию всех имеющихся на сайте файлов в формате .pdf;
· Disallow: /blog$ – запрет на индексацию страниц, находящихся в папке blog, за исключением вложений.

«Allow:» – разрешение на индексацию определенных страниц. Например, «Allow: /site/*.html» говорит поисковикам о том, что в папке site можно индексировать только страницы в формате .html.

«Crawl-delay:» – указание временного интервала (в секундах, может быть в диапазоне 1-10), с которым поисковики должны запрашивать файлы (страницы) с сервера. Используется для снижения нагрузки на сервер. Например, «Crawl-delay: 2» означает, что такой интервал должен составлять 2 секунды. Данную информацию в robots.txt для wordpress указывать необязательно.

Как правильно составить robots.txt для wordpress

1. В текстовом редакторе создаем файл robots с расширением txt, открываем его.

2. Задаем нужные директивы:

User-agent: * //указываем, к какому поисковику обращаемся. В данном случае инструкция касается всех поисковиков.

Disallow: /cgi-bin //закрываем от индексации папку cgi-bin.

Disallow: /wp-admin //закрываем от индексации папку wp-admin/

И так далее для каждой папки, которую мы хотим скрыть от поисковиков. Обычно для сайтов на вордпресс, кроме вышеуказанных папок, желательно закрыть от роботов wp-comments, wp-feed, wp-trackback, wp-content/themes, wp-content/plugins, wp-content/cache, wp-includes, */comments, */feed, */trackback.

3. Указываем основной хост:

Host: nash-sait.ru.

4. Указываем путь к карте сайта:

http:// nash-sait.ru/sitemap.xml.

5. Сохраняем созданный нами robots.txt для wordpress, копируем его в корень сайта.

Важно:

· Редактировать и проверять правильность роботса можно с вебмастерских панелей поисковых систем. Для Гугла (google.com/webmasters) это будет пункт «Доступ для сканера» раздела «Конфигурация сайта», для Яндекса – «Анализ Robots.txt» раздела «Настройки индексирования» панели webmaster.yandex.ru.
· Помните, что инструкции robots.txt безоговорочно принимаются к выполнению только пауками Яндекса. Гугл воспринимает их в качестве рекомендаций. Поэтому в его индексе могут появиться страницы, запрещенные вами к индексации посредством роботса.
· Данный файл доступен для прочтения всеми пользователями. Не указывайте в нем пути к панелям управления или к админке. Тем более, что поисковики все равно не индексируют те страницы, для входа на которые необходимо указать логин/пароль.

Для тех, кому лениво разбираться 🙂 — готовый robots.txt здесь. Просто замените sales-text.ru на имя своего домена и положите файл в корневую папку сайта.

Профессиональное создание и продвижение интернет-проектов

Качественно, быстро, недорого!

Один комментарий к “Составляем правильный robots txt для wordpress”

Добавить комментарий для Илья Отменить ответ

Быстрая заявка на консультацию